红联Linux门户
Linux帮助

中文分词 Ansj

发布时间:2012-11-20 09:22:22来源:红联作者:empast
这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化

内存中中文分词每秒钟大约100万字(速度上已经超越ictclas)

文件读取分词每秒钟大约30万字

准确率能达到96%以上

目前实现了.中文分词. 中文姓名识别 . 用户自定义词典

可以应用到自然语言处理等方面,适用于对分词效果要求搞的各种项目.

主页:https://github.com/ansjsun/ansj_seg

下载:https://github.com/ansjsun/ansj_seg/downloads

来自:开源中国社区
文章评论

共有 0 条评论