红联Linux门户
Linux帮助

ansj中文分词5.0.1发布

发布时间:2016-07-31 09:27:16来源:红联作者:baihuo
ansj中文分词是一个完全开源的,基于google语义模型+条件随机场模型的中文分词的java实现.具有使用简单开箱即用等特点。分词速度达到每秒钟大约100万字左右(mac air下测试),准确率能达到96%以上.

更新内容:

需改歧义词典的格式,修复%作为量词存在

对新词的新词发现提供了词性分析功能,不再词性全部标注为nw

重新训练新词发现模型,针对机构名做了大量调优,

测试地址:http://www.nlpcn.org/demo.jsp

软件详情:https://github.com/NLPchina/ansj_seg

来自:开源中国社区
文章评论

共有 0 条评论