红联Linux门户
Linux帮助

Ansj中文分词1.41发布

发布时间:2014-05-14 09:29:47来源:红联作者:empast
ansj中文分词是一个完全开源的,基于google语义模型+条件随机场模型的中文分词的java实现.具有使用简单开箱即用等特点。分词速度达到每秒钟大约100万字左右(mac air下测试),准确率能达到96%以上

源码下载

https://github.com/ansjsun/ansj_seg/

文档说明

http://ansjsun.github.io/ansj_seg/

在线演示

http://demo.ansj.org/page/index.html

联系作者

http://weibo.com/ansjsun

Ansj 中文分词 1.41 版本发布,

新增功能

增加了调用文档说明

调整了关键词抽取

增加了摘要计算

关键词标红

大幅度提高了命名实体识别

对于词性标注提供了基于概率的快速标注方式.依旧保留给予隐马模型的词性标注.

修复了目前已知的所有bug

大量修正了之前默认用户自定义词典中词性错误

提供了给予crf++ wapiti等条件随即场工具的调用接口.用户可以及自定义训练model

增加了目前对最新版的lucene , solr(@梁山伯) elasticsearch(@4onni) 开源第三方搜索框架的分词插件.

来自:开源中国社区
文章评论

共有 0 条评论