ansj中文分词是一个完全开源的,基于google语义模型+条件随机场模型的中文分词的java实现.具有使用简单开箱即用等特点。分词速度达到每秒钟大约100万字左右(mac air下测试),准确率能达到96%以上
源码下载
https://github.com/ansjsun/ansj_seg/
文档说明
http://ansjsun.github.io/ansj_seg/
在线演示
http://demo.ansj.org/page/index.html
联系作者
http://weibo.com/ansjsun
Ansj 中文分词 1.41 版本发布,
新增功能
增加了调用文档说明
调整了关键词抽取
增加了摘要计算
关键词标红
大幅度提高了命名实体识别
对于词性标注提供了基于概率的快速标注方式.依旧保留给予隐马模型的词性标注.
修复了目前已知的所有bug
大量修正了之前默认用户自定义词典中词性错误
提供了给予crf++ wapiti等条件随即场工具的调用接口.用户可以及自定义训练model
增加了目前对最新版的lucene , solr(@梁山伯) elasticsearch(@4onni) 开源第三方搜索框架的分词插件.
来自:开源中国社区