红联Linux门户
Linux帮助

Java中文分词组件word分词v1.0发布了

发布时间:2014-05-01 09:03:19来源:红联作者:empast
word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch插件。

word分词提供了简单易用的分词接口,支持Lucene、Solr、ElasticSearch,支持用户显式指定分词算法,支持用户自定义配置文件、自定义用户词库,支持自动检测词库变化。此外,还提供了分词效果评估功能和词向量体验功能。

下载地址:http://pan.baidu.com/s/1o6yQmJg

来自:开源中国社区
文章评论

共有 0 条评论