红联Linux门户
Linux帮助

中文分词库 Paoding

发布时间:2012-11-19 16:36:16来源:红联作者:empast
庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。Paoding中文分词追求分词的高效率和用户良好体验。

Paoding's Knives 中文分词具有极高效率和高扩展性。引入隐喻,采用完全的面向对象设计,构思先进。

高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。

采用基于不限制个数的词典文件对文章进行有效切分,使能够将对词汇分类定义。

能够对未知的词汇进行合理解析。

主页:http://code.google.com/p/paoding/

下载:http://code.google.com/p/paoding/downloads/list

来自:开源中国社区
文章评论

共有 0 条评论