红联Linux门户
Linux帮助

开源中文分词系统 HTTPCWS

发布时间:2012-11-19 21:29:18来源:红联作者:empast
HTTPCWS是一款Linux下的基于HTTP协议的开源中文分词系统,采用BSD协议。

这个分词系统是对中国科学院计算技术研究所免费提供的 ICTCLAS 3.0 共享版分词后的结果,再采用逆向最大匹配算法,根据作者自己补充的一个9万条词语的自定义词库,对ICTCLAS分词结果进行合并处理,输出最终分词结果。目前只支持GBK编码。

经过测试,局域网内 HTTPCWS 接口中文分词平均处理速度(Wait时间):0.001秒,每秒可处理5000~20000次请求。

主页:http://code.google.com/p/httpcws/

下载:http://code.google.com/p/httpcws/downloads/list

来自:开源中国社区
文章评论

共有 0 条评论