红联Linux门户
Linux帮助

结巴分词0.23发布,Python中文分词组件

发布时间:2012-12-13 10:24:37来源:红联作者:empast
结巴分词:做最好的中文分词组件

0.23版主要修复了之前版本不能识别中英混合词语的问题。

由于之前的版本在"初分"阶段便把中文和英文分开了,所以不能识别中英混合的词语, 比如“B超”,“T恤”。

现在,用户还可以通过自定义词典来添加新的混合词,比如“长袖T恤”,“江南style"

主页:https://github.com/fxsjy/jieba

来自:开源中国社区
文章评论

共有 0 条评论