红联Linux门户
Linux帮助

结巴分词0.21发布 Python中文分词组件

发布时间:2012-11-24 10:13:25来源:红联作者:empast
结巴分词:做最好的Python中文分词组件。

jieba 0.21 主要包含以下两点更新:

1)修复了全模式分词中散字过多的问题

有网友在结合搜索引擎whoosh和jieba的过程中,发现cut_all=True这种模式下切分的散字过多,现已修复。

2)用户自定义词典函数load_userdict支持file-like object作为输入

此功能有网友felixonmars添加,详见:https://github.com/fxsjy/jieba/pull/13

主页:https://github.com/fxsjy/jieba

来自:开源中国社区
文章评论

共有 0 条评论