结巴分词:做最好的Python中文分词组件。
jieba 0.21 主要包含以下两点更新:
1)修复了全模式分词中散字过多的问题
有网友在结合搜索引擎whoosh和jieba的过程中,发现cut_all=True这种模式下切分的散字过多,现已修复。
2)用户自定义词典函数load_userdict支持file-like object作为输入
此功能有网友felixonmars添加,详见:https://github.com/fxsjy/jieba/pull/13
主页:https://github.com/fxsjy/jieba
来自:开源中国社区

