jieba"结巴"中文分词:做最好的Python中文分词组件
Feature支持两种分词模式:
1)默认模式,试图将句子最精确地切开,适合文本分析;
2)全模式,把句子中所有的可以成词的词语都扫描出来,适合搜索引擎。
Usage自动安装:python setup.py install
手动安装:将jieba目录放置于当前目录或者site-packages目录
通过import jieba 来引用 (第一次import时需要构建Trie树,需要几秒时间)
Algorithm基于Trie树结构实现高效的词图扫描,生成句子中汉字构成的有向无环图(DAG)
采用了记忆化搜索实现最大概率路径的计算, 找出基于词频的最大切分组合
对于未登录词,采用了基于汉字位置概率的模型,使用了Viterbi算法
主页:https://github.com/fxsjy/jieba
下载:https://github.com/fxsjy/jieba/downloads
来自:开源中国社区

