红联Linux门户
Linux帮助

Python中文分词组件 jieba

发布时间:2012-11-20 09:30:12来源:红联作者:empast
jieba"结巴"中文分词:做最好的Python中文分词组件

Feature支持两种分词模式:
1)默认模式,试图将句子最精确地切开,适合文本分析;
2)全模式,把句子中所有的可以成词的词语都扫描出来,适合搜索引擎。
Usage自动安装:python setup.py install
手动安装:将jieba目录放置于当前目录或者site-packages目录
通过import jieba 来引用 (第一次import时需要构建Trie树,需要几秒时间)
Algorithm基于Trie树结构实现高效的词图扫描,生成句子中汉字构成的有向无环图(DAG)
采用了记忆化搜索实现最大概率路径的计算, 找出基于词频的最大切分组合
对于未登录词,采用了基于汉字位置概率的模型,使用了Viterbi算法

主页:https://github.com/fxsjy/jieba

下载:https://github.com/fxsjy/jieba/downloads

来自:开源中国社区
文章评论

共有 0 条评论