红联Linux门户
Linux帮助

结巴分词0.18发布Python中文分词组件

发布时间:2012-10-16 15:10:37来源:红联作者:empast
“结巴分词” 自推出以来收到了很多网友的反馈,其中“关键词提取”是一个被普遍要求加入的功能。

jieba 0.18已经有了一个简单的关键词提取功能,基本原理是对文本分词后,按照tf/idf的权重进行排序,然后取权重较大的几个。

功能:关键词提取
jieba.analyse.extract_tags(sentence,topK) #需要先import jieba.analyse
setence为待提取的文本
topK为返回几个权重最大的关键词,默认值为20

代码示例 (关键词提取)

https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py

关键词提取功能在线演示

http://209.222.69.242:9000/ex

来自:开源中国社区
文章评论

共有 0 条评论