“结巴分词” 自推出以来收到了很多网友的反馈,其中“关键词提取”是一个被普遍要求加入的功能。
jieba 0.18已经有了一个简单的关键词提取功能,基本原理是对文本分词后,按照tf/idf的权重进行排序,然后取权重较大的几个。
功能:关键词提取
jieba.analyse.extract_tags(sentence,topK) #需要先import jieba.analyse
setence为待提取的文本
topK为返回几个权重最大的关键词,默认值为20
代码示例 (关键词提取)
https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py
关键词提取功能在线演示
http://209.222.69.242:9000/ex
来自:开源中国社区

