红联Linux门户
Linux帮助

结巴分词0.20发布 Python中文分词组件

发布时间:2012-11-07 10:35:00来源:红联作者:empast
结巴分词: 做最好的Python中文分词组件

有很多网友提了issue,希望jieba支持词性标注,因为他们做文本分析有时只需要某种词性的词,比如名词。

结巴0.20版增加了词性标注功能,由于是纯Python实现,对算法做了很多裁剪以免速度太慢。

标注句子分词后每个词的词性,采用和ictclas兼容的标记法。

主页:https://github.com/fxsjy/jieba

来自:开源中国社区
文章评论

共有 0 条评论