红联Linux门户
Linux帮助

jcseg-1.8.9发布-词性标注+标点切分+IntArrayList优化+bug修复

发布时间:2013-09-09 21:45:14来源:红联作者:empast
jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.

jcseg-1.8.9发布了:

具体更新如下:

1. 保留英文半全角标点和CJK标点符号切分(可通过停止词过滤掉,默认全部过滤掉了).

2. 词性标注. jcseg很早就半支持词性标注了, 这次彻底的完善了下, 当然在你使用这个功能前, 你需要完善词库的词性标注, jcseg的词性标注主要依赖词库来实现. jcseg词性

3. IStringBuffer#deleteCharAt bug修复.
这个感谢网友: xuyi...@gmail.com

4. 修复英文字母和标点组合词(些许组合时无法识别)识别的一个bug.

5. 更改了词库加载时一个问题, 词库重载时, 防止重复加载同义词和词性.
从1.8.8开始, jcseg支持词库更新自动加载, 重复加载会导致词性和同义词的重复追加, 哈, 这个是紧急修复.

6. 基本数据类型存储使用IntArrayList代替了ArrayList, 减少了拆解箱.
jcseg加入了IntArrayList工具来代替, 基本数据类型的ArrayList存储, 减少没必要的拆解箱.

7. 依据网友建议修改了开发帮助文档.

感谢网友的建议和反馈, 祝大家工作愉快!

官方首页:http://code.google.com/p/jcseg/

免费下载:http://code.google.com/p/jcseg/downloads/list

来自:开源中国社区
文章评论

共有 0 条评论