红联Linux门户
Linux帮助

jcseg-1.9.3发布 - Java轻量级开源中文分词器-maven托管+优化

发布时间:2014-02-27 11:07:39来源:红联作者:empast
Jcseg是使用java开发的一款轻量级的开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.

Jcseg-1.9.3更新内容:

1. 更改为maven托管,同时也支持原始的ant编译,毕竟现在大部分的项目都使用了maven托管。

2. 优化复杂英文组合的二次切分,减少了一些没必要的追加调用。

3. 更换了复杂英文切分中二次切分词条和原词条的输出顺序,因为同义词追加的功能,二次切分的词条放在前面更合理。

4. 修复词库加载停止词长度限制判断的bug(老bug了)。

5. PushbackReader的内存溢出bug。
使用JDK自带的PushbackReader需要指定缓冲区的大小,虽然我选择了一个合适的值,但是还是出现了网友报告缓冲区溢出的错误,这次重写了IPushbackReader,提供类似PushbackReader类似的接口,不会再出现该问题。

感谢广大网友的一直关注和反馈。

祝大家工作愉快。

项目主页:http://code.google.com/p/jcseg/

下载地址:http://sourceforge.net/projects/jcseg/files/

来自:开源中国社区
文章评论

共有 0 条评论