红联Linux门户
Linux帮助

jcseg-1.8.8发布 - 词库更新自动加载+自定义配置文件+中英混合词识别

发布时间:2013-07-10 15:04:31来源:红联作者:empast
jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.

jcseg-1.8.8版本发布了, 这次的更新项比较多, 主要如下:

1. 中英混合词的识别:

不是已经支持中英混合词的识别了吗?
哈, 只能说是我说错了, 那是英中混合词的识别, 例如: b超, x射线. 这次的词是诸如: 卡拉ok, 奇都ktv, 漂亮mm等中文在前, 英文在后的词.

jcseg专门为此类词条建立了一个词库分类, 存放在lex-cemixed.lex词库中. 原来的lex-mixed.lex改名为了lex-ecmixed.lex.

2. 词库更新自动加载:

原来, 如果你更改了词库, 需要重启jcseg相关服务, 对于词库需要经常更新的系统来说确实很不方便.
从jcseg-1.8.8开始, 你只要把需要重新加载的词库文件名放在lexicon下的lex-autoload.todo文件中, jcseg会自动给你加载. 前提是在jcseg.properties中开启lexicon.auto=1, jcseg会启动一个守护线程来自动检测词库的更新.

3. 自定义配置文件:

有网友反馈说他们的项目复杂, 配置文件都是统一管理, 但是jcseg只支持固定的几个目录配置文件查找, 还确实不方便. 这也是设计一个瑕疵. 从1.8.8版本开始, 你可以指定JcsegTaskConfig从指定的jcseg.properties文件初始化, 也就是配置文件可以放在任何地方.

4. 内部优化:

最大的更改在词库上面, 因为需要自动加载词库, 词库的同步是个问题.
从1.8.8开始, jcseg的词库分为同步词库和非同步词库. 如果需要词库自动更新服务, jcseg会自动创建同步词库, 如果没有此类操作, jcseg会创建非同步词库(速度更快).

5. 文档优化:

新发布的开发文档中包含对jcseg API和词库API进行了详细的说明. 此次还对jcseg.properties配置文件进行了分类排版, 方便阅读更改.

开发帮助文档中有对上述功能的详细使用说明.

感谢网友的关注和反馈.

官方首页:http://code.google.com/p/jcseg/

免费下载:http://code.google.com/p/jcseg/downloads/list

来自:开源中国社区
文章评论

共有 0 条评论