jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.
jcseg-1.8.8版本发布了, 这次的更新项比较多, 主要如下:
1. 中英混合词的识别:
不是已经支持中英混合词的识别了吗?
哈, 只能说是我说错了, 那是英中混合词的识别, 例如: b超, x射线. 这次的词是诸如: 卡拉ok, 奇都ktv, 漂亮mm等中文在前, 英文在后的词.
jcseg专门为此类词条建立了一个词库分类, 存放在lex-cemixed.lex词库中. 原来的lex-mixed.lex改名为了lex-ecmixed.lex.
2. 词库更新自动加载:
原来, 如果你更改了词库, 需要重启jcseg相关服务, 对于词库需要经常更新的系统来说确实很不方便.
从jcseg-1.8.8开始, 你只要把需要重新加载的词库文件名放在lexicon下的lex-autoload.todo文件中, jcseg会自动给你加载. 前提是在jcseg.properties中开启lexicon.auto=1, jcseg会启动一个守护线程来自动检测词库的更新.
3. 自定义配置文件:
有网友反馈说他们的项目复杂, 配置文件都是统一管理, 但是jcseg只支持固定的几个目录配置文件查找, 还确实不方便. 这也是设计一个瑕疵. 从1.8.8版本开始, 你可以指定JcsegTaskConfig从指定的jcseg.properties文件初始化, 也就是配置文件可以放在任何地方.
4. 内部优化:
最大的更改在词库上面, 因为需要自动加载词库, 词库的同步是个问题.
从1.8.8开始, jcseg的词库分为同步词库和非同步词库. 如果需要词库自动更新服务, jcseg会自动创建同步词库, 如果没有此类操作, jcseg会创建非同步词库(速度更快).
5. 文档优化:
新发布的开发文档中包含对jcseg API和词库API进行了详细的说明. 此次还对jcseg.properties配置文件进行了分类排版, 方便阅读更改.
开发帮助文档中有对上述功能的详细使用说明.
感谢网友的关注和反馈.
官方首页:http://code.google.com/p/jcseg/
免费下载:http://code.google.com/p/jcseg/downloads/list
来自:开源中国社区

