jcseg 1.8.2版发布了:
1. 新加入英文停止词过滤, 虽然在1.8.1版中就加入了停止词过滤功能, 但是那是中文的, 忘记把英文的加上去了.
2. 去除同义词长度大于Config.MAX_LENGTH的同义词加载. 词条同义词集合中, 长度大于Config.MAX_LENGTH的同义词没有必要追加到词库中.
3. 应网友要求, 升级JcsegAnalyzer到JcsegAnalyzer4X, 用于支持最新版lucene4.3, 在此感慨下lucene API更新太快了, 而且变化也挺大的.
用法:
view sourceprint?1 Analyzer jcseg = new JcsegAnalyzer4X(Config.COMPLEX_MODE); //使用复杂模式
4.在lex-stopwords.lex中加入了几百个中英文停止词.
在此, 感谢网友的关注和支持.
项目主页:http://code.google.com/p/jcseg/
下载地址:http://code.google.com/p/jcseg/downloads/list
来自:开源中国社区