红联Linux门户
Linux帮助

Friso-1.5.0发布 - C语言高性能中文分词器 - 多配置+繁体支持

发布时间:2013-11-28 11:33:32来源:红联作者:empast
Friso中文分词器friso是使用c语言开发的一个开源中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入其他程序中,例如:MySQL,PHP,源码无需修改就能在各种平台下编译使用,并且提供了一个php的扩展: robbe. 目前支持UTF-8编码.

friso-1.5:

1. 加入sphinx定制输出, 同义词使用"|"串接, 例如: 研究|琢磨|研讨|钻研 生命

2. 修正了全部的tst-xxx源文件. friso API更改后测试样本文件没更改.

3. 修复friso.c#next_basic_latin中"数字+空格+单位"组合中忽略空格直接组合数字和单位的bug

4. 修复friso.c#next_basic_latin中"数字+中文+空格"组合切分乱码的bug

5. 引入friso_config_t多配置使用避免全局配置带来的更改不便, 更好的适合并发.

6. 将最新版本的Jcseg词库转换一份得到了Friso的繁体词库, 当然, 本身Friso已经支持了繁体切分, 只要放入繁体词库即可. 同时也可以使用简繁体的混合词库实现简繁体的相互切分.

另外Friso已经托管到git@osc: http://git.oschina.net/lionsoul/friso

git@osc中最新发布了一份开发帮助文档.

项目主页:http://code.google.com/p/friso/

下载地址:http://code.google.com/p/friso/downloads/list

来自:开源中国社区
文章评论

共有 0 条评论