Friso中文分词器friso是使用c语言开发的一个开源中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入其他程序中,例如:MySQL,PHP,源码无需修改就能在各种平台下编译使用,并且提供了一个php的扩展: robbe. 目前支持UTF-8编码.
friso-1.5:
1. 加入sphinx定制输出, 同义词使用"|"串接, 例如: 研究|琢磨|研讨|钻研 生命
2. 修正了全部的tst-xxx源文件. friso API更改后测试样本文件没更改.
3. 修复friso.c#next_basic_latin中"数字+空格+单位"组合中忽略空格直接组合数字和单位的bug
4. 修复friso.c#next_basic_latin中"数字+中文+空格"组合切分乱码的bug
5. 引入friso_config_t多配置使用避免全局配置带来的更改不便, 更好的适合并发.
6. 将最新版本的Jcseg词库转换一份得到了Friso的繁体词库, 当然, 本身Friso已经支持了繁体切分, 只要放入繁体词库即可. 同时也可以使用简繁体的混合词库实现简繁体的相互切分.
另外Friso已经托管到git@osc: http://git.oschina.net/lionsoul/friso
git@osc中最新发布了一份开发帮助文档.
项目主页:http://code.google.com/p/friso/
下载地址:http://code.google.com/p/friso/downloads/list
来自:开源中国社区

