红联Linux门户
Linux帮助

Duke 1.2发布,重复记录剔除方案

发布时间:2014-02-16 09:36:44来源:红联作者:empast
Duke 1.2 发布,此版本添加了基于块的更快的后端:一个在内存中,一个基于 MapDB;同时添加了一个记录实现,只使用了 50% 的内存;其他一些改进。

Duke 是一个快速灵活的去除重复数据的引擎,基于 Lucene 开发,普通笔记本电脑可以在 11 分钟内处理完 100 万条记录。

项目主页:http://code.google.com/p/duke/

下载地址:https://github.com/larsga/Duke

来自:开源中国社区
文章评论

共有 0 条评论