此次更新主要包括Scheduler的一些改动,对于自己定制过Scheduler的用户,强烈推荐升级。
修复了RedisScheduler无法去重的BUG,感谢@codev777 仔细测试并发现问题。 #117
对Scheduler进行了重构,新增了接口DuplicateRemover,将去重单独抽象出来,以便在同一个Scheduler中选择不同的去重方式。 #118
增加了BloomFilter去重方式。BloomFilter是一种可以用极少的内存消耗完成大量URL去重的数据结构,缺点是会有少量非重复的URL被判断为重复,导致URL丢失(小于0.5%)。
项目主页:http://git.oschina.net/flashsword20/webmagic
来自:开源中国社区