红联Linux门户
Linux帮助

Web爬虫框架 Smart and Simple Web Crawler

发布时间:2012-08-14 15:32:31来源:红联作者:empast
Smart and Simple Web Crawler是一个Web爬虫框架。集成Lucene支持。该爬虫可以从单个链接或一个链接数组开始,提供两种遍历模式:最大迭代和最大深度。可以设置过滤限制爬回来的链接,默认提供三个过滤器ServerFilter、BeginningPathFilter和 RegularExpressionFilter,这三个过滤可用AND、OR和NOT联合。在解析过程或页面加载前后都可以加监器。

下载:http://java.net/projects/crawler/

来自:开源中国社区
文章评论

共有 0 条评论