红联Linux门户
Linux帮助

web爬虫 Heritrix

发布时间:2012-08-14 15:42:43来源:红联作者:empast
Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。

主页:https://webarchive.jira.com/wiki/display/Heritrix/Heritrix;jsessionid=95B95C35588986DA26D2140010748573

下载:http://crawler.archive.org/downloads.html

来自:开源中国社区
文章评论

共有 0 条评论