gecco 1.0.7 发布了。gecco是一种轻量化网络爬虫,同时也是一款拥有很好扩展性的框架。
主要特征:
1、简单易用,使用jquery的css selector风格抽取元素
2、支持页面中的异步ajax请求
3、支持页面中的javascript变量抽取
4、利用Redis实现分布式抓取
5、支持下载时UserAgent随机选取
6、支持下载代理服务器随机选取
7、支持结合Spring开发业务逻辑
8、支持htmlunit扩展
增加jmx监控,监控指标包括:
1、爬虫基本信息
2、下载监控
3、内容抽取监控
软件详情:http://my.oschina.net/u/2336761/blog/644330
下载地址:https://github.com/xtuhcy/gecco
来自:开源中国社区

