红联Linux门户
Linux帮助

gecco 1.0.8发布,易用的轻量化爬虫

发布时间:2016-03-30 15:05:16来源:红联作者:baihuo
gecco 1.0.8 发布了。

1.0.8版本主要做了如下修改:

1.GeccoEngine增加loop方法,支持不循环抓取。gecco默认将改为采用不循环抓取
2.支持移动端的UserAgent,通过GeccoEngine.mobile(true)设置
3.支持配置初始化地址,自动扫描classpath根目录下的starts.json文件
4.HttpResponse增加释放raw的方法
5.GeccoEngine增加close方法,爬取结束后可以释放downloader下载资源

gecco是一款易用的轻量化网络爬虫。十分的容易上手。

主要特征:

1.简单易用,使用jquery风格的选择器抽取元素
2.支持页面中的异步ajax请求
3.支持页面中的javascript变量抽取
4.利用Redis实现分布式抓取,参考gecco-redis
5.支持结合Spring开发业务逻辑,参考gecco-spring
6.支持htmlunit扩展,参考gecco-htmlunit
7.支持插件扩展机制
8.支持下载时UserAgent随机选取
9.支持下载代理服务器随机选取

软件详情:http://my.oschina.net/u/2336761/blog/648409

下载地址:http://mvnrepository.com/artifact/com.geccocrawler/gecco/1.0.4

来自:开源中国社区
文章评论

共有 0 条评论