红联Linux门户
Linux帮助

Gecco 1.2.4发布,易用的轻量化爬虫

发布时间:2016-09-12 14:51:24来源:红联作者:baihuo
Gecco 1.2.4 发布了,DynamicGecco 实现了爬虫规则的热部署,是首个支持动态加载的java爬虫框架。

DynamicGecco 的目的是在不定义 SpiderBean 的情况下实现爬取规则的运行时配置。其实现原理是采用字节码编程,动态生成 SpiderBean,而且通过自定义的 GeccoClassLoader 实现了抓取规则的热部署。使用方法可以参考《教您使用DynamicGecco抓取JD全部商品信息》这个DEMO:

http://www.geccocrawler.com/dynamic-demo-jd/

更新内容:

1、修复GeccoEngine生命周期EventListener,onStart无效的bug

2、修改图片自动下载方式,对@Image提供单独的渲染器ImageFieldRender

3、修复大规模爬取时有时httpclient阻塞的bug

4、优化异常处理,RenderException将不会中断渲染和pipeline处理,而是记录日志

5、升级guava到最新的19.0版本

下载地址:http://mvnrepository.com/artifact/com.geccocrawler/gecco

来自:开源中国社区
文章评论

共有 0 条评论