红联Linux门户
Linux帮助

Gecco 1.2.3发布,易用的轻量化爬虫

发布时间:2016-08-19 11:05:24来源:红联作者:baihuo
Gecco 1.2.3 发布了,DynamicGecco 实现了爬虫规则的热部署,是首个支持动态加载的java爬虫框架。

DynamicGecco 的目的是在不定义 SpiderBean 的情况下实现爬取规则的运行时配置。其实现原理是采用字节码编程,动态生成 SpiderBean,而且通过自定义的 GeccoClassLoader 实现了抓取规则的热部署。使用方法可以参考《教您使用DynamicGecco抓取JD全部商品信息》这个DEMO:http://www.geccocrawler.com/dynamic-demo-jd/

版本更新如下:

增加 proxysLoader,支持自定义代理 ip 加载,FileProxys 代替 Proxys

增加派生队列和初始队列上下文,DeriveSchedulerContext 代替 SchedulerContext,增加StartSchedulerContext提供初始化队列运行时入队机制

添加引擎生命周期监听器(米林pull request)

删除警告信息,带有注解完善(米林pull request)

增加停止爬虫engineStop()和是否开启代理proxy()API

添加自定义注解和渲染支持(米林pull request)

软件详情:http://www.geccocrawler.com/dynamic-demo-jd/

下载地址:http://mvnrepository.com/artifact/com.geccocrawler/gecco

来自:开源中国社区
文章评论

共有 0 条评论