Gecco 1.2.3 发布了,DynamicGecco 实现了爬虫规则的热部署,是首个支持动态加载的java爬虫框架。
DynamicGecco 的目的是在不定义 SpiderBean 的情况下实现爬取规则的运行时配置。其实现原理是采用字节码编程,动态生成 SpiderBean,而且通过自定义的 GeccoClassLoader 实现了抓取规则的热部署。使用方法可以参考《教您使用DynamicGecco抓取JD全部商品信息》这个DEMO:http://www.geccocrawler.com/dynamic-demo-jd/
版本更新如下:
增加 proxysLoader,支持自定义代理 ip 加载,FileProxys 代替 Proxys
增加派生队列和初始队列上下文,DeriveSchedulerContext 代替 SchedulerContext,增加StartSchedulerContext提供初始化队列运行时入队机制
添加引擎生命周期监听器(米林pull request)
删除警告信息,带有注解完善(米林pull request)
增加停止爬虫engineStop()和是否开启代理proxy()API
添加自定义注解和渲染支持(米林pull request)
软件详情:http://www.geccocrawler.com/dynamic-demo-jd/
下载地址:http://mvnrepository.com/artifact/com.geccocrawler/gecco
来自:开源中国社区

