红联Linux门户
Linux帮助

webmagic 0.2.1发布,Java爬虫框架

发布时间:2013-08-21 15:48:11来源:红联作者:empast
此次更新主要是抽取模块的一些改动,使得抽取更加方便。

完成一些国际化的工作,并发布到了maven中央库。0.2.1及以后的版本直接在项目中添加依赖webmagic-core/webmagic-externsion即可。
为Request增加了优先级功能,可以指定爬虫爬取url的顺序(需要使用PriorityScheduler)。
为CSS Selector增加属性选择功能。
为Regex Selector增加指定分组功能。
增加JsonPathSelector,方便解析ajax内容。
支持对Selector做And和Or运算,并可嵌套。 你可以这样进行抽取:[code]view sourceprint?1 or(regex("(.*)"), xpath("//title"), $("title")).select(s); [/code]webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,解决爬虫开发的一些重复劳动,让开发者专注于逻辑功能的开发。webmagic的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。

官方首页:https://github.com/code4craft/webmagic

来自:开源中国社区
文章评论

共有 0 条评论