完成一些国际化的工作,并发布到了maven中央库。0.2.1及以后的版本直接在项目中添加依赖webmagic-core/webmagic-externsion即可。
为Request增加了优先级功能,可以指定爬虫爬取url的顺序(需要使用PriorityScheduler)。
为CSS Selector增加属性选择功能。
为Regex Selector增加指定分组功能。
增加JsonPathSelector,方便解析ajax内容。
支持对Selector做And和Or运算,并可嵌套。 你可以这样进行抽取:[code]view sourceprint?1 or(regex("
官方首页:https://github.com/code4craft/webmagic
来自:开源中国社区

