ºìÁªLinuxÃÅ»§
Linux°ïÖú

WebMagic 0.4.0·¢²¼£¬JavaÅÀ³æ¿ò¼Ü

·¢²¼Ê±¼ä:2013-11-07 10:28:20À´Ô´:ºìÁª×÷Õß:empast
´Ë´Î¸üÐÂÖ÷Òª¶ÔÏÂÔØÄ£¿é½øÐÐÁËÓÅ»¯£¬²¢Ôö¼ÓÁËͬ²½ÏÂÔØµÄAPI£¬Í¬Ê±¶Ô´úÂë½øÐÐÁËÒ»Ð©ÖØ¹¹¡£

Ò»¡¢Downloader²¿·Ö¸üУº

Éý¼¶HttpClientµ½4.3.1£¬ÖØÐ´ÁËHttpClientDownloaderµÄ´úÂë #32¡£
ÔÚhttpÇëÇóÖÐÖ÷¶¯¿ªÆôgzip£¬½µµÍ´«Ê俪Ïú #31¡£
ÐÞ¸´0.3.2¼°Ö®Ç°°æ±¾Á¬½Ó³Ø²»ÉúЧµÄÎÊÌâ #30£¬Ê¹ÓÃHttpClient 4.3.1еÄÁ¬½Ó³Ø»úÖÆ£¬ÊµÏÖÁ¬½Ó¸´Óù¦ÄÜ¡£

¾­²âÊÔ£¬ÏÂÔØËٶȿɴﵽ90%×óÓÒµÄÌáÉý¡£²âÊÔ´úÂ룺Kr36NewsModel.java ¡£

¶þ¡¢Ôö¼Óͬ²½×¥È¡µÄAPI£¬¶ÔÓÚС¹æÄ£µÄץȡÈÎÎñ¸ü·½±ã£º

Èý¡¢Site(ÅäÖÃÀà)Ôö¼Ó¸ü¶àÅäÖÃÏ

Ö§³ÖHttp´úÀí: Site.setHttpProxy #22 ¡£
Ö§³Ö×Ô¶¨ÒåËùÓÐHttpÍ·£ºSite.addHeader #27 ¡£
Ö§³Ö¿ªÆôºÍ¹Ø±Õgzip£ºSite.setUseGzip(false) ¡£
Site.addStartUrlÒÆµ½ÁËSpider.addUrl£¬ÒòΪ×÷ÕßÈÏΪstartUrlÓ¦¸ÃÊÇSpiderµÄÊôÐÔ£¬¶ø²»ÊÇSiteµÄÊôÐÔ¡£

ËÄ¡¢Spider(Ö÷Âß¼­)½øÐÐÁËÒ»Ð©ÖØ¹¹£º

ÖØÐ´Á˶àÏß³ÌÂß¼­£¬´úÂë¸ü¼ÓÒ×¶®ÁË£¬Í¬Ê±ÐÞ¸´ÁËһЩḬ̈߳²È«ÎÊÌâ¡£
ÒýÈëÁËGoogle Guava API£¬ÈôúÂë¸ü¼ò½à¡£
Ôö¼ÓÅäÖÃSpider.setSpawnUrl(false)£¬´ËÑ¡ÏîΪfalseʱ£¬Ö»ÏÂÔØ¸ø¶¨µÄurl£¬²»ÏÂÔØÈκÎз¢ÏÖµÄurl¡£
¿ÉÒÔ¸ø³õʼurlÖи½´ø¸ü¶àÐÅÏ¢£ºSpider.addRequest #29
ÁíÍâwebmagicÓʼþ×é³ÉÁ¢ÁË£¬»¶Ó­¼ÓÈ룺https://groups.google.com/forum/#!forum/webmagic-java

ÏîÄ¿Ö÷Ò³£ºhttps://github.com/code4craft/webmagic

ÏÂÔØµØÖ·£ºhttps://github.com/code4craft/webmagic/releases

À´×Ô:¿ªÔ´ÖйúÉçÇø
ÎÄÕÂÆÀÂÛ

¹²ÓÐ 0 ÌõÆÀÂÛ