MySQL Workbench 5.2.42 GA 发布,该版本主要是 bug 修复,详情请看: http://dev.mysql.com/doc/workbench/en/wb-news-5-2-...
Blue Mind 1.0 Beta7 发布,该版本支持实时的日历从 Web 推到智能手机端;联系人增加了应用缓存允许离线模式浏览,改进 Webmail 设置和菜单的一致性;同时修复很多 bug。 ...
XBMC的全称是 XBOX Media Center,顾名思义他就是XBOX平台的媒体中心。对于XBOX玩家来说如果没有安装XBMC,那么玩XBOX至少缺了一半的乐趣,甚至毫不夸张的说,XBMC才是很...
BitNami Django Stack 1.4.1-0 升级 Django 到 1.4.1 ,升级 boto 到 2.5.2. BitNami DjangoStack 是一个 Django 以及其...
Jailer 4.0.13 发布,该版本修复了 bug 3463387 (ORA-08176). Jailer 是一个功能强大的智能型数据提取工具,可以支持DB2、Firebird、Derby等应用...
JunkieTheSniffer 2.2.0 发布,主要改进: 更快速的死锁检测 可循环播放 pcaps 可传递 nettrack 值到 guile action 支持多行的 HTTP hea...
PeaZip 4.7 发布,该版本增加密码强度计算和潜在压缩,增强随机密码生成器和其他方面的改进。 PeaZip是一款优秀的压缩管理工具,可以运行在Linux系统和Windows系统。支持鼠标右键操...
x0 0.5.0 版本引入一个新的高级的动态的负载均衡插件,提升了稳定性和 API,增加一个新的基本认证插件。 x0 是一个低延迟的、高可伸缩性的 HTTP Web 服务器和Web开发框架,使用 C...
libcvautomation 1.5 发布,该版本修复了很多 bug,增加一个函数用来拖放图像,增加了 Bash 封装用于鼠标键按下和松开的事件。 Libcvautomation 是一个 GUI ...
BitNami Cloud Tools 1.3-10 更新了 aws-ec2-api 到 1.6.1.1, aws-sdk-java to 1.3.15, and aws-sdk-ruby to 1....
SpringSource Tool Suite 3.0 发布了,该版本除了进行重新组织,引入新特性外,更引人注目的是:从该版本开始 SpringSource Tool Suite 宣布开源,基于 EP...
Crawler4j是一个开源的Java类库提供一个用于抓取Web页面的简单接口。可以利用它来构建一个多线程的Web爬虫。 主页:http://code.google.com/p/crawler4j/...
Grub Next Generation 是一个分布式的网页爬虫系统,包含客户端和服务器可以用来维护网页的索引。 下载:http://linux.softpedia.com/get/Internet...
Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。 主页:https://webarchive.jir...
larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。Lar...
Methanol 是一个模块化的可定制的网页爬虫软件,主要的优点是速度快。 主页:http://sourceforge.net/projects/methabot/ 来自:开源中国社区...
JSpider是一个用Java实现的WebSpider,JSpider的执行格式如下: jspider [ConfigName] URL一定要加上协议名称,如:http://,否则会报错。如果省...
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数...
Smart and Simple Web Crawler是一个Web爬虫框架。集成Lucene支持。该爬虫可以从单个链接或一个链接数组开始,提供两种遍历模式:最大迭代和最大深度。可以设置过滤限制爬回来...
playfish是一个采用java技术,综合应用多个开源java组件实现的网页抓取工具,通过XML配置文件实现高度可定制性与可扩展性的网页抓取工具 应用开源jar包包括httpclient(内容读取...
YaCy基于p2p的分布式Web搜索引擎.同时也是一个Http缓存代理服务器.这个项目是构建基于p2p Web索引网络的一个新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的网页或启动分布...
Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 主页:http...
Combine 是一个用Perl语言开发的开放的可扩展的互联网资源爬虫程序。 主页:http://combine.it.lth.se/ 下载:http://combine.it.lth.se/#d...
JobHunter旨在自动地从一些大型站点来获取招聘信息,如chinahr,51job,zhaopin等等。JobHunter 搜索每个工作项目的邮件地址,自动地向这一邮件地址发送申请文本。 主页:...
BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 主页:http://source...
Methabot 是一个经过速度优化的高可配置的 WEB、FTP、本地文件系统的爬虫软件。 主页:http://sourceforge.net/projects/methabot/ 来自:开源中国...
HiSpider is a fast and high performance spider with high speed 严格说只能是一个spider系统的框架, 没有细化需求, 目前只是能提取...
crawlzilla 是一个帮你轻松建立搜寻引擎的自由软体,有了它,你就不用依靠商业公司的收寻引擎,也不用再烦恼公司内部网站资料索引的问题 由nutch 专案为核心,并整合更多相关套件,并开发设计安...
HttpBot 是对 java.net.HttpURLConnection类的简单封装,可以方便的获取网页内容,并且自动管理session,自动处理301重定向等。虽然不能像HttpClient那样强...
Ebot 是一个用 ErLang 语言开发的可伸缩的分布式网页爬虫,URLs 被保存在数据库中可通过 RESTful 的 HTTP 请求来查询。 主页:http://www.redaelli.org...
jcrawl是一款小巧性能优良的的web爬虫,它可以从网页抓取各种类型的文件,基于用户定义的符号,比如email,qq。 主页:http://code.google.com/p/jcrawl/ 下...
Bixo 是一个开放源码的Web挖掘工具包,基于 Hadoop 开发和运行。通过建立一个定制的级联管总成,您可以快速创建Web挖掘是专门为特定用例优化的应用程序。 主页:http://openbix...
urlwatch 是一个用来监控指定的URL地址的 Python 脚本,一旦指定的 URL 内容有变化时候将通过邮件方式通知到。 基本功能: 配置简单,通过文本文件来指定URL,一行一个URL地址...
Ex-Crawler 是一个网页爬虫,采用 Java 开发,该项目分成两部分,一个是守护进程,另外一个是灵活可配置的 Web 爬虫。使用数据库存储网页信息。 主页:http://sourceforg...
Crawljax: java编写,开放源代码。 Crawljax 是一个 Java 的工具用于自动化的爬取和测试现在的 Ajax Web 应用。 主页:http://code.google.com...
根据批量URL生成一个有书签的pdf文档的解决方案。h2p-file是一个xml文件,该xml文件主要描述url的信息和url的层次结构,h2p-tool根据h2p-file生成有书签的pdf文档。还...
用JAVA编写的web 搜索和爬虫,包括全文和分类垂直搜索,以及分词系统。 主页:http://sourceforge.net/projects/leopdo/ 下载:http://sourcef...
Weboob (Web Out Of Browsers) 提供了很多工具用来和很多的网站进行交互。例如在youtube上搜索并播放视频;查询天气、银行帐号等等信息。 主页:http://weboob...
什么是 Chukwa,简单的说它是一个数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。Chukwa...
OWASP AJAX Crawling Tool (FuzzOps-NG) OWASP出品的ajax爬虫,java编写,开放源代码。 主页:http://code.google.com/p/fuzz...