crawlzilla 是一个帮你轻松建立搜寻引擎的自由软体,有了它,你就不用依靠商业公司的收寻引擎,也不用再烦恼公司内部网站资料索引的问题
由nutch 专案为核心,并整合更多相关套件,并开发设计安装与管理UI,让使用者更方便上手。
crawlzilla 除了爬取基本的html 档外,还能分析网页上的档案,如( doc、pdf、ppt、ooo、rss )等多种文件格式,让你的搜寻引擎不只是网页搜寻引擎,而是网站的完整资料索引库
拥有中文分词能力,让你的搜寻更精准
crawlzilla的特色与目标,最主要就是提供使用者一个方便好用易安装的搜寻平台。
crawlzilla 使用apache license 2.0 授权,有兴趣的使用者可下载其原始码来修改符合自己需求的自由或商业搜寻引擎。
主页:http://code.google.com/p/crawlzilla/
下载:http://sourceforge.net/projects/crawlzilla/files/stable/Crawlzilla-0.2/
来自:开源中国社区