首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网站开发 > Web前端 >

专业搜寻

2012-11-01 
专业搜索计划建一个专业领域的搜索引擎,利用开源代码。 蜘蛛爬虫程序用Heritrix,Nutch;收录引擎用Solr. 这

专业搜索

计划建一个专业领域的搜索引擎,利用开源代码。

蜘蛛爬虫程序用Heritrix,Nutch;收录引擎用Solr. 这些都是开源的。

需要一名经验丰富的JAVA程序员,整合爬虫程序和收录引擎。对于Heritrix,只要程序员能编写一个heritrix writer, 把搜集的数据保存到MYSQL或XML,然后SOLR可以读取就可以了。NUTCH和SOLR的整合有documentation可以阅读,后者应该相对简易些。

相关链接:

1. Heritrix: http://crawler.archive.org/

2. Nutch: http://lucene.apache.org/nutch/

3. Solr: http://lucene.apache.org/solr/

热点排行