首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 其他教程 > 开源软件 >

Nutch 1.5 装配与使用

2012-06-26 
Nutch 1.5安装与使用空闲之余 学习了解了一下nutch 1.5 搜索引擎 觉得这个搜索引擎挺不错的 ,最新的nutch

Nutch 1.5 安装与使用
空闲之余 学习了解了一下nutch 1.5 搜索引擎 觉得这个搜索引擎挺不错的 ,最新的nutch 1.5 我尝试在windows 上安装 不是很成功 ,所以我贴在 Linux上 如何安装,呵呵

1.安装第一步下载软件,如何下载我就不说了,www.apache.org上自己找,
2.下载后 用命令 tar zxvf  包名  解压程序包
3.到解压包的目录下有 执行命令 bin/nutch 执行完后你会看到 Usage: nutch [-core] COMMAND 这样的字样 下面还有很多 Command 的提示 说明你想成功安装走了一步
3.接下来就是配置了 到 解压包的目录下有一个目录 Conf 下面有一个文件nutch-site.xml 里加入如下
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property
这个配置的目的就是为自己的网络爬虫设置名字
4.用命令创建文件夹urls  在文件夹下 创建一个txt文件 seed.txt 或者你自己命名的
在txt文件里你可以加入http://www.sina.com.cn/或者其他你想要抓取的网站链接
5.修改 regex-urlfilter.txt文件 同样在conf目录里 把 +. 替换成+^http://([a-z0-9]*\.)*sina.com.cn/
6.执行bin/nutch crawl urls -dir crawl -depth 3 -topN 5 命令 执行完后你会看到
crawl/crawldb
crawl/linkdb
crawl/segments
被创建
7. 安装Solr  同样首先要下载 Solr 文件 如果下载就不多多说了
8.在Solr 包下找到 example 目录 执行 java -jar start.jar
执行完后 访问链接
http://localhost:8983/solr/admin/
http://localhost:8983/solr/admin/stats.jsp
能正常打开说明你安装Solr 成功
9.替换文件 把 nutch下config目录下的schema.xml 文件替换掉 solr 下conf schema.xml 并 加入<field name="content" type="text" stored="true" indexed="true"/> 重新启动 solr 会报错 undefined field text
再加入<field name="text" type="text" stored="true" indexed="true"/>
就没问题了
10.让Solr 能够索引 nutch 执行 bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*
11.执行 bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
12. 访问http://localhost:8983/solr/admin/ 就可以使用nutch 搜索引擎了
这个仅仅是 对部分网页搜索的 配置,全网搜索还有继续摸索和学习。   
新版nutch 有很多改进,配置和以前有很多不同,希望大家有好的发现 共同学习 

热点排行