首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 操作系统 > windows >

nutch 在windows xp上的部署

2012-10-16 
nutch 在windows xp下的部署准备工作:Cygwin 的安装过程,请参看官方的帮助文档[url]http://cygwin.com/cyg

nutch 在windows xp下的部署
准备工作:

Cygwin 的安装过程,请参看官方的帮助文档[url]http://cygwin.com/cygwin-ug-net/setup-net.html[/url]。jdk的安装。不再详述。nutch的下载。请到官方网站:[url]http://nutch.apache.org/[/url]nutch下载成功到解压的自己的合适目录下。


开始工作:
在nutch/bin下新建urls文件夹,进入该文件夹新建url.txt,内部写入某个具体网址,如http://www.iteye.com
修改nutch-site.xml,在configure元素内添加如下代码
       <property>            <name>http.agent.name</name>            <value>HD nutch agent</value>       </property>       <property>            <name>http.agent.version</name>            <value>1.0</value>       </property>

否则会报没有设置代理服务器异常。
添加过滤网址,在nutch/conf下的crawl-urlfilter.txt中,将
# accept hosts in MY.DOMAIN.NAME+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/修改为# accept hosts in MY.DOMAIN.NAME# +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/+^http://www.iteye.com

这样就可以通过命令nutch crawl urls –dir d://testcrawl –depth 3爬网络数据,爬过来的索引数据存放在d://testcrawl。
将nutch-0.9.war放到tomcat的webapp下,启动tomcat服务器,会自动生成nutch web应用程序包,删除原先的war。
修改nutch-0.9\WEB-INF\classes中的crawl-urlfilter.txt,添加+^http://www.iteye.com
在nutch-0.9\WEB-INF\classes中的nutch-site.xml中添加索引库映射
<property>   <name>searcher.dir</name>   <value>D:\testcrawl</value> </property>

修改nutch下的search.jsp,将
<jsp:include page=“<%= language + "/include/header.html"%>”/>修改为
<jsp:include page='<%= language + "/include/header.html"%>'/>
不然会报语言异常。
打开http://localhost:8080/nutch,如果看到搜索页面,输入存在的关键字,有数据就说明nutch已经成功部署了。

热点排行