首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 软件管理 > 软件架构设计 >

Nutch的装配与部署

2012-11-10 
Nutch的安装与部署今天试用了下Nutch,感觉还不错,先把安装和试用的东东记录一下:)环境介绍:JDK 1.6+Win XP

Nutch的安装与部署

今天试用了下Nutch,感觉还不错,先把安装和试用的东东记录一下:)

    环境介绍:JDK 1.6+Win XP+Tomcat 5.5安装下cygwin,因为Nutch目前的爬虫部分只适应于Linux操作系统,这个东东用来Linux仿真,执行相关的爬取动作,主要的命令为(下文要用到,切换到nutch目录):Linux命令 写道$ sh ./bin/nutch crawl urls -dir sohu.com -depth 4 -threads 5 -topN 1000参数介绍 写道crawl:通知nutch.jar,执行crawl的main方法。
    urls:存放需要爬行的url.txt文件的目录
    -dir mydir 爬行后文件保存的位置
    -depth 2:爬行次数,或者成为深度,不过还是觉得次数更贴切,建议测试时改为1。
    -threads 指定并发的进程 这是设定为 4
    -topN 50:一个网站保存的最大页面数。
    ?下载nutch,直接从官网上拿,然后用Linux的tar命令解压在nutch目录下将nutch.war拷贝到tomcat的webapps目录下将tomcat的相关编码设置成UTF-8,防止中文乱码在nutch目录下找到search.html,将queryfocus的js函数内容注释掉(防止js报错)建立网络爬虫,在nutch下新建urls目录,在目录下新建url文件(不带后缀名),在文件里输入需要爬虫的网站地址,如:http://www.iteye.com/(注意以/结尾)在nutch的conf目录下crawl-urlfilter.txt将iteye.com设为可接受的网站,具体可找到accept hosts in MY.DOMAIN.NAME这一行,将javaeye网站加入即可用第一个命令执行网络爬虫打开http://localhost:8080/nutch-1.0/,进入搜索页面,输入关键字,即可查询。

至此,nutch配置和安装完毕!

热点排行