首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 软件管理 > 软件架构设计 >

毕业设计3---Nutch的应用

2012-10-27 
毕业设计3---Nutch的使用??????? 今天研究了Nutch, 差不多已经好几个小时了, 到现在还没有搞定,也这么晚了

毕业设计3---Nutch的使用

??????? 今天研究了Nutch, 差不多已经好几个小时了, 到现在还没有搞定,也这么晚了, 先记录下来,明天继续吧。

?????? 一开始很多时间都浪费在了cygwin的安装上了,bs这个软件的开发者了, 一个不伦不类的软件安装程序,安装的时候还要从网上下载东东。。。。。不过最后终于装成功了, 先下载到本地后,再安装的(建议 下载站点中选 TW的比较块)。

?? 下面是我安装CYGWIN和NUTCH的过程, 都块成功了, 但最后卡在了用户查询界面, 输入东西什么都查不出来,不知怎么回事。

??????????????????????????????????????????? NUTCH的大致原理如下:毕业设计3---Nutch的应用

安装步骤参考了该文章?

一、环境:
??????1.操作系统:windowsXp,windows2000+
??????2.javaVM:java1.5.x,设置JAVA_HOME到环境变量
??????3.cygwin,当然这个不是必需的,只是nutch提供的脚本只能在shell环境下使用,所以使用cygwin来虚拟shell命令。
??????4.nutch版本:0.8
??????5.tomcat:5.0

二、cygwin的安装:

??????cygwin的安装在Nutch在Windows中安装之细解一文中有较为详细的介绍,此处不再介绍安装步骤,只介绍安装后需要如何判断是否能够使用:在cygwin的安装目录下,查找x:\cygwin\cygwin\bin\sh.exe,存在此命令即可使用。
??????cygwin在删除后会发现无法再次成功安装的问题,可以通过注册表内的查找功能,删除所有包含cygwin内容的键值即可。

三、nutch的安装和配置:

??????1。从http://lucene.apache.org/nutch/release/下载0.8或更高的版本,解压缩后,放置到cygwin的根目录下,如图:

?毕业设计3---Nutch的应用

?????图中可以看到nutch目录在cygwin的根目录下。
?????
??? 2。在nutch/bin下,建立urls目录,然后建立一个url.txt文件,在url.txt文件内写入一个希望爬行的url,例如:www.sina.com.cn,目录结构如图:

?毕业设计3---Nutch的应用

?????
??????3。打开nutch\conf\crawl-urlfilter.txt文件,把MY.DOMAIN.NAME字符替换为url.txt内的url的域名,其实更简单点,直接删除MY.DOMAIN.NAME这几个字就可以了,也就是说,只保存+^http://([a-z0-9]*\.)*这几个字就可以了,表示所有http的网站都同意爬行。

??????4 。打开nutch\conf\conf/nutch-site.xml文件,在<configuration></configuration>内插入一下内容:


???六、总结:
???ntuch 提供了一个高效、开源、易操作的搜索引擎,内部有许多细微之处都是值得借鉴的,例如采用了hadoop的分布式文件系统,类似eclipse的插件技术, apache的httpclient来访问网站,org.cyberneko.html得HtmlParse来解析页面等等,在以后会逐个介绍。


-----------------------------------------------------------------------明天继续,呵呵

1 楼 dwangel 2007-03-02   其实……
有不用cygwin直接启动nutch的批处理脚本的。

热点排行