首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 其他教程 > 互联网 >

Nutch相干框架视频教程7

2013-04-26 
Nutch相关框架视频教程7第七讲土豆在线视频地址(58分钟)超清原版下载地址压缩高清下载地址?1、indexchecker

Nutch相关框架视频教程7

第七讲
土豆在线视频地址(58分钟)
超清原版下载地址
压缩高清下载地址?

1、indexchecker

bin/nutch ?indexchecker ?http://www.163.com

2、安装配置SOLR

wget http://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.2/apache-solr-3.6.2.tgz

tar ?-xzvf ?apache-solr-3.6.2.tgz

cd ?apache-solr-3.6.2/example

复制nutch的conf目录中的schema.xml文件到solr/conf目录

修改solr/conf/solrconfig.xml,将里面所有的<strname="df">text</str>都替换为<strname="df">content</str>

3、运行SOLR并提交索引

启动SOLR服务器
?java -jar start.jar &

Web界面

?http://host2:8983

提交索引

bin/nutch solrindex http://host2:8983/solr data/crawldb-linkdb data/linkdb -dir data/segments

4、使用LUKE工具查看索引

5、给SOLR3.6.2配置分词器mmseg4j

wget http://mmseg4j.googlecode.com/files/mmseg4j-1.8.5.zip

unzip mmseg4j-1.8.5.zip -d? mmseg4j-1.8.5

将mmseg4j-1.8.5/mmseg4j-all-1.8.5-with-dic.jar复制到solr下的lib目录
将schema.xml文件中所有的
??<tokenizerclass="solr.WhitespaceTokenizerFactory"/>

??<tokenizer class="solr.StandardTokenizerFactory"/>
替换为
??<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"mode="complex"/>

热点排行