首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 软件管理 > 软件架构设计 >

nutch汉语分词(通过插件的方式)

2012-10-31 
nutch中文分词(通过插件的方式)1、需要的工具:IKAnalyzer jar包(将其命名为analysis-zh.jar)? javacc工具 a

nutch中文分词(通过插件的方式)

1、需要的工具:IKAnalyzer jar包(将其命名为analysis-zh.jar)? javacc工具 ant

2、部署nutch工程到eclipse中。

3、定义自己的分词类,代码如下

???????????????????????

?

?? 6、运行NGramProfile类,生成zh.ngp文件,将生成的文件拷贝到src/plugin/languageidentfier/src/java目录下的org.apache.nutch.anaysis.lang包下面

7、修改NutchAnalysis文件,编译此文件,覆盖(详见本博客中的另一篇关于nutch中文分词的文章)

8、创建目录Myanalyzer,在此目录下放入(plugin.xml,MyAnalyzer.jar,analysis-zh.jar),然后将此目录拷贝到nutch-1.0\plugins\目录下。

9、ant编译工程(详见本博客中的另一篇关于nutch中文分词的文章)

10、爬虫、部署、测试(详见本博客中的另一篇关于nutch中文分词的文章)

热点排行