solr4.3之配置中文分词IK
上一篇讲了使用solr4.3自带的smartcn进行中文分词,这一篇说一下,怎么使用IK进行分词,
在这之前先对中文分词的种类介绍一下,目前的中文分词主要有两种
1,基于中科院ICTCLAS的隐式马尔科夫hhmm算法的中文分词器,例如smartcn等。(不支持自定义扩展词库)
2,基于正向迭代最细粒度切分算法(正向最大匹配并且最细分词)例如IK,庖丁等(支持自定义扩展词库)
安装分词前,可以去http://code.google.com/p/ik-analyzer/downloads/list下载IK的分词包
ikanalyzer-4.3.1-SNAPSHOT.jar
F:\eclipse10tomcat\webapps\solr\WEB-INF\lib
<!-- 配置IK分词器 --><fieldType name="text_ik" positionIncrementGap="100"> <analyzer type="index"> <!-- 分词--> <tokenizer name="code"> <field name="ik" type="text_ik" indexed="true" stored="true" multiValued="true"/>