首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > JAVA > J2EE开发 >

请教IK分词器的停用词库是干嘛用的

2013-07-08 
请问IK分词器的停用词库是干嘛用的?请问IK分词器的停用词库是干嘛用的?就是ext_stopword.dic这里面放的词

请问IK分词器的停用词库是干嘛用的?
请问IK分词器的停用词库是干嘛用的?就是ext_stopword.dic这里面放的词是干嘛用的?
[解决办法]
指文本中出现频率很高,但实际意义又不大的词,主要指副词、虚词、语气词等。如“是”、“而是”等。
它主要用在信息检索中。在为文本或网页建立索引的时候,会去掉这些词。

举个例子,你在百度搜索:你是小名吗
如果有完全符合的,会显示在最上面,你可以观察后几页模糊搜索的数据,有关键字是“你”的、“你是”的、“小明”的,但是没有关键字是“吗”的,这个“吗”就被百度的停用词库给过滤掉了,因为它跟你要查询的信息“你和小明的关系”没有实际的关联。

大概就这意思,不知道说明白没有

热点排行