首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 企业软件 > 行业软件 >

Lucene学习札记之三:全文搜索详解

2012-11-26 
Lucene学习笔记之三:全文搜索详解分词器分词器,对文本资源进行切分,将文本按规则切分为一个个可以进行索引

Lucene学习笔记之三:全文搜索详解


分词器

分词器,对文本资源进行切分,将文本按规则切分为一个个可以进行索引的最小单位(关键词)。

Lucene学习札记之三:全文搜索详解

建立索引和进行搜索时都要用到分词器。为了保证能正确的搜索到结果,在建立索引与进行搜索时使用的分词器应是同一个。


索引文件结构

索引库是一组文件的集合。

Lucene学习札记之三:全文搜索详解

索引文件的检索:

索引表规模相对较小,文档集合规模较大。进行检索时,先从检索索引表开始,然后找到相对应的文档。如果查询中仅包含一个关键词,则在索引表中找到该单词,并取出他对应的文档就可以了。如果查询中包含多个关键词,则需要将各个关键字检索出的记录进行合并。

?

索引文件的维护:

维护索引用三个操作:插入、删除和更新文档。但是更新操作需要较高的代价,因为文档修改后(即使是很小的修改),就可以会造成文档中的很多的关键词的位置发生了变化,这是需要频繁的读取和修改记录,这种代价是相当高的。因此,一般不进行更新操作,而是使用“先删除,后创建”的方式代替更新操作。


今天说写到这里,下节见。

?

本文链接:Lucene学习笔记之三:全文搜索详解,本文由huangyineng原创,转载请注明出处

热点排行