Lucene学习笔记之三:全文搜索详解
分词器
分词器,对文本资源进行切分,将文本按规则切分为一个个可以进行索引的最小单位(关键词)。
建立索引和进行搜索时都要用到分词器。为了保证能正确的搜索到结果,在建立索引与进行搜索时使用的分词器应是同一个。
索引文件结构
索引库是一组文件的集合。
索引文件的检索:
索引表规模相对较小,文档集合规模较大。进行检索时,先从检索索引表开始,然后找到相对应的文档。如果查询中仅包含一个关键词,则在索引表中找到该单词,并取出他对应的文档就可以了。如果查询中包含多个关键词,则需要将各个关键字检索出的记录进行合并。
?
索引文件的维护:
维护索引用三个操作:插入、删除和更新文档。但是更新操作需要较高的代价,因为文档修改后(即使是很小的修改),就可以会造成文档中的很多的关键词的位置发生了变化,这是需要频繁的读取和修改记录,这种代价是相当高的。因此,一般不进行更新操作,而是使用“先删除,后创建”的方式代替更新操作。
今天说写到这里,下节见。
?
本文链接:Lucene学习笔记之三:全文搜索详解,本文由huangyineng原创,转载请注明出处