关于CLucene
刚下载了个C++版的Lucene,VC6编译通过,运行Demo,可以运行,但有几个问题,希望用过的朋友能指点一下
整个输出只有三个文件分别是_a.cfs,deletable,segments,怎么没有看到索引文件呢,打开第一个文件,发现输入的文本数据都在里面,几乎没有做什么处理,还有很多其他的二进制数据。这样如果源文本如果有10M的话,那个文件大概有28M,怎么会这样呢?
测试文本英文和中文的都用过,偶尔有些词找不到,难道会给遗忘掉了?
[解决办法]
Java版本的Lucene倒是研究过,C版本的没有。
如果懂点Java的话最好看看《Lucene in Action》,英文电子版很容易下到,中文版最近也出版了。
> > 这样如果源文本如果有10M的话,那个文件大概有28M,怎么会这样呢?
> > 测试文本英文和中文的都用过,偶尔有些词找不到,难道会给遗忘掉了?
Lucene的定制性很强,索引的大小和你选择的分词、被索引的内容、索引的类型有关。
有些词找不到可能是分词器的原因。