sphinx多目录排序

2012-11-06

sphinx多索引排序一直在使用sphinx做站内搜索，索引的模式是主索引 + 增量索引，做到准实时索引。使用增量索

sphinx多索引排序
    一直在使用sphinx做站内搜索，索引的模式是主索引 + 增量索引，做到准实时索引。使用增量索引的方式是新建一张辅助表。刚开始的设计是按照coreseek网站推荐的取最大的id进行更新增量索引。由于前期的需求不多，一直没发现有什么问题。在提出新的需求按时间排序时，问题就出现了，取最大的id进行增量索引的话，也只是索引数据表中增加的数据，不会索引已经更新的数据。

    自然而然就想到了另外一种实现方式，即以最后的更新时间作为分界点，每次建增量索引时都判断更新时间是否大于上次建主索引时的最大更新时间。这种方式的好处就是，只要你数据有更新，就能实时的进行索引。

    然而，这种方式上去后又出现了一个问题，多索引的排序问题。对于更新的数据，他们存在于主索引和增量索引中，搜索时的排序就会出现混乱。这就需要屏蔽主索引的相关数据。

    解决方案是新增标志位与UpdateAttributes结合。

    比如：主索引——>select id ,name,context, 1 as isdirty from table1;

    增量索引——>select id,name,context,1 as isdirty from table1 where modifyTime > lastMaxModify;

Isdirty就是标志位，1代表未更新，2代表更新。

接下去就是利用UpdateAttributes把主索引的更新数据的isdirty更新为2。

如何找到主索引中已更新的数据呢？

    找出在增量索引中的更新数据。简单的几句java代码：

    Client.setFilterRange(“createTime”,0, maxModify.getTime()/1000);//创建时间在更新时间之前的；

    SphinxResult res = Client.query(“”,”delta”);

   attrs[0]=“isdirty”;values = new long[res.matches.length][ res.matches.length]

   Client.updateAttribute(“main”,attrs,values);

    得出它的所有docid,当做参数传给updateAttributes();

updateAttributes更新的数据时存放在内存中，索引如果用命令行search是搜索不到的，不过在程序中可以生效。

    更新属性完成后，就只要在搜索时setFilter(“isdirty”,2,false);

热点排行

编程

sphinx多目录排序