海量表格的相似处理－－

2012-02-29

海量表格的相似处理－－高手进现在已有10000个表格，每个表格中有256个元素。又新来一个表格S【256】,判断改表格

海量表格的相似处理－－高手进
现在已有10000个表格，每个表格中有256个元素。
又新来一个表格S【256】,判断改表格是否与已有的某个表格相似。

相似定义：
S1[256] S2[256] 相似
＝》
1） S1[i] 与 S2[i] 的差异小于 10
2） S1[i] 与 S2[i] 的差异之和（i=0--255）小于100。

请问如何设计算法，使得能够进行快速判断。

[解决办法]
呵呵，这个我做过。

10000数据量也算海量，汗。我一般是一千万以上，才叫海量。

我以前做过两个图片的相似对比，类似这个。
我是抽样实现的
[解决办法]
我的想法:
第一步:将两个表格中对应元素相减,获得一个新的差值表格(256个元素);
第二步:查询新的差值表格中不为0的元素的个数,小于10则进入第三步;
第三步:求差值表格中所有元素的和sum, -100 <sum <100,则相似

热点排行

软件架构设计

海量表格的相似处理－－