首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 软件管理 > 软件架构设计 >

海量表格的相似处理--

2012-02-29 
海量表格的相似处理--高手进现在已有10000个表格,每个表格中有256个元素。又新来一个表格S【256】,判断改表格

海量表格的相似处理--高手进
现在已有10000个表格,每个表格中有256个元素。
又新来一个表格S【256】,判断改表格是否与已有的某个表格相似。

相似定义:
S1[256]   S2[256]   相似
=》  
1)   S1[i]   与   S2[i]   的差异   小于   10
2)   S1[i]   与   S2[i]   的差异之和(i=0--255)小于100。

请问如何设计算法,使得能够进行快速判断。



[解决办法]
呵呵,这个我做过。

10000数据量也算海量,汗。我一般是一千万以上,才叫海量。

我以前做过两个图片的相似对比,类似这个。
我是抽样实现的
[解决办法]
我的想法:
第一步:将两个表格中对应元素相减,获得一个新的差值表格(256个元素);
第二步:查询新的差值表格中不为0的元素的个数,小于10则进入第三步;
第三步:求差值表格中所有元素的和sum, -100 <sum <100,则相似

热点排行