海量文档查同或聚类问题 -- Locality Sensitive Hash 算法(转)
说到这儿大家是不是已经被这个复杂的方法给搞晕?, Google?的这个方法是为了在几十亿篇文章中发现相同的文章?,?相对的精确性要求比较的高?,?如果为了我们的初衷?,?进行文本聚类的话?,?我们不需要用?64-bit?来进行?hash,?也许可以用?16bit,?这个可以通过实验来选择?,?为了避免复杂的汉明距离问题?,只当两个文章的?fingerprint?完全一致时才认为他们属于一类?,?随着用更少的位数来进行?hash,?这个应该是可行的?,?不过需要具体的实验证明