经过Map-Reduce实现Join系列之一
通过Map-Reduce实现Join系列之一?发现有可以Join的记录之后,根据算法,会将p和q所指向的两条记录进行Join,
通过Map-Reduce实现Join系列之一
?
发现有可以Join的记录之后,根据算法,会将p和q所指向的两条记录进行Join,然后输出,之后q指向下一条记录,这个时候发现p和q的B列值不相等了,根据算法p会指向下一条记录,由于这个时候p和q指向的B列值相等,因此算法中的前两个while循环被跳过,直接进入第三个while循环,找个循环将集合P中B值为4的一条记录与集合Q中B列值为4的两条记录进行Join,循环结束之后,p和q的指向如下图所示:?
?
算法继续执行,知道两个集合中B列值相等的所有记录都被Join之后,算法结束。?
3.哈希Join?
哈希Join需要将被Join的两个数据集合中的一个全部载入内存的哈希表中。因此,这种Join方式适用于被Join的两个数据集合中,有一个集合数据量比较小,可以全部放入内存的场景。这种Join方式的伪代码如下,其中有两个数据集合,分别是P和Q,而集合P数据量比较小,可以全部载入内存中的哈希表中:?for??
这种Join算法同样只能用于等值Join操作。相比于排序合并Join,这种方式速度要更快,但是对内存的消耗比较大。
转自:http://mysun.iteye.com/blog/1748473