首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > 编程 >

地图reduce的原理详解

2012-12-20 
mapreduce的原理详解接前一篇博客以前的文章中有关于mapreduce的工作原理:http://p-x1984.iteye.com/blog/

mapreduce的原理详解

接前一篇博客

以前的文章中有关于mapreduce的工作原理:http://p-x1984.iteye.com/blog/702486

记住一点:Map的输出既是Reduce的输入。即:

Map:<k1,v1> ->list<k2,v2>

Reduce:<k2,list<v2>> -><k3,v3>

1) 在启动map函数前,需要对输入文件进行“分片”,也就是把所要输入的文件copy到HDFS中。
2) 在分片结束后,启动job就开始读取HDFS中的内容了,map对每条记录的输出以<key,value> pair的形式输出。
3) 在进入reduce阶段之前,还要将各个map中相关的数据(key相同的数据)进过洗牌,排序,reduce,归结到一起,发往一个reducer。
4) 进入reduce阶段。相同的key的map输出会到达同一个reducer,reducer对key相同的多个value进行“reduce操作”.

大家如果有兴趣的可以和我一起讨论!

1 楼 lance_123 2011-01-07   是在客户端先分好片,然后将分片信息上传到hdfs,然后jobtracker拿到分片信息,来分配map,reduct task的。 2 楼 p_x1984 2011-01-07   多谢提醒!

热点排行