二次学习（横生枝节篇）一、初探Hadoop（3）

2012-10-06

二次学习（节外生枝篇）一、初探Hadoop（3）在讨论MapReduce计算模型执行过程（框架或者叫运行时系统提供支持）之

二次学习（节外生枝篇）一、初探Hadoop（3）

在讨论MapReduce计算模型执行过程（框架或者叫运行时系统提供支持）之前，我们来看看计算环境。Google的计算环境非常典型，在两位工程师的论文中已经提到：

每个节点通常是双X86处理器，运行Linux，每台机器2～4GB内存使用的网络设备都是常用的，一般在节点上使用的是100M或者1000M网络，一般情况下都用不到一半的网络带宽一个Cluster中常常有成百上千台机器，所以，机器故障是常见的存储时使用的是便宜的IDE硬盘，有个分布式文件系统来管理，通过复制的方法在不可靠的硬件上保证可用性和可靠性用户向调度系统提交请求，每一个请求包含了一组任务，映射到cluster中的一组机器上执行

我们仔细分析这种计算环境，可以看到这样几个特点，集群中的机器很多，但是机器的配置较低，内存有限，硬件很不可靠，网络带宽一般。这些特点将成为设计框架或者运行时环境的约束性输入。

来看看这个计算模型的执行过程：

二次学习（横生枝节篇）一、初探Hadoop（3）

位置信息

最后生成的R份文件通常不需要合并成一份，因为它们通常又会作为另一个mapreduce调用的输入。

今天暂写到这里。

热点排行

互联网

二次学习（横生枝节篇）一、初探Hadoop（3）