hadoop运用随记1

2012-07-01

hadoop使用随记1linux安装流程：1、确认Linux中安装了jvm并配置好了JAVA_HOME,并安装了ssh2、下载hadoop0.20.

hadoop使用随记1

linux安装流程：

1、确认Linux中安装了jvm并配置好了JAVA_HOME,并安装了ssh

2、下载hadoop0.20.2（由于hadoop-eclipse-plugin在0.20.203上没有联通，改用了0.20.2版本，之后会详细说报错信息）

3、修改hadoop0.20.2/conf文件夹下的配置文件

(1)?core-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
?<property>
??<name>fs.default.name</name>
??<value>hdfs://192.168.38.66:9000</value>
?</property>
?<property>
??<name>hadoop.tmp.dir</name>
??<value>/home/hadoop/hdfs/tmp</value>
?</property>
</configuration>

(2)hdfs-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
?<property>
??<name>dfs.replication</name>
??<value>1</value>
?</property>
?<property>
??<name>dfs.data.dir</name>
??<value>/home/hadoop/hdfs/data/dir1,/home/hadoop/hdfs/data/dir2</value>
?</property>
?<property>
??<name>dfs.name.dir</name>
??<value>/home/hadoop/hdfs/namenode/name1,/home/hadoop/hdfs/namenode/name2</value>
?</property>
</configuration>
(3)mapred-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
?<property>
??<name>mapred.job.tracker</name>
??<value>192.168.38.66:9001</value>
?</property>
?<property>
??<name>mapred.tasktracker.map.tasks.maximum</name>
??<value>8</value>
?</property>
?<property>
??<name>mapred.tasktracker.reduce.tasks.maximum</name>
??<value>6</value>
?</property>
</configuration>
(4)masters

?如果是单机伪分布式模式，只需要填写localhost或或主机名或主机ip地址，如果是集群模式，则写master Server（集群主节点）的ip地址或主机名（注：如果是主机名，需要在/etc/hosts文件中将主机名和ip地址进行对应）

我的配置：192.168.38.66（master server），集群方式的时候，各集群节点（slave）此文件配置相同

（5）slaves

?如果是单机伪分布式模式，只需要填写localhost或主机名或主机ip地址，如果是集群模式，则写所有datanode 服务器的ip地址或主机名（注：如果是主机名，需要在/etc/hosts文件中将主机名和ip地址进行对应）

我的配置：

192.168.38.9（slave）

192.168.38.73（slave）

192.168.38.60（slave）

集群方式的时候，集群主节点（masterServer）需要配置所有集群节点（slave）的ip地址或主机名

(6)hadoop-env.sh

在此文件中配置JAVA_HOME和HADOOP_HOME(注：集群中各节点的jvm和hadoop安装路径最好完全一致，否则需要对不同的集群节点中的hadoop-env.sh文件单独配置，难以管理)

热点排行

Bad Request.

开源软件

hadoop运用随记1