天天看点

十分钟搭建自己的hadoop2/CDH4集群

版本及准备

我部署的是hadoop-2.0.0-cdh4.2.0.tar.gz,下载地址为http://archive.cloudera.com/cdh4/cdh/4/hadoop-2.0.0-cdh4.2.0.tar.gz。在http://archive.cloudera.com/cdh4/cdh/4/下还可以下载到cdh

hadoop生态圈内相关的包。再准备一个jdk1.6+的java环境,设置好java_home。

需要注意的是,window下直接点击链接下载到的包可能无法解压成功,原因是包是放在linux ftp上的,直接下载会有问题。建议在linux机器上用wget命令下载就可以了,如果你的机器不能联网的话,也可以联系我把包发给你。

基础配置

给集群配好 ssh;在hosts里可以准备好自己机器的名字。比如我的机器1作为namenode(namenode01),机器2作为secondary namenode(snamenode01),其他机器作为datanode。以下配置文件里就用该名称代替。

配置文件

tar包的部署方式只要具备cdh4的包就可以了,其余步骤不需联网,只要配置好几个配置文件即可。我提供一份自己的配置,可以完全拷贝下来使用。进入到目录hadoop-2.0.0-cdh4.2.0/etc/hadoop下面,修改这几个文件:

core-site.xml

hdfs-site.xml

yarn-site.xml

mapred-site.xml

masters

slaves

最后修改.bashrc里的一些环境,添加如下配置

source之使之生效。然后把这台机器上的hadoop scp到其他各台机器上

启动集群

hadoop_home/bin下,第一次格式化namenode

然后在namenode机器上逐个启动

可以使用jps命令在各台机器上查看已经起来的进程和端口,在 namenode01:8088/cluster 可以看集群情况。 datanode01:8042/node 可以看到节点情况。

问题排查

如果某几个节点没有起来,很可能是因为端口占用的问题,比如yarn启动的时候会使用8080端口,如果被占用,该datanode就起不了了,可以使用

找到id,然后kill -9 xxx 掉。

一般可以在指定的hadoop_home/logs下查看各个机器的日志情况,找到问题原因。

(全文完)