天天看点

搭建云服务器Hadoop集群/伪分布Linux 系统搭建云服务器 Hadoop 集群

新增用户

下载安装

配置 SSH 免密登录

修改配置

初始化、启动与停止

(所有云服务器都要执行)

(下面的 IPn 表示如 192.168.1.1 格式的云服务器外网 IP 地址。注意,如果是指向本机的 IP,请用内网 IP 地址代替)

    chmod 644 /home/hadoop/.ssh/authorized_keys

---以上命令所有云服务器都要运行---

(如果搭建伪分布模式,则可以略过交换共享这一步,直接进行 ssh 的测试)

这一步的最终目的是让所有云服务器的 authorized_keys 内容都包含各自的 id_rsa.pub 信息,且内容相同。

需要确保所有云服务器能够相互 <code>ssh</code> 通过。

第一次进行 <code>ssh</code> 需要密码登录。输完密码之后,选择 <code>yes</code> 保存记录。之后就不再需要输入密码登录了。

如果出现异常情况,可重启服务再尝试:<code>sudo service sshd service</code>。

发现很多配置文件,其中

设置 HDFS NameNode 的 URI 为 <code>IP1:9000</code>

设定了 I/O 文件缓存容量

设定 Namenode 信息存储目录

设置副本数为 2

设置 Secondary NameNode URI 为 <code>IP2:9001</code> (slave1 &lt;=&gt; IP2)

开启 WebHDFS 模块

设定 DataNode 的目录路径

设定客户端提交任务的 URI 为 <code>IP1:8032</code>

设定主程序资源获取的 URI 为 <code>IP1:8032</code>

设定 NodeManager URI 为 <code>IP1:8033</code>

设定 ResourceManager 的 Web 界面 URI 为 <code>IP1::8088</code>

以上4点配置可不设定,本身有默认值

设定每个任务所需最小内存为 512MB

设定每个任务所需最大内存为 2048MB

设定 NodeManger 可使用的内存为 1024MB

设定如果任务超过内存限制,则自动杀死(kill)该任务。

任务历史默认端口也是 10020

任务历史 Web 界面端口也是 19888

约第 54 行的位置修改为

或者

注意不要每次启动都格式化,导致 NameNode 与 DataNode 的 clusterID 不一致而启动失败;

如果一定要格式化,需要删除配置文件中指定在运行时生成的文件夹,如 <code>hdfs/name</code>、<code>hdfs/data</code>、<code>tmp</code>(在 Hadoop 安装目录下)。

可查看 hadoop 安装目录下的 <code>logs</code> 日志文件夹排错