新增用户
下载安装
配置 SSH 免密登录
修改配置
初始化、启动与停止
(所有云服务器都要执行)
(下面的 IPn 表示如 192.168.1.1 格式的云服务器外网 IP 地址。注意,如果是指向本机的 IP,请用内网 IP 地址代替)
chmod 644 /home/hadoop/.ssh/authorized_keys
---以上命令所有云服务器都要运行---
(如果搭建伪分布模式,则可以略过交换共享这一步,直接进行 ssh 的测试)
这一步的最终目的是让所有云服务器的 authorized_keys 内容都包含各自的 id_rsa.pub 信息,且内容相同。
需要确保所有云服务器能够相互 <code>ssh</code> 通过。
第一次进行 <code>ssh</code> 需要密码登录。输完密码之后,选择 <code>yes</code> 保存记录。之后就不再需要输入密码登录了。
如果出现异常情况,可重启服务再尝试:<code>sudo service sshd service</code>。
发现很多配置文件,其中
设置 HDFS NameNode 的 URI 为 <code>IP1:9000</code>
设定了 I/O 文件缓存容量
设定 Namenode 信息存储目录
设置副本数为 2
设置 Secondary NameNode URI 为 <code>IP2:9001</code> (slave1 <=> IP2)
开启 WebHDFS 模块
设定 DataNode 的目录路径
设定客户端提交任务的 URI 为 <code>IP1:8032</code>
设定主程序资源获取的 URI 为 <code>IP1:8032</code>
设定 NodeManager URI 为 <code>IP1:8033</code>
设定 ResourceManager 的 Web 界面 URI 为 <code>IP1::8088</code>
以上4点配置可不设定,本身有默认值
设定每个任务所需最小内存为 512MB
设定每个任务所需最大内存为 2048MB
设定 NodeManger 可使用的内存为 1024MB
设定如果任务超过内存限制,则自动杀死(kill)该任务。
任务历史默认端口也是 10020
任务历史 Web 界面端口也是 19888
约第 54 行的位置修改为
或者
注意不要每次启动都格式化,导致 NameNode 与 DataNode 的 clusterID 不一致而启动失败;
如果一定要格式化,需要删除配置文件中指定在运行时生成的文件夹,如 <code>hdfs/name</code>、<code>hdfs/data</code>、<code>tmp</code>(在 Hadoop 安装目录下)。
可查看 hadoop 安装目录下的 <code>logs</code> 日志文件夹排错