Hadoop伪分布式模式部署

Hadoop的安装有三种运行模式：

单机模式（Local (Standalone) Mode）：Hadoop的默认模式，0配置。Hadoop运行在一个Java进程中，使用本地文件系统，不使用HDFS，一般用于开发调试MapReduce程序的应用逻辑。

伪分布式模式（Pseudo-Distributed Mode）：需简单配置，相当于只有一个节点的集群，Hadoop的所有守护进程运行在同一台机器上。该模式在单机模式之上增加了代码调试功能，允许你检查内存使用情况，HDFS输入输出，以及其他的守护进程交互。

完全分布式模式（Fully-Distributed Mode）：根据需要进行配置。多节点，一般用于生产环境，可认为是由伪分布式模式的一个节点变为多个节点。

准备工作

这里的准备工作可以查看Hadoop单机模式部署准备工作。

总结一下就是：

Linux系统环境

JDK安装及其环境变量、ssh及ssh的免密码登录

Hadoop安装包

环境变量的配置

环境搭建

修改core-site.xml

修改$HADOOP_HOME/etc/hadoop/core-site.xml文件。在默认情况下，这个文件为空，没有任何配置，这里需要指定NameNode的ip和端口（默认端口是8020）。

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.1.134:9000</value>
    </property>
</configuration>

192.168.1.134是我的本机地址，可以写localhost或127.0.0.1。但是如果需要Eclipse远程调用Hadoop的时候，需要些具体的ip地址，否则调不通。

修改hdfs-site.xml

HDFS是分布式文件系统，为了安全性考虑，会将上传至HDFS的文件的每个分块拷贝到N个节点上，即复制N次（这里的N成为复制因子）。这里将复制因子改为1。

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

启动最小Hadoop伪分布式模式

经过上面的最小配置后，Hadoop已经可以启动伪分布式模式了。

格式化文件系统

第一次运行Hadoop的时候需要格式化其文件系统：

$ bin/hdfs namenode -format

如果成功，会打印：

。。。
14/10/14 19:09:05 INFO common.Storage: Storage directory /tmp/hadoop-lxh/dfs/name has been successfully formatted.
。。。

启动NameNode守护进程和DataNode守护进程

直接通过Hadoop提供的脚本start-dfs.sh即可：

$ sbin/start-dfs.sh

启动日志保存在$HADOOPLOGDIR目录中（默认是$HADOOP_HOME/logs）。

查看启动的进程

可以通过jps查看已经启动的进程：

31536 SecondaryNameNode
31381 DataNode
31254 NameNode
31643 Jps

说明DataNode、NameNode、SecondaryNameNode已经启动成功。

查看NameNode的web接口

通过默认的NameNode的web接口http://localhost:50070/，可以查看NameNode收集的信息，相当于关于Hadoop提供的一个信息查询系统。

Hello World

执行官网提供的验证程序。

$ hdfs dfs -mkdir /input
$ hdfs dfs -put $HADOOP_HOME/etc/hadoop/* /input
$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep /input /output 'dfs[a-z.]+'
$ hdfs dfs -cat /output/*

最后一条命令是显示最后的执行结果：

6   dfs.audit.logger
4   dfs.class
3   dfs.server.namenode.
2   dfs.period
2   dfs.audit.log.maxfilesize
2   dfs.audit.log.maxbackupindex
1   dfsmetrics.log
1   dfsadmin
1   dfs.servers
1   dfs.replication
1   dfs.file

停止进程

伪分布式模式中的第一个Hello World执行成功后，可以关闭进程了。

$ stop-dfs.sh

配置YARN

通过配置一些参数，并启动ResourceManager守护进程和NodeManager守护进程，可以在伪分布式模式中，在YARN上运行MapReduce任务。

上面的最小配置不变。

修改mapred-site.xml

在默认的Hadoop安装包中，没有mapred-site.xml文件，可以复制mapred-site.xml.template，并修改，指定在YARN中运行MapReduce任务：

<configuration>
    <property>    
        <name>mapreduce.framework.name</name>        
        <value>yarn</value>            
    </property>
</configuration>

修改yarn-site.xml

指明需要向MapReduce应用提供的Shuffle服务。

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

运行

可以通过start-yarn.sh启动ResourceManager守护进程和NodeManager守护进程，通过stop-yarn.sh停止。

补充配置

Hadoop默认将HDFS文件系统写在/tmp/hadoop-中，因为系统重启会清理/tmp目录，所以需要保证重启系统不丢失数据，需要修改默认数据保存位置。

core-site.xml

<property>
    <name>hadoop.tmp.dir</name>
    <value>file:/home/lxh/hadoop/tmp/hadoop</value>
</property>
hdfs-site.xml
<property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/home/lxh/hadoop/hdfs/name</value>
</property>
<property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/home/lxh/hadoop/hdfs/data</value>
</property>

Hadoop伪分布式模式部署

继续阅读

Ambari介绍和架构原理

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

Bugku-WEB-web33

mybatis_入门程序Mybatis入门

samba服务器的功能

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

【Linux】UDP广播报文接收速率问题

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

Linux设备模型（中）之上层容器

scala (3) Function 和 Method

PowerPC平台 Linux移植三