天天看点

Hadoop配置部分内容

Hadoop配置部分内容

Hadoop配置文件

hadoop-env.sh

           记录脚本要用的环境变量,以运行Hadoop,比如:jdk的环境变量配置

core-site.xml

           Hadoop Core的配置项,例如HAFD和Mapredure常用的I/O设置等。

hdfs-site.xml

           Hadoop守护进程的配置项,包括namenode,辅助namenode和datanode等。

slaves

           运行datanode和tasktracker的机器列表(每行一个)

配置管理

      Hadoop没有将所有配置信息放在一个单独的全局位置中。反之,集群的Hadoop节点都各自保存一系列配置文件,并由管理员完成这些配置文件的同步工作。

      Hadoop支持为所有的主机器和工作机器采用同一套配置文件 。

      最大的优势在于简单,不仅体现在理论上(仅需要处理一套配置文件),也体现在可操作性上(使用hadoop脚本就能进行管理)。

控制脚本

      Hadoop内置一些脚本来运行指令、在集群内启动和终止守护进程。为了运行这些脚本(存放在bin目录中),还需要指定集群内的所有机器。有两个文件能达到这个目标,即masters和slaves。各文件逐行记录一些机器的名称或ip地址。masters主要记录拟运行辅助namenode的所有机器。slaves文件记录了运行datanode和tasktracker的所有机器。

      这两个文件存放在配置目录中。此外,这些文件无需分发到各个工作节点,因为只有运行在namenode或jobtracker上的控制脚本能使用这些文件。

      脚本start-dfs.sh脚本用于启动集群中所有的HAFS守护进程 ,但是该脚本运行时会在同一机器上运行namenode。详细步骤如下:

      1.在本地机器上启动一个namenode(脚本所运行的机器)

      2.在slaves文件中记录的各个机器上启动一个datanode

      3.在masters文件中所记录的各机器上启动一个辅助namonode。

继续阅读