Hadoop配置部分内容
Hadoop配置文件
hadoop-env.sh
记录脚本要用的环境变量,以运行Hadoop,比如:jdk的环境变量配置
core-site.xml
Hadoop Core的配置项,例如HAFD和Mapredure常用的I/O设置等。
hdfs-site.xml
Hadoop守护进程的配置项,包括namenode,辅助namenode和datanode等。
slaves
运行datanode和tasktracker的机器列表(每行一个)
配置管理
Hadoop没有将所有配置信息放在一个单独的全局位置中。反之,集群的Hadoop节点都各自保存一系列配置文件,并由管理员完成这些配置文件的同步工作。
Hadoop支持为所有的主机器和工作机器采用同一套配置文件 。
最大的优势在于简单,不仅体现在理论上(仅需要处理一套配置文件),也体现在可操作性上(使用hadoop脚本就能进行管理)。
控制脚本
Hadoop内置一些脚本来运行指令、在集群内启动和终止守护进程。为了运行这些脚本(存放在bin目录中),还需要指定集群内的所有机器。有两个文件能达到这个目标,即masters和slaves。各文件逐行记录一些机器的名称或ip地址。masters主要记录拟运行辅助namenode的所有机器。slaves文件记录了运行datanode和tasktracker的所有机器。
这两个文件存放在配置目录中。此外,这些文件无需分发到各个工作节点,因为只有运行在namenode或jobtracker上的控制脚本能使用这些文件。
脚本start-dfs.sh脚本用于启动集群中所有的HAFS守护进程 ,但是该脚本运行时会在同一机器上运行namenode。详细步骤如下:
1.在本地机器上启动一个namenode(脚本所运行的机器)
2.在slaves文件中记录的各个机器上启动一个datanode
3.在masters文件中所记录的各机器上启动一个辅助namonode。