Hadoop安装

1 安装操作系统Centos 7 64位

192.168.1.4 Master.Hadoop

192.168.1.5 Slave.Hadoop

最小安装

2 ssh免密钥登陆

SSH免密码登录，因为Hadoop需要通过SSH登录到各个节点进行操作，我用的是root用户，每台服务器都生成公钥，再合并到authorized_keys

1）SSH无密码原理

Master（NameNode | JobTracker）作为客户端，要实现无密码公钥认证，连接到服务器Salve（DataNode | Tasktracker）上时，需要在Master上生成一个密钥对，包括一个公钥和一个私钥，而后将公钥复制到所有的Slave上。当Master通过SSH连接Salve时，Salve就会生成一个随机数并用Master的公钥对随机数进行加密，并发送给Master。Master收到加密数之后再用私钥解密，并将解密数回传给Slave，Slave确认解密数无误之后就允许Master进行连接了。这就是一个公钥认证过程，其间不需要用户手工输入密码。重要过程是将客户端Master复制到Slave上。

第一步 Master 到 Slave 上的ssh无密码连接

Master 里面操作

yum install ssh 安装SSH协议

yum install rsync （rsync是一个远程数据同步工具，可通过LAN/WAN快速同步多台主机间的文件）

yum install openssh-clients

systemctl restart sshd.service (重启 sshd 服务)

mkdir ~/.ssh (root目录下)

chmod 700 ~/.ssh

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa (这是生成其无密码密钥对:id_dsa和id_dsa.pub)

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys (把id_dsa.pub追加到授权的key里面去 )

chmod 600 ~/.ssh/authorized_keys

scp -r ~/.ssh/id_dsa.pub [email protected]:~/ (需要输入密码)

getenforce

setenforce 0 (setenforce是Linux的selinux防火墙配置命令执行setenforce 0 表示关闭selinux防火墙。)

修改配置文件vi /etc/sysconfig/selinux

编辑selinux文件

# This file controls the state of SELinux on the system.

# SELINUX= can take one of these three values:

# enforcing - SELinux security policy is enforced.

# permissive - SELinux prints warnings instead of enforcing.

# disabled - No SELinux policy is loaded.

SELINUX=enforcing

# SELINUXTYPE= can take one of these two values:

# targeted - Targeted processes are protected,

# mls - Multi Level Security protection.

SELINUXTYPE=targeted

修改为

SELINUX=disabled

SELINUXTYPE=targeted

systemctl restart sshd.service

在 Salve端执行

yum install ssh

yum install rsync

mkdir ~/.ssh

cat ~/id_dsa.pub >> ~/.ssh/authorized_keys

验证

ssh 192.168.1.5 无密码登陆成功.

exit

第二步 Slave 到Master上的ssh无密码连接(配置所有Slave无密码登录Master)

在Slave端执行

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa (在Slave端生成了id_dsa id_dsa.pub文件)

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

scp -r ~/.ssh/id_dsa.pub [email protected]:~/

setenforce 0

vi /etc/sysconfig/selinux (修改同上)

在Master 端执行

验证 ssh 192.168.1.4 (在Slave端 )

3 jdk 配置

在Master端 /usr/java 目录下上传文件 jdk-8u11-linux-x64.tar

cd /usr/java

tar -xzvf jdk-8u11-linux-x64.tar.gz

在/etc/profile文件中，配置环境变量，是JDK在所有用户中生效：　　打开/etc/profile文件　　vi /etc/profile

编辑文件，在最后添加：

JAVA_HOME=/usr/java/jdk1.8.0_11

PATH=$JAVA_HOME/bin:$PATH

CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export JAVA_HOME

export PATH

export CLASSPATH

保存退出后，执行source /etc/profile是修改的环境变量生效

使用java -version命令测试是否成功

在Slave端操作jdk 与Master端操作一致

4 hadoop安装

参考http://www.open-open.com/lib/view/open1435761287778.html

安装Hadoop2.7，只在Master服务器解压，再复制到Slave服务器

(1) 下载“hadoop-2.7.2.tar.gz”，放到/home/hadoop目录下

(2) 解压，输入命令，tar -xzvf hadoop-2.7.2.tar.gz

(3) 在/home/hadoop目录下创建数据存放的文件夹，tmp、hdfs、hdfs/data、hdfs/name

(4)配置/home/hadoop/hadoop-2.7.2/etc/hadoop 目录下的core-site.xml

<name>fs.defaultFS</name>

</property>

<name>hadoop.tmp.dir</name>

<value>file:/home/hadoop/tmp</value>

<name>io.file.buffer.size</name>

</configuration>

(4) 配置/home/hadoop/hadoop-2.7.2/etc/hadoop 目录下的hdfs-site.xml

<name>dfs.namenode.name.dir</name>

<value>file:/home/hadoop/dfs/name</value>

<name>dfs.datanode.data.dir</name>

<value>file:/home/hadoop/dfs/data</value>

<name>dfs.replication</name>

<name>dfs.namenode.secondary.http-address</name>

<name>dfs.webhdfs.enabled</name>

(5) 配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的mapred-site.xml

mv mapred-site.xml.template mapred-site.xml

vi mapred-site.xml

<name>mapreduce.framework.name</name>

<name>mapreduce.jobhistory.address</name>

<name>mapreduce.jobhistory.webapp.address</name>

(6) 配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

<name>yarn.resourcemanager.address</name>

<name>yarn.resourcemanager.scheduler.address</name>

<name>yarn.resourcemanager.resource-tracker.address</name>

<name>yarn.resourcemanager.admin.address</name>

<name>yarn.resourcemanager.webapp.address</name>

<name>yarn.nodemanager.resource.memory-mb</name>

(7) 配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下hadoop-env.sh、yarn-env.sh的JAVA_HOME，不设置的话，启动不了，export JAVA_HOME=/usr/java/jdk1.8.0_11

(8) 配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的slaves，删除默认的localhost，增加1个从节点，

192.168.1.5

(9) 将配置好的Hadoop复制到各个节点对应位置上，通过scp传送

scp -r /home/hadoop 192.168.1.5:/home/

(10)在Master服务器启动hadoop，从节点会自动启动，进入/home/hadoop/hadoop-2.7.0目录

A 初始化，输入命令，bin/hdfs namenode -format

B 全部启动sbin/start-all.sh，也可以分开sbin/start-dfs.sh、sbin/start-yarn.sh

C 停止的话，输入命令，sbin/stop-all.sh

D 输入命令，jps，可以看到相关信息

(11)、Web访问，要先开放端口或者直接关闭防火墙

A输入命令，systemctl stop firewalld.service

B浏览器打开http://192.168.1.4:8088/

C浏览器打开http://192.168.1.4:50070/

(12) 安装完成。这只是大数据应用的开始，之后的工作就是，结合自己的情况，编写程序调用Hadoop的接口，发挥hdfs、mapreduce的作用。

参考:

http://www.linuxidc.com/Linux/2015-11/124800.htm

http://www.centoscn.com/image-text/install/2014/1121/4158.html

http://www.open-open.com/lib/view/open1435761287778.html

Hadoop安装

继续阅读

neo4j之cypher使用文档

Ambari介绍和架构原理

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

samba服务器的功能

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

【Linux】UDP广播报文接收速率问题

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

Linux设备模型（中）之上层容器

scala (3) Function 和 Method

PowerPC平台 Linux移植三