hadoop3.0伪分布式集群搭建

2023-03-20 15:09:34

个人博客原文链接

搭建环境：CentOS7+hadoop3.0.3+jdk8

前提准备

安装配置jdk
配置静态ip地址
修改主机名
配置主机名和ip地址映射
关闭防火墙，设置开机不自启动

注：以上操作在笔者之前的Linux相关笔记中均有介绍

正式搭建集群

添加用户hadoop

useradd hadoop

passwd hadoop

注：后面都统一在hadoop用户下操作，统一权限
创建目录

mkdir -p /home/hadoop/apps/dfs/data

mkdir /home/hadoop/apps/dfs/name

mkdir /home/hadoop/apps/tmp
上传并解压hadoop-3.0.3.tar.gz

sftp上传

tar -zxvf hadoop-3.0.3.tar.gz apps/
配置hadoop-env.sh

vi /home/hadoop/apps/hadoop-3.0.3/etc/hadoop/hadoop-env.sh

找到export JAVA_HOME

并添加

export JAVA_HOME=/usr/local/jdk

修改核心配置文件core-site.xml

vi core-site.xml

在configuration标签中添加属性

<configuration>
    <property>
        <name>fs.defaultFS</name>   #默认
        <value>hdfs://hadoop5:9000</value> #hdfs的api接口
    </property>
    <property>
        <name>hadoop.tmp.dir</name> #hadoop运行时产生临时数据的存储目录
        <value>/home/hadoop/apps/tmp</value> #该目录的地址
    </property>
</configuration>

配置hadoop的底层存储hdfs-site.xml

vi hdfs-site.xml

在configuration标签中添加属性

<configuration>
        <property>
                <name>dfs.replication</name> #设置副本个数
                <value>1</value>
        </property>
        <property>
                <name>dfs.namenode.name.dir</name> #设置namende数据存放点
                <value>file:/home/hadoop/apps/dfs/name</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name> #设置datanode数据存放点
                <value>file:/home/hadoop/apps/dfs/data</value>
        </property>
</configuration>

复制并重命名mapred-site.xml.template

cp mapred-site.xml.template mapred-site.xml

修改配置文件mapred-site.xml

vi mapred-site.xml

在configuration标签中添加属性

<configuration>
    <property>
        <name>mapreduce.framwork.name</name>    #设置mapreduce的运行平台的名称
        <value>yarn</value> #设置mapreduce的运行平台为yarn
    </property>
</configuration>

修改配置文件yarn-site.xml

vi yarn-site.xml

在configuration标签中添加属性

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name> #指定yarn的老大的地址
        <value>hadoop5</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>  #reducer获取数据的方式
        <value>mapreduce_shuffle</value> 
    </property>
</configuration>

修改配置文件workers

添加

hadoop5
配置hadoop环境变量

vi ~/.bash_profile

添加

HADOOP_HOME=/home/hadoop/apps/hadoop-3.0.3

PATH= P A T H : PATH: PATH:HADOOP_HOME/bin:$HADOOP_HOME/sbin

export HADOOP_HOME PATH
格式化hdfs（没事不要用这个命令，蛋疼）

hdfs namenode -format
配置免密登录

ssh-keygen

ssh-copy-id hadoop5
启动所有服务(不推荐)

start-all.sh

相当于start-dfs.sh+start-yarn.sh
停止所有服务

stop-all.sh
在浏览器查看

hadoop5:9870

hadoop5:8088
查看该集群的根目录

hdfs dfs -ls /
创建自己的家目录

hdfs dfs -mkdir /user/xujie
测试实例

cd /home/hadoop/apps/hadoop-3.0.3/share/hadoop/mapreduce/

调用jar包计算pi的值，计算100次

hadoop jar hadoop-mapreduce-examples-3.0.3.jar pi 3 100

hadoop3.0伪分布式集群搭建

前提准备

正式搭建集群

继续阅读

【分类算法】什么是分类算法定义分类与聚类分类过程方法

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

Sql优化一：sql语句优化

Nacos 2.0 升级前后性能对比压测

hadoop 用MR实现join操作

Centos7 下 Hadoop 2.6.4 分布式集群环境搭建摘要集群准备安装JDK 安装 Hadoop 2.6.4 部署 slaver1-slaver4 启动 hadoop 集群成功了

尚硅谷—韩顺平—图解 Java设计模式（结构型）（55～）

Storm编译打包过程中遇到的一些问题及解决方法

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

浅谈企业活动中进行数据分析的重要性

ubuntu14.04下安装hbse1.0.1.1

User Defined Hadoop DataType

Ambari介绍和架构原理

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark