一前言

本文档主要介绍如何在挂载文件存储HDFS版的 Hadoop 集群上安装及使用 Spark。

二准备工作

开通文件存储HDFS版服务并创建文件系统实例和挂载点，详情请参见快速入门。
在 Hadoop 集群所有节点上安装JDK。版本不能低于1.8。
下载 Apache Hadoop 压缩包，下载地址：官方链接。建议您选用的 Hadoop 版本不低于2.7.2，本文档中使用的 Hadoop 版本为 Apache Hadoop 2.7.2。
下载 Apache Spark 压缩包，下载地址：。本文档中使用的版本为官方提供的预编译版本 Apache Spark 2.4.8 。

三配置 Hadoop

执行如下命令解压 Hadoop 压缩包到指定目录。

tar -zxf hadoop-2.7.2.tar.gz -C /usr/local/

修改 hadoop-env.sh 配置文件。

- 执行如下命令打开 hadoop-env.sh 配置文件。

vim /usr/local/hadoop-2.7.2/etc/hadoop/hadoop-env.sh

- 配置 JAVA_HOME 目录，如下所示。

export JAVA_HOME=/usr/java/default

修改 core-site.xml 配置文件。

- 执行如下命令打开 core-site.xml 配置文件。

vim /usr/local/hadoop-2.7.2/etc/hadoop/core-site.xml

- 在 core-site.xml 配置文件中，配置如下信息，详情请参见挂载文件系统

<configuration>
    <property>
         <name>fs.defaultFS</name>
         <value>dfs://x-xxxxxxxx.cn-xxxxx.dfs.aliyuncs.com:10290</value>  
         <!-- 该地址填写您的挂载点地址 -->
    </property>
    <property>
         <name>fs.dfs.impl</name>
         <value>com.alibaba.dfs.DistributedFileSystem</value>
    </property>
    <property>
         <name>fs.AbstractFileSystem.dfs.impl</name>
         <value>com.alibaba.dfs.DFS</value>
    </property>
</configuration>

修改 yarn-site.xml 配置文件。

- 执行如下命令打开 yarn-site.xml 配置文件。

vim /usr/local/hadoop-2.7.2/etc/hadoop/yarn-site.xml

- 在 yarn-site.xml 配置文件中，配置如下信息。

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>xxxx</value>
        <!-- 该地址填写集群中resourcemanager的hostname -->
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>16384</value>
        <!-- 根据您当前的集群能力进行配置此项 -->
    </property>
    <property>
        <name>yarn.nodemanager.resource.cpu-vcores</name>
        <value>4</value>
        <!-- 根据您当前的集群能力进行配置此项 -->
    </property>
    <property>
        <name>yarn.scheduler.maximum-allocation-vcores</name>
        <value>4</value>
        <!-- 根据您当前的集群能力进行配置此项 -->
    </property>
    <property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>3584</value>
        <!-- 根据您当前的集群能力进行配置此项 -->
    </property>
    <property>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>14336</value>
        <!-- 根据您当前的集群能力进行配置此项 -->
    </property>
</configuration>

修改 slaves 配置文件。

- 执行如下命令打开 slaves 配置文件。

vim /usr/local/hadoop-2.7.2/etc/hadoop/slaves

- 在 slaves 配置文件中，配置集群计算节点的 hostname。

cluster-header-1
cluster-worker-1

配置环境变量。

- 执行如下命令打开 /etc/profile 配置文件。

vim /etc/profile

- 在 /etc/profile 配置文件中，配置 HADOOP_HOME 。

export HADOOP_HOME=/usr/local/hadoop-2.7.2
export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$($HADOOP_HOME/bin/hadoop classpath)
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

- 执行如下命令使配置生效。

source /etc/profile

配置文件存储HDFS版的Java SDK。

您可以单击

此处

，下载文件存储HDFS版最新的Java SDK，将其部署在Hadoop生态系统组件的CLASSPATH上，详情请参见

cp aliyun-sdk-dfs-x.y.z.jar  /usr/local/hadoop-2.7.2/share/hadoop/hdfs

执行如下命令将${HADOOP_HOME}文件夹同步到集群的其他节点的相同目录下，并按照本章节步骤 6 对集群其他节点配置 Hadoop 的环境变量。

scp -r hadoop-2.7.2/ root@cluster-worker-1:/usr/local/

四验证 Hadoop 配置

完成 Hadoop 配置后，不需要格式化 NameNode，也不需要使用 start-dfs.sh 来启动 HDFS 相关服务。在 ResourceManager 节点启动 Yarn 服务，验证 Hadoop 配置成功的方法请参见文档：

验证安装。

五配置 Spark

执行如下命令解压 Spark 压缩包到指定目录。

tar -zxf spark-2.4.8-bin-hadoop2.7.tgz -C /usr/local/

将文件存储HDFS版 Java SDK 放到 Spark 的 jars 目录下。

cp aliyun-sdk-dfs-x.y.z.jar /usr/local/spark-2.4.8-bin-hadoop2.7/jars/

注意事项

如果您需要对 Spark 进行额外的配置，请参考官方文档：配置操作指南

六验证 Spark 配置

读取文件存储HDFS版上的数据进行 WordCount 计算并将结果写到文件存储HDFS版上。

## 请将下方文档中的 f-xxxxxxx.cn-zhangjiakou.dfs.aliyuncs.com 替换为您的挂载点
## 在文件存储HDFS版上生成测试数据
hadoop jar ${HADOOP_HOME}/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar \
randomtextwriter \
-D mapreduce.randomtextwriter.totalbytes=10240 \
-D mapreduce.randomtextwriter.bytespermap=1024 \
dfs://f-xxxxxxx.cn-zhangjiakou.dfs.aliyuncs.com:10290/input

## 启动 spark-shell 执行 WordCount
${SPARK_HOME}/bin/spark-shell --master yarn
scala> val res = sc.textFile("dfs://f-xxxxxxx.cn-zhangjiakou.dfs.aliyuncs.com:10290/input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)
scala> res.collect.foreach(println)
scala> res.saveAsTextFile("dfs://f-xxxxxxx.cn-zhangjiakou.dfs.aliyuncs.com:10290/output")

## 查看写入文件存储HDFS版的结果数据
hadoop fs -ls dfs://f-xxxxxxx.cn-zhangjiakou.dfs.aliyuncs.com:10290/output

在文件存储HDFS版上使用 Apache Spark一前言二准备工作三配置 Hadoop四验证 Hadoop 配置五配置 Spark六验证 Spark 配置

了解更多关于文件存储HDFS版的产品信息，欢迎访问

https://www.aliyun.com/product/alidfs

如果您对文件存储HDFS版有任何问题，欢迎钉钉扫描以下二维码加入文件存储HDFS版技术交流群。

在文件存储HDFS版上使用 Apache Spark一前言二准备工作三配置 Hadoop四验证 Hadoop 配置五配置 Spark六验证 Spark 配置

一前言

二准备工作

三配置 Hadoop

四验证 Hadoop 配置

五配置 Spark

六验证 Spark 配置

继续阅读

Apache2.4.x 配置文件详解Apache配置需要了解如下：开始讲解：

配置apache支持PHP（win7）

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

Ambari介绍和架构原理

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method

在文件存储HDFS版上使用 Apache Spark一 前言二 准备工作三 配置 Hadoop四 验证 Hadoop 配置五 配置 Spark六 验证 Spark 配置

一 前言

二 准备工作

三 配置 Hadoop

四 验证 Hadoop 配置

五 配置 Spark

六 验证 Spark 配置

继续阅读

在文件存储HDFS版上使用 Apache Spark一前言二准备工作三配置 Hadoop四验证 Hadoop 配置五配置 Spark六验证 Spark 配置

一前言

二准备工作

三配置 Hadoop

四验证 Hadoop 配置

五配置 Spark

六验证 Spark 配置