环境配置 | 值 |
---|---|
操作系统 | Centos6.5 |
位数 | 64位 |
JDK | 1.8.0.65 |
Scala | 2.12.4 |
Hadoop | 2.6.0-cdh5.10.2 |
Spark | 2.1.2 |
第一步:从Spark官网下载Spark源码
wget http://mirrors.hust.edu.cn/apache/spark/spark-2.1.2/spark-2.1.2.tgz
第二步:JDK、Scala、Hadoop安装配置好
第三步:配置Maven
略
第四步:增大Maven使用的内存
第五步:添加执行权限并解压
# 添加执行权限
chmod u+x spark-2.1.2.tgz
# 解压
tar -zxf spark-2.1.2.tgz -C .
第六步:
vim dev/make-distribution.sh
# 修改以下内容
VERSION=2.1.2
SCALA_VERSION=2.12.4
SPARK_HADOOP_VERSION=2.6.0-cdh5.10.2
SPARK_HIVE=1
第七步:修改pom.xml添加国内源和Cloudera源
cd ${SPARK_HOME}
vim pom.xml
# 在repositories标签下添加以下阿里云源和Cloudera源
第八步:关闭所有Hadoop服务
第九步:执行编译命令
cd dev
./make-distribution.sh --name custom-spark --tgz -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.10.2 -Phive -Phive-thriftserver -Pyarn
注意一定要在make-distribution.sh所在所在的目录执行,不能在Spark的根目录执行
编译成功的界面: