使用Docker部署Spark集群

克隆包含启动脚本的git仓库
启动Spark0.8.0集群并切换至Spark Shell环境
不带参数运行部署脚本
*运行一些小的例子
终止集群

克隆包含启动脚本的git仓库*

当然，在这之前你必须已经配置了Github的SSH密钥认证，如果没有配置，会提示Permission Denied。解决方法可以参照上一篇日志。

启动Spark0.8.0集群并切换至Spark Shell环境

运行完这行命令你就得到了这样一个Spark集群：* 包含两个woker节点；HDFS也已配好。在第一次运行的时候，Docker会自动地区全局仓库区取到容器镜像，并且缓存到本地。*

不带参数运行部署脚本

不带参数运行部署脚本会输出命令行帮助信息：

$ sudo ./docker-scripts/deploy/deploy.sh
usage: ./docker-scripts/deploy/deploy.sh -i <image> [-w <#workers>] [-v <data_directory>] [-c]

  image:    spark or shark image from:
                 amplab/spark:0.7.3  amplab/spark:0.8.0
                 amplab/shark:0.7.0  amplab/shark:0.8.0

这个脚本根据给定的worker节点的数量，要么启动一个独立的Spark集群，要么启动一个独立的Shark集群。Hadoop HDFS服务也会被启动。因为服务依赖于适当配置的DNS，所以一个容器会自动带着一个DNS转发器启动。所有的容器也能够使用预配置的RSA Key通过ssh访问到。

如果你想让你的容器访问主机的目录 – 譬如说向Spark里面导入一些数据 – 你可以直接接上-v选项就可以了。这个目录就会被挂载到Master和Worker容器的/data目录。

Spark和Shark Shell都是启动在各自独立的容器中。你可以使用-c选项区启动shell容器，也可以稍后attach上去。

那么，现在我们就启动含有两个worker的Spark0.8.0，并连接上Spark Shell：

然后，你就可看到类似下面的输出:

*** Starting Spark  ***
...
***********************************************************************
connect to spark via:       sudo docker run -i -t -dns  amplab/spark-shell: 

visit Spark WebUI at:       http://:/
visit Hadoop Namenode at:   http://:
***********************************************************************

运行一些小的例子

例如

scala> val textFile = sc.textFile("hdfs://master:9000/user/hdfs/test.txt")
scala> textFile.count()
scala> textFile.map({line => line}).collect()
#

终止集群

$ sudo docker-scripts/deploy/kill_all.sh spark
$ sudo docker-scripts/deploy/kill_all.sh nameserver

这两个命令会杀掉所有的Spark和nameserver容器。

使用Docker部署Spark集群使用Docker部署Spark集群

使用Docker部署Spark集群

克隆包含启动脚本的git仓库*

启动Spark0.8.0集群并切换至Spark Shell环境

不带参数运行部署脚本

运行一些小的例子

终止集群

继续阅读

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

云虚拟主机进入容器时代

Docker安装和部署WeCenter3.3.5开源问答平台

Scala和Java二种方式实战Spark Streaming开发

docker容器网络配置docker容器网络配置

因overlay2文件夹占用过大而引起的docker数据迁移之战（上）前言正文

Docker - Dockerfile之ADD、COPY、WORKDIR、USER、EXPOSE指令详解

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

(SpringBoot)日志种类：log、monitor、access、out、gc、backup

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

CentOS 7,docker安装

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

【Docker】端口映射问题操作步骤