《Spark与Hadoop大数据分析》一一

2021-11-08 17:56:54

本节书摘来自华章计算机《spark与hadoop大数据分析》一书中的第3章，第3.1节,作者：文卡特·安卡姆（venkat ankam）更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.1　启动 spark 守护进程

如果你计划使用 standalone 的集群管理器，则需要启动 spark 的主机（master）和工作机（worker）的守护进程（daemon），它们是 spark 架构的核心组件。守护进程的启动/停止在不同的发行版里略有差异。hadoop 发行版（如 cloudera、hortonworks 和 mapr）会把 spark 作为服务，并把 yarn 作为默认的资源管理器。这意味着在默认情况下所有 spark 应用程序都会在 yarn 框架上运行。但是，要使用 spark 的 standalone 资源管理器，我们就需要启动 spark 的主机和工作机角色。如果你计划使用 yarn 资源管理器，就不需要启动这些守护进程。请根据你使用的发行版类型，按照以下步骤进行操作。所有这些发行版的下载和安装说明可以参阅第 2 章中的内容。

3.1.1　使用cdh

cloudera的hadoop发行版（cloudera distribution for hadoop，cdh）是一个开源的发行版，其中包括hadoop、spark 和大数据分析所需的许多其他项目。cloudera manager 是用来安装和管理cdh平台的。如果你计划使用yarn资源管理器，请在cloudera manager中启动spark服务。要为 spark 的standalone 资源管理器启动 spark 守护进程，请采用以下过程：

（1）cdh 平台上的 spark 是配置成和 yarn一起使用的。此外，spark 2.0目前在 cdh上还不可用。所以，要下载最新的预制版 spark 2.0 hadoop包，请按照第2章中所解释的步骤进行。如果你想使用 spark 1.6 版本，请运行 /usr/lib/spark/start-all.sh命令。

（2）请使用以下命令启动服务。

3.1.2　使用 hdp、mapr 和 spark 预制软件包

hortonworks数据平台（hortonworks data platform，hdp）和 mapr 融合数据平台（mapr converged data platform）的发行版中也包括hadoop、spark 和大数据分析所需的许多其他项目。hdp 使用 apache ambari 部署和管理集群，而 mapr 使用mapr控制系统（mapr control system，mcs）。spark 的预制包里没有用于管理 spark 的特定管理器组件。如果你计划使用 yarn 资源管理器，请在 ambari 或 mcs 中启动 spark 服务。要启动 spark 守护程序以便使用 spark 的 standalone 资源管理器，请采用以下过程。

（1）用以下命令启动服务：

hdp: /usr/hdp/current/spark-client/sbin/start-all.sh

mapr: /opt/mapr/spark/spark-*/sbin/start-all.sh

为 hadoop 预制的 spark 包： ./sbin/start-all.sh

对于多节点集群，请用以下命令在所有计算机上启动 spark 的工作机角色：

另一种选项是在 /conf/slaves 文件中提供工作机的主机名称列表，然后使用 ./start-all.sh 命令自动在所有计算机上启动工作机角色。

本章中的所有程序都在 cdh 5.8 vm 上执行过。对于其他环境，文件路径有可能会变化，但在任何环境中的概念都是相同的。

《Spark与Hadoop大数据分析》一一

继续阅读

ubuntu hadoop2.6.1，terminal下运行wordcount

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

MapReduce(一)：入门级程序wordcount及其分析

hadoop操作遇到的问题问题一：输出文件已存在

Hadoop之运行wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3构建hadoop项目

Spark实现wordcount

Eclipse运行WordCount（详细版）相关连接Eclipse运行WordCount

hadoop 用MR实现join操作

Centos7 下 Hadoop 2.6.4 分布式集群环境搭建摘要集群准备安装JDK 安装 Hadoop 2.6.4 部署 slaver1-slaver4 启动 hadoop 集群成功了

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

ubuntu14.04下安装hbse1.0.1.1

User Defined Hadoop DataType

Ambari介绍和架构原理

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结