《Spark與Hadoop大資料分析》一一

2021-11-08 17:56:54

本節書摘來自華章計算機《spark與hadoop大資料分析》一書中的第3章，第3.1節,作者：文卡特·安卡姆（venkat ankam）更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

3.1　啟動 spark 守護程序

如果你計劃使用 standalone 的叢集管理器，則需要啟動 spark 的主機（master）和工作機（worker）的守護程序（daemon），它們是 spark 架構的核心元件。守護程序的啟動/停止在不同的發行版裡略有差異。hadoop 發行版（如 cloudera、hortonworks 和 mapr）會把 spark 作為服務，并把 yarn 作為預設的資料總管。這意味着在預設情況下所有 spark 應用程式都會在 yarn 架構上運作。但是，要使用 spark 的 standalone 資料總管，我們就需要啟動 spark 的主機和工作機角色。如果你計劃使用 yarn 資料總管，就不需要啟動這些守護程序。請根據你使用的發行版類型，按照以下步驟進行操作。所有這些發行版的下載下傳和安裝說明可以參閱第 2 章中的内容。

3.1.1　使用cdh

cloudera的hadoop發行版（cloudera distribution for hadoop，cdh）是一個開源的發行版，其中包括hadoop、spark 和大資料分析所需的許多其他項目。cloudera manager 是用來安裝和管理cdh平台的。如果你計劃使用yarn資料總管，請在cloudera manager中啟動spark服務。要為 spark 的standalone 資料總管啟動 spark 守護程序，請采用以下過程：

（1）cdh 平台上的 spark 是配置成和 yarn一起使用的。此外，spark 2.0目前在 cdh上還不可用。是以，要下載下傳最新的預制版 spark 2.0 hadoop包，請按照第2章中所解釋的步驟進行。如果你想使用 spark 1.6 版本，請運作 /usr/lib/spark/start-all.sh指令。

（2）請使用以下指令啟動服務。

3.1.2　使用 hdp、mapr 和 spark 預制軟體包

hortonworks資料平台（hortonworks data platform，hdp）和 mapr 融合資料平台（mapr converged data platform）的發行版中也包括hadoop、spark 和大資料分析所需的許多其他項目。hdp 使用 apache ambari 部署和管理叢集，而 mapr 使用mapr控制系統（mapr control system，mcs）。spark 的預制包裡沒有用于管理 spark 的特定管理器元件。如果你計劃使用 yarn 資料總管，請在 ambari 或 mcs 中啟動 spark 服務。要啟動 spark 守護程式以便使用 spark 的 standalone 資料總管，請采用以下過程。

（1）用以下指令啟動服務：

hdp: /usr/hdp/current/spark-client/sbin/start-all.sh

mapr: /opt/mapr/spark/spark-*/sbin/start-all.sh

為 hadoop 預制的 spark 包： ./sbin/start-all.sh

對于多節點叢集，請用以下指令在所有計算機上啟動 spark 的工作機角色：

另一種選項是在 /conf/slaves 檔案中提供工作機的主機名稱清單，然後使用 ./start-all.sh 指令自動在所有計算機上啟動工作機角色。

本章中的所有程式都在 cdh 5.8 vm 上執行過。對于其他環境，檔案路徑有可能會變化，但在任何環境中的概念都是相同的。

《Spark與Hadoop大資料分析》一一

繼續閱讀

ubuntu hadoop2.6.1，terminal下運作wordcount

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

MapReduce(一)：入門級程式wordcount及其分析

hadoop操作遇到的問題問題一：輸出檔案已存在

Hadoop之運作wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

Spark實作wordcount

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結