天天看點

《Spark與Hadoop大資料分析》一一

本節書摘來自華章計算機《spark與hadoop大資料分析》一書中的第3章,第3.1節,作者:文卡特·安卡姆(venkat ankam) 更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

3.1 啟動 spark 守護程序

如果你計劃使用 standalone 的叢集管理器,則需要啟動 spark 的主機(master)和工作機(worker)的守護程序(daemon),它們是 spark 架構的核心元件。守護程序的啟動/停止在不同的發行版裡略有差異。hadoop 發行版(如 cloudera、hortonworks 和 mapr)會把 spark 作為服務,并把 yarn 作為預設的資料總管。這意味着在預設情況下所有 spark 應用程式都會在 yarn 架構上運作。但是,要使用 spark 的 standalone 資料總管,我們就需要啟動 spark 的主機和工作機角色。如果你計劃使用 yarn 資料總管,就不需要啟動這些守護程序。請根據你使用的發行版類型,按照以下步驟進行操作。所有這些發行版的下載下傳和安裝說明可以參閱第 2 章中的内容。

3.1.1 使用cdh

cloudera的hadoop發行版(cloudera distribution for hadoop,cdh)是一個開源的發行版,其中包括hadoop、spark 和大資料分析所需的許多其他項目。cloudera manager 是用來安裝和管理cdh平台的。如果你計劃使用yarn資料總管,請在cloudera manager中啟動spark服務。要為 spark 的standalone 資料總管啟動 spark 守護程序,請采用以下過程:

(1)cdh 平台上的 spark 是配置成和 yarn一起使用的。此外,spark 2.0目前在 cdh上還不可用。是以,要下載下傳最新的預制版 spark 2.0 hadoop包,請按照第2章中所解釋的步驟進行。如果你想使用 spark 1.6 版本,請運作 /usr/lib/spark/start-all.sh指令。

(2)請使用以下指令啟動服務。

3.1.2 使用 hdp、mapr 和 spark 預制軟體包

hortonworks資料平台(hortonworks data platform,hdp)和 mapr 融合資料平台(mapr converged data platform)的發行版中也包括hadoop、spark 和大資料分析所需的許多其他項目。hdp 使用 apache ambari 部署和管理叢集,而 mapr 使用mapr控制系統(mapr control system,mcs)。spark 的預制包裡沒有用于管理 spark 的特定管理器元件。如果你計劃使用 yarn 資料總管,請在 ambari 或 mcs 中啟動 spark 服務。要啟動 spark 守護程式以便使用 spark 的 standalone 資料總管,請采用以下過程。

(1)用以下指令啟動服務:

hdp: /usr/hdp/current/spark-client/sbin/start-all.sh

mapr: /opt/mapr/spark/spark-*/sbin/start-all.sh

為 hadoop 預制的 spark 包: ./sbin/start-all.sh

對于多節點叢集,請用以下指令在所有計算機上啟動 spark 的工作機角色:

另一種選項是在 /conf/slaves 檔案中提供工作機的主機名稱清單,然後使用 ./start-all.sh 指令自動在所有計算機上啟動工作機角色。

本章中的所有程式都在 cdh 5.8 vm 上執行過。對于其他環境,檔案路徑有可能會變化,但在任何環境中的概念都是相同的。

繼續閱讀