Standalone-client|cluster

2023-02-23 10:33:18

Standalone-client

1.任務送出

./spark-submit 	
	--master spark://node1:7077 	#master在那個節點上
	--deploy-mode client 		#任務送出方式，client cluster兩種，不寫的情況下預設是client
	--class org.apache.spark.examples.SparkPi 	#類名
	../examples/jars/spark-examples_2.11-2.3.1.jar #類所在的jar包
	1000 #可寫可不寫，1000個application執行

2.執行流程圖

Standalone-client|cluster

3.執行流程

3.1 用戶端送出任務Application，并開啟Driver
3.2 Driver向Master申請Application需要的資源
3.3 在Master傳回對應的資源後，Driver會将任務task發送到對應的worker上執行
3.4 Worker将task的執行結果傳回給Driver

4.注意：

client使用與任務測試階段。Driver是在用戶端啟動的，即送出任務的節點。在Driver端可以看到任務的執行流程和任務結果。在生産環境不能使用，如果有一百個application送出到叢集，則會有100個Driver在用戶端執行，每個用戶端都會與任務有互動，這樣就會使用戶端的流量急劇增加。

Standalone-cluster

1.送出任務

./spark-submit 	
	--master spark://node1:7077 	#master在那個節點上
	--deploy-mode cluster 		#任務送出方式，client cluster兩種，不寫的情況下預設是client
	--class org.apache.spark.examples.SparkPi 	#類名
	../examples/jars/spark-examples_2.11-2.3.1.jar #類所在的jar包
	1000 #可寫可不寫，1000個application執行

2.任務執行流程圖

Standalone-client|cluster

3.執行流程

3.1 用戶端送出任務Application
3.2 向Master申請啟動Driver
3.3 Master會随機找一台任務不忙的節點啟動Driver
3.4 Driver會向Master申請Application需要的資源
3.5 Driver将申請的worker分發task
3.6 Worker将任務執行情況和執行結果傳回給Driver

4.注意

Driver是分散在叢集中的，這樣用戶端的網卡流量激增問題就被解決了。但這時在用戶端則無法檢視到任務的執行情況

Driver與叢集之間的通信

1.Driver向Master資源的申請

2.Driver向Worker分發任務

3.Worker向Driver彙報任務運作情況

4.Worker向Driver彙報任務結果

Standalone-client|cluster

繼續閱讀

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

DOM下元素 offset client scroll 相關屬性簡介

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method