Deploy Apache Flink Natively on YARN/Kubernetes

作者：任春德

Apache Flink作為下一代大資料計算引擎，在迅速發展強大中，其内部架構也在不斷優化重構，以适應更多運作時環境和更大計算規模，

重新設計了在各叢集管理系統(Standalone/YARN/Kubernetes等)上資源排程的統一架構，本文将介紹資源排程的架構發展及其清晰分層等設計特點，YARN上per-Job和session兩種模式的實作，以及正在讨論開發的與K8S雲原生融合的詳細設計。

本文内容如下：

Apache Flink Standalone Cluster
Apache Flink 與 YARN 的原生融合
Apache Flink 與 K8S 的原生融合
小結

如圖1，Flink的Standalone叢集部署是主從架構，其中主JobManager(簡稱JM)負責Job的計算單元Task排程，TaskManager(簡稱TM)向JobManager彙報并負責在其内部用線程執行Task。

之是以是Standalone，是因為其不依賴其他底層資源排程系統，直接部署啟動在各自的裸機器節點上，雖然可以用一些自動化運維工具友善地部署和管理，但是存在以下幾個問題：

隔離：多Job運作在一個叢集，可能同一TM上執行不同Job的Task，其線程所用資源(cpu/mem)無法控制，互相影響，甚至一個Task造成整個TM的Out Of Memory，使其之上的Job都受影響；多個Job的排程也在同一個JM中，同樣存在被有問題Job影響的問題。
多租戶的資源用量(quota)管理：無法控制使用者的Job資源使用總量，缺乏租戶間的資源協調管理。
叢集的可用性：雖然JM可以部署有Standby，支援High Available，但JM、TM程序缺乏被看護，難免因以上隔離等問題造成過多程序宕掉，整個叢集不可用。
叢集的可運維：版本更新，擴縮容等都需要複雜的運維操作。

為了解決以上問題，需要将Flink跑在流行成熟的資源排程系統上，如YARN、Kubernetes、Mesos，如何實作呢？

Flink 與 YARN 的原生融合

Apache Flink Standalone Cluster on YARN

簡單有效的一種部署方式是利用YARN自身支援的特性，将Flink Standalone部署到

YARN

叢集上，如圖2(Apache Flink Standalone Cluster ON YARN)，

多個Job可以相應地起多個YARN Application，每個app是一個standalone cluster，各自獨立運作，而且依靠YARN本身支援的cgroups等隔離手段，避免了多任務間的互相影響，隔離問題迎刃而解。
不同使用者的App也可以運作在不同的YARN排程隊列中，通過queue quota管理能力解決多租戶的問題。
同時可以利用YARN對App程序的重新開機重試再排程的政策，使Flink Standalone Cluster高可用。
簡單的參數、配置檔案修改，通過YARN的distributed cache分發Flink jar，就可以友善的更新和擴縮容。

雖然解決了以上問題，但是每個(少量)Job起一個Standalone Cluster，難以達到高效的資源利用，因為：

Cluster的規模(多少個TM)是在啟動YARN App時參數靜态指定的，Flink自身的編譯優化使其較難在運作前預估資源的需求，那就難以合理化TM數量，多了資源浪費，少了影響Job執行速度甚至無法運作。
每個TM擁有的資源大小也是參數靜态指定，同樣難以預估實際需要，不能針對不同的Task資源需求來動态申請不同大小的TM，隻能設定相同規格大小的TM，那就難以恰好放置整數個Task，剩餘的部分資源浪費。
App的啟動(1.Submit YARN App)和Flink Job的送出(7.Submit Job)需要2階段完成，會使每個任務的送出效率低，造成叢集的資源流轉率也會降低。

大規模YARN叢集中Flink Job越多，資源浪費的會更可觀，成本損失越大，而且不隻是on YARN存在以上問題，Standalone直接運作于其他資源排程系統之上，也是有相同問題，是以阿裡巴巴實時計算率先在YARN實際生産經驗上改進了Flink的資源利用模型，後續與社群讨論設計實作了一套通用的架構，适用于不同的資源排程系統。

FLIP-6 - Deployment and Process Model

FLIP-6

全面記錄了此次部署架構的重構，新的子產品如圖3。類似MapReduce-1架構向YARN+MapReduce-2的更新，将資源排程與Job計算邏輯單元(Task)的排程分成2層，使兩個子產品（系統）——ResourceManager(RM)和JobManager(JM)各司其職，與底層資源排程系統的耦合降低（隻需實作不同plugable的ResourceManager即可），減少邏輯複雜度降低開發維護難度，優化JM實作資源按Task所需申請，解決了Standalone on YARN/K8S的資源使用率低的問題，同時還有利于叢集和Job規模的擴充。

Dispatcher: 負責與Client通信接收Job的送出，生成JobManager，生命周期可跨Job。
ResourceManager: 對接不同資源排程系統，實作資源的排程（申請/釋放），管理Container/TaskManager，同樣生命周期可跨Job。
JobManager: 每個Job一個執行個體，負責Job的計算邏輯的排程執行。
TaskManager: 向RM注冊彙報資源情況，從JM接收Task執行并彙報狀态。

Apache Flink與YARN的原生融合

根據以上架構，Flink on YARN實作了2種不同的部署運作模式Per-Job和Session（使用者使用文檔

Flink on Yarn

）。

Per-Job

Per-Job即一個Flink Job與其YARN Application(App)生命周期綁定，執行過程如圖4，在送出YARN App時同時将Flink Job的file/jars通過

YARN Distributed Cache

分發，一次性完成送出，而且JM是根據JobGraph産生的Task的資源實際需求來向RM申請slot執行，Flink RM再動态的申請/釋放YARN的Container。完美(?)解決了之前的所有問題，既利用了YARN的隔離又有高效的資源利用。

Session

Per-Job完美？No，還是存在局限，YARN App的送出時資源申請和啟動TM的時間較長(秒級)，尤其在互動式分析短查詢等場景上，Job計算邏輯執行時間很短，那麼App的啟動時間占比大就嚴重影響了端到端的使用者體驗，缺少了Standalone模式上Job送出快的優點。但FLIP-6架構的威力，還是能輕松化解這個問題，如圖5，通過預啟動的YARN App來跑一個Flink Session（Master和多個TM已啟動，類似Standalone可運作多個Job），再送出執行Job，這些Job就可以很快利用已有的資源來執行計算。

Blink

分支與Master具體實作有點不同（是否預起TM），後續會合并統一，并且繼續開發實作Session的資源彈性——按需自動擴縮TM數量，這點是standalone無法實作的。

Resource Profile

前面是架構上的變化，而要實作資源按需申請，需要有協定API，這就是Resource Profile，可以描述單個算子(Operator)的CPU & Memory等的資源用量，進而RM根據這些資源請求來向底層資源管理系統申請Container來執行TM，詳細的使用文檔見

Task slots and resources

。

Flink 與 Kubernetes 的原生融合

Apache Flink Standalone Cluster on Kubernetes

依靠K8S自身支援Service部署的強大能力，Flink Standalone Cluster可以通過簡單的

K8S: Deployment & Service

或

Flink Helm chart

很容易的部署到K8S叢集上，但同樣有類似Standalone on YARN的資源使用率低等問題，是以還是需要“原生融合”。

Apache Flink 和 Kubernetes 的原生融合

Flink與K8S的“原生融合”，主要是在FLIP-6架構上實作K8SResourceManager來對接Kubernetes的資源排程協定，現

的分支實作架構下圖所示，使用者使用文檔見

Flink on K8S

，merge到主幹Master上的工作正在進行中

部署管理、資源排程是大資料處理系統的底層基石，通過FLIP-6的抽象分層和重構，Apache Flink建構了牢固的基礎，可以“原生”地運作于各大資源排程系統（YARN/Kubernetes/Mesos）上，支撐起更大規模更高并發的計算，高效地利用叢集資源，為後續的不斷發展強大提供了可靠的保障。

相關功能的優化改進依然在繼續，如Resource Profile配置資源的難度使一些開發者望而生畏，并且嚴重降低了Flink的易用性，我們在嘗試實作資源和并發配置的Auto Config/Scaling等功能來解決此類問題；“Serverless”架構在迅速發展，期待Flink與Kubernetes的融合成為雲原生的強大計算引擎(類FaaS)，為使用者節省資源，帶來更大的價值。

更多資訊請通路

Apache Flink 中文社群網站

Deploy Apache Flink Natively on YARN/Kubernetes

Flink 與 YARN 的原生融合

Apache Flink Standalone Cluster on YARN

FLIP-6 - Deployment and Process Model

Apache Flink與YARN的原生融合

Per-Job

Session

Resource Profile

Flink 與 Kubernetes 的原生融合

Apache Flink Standalone Cluster on Kubernetes

Apache Flink 和 Kubernetes 的原生融合

繼續閱讀

Linux 7 中配置Apache服務，及禁止ip通路，删除apache廣告頁面。

9.spark Core 進階2--Cashe

Apache配置檔案中的deny和allow的使用

Apache 配置預設編碼

伺服器配置——Apache

Apache靜态檔案通路配置（書封伺服器）

apache httpd 配置

Ubuntu16.04安裝Apache+MySQL+PHP1. 安裝Apache2. 安裝MySQL3. 安裝PHP4. 安裝phpMyAdmin

淺談企業活動中進行資料分析的重要性

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服務

Apache2.4.x 配置檔案詳解Apache配置需要了解如下：開始講解：

配置apache支援PHP（win7）

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark