apache spark 的技術、社群和使用者群都在快速增長。2015 年推出了兩個新的api:dataframe api 和 dataset api。這兩個 api 建構在基于 rdd 的核心 api 之上。我們有必要了解 rdd 的更深層概念,包括運作時的架構和它在 spark 各種資料總管上的表現。
本章分為以下子主題:
啟動 spark 守護程序
spark 的核心概念
鍵值對 rdd
spark 程式的生命周期
spark 應用程式
持久化和緩存
spark 資料總管:standalone、yarn和 mesos