天天看點

《Spark與Hadoop大資料分析》一一第3章 深入剖析Apache Spark

apache spark 的技術、社群和使用者群都在快速增長。2015 年推出了兩個新的api:dataframe api 和 dataset api。這兩個 api 建構在基于 rdd 的核心 api 之上。我們有必要了解 rdd 的更深層概念,包括運作時的架構和它在 spark 各種資料總管上的表現。

本章分為以下子主題:

啟動 spark 守護程序

spark 的核心概念

鍵值對 rdd

spark 程式的生命周期

spark 應用程式

持久化和緩存

spark 資料總管:standalone、yarn和 mesos

繼續閱讀