SPARK 組成子產品

2023-04-27 08:15:52

Spark Core
- 實作了Spark的基本功能，包含任務排程、記憶體管理、錯誤恢複、與存儲系統互動等子產品。Spark Core中還包含了對彈性分布式資料集(Resilient Distributed DataSet，簡稱RDD)的API定義
Spark SQL
- 是Spark用來操作結構化資料的程式包。通過Spark SQL，我們可以使用 SQL或者Hive SQL來查詢資料。Spark SQL支援多種資料源，比如Hive表、Parquet以及JSON等
Spark Streaming
- 是Spark提供的對實時資料進行流式計算的元件。提供了用來操作資料流的API，并且與Spark Core中的 RDD API高度對應
Spark MLlib
- 提供常見的機器學習(ML)功能的程式庫。包括分類、回歸、聚類、協同過濾等，還提供了模型評估、資料導入等額外的支援功能
叢集管理器
- Spark 設計為可以高效地在一個計算節點到數千個計算節點之間伸縮計算。為了實作這樣的要求，同時獲得最大靈活性，Spark支援在各種叢集管理器(Cluster Manager)上運作，包括Hadoop YARN、Apache Mesos，以及Spark自帶的一個簡易排程器，叫作獨立排程器（Standalone）

轉載于:https://www.cnblogs.com/xiangyuguan/p/11429650.html

繼續閱讀