天天看點

SPARK 組成子產品

  • Spark Core
    • 實作了Spark的基本功能,包含任務排程、記憶體管理、錯誤恢複、與存儲系統互動等子產品。Spark Core中還包含了對彈性分布式資料集(Resilient Distributed DataSet,簡稱RDD)的API定義
  • Spark SQL
    • 是Spark用來操作結構化資料的程式包。通過Spark SQL,我們可以使用 SQL或者Hive SQL來查詢資料。Spark SQL支援多種資料源,比如Hive表、Parquet以及JSON等
  • Spark Streaming
    • 是Spark提供的對實時資料進行流式計算的元件。提供了用來操作資料流的API,并且與Spark Core中的 RDD API高度對應
  • Spark MLlib
    • 提供常見的機器學習(ML)功能的程式庫。包括分類、回歸、聚類、協同過濾等,還提供了模型評估、資料 導入等額外的支援功能
  • 叢集管理器
    • Spark 設計為可以高效地在一個計算節點到數千個計算節點之間伸縮計 算。為了實作這樣的要求,同時獲得最大靈活性,Spark支援在各種叢集管理器(Cluster Manager)上運作,包括Hadoop YARN、Apache Mesos,以及Spark自帶的一個簡易排程 器,叫作獨立排程器(Standalone)

轉載于:https://www.cnblogs.com/xiangyuguan/p/11429650.html

繼續閱讀