天天看點

Spark入門到精通視訊學習資料--第二章:Spark生态系統介紹,Spark整體概述與Spark程式設計模型(2講)

概述

什麼是Spark

◆ Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的并行計算架構,Spark基于map reduce算法實作的分布式計算,擁有Hadoop MapReduce所具有的優點;但不同于MapReduce的是Job中間輸出和結果可以儲存在記憶體中,進而不再需要讀寫HDFS,是以Spark能更好地适用于資料挖掘與機器學習等需要疊代的map reduce的算法。其架構如下圖所示:

Spark的适用場景

◆ Spark是基于記憶體的疊代計算架構,适用于需要多次操作特定資料集的應用場合。需要反複操作的次數越多,所需讀取的資料量越大,受益越大,資料量小但是計算密集度較大的場合,受益就相對較小

◆ 由于RDD的特性,Spark不适用那種異步細粒度更新狀态的應用,例如web服務的存儲或者是增量的web爬蟲和索引。就是對于那種增量修改的應用模型不适合。

◆ 總的來說Spark的适用面比較廣泛且比較通用。

詳細内容請參考視訊:

Spark概述與程式設計模型(上)      http://pan.baidu.com/s/1kT9okBl

Spark概述與程式設計模型(下)      http://pan.baidu.com/s/16OEjc

另外給個相關的PDF檔案供參考:

Spark概述與程式設計模型.pdf                http://pan.baidu.com/s/1mg64rMw

==========================================================

申明:視訊資料已過期,建議不要再下載下傳了。

繼續閱讀