概述
什麼是Spark
◆ Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的并行計算架構,Spark基于map reduce算法實作的分布式計算,擁有Hadoop MapReduce所具有的優點;但不同于MapReduce的是Job中間輸出和結果可以儲存在記憶體中,進而不再需要讀寫HDFS,是以Spark能更好地适用于資料挖掘與機器學習等需要疊代的map reduce的算法。其架構如下圖所示:
Spark的适用場景
◆ Spark是基于記憶體的疊代計算架構,适用于需要多次操作特定資料集的應用場合。需要反複操作的次數越多,所需讀取的資料量越大,受益越大,資料量小但是計算密集度較大的場合,受益就相對較小
◆ 由于RDD的特性,Spark不适用那種異步細粒度更新狀态的應用,例如web服務的存儲或者是增量的web爬蟲和索引。就是對于那種增量修改的應用模型不适合。
◆ 總的來說Spark的适用面比較廣泛且比較通用。
詳細内容請參考視訊:
Spark概述與程式設計模型(上) http://pan.baidu.com/s/1kT9okBl
Spark概述與程式設計模型(下) http://pan.baidu.com/s/16OEjc
另外給個相關的PDF檔案供參考:
Spark概述與程式設計模型.pdf http://pan.baidu.com/s/1mg64rMw
==========================================================
申明:視訊資料已過期,建議不要再下載下傳了。