Spark入門到精通視訊學習資料--第二章：Spark生态系統介紹，Spark整體概述與Spark程式設計模型（2講）

2021-11-17 15:03:53

概述

什麼是Spark

◆ Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的并行計算架構，Spark基于map reduce算法實作的分布式計算，擁有Hadoop MapReduce所具有的優點；但不同于MapReduce的是Job中間輸出和結果可以儲存在記憶體中，進而不再需要讀寫HDFS，是以Spark能更好地适用于資料挖掘與機器學習等需要疊代的map reduce的算法。其架構如下圖所示：

Spark的适用場景

◆ Spark是基于記憶體的疊代計算架構，适用于需要多次操作特定資料集的應用場合。需要反複操作的次數越多，所需讀取的資料量越大，受益越大，資料量小但是計算密集度較大的場合，受益就相對較小

◆ 由于RDD的特性，Spark不适用那種異步細粒度更新狀态的應用，例如web服務的存儲或者是增量的web爬蟲和索引。就是對于那種增量修改的應用模型不适合。

◆ 總的來說Spark的适用面比較廣泛且比較通用。

詳細内容請參考視訊：

Spark概述與程式設計模型（上） http://pan.baidu.com/s/1kT9okBl

Spark概述與程式設計模型（下） http://pan.baidu.com/s/16OEjc

另外給個相關的PDF檔案供參考：

Spark概述與程式設計模型.pdf http://pan.baidu.com/s/1mg64rMw

==========================================================

申明：視訊資料已過期，建議不要再下載下傳了。

Spark入門到精通視訊學習資料--第二章：Spark生态系統介紹，Spark整體概述與Spark程式設計模型（2講）

繼續閱讀

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

hdu7108哈希