颠覆大資料分析之Spark VS分布式共享記憶體系統

2021-11-06 10:31:56

颠覆大資料分析之spark vs分布式共享記憶體系統

譯者：黃經業購書

spark可以看作是一個分布式共享集合系統，和stumm和zhou (1990)以及nitzber和lo (1991)所提到的傳統的分布式共享記憶體（dsm）系統則略有不

同。dsm系統允許單獨讀寫記憶體，而spark隻允許進行粗粒度的rdd轉換。盡管這限制了能夠使用spark的應用種類，但它對于實作高效的容錯性卻很有幫助。dsm系統可能會需要檢查點互相協作來完成容錯，比如說使用boukerche等人（2005）所提出的協定。相反的，spark隻需要存儲世系圖來進行容錯。恢複需要在rdd丢失的分區上進行重構操作——但這個可以并行地高效完成。spark與dsm系統的另一個根本的不同在于，由于rdd的隻讀特性，spark中可以使用流浪者緩解政策——這使得備份任務可以并行地完成，這類似于mr中的推測執行（dinu和ng 2012）。而在dsm中則很難緩解流浪者或者備份任務，因為這兩者都可能會産生記憶體競争。spark的另一個優點是當rdd的大小超出叢集的所有記憶體時可以優雅地進行降級。它的缺點就是rdd的轉換本質上是粗粒度的，這限制了能夠開發的應用的種類。比如說，需要細粒度共享狀态通路的應用，像web爬蟲或者其它web應用，都很難在spark上實作。piccolo (power和 li 2010)提供了一個以資料為中心的異步程式設計模型，這或許是這類應用的一個更好的選擇。

在spark中，開發人員調用map,filter或reduce操作時可以傳入函數或者閉包。一般來說，當spark在工作節點上運作這些函數的時候，函數使用域内的本地變量會被拷貝出來。spark有一個共享變量的概念，它使用廣播變量和累加器來模拟“全局”變量。開發人員使用廣播變量一次性地将隻讀資料拷貝給所有的工作者。(類共轭梯度下降的算法中的靜态矩陣可以使用廣播變量來表示）累加器是隻能由工作者來增加并由驅動程式去讀取的變量——這樣并行聚合可以實作成支援容錯的。值得注意的是全局變量是在spark中模仿dsm功能的一種特殊方式。

颠覆大資料分析之Spark VS分布式共享記憶體系統

繼續閱讀

Windows下VS開發環境環境安裝工程項目設定關于Debug和Release的提示

一文看懂字元串的加減乘除

極大似然法(ML)與最大期望法(EM)

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

C++ 第十五周報告1--《冒泡法排序》

C++實作簡單順序表

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

C經典書籍筆記——C陷阱與缺陷②(文法陷阱之優先級)一、錯誤案列二、優先級規律

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

線性表之順序表的實作

C++判斷素數、求最大公約數代碼判斷一個數是否為素數求兩個數的最大公約數

SequoiaDB巨杉資料庫C++驅動概述

hdu7108哈希