Spark和Hadoop的差別

談到大資料架構，現在最火的就是Hadoop和Spark，倒底現在業界都在使用哪種技術？二者間究竟有哪些異同？它們各自解決了哪些問題？讓我們通過本文來了解。

　　談到大資料，相信大家對Hadoop和Apache Spark這兩個名字并不陌生。但我們往往對它們的了解隻是提留在字面上，并沒有對它們進行深入的思考，下面不妨跟我一塊看下它們究竟有什麼異同。

解決問題的層面不一樣

　　首先，Hadoop和Apache Spark兩者都是大資料架構，但是各自存在的目的不盡相同。Hadoop實質上更多是一個分布式資料基礎設施: 它将巨大的資料集分派到一個由普通計算機組成的叢集中的多個節點進行存儲，意味着您不需要購買和維護昂貴的伺服器硬體。

　　同時，Hadoop還會索引和跟蹤這些資料，讓大資料處理和分析效率達到前所未有的高度。Spark，則是那麼一個專門用來對那些分布式存儲的大資料進行處理的工具，它并不會進行分布式資料的存儲。

兩者可合可分

　　Hadoop除了提供為大家所共識的HDFS分布式資料存儲功能之外，還提供了叫做MapReduce的資料處理功能。是以這裡我們完全可以抛開Spark，使用Hadoop自身的MapReduce來完成資料的處理。

　　相反，Spark也不是非要依附在Hadoop身上才能生存。但如上所述，畢竟它沒有提供檔案管理系統，是以，它必須和其他的分布式檔案系統進行內建才能運作。這裡我們可以選擇Hadoop的HDFS,也可以選擇其他的基于雲的資料系統平台。但Spark預設來說還是被用在Hadoop上面的，畢竟，大家都認為它們的結合是最好的。

　　以下是從網上摘錄的對MapReduce的最簡潔明了的解析：我們要數圖書館中的所有書。你數1号書架，我數2号書架。這就是“Map”。我們人越多，數書就更快。

　　現在我們到一起，把所有人的統計數加在一起。這就是“Reduce”。

Spark資料處理速度秒殺MapReduce

　　Spark因為其處理資料的方式不一樣，會比MapReduce快上很多。MapReduce是分步對資料進行處理的：“從叢集中讀取資料，進行一次處理，将結果寫到叢集，從叢集中讀取更新後的資料，進行下一次的處理，将結果寫到叢集，等等…”Booz Allen Hamilton的資料科學家Kirk Borne如此解析。

　　反觀Spark，它會在記憶體中以接近“實時”的時間完成所有的資料分析：“從叢集中讀取資料，完成所有必須的分析處理，将結果寫回叢集，完成，” Born說道。Spark的批處理速度比MapReduce快近10倍，記憶體中的資料分析速度則快近100倍。

　　如果需要處理的資料和結果需求大部分情況下是靜态的，且你也有耐心等待批處理的完成的話，MapReduce的處理方式也是完全可以接受的。

　　但如果你需要對流資料進行分析，比如那些來自于工廠的傳感器收集回來的資料，又或者說你的應用是需要多重資料處理的，那麼你也許更應該使用Spark進行處理。

　　大部分機器學習算法都是需要多重資料處理的。此外，通常會用到Spark的應用場景有以下方面：實時的市場活動，線上産品推薦，網絡安全分析，機器日記監控等。

災難恢複

　　兩者的災難恢複方式迥異，但是都很不錯。因為Hadoop将每次處理後的資料都寫入到磁盤上，是以其天生就能很有彈性的對系統錯誤進行處理。

　　Spark的資料對象存儲在分布于資料叢集中的叫做彈性分布式資料集(RDD: Resilient Distributed Dataset)中。“這些資料對象既可以放在記憶體，也可以放在磁盤，是以RDD同樣也可以提供完成的災難恢複功能，”Borne指出。

Spark和Hadoop的差別

繼續閱讀

Spark 實時計算整合案例