天天看點

MPP VS HADOOP場景分析

1.節點

MPP,這裡以Greenplum為代表,不超過100節點,不過這裡說的100節點是說100台機器還是100個節點,按照實際部署,一台實體機器其實不會隻部署一個節點的,這裡我嚴重懷疑是100台機器,因為我在實際中已經用3台實體機做出了10節點的情況(6台虛拟機,1master5segment,雙節點雙網卡)

是以,如果部署節點數在100下,用GP沒問題,在實際中小型企業中,超過100節點的不多,就是hadoop叢集超過100節點的也不多,是以節點問題基本不用太在意。

2.處理資料量

這是一個有明顯分别的參考量,如果到PB級資料就用hadoop吧,GP玩不動了。

3.并發性能

如果需要的并發數目比較高,超過50-100這個級别,GP也别考慮了,因為GP性能的好是以犧牲機器性能得到的,如果并發數過多,對性能影響很明顯。

4.結構化/非結構化資料

如果是非結構化的,GP連想都不用想。

MPP VS HADOOP場景分析

5.業務複雜性

其實業務複雜性這個說法不太準确,這裡是想說如果你要處理的資料關系較為複雜,也就是說有複雜的SQL要求,這個時候GP是首選。

總結以上:GP的适用場景是資料量在TB,節點數不多(100以内),并發較小(50左右),有複雜(或簡單)的資料分析場景的選擇。

部分資訊摘自華為社群39期《Hadoop or MPP DB》内容整理出來的,原内容請參考:

http://support.huawei.com/huaweiconnect/thread-83419-1-1.html

繼續閱讀