天天看點

簡單說一下ClickHouse

昨天朋友圈被這篇文章《​​比Hive快800倍!大資料實時分析領域黑馬開源ClickHouse​​》刷屏了,也有人問Fayson對于這個的看法,簡單說兩句吧。

我大概看了一下,如果你要跟Hive比的話:

1.性能,我覺得相信他宣傳文檔裡的快很多,不過快800倍誇張了。

2.擴充性,介紹片子裡說的是PB級,而且比Hadoop擴充好,這個沒有論證力,目前給出的案例沒有說節點數或者資料量。Hadoop叢集成千上萬已經有很多年了。

3.生态完整性:比如ETL排程工具或者叫資料抽取工具等的內建,clickhouse肯定很弱,宣傳文檔裡也直面了這個問題。

4.穩定性,這個是介紹文檔裡差的一部分,我覺得不會好,類似這種mpp的架構都會有這個問題,比如作業容錯,磁盤損壞節點損壞的處理,這個是mpp架構的通病,不可能好到哪裡去。這個恰恰是Hive最牛逼的地方,雖然慢,但我穩定,永遠不失敗。

5.不支援事務,不支援update/delete,跟Hive一樣了。當然Hive新的版本有一些提升。

總結,按照宣傳文檔裡說的,Hadoop這個生态太龐大和複雜了,像一艘航空母艦一樣,要用起來成本太高了。clickhouse定位很清楚,就是大資料量的分布式的結構化SQL處理,整體的應用場景比Hadoop要單一很多。個人覺得這個玩意就是解決單一的互動式SQL的OLAP或者kylin這種cube場景的,Hadoop的互動式SQL确實是一直以來欠缺的,現在隻有Impala/Presto可以選擇。資料庫排行榜上,clickhouse從去年174跳到106名,确實是飛躍,但依舊屬于三流的産品,而Hive排名16.

提示:代碼塊部分可以左右滑動檢視噢

為天地立心,為生民立命,為往聖繼絕學,為萬世開太平。

溫馨提示:如果使用電腦檢視圖檔不清晰,可以使用手機打開文章單擊文中的圖檔放大檢視高清原圖。

Fayson的github:

​​https://github.com/fayson/cdhproject​​

如果需要在你的電腦上通過浏覽器閱讀Fayson的Hadoop實操的所有文章,你可以通路騰訊雲+社群上Fayson的首頁,檢視所有曆史文章,連結位址為:

​​https://cloud.tencent.com/developer/column/2264/tag-0​​

推薦關注Hadoop實操,第一時間,分享更多Hadoop幹貨,歡迎轉發和分享。