天天看點

GaussDB(DWS)雲原生數倉技術解析

作者:華為雲開發者聯盟

本文分享自華為雲社群《直播回顧 | GaussDB(DWS)雲原生數倉技術解析-雲社群-華為雲》,作者:胡辣湯。

在本期《GaussDB(DWS)雲原生數倉技術解析》(GaussDB(DWS)雲原生數倉技術解析_DTT_直播_雲社群_華為雲)的主題直播中,我們邀請到華為雲EI DTSE技術布道師/華為雲數倉GaussDB(DWS)雲原生首席SE 王傳廷,針對GaussDB(DWS)雲原生數倉架構、産品能力,與開發者和夥伴朋友們展開交流互動,幫助開發者快速了解GaussDB(DWS)雲原生數倉相關資訊與能力。

數倉需求變化及技術架構演進

雲計算時代,資料倉庫的需求和技術架構也在不斷地發生變化。數倉需求主要分為兩類場景:

  • 公有雲場景,主要是指使用者直接購買的公有雲廠商的雲服務。公有雲使用者的需求更多關注在産品成本、擴容靈活彈性、資料共享。
  • 線下部署場景,這類場景可能是使用者購買的硬體部署了一個軟體,也可能是使用者在機房搭建了内部私有雲環境。線下部署場景主要需求是:系統穩定、負載之間有較好的隔離能力、資料共享、彈性。

數倉技術架構演進由最初Shared Storage共享存儲到Shared Nothing分布式計算架構再到現在的存算分離架構。

  • 存算分離架構特點:存儲類似shared storage,計算類似shared nothing,每個節點隻處理自己分片的資料。
  • 存算分離架構優點:計算存儲分層擴充,計算節點擴容無需資料重分布,速度快,靈活;存儲節點按需擴容,無限容量;計算節點之間無需協調機制,隻需保證計算節點隻處理自己分片的資料。
GaussDB(DWS)雲原生數倉技術解析

GaussDB(DWS)雲原生數倉架構解析

華為雲GaussDB(DWS)曆經12年技術演進,2011年開始技術預研,2014年首次上市,通過不停地疊代和演進,從2017年開始大規模商用,目前全球已累積1700+大客戶。針對數倉發展趨勢,GaussDB(DWS)也在不斷地演進,2022年推出實時數倉、IoT數倉,應對實時資料的接入,滿足實時計算場景需求。2023年即将釋出的雲原生數倉,支援存算管三層分離、湖倉一體、數智融合,具備優異性能和極緻彈性能力。

GaussDB(DWS)雲原生數倉産品能力

一、極緻彈性

GaussDB(DWS)雲原生數倉極緻彈性,具備管理層、計算層、存儲層三層分離獨立靈活伸縮,一數多用、按需配置優勢。

存算管三層分離:存儲層,支援私有格式和開放格式,開放格式主要支援ORC/Parquet/Hudi等大資料生态的主流格式。私有格式是GaussDB(DWS)的存儲格式,資料存儲在OBS上,在私有格式上具備更好的性能。計算層,我們抽象了Virtual Warehouse概念(簡稱VW),也叫邏輯叢集。VW是一組計算單元,可以靈活地添加或者釋放,資料不屬于任何一個VW,僅僅隻是綁定關系。管理層是指将叢集管理查詢優化與GaussDB(DWS)資料節點和GTM層展現出來。

一數多用:資料存儲在OBS上,任意邏輯叢集均可承載讀寫負載,多邏輯叢集間共享資料,無需拷貝,提供跨邏輯叢集建的實時和近實時兩種資料共享方式。

按需配置:通過邏輯叢集隔離不同業務,性能穩定,業務承載量或并發量線性擴充,可以進行讀寫分離或多讀多寫。

二、湖倉一體

之前使用大資料寫資料,需要建立外表,指定外表字段,并與大資料字段對應,需要通路多少張表,就建立多少張表,當外表數量隻有一兩張時維護也比較容易,外表越來越多時,維護成本也随之增加,如果資料湖中字段發生了變化,外表也需要更改。GaussDB(DWS)雲原生數倉在湖倉一體方面做了能力增強,降低維護成本。在這裡我們引入新的概念External Schema。我們通過建立一個 External Schema的形式,自動對接Hive Metastore中繼資料管理,直接通路資料湖的資料表定義,不再需要建立外表,提升體驗,降低維護代價。

同時我們支援外表和内表進行融合查詢,混合查詢資料湖和數倉内任意資料,查詢一步到位輸出到數倉内/資料湖,無需額外資料中轉拷貝,資料湖享受數倉的極緻查詢性能。

三、數智融合

打通資料倉庫與AI生産線,通過OBS共享開放格式資料,為AI生産線提供強勁的資料處理能力和靈活的供數方式。提供SQL文法,在資料分析過程中提供驅動AI訓練、應用AI推理的能力。直接調用部署的推理服務端點,靈活性好;将模型二進制部署為UDF,性能好。

四、優異性能

存算分離後,我們通過三個方面保證數倉性能,分别是:緩存、近資料計算(計算下推)、IO排程。

  • 緩存:将熱資料優先緩存到本地,本地磁盤緩存空間夠用的情況下,可以體驗到和本地表一樣的性能。GaussDB(DWS)在每個計算節點自帶磁盤緩存,可以将OBS的資料緩存到本地,提升性能。
  • 近資料計算:将冷資料優先計算下推到存儲層,降低讀取資料量。
  • IO排程:充分利用雲存儲帶寬優勢,彌補其相較傳統MPP的高延遲劣勢;單查詢充分利用資源,為并發查詢提供穩定、可預測的性能保證;多級資源池靈活配置。

歡迎感興趣的開發者觀看直播回放,了解詳細資訊。更多關于GaussDB(DWS)産品技術解析、雲原生數倉産品新特性的介紹,請關注GaussDB(DWS)論壇,直播安排将第一時間釋出在GaussDB(DWS)論壇熱門活動版塊。

論壇連結:https://bbs.huaweicloud.com/forum/forum-598-1.html

關注#華為雲開發者聯盟# 點選下方,第一時間了解華為雲新鮮技術~

華為雲部落格_大資料部落格_AI部落格_雲計算部落格_開發者中心-華為雲

繼續閱讀