天天看點

從GaussDB(DWS)的技術演進,看資料倉庫的積澱與新生

資料驅動着現代商業的發展

今天,無論在制造、零售、物流

還是在網際網路、金融等行業

資料都變得比以往任何時候更為重要

海量且多樣的資料浪潮對資料處理和分析提出了更高的要求,也使得資料倉庫走向了多元化的發展之路,傳統數倉、資料集市、實時數倉等相繼誕生。此外,随着雲計算的興起和滲透,雲數倉成為了數倉技術演進的新階段,并且逐漸成為了衆多企業的共同選擇。

與時俱進的“資料倉庫”

“資料倉庫”的概念并非近些年才出現,關于它的起源,衆說紛纭:

  • 有一種說法指出“資料倉庫”的概念最早可以追溯到上世紀60年代,當時的資料主要是手工處理的紙質文檔和統計報表;
  • 80年代中後期,随着計算機技術和資料庫技術的飛速發展,資料倉庫開始逐漸成為企業級分析的重要工具;
  • 直到90年代 Bill Inmon 推出《建立資料倉庫》,正式定義了資料倉庫的概念——資料倉庫是在企業管理和決策中面向主題的、內建的、與時間相關的、不可修改的資料集合;
  • 進入21世紀後,資料倉庫開始與大資料、資料挖掘、機器學習、雲計算等技術的相結合,走上了內建發展之路。

随着技術的不斷發展和産業實踐的深入,資料倉庫逐漸成為了企業資訊管理中不可或缺的部分。在實際應用中,資料倉庫已經被廣泛應用于各個領域,如客戶關系管理、商業智能、金融風險評估等。例如:

  • 在客戶關系管理方面,資料倉庫可以幫助企業更好地了解其客戶,進而提高客戶滿意度和忠誠度;
  • 在商業智能方面,資料倉庫可以幫助企業快速地分析大量的資料,進而為企業決策提供支援;
  • 在金融風險評估方面,資料倉庫可以幫助銀行和金融機構更好地評估風險和制定政策等等。

一些大型科技公司,基于自身業務訴求,也走上了資料倉庫的研發之路。

比如華為雲早在 2011 年就開始做資料倉庫——GaussDB(DWS)的預研,在經受了海量自有業務資料的考驗後,于2015年推向市場,面向金融、政府傳統一體機等企業級核心數倉場景提供服務,2017年 GaussDB(DWS)上雲,進一步提升了服務能力與服務範疇。

據華為雲數倉GaussDB(DWS)資深産品專家黃海燕介紹,GaussDB(DWS)是華為雲資料生産線上的一個明星産品,是支援實時入庫、實時分析、批量運算、互動式查詢的一站式分析平台,具備傳統數倉的超大規模、高性能、高并發等優勢,同時也具備雲原生數倉的存算分離、彈性伸縮、Serverless、湖倉一體和數智融合等能力。

曆時12年,從内到外、從本地部署到雲端服務,GaussDB(DWS)逐漸探索出了适應雲時代多場景需求的雲數倉之路。

從GaussDB(DWS)的技術演進,看資料倉庫的積澱與新生

GaussDB(DWS)的Serverless之路

2017 年,華為雲開始加速拓展業務,推出了更多雲計算服務,GaussDB(DWS)也全面上雲。上雲之後帶來的最直接的價值在于可以減少客戶企業的硬體投資和運維成本,提高整體的營運效益。但是由于企業的業務規模不同,負載差異非常大,黃海燕表示,小一點的可能隻有幾十GB的資料集,大的則有數百TB甚至更多的資料集。業務規模的差異對數倉服務的彈性也提出了更高的要求。

視訊加載中...

  • 存算分離模式

針對這個問題,華為雲GaussDB(DWS)在一開始就将數倉服務傳統的一體機模式轉換成了彈性計算服務ECS+彈性存儲服務EVS上的存算分離模式,實作了計算存儲獨立的擴容和擴充,能夠實作計算升降配、存儲彈性擴容,同時也支援在資料擴容之間的資料重分布,且不影響業務的中斷。

随着業務場景的不斷深入, ECS+EVS彈性擴充的方式在面對一些資料量大但計算要求不高的場景,比如車聯網、網際網路日志、企業核心數倉的長周期曆史資料時,依然存在掣肘。

  • ECS+EVS+OBS冷熱資料管理

對此,GaussDB(DWS)團隊在ECS+EVS的基礎上又做了一層對象存儲OBS的冷資料管理,将車聯網、長周期曆史資料等放到OBS上,在不擴充計算的情況下,通過這種方式實作冷熱資料的管理,進而達到計算和存儲的平衡。最終內建為ECS+EVS+OBS冷熱資料管理的方式,GaussDB(DWS)基于本地盤進行性能加速,将 OBS 作為冷資料區,資料存儲異構擴充至OBS,利用分層存儲的方式,實作資料按需選擇存儲和計算引擎、冷熱資料遷移動态切換等,進而在不影響數倉體驗的前提下,達到成本最優。

  • 同時支援三種模式

“後來我們發現ECS+EVS+OBS冷熱資料管理的方式依然有覆寫不到的場景,比如說有一些場景它需要在跑批量的時候同時能夠跑并發的查詢,還希望一份資料實作多樣化的分析和存儲。因為有一部分熱資料在EVS上,很多時候沒有辦法高效地擴充分析,是以後面我們把所有的資料都放在OBS上,原來的 EVS作為資料的緩存,OBS資料可以供多個叢集、資料湖或者是AI去分析,再通過原先的EVS轉換成一個角色,做資料分析加速。可以了解成我們同時支援了三種模式,這三種模式不是互相替代的關系,而是各有其應用的場景和特點。”黃海燕提到。

基于上述三種Serverless模式, GaussDB(DWS)成功為1700+客戶提供了不同業務場景下的資料倉庫服務。黃海燕表示:“現在雲上有很多彈性的場景,比如說網際網路,在我們歸納來說我們認為有兩大類的彈性場景”。

  • 長周期的彈性場景

主要有幾種類型:第一種是在固定的時間點上有一個潮汐波動,比如“雙十一”、“618”這類促銷節點;第二種是随着企業規模的擴大,使用者量、資料量、計算量也會遞增;第三種是業務具備明顯的長周期時間特征,比如銀行在月末、季末、年末有結算的需求,計算量會比平時要大,遊戲行業在周末時業務量會比平時更大。

  • 短周期的彈性場景

即短期内有多樣化的訴求。比如銀行00:00-8:00是批量的運作高峰,8:00-18:00在批量運作的同時會有一些對報表、經營資料的互動式查詢,18:00後是業務的低峰期,整體呈現一個潮汐波動。

Serverless的極緻彈性擴縮容,很好地滿足了長、短周期彈性場景下的業務需求,但是存算分離的架構也可能會帶來網絡開銷變大、資料處理效率變低、性能下降等問題,對此GaussDB(DWS)團隊也做出了較多的探索。

  • 首先,在ECS+EVS+OBS的模式下,資料統一存放在OBS上,EVS充當緩存(磁盤緩存+記憶體緩存)的角色,由于磁盤緩存相對而言成本較低,且大小可控,是以GaussDB(DWS)做了一個大比例的磁盤緩存,使用者可以根據對性能或者成本的要求調整比例,理論上如果要追求極緻性能,可以不斷調大磁盤緩存,直到滿足業務需求。
  • 其次是計算下推,把查詢的邏輯直接下推到OBS,使用者如果要從OBS上查資料,直接從源端進行資料過濾,進而減少網絡傳輸對記憶體的占用,帶來性能的提升。
  • 最後是I/O管控,GaussDB(DWS)采用多個I/O排程的代理和線程,直接從OBS上Road數,充分把OBS的帶寬利用起來,避免負載低時OBS用不上,負載高時互相争搶的問題,進而實作性能的最大化。

除了在Serverless方向的探索外,GaussDB(DWS)在湖倉一體與數智融合上同樣取得了一些突破。

“湖倉一體+數智融合”的未來暢想

對于“湖倉一體”的探索,華為雲做的比較早,隻不過當時主要是通過外表技術實作資料共享,比如對于Spark或Hive的表,在數倉裡建一張外表和它對應,進而查詢Spark和Hive裡的資料。但是這種方式随着資料規模的增加,維護成本也會倍增。

外表技術本質上隻能通路資料,并不知道中繼資料長什麼樣,如果中繼資料内容統一的話,對使用者來講就不需要建這個外表。

基于這個思路,GaussDB(DWS)引入了External schema的概念,通過建立一個External schema,然後以schema.table的方式去通路Hive和Spark的中繼資料,和正常SQL一緻,還可以和GaussDB(DWS)的内表做關聯分析,進而使得GaussDB(DWS)的優化器能力和執行引擎能力更強。

“未來華為雲這邊,整個 EI 平台會建立一個Lake Formation的統一存儲管理的元件服務,它會統一管起來所有的數倉和資料湖裡面的各種元件的中繼資料,真正實作中繼資料意義上的共享,中繼資料的共享是比資料共享難度更高,或者說是真正有更大價值的東西。”華為雲數倉GaussDB(DWS)技術專家齊天表示。

此外,為了解決多種資料庫插件或引擎的排程問題,GaussDB(DWS)還提供了一個叫做External Connection的能力,可以直接調用外部的計算引擎,用于計算共享資料或者是它們的自有資料,進而用一個或者一套引擎實作計算的統一。資料共享、中繼資料共享以及計算統一,是GaussDB(DWS)數倉一體的三大技術特征,并由此打破資料孤島效應,解決企業的IT資源分散、資料不通、應用孤立等問題。

在實作多平台的資料拉通之後,面向未來,華為雲數倉又提出了“數智融合”的概念。據了解,數智融合本質上是把資料和AI這兩條原本完全割裂的生産線融合到一起,進而實作1+1>2的效能。

視訊加載中...

目前GaussDB(DWS)對數智融合的探索主要在兩大場景:

  • 一是對于批量資料,GaussDB(DWS)可以将它們存儲在OBS上,通過OBS實作和AI之間的資料共享,進而在不影響數倉體驗的前提下,融入AI的自動化批量資料處理的能力;
  • 二是即席查詢場景,GaussDB(DWS)針對資料通路的插件做了優化,進而讓AI生産線能夠更好、更快速地從中擷取資料等。

縱觀資料倉庫的演進之路,不難看出,從誕生的那一刻起,它就不斷在與新技術、新場景相融合,并獲得生機,進而持續釋放資料的價值,推動産業發展。

GaussDB(DWS)的全面Serverless化、湖倉一體和數智融合等特征,是華為雲對于新時代資料倉庫技術演進方向的重要判斷,同樣也是資料倉庫技術順應時代、發展疊代的結果。随着AI新時代的到來,數智融合之後的資料倉庫技術又将會迸發出怎樣的力量,值得期待。

關注@華為雲,了解更多資訊

繼續閱讀