天天看點

數智時代新基石,賈揚清重磅釋出新一代雲原生資料倉庫與資料湖

6月9日, 在2020阿裡雲峰會上,阿裡巴巴副總裁、阿裡雲計算平台事業部進階研究員賈揚清宣布推出新一代雲原生資料倉庫和資料湖解決方案。基于創新的技術架構,新一代雲原生資料倉庫可支援PB級資料關聯分析和實時查詢,實作離線、實時、分析、服務的四位一體。同時推出的資料湖解決方案,采用一種存儲多種計算理念,基于存儲與計算分離架構和全新大資料分析加速引擎,可實作與本地計算一樣的快速體驗,激發企業數智動能。

數智時代新基石,賈揚清重磅釋出新一代雲原生資料倉庫與資料湖

以下為賈揚清演講全文[(附視訊回顧>>)](

https://summit.aliyun.com/events?liveId=2923
數智時代新基石,賈揚清重磅釋出新一代雲原生資料倉庫與資料湖

如今我們談到産業數字化,數字産業化,今天絕大多數的經濟活動、資料的沉澱分析和服務都是離不開的。同時我們又說摸着石頭過河,絕大多數的企業在業務更新跟技術更新的過程當中,往往都采取一個摸着石頭過河的方法,在遇到不同的資料分析跟服務的需求的時候,尋找單個的單點的系統來解決它實際的單點的問題。這樣的一個過程就會遇到最後的一個問題,是在一個看似完整的系統背後,是一個一個的資料的孤島,這些孤島之間資料的聯通,資料的實時傳輸都變成了非常大的問題。

數智時代新基石,賈揚清重磅釋出新一代雲原生資料倉庫與資料湖

從一個整個企業的角度來說,業務所看到的是資料洞察的困難,而系統看到的是資料分裂的成本,作為企業業務如此重要的資料倉庫的概念,我覺得我們需要頂層的設計來重構資料倉庫,這是我們今天向大家展示的基于

Hologres

MaxCompute Realtime Compute

的離線、實時、分析、服務一體化的,實時即服務的一個理念。如果我們回到資料倉庫最本質的需求的話,其實它的本質問題并不複雜。資料倉庫需要把多個來源的資料綜合在一起,實時地沉澱到一套存儲上去,同時在上面做多種形态的,無論是離線、實時還是互動式的分析,以及做結果的展示和服務。我們以前經常聽到的一個概念叫HTAP(Hybrid Transaction and Analytical Process),事物跟分析的一體化,對于事物來說,它更多的是在考察一個資料的機關,比如說一個資料庫,對于讀寫性能和安全性這樣的一些名額。但是今天我們所看到的是,分析跟服務是更加一體的。分析,是說我們要把這樣海量的資料當中的規律分析洞察出來,那麼同時這些洞察的最終目的是為了服務,無論是資料大屏還是營運分析,它都是一個展示服務資料的一個過程。要解決資料孤島的問題,我們就要把分析的形态跟服務的形态更緊的結合起來。我們把這樣的一種模式叫HSAP(Hybrid Serving Analytical Processing),基于Hologres跟MaxCompute這樣的一個數倉,我們可以實作Hologres跟MaxCompute資料的打通,通過Hologres來實作高性能、低延時的分析,同時通過MaxCompute來實作大規模、低成本的離線計算。在這樣的一個基礎上面,我們可以實時的将這些資料分析的結果以及實時沉澱的資料,推送到不同的像大屏和營運看闆這樣的一些服務上去。

數智時代新基石,賈揚清重磅釋出新一代雲原生資料倉庫與資料湖

在阿裡巴巴集團内,對于資料最大的一個需求可能是在雙11這一天,它有了大量的資料流轉,也有着非常複雜的業務決策。在2019年的時候,我們通過Hologres跟MaxCompute這樣的一個數倉,給我們支援業務的系統做了一次更新。在雙11當天的時候,我們這一套系統支援了總共1.45億次的線上查詢,這些查詢再往上所支援的是非常複雜的業務的分析和決策的一個過程。這些分析的背後同時又是帶有着1.3億條實時記錄寫入的一個大規模的資料體量。頂層設計走對了之後,性能其實并不是問題。基于MaxCompute、RealtimeCompute和Hologres,這樣的一整套數倉體系可以解決我們資料孤島的問題。在沒有資料備援的這樣一個情況下面,來簡化系統,降低成本,同時來提升我們資料分析的效率。我們也考慮到在建設一個數倉的時候,開源、社群和生态是很重要的,是以我們在建設Hologres的時候,采取了基于PostgreSQL這樣的一個完全相容開源的生态體系。資料工程師和上層的BI工具,可以更加容易地、無縫地把自己現有的系統接入到Hologres和MaxCompute,實作分析和服務的一個無縫遷移。

數智時代新基石,賈揚清重磅釋出新一代雲原生資料倉庫與資料湖

實時即服務,基于HSAP這樣的一個理念,我們可以大大的簡化數倉的設計,真正的實作在資料全生命周期當中離線、實時、分析、服務一體化的一個系統。

在企業上雲的過程當中,我們還看到另外一個需求,就是海量的異構資料,這些資料可能是日志,可能是圖檔、視訊、語音也有可能是在之前經營過程當中沉澱下來的大量的資料形态。這些資料和數倉所解決的結構化資料的問題是不太一緻的,他們變得更加的多樣,更加的非結構化,但是同時他們也有和結構化資料一樣的需求:海量、高速、安全、智能以及無縫上雲。基于這樣的一個需求,已經有1000多家企業在我們阿裡雲OSS對象存儲這樣的一個通用存儲的解決方案上面,來建構一體化的資料湖解決方案。資料湖可以給大家解決兩個問題。第一個問題是解決多種形态的資料的無縫接入、聚合的一個問題,他可以把多樣的資料都放在同一套存儲上面,同時在這套存儲上面,它可以更快地對接多種自建和托管的引擎,來實作不同的分析服務的業務的創新,無論是搜尋推薦、機器學習,還是其他各種多種多樣的服務形态。

數智時代新基石,賈揚清重磅釋出新一代雲原生資料倉庫與資料湖

今天我們在這裡重磅釋出新一代雲原生的資料倉庫和資料湖的解決方案,背後的理念是從資料孤島到一種存儲,多種計算、實時即服務這樣的一個系統設計。在阿裡雲上面我們還有資料的綜合治理

DataWorks

機器學習PAI

這樣的平台,通過這一整套的資料産品,我們可以實作應用的資料化和智能化。我們認為未來每一家企業都應該在雲上建設資料倉庫和資料湖,解決紛繁複雜的資料問題。

本次峰會Hologres商業版首發,指定規格首月三折!

立即體驗>>

了解更多峰會大資料&AI詳情請點選:

https://www.aliyun.com/activity/bigdata/2020live