天天看點

阿裡資料中台底座的12年建設實踐阿裡巴巴資料平台發展的四大階段資料平台建設的四個核心挑戰作為中台底座,資料平台下一站走向何方

文/阿裡雲智能計算平台事業部研究員 關濤

阿裡巴巴資料平台發展的四大階段

阿裡資料中台底座的12年建設實踐阿裡巴巴資料平台發展的四大階段資料平台建設的四個核心挑戰作為中台底座,資料平台下一站走向何方

建構資料中台,一個強大的資料平台作為底座必不可少。 阿裡巴巴資料平台發展的四個階段,一定程度上其實也是阿裡巴巴資料中台發展的四個階段。這四個階段裡,你可以看到阿裡巴巴對自身資料的商業價值的萃取,對原有分而治之的資料系統的聚合,對計算資料資産化和資料高效應用的新思路以及對資料平台治理過程中面臨的組織變革等。

階段一:業務百花齊放,發現資料價值

阿裡資料中台底座的12年建設實踐阿裡巴巴資料平台發展的四大階段資料平台建設的四個核心挑戰作為中台底座,資料平台下一站走向何方

2009年到2012年,阿裡巴巴電商業務進入爆發期,湧現出非常多有名的業務團隊,比如淘寶、1688、AliExpresss、一淘等。每個業務都是基于資料驅動的全場景業務,業務方對資料有着強烈的訴求。 那個時候,阿裡巴巴技術幾乎都是IOE架構,核心資料系統是Oracle。2年時間内,阿裡巴巴建成了全亞洲最大的Oracle叢集。但是在2010年,Oracle已經不能滿足計算的要求,有非常多資料延遲和不滿足性,再加上昂貴的成本,沒辦法繼續支撐業務發展。 阿裡巴巴開始認真審視建設下一代資料平台的重要性,同時啟動了兩個并行項目:一個是“雲梯1”,基于開源Hadoop技術體系,多個業務團隊建構多個Hadoop叢集,叢集規模達到4000台伺服器。 一個是“雲梯2”(ODPS,現MaxCompute),作為阿裡巴巴自研産品啟動研發,叢集規模1200台左右。螞蟻小微貸款“牧羊犬”業務是第一個吃螃蟹的業務,上線“雲梯2”的過程被稱為“人肉雲計算”與“分步試計算”。王堅院士2018年曾在央視《朗讀者》節目朗讀《進入空氣稀薄地帶》,形容的就是自研資料平台那時的現狀與信念。 兩個項目在阿裡巴巴内部形成競合狀态,并行探索阿裡巴巴資料平台發展的軌迹。這個時期,所有業務方的資料幾乎都是垂直建設,以自己業務形态形成獨立小閉環的形式飛快向前奔跑。

階段二:業務垂直小閉環,資料孤島顯現 
阿裡資料中台底座的12年建設實踐阿裡巴巴資料平台發展的四大階段資料平台建設的四個核心挑戰作為中台底座,資料平台下一站走向何方

2012年到2015年,阿裡巴巴電商業務在飛速發展的同時,湧現出更多的新興業務:2013年,創立菜鳥,啟動“all-in 無線”戰略;2014年,投資高德,與銀泰合資,阿裡旅行成立;2015年,推出釘釘/零售通、成立口碑、控股阿裡健康等等。 這個時期,阿裡巴巴業務蓬勃發展,形成了12個業務部門和9套不同的平台系統,而且每套平台系統架構都不一樣,使用者數字化流程需要橫跨多個BU的多套資料系統。 資料孤島現象開始日益嚴重,資料成本越來越高,統一的資料平台建設已經迫在眉睫,這也是阿裡巴巴資料中台的起點。 與此同時,“雲梯1”和“雲梯2”也正在經曆大變革。 2013年3月28日,阿裡巴巴集團技術保障部架構師雲铮的郵件直達集團高層:“按照資料增量與未來業務增長的情況,雲梯1和雲梯2兩套系統的存儲和計算能力将在今年6月21日到達瓶頸。”屆時,許多的業務将因為技術的限制而無法展開。 這意味着,資料平台已經無法再同時并行“雲梯1”與“雲梯2”兩個項目,必須選擇其中1個。如果選擇“雲梯1”,Hadoop的5000節點限制如何突破?涉及到金融業務,開源體系如何保證大資料的安全與可用性?跨機房方案業界無參考如何解決?業務互動頻繁,跨機房如何保證資料穩定互動? 一系列的技術難題都逐漸将資料平台推向自研道路。 最終,阿裡巴巴集團多個技術部門合璧,決定選擇“雲梯2”挑戰5K巅峰。短短幾個月時間,“雲梯2”從1500台跨入5000台并突破單實體機房限制,通過10倍壓力測試,同時支援跨叢集計算與高可用,為阿裡巴巴未來多年的大資料發展奠定了堅實的技術基礎。 5K項目完成技術突破後,新的壓力接踵而來。業務快速發展導緻資料規模也急劇膨脹,如何統一管理資料、統一保證資料安全、具備統一開放能力等問題成為資料平台思考的核心。 為此,阿裡巴巴内部啟動了一個比較有名的項目,将所有業務部門資料都同步到統一的大資料平台,統一進行管理。這個項目經曆了兩年,涉及阿裡巴巴所有事業部,這個過程中,還逐漸推進通用資料平台能力産品化并具備金融級平台的能力。 從當時來看,阿裡巴巴建設資料平台的過程是全面統一資料的過程,也是中國第一個超大規模資料中台建設和遷移的過程。

階段三:資料中台支撐業務可持續發展

阿裡資料中台底座的12年建設實踐阿裡巴巴資料平台發展的四大階段資料平台建設的四個核心挑戰作為中台底座,資料平台下一站走向何方

2015年到2018年,阿裡巴巴資料中台方法論開始确立,拉開了資料中台建設的大幕。2015年,阿裡巴巴集團宣布啟動“中台戰略”後,開始建構符合DT時代的更靈活的“大中台,小前台”組織機制和業務機制。阿裡巴巴每個營運小二都可以基于資料制定覆寫使用者生命周期的資料化營運政策,生意參謀開始探索資料業務化,更多的業務開始走向實時化。 但是,資料和計算的高速增長、資源的高速消耗帶來了資料需要治理的問題。阿裡巴巴的團隊們開始思考怎麼把資料中台的方法論落實到平台層,讓資料平台支撐資料中台的建設。

資料是誰的? 誰來用? 誰來管控?資料品質由誰負責?· 平台團隊和業務團隊是兩個團隊,成本關系是什麼?· 中台方法論,如何落地在資料平台落地?如何治理?· 數字增長很快,超過業務增長,怎麼辦?· 一張核心表12PB,每個部門複制1份,一年幾千萬就沒了怎麼辦?· 我知道要删除一半的資料,但到底是哪一半?

這些問題的背後是資料的治理以及資産化,我們需要一套平台系統把方法論承載進來,真正形成統一化。在資料平台側,DataWorks 建構大規模協同資料開發與治理的一站式能力,MaxCompute 支援伺服器叢集達到十萬級,服務阿裡集團全部BU、20多萬員工的日常營運,一起支撐各項業務的可持續發展。

階段四:雲上資料中台與業務伴生

阿裡資料中台底座的12年建設實踐阿裡巴巴資料平台發展的四大階段資料平台建設的四個核心挑戰作為中台底座,資料平台下一站走向何方

2018年之後,整個阿裡巴巴資料平台系統已經很成熟,平台方和業務方達成一個非常好的配合狀态。業務方認可資料平台的價值,業務部門與技術部門相伴相生,資料中台服務業務達到正循環,成為資料中台建設成功的一個标志。 阿裡巴巴從2018年内部所有系統開始上雲,到2021年實作了雲上資料中台與業務伴生:雙11核心系統100%上雲,阿裡巴巴全面雲原生化;每秒53.8萬筆,阿裡雲抗住全球最大流量洪峰;資料中台覆寫阿裡集團所有BU;營運小二及時發現問題、分析問題,實作實時營運決策;短視訊、直播等新業務繼續湧現…… 可以看到,阿裡巴巴的資料中台建設是成功的,并且仍在高速向前發展。

MaxCompute 智能數倉讓雙11成為日常,湖倉一體逐漸成為下一代大資料平台架構,DataWorks建設的資料中台全面服務業務,支援集團内數百個資料應用,通過全鍊路資料治理,以低成本增長支援集團業務高速增長。

資料平台建設的四個核心挑戰

一個資料中台建設的成功與否的核心名額,不是系統效率,不是平台效率,而是“資料效率”。 阿裡巴巴主要從規模與彈性、資料的成本、資料的正确性與可維護性、資料使用率4個方面來衡量“資料效率”。

阿裡資料中台底座的12年建設實踐阿裡巴巴資料平台發展的四大階段資料平台建設的四個核心挑戰作為中台底座,資料平台下一站走向何方

在這個核心名額下,方法論、組織、平台能力則是資料中台成功的核心三要素。那麼,資料平台要想建設好,背後究竟有哪些方法,建設過程中有哪些難點需要注意?背後要做的工作其實非常多,本次僅從面向業務的4個切面做介紹,暫未涉及存儲、計算引擎等層面的挑戰。

挑戰一:資料資産管理體系

對于資料資産來說,首先要解決的一個問題是:什麼叫企業的資料資産?阿裡巴巴的每個BU都有一個自己事業部的資料資産全景圖,我們通過一張圖統管阿裡巴巴99.9%計算資料資産,每個部門的存儲計算成本将全部量化,直接展現在管理者的面前。 第二個問題:如何看資産?對于企業而言,資産難道就是一個個成本的數字嗎?阿裡巴巴通過資料資産的透視,讓管理者知道我自己的資料來源于哪,服務給誰,誰又是我最好的合作夥伴,同時又可以滿足資料流動審計的需求。 第三個問題:如何進行資産的規模化?新的業務合并/收購/創新,如何将這套資産體系快速地複制?在DataWorks等工具中提供資料中台模組化工具,能夠為資料中台建設提供規範化圖紙,針對不同的業務域進行劃分,進行智能模組化,讓新業務快速複用之前成熟的資料架構,達到資産規模化的能力。

挑戰二:資料品質體系

對于資料品質來說,首先要先解決的一個問題是:事前品質如何定義?金融行業經常提到一個概念叫對賬,阿裡巴巴資料也要對賬,針對超過千萬級别資料表的對賬問題,我們提了“品質規則”的概念。700多萬品質規則,每天新增1萬多條,人工要怎麼配?阿裡巴巴建設了37種規則模闆,通過智能規則推薦比對,采納率達到75%。 第二個問題:事中品質如何執行?700多萬條品質規則需要耗費大量計算資源怎麼辦?通過什麼方式來降低成本?我們通過智能化技術建設了資料品質排程引擎、ETL引擎,資料變更後實時觸發品質監控,采用優先級政策,進行空閑運作。 第三個問題:事後品質如何自動化?規則寫死了,但資料是活的,遇到周期性波動和變化怎麼辦?我們在資料品質建設的時候融入很多人工智能的技術,通過機器學習方式學習資料生成的樣子,能夠對動态門檻值進行智能預測,通過算法比對周期性波動。

挑戰三:資料安全體系

對于資料安全來說,要解決如何降低使用成本,提高易用性;如何覆寫資料全生命周期;如何做權限管控;如何資料脫敏,如何識别敏感行為進行資料溯源等問題,阿裡巴巴内部沉澱了超過20項不同的安全治理規則,這些規則最終能夠幫助平台在滿足業務高速增長的情況下同時滿足個人合規的要求。

挑戰四:資料治理體系

當資料治理進入深水區,資料成本增速如何不超過業務增速;如何調動全員治理的積極性,培養成本意識,在阿裡巴巴,資料治理是引擎、平台和人的互相配合,引擎對算力和成本極緻追求,持續打破快速增長的資料計算與成本增長的線性關系,平台通過存儲健康分、計算健康分成為集團各團隊資料治理戰役的核心名額,推動人做資料治理和管理,利用平台全鍊路工具,建構資料治理技術營運體系。通過這樣的成本報表的方式把平台層的成本和價值展示清楚。 可以看出,在12年資料平台建設期間,阿裡巴巴從資料的資産、品質、安全、治理等多個緯度沉澱出了資料中台産品化的能力。

作為中台底座,資料平台下一站走向何方

未來,作為中台的底座,資料中台将從資料智能到智能資料,“湖倉一體”滿足架構靈活更新、“智能數倉”解決超大規模下的資料管理難題、“智能查詢”極大降低資料分析門檻、AI的雲原生化/規模化/标準化與普惠化讓其成為大資料的終極出口,不斷加速大資料與AI一體化的融合。

趨勢一:一體兩面的湖倉一體

阿裡資料中台底座的12年建設實踐阿裡巴巴資料平台發展的四大階段資料平台建設的四個核心挑戰作為中台底座,資料平台下一站走向何方

作為下一代資料平台架構,湖倉一體滿足複雜現狀下架構的靈活更新。資料倉庫主打企業級資料,處理更精細、更經濟、更高效。企業可以建設自己的資料中台,無論是引擎優化,還是資料管理,有一整套方法論以及支撐的工具。但是進入門檻很高,成本又貴,還有使用門檻。資料湖是脫胎于開源體系的技術,進入門檻和成本較低,比較靈活,企業容易實作自建資料湖,隻是資料統一存儲之外,企業需要進一步做各種精細化管理,希望資料能治理,能管理,成本低,還可運維。 如何打通資料湖和資料倉庫割裂的體系,架構上融合資料湖的靈活性以及資料倉庫的企業級能力,阿裡巴巴提出的湖倉一體架構,統一存儲和中繼資料,打通資料體系,利用智能數倉技術針對不同的資料和義務,做自動分類存儲和處理。

趨勢二:資料倉庫進入“自動駕駛”時代

阿裡資料中台底座的12年建設實踐阿裡巴巴資料平台發展的四大階段資料平台建設的四個核心挑戰作為中台底座,資料平台下一站走向何方

超大規模資料帶來管理難題,傳統的“DBA模式”已經很難勝任。阿裡巴巴有超過千萬級别的表,很多核心資料開發工程師,一個人負責上萬張表,沒有辦法做精細化的治理和模組化,這樣的系統不能随人的方式擴充,是以未來,越來越多的AI技術會融合進大資料系統,進入“自動駕駛”時代。

趨勢三:所查即所得,基于自然語言的智能資料查詢

阿裡巴巴正在資料之上嘗試建構一個超大規模的知識圖譜,通過知識圖譜的方式做資料到語義層的翻譯,再通過NLP(自然語言處理)等技術跟使用者做結合,形成一個橋梁。比如使用者輸入北京市網際網路客戶有哪些,就可以自動生成得到一份資料。阿裡巴巴正試圖把通過自然語言的智能查詢在海量資料上用起來,規模化起來,讓更多的非專業資料人員也可以獨立完成資料分析工作。

趨勢四:資料即智能,AI工程化的基礎能力 

阿裡資料中台底座的12年建設實踐阿裡巴巴資料平台發展的四大階段資料平台建設的四個核心挑戰作為中台底座,資料平台下一站走向何方

資料需要智能的加速,AI是大資料的終極出口。我們知道,真正想把AI用起來是一個非常難的事情,從最初的資料興起、資料提煉、模型訓練、模型調優,再到模型部署和服務,整個鍊路非常長。如果我們有5萬人可以直接使用資料,可能真正能用AI的人可能不超過5000人,那如何把AI技術随着資料賦能給業務方,這就是所謂的AI工程化。

阿裡資料中台底座的12年建設實踐阿裡巴巴資料平台發展的四大階段資料平台建設的四個核心挑戰作為中台底座,資料平台下一站走向何方

最後總結一下,上述内容隻是泛泛地提到了阿裡資料中台底座建設的四個典型階段,遇到的四大技術挑戰,以及資料平台的四大技術趨勢等話題,這些内容還不是阿裡巴巴資料中台的全部。通過12年時間,阿裡巴巴資料平台建設已經有了非常多的技術積累,這些平台能力也在不斷推動資料中台向智能化進化,并且還會一直向前演進,服務阿裡巴巴并輸出給全社會。