天天看點

詳解阿裡雲資料中台,一篇文章全面了解大資料“網紅”

作者:譚虎、陳曉勇 [ 更多内容詳見資料中台官網 https://dp.alibaba.com

]

一直想寫一篇關于資料中台正面文章,現在有閑時做些總結,想充分诠釋一下DT内部人如何看待資料中台。

資料中台的概念是最早由阿裡巴巴首次提出,是為了應對内部衆多業務部門千變萬化的資料需求和高速時效性的要求而成長起來的,它既要滿足業務部門日常性的多個業務前台的資料需求,又要滿足像雙十一,六一八這樣的業務高峰、應對大規模資料的線性可擴充問題、應對複雜活動場景業務系統的解耦問題,而在技術、組織架構等方面采取的一些變革。

資料中台的定義

阿裡巴巴資料中台是阿裡雲上實作資料智能的最佳實踐,它是由資料中台方法論+組織+工具所組成,資料中台方法論采用實作企業資料的全局規劃設計,通過前期的設計形成統一的資料标準、計算口徑,統一保障資料品質,面向資料分析場景建構資料模型,讓通用計算和資料能沉澱并能複用,提升計算效能;資料中台的建設實施必須有能與之配合的組織,不僅僅相應崗位的人員要配備齊全,而且組織架建構設也需要對應,有一個資料技術部門統籌企業的數字化轉型,資料賦能業務中形成業務模式,在推進數字化轉型中實作價值;資料中台由一系列的工具和産品組成,阿裡雲資料中台以智能資料建構與管理Dataphin産品、商業智能QuickBI工具和企業參謀産品為主體等一系列工具組成。

詳解阿裡雲資料中台,一篇文章全面了解大資料“網紅”

阿裡雲在過去幾年中經過數十個實際項目沉澱形成實施标準化流程和方法論。阿裡雲OneData資料中台解決方案基于大資料存儲和計算平台為載體,以OneModel統一資料建構及管理方法論為主幹,OneID核心商業要素資産化為核心,實作全域連結、标簽萃取、立體畫像,以資料資産管理為皮,資料應用服務為枝葉的松耦性整體解決方案。其資料服務理念根植于心,強調業務模式,在推進數字化轉型中實作價值。

資料中台的概念來自于阿裡巴巴“大中台,小前台”業務戰略下的資料化實踐,它是關于“資料價值化和資料資産化”的一整套解決方案,内容包括資料中台方法論,組織,資料産品三個方面。

資料中台建設成果主要展現在兩方面:一個是資料的技術能力,另一個是資料的資産。今天阿裡的各個業務都在共享同一套資料技術和資産。阿裡内部為這個統一化的資料體系命名為“OneData”。Onedata體系包括OneModel,OneID,OneService3個方面,在OneData體系之下,不斷擴大的業務版圖内的各種業務資料,都将按統一的方式接入中台系統,之後通過統一化的資料服務反哺業務。

如下圖所示:

詳解阿裡雲資料中台,一篇文章全面了解大資料“網紅”

資料中台頂層設計

資料中台定位于計算背景和業務前台之間,其關鍵職能與核心價值是大資料以業務視角而非純技術視角出發,智能化建構資料、管理資料資産與提供資料調用、資料監控、資料分析與資料展現等多種服務。承技術啟業務,是建設智能資料和催生資料智能的引擎;而以資料中台核心價值為中段的資料中台業務模式不是純資料、不是純技術、也不是純業務,它同時關注着與大資料能力相關的上下遊,以大資料為中軸線,基于技術而又深入業務,它以資料産品+資料技術+方法論+場景實作的綜合性輸出,同時為智能化資料、技術極緻提升和資料智能化業務負責。

一方面專注于從業務視角,建設标準統一、融會貫通、資産化、服務化、閉環自優化的資料中台智能資料體系,同時極緻化追求技術上的降本提效。另一方面,緻力于智能資料與業務場景深度融合的業務資料化與資料業務化中的各類智能化價值創新。

資料中台與傳統資料倉庫差異

資料倉庫已經經曆了40多年的發展,廣泛應用于大型商業企業,幫助業務人員和高層人員做分析和決策,它起源于決策支援系統(decision support system),其展現形式更多以報表方式實作。是以資料倉庫是一個面向主題的、內建的、非易失性的,随時間變化的用來支援管理人員決策的資料集合。

傳統的企業級數倉還是以TD,Oracle,IBM/DB2等傳統資料庫為主, 由于受限于資料的處理能力,很少有EDW的資料容量超過1TB,是以不能對基礎資料進行跨域的處理(原因是RMDBS對大資料量的關聯join處理耗時非常長),是以要對新的名額分析的時候需要從基礎資料重新生成彙總表,耗時耗力,使用方法上無法實作跨資料集或資料域的處理。新一代的資料倉庫采用分布式架構,一般基于MPP資料庫或大資料平台實作資料分析,是以傳統的資料倉庫具有以下幾個特點:

  1. 業務主題性:傳統的數倉要求解決服務問題,比如對一個生産型企業來說公司的主題域是産品、訂單、銷售商、材料等,要解決應用問題可能是庫存、銷售、銷售商等。其有業務是面向主題的。
  2. 系統內建性:在傳統資料倉庫中,內建是最重要的,由于計算和存儲的成本原因,其資料需要從不同的資料源抽取過來并集中,其資料的備援度需要盡可能的降低,是以資料進入資料倉庫中需要進行轉化、格式化、重新排列和彙總等操作,其所有資料具有單一實體特性,都是結構化方式存在。在系統架構方面,也是以集中式存儲和計算方式存在,新一代的數倉采用分布式計算,但軟體産品采用集中部署方式存在。
  3. 非易失性:數倉系統會記錄所有記錄,與業務系統相比,它不會對記錄進行變化操作(update和delete),它會保留所有記錄的變化,但受限于成本和計算能力考慮,數倉不會記錄全量明細資料,特别是日志資料,是以大部分數倉平台的資料容量在TB級别。
  4. 時間變化性:資料倉庫中每個資料單元隻是在某一時間是準确的,是以資料單元的準确性與時間相關,資料倉庫中的資料時間範圍5-10年。
  5. 系統一體化: 傳統數倉以系統整體設計為特性,軟體平台圍繞着資料庫或計算平台以整套服務為主,結合度缜密,對外服務也較單一。

傳統的數倉采用集

中式資料庫作為資料和計算平台,近10年來,新興企業采用分布式資料庫和大資料技術實作OLAP類數倉建設,但其本質還是基于一個整體來考慮的。

在系統和服務上資料中台與傳數倉有很多明顯的差別,首先表現在服務對象方面,傳統的數倉隻是滿足上司資料決策的需要,是以更多的展現在報表輸出,使用者以小部分的業務人員和決策層為主,新需求的開發周期以月甚至到年為計。而資料中台由于起家于網際網路企業,其使用對象擴大到一線服務人員和商家企業,其業務需求更繁雜,很難用一套報表系統滿足需求,是以催生出一個生态的資料服務。

其次是體系架構上,資料中台是由多系統組成,除了計算平台外,其方案由多個分布式服務系統提供,滿足不同業務需求和高并發和系統自動擴容需求,除了大資料存儲和計算平台外,還包含數倉建設、工作台開發IDE、任務排程、資料同步服務、對外統一資料服務、資産管理系統、實時流計算平台和開發平台、oneID計算和查詢子產品,靈活BI報表開發等多個元件,通過多個次元元件組成一整套方案。

再則,在服務表現形式上資料中台展現的更多樣化,資料中台不僅能提供報表基礎服務功能,而且為了滿足各個業務部門不同需求,會提供上司決策系統、行業分析、業務洞察、業務重塑,自助查詢等多個功能,滿足從上司層、PD、業務人員、開發人員等各個層級的需求。

詳解阿裡雲資料中台,一篇文章全面了解大資料“網紅”

在繼承性方面,資料中台采用傳統的數倉Kimball次元模組化法,按照事實表,維表來建構資料中台的資料模型。

資料中台與資料湖差別

業界近3年對datalake說的比較多,是結合近10年來大資料理念興起的,首次由Dan Woods在2011年7月福布斯上的“Big Data Requires a Big, New Architecture”中提出,它提出CIO們應該考慮資料湖(“Data lake”)這個思維方式來替代資料倉庫(“data warehouse”)的思維,它的架構和理念是把原先不存儲的基礎資料也存儲起來,彙總各個資料源的資料友善以後的資料分析和查詢,是以資料湖是資料的聚集、加工為目的資料資源池,但是資料湖隻是解決了聚集問題,在資料加工方面由于不可控制的需求變得異常繁重,由于資料的繁雜和混亂引入資料治理讓資料的加工更是舉步維艱。

詳解阿裡雲資料中台,一篇文章全面了解大資料“網紅”

圖:資料湖采集的資料類型

傳統上資料湖中的資料會存儲原始資料,量大并且非結構化和半結構化的資料較多,需要有一個低成本分布式存儲和計算架構來承載這些資料,屬于ODS層,缺乏資料主題和加工能力,是以近期對資料湖上的資料治理項目和應用越來越多。

資料湖彙集了原始ODS資料,解決了傳統數倉基礎資料缺乏的問題,作為企業數倉平台的補充,有其重要的意義,但資料湖的作用在于彙集企業的各個資料源,有一個存放和分析之地,在規劃中沒有一個整體的資料資産規劃和管理職能,這會導緻其功能薄弱性,不能承擔整體的資料處理和管理之重,實際在一些大型企業,使用資料湖其資料陷阱就會馬上出現,業務人員的需求需要DBA或IT人員經過繁雜的處理步驟才能實作達到業務人員的資料分析目的,其會耗費開發人員的時間耗以周計,原因之一是資料湖沒有一個資料建構和管理平台去管理和計算這些資料,是以不講治理的雜亂無章的資料看似能提升資料擷取,資料分析的效率,實際上并不能承擔企業智能化的使命。

企業資料智能需要解決企業資料智能所面臨的諸多問題,企業資料智能需要解決資料的快速計算和結果産出;需要對企業資料資産有整體規劃和掌控;需要有一個好的方法論處理業務邏輯繁雜的統計;需要有一個好的建構和管理平台面向業務使用方和開發使用方...這些都是資料湖所不能解決的問題。

詳解阿裡雲資料中台,一篇文章全面了解大資料“網紅”

資料中台是由阿裡巴巴在2015年在内部技術演進群組織優化中提出中台戰略中提到的,資料湖本身的缺陷正是資料中台強項,二者可以起到方案補充的作用,在現有技術架構中資料中台可以基于Hadoop資料湖平台作為資料存儲和計算載體,實作資料的加工和處理,資料中台更多實作資料的管理,強調利用資料的能力,強調資料開發和高效的使用,資料中台的資料資産管理可以對資料湖中的資料按照資料域方式進行管理并結合業務的邏輯實作整個資料模型的加工和開發。

資料中台與資料域相比,資料中台強調方法論,組織和工具的建設。非常強調資料賦能業務,衍生出很多的資料業務産品。比如在阿裡面向商家的生意參謀,面向人物屬性的标簽服務、面向行業小二的行業洞察…這些都極大的擴充了資料價值,其次資料中台按分析的原子名額和派生名額方式做計算并存儲在Maxcompute平台上,如有及時查詢要求會同步分析結果資料給MPP或其他DB。這塊在資料頂層設計,全域資産、統一技術、産品業務上與Datalke及EDW是不同的。

現有大資料平台廠商和雲服務廠商推崇資料湖有其商業目的,AWS認為“雲資料湖代表未來,能從資料中挖掘出更多價值”。AWS對資料湖的了解是基于同一存儲、對接各類引擎進行分析查詢工作,是以推崇Amazon S3來建構資料湖;微軟推崇“Azure Data lake”基于HDinsight(原先Hortonworks公司産品,現是Cloudera産品)上層使用hive,spark,U-SQL計算引擎實作計算和查詢;華為推薦DAYU資料湖營運平台,強調統一管理和功能的豐富性。這些解決方案非常強調存儲服務和想配套的硬體銷售。

最後說到底都是企業提供資料計算、存儲和應用的平台,最終各種平台的目的都是要更好地服務于業務。

資料中台所面臨的調戰

随着資料中台理念的普及,各行各業逐漸接受了這個概念,很多廠商通過招投标采購、自身投入等各種方式建設了資料中台,但在建設和具體營運中發現了很多問題,諸如資料營運是否能産生效益,對業務是否有推動價值,取數是否快速靈活等問題…

資料中台建設是一個徐徐漸進的建設過程,資料積累和分析次元都有一個資料和知識積累,認知的過程,和業務系統的“交鑰匙”工程有本質不同,營銷,市場和供應鍊的資料是在不斷變化中,營銷活動,産品也在不斷發展和更新中,是以,資料中台建設是一個不停疊代和發展的過程,需要持續投入是資料中台營運部門所面臨的最大的挑戰。

業務資料的分析需求會有很大變化,回顧網際網路或傳統産業的發展曆程,在2007年iPhone智能手機以一個全新的形式推向市場前,傳統的資料分析需求還是停留在PC或線下資料的分析,而今天,幾乎所有的分析次元幾乎都是來自線上終端(手機)需求或由線上資料來推動線下營運的需求。而今天随着5G和AI技術的發展,越來越多的IOT裝置産生的資料開始支撐着資料分析場景,比如商場、飯店已經開始使用攝像頭等傳感器來收集遊客對商品或服務的喜好,這些都觸動對資料中台的分析需求,這2個小小例子說明資料中台的分析需求是在不斷變化中,是以資料中台建設也需要持續疊代和發展,而不是自我運作的,這需要開發人員在不斷疊代中找到事物發展的規律,總結形成資料服務應用,滿足普遍化的業務需求。在GPS傳感器內建到手機中前,人們無法獲知運動中的人位置,通過定位傳感器衍生出位置服務,比如大衆點評中的餐飲家政等生活圈的服務,這些資料會催生出人新的位置标簽,生活圈等名額資料,這些對業務營運有非常大的幫助,因為有了這個資訊,你不會再給一個偶爾因為差旅去商家消費的顧客再發送促銷資訊,也不會給偶爾消費的人有促銷廣告,這會幫助你的營銷更有針對性,更精準。

傳統企業在數倉建設都有一個分析平台,固化了很多分析名額,這些分析名額每天發生一些變化,為決策層提供了決策支撐,但名額的更替和變化确以月和年計,這導緻對新業務和事物的業務回報不夠及時,是以面對這一挑戰需要有一個靈活的資料中台加工機制來滿足這些需求。這首先需要有一個組織來支撐這個營運目标,使得營運和開發團隊為這個目标達成這個目标,在阿裡巴巴内部資料技術及産品部門就是這個組織的典型代表,通過組織機制來推動營運,滿足業務部門不間斷的資料需求,同時基于需求開創了一套方法論并開發了一系列的工具幫助業務部門達成這一業務目标。這需要資料中台的開發團隊開發一套友善,便捷的自助取數工具來滿足業務部門的需求。

誠然,在資料建設中還會碰到一些其他潛在問題,諸如需求不明确,分析場景設計不合理,資料名額和分析思路不夠能解決使用者痛點等情況,但這些都可以通過增加投入,特别是加強咨詢和調研的力度來解決這些問題。

尾聲 [ 更多内容詳見資料中台官網

資料中台是很多傳統企業做數字化轉型的重點投入,這需要從戰略、方法論、工具、執行群組織層面做系統規劃、有序執行,阿裡過去多年經曆了内部多年的建設沉澱出多個工具和資料産品,經過央視網、海底撈、飛鶴、聯華商超、南航等多個傳統行業落地項目的淬煉得出實施的方法論,這些轉型先鋒為中國企業的數字化轉型具有借鑒意義。

阿裡巴巴資料中台團隊,緻力于輸出阿裡雲資料智能的最佳實踐,助力每個企業建設自己的資料中台,進而共同實作新時代下的智能商業!

阿裡巴巴資料中台解決方案,核心産品:

· Dataphin,以阿裡巴巴大資料核心方法論OneData為核心驅動,提供一站式資料建構與管理能力;

· Quick BI,集阿裡巴巴資料分析經驗沉澱,提供一站式資料分析與展現能力;

· Quick Audience,集阿裡巴巴消費者洞察及營銷經驗,提供一站式人群圈選、洞察及營銷投放能力,連接配接阿裡巴巴商業,實作使用者增長。

歡迎志同道合者一起成長!