作者:DataWorks産品經理 唐晨
一、資料治理的概念、需求層次和目标
(一)對于資料治理概念的一些基本了解
當我們在談論資料治理時,經常會跟資料管理這一概念一起讨論。DataWorks設計資料治理産品功能時,參考的主要也是資料管理領域内的三大理論依據:第一個是資料管理協會知識體系,也就是大家熟知的DAMA、DMBOK2;第二個是DCMM資料管理能力成熟度評估;第三個是信通院的資料資産管理實踐白皮書。
從左右這兩張圖對比可以看出,DMBOK和DCMM對于資料管理和資料治理的範圍和定義是略微有差別的。DMBOK将資料管理劃分為十大職能領域,資料治理位于最中間的位置,用于串聯其十大職能領域。而DCMM将資料管理定成八大過程域,資料治理是和資料品質、資料安全并列的過程域之一。顯然,業界不同的組織和群體對于資料管理和資料治理概念的了解會存在一些出入。
DAMS有這樣的一個描述:在資料管理過程中,要保證一個組織已經将資料轉換成有用的資訊,這項工作所需要的流程和工具就是資料治理的工作。這裡強調兩個概念:第一,資料治理是資料管理的一部分;第二,資料治理的核心是流程和與之配套的工具的保障。DataWorks也是參考了這個定義,聚焦于保障與資料資産化配套的資料治理方面的需求來設計産品能力。當然産品能力建設也是一個逐漸的過程,DataWorks的功能也在持續擴充中。
根據資料治理的需求,結合在阿裡巴巴内部資料治理的實踐過程,以及跟外部許多客戶和同行的交流,我們發現企業的數字化轉型階段不同,資料治理方面的核心需求是存在差異的。抽象來看,資料治理的需求可以分為五個層次:第一層是時效性,指的是資料産出的及時性要求; 第二層是品質,資料的品質管控,治理覆寫資料的完備性,正确性,準确性等; 第三層是資料的可用,這裡主要強調的是資料的共享使用,易查找,好了解,或可複用;第四層是資料安全方面的要求,比如說資料權限的申請和審批,流程的管控,敏感資料的識别和保護,以及合規性要求;第五層是資料的生産、存儲和使用的成本優化控制。
這五個層次的需求,越下面的需求相對來說越基礎,需要優先滿足。但随着企業數字化轉型過程的加深,上層的需求就會逐漸地展現出來。阿裡内部也是這樣的過程,在十多年前最開始的階段,阿裡優先關注的是資料任務的運作穩定,資料能及時産出,資料是正确的、可用的。當這些需求被很好地滿足和保障之後,現階段阿裡内部資料治理最關注的是金字塔頂端的需求,也就是成本的考量。
當然,這五個需求層次,并不是必須逐層演進的。在一個階段,企業很大可能會同時有不同層次的需求,隻是相對而言,它關注的需求重點會有所不同。
這五個需求層級實際上也就定義出了資料治理的一個核心目标,就是企業數字化轉型要最大程度地将資料資産化,來挖掘出資料的價值。在這個過程中,要滿足産出的及時性,品質可靠,資料易找易用,資料安全可控以及生産經濟這五個方面的要求。
在資料治理的實施政策上來說,有自下而上和自上而下兩種方式。這兩種方式相結合的方式在阿裡内部實踐驗證後更行之有效。頂層用來解決全局的資料規劃群組織建設,以及制度制定這些問題,為治理提供上層的賦權;而下層聚焦于核心業務流程的梳理、平台工具和營運體系的建構,為資料治理落地提供支撐。
通過自上而下和自下而上密切的結合,随後循環的演進,來進行資料治理的推動。而資料治理的需求分層,也為資料治理給出了一個啟示,我們可以整體去規劃資料治理的藍圖,但是需要分階段去實施。在特定階段,企業資料治理的訴求重點是有所差別的,建議結合企業的實際情況,關注重點層次的訴求,逐漸疊代演進。
二、 阿裡巴巴内部資料治理實踐
有兩個關鍵詞:EB 級; 千萬級任務/天。這是阿裡内部資料的現狀,總的資料存儲已經到達了數EB這個級别,每天離線資料處理的任務超過了千萬,而且這兩個數字在以很大的增幅增加,這背後是極大的存儲和計算成本的開銷。是以,阿裡巴巴現階段資料治理的核心訴求已經演進到金字塔的頂端,也就是關注成本的階段,通過資料治理
的工作,阿裡巴巴每年可以做到節省10個億的成本,這是一個非常了不起的成就。在阿裡内部,資料治理的工作能夠有效的落地下來,有四個方面的因素:組織建設、制度保障、平台技術、營運落地。
(一)組織建設
阿裡巴巴成立了全集團層面的資料治理工作組,這個組織是直接挂靠在阿裡巴巴内部的一級組織——阿裡巴巴數字經濟體資料專業委員會。工作組成員主要有獨立的資料資産管理團隊,這個是獨立于各個BU存在的,還有各個BU的資料治理責任人,以及資料平台的負責人。這個組織的核心工作有: 制定集團的規範,确定治理的目标,推進治理的落地,以及保持最終的存儲和計算的健康程度。資料治理工作組有一個很重要的權力:對各個BU資料生産預算高低的直接影響權。每個BU能拿到的年度預算多少與上年度資料治理的目标達成程度是密切挂鈎的。資料治理工作組在預算制定上的話語權,也是保障治理工作能夠推進的一個決定性因素。
(二)制度保障
在制度保障方面,阿裡巴巴制定了一個集團全局的資料資産治理規範,主要是用來進行責權的明确,細化每個主體的責任和權利。同時也制定資料治理的分項工作細則,比如資料模型架構規範,資料研發規範,資料品質保障原則,資料安全的管理指南。
(三)平台技術
在平台工具上面,阿裡巴巴的資料中台,離線資料加工的部分,都是基于MaxCompute和DataWorks來建構的。MaxCompute是阿裡完全自研、全托管的EB級大資料存儲和計算引擎,它提供了海量資料的存儲和計算服務。DataWorks可以說是MaxCompute的一個作業系統,它基于MaxCompute的底座能力,提供了資料內建,資料開發,資料地圖,資料品質,資料安全和資料服務等全方位的産品服務。這兩個平台的密切配合才能為資料治理落地提供強有力的平台支撐。
(四)營運落地
營運落地方面采取的措施有三種:一是每周定期的資源消耗賬單會發送給資源的使用者,讓他清楚地了解自己對于資源的使用情況;二是定期的專項治理活動,會針對性地集中來進行優化整治;三是治理的紅黑榜排行,用紅黑榜在全集團公布的方式來推動整個治理的實施。
這裡的重點是,一定要把治理的工作給量化出來,用資料說話。紅黑榜中一個核心參照名額是存儲和計算的健康度評價,也就是健康分。當健康分很低的時候,會有對應的限制手段,比如開發環境對于資源使用會受到限制、不能送出任務運作,除非責任人完成相應的治理工作、提升健康分滿足要求。
三、DataWorks資料治理平台能力
下圖是Gartner2020年十大資料和分析趨勢圖,有兩個啟示:
第一,随着技術的引進,新的趨勢和新的需求會層出不窮,但這些趨勢之間又有着或多或少互相的關聯性,是以建構一個統一的資料平台來避免重複性的工作、提高擴充性變得十分必要。
第二,要做增強型資料管理,在資料平台中需要通過機器學習和人工智能技術的引入,提供更強大,更便捷的功能來解放平台的使用者,讓他們能夠專注于其他重要的工作。
DataWorks産品設計的理念與這兩個啟示不謀而合。在資料治理的部分,DataWorks引入了較多的算法技術,能夠更好地輔助使用者來使用平台。有很多人會問,做資料治理的核心是不是去治理人?把人管好了,資料治理就落地了。但是在DataWorks看來,治理的對象是資料和産出資料的任務這兩個客觀實體,并不是去治理人。DataWorks追求的是基于資料來治理資料的思路、通過這個平台的産品能力來服務好平台使用者,輔助推進資料治理的有效落地。基于這個理念,DataWorks提供了任務運維,資料安全,資料資産管理,資源優化等一系列的産品功能子產品。
接下來會圍繞資料治理的幾個需求層次,結合對應的産品子產品進行介紹。
(一)時效性 – 運維中心和智能監控
資料治理的第一個需求層次就是資料産出的時效性要求,在這個方面推薦大家使用的核心産品子產品是運維中心的智能監控功能,即由DataWorks獨創、榮獲國家專利的基線監控技術,也是阿裡内部大量使用,保障雙十一大促在内的業務資料生産穩定性和時效性的核心功能之一。在運維中心中,DataWorks提供了離線和實時任務的豐富運維操作,比如失敗任務批量重跑,曆史任務的補資料運作,以及運維診斷的功能,可以極大地節約任務運維的時間成本。
另外一個引起任務産出延遲的常見原因是資源的争搶。對于高時效性要求的保障任務,建議使用者把這些排程任務配置設定到獨享資源組上來。而如果是引擎層面的制約引起的任務延遲,則可以增大MaxCompute計算資源的配額上限。
(二)品質 – 資料品質
DataWorks提供的資料品質子產品能夠良好地滿足對資料産出的正确性、完整性的驗證要求。在前面資料品質子產品的介紹部分對于其功能已經有非常詳細的介紹,這裡強調兩個關鍵點:第一,DataWorks支援配置動态門檻值規則和規則的自動推薦,這也是引入了AI和算法價值的特色功能;第二,品質的監控與任務的排程是強挂鈎的,可以設計一種強報警規則來阻塞任務的排程運作,如果出現品質問題,就讓這個排程暫停下來,然後發送報警給節點Owner來及時處置,這樣可以防止品質問題的大範圍擴散。
(三)可用性 – 資料地圖
在資料的可用性、複用性這一層次,DataWorks提供的是資料地圖這一子產品。下圖展示了資料地圖功能子產品的功能。
第一,資料發現。資料地圖裡面目前支援了13種資料源的中繼資料采集和資料目錄建構。
第二,全局檢索能力。可以讓使用者通過表、字段、描述等多個元素來快速檢索表。
第三,中繼資料詳情。表的基礎元模型、字段名稱、字段類型等Schema詳情、資料的産出情況、資料使用的記錄以及資料使用的熱度等,這些資訊在中繼資料詳情裡面都有展示。
第四,資料血緣&影響分析。資料血緣是資料地圖提供的特色功能,能夠清晰的展現出這個表上下遊之間的血緣關系,包括跨不同資料源之間的血緣關系的展示。舉個例子,把RDS業務庫裡面的資料同步到MaxCompute來做資料處理加工,加工完之後再回到業務庫裡去,這個過程鍊路在資料地圖中都會清晰地展現出來。這個功能可以很友善地讓使用者去了解資料處理的來龍去脈。在血緣基礎上提供了影響分析功能,比如如果需要去修訂資料的口徑,基于這個能力,也能很友善地找出這個改動可能影響的下遊是哪些,評估改動的影響面,以及通知下遊做相應的改造。
第五,資料預覽&資料探查。資料地圖裡的資料預覽能夠對少量的樣本資料進行抽樣預覽,友善使用者快速了解裡面的資料具體是什麼取值。資料探查的功能主要提供對資料做統計名額的分析,便于使用者洞察資料的分布情況,比如資料的最大最小值,空值率等。
第六,資料類目。使用者可以利用資料類目功能來對資料進行分門别類的管理。比如可以按數倉分層、按照組織的業務或者架構劃分,把表有序地管理起來。基于資料類目的劃分,在地圖裡可以非常友善地通過類目導航找到這個類目下挂載的表,這樣也能極大地提升找表的效率。
這一系列的資料查找和了解的功能,最終的目标是提升資料的查找、使用效率,讓資料被更多地複用起來,提升資料複用率來降低資料重複生産和存儲的成本。
(四)資料安全 - 安全中心和資料保護傘
在資料安全方面,DataWorks提供了安全中心和資料保護傘這兩個功能子產品。安全中心主要用來處理表權限的申請、審批和審計。資料保護傘提供了金融級别的敏感資料識别保護能力,包括風險的識别和預警、資料風險的審計以及資料脫敏的功能。這些功能與其他功能子產品有非常密切的關聯,比如敏感資料保護在資料開發的查詢結果頁面和資料地圖的資料預覽頁面都可以設計應用上資料脫敏的能力,防止敏感資料的洩露。
(五)成本 – 全局資料資産盤點和資料資源優化
在企業資料量的規模或是資料生産任務數量達到一定的程度之後,對于成本的訴求就變得愈發強烈。是以,DataWorks推出了全局的資料資産盤點和資料資源優化的功能子產品,能夠支援使用者便捷地進行整個組織的資産盤點,檢視資料資産的總量,趨勢,以及分布情況,基于資料治理的思路,通過對計算引擎和平台全方位的中繼資料的智能分析,DataWorks會給出同步任務、計算和存儲三個次元的具體優化建議。
比如某個表設定了一個很長的生命周期但是并未使用,或者是某個資料的SQL寫的不太好,存在全表暴力掃描的情況,這些情況都會帶來額外的資源浪費。DataWorks會把這些情況分析出來、形成治理項,并給出相應的優化建議,輔助責任人進行相應的優化。
DataWorks資料治理背後的幕後英雄,也就是具有極緻彈性、極緻靈活和穩定、業界領先架構方案的MaxCompute引擎。MaxCompute在存儲和計算上的技術創新、演進和優化改進,是阿裡内部能夠達到每年10億規模的成本優化的主要原因。在公共雲上,阿裡巴巴内部業務打磨出來的技術紅利也對外進行了輸出,比如機關數量的資料計算和存儲成本是在逐年下降,單個SQL運作的資源消耗也是在逐漸降低,通過技術進步來輔助大家進行成本節約。
MaxCompute新近在資源使用模式上也推出了一系列創新,比如包年包月、按時段設定配額組以及按量付費和包年包月混用的模式,都是出于幫大家節約成本的考慮。
對于深度使用了MaxCompute的使用者,對MaxCompute的穩定性應該是印象非常深刻的。運維成本實際上是一個極大的成本,尤其離線處理任務是集中在夜間生産的,如果生産平台不穩定的話,夜間運維的工作是非常消耗人力的,這也是一個非常大的隐性成本。MaxCompute引擎的穩定性,對比開源自建的方案來說有非常大的優勢。
MaxCompute和DataWorks的組合提供了極為完整、豐富的産品能力,也是阿裡内部自己在真正使用的方案,經過了十多年的真實業務的檢驗。
四、 産品最新進展
這一部分會介紹DataWorks近半年來在産品功能上的最新進展。首先,DataWorks推出了全新改版的資料綜合治理,在新版本中,通過對資料生産,資料使用,和資料管理三個視角的抽象,能夠讓使用者更聚焦地關注和使用不同視角下所需要使用的産品功能。在這個新版本中,DataWorks提供了一系列新的産品能力,下圖是一個彙總的介紹。
中繼資料管理方面,DataWorks資料地圖中支援了對MaxCompute、E-MapReduce、MC-Hologres、ADB、RDS等雲上13種最常用資料存儲的中繼資料采集,并基于這個基礎建構出了異構資料血緣大圖。在資料安全方面,DataWorks提供了最新的資料洩露溯源功能和基于區塊鍊的資料流轉安全産品。在運維監控方面新增了移動運維的能力,即使用者可以在手機上靈活處理告警,能極大節省夜間運維的時間,同時還新提供了電話告警的能力。
DataWorks也會釋出穩定性治理,PDCA機制,治理閉環這一産品能力,同時,作為阿裡巴巴最佳實踐的健康分這一評估機制,開發團隊也在計劃對外輸出。在開放性方面,DataWorks新近提供了全套的開放API、開放資料和開放消息,支援使用者基于DataWorks的中繼資料資訊來進行自定義資料治理的工作。
在生态合作方面,DataWorks也特别注重與行業領域裡的一些非常優秀的合作夥伴來一起進行合作共建,輸出聯合解決方案。接下來重點介紹兩個方案:
第一個是DataWorks和Datablau合作提供的資料中台模型管理平台這樣一個聯合解決方案。第二個是DataWorks和禦數坊DGOffice提供的一體化資料治了解決方案,會以咨詢加産品的模式為客戶提供全站式的咨詢服務,面向資料全生命周期展開全方位的治理工作。DGOffice在很多行業裡面沉澱了非常豐富的資料治理行業經驗,資料治理是有非常強的行業屬性的,是以在這裡DGOffice為DataWorks提供了一個非常互補的組合能力。
五、總結
最後對資料治理内容做一個概要總結:
一、資料治理是資料管理的一個核心組成部分,是資料管理過程中的流程和工具的一個支撐。
二、企業在數字化轉型的不同階段,對資料治理的需求層次是有差別的,共有五個需求層次。
三、需要一個統一的開發和治理平台來減少重複工作,提高擴充性。
四、資料治理治理的對象是資料和産出資料的任務,DataWorks的核心理念是基于資料來進行資料治理工作,用工具和平台能力服務好使用者,來推動資料治理的落地。
五、平台和引擎的技術演進,尤其是MaxCompute這個底層引擎技術的演進,是資料治理落地的一個催化劑,底層引擎的優化工作,對于成本優化是有着關鍵性的影響。
六、DataWorks提供了極好的開放性,如果大家有自定義資料治理方面的需求,可以通過DataWorks 的開放API、開放資料和開放消息來擷取相應的資料進行自定義治理。
如果有咨詢方面的訴求,DataWorks和禦數坊的合作夥伴一起也能夠提供聯合的解決方案,可以提供從咨詢到落地的全方位服務。
資料品質介紹及實踐請參考:
https://developer.aliyun.com/learning/course/81/detail/1237DataWorks官網:
https://www.aliyun.com/product/bigdata/ide大資料&AI體驗館:
https://workbench.data.aliyun.com/experience.htm