企業大資料技術發展至今,曆經了兩次蛻變。第一次蛻變從最初的“小作坊”解決大資料問題,到後來企業用各類大資料技術搭建起屬于自己的“大平台”,通過平台化的能力完成資料生産力的更新。
第二次蛻變讓大資料從“大平台”向“靈活制造”的開發範式演進。在2021阿裡雲峰會上,阿裡巴巴集團副總裁、阿裡雲智能計算平台事業部進階研究員賈揚清釋出基于DataWorks的一站式大資料開發治理的平台,就是這個蛻變最好的佐證。
值得一提的是, 誕生于2009年阿裡巴巴集團内部的DataWorks,不僅見證了阿裡巴巴十多年大資料幾次蛻變發展,更是阿裡巴巴資料中台建設的最佳實踐之一。如今 DataWorks平台可以支撐阿裡巴巴内部上百個業務團隊的資料業務建設,每天穩定排程上千萬資料處理任務。阿裡巴巴每天有超過5萬名員工在DataWorks上完成資料分析、資料開發和資料治理工作。
那麼,DataWorks如何讓大資料向 “靈活制造” 演進,背後具備什麼樣的核心能力?在全鍊路資料服務—大資料與AI分論壇,DataWorks産品負責人黃博遠透露了DataWorks核心的三個“ONE”能力。
簡單來講,DataWorks以一站式的理念,通過一條資料開發鍊路,一套資料标準架構,一套資料治理體系,與大資料計算引擎結合,讓企業擁有一站式的資料開發與治理能力。
1、一條資料開發鍊路
很多的企業發展到一定階段以後都會面臨這種情況:
1)資料來自于不同地域的資料中心,比如阿裡雲上有公共雲、專有雲,對于企業來講也有自己的私域,同時又要服務企業外部的客戶與合作夥伴,資料非常分散。
2)大資料的引擎百花齊放,選擇多樣。不管是阿裡自研的SaaS模式雲資料倉庫MaxCompute、互動式分析Hologres和分析型資料庫AnalyticDB,還是開源的EMR、CDH、Flink、Elasticsearch等等,種類極為豐富,我們很難說哪一款産品是最好的,對于企業來說這種技術選型是多樣的,按需的。
3)資料與AI及應用如何更好地結合?大資料加工處理完的資料還需要結合AI算法,以服務化的方式給到資料應用,如何實作BI與AI一體化,釋放資料價值。
針對以上痛點,DataWorks可以幫助企業實作資料內建、資料開發、資料治理和資料服務,将大資料全生命周期管理整合到一條完整鍊路中。
首先滿足企業在複雜網絡條件下,DataWorks實作近50種異構資料源的離線/實時的同步,讓企業更好地邁出大資料建設的“第一步”。其次,它的底層對接了MaxCompute、EMR、CDH、Hologres、AnalyticDB、實時計算Flink版等大資料引擎,讓多種計算引擎的資料開發治理工作都可以在同一個平台一站式的完成。最後,大資料平台加工好的資料集可以無縫對接到機器學習平台中進行AI訓練與線上預測服務,也可以通過資料服務以API方式給到BI、大屏等各類資料應用。
2、一套資料标準架構
對于企業而言,資料絕不是簡單地堆積在一起,阿裡巴巴通過資料中台建設,規範了集團統一的資料标準架構,将資料進行清晰的結構分層,每一層又有明确的範圍與邊界。在貼源層,企業将完成全域資料的彙聚,保留所有的原始資料。在整合層,企業通過資料标準、資料模組化等方式确立資料的規範體系。在彙總層,企業将基于業務需求對資料進行彙總加工,提煉公共的資料名額。在應用層,面向前台業務應用建構資料集市,為應用提供源源不斷的高品質資料服務。這個數字化轉型涉及到非常多的技術和業務的協同改造,是一個系統工程。DataWorks就是把這些共性的能力産品化,提升企業建設資料标準架構的效率。
3、一套資料治理體系
企業如何管理資料資産?如何保障資料品質?如何保障資料安全?如何有效地控制成本以及減少不必要浪費?這些問題都對資料治理提出了更高的要求。正常來講,各類資料治理工作通過人工的方式其實也能夠完成,但是阿裡巴巴現在每天處理的資料超過1.7EB,每天排程的任務數在千萬級,很難想象靠人工來完成所有的治理工作。DataWorks将阿裡巴巴十多年資料治理的實踐沉澱成産品化能力,完整覆寫模型設計、資料品質管理、中繼資料管理、安全管理等貫穿資料加工處理和使用的全鍊路所需的治理能力。一個平台,就具備一套完整的體系化的能力。
在分論壇現場,DataWorks全新釋出資料模組化産品,讓企業從業務視角進行數倉規劃、資料标準定義、次元模組化和資料名額設計,用規範化的“圖紙”指導大資料“建設”工作,提升企業資料中台建設的規範性和标準性,大大降低企業資料中台建設門檻和成本。同時DataWorks将持續加大與生态夥伴合作,推出具備不同行業屬性和不同模組化方法的資料模組化類産品,以支撐不同行業不同場景的數倉模型設計。DataWorks資料模組化産品将于2021年7月開啟公測,屆時歡迎大家在阿裡雲官網搜尋“DataWorks”開通體驗。
除了資料模組化外,DataWorks覆寫了資料同步、中繼資料、資料資産、資料品質、資料地圖、任務運維、資料安全、資料分析、資料服務等資料全生命周期的治理能力。
事實上,DataWorks已經應用到各行各業的數字化轉型中。在工業行業,DataWorks幫助三一重工打通86個核心業務系統,處理每月50PB的各類圖像、視訊、物聯網資料,建設業内場景最全的資料中台。在能源行業,DataWorks幫助企業建立10餘種資料中台營運規範,完成四大場景50+名額産出,規範資料治理流程,提升資料可用率。在鋼鐵行業,DataWorks讓資料在資料中台進行自由流動,保證資料準确、準時、一緻,讓企業綜合成本削減1億元。在網際網路行業,得物APP通過DataWorks OpenAPI建構全鍊路資料血緣,自主研發全鍊路解析能力,下線2萬張表與近千個計算任務,讓企業成本降低20%。
未來企業的數字化轉型将對資料的治理與分析提出更高的要求,DataWorks将幫助企業快速建構資料中台,通過全鍊路的資料治理提供高品質的資料底座,讓資料的“靈活制造”成為企業數字化的“靈活轉型”。