天天看點

數字化轉型中資料底座“湖倉一體化”

一 資料是數字化轉型的基礎和引擎

數字化轉型中資料底座“湖倉一體化”

資料湖是支撐企業數字化轉型的資料底座,是提供資料驅動、精準決策的全方位技術支撐。

數字化轉型中資料底座“湖倉一體化”

資料價值将經曆資料統一化、資料資産化、資料業務化、資料生态化四個階段。

數字化轉型中資料底座“湖倉一體化”

二 資料底座的新架構

1.資料倉庫

通常是業務發展到一定規模後,業務分析師、CIO、決策者們,希望從大量的應用系統、業務資料中進行關聯分析,最終得到“幹貨”出來。比如為啥利潤會下滑?為啥庫存周轉變慢了?向資料要答案,生成報告、圖表出來給決策層彙報,輔助經營決策。可是,資料庫“腦容量不足”,擅長事務性工作,不擅長分析型的工作,于是就産生了資料倉庫。資料倉庫相當于一個內建化資料管理的平台,從多個資料源抽取有價值的資料,在倉庫内轉換和流動,并提供給BI等分析工具來輸出幹貨。

數字化轉型中資料底座“湖倉一體化”

2.資料湖

資料湖(Data Lake)是一個存儲企業的各種各樣原始資料的大型倉庫,其中的資料可供存取、處理、分析及傳輸。資料湖的本質是由“➊資料存儲架構+➋資料處理工具”組成的解決方案。

數字化轉型中資料底座“湖倉一體化”

一類工具,解決的問題是如何把資料“搬到”湖裡,包括定義資料源、制定資料通路政策和安全政策,并移動資料、編制資料目錄等等。

一類工具,就是要從湖裡的海量資料中“淘金”。資料并不是存進資料湖裡就萬事大吉,要對資料進行分析、挖掘、利用,比如要對湖裡的資料進行查詢,同時要把資料提供給機器學習、資料科學類的業務,便于“點石成金”

資料倉庫可以是獨立的标準化産品,資料湖則是一種架構,通常是圍繞對象存儲為“湖底座”的大資料管理方案組合。

數字化轉型中資料底座“湖倉一體化”

3.湖倉一體

湖倉一體架構最重要的一點,是實作“湖裡”和“倉裡”的資料/中繼資料能夠無縫打通,并且“自由”流動。湖裡的“新鮮”資料可以流到倉裡,甚至可以直接被數倉使用,而倉裡的“不新鮮”資料,也可以流到湖裡,低成本長久儲存,供未來的資料挖掘使用。

數字化轉型中資料底座“湖倉一體化”

4.資料中台

資料中台:資料中台是聚合跨域資料,對資料進行清洗、轉換、整合,實作資料标準化、內建化、标簽化,沉澱共性資料服務能力,以快速響應業務需求,支撐資料融通共享、分析挖掘和資料營運,創造業務價值。

中台戰略核心是資料服務的共享。資料中台是圍繞向上層應用提供資料服務建構的,中台戰略讓資料在資料平台和業務系統之間形成了一個良性的閉環,也就是實作應用與資料之間解藕,并實作緊密互動。資料中台建立後,會形成資料API,為企業和客戶提供高效各種資料服務。資料中台整體技術架構上采用雲計算架構模式,将資料資源、計算資源、存儲資源充分雲化,并通過多租戶技術進行資源打包整合,并進行開放,為使用者提供“一站式”資料服務。

資料中台不是一套軟體,也不是一個資訊系統,而是一系列資料元件的集合,企業基于自身的資訊化建設基礎、資料基礎以及業務特點對資料中台的能力進行定義,基于能力定義利用資料元件搭建自己的資料中台。

三 資料底座設計

1.資料湖功能架構

數字化轉型中資料底座“湖倉一體化”

2.資料流轉架構

由統一的租戶(企業集團層面)進行資料的歸集,并加工成标準統一的資料集或名額。基于租戶權限自動将資料分發給相應的租戶。各租戶無需重複進行資料內建和加工,一般是1+N模式的企業組織架構,如一個集團,N個不同地域但相同業務屬性的子公司。

數字化轉型中資料底座“湖倉一體化”

1+N資料湖體系:1個資料湖,N個租戶、N個資料倉庫、N個資料集市、N個資料創新實驗室。

3.資料入湖流程

數字化轉型中資料底座“湖倉一體化”

四 資料底座的資料治理

聚焦“戰略指導、組織機制、專項能力、技術支撐”四層建設,為企業數字化轉型提供穩定資料保障基礎。

數字化轉型中資料底座“湖倉一體化”

1.統一的資料管控平台

資料管控管控服務,內建資料标準、資料品質、資料安全等全方位資料治理能力。

主要能力:

資料标準:資料标準編目、錄入、釋出、貫标、落标全方位能力提供。

落标檢查:通過貫标流程,執行标準落标檢查,賦能資料标準落地,實作貫标成果。

資料品質:以SQL形式靈活建構資料品質檢查規則,高效檢測資料品質缺陷。

品質模闆:參數化的模闆形式,複用品質規則,解決品質規則建構低效、繁雜的痛點。

品質報告:可視化展示資料品質檢查結果,多元度展示品質問題。

資料權限:以最細粒度管控至行列級權限的全方位資料權限管控,保證資料使用安全。

資料保護:結合智能化手段和咨詢方法論,妥善處理敏感資料,保護資料隐私。

2.資料資産目錄

統一的資料資産目錄,實作全局資料資産統管,對外提供資料資産服務。

主要能力:

中繼資料:自動化采集多元異構資料庫資源清單詳情,提供全局中繼資料服務。

資料血緣:自動化采集資料血緣關系,提效資料溯源和故障定位。

資料特征:分析資料資産全方位資訊視圖,賦能使用者高效資料探查。

資料推薦:通過協同過濾算法,精準推薦使用者需要的資料資産。

相似性分析:基于資料相似性來實作資料資産的智能比對,賦能自動标簽、自動落标

資料地圖:資料地圖門戶,支援可視化、層級化展現全局資料資産,根據資料探查需求進行下鑽、分析。

資料搜尋:提供高性能全局資料資産搜尋,幫助使用者快速擷取目标資料資産。

資産關聯:提供标簽、描述、關聯資料标準和其他資料資産的方式豐富資産視圖。

3.資料安全

《中共中央國務院關于建構更加完善的要素市場化配置體制機制的意見》提出:加強資料資源整合和安全保護。探索建立統一規範的資料管理制度,提高資料品質和規範性,豐富資料産品。研究根據資料性質完善産權性質。制定資料隐私保護制度和安全審查制度。推動完善适用于大資料環境下的資料分類分級安全保護制度,加強對政務資料、企業商業秘密和個人資料的保護。

數字化轉型中資料底座“湖倉一體化”

隐私計算使資料在加密狀态下可以計算,安全性和準确性由數學理論保證,無需提供可信第三方、平台硬體以及作業系統。

數字化轉型中資料底座“湖倉一體化”

五、資料服務能力

1.能力構成

(1)資料API

通過API為各個應用提供資料接口,打通應用之間的資料流轉,建構新型應用。

(2) 資料标簽平台

為業務部門直接提供有業務語義的高品質資料生産資料。

(3) 資料交換共享平台

為各個不同的部分提供有業務語義的資料搜尋與共享能力,打通資料孤島,建構業務協同效應。

(4) 資料報表平台

提供可視化報表的開發與分享能力,從資料統計中發現資料價值。

(5)資料科學平台

提供資料模組化、模型運作、模型服務釋出等能力,幫助資料分析師建構端到端的機器學習開發與運作能力。

資料API服務開發、釋出、調用管理與監控統計的資料服務平台;将多樣的資料轉換為業務應用直接使用的資料資産,打通資料與業務,完善企業資料中台建設;資料API服務開發、釋出、管控。

數字化轉型中資料底座“湖倉一體化”

标簽建設開發、生命周期管理、标簽應用為一體,支撐企業差異化的标簽畫像服務和營運需求;通過标簽開發、管理、更新、監控、使用者畫像賦能企業更好的洞察客戶需求、防控業務風險、提高服務品質和效率。

數字化轉型中資料底座“湖倉一體化”

資料交換共享平台支撐企業資料共享交換的基礎性互聯互通平台。促進資料交易,實作企業内外部跨層級、跨系統、跨部門的資料共享和業務協同提供基礎支撐。包括:資料資産釋出管理、資料資産統計分析、資料資産編目管理、資料資産共享管理、資料資産資料安全管理、資料資産流程與稽核管理、資料資産檢索管理。