标簽(空格分隔):資料倉庫
一、什麼是資料中台
資料中台的概念最是阿裡提出來的是為了實作資料的分層和水準解耦,提供資料服務能力。看了那麼多中台的概念,對中台也有些自己的了解。筆者認為中台主要是為了提供全域的資料服務。主要包括以下4部分:資料資産、資料治理、資料模型、資料服務。
打通資料模組化對全域資料進行沉澱形成資料資産,進而提供統一的資料服務功能。
二、如何建立資料中台
建設資料中台主要就是從資料模型、資料資産、資料治理、資料服務四部分出發。
首先需要做整體規劃,哪些資料需要納入到資料中台中,根據資料接入的情況,進行技術選型,評估叢集的配置,規劃至少3年的計算和存儲資源。
1、資料模型
資料模型,就是我們熟悉的資料倉庫中的模型,按照資料倉庫規範分層開發模型,實作資料的标準化,多采用次元模組化。還有一些挖掘模型,如果用的多了,也可以沉澱到資料中台。我們可以看出資料中台的模型具有通用性。
資料模組化一般分為2個步驟:
1. 确認事實表,分析業務的生命周期,明确業務的關鍵步驟。在進行名額定義的時候是否覆寫了本主題語中的全部名額,判斷哪些名額可以通過加減乘除計算得到等。
2. 确定次元,粒度是模型設計的關鍵,太細的粒度不利于上層資料分析彙總,太粗的粒度又不能滿足前段多元度個性化查詢需求。基于此,模型設計時候一般考慮分層,層級越往後,粒度越粗。備援次元也是需要考慮的,設計備援的次元可以避免統計中過多的關聯導緻複雜的計算邏輯,影響性能。
2、資料資産
在資料倉庫中我們已經建立了一些模型,但是隻有打通資料孤島後才可以稱為資産。需要規範名額庫,這些名額可以組合處理滿足外部人員個性化的名額需求。資産管理的基礎是做好中繼資料管理,中繼資料包括采集的接口資訊,模型資訊、名額定義,作業的血緣關系、資料存儲以及通路情況等。
3、資料治理
很多資料倉庫人員曾淪為“表哥”,天天忙着提取資料核對名額,時間長了,業務人員容易對你的資料不信任。資料治理主要是為了保障資料資産的完整性、準确性、一緻性、及時性。根據指定的規範開發模型、校驗模型、管理模型,為業務提供統一的、準确的名額保駕護航。
4、資料服務
資料中台最重要的就是要對外提供統一的服務能力。資料服務需要包含以下幾個能力:
• 資料接口标準化:提供統一的資料服務線上查詢視圖,讓開發者能夠快速、簡單的通路資料服務;
• 資料開發可視化:提供服務接口的可視化配置,開發者隻需要配置SQL就可以生産API,減低接口開發技術要求,便于維護和接口管理。對于業務分析人員可以讓他們輕松的進行算法分析,包括模型管理、可視化編排流程,算法模型釋出等功能。