天天看點

CDGA|大資料時代資料模組化的重要性

作者:弘博創新

大資料時代産生的大量資料,通過資料模型的建設幫助我們解決了以下一些問題:

進行全面的業務梳理,改進業務流程

在業務模型建設的階段,能夠幫助我們的企業或者是管理機關對本機關的業務進行全面的梳理。通過業務模型的建設,我們應該能夠全面了解該機關的業務架構圖和整個業務的運作情況,能夠将業務按照特定的規律進行分門别類和程式化,同時,幫助我們進一步的改進業務的流程,提高業務效率,指導我們的業務部門的生産。

CDGA|大資料時代資料模組化的重要性

建立全方位的資料視角,消滅資訊孤島和資料差異

通過資料倉庫的模型建設,能夠為企業提供一個整體的資料視角,不再是各個部門隻是關注自己的資料,而且通過模型的建設,勾勒出了部門之間内在的聯系,幫助消滅各個部門之間的資訊孤島的問題,更為重要的是,通過資料模型的建設,能夠保證整個企業的資料的一緻性,各個部門之間資料的差異将會得到有效解決。

解決業務的變動和資料倉庫的靈活性

通過資料模型的建設,能夠很好的分離出底層技術的實作和上層業務的展現。當上層業務發生變化時,通過資料模型,底層的技術實作可以非常輕松的完成業務的變動,進而達到整個資料倉庫系統的靈活性。

幫助資料倉庫系統本身的建設

通過資料倉庫的模型建設,開發人員和業務人員能夠很容易的達成系統建設範圍的界定,以及長期目标的規劃,進而能夠使整個項目組明确目前的任務,加快整個系統建設的速度。

資料模組化,通俗地說,就是通過建立資料科學模型的手段解決現實問題的過程。

CDGA|大資料時代資料模組化的重要性

資料模組化也可以稱為資料科學項目的過程,并且這個過程是周期性循環的。具體可分為六個步驟:

1、制訂目标

制訂目标的前提是了解業務,明确要解決的商業現實問題是什麼?

2、資料了解與準備

基于要解決的現實問題,了解和準備資料,一般需要解決以下問題:

需要哪些資料名額(即特征提取)?

資料名額的含義是什麼?

資料的品質如何?

資料能否滿足需求?

資料還需要如何加工?

探索資料中的規律和模式,進而形成假設。

需要注意的是,資料準備工作可能需要嘗試多次。因為在複雜的大型資料中,較難發現資料中存在的模式,初步形成的假設可能會被很快推翻,這時一定要靜心鑽研,不斷試錯。

資料模組化後需要評估模型的效果,是以一般需要将資料分為訓練集和測試集。

3、建立模型

在準備好的資料基礎上,建立資料模型,這種模型可能是機器學習模型,也可能不需要機器學習等高深的算法。選擇什麼樣的模型,是根據要解決的問題(目标)确定的。

當然可以選擇兩個或以上的模型對比,并适當調整參數,使模型效果不斷優化。

CDGA|大資料時代資料模組化的重要性

4、模型評估

模型效果的評估有兩個方面:一是模型是否解決了需要解決的問題(是否還有沒有注意和考慮到的潛在問題需要解決);二是模型的精确性(誤差率或者殘差是否符合正态分布等)。

5、結果呈現

結果呈現主要關注以下三個方面: 模型解決了哪些問題? 解決效果如何? 如何解決問題?具體操作步驟是什麼?

6、模型部署

通過大量資料解決了一個或多個重要的現實問題,需要将方案落實下去,一般情況下需要通過線上技術環境部署落實,進而為後面不斷優化模型、更好地解決問題打下基礎。

交由工程人員部署技術環境,需要資料模組化團隊撰寫需求文檔,并確定工程人員了解需求文檔的内容,才能達到較好的模型部署效果。

從以上内容可以看出建立資料模型的重要性和基本步驟,但是目前能真正地為企業解決實際問題的資料專業人員比較匮乏。

為了便于國内廣大資料從業者學習相關認證,DAMA中國以國際資料管理協會(簡稱“DAMA國際”) DAMA資料管理知識體系為基礎,結合國内實際需求,對DAMA國際資料管理專業人員認證( CDMP )的考試語言、考試形式、考試内容、證書類型等進行了适當本地化重構。

CDGA|大資料時代資料模組化的重要性

重構後認證考試分為資料治理工程師( CDGA )和資料治理專家( CDGP ),DAMA中國承擔認證考試命題工作,并定期組織中文考試,對考試通過者由DAMA中國頒發認證證書。證書有效期為三年,獲得CDGA認證才能申請CDGP認證考試。

幫助資料管理從業人士獲得企業數字化轉型戰略下的必備職業能力,促進開展工作實踐應用及實際問題解決,形成企業所需的新數字經濟下的核心職業競争能力。

繼續閱讀