天天看點

資料中台專欄(三):資料品質分析及提升

資料中台專欄(三):資料品質分析及提升

本文作者:笑天

袋鼠雲資料解決方案專家。擁有10餘年IT行業開發和管理等企業服務經驗,精通大型項目的開發和管理,曾就職于英特爾、索尼等世界500強企業,參與過英特爾,索尼,三星,華為等公司的大型項目的開發和咨詢工作。近幾年主攻大資料方向,包括資料中台建設、大資料治理、工業領域的資料應用等項目開發和實施。

正文:正文

大量的資訊成倍增加,但有用的資訊卻非常有限。

信号是真相,噪聲卻使我們離真相越來越遠。

——《信号與噪聲:大資料時代預測的科學與藝術》

[美]納特·西爾弗

一般情況下,企業都有多套的業務系統,一些大型企業甚至會有上百套的業務系統。這些業務在不同時期由不同的團隊開發完成。是以,這些業務系統都參考着不同的标準生産各自資料。由于濫用縮寫詞,慣用語,資料輸入錯誤,重複記錄,丢失值,拼寫變化,不同的計量機關,大量應用系統産生的大量資料是髒資料。這些髒資料是沒有意義的,根本就不可能為以後的資料挖掘決策分析提供任何支援。這就是資料品質問題的由來。

一般來說資料品質問題有四個因素造成:

資料中台專欄(三):資料品質分析及提升

從上述的四因素來說,管理因素和流程因素屬于組織管理範疇,資訊因素和技術因素屬于技術範疇。是以,要改進資料品質問題,要從組織管理和技術兩方面入手,才能從根本上,最佳地解決資料品質問題。

從方法論的角度,從組織管理上去改進品質,我們能做的是:

  • 确立組織資料品質改進目标
  • 評估組織流程
  • 制定組織流程改善計劃
  • 實施改進
  • 評估改善效果

從技術上去改進資料品質,我們能做的是:

  • 資料分析
  • 資料評估
  • 資料清洗
  • 資料監控
  • 錯誤預警

當我們談到資料品質改進的時候,我們必須要有一個資料品質評價标準,有了評價标準,我們才能知道如何評價資料的品質,才能把資料品質量化,并知道改進的方向和改進的效果。

目前業内認可的資料品質的六大标準是:

資料中台專欄(三):資料品質分析及提升

使用者可以把每個标準作為六邊形的頂點,把你的資料該标準下的品質作為0-100分的點,在圖的中心是0,在六邊形的頂點是100分,把資料品質點連起來,圍城的面積S就是使用者資料品質的情況。

資料中台專欄(三):資料品質分析及提升

通常在業務系統存在兩大類型資料:主資料和行為資料。主資料是描述事物主體的資料比如人,商品等,行為資料圍繞主資料描述的事物發生的行為資料比如交易訂單資料,日志資料等。是以,資料治理的改進的核心在于主資料品質改進,隻有改進了主資料品質,才能有可能把整體業務資料品質提升上去。

主資料品質治理的目标是把各個業務系統低品質的基礎資料,經過品質治理,形成統一規範的主資料,然後回報給業務系統和其他資料應用系統使用。

資料中台專欄(三):資料品質分析及提升
  • 讓資料規範起來(得到所有相關人員的認可——中繼資料)
  • 得到一份标準的資料(主資料)
  • 建立一套體系來維護資料(主資料管理體系——資料治理)

當然,解決這個問題不僅僅隻有主資料一個方法,也可以在建設企業資訊系統的時候就從全局考慮,借助業務中台建設全局共享的業務服務中心,在業務服務中心的設計中確定基礎資料的統一。但目前的現實情況是,大多數企業經過多年的資訊化建設,已經積累了大量的煙囪式資訊系統,按照業務中台的思路,徹底推倒重建的成本巨大。是以主資料管理也是解決企業目前基礎資料不統一的可行方案。

對主資料的品質進行改進,需要從以下幾個方面入手:

資料中台專欄(三):資料品質分析及提升

資料品質改進流程圖

1. 了解資料現狀

目前有多少資料?資料模型是什麼樣子?涉及到哪些業務部門和角色?有什麼樣的維護流程和體系?資料在哪個或者哪些系統中錄入?資料如何流轉?資料品質如何?共享品質如何?

...

可通過以下兩種方式對目前資料現狀進行調研了解:

管理流程調研:管理流程調研按照人員,組織,客商,物料,産品,資産,項目以及合同等分成多個子項目。根據企業需要,選擇一些做調研。

基礎資料調研:主要是調研的是目前的資料在哪裡?哪個部門管?怎麼管?資料量有多大?資料格式是什麼?資料品質如何?

2. 設計資料模型

資料定義是什麼?資料到底有幾個模型?每個模型中有幾個字段?每個字段的含義是什麼?這裡主要讨論基礎的資料模組化,即确定主資料的屬性數量,名稱,屬性資料類型及長度等資訊。

主資料定義:定義需要明确和清晰。定義關系到資料範圍和資料量,關系到與其他主資料的關系。比如人員主資料是指所有與**公司簽署了正式勞動合同的人員。人員主資料是從企業管理視角出發的人員實體的數字化描述。

主資料中表的顆粒度:是用一張表還是多張表描述實體,這決定主資料中表與表之間存在1:1,1:N,N:M的各種關系。

主資料中字段屬性的顆粒度:根據實際的業務需求,定義字段屬性的顆粒度,顆粒度細,則資料量大。反之,則少。

遵循的原則:權威原則、全局性原則、共享性原則、擴充性原則。

資料中台專欄(三):資料品質分析及提升

3. 制作主資料管理方案

哪個部門,哪個崗位,在什麼時候,依據什麼進行主資料維護?

  • 建立資料管理的虛拟組織,找到對資料負責的人。每個主資料都要有一個或者多個業務部門對資料負責,不是資訊中心。資訊中心僅對資料本身負責。
  • 定義資料管理組織的管理職責。針對每個資料的每個字段,都應當回答,誰,在什麼場景,依據什麼,是否多人和有流程對内容進行管理和維護。

4. 資料清洗方案

目前存在的資料如何變成标準主資料的過程。

  • 責任部門負責資料清洗和對資料品質負責,其他部門進行協助
  • 根據資料品質情況決定組織模式,必要時需要“運動會”模式
  • 提前就資料要求,填報規範做充分教育訓練
  • 采用大資料平台做清洗的技術手段,可以有無限擴張的計算和存儲能力,很好的解決清洗資料中的計算資源消耗問題
資料中台專欄(三):資料品質分析及提升

5. 主資料管理技術方案

資料流向方案

資料的入口在哪裡,主資料系統中的資料分發給哪些系統

系統支援方案

資料在哪個系統中錄入

系統內建方案

主資料服務規範,第三個系統改造内容

随着網際網路時代的來臨,企業面對的資料已經遠遠不是簡單的業務資料,而是來自網絡和各種裝置的大量結構化和非結構化資料即大資料(Big Data)。通常來說大資料品質往往比業務系統産生的主資料的品質還要差,當然也需要治理。

大資料的品質改進主要是通過資料中台的資料清洗,ID Mapping等技術來解決。

資料的品質治理有七大原則:

資料中台專欄(三):資料品質分析及提升

袋鼠雲作為一家企業資料整體解決方案提供商,有一套完整的企業資料解決方案,尤其在資料治理方面,不僅提供資料品質治理的咨詢服務,也提供相應的資料品質治理的産品,數棧。

資料中台專欄(三):資料品質分析及提升

關于數棧,我們下期再講。

繼續閱讀