本文作者:笑天
袋鼠雲資料解決方案專家。擁有10餘年IT行業開發和管理等企業服務經驗,精通大型項目的開發和管理,曾就職于英特爾、索尼等世界500強企業,參與過英特爾,索尼,三星,華為等公司的大型項目的開發和咨詢工作。近幾年主攻大資料方向,包括資料中台建設、大資料治理、工業領域的資料應用等項目開發和實施。
正文:正文
大量的資訊成倍增加,但有用的資訊卻非常有限。
信号是真相,噪聲卻使我們離真相越來越遠。
——《信号與噪聲:大資料時代預測的科學與藝術》
[美]納特·西爾弗
一般情況下,企業都有多套的業務系統,一些大型企業甚至會有上百套的業務系統。這些業務在不同時期由不同的團隊開發完成。是以,這些業務系統都參考着不同的标準生産各自資料。由于濫用縮寫詞,慣用語,資料輸入錯誤,重複記錄,丢失值,拼寫變化,不同的計量機關,大量應用系統産生的大量資料是髒資料。這些髒資料是沒有意義的,根本就不可能為以後的資料挖掘決策分析提供任何支援。這就是資料品質問題的由來。
一般來說資料品質問題有四個因素造成:
從上述的四因素來說,管理因素和流程因素屬于組織管理範疇,資訊因素和技術因素屬于技術範疇。是以,要改進資料品質問題,要從組織管理和技術兩方面入手,才能從根本上,最佳地解決資料品質問題。
從方法論的角度,從組織管理上去改進品質,我們能做的是:
- 确立組織資料品質改進目标
- 評估組織流程
- 制定組織流程改善計劃
- 實施改進
- 評估改善效果
從技術上去改進資料品質,我們能做的是:
- 資料分析
- 資料評估
- 資料清洗
- 資料監控
- 錯誤預警
當我們談到資料品質改進的時候,我們必須要有一個資料品質評價标準,有了評價标準,我們才能知道如何評價資料的品質,才能把資料品質量化,并知道改進的方向和改進的效果。
目前業内認可的資料品質的六大标準是:
使用者可以把每個标準作為六邊形的頂點,把你的資料該标準下的品質作為0-100分的點,在圖的中心是0,在六邊形的頂點是100分,把資料品質點連起來,圍城的面積S就是使用者資料品質的情況。
通常在業務系統存在兩大類型資料:主資料和行為資料。主資料是描述事物主體的資料比如人,商品等,行為資料圍繞主資料描述的事物發生的行為資料比如交易訂單資料,日志資料等。是以,資料治理的改進的核心在于主資料品質改進,隻有改進了主資料品質,才能有可能把整體業務資料品質提升上去。
主資料品質治理的目标是把各個業務系統低品質的基礎資料,經過品質治理,形成統一規範的主資料,然後回報給業務系統和其他資料應用系統使用。
- 讓資料規範起來(得到所有相關人員的認可——中繼資料)
- 得到一份标準的資料(主資料)
- 建立一套體系來維護資料(主資料管理體系——資料治理)
當然,解決這個問題不僅僅隻有主資料一個方法,也可以在建設企業資訊系統的時候就從全局考慮,借助業務中台建設全局共享的業務服務中心,在業務服務中心的設計中確定基礎資料的統一。但目前的現實情況是,大多數企業經過多年的資訊化建設,已經積累了大量的煙囪式資訊系統,按照業務中台的思路,徹底推倒重建的成本巨大。是以主資料管理也是解決企業目前基礎資料不統一的可行方案。
對主資料的品質進行改進,需要從以下幾個方面入手:
資料品質改進流程圖
1. 了解資料現狀
目前有多少資料?資料模型是什麼樣子?涉及到哪些業務部門和角色?有什麼樣的維護流程和體系?資料在哪個或者哪些系統中錄入?資料如何流轉?資料品質如何?共享品質如何?
...
可通過以下兩種方式對目前資料現狀進行調研了解:
管理流程調研:管理流程調研按照人員,組織,客商,物料,産品,資産,項目以及合同等分成多個子項目。根據企業需要,選擇一些做調研。
基礎資料調研:主要是調研的是目前的資料在哪裡?哪個部門管?怎麼管?資料量有多大?資料格式是什麼?資料品質如何?
2. 設計資料模型
資料定義是什麼?資料到底有幾個模型?每個模型中有幾個字段?每個字段的含義是什麼?這裡主要讨論基礎的資料模組化,即确定主資料的屬性數量,名稱,屬性資料類型及長度等資訊。
主資料定義:定義需要明确和清晰。定義關系到資料範圍和資料量,關系到與其他主資料的關系。比如人員主資料是指所有與**公司簽署了正式勞動合同的人員。人員主資料是從企業管理視角出發的人員實體的數字化描述。
主資料中表的顆粒度:是用一張表還是多張表描述實體,這決定主資料中表與表之間存在1:1,1:N,N:M的各種關系。
主資料中字段屬性的顆粒度:根據實際的業務需求,定義字段屬性的顆粒度,顆粒度細,則資料量大。反之,則少。
遵循的原則:權威原則、全局性原則、共享性原則、擴充性原則。
3. 制作主資料管理方案
哪個部門,哪個崗位,在什麼時候,依據什麼進行主資料維護?
- 建立資料管理的虛拟組織,找到對資料負責的人。每個主資料都要有一個或者多個業務部門對資料負責,不是資訊中心。資訊中心僅對資料本身負責。
- 定義資料管理組織的管理職責。針對每個資料的每個字段,都應當回答,誰,在什麼場景,依據什麼,是否多人和有流程對内容進行管理和維護。
4. 資料清洗方案
目前存在的資料如何變成标準主資料的過程。
- 責任部門負責資料清洗和對資料品質負責,其他部門進行協助
- 根據資料品質情況決定組織模式,必要時需要“運動會”模式
- 提前就資料要求,填報規範做充分教育訓練
- 采用大資料平台做清洗的技術手段,可以有無限擴張的計算和存儲能力,很好的解決清洗資料中的計算資源消耗問題
5. 主資料管理技術方案
資料流向方案
資料的入口在哪裡,主資料系統中的資料分發給哪些系統
系統支援方案
資料在哪個系統中錄入
系統內建方案
主資料服務規範,第三個系統改造内容
随着網際網路時代的來臨,企業面對的資料已經遠遠不是簡單的業務資料,而是來自網絡和各種裝置的大量結構化和非結構化資料即大資料(Big Data)。通常來說大資料品質往往比業務系統産生的主資料的品質還要差,當然也需要治理。
大資料的品質改進主要是通過資料中台的資料清洗,ID Mapping等技術來解決。
資料的品質治理有七大原則:
袋鼠雲作為一家企業資料整體解決方案提供商,有一套完整的企業資料解決方案,尤其在資料治理方面,不僅提供資料品質治理的咨詢服務,也提供相應的資料品質治理的産品,數棧。
關于數棧,我們下期再講。