天天看點

資料太多、太亂、太雜?你需要這樣一套資料治理流程

最近,明略科技與合肥工業大學的研究者在中文核心期刊《軟體學報》上發表了一篇關于資料治理的論文。它介紹了資料治理的概念,并對資料清洗、交換和內建等進行具體分析,進而提出了一種新型大資料治理架構「HAO 治理」模型。

論文位址:

http://www.jos.org.cn/1000-9825/5854.htm
資料太多、太亂、太雜?你需要這樣一套資料治理流程

資料治理真的很重要?

智能是基于資料的,而資料又是基于大量人工與工程努力的,是以人工智能還有相當一部分「人工」。資料收集需要人工确定資料源,或者手動寫爬蟲;資料處理則需要觀察資料,并手動寫整個清洗過程;資料标注則要根據具體業務,看看怎樣給資料打标簽才好。

這些過程都會耗費大量精力,有時候如果處理路徑不明确,甚至會導緻重複或備援的人力工作。是以事先确定一個具體的處理流程,明确資料該怎樣治理、算力該怎樣配置設定、模型又該如何部署,那麼整個開發過程能減少很多人力成本與工程負擔。

作為論文一作,明略科技集團首席科學家、明略科學院院長吳信東教授表示:「資料治理的本質是對一個機構(企業或政府部門)的資料從收集融合到分析管理和利用進行評估、指導和監督的過程,通過提供資料服務創造價值。資料治理可對資料戰略資産進行管理,通過從收集彙聚到處理應用的一套治理機制,提高資料品質,實作資料共享和價值最大化。」

既然那麼重要,就需要一套架構,就像 DL 模型最開始都是手動寫,但成為主流後就需要 TensforFlow 這樣的架構。吳信東等研究者詳細分析了資料治理中的各種子產品,并表示資料治理從來都不是一次性的程式,每個組織必須采取許多小的、可實作的、可衡量的步驟來實作長期目标。

是以,如果我們想降低資料治理的成本,最優地調配資料、模型及算力,那麼就需要一個成熟的架構。如下我們重點介紹「HAO 治理」模型的概念與過程,并從公安資料治理的角度看看該架構在實際應用中是什麼樣的。

什麼是 HAO 治理模型

前面介紹過資料治理是從資料收集到應用處理的管理機制,而架構則規定了有關資料的流程、原則或定義。比如說我們現在有一堆圖像資料集,那麼從圖像源、圖像采集到圖像儲存,我們先要确定資料的接入方式是什麼。

随後,因為這些圖像不止用于一個任務,是以需要确定标準化的形式,并做一些清洗與預處理;當然,标注還是根據任務來确定的。最後,這些圖像資料還應該統一地提供給不同的模型與任務,進而建構不同的服務,這一部分也是該統一管理的。

而明略科技設計的「HAO 治理」模型會從大資料開始,為「HI」(人類智能)、「AI」(人工智能)和「OI」(組織智能)三者協同的智能提供資料治理支援。下面舉個 HAO 的例子:

資料太多、太亂、太雜?你需要這樣一套資料治理流程

其中 HAO 智能的輸入不僅有各種傳感器,還有人類的主觀感受。後面的霧計算會分析所有資訊,并将機器運算/推理結果與人的分析相比對,形成機率化與規則化有機協調的優化判斷。人類、機器群組織三者結合,它們的資料與判斷互相協助,這樣才能最大化地利用資料的能力。

整個人機協同系統是非常複雜的,那麼這就要求有一套成熟的治理架構來規範資料與算力的配置設定。

這樣的系統應該需要滿足很多要求,例如全面的資料接入機制、标準化的資料處理流程、多元內建的資料組織模式和多種資料服務模式。其中資料服務模式可以向使用者提供查詢檢索和比對排序等基礎資料服務,也可以面向專業人員提供挖掘分析和專家模組化等智能資料服務。

如下展示了 HAO 智能的藍圖設計,它主要包括感覺、認知和行動三部分。

資料太多、太亂、太雜?你需要這樣一套資料治理流程

總體而言,整個過程會從大資料環境開始,并根據大資料、人類專家系統、人工智能群組織智能生成對應的知識圖譜,進而将大知識應用到人機協同中。此外,「HAO 治理」是一種實用系統,是以也就要求子產品化資料源和治理功能,它需要更快速與靈活地搭建新特性。

「HAO 治理」模型是什麼樣的

「HAO 治理」模型主要包含三部分,即資料接入子產品、資料治理子產品和資料服務子產品。其中資料接入需要采集、彙聚等操作,進而建構異質的大資料。其次資料治理子產品主要對資料進行一系列預處理過程,進而建構更加容易模組化的資料。最後的資料服務子產品則通過分析與加工,為外部提供各種新的能力。

1. 資料接入

一般而言,現實世界的資料主要分為結構化或非結構化,而這些圖像、文本等各種資料都應該進行統一的接入與管理。對于資料源之上的接入子產品,它主要完成不同類型的抽取彙聚任務配置,包括異構資料庫之間資料傳輸彙聚,不同類型的檔案資料和服務接口間互相傳輸。

資料太多、太亂、太雜?你需要這樣一套資料治理流程

2. 資料治理

接入後的資料都是比較雜亂的,它本身帶了一些備援或缺失的資訊。是以,資料治理子產品主要包括對彙聚庫中的資料進行資料清洗和資料規範,必要時進行主題劃分和資料關聯,然後進行資料內建。治理完成後的資料彙聚到資料共享中心中,并用于後續的模組化。

資料太多、太亂、太雜?你需要這樣一套資料治理流程

其中我們比較熟悉的就是資料清洗,它會對資料進行審查和校驗,進而過濾不合規資料、删除重複資料、糾正錯誤資料、完成格式轉換。

3. 資料服務

資料治理的目标是提供一個可直接使用且友善管理的資料庫,它最終還是要為各種模型提供學習基礎。而模型,最終也是要提供各種智能服務,是以這一部分也應該得到規範的管理。

基于資料治理子產品,資料服務子產品最開始會根據資料共享中心建構知識圖譜,它不僅向使用者提供模型管理、模型探索、資料探索等資料服務,同時還向專業人員提供挖掘分析、專家模組化等智能資料服務。

資料太多、太亂、太雜?你需要這樣一套資料治理流程

其中核心的知識圖譜是由節點和邊組成的巨型知識網絡,節點代表實體、邊代表實體之間的關系,每個實體 還通過鍵值對來描述實體的内在特性。領域專家們可以根據知識圖譜中的實體和關系等核心資料進行模組化,并進行高層次的資料挖掘分析和加工。

統一資料接入、治理和服務子產品,就能構造出「HAO 治理」模型,它規定了最一般的處理流程。吳信東教授說:「隻有通過多元感覺,利用資料治理技術,将高品質的資料連接配接起來,才能進行知識的智能抽取,基于知識圖譜、暴力挖掘對知識進行多元度分析推理,建構決策模型,完成從數字化、網絡化到智能化的躍遷。」

公安的資料治理應該是什麼樣的

上面介紹了「HAO 治理」模型的主要概念,那麼它應用到現實世界中又是怎麼樣的,它能進一步降低人工成本嗎?在論文的最後一部分,研究者以公安資料治理為例,介紹了整體流程與架構到底是什麼樣的。

先來看張圖,如下圖 13 描述的是公安資料治理架構,平台架構主要包括資料存儲、資料計算、資料管理、資料應用四部分。它将不同的資料按照應用分到了不同的主題或專題庫,例如常住人口專題庫或企業資訊專題庫等等。與此同時,不同的資料也能最終組成知識圖譜,相當于建構了一種龐大的背景知識。

資料太多、太亂、太雜?你需要這樣一套資料治理流程
看上去這張圖非常複雜,但其實也就分為儲存、計算、管理和應用四部分。

  • 資料存儲:基于分布式的大資料存儲平台;
  • 資料計算:這是資料治理的最主要部分,包括資料的探查、提取、清洗、轉換、內建等;
  • 資料管理:對內建後的資料統一維護與管理;
  • 資料應用:這是資料價值最直接的展現,我們可以通過自然語言處理等技術,對資料進行深度分析。

從上圖我們可以看到整個工作流大概從預處理到分析挖掘分為 7 個部分,其中不同的部分會調用不同的資料知識庫,最後的分析挖掘則是我們希望獲得的結果。

在整個流程中,我們除了對資料進行各種操作與處理外,還要建立新的知識表示方式。例如将資料按照一定主題進行關聯來構造一個模型,公安資料治理分别以人、物、時空、組織、虛拟辨別、 案件等作為主題來建立模型。

資料太多、太亂、太雜?你需要這樣一套資料治理流程

除此之外,知識圖譜按照目标資料可以分為實體、事件、關系三種類型,進而建立資料之間的關聯關系。如下在公安場景中,我們能以人為中心實體建構的一個簡單的知識圖譜。其中我們需要建立人與電話号碼所屬關系、人與護照所屬關系及人與人的關系等等。

資料太多、太亂、太雜?你需要這樣一套資料治理流程

以上就是公安資料治理的簡要結構了,吳信東教授說:「明略科技提出這樣的資料治理架構,希望通過資料線上、分析洞察、閉環智能「三步走」戰略,建構從感覺到認知再到行動的回報閉環,将人類、機器、組織的智能三位一體,為企業群組織提供具有分析決策能力的高階人工智能應用。」

本文為機器之心原創,轉載請聯系本公衆号獲得授權。