天天看點

最佳搭檔!Data Fabrics與知識圖譜之間的共生關系

全文共2220字,預計學習時長6分鐘
最佳搭檔!Data Fabrics與知識圖譜之間的共生關系

圖源:ontotext

Datafabric的概念正逐漸得到資料分析師團體的青睐,它和我們多年以來使用的知識圖譜(KnowledgeGraphs)有許多相似之處。這兩種技術都能根據特定的業務需求把相關的資料連結起來,這也就是為什麼世界上最頂尖的公司都在使用它們。

亞馬遜的知識圖譜保留了關于其龐大産品陣列的中繼資料,谷歌的知識圖譜能捕捉到網絡使用者興趣愛好的詳盡資料。那些相對不太出名的公司也都部署了這些機制來處理公司的一切事務,從全面的客戶評估到生産流程。

Datafabrics 與知識圖譜的運作有着獨特的共生關系。Datafabrics極大地簡化了從這些平台浩如煙海的原始資料中提取資料的過程;反過來,知識圖譜提供了一些基本功能,使Datafabrics能夠實作這一目标。

是以,Data fabrics相當重要,它被認為是協調和內建資料的最成熟的手段。在知識圖譜技術的支援下,Datafabrics可以為任何獨立的業務需求提供校準所有類型資料的最佳方式。

資料內建成熟度

盡管存在幾個互相沖突的Data fabric定義(這些定義大多來自其供應商的宣傳),但幾乎所有這些定義都明确提出了一種可以收集、內建、管理以及共享資料的銜接手段,無論這些資料是何種類型、格式、技術和位置。

Datafabrics被認為是最成熟的資料內建手段,因為它們可以把資料品質、資料沿襲、中繼資料管理以及半結構化、非結構化和結構化資料互動的管理細節系統化,同時提供對所有資料的單一通路點。它們比其它方法要好,其中就包括下列這幾種方法(按成熟度升序排列):

· Silos:它的特點是資料都被存儲在獨立的資料庫和應用程式中,有的業務項目要用到多個源的資訊,Silos需要為每一個這樣的業務項目編寫新的應用程式。

· 主資料管理(Master DataManagement)和資料倉庫(Data Warehouses):盡管這兩種方式都能提供真實資料的單一版本,但這種能力是以衆多龐雜的資料倉庫為前提,以主資料管理的跨組織受損為代價的。

另外,如果沒有進階的資料集市來解決特定的業務問題,它們相關的技術就并不适用非結構化資料和機器學習。

· 資料湖(Data Lakes): 不管結構怎麼變化,資料湖都能比對任何資料,但它本質上缺乏可持續的手段管理資料品質、中繼資料管理和可追溯性。

後端知識圖譜

由于最有效的Data fabrics協調了各種資料和方法的組合,是以它們也囊括了可以降低數字資産管理複雜度的後端知識圖譜。這些圖譜對于管理通路管理、資料來源和資料品質等内容非常重要,同時它們還能規範統一描述這些資産的術語。

Datafabrics附帶有數字資産知識圖譜,後者對企業跨業務線的每個資料庫和應用程式内容的了解能助Datafabrics一臂之力。這些附帶知識圖譜的存儲庫對這類資料的一切了如指掌——包括表、列和資料庫系統(dbs)中的資料類型、資料的模式、所有者、資料所應用的應用程式、運作資料的裝置等等。這些基礎資訊是Datafabrics協調和內建資料的基礎。

最佳搭檔!Data Fabrics與知識圖譜之間的共生關系

圖源:unsplash

前端知識圖譜

反過來,前端知識圖譜(如上文中介紹過的谷歌、亞馬遜、customer 360s和其它至關重要的應用)得益于Data fabrics的資料轉換能力。這種協調資料的方法最主要的好處在于它可以對ETL(Extract-Transform-Load提取-轉換-裝載)或者ELT(Extract-Load-Transform提取-裝載-轉換)進行單一的、易重複的處理。

完善一項業務功能需要把許多不同種類的資訊填入知識圖譜中——比如LinkedIn的圖譜,它将世界上大多數勞動力與他們過去和現在的雇主聯結起來,整體Data fabrics的規模對于知識圖譜的補充完善至關重要。

事實上,這一新興領域的發展,使得知識圖譜通過實體模組化的方法更易實作——同時能使其企業價值倍增。企業隻需定義驅動其業務的關鍵實體(醫療保健領域的患者、金融領域的客戶等),然後按照時間将這些實體的所有有關資訊形成簡單的事件對象。

這類資訊通常包括與患者或客戶的互動、他們目前的狀态以及其它相關因素。這樣所有不同的資料都以統一的形狀排列,這種統一的形狀排列支援對Datafabric中任意範圍的源進行專門分析。這種統一性同樣适用于機器學習特征工程。

知識圖譜和Datafabrics是內建、分析和建立來自資料驅動技術知情操作(informed action)的最佳組合。後端數字資産知識圖譜加強了Data fabrics的管理能力。

而這些綜合性的架構簡化了內建工作關鍵點的轉換,可以連續不斷地向前端業務需求知識圖譜提供形成具體資訊所需的資料種類。它們一起為企業提供了所有源的相關資訊,通過資料傳播優化決策制定和盈利能力。

最佳搭檔!Data Fabrics與知識圖譜之間的共生關系

一起分享AI學習與發展的幹貨

歡迎關注全平台AI垂類自媒體 “讀芯術”

最佳搭檔!Data Fabrics與知識圖譜之間的共生關系

(添加小編微信:dxsxbb,加入讀者圈,一起讨論最新鮮的人工智能科技哦~)

繼續閱讀