天天看點

【資料架構】資料網格架構模式

企業資料網格正在徹底改變企業管理資料的方式。什麼是基礎資料網格模式?

資料網格模式

企業資料網格正在成為一種獨特且引人注目的方式來管理企業内的資料。它将“産品思維”引入企業資料管理,同時在企業中實作更高水準的靈活性和資料治理。它創造了一種“自助服務”能力,具有近乎實時的資料同步,進而為實時數字企業奠定了基礎。

但是,唉,沒有單一的産品可以為您帶來資料網格。相反,企業的資料網格由許多常用元件組成(請參閱下一節資料網格架構回顧)。

但成功的關鍵是了解這些元件如何互相作用。在本文中,我将使用架構模式來描述這些互動。

資料網格架構回顧

企業資料網格由許多元件組成(更多詳細資訊可在此處、此處和此處獲得)。資料産品是資料網格中的主要建構塊,包含使用企業的資料網格在整個組織中同步的營運、分析和/或參與資料。API 用于通路資料産品中的資料。為了支援聯合治理,每個資料産品都包含一個記錄資料更改的審計日志和一個它管理的資料目錄。

一個企業的資料網格有很多資料産品。資料産品訂閱彼此的資料,這樣當一個資料産品更改其資料時,此更改會使用更改資料捕獲和事件流主幹傳達給其他資料産品。

最後,企業資料目錄(所有資料産品目錄和資料更改的同步聚合)用于使任何使用者或開發人員輕松查找、使用和管理整個企業的任何資料,同時也為了解提供了基礎整個企業的資料沿襲。

【資料架構】資料網格架構模式
  • Figure 1, Enterprise Data Mesh Architecture

我們将在本文中描述以下架構模式:

  • 變更資料捕獲 (CDC)
  • 事件流主幹(Event Streaming Backbone)
  • 資料産品目錄 (Data Product Catalog )
  • 企業資料産品目錄 (Enterprise Data Product Catalog )
  • 不可變的變更/審計日志 (Immutable Change / Audit Log )

資料網格模式:變更資料捕獲 

如今,很難在服務和應用程式邊界之間安全、可靠和一緻地傳遞資料。有兩種方法可以應對這一挑戰。首先,可以使用“兩階段送出”(2PC) 等協定跨多個資料庫同步更新資料,但這種方法通常複雜且成本高,并且通常保留用于保持多個資料源同步絕對關鍵的情況.

第二種方法是立即更新主資料庫,同時在将來更新輔助資料庫(但不在事務範圍内)。當更新主資料庫和輔助資料庫之間的時間跨度超過預期時,就會出現問題。

變更資料捕獲 (CDC) 是企業資料網格用來應對這一挑戰的基礎元件。CDC 通過在資料庫的事務日志中捕獲和釋出條目來工作,但最重要的是,它在原始事務之外不顯眼地執行此操作。這意味着 CDC 透明地捕獲操作(或分析)資料的變化,而不會影響原始應用程式或事務流。

(注意:這裡有更多詳細資訊供那些尋找有關 CDC 如何在企業中工作的詳細資訊的人使用)

【資料架構】資料網格架構模式
  • Figure 2, Data Mesh Pattern: Change Data Capture

但是 CDC 對捕獲的“事件”做了什麼。在 Enterprise Data Mesh 中,它将事件釋出到 Event Streaming Backbone(下一個模式),以便在整個企業中分發。

資料網格模式:事件流主幹

Event Streaming Backbone 在企業資料網格中分發事件。事件通常來自應用程式、API,在我們的例子中,也來自 CDC。然而,特别重要的是,任何已釋出的事件都可以被任何其他訂閱實體安全、可靠且近乎實時地使用。

【資料架構】資料網格架構模式
  • Figure 3, Data Mesh Pattern: Event Streaming Backbone

Event Streaming Backbone 中有幾個核心托管實體:

由 JSON 模式定義的事件分布在企業資料網格中。

  • 主題用于在整個企業中排隊和分發事件;企業資料網格通過允許許多實體釋出和使用事件來使用類似于隊列的衆所周知的主題。
  • 生産者将事件釋出到主題;企業資料網格中的生産者可能是 API、應用程式或 CDC。
  • 消費者消費來自主題的事件。企業資料網格中的消費者可以是訂閱主題并在事件可用于處理時收到通知的任何實體或應用程式。
  • 事件流處理器可以按事件處理事件,也可以按時間視窗聚合事件,進而在企業資料網格中實作非常複雜和強大的分析技術。
  • 經紀人管理上述元件,以確定整個企業資料網格中安全可靠的事件通信。

資料網格模式:資料産品目錄

他們說,資料是新的黃金和采礦,它将帶來巨大的洞察力和财富。但在當今的大多數企業中,資料散布在組織中的許多組中。銷售擁有客戶資料,分銷擁有供應鍊,财務擁有交易和賬戶。

不幸的是,這使得查找資料變得非常困難,而且一旦找到,就更難以将它們整合在一起以做出全面的業務決策。結果是:決策緩慢、代價高昂且不知情。

資料産品目錄 (DPC) 包含有關資料産品的資料(“中繼資料”)的資訊。DPC 提供的資訊使任何授權人員或應用程式都可以輕松地在企業資料網格中查找、檢視和使用資料産品。DPC 提供了幾個好處:

  • 通過啟用本地所有權和問責制,易于管理。
  • 通過允許本地化和更快的決策制定,易于更改和發展。
  • 易于查找、檢視和使用資料,使任何(授權)實體都可以輕松查找、檢視和使用資料(即“自助服務”)。
【資料架構】資料網格架構模式
  • Figure 4, Data Mesh Pattern: Data Product Catalog

資料網格模式:企業資料産品目錄

企業資料産品目錄 (EDPC) 是一個從所有本地資料産品目錄 (DPC) 聚合中繼資料的存儲庫。企業資料目錄用于存儲有關在企業資料網格中維護的所有資料的資訊和統計資料(中繼資料),進而可以輕松查找、檢視、使用和管理資料:

  • 資料科學家使用 EDPC 來查找企業中可用于訓練模型的資料位置。
  • 業務使用者使用 EDPC 來查找業務決策所需的資訊。
  • 開發人員使用 EDPC 來了解其應用程式所需的資料結構。
  • Governance Professionals 使用 EDPC 來了解和監控整個企業的資料,進而在企業資料網格内實作聯合計算治理。
【資料架構】資料網格架構模式

Figure 5, Data Mesh Pattern: Enterprise Data Product Catalog

資料網格模式:不可變變更/審計日志

了解資料的沿襲——定義為資料經曆的變化的彙總清單——對于治理和監管目的至關重要。為什麼這很重要?考慮今天的一個常見情況:人工智能/機器學習的出現現在是企業必備的能力。資料科學家使用複雜的模型來支援和做出關鍵的業務決策。

然而,在許多企業中,尤其是醫療保健和金融企業,這些模型的實際可行性取決于滿足監管機構對可重複性和可追溯性要求的能力(更多資訊可在此處和此處獲得)。不幸的是,大多數企業沒有能力以審計人員或監管機構要求的方式跟蹤資料沿襲。

企業資料網格的不可變變更/審計日志通過在企業資料網格中保留曆史資料更改以供未來審計和治理之用,進而滿足了這一需求。本地資料 産品更改/稽核日志會在資料發生任何資料更改時自動更新。然後将這些日志傳播到企業資料産品目錄 (EDPC),以便整合企業中資料更改的曆史記錄。

換句話說,EDPC 包含企業資料網格中所有元素的資料沿襲。EDPC 使用此資料提供中繼資料的可搜尋索引——其中明确包括對每個資料産品的不可變更改/審計日志的引用——允許輕松找到和确認資料沿襲。

  • Figure 6, Data Mesh Pattern: Immutable Change/Audit Log

結論性想法