天天看點

袋鼠雲資料中台專欄V2.0 | 資料中台之資料內建關于袋鼠雲資料中台專欄V2.0資料中台之資料內建12 準備工作3 業務架構4 內建流程4.1 關系型資料庫離線同步流程4.2 API類資料同步4.3 實時類資料同步5 袋鼠雲數棧 DTinsight - 資料同步子產品更多精彩關于袋鼠雲

袋鼠雲資料中台專欄V2.0 | 資料中台之資料內建關于袋鼠雲資料中台專欄V2.0資料中台之資料內建12 準備工作3 業務架構4 內建流程4.1 關系型資料庫離線同步流程4.2 API類資料同步4.3 實時類資料同步5 袋鼠雲數棧 DTinsight - 資料同步子產品更多精彩關于袋鼠雲

關于 袋鼠雲 資料中台專欄V2.0

資料中台如何定義?企業資料化與資料中台的關系是什麼?資料中台如何支撐企業戰略轉型?袋鼠雲近兩年來,先後為國内數十家大型龍頭企業提供資料中台咨詢與實施落地服務,積累了大量的實戰經驗,同時也在為客戶服務的過程中,不斷完善和升華自身的資料中台理論體系和實踐方法論。希望通過後續文章的分享,與諸位讀者交流,共同加快企業全面資料化程序。本專欄每周更新1-2篇,敬請期待~

資料中台之資料內建

1

在現代企業中,由于使用場景、業務形态、技術選型、開發架構的差異,往往有多個異構的、基于不同的軟硬體平台上的資訊系統同時運作,這些系統的資料源彼此獨立、互相封閉,使得資料難以在系統之間交流、共享和融合,進而形成了「資訊孤島」。随着資訊化應用的不斷深入,企業内部、企業與外部資訊互動的需求日益強烈,急切需要對已有的資訊進行整合,聯通“資訊孤島”,共享資訊。

在企業建構資料資料中台來解決資料互通和共享的要求下,「資料內建」是打通資訊系統和資料中台的管道和橋梁,是構成資料中台全、統、通的重要基礎。

袋鼠雲資料中台專欄V2.0 | 資料中台之資料內建關于袋鼠雲資料中台專欄V2.0資料中台之資料內建12 準備工作3 業務架構4 內建流程4.1 關系型資料庫離線同步流程4.2 API類資料同步4.3 實時類資料同步5 袋鼠雲數棧 DTinsight - 資料同步子產品更多精彩關于袋鼠雲

資料中台 全 統 通

本文所講的資料內建,主要指的是從不同的資料存放媒體将資料同步至資料中台的環節,在某些場景下,也可以稱作「資料采集」、「資料同步」、「資料上雲」。

2 準備工作

在資料內建實施開發前,我們一般要進行以下調研和準備工作:

  • 資料源分類:見上一期的 資料中台之資料源,确定資料源種類,并根據資料及時性要求,确定采集的技術元件

- 網絡和環境:确定資料源的網絡和環境資訊,根據實施內建方案,對現有的網絡和環境進行必要的改造和優化

袋鼠雲資料中台專欄V2.0 | 資料中台之資料內建關于袋鼠雲資料中台專欄V2.0資料中台之資料內建12 準備工作3 業務架構4 內建流程4.1 關系型資料庫離線同步流程4.2 API類資料同步4.3 實時類資料同步5 袋鼠雲數棧 DTinsight - 資料同步子產品更多精彩關于袋鼠雲
  • 資料内容:調研資料的全量大小、增量大小、分布情況
  • 資料品質:調研資料的增量标記、索引、主鍵資訊等
  • 資料範圍:調研需要內建的資料範圍,篩選出需要內建到資料中台的相關資料,一般以支撐業務流程或帶業務屬性的資料為主

3 業務架構

針對采集的業務内容,以及常見的同步分類,我們将資料內建的業務架構整理如下:

袋鼠雲資料中台專欄V2.0 | 資料中台之資料內建關于袋鼠雲資料中台專欄V2.0資料中台之資料內建12 準備工作3 業務架構4 內建流程4.1 關系型資料庫離線同步流程4.2 API類資料同步4.3 實時類資料同步5 袋鼠雲數棧 DTinsight - 資料同步子產品更多精彩關于袋鼠雲

資料內建的業務架構

4 內建流程

以下通過幾個典型的資料同步場景案例,來介紹資料同步流程。

4.1 關系型資料庫離線同步流程

袋鼠雲資料中台專欄V2.0 | 資料中台之資料內建關于袋鼠雲資料中台專欄V2.0資料中台之資料內建12 準備工作3 業務架構4 內建流程4.1 關系型資料庫離線同步流程4.2 API類資料同步4.3 實時類資料同步5 袋鼠雲數棧 DTinsight - 資料同步子產品更多精彩關于袋鼠雲

4.2 API類資料同步

袋鼠雲資料中台專欄V2.0 | 資料中台之資料內建關于袋鼠雲資料中台專欄V2.0資料中台之資料內建12 準備工作3 業務架構4 內建流程4.1 關系型資料庫離線同步流程4.2 API類資料同步4.3 實時類資料同步5 袋鼠雲數棧 DTinsight - 資料同步子產品更多精彩關于袋鼠雲

4.3 實時類資料同步

袋鼠雲資料中台專欄V2.0 | 資料中台之資料內建關于袋鼠雲資料中台專欄V2.0資料中台之資料內建12 準備工作3 業務架構4 內建流程4.1 關系型資料庫離線同步流程4.2 API類資料同步4.3 實時類資料同步5 袋鼠雲數棧 DTinsight - 資料同步子產品更多精彩關于袋鼠雲

5 袋鼠雲數棧 DTinsight - 資料同步子產品

資料同步子產品是在各個存儲單元之間執行資料交換的管道。

為了在「DTinsightIDE」進行大規模資料集的挖掘與計算,通常的做法是在任務執行前将資料傳輸至DTinsightIDE,并在任務執行結束後将計算結果傳輸至外部存儲單元(例如MySQL等應用資料庫)。

資料內建的作用如下圖所示:

袋鼠雲資料中台專欄V2.0 | 資料中台之資料內建關于袋鼠雲資料中台專欄V2.0資料中台之資料內建12 準備工作3 業務架構4 內建流程4.1 關系型資料庫離線同步流程4.2 API類資料同步4.3 實時類資料同步5 袋鼠雲數棧 DTinsight - 資料同步子產品更多精彩關于袋鼠雲

袋鼠雲數棧-資料同步子產品

袋鼠雲數棧-資料同步子產品的具有以下特性:

  • 豐富的資料源支援

    資料同步子產品可對MySQL、Oracle、SQLServer、PostgreSQL、HDFS、Hive、HBase、FTP、ElasticSearch、ODPS、ElasticSearch、Redis、MongoDB等資料源,支援對這些資料源進行讀取或寫入資料。使用時僅需配置資料源的連接配接資訊(例如填寫Oracle資料庫的JDBC URL、使用者名、密碼等資訊),再配置對應的資料同步任務即可。

  • 分布式系統架構

    資料同步子產品在系統架構上采用先進的分布式系統架構(FlinkX[1]),可實作多個節點并發讀取、寫入資料,可極大的提升資料同步的吞吐量,相比Sqoop、Kettle等開源資料同步方案,資料吞吐能力更高、配套功能。

  • 可視化配置

    使用者在使用資料同步子產品時,可快速通過可視化配置的方式完成同步任務的建立與配置,主要包括同步任務選擇源庫源表、目标庫目标表、配置字段映射、配置同步速度等。

  • 全量/增量同步

    從業務系統讀取資料的過程中,為了最小化對業務系統的影響,通常需要進行資料的增量同步。在源資料庫表中具備資料變更時間字段的情況下,支援對關系型資料庫進行增量資料同步,使用者僅需輸入相應的資料過濾語句即可實作。

  • 同步速度的控制

    支援資料同步速度控制,通過設定同步速率上限來調整,此參數需根據硬體配置和資料量來調整,使用者根據業務需求選擇設定的值。

  • 髒資料管理

    支援對髒資料是否需要記錄進行配置,可指定髒資料的存儲表名、生命周期,同時可配置當髒資料量超過一定數量或一定比例時任務置為失敗,提示使用者及時排查髒資料問題,并生成分析報告。

更多精彩

關于袋鼠雲資料中台系列專欄V2.0

企業資料化認知:資料就是生産力!

企業三界:業務界面,應用界面,資料界面

企業數字化建設三範式

企業數字化(資料界面)整體架構

資料中台綜述:三個次元看資料中台

資料中台之資料源

關于袋鼠雲

袋鼠雲是企業資料化整體解決方案提供商,是資料中台架構倡導者、引領者,通過打通資料供應鍊,建構企業資料化驅動引擎,加速企業資料化程序,讓資料成為企業核心競争力。DTSTACK.COM

資料智能,讓未來變成現在