天天看點

通過DTS将RDS的資料實時同步至DataHub

準備工作

  • 建立一個資料庫和表,您可以選擇使用阿裡雲的RDS資料庫,也可以在本地伺服器上自建資料庫。本案例以華東1區的RDS MySQL資料庫為例,資料庫表的名稱為datav_test,字段及資料如下圖所示。
通過DTS将RDS的資料實時同步至DataHub
  • 登入 阿裡雲Datahub控制台 ,選擇華東1,單擊建立Project,建立一個Datahub項目(本案例的項目名稱為dts_test)。
通過DTS将RDS的資料實時同步至DataHub

資料同步

  1. 進入 阿裡雲DTS控制台 ,單擊左側菜單欄中的資料同步。
  2. 單擊建立同步作業,購買資料傳輸服務執行個體,配置如下圖所示。
通過DTS将RDS的資料實時同步至DataHub
注意:
- **源執行個體**選擇**MySQL**,**目标執行個體**選擇**Datahub**。
 - 源執行個體區域和目标執行個體區域以及同步作業執行個體區域需保持一緻。
           
  1. 購買成功後,傳回控制台,單擊執行個體右側的配置同步鍊路。
  2. 選擇同步通道的源及目标執行個體,如下圖所示,完成後單擊授權白名單并進入下一步。
通過DTS将RDS的資料實時同步至DataHub
  1. 選擇同步對象。選擇需要同步的表,單擊 > 圖示按鈕。
通過DTS将RDS的資料實時同步至DataHub
  1. 單擊預檢查并啟動,啟動預檢查。如果預檢查成功,系統會顯示如下對話框。
通過DTS将RDS的資料實時同步至DataHub
  1. 單擊關閉,傳回資料同步頁面,單擊頁面右上角的重新整理,檢視執行個體狀态。此時正常情況下,執行個體狀态應該顯示為初始化中。
說明:初始化的時間依賴于同步表的數量大小。
  1. 當初始化完成後,同步鍊路即進入同步中的狀态,此時源跟目标執行個體的同步鍊路才真正建立完成。單擊頁面右上角的重新整理,檢視執行個體的同步概況。
通過DTS将RDS的資料實時同步至DataHub
  1. ,單擊項目右側的檢視,進入Topic頁面,可以看到已經同步完成的表的名稱即為topic的名稱。
通過DTS将RDS的資料實時同步至DataHub
  1. 單擊topic右側的檢視,選擇Schema,檢視已經同步完成的表的結構。
通過DTS将RDS的資料實時同步至DataHub

資料采集

說明:由于Datahub同步的是增量資料,是以您必須在資料庫中增加一條或多條資料,才能同步到Datahub中。此案例采用手動插入資料的方式,僅作為參考,在實際應用中,您表中的資料應該是實時寫入的。
  1. 登入您的資料庫,在表中插入一條資料,如下圖所示。
通過DTS将RDS的資料實時同步至DataHub
  1. 回到 ,單擊topic右側的檢視,選擇Shards。
  2. 單擊某個shard右側的資料抽樣。
  3. 在Shard資料抽樣頁面,指定一個時間(該時間要小于等于最新資料時間,否則無法抽取資料),單擊抽樣,檢視資料同步結果。
通過DTS将RDS的資料實時同步至DataHub

常見問題

  1. DTS 資料同步失敗,如何處理?

可能原因:同步鍊路規格配置不合适導緻。

解決方法:參考

資料同步規格說明

,選擇合适的規格,重新建立同步作業。

  1. Datahub 中單擊資料抽樣,抽樣資料為空,如何處理?

可能原因:

  • 指定的時間大于最新資料時間。
  • 資料庫中不存在增量資料。

解決方法:

  1. 在進行資料抽樣時,設定指定的時間小于等于最新資料時間,再次單擊抽樣,檢視資料是否為空。
    • 是,執行下一步。
    • 否,問題解決。
  2. 在您的資料庫中插入一條或多條資料,重新回到Datahub控制台,對資料進行抽樣。
    如果問題仍然無法解決,請在控制台上送出工單,或者直接聯系阿裡雲技術支援工程師。
               

(本文作者為阿裡雲大資料産品文檔工程師)