天天看點

什麼是etl

ETL,是英文Extract-Transform-Load的縮寫,用來描述将資料從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端的過程。

ETL的品質問題具體表現為正确性、完整性、一緻性、完備性、有效性、時效性和可擷取性等幾個特性。

要實作ETL,首先要實作ETL轉換的過程。它可以集中地展現為以下幾個方面:

1.空值處理:可捕獲字段空值,進行加載或替換為其他含義資料,并可根據字段空值實作分流加載到不同目标庫。

2.規範化資料格式:可實作字段格式限制定義,對于資料源中時間、數值、字元等資料,可自定義加載格式。

3.拆分資料:依據業務需求對字段可進行分解。例:主叫号861082585313-8148,可進行區域碼和電話号碼分解。

4.驗證資料正确性:可利用Lookup及拆分功能進行資料驗證。例如,主叫号861082585313-8148,進行區域碼和電話号碼分解後,可利用Lookup傳回主叫網關或交換機記載的主叫地區,進行資料驗證。

上一篇: ETL算法詳解
下一篇: 什麼是ETL?