天天看點

學習筆記1 - 使用MaxCompute進行資料品質核查大資料Clouder:使用MaxCompute進行資料品質核查對應的沙箱實驗筆記

大資料Clouder:使用MaxCompute進行資料品質核查

資料,資料品質,資料品質管理

MaxCompute,DataIDE

監控,監控報告

對資料的改善和管理,直接提升資料品質;

對組織的改善和管理,間接提升資料品質。

資料品質影響因素:①需求過程引發,②資料源引發,③統計口徑引發,④系統自身引發。

資料品質問題類型:①錯誤值,②重複值,③資料不一緻,④資料完整性,⑤缺失值,⑥異常值。

MaxCompute,大資料開發工具:

①DataIDE:可視化形式。

②Studio用戶端,③odpscmd用戶端:都是指令行形式。

資料産生:阿裡雲的RDS。

資料收集與存儲:DataIDE資料同步元件,從RDS中同步到MaxCompute中。

資料分析與處理:DataIDE中的任務ODPS_SQL和OPEN_MR。

資料提取:DataIDE。

資料展現與分享:Quick BI。

注意:将本地資料上傳導入到MaxCompute,如果資料檔案大于10M,DataIDE就上傳不了了,這時就需要使用odpscmd用戶端提供的Tunnel指令方式進行上傳。

Tunnel指令操作 :

https://help.aliyun.com/document_detail/27833.html?spm=5176.11065259.1996646101.searchclickresult.6de53dbcRY6DwC

DataIDE:資料開發(任務開發,腳本開發),運維中心(任務清單,任務運維,報警)。

任務開發:需要周期排程的,加工邏輯複雜的,需要多個步驟進行資料處理的。注意:任務開發中的排程任務生成執行個體的時間。

腳本開發:一次性的,臨時資料操作,比如:建個表,插入個資料等 。

任務解決方案:開通MC服務并搭建開發環境,實驗資料準備,配置資料品質核查規則,資料品質監控規則導入MC,通過MC實作資料品質監控,配置MC程式排程,配置程式排程郵件、短信告警。

檢視監控報告。

學習筆記1 - 使用MaxCompute進行資料品質核查大資料Clouder:使用MaxCompute進行資料品質核查對應的沙箱實驗筆記
學習筆記1 - 使用MaxCompute進行資料品質核查大資料Clouder:使用MaxCompute進行資料品質核查對應的沙箱實驗筆記

對應的沙箱實驗筆記

網址:

https://edu.aliyun.com/lab/courses/1fb17df91d3648c781c30cd877bcaeb8/detail?purchaseRecordId=f0f34cd5a0fc48829231e8006960644b

實驗環境:DataWorks->項目->進入工作區->IDE頁面。

實驗步驟:

1、資料準備上傳到MC中:建表“ODS_EBUSI_xxx”->導入本地資料,上傳資料到MaxCompute中。

注意:首行為标題,預設為是。

查詢語句:

select * from ODS_EBUSI_xxx;

select count(*) from ODS_EBUSI_xxx;

2、編寫資料監控規則:寫入到excel或txt中。注意:要保證txt檔案為utf8格式。

(1)規則模闆對應的各類内容:

①核查規則類型名稱:監控類别編碼對應的監控規則名稱(1:錯誤值;2:重複值;3:資料不一緻;4:資料完整性;5:缺失值;6:異常值)。

②狀态:1:本條監控規則有效;0:本條監控規則已失效,或不再進行監控。

(2)監控場景:

①訂單表内訂單時間格式出錯。

②訂單表同一客戶同一時間下了多次訂單。

③客戶資訊表省份資訊異常。

④配送的訂單在訂單表中不存在。

⑤客戶資訊表性别資訊缺失。

⑥同客戶單月購買次數異常(當月購買次數大于10次)。

注意:在MaxCompute控制台中導入一個txt檔案,要保證txt檔案為utf8格式,如果不是,可以用記事本打開檔案,單擊另存為,将其儲存為utf8格式。

https://help.aliyun.com/knowledge_detail/40360.html?spm=5176.11065259.1996646101.searchclickresult.242b49d5HssL3O

3、将監控規則導入到MC中:建表“ODS_DATA_CHECK_RULE”->導入監控規則excel或txt檔案。注意:分隔符配置。查詢語句:

select * from ODS_DATA_CHECK_RULE;

select count(*) from ODS_DATA_CHECK_RULE;

4、資料品質監控:

①建表“DWD_DATA_CHECK_REPORT”->用于儲存最終的監控報告。

②建立任務->任務類型:工作流任務,名稱:DATA_CHECK_資料品質監控,排程類型:周期排程。

③選擇節點元件->在編輯頁面寫入sql,并配置好參數,儲存後傳回。

虛節點:從左側節點元件中,拖取一個虛節點至右側空白處,命名:程式開始,執行結束。

ODPS_SQL:将左側ODPS_SQL控件,拖至右側空白處,命名。輕按兩下該節點元件,進入編輯界面,寫入建表sql語句,配置參數,儲存後傳回。注意:此時不需要點選運作。

④按照順序,将各個執行空間連接配接起來。所有連接配接完成後,點選儲存,點選送出,确定送出。

⑤測試運作->點選測試運作,填寫執行個體名稱和業務日期,點選運作,點選前往運維中心,進行監控。

⑥檢視最終的監控報告内容,檢視語句:注意:分區表查詢。

set odps.sql.allow.fullscan=true;

select * from dwd_data_check_report;

select CHECK_RULE_ID,CHECK_RULE_NAME,CHECK_RULE_OWNER,WARNING_CONTENT from DWD_DATA_CHECK_REPORT;

5、配置MC排程:點選排程配置->基本屬性,排程屬性,依賴屬性,跨周期依賴->配置完成。運維中心檢視->周期任務,周期執行個體。

注意:配置完成後,第二天排程才會生效。在23:30之後送出成功的任務,從第三天開始才會生成執行個體。

6、配置郵件和短信告警:運維中心->報警設定->建立報警->選擇任務、報警原因、報警方式、接收人。

學習筆記1 - 使用MaxCompute進行資料品質核查大資料Clouder:使用MaxCompute進行資料品質核查對應的沙箱實驗筆記

繼續閱讀