大資料Clouder:使用MaxCompute進行資料品質核查
資料,資料品質,資料品質管理
MaxCompute,DataIDE
監控,監控報告
對資料的改善和管理,直接提升資料品質;
對組織的改善和管理,間接提升資料品質。
資料品質影響因素:①需求過程引發,②資料源引發,③統計口徑引發,④系統自身引發。
資料品質問題類型:①錯誤值,②重複值,③資料不一緻,④資料完整性,⑤缺失值,⑥異常值。
MaxCompute,大資料開發工具:
①DataIDE:可視化形式。
②Studio用戶端,③odpscmd用戶端:都是指令行形式。
資料産生:阿裡雲的RDS。
資料收集與存儲:DataIDE資料同步元件,從RDS中同步到MaxCompute中。
資料分析與處理:DataIDE中的任務ODPS_SQL和OPEN_MR。
資料提取:DataIDE。
資料展現與分享:Quick BI。
注意:将本地資料上傳導入到MaxCompute,如果資料檔案大于10M,DataIDE就上傳不了了,這時就需要使用odpscmd用戶端提供的Tunnel指令方式進行上傳。
Tunnel指令操作 :
https://help.aliyun.com/document_detail/27833.html?spm=5176.11065259.1996646101.searchclickresult.6de53dbcRY6DwCDataIDE:資料開發(任務開發,腳本開發),運維中心(任務清單,任務運維,報警)。
任務開發:需要周期排程的,加工邏輯複雜的,需要多個步驟進行資料處理的。注意:任務開發中的排程任務生成執行個體的時間。
腳本開發:一次性的,臨時資料操作,比如:建個表,插入個資料等 。
任務解決方案:開通MC服務并搭建開發環境,實驗資料準備,配置資料品質核查規則,資料品質監控規則導入MC,通過MC實作資料品質監控,配置MC程式排程,配置程式排程郵件、短信告警。
檢視監控報告。
對應的沙箱實驗筆記
網址:
https://edu.aliyun.com/lab/courses/1fb17df91d3648c781c30cd877bcaeb8/detail?purchaseRecordId=f0f34cd5a0fc48829231e8006960644b實驗環境:DataWorks->項目->進入工作區->IDE頁面。
實驗步驟:
1、資料準備上傳到MC中:建表“ODS_EBUSI_xxx”->導入本地資料,上傳資料到MaxCompute中。
注意:首行為标題,預設為是。
查詢語句:
select * from ODS_EBUSI_xxx;
select count(*) from ODS_EBUSI_xxx;
2、編寫資料監控規則:寫入到excel或txt中。注意:要保證txt檔案為utf8格式。
(1)規則模闆對應的各類内容:
①核查規則類型名稱:監控類别編碼對應的監控規則名稱(1:錯誤值;2:重複值;3:資料不一緻;4:資料完整性;5:缺失值;6:異常值)。
②狀态:1:本條監控規則有效;0:本條監控規則已失效,或不再進行監控。
(2)監控場景:
①訂單表内訂單時間格式出錯。
②訂單表同一客戶同一時間下了多次訂單。
③客戶資訊表省份資訊異常。
④配送的訂單在訂單表中不存在。
⑤客戶資訊表性别資訊缺失。
⑥同客戶單月購買次數異常(當月購買次數大于10次)。
注意:在MaxCompute控制台中導入一個txt檔案,要保證txt檔案為utf8格式,如果不是,可以用記事本打開檔案,單擊另存為,将其儲存為utf8格式。
https://help.aliyun.com/knowledge_detail/40360.html?spm=5176.11065259.1996646101.searchclickresult.242b49d5HssL3O3、将監控規則導入到MC中:建表“ODS_DATA_CHECK_RULE”->導入監控規則excel或txt檔案。注意:分隔符配置。查詢語句:
select * from ODS_DATA_CHECK_RULE;
select count(*) from ODS_DATA_CHECK_RULE;
4、資料品質監控:
①建表“DWD_DATA_CHECK_REPORT”->用于儲存最終的監控報告。
②建立任務->任務類型:工作流任務,名稱:DATA_CHECK_資料品質監控,排程類型:周期排程。
③選擇節點元件->在編輯頁面寫入sql,并配置好參數,儲存後傳回。
虛節點:從左側節點元件中,拖取一個虛節點至右側空白處,命名:程式開始,執行結束。
ODPS_SQL:将左側ODPS_SQL控件,拖至右側空白處,命名。輕按兩下該節點元件,進入編輯界面,寫入建表sql語句,配置參數,儲存後傳回。注意:此時不需要點選運作。
④按照順序,将各個執行空間連接配接起來。所有連接配接完成後,點選儲存,點選送出,确定送出。
⑤測試運作->點選測試運作,填寫執行個體名稱和業務日期,點選運作,點選前往運維中心,進行監控。
⑥檢視最終的監控報告内容,檢視語句:注意:分區表查詢。
set odps.sql.allow.fullscan=true;
select * from dwd_data_check_report;
select CHECK_RULE_ID,CHECK_RULE_NAME,CHECK_RULE_OWNER,WARNING_CONTENT from DWD_DATA_CHECK_REPORT;
5、配置MC排程:點選排程配置->基本屬性,排程屬性,依賴屬性,跨周期依賴->配置完成。運維中心檢視->周期任務,周期執行個體。
注意:配置完成後,第二天排程才會生效。在23:30之後送出成功的任務,從第三天開始才會生成執行個體。
6、配置郵件和短信告警:運維中心->報警設定->建立報警->選擇任務、報警原因、報警方式、接收人。