天天看點

MaxCompute問答整理之7月

本文是基于本人對MaxCompute産品的學習進度,再結合開發者社群裡面的一些問題,進而整理成文。希望對大家有所幫助。

問題一、DataWorks V2.0簡單模式和标準模式的差別?

公司數倉的資料上雲後,在使用MaxCompute計算引擎時,需要一個穩定、可靠的排程系統,将自身資料生産任務(代碼)按照所需依賴關系、運作時間來排程運作,那麼DataWorks就派上了用場。DataWorks提供簡單模式和标準模式兩種工作空間模式。

簡單模式指一個DataWorks工作空間對應一個MaxCompute項目,無法設定開發環境和生産環境,隻能進行簡單的資料開發。标準模式指一個DataWorks工作空間對應兩個MaxCompute項目,可以設定開發和生産環境,提升代碼開發規範。兩個模式還存在項目、使用者和權限的不同。大家可以通過學習官方文檔或者是實操來加強認知。

https://help.aliyun.com/document_detail/85772.html

問題二、用資料內建新增資料源時,測試連通性失敗,是什麼原因?

當需要新增資料源時,首先要确認自己的資料源類型、網絡類型、是否支援測試連通性。當新增資料源無法支援測試連通性時,可以嘗試用獨享資源組來解決資料內建問題。

MaxCompute問答整理之7月

具體資料源的差別可以參考文檔檢視:

https://help.aliyun.com/knowledge_detail/72964.html

溫馨提示:配置資料源時記得檢查賬号密碼。

問題三、資料源配置中資料過濾條件如何填寫?

資料過濾是同步資料的删選條件,可以通過SQL文法填寫where過濾語句,一般都是通過日期字段來删選資料。DataWorks的參數配置功能可以滿足業務場景的需求,目前參數分為系統參數和自定義參數(推薦)兩大類。關于資料源和參數配置可以參考以下文檔來詳細學習:

資料源配置:

https://help.aliyun.com/knowledge_list/72788.html

參數配置:

https://help.aliyun.com/document_detail/74450.html

問題四、UDF如何加入項目函數清單?

使用者可以通過自定義函數來滿足不同的計算需求,MaxCompute的UDF支援跨項目分享。UDF的釋出可以通過DataWorks界面來完成。可以參考産品文檔來操作:

https://help.aliyun.com/document_detail/107615.html

問題五、如果我買30個CU時(預付費形式)是不是隻能用30個Core來運作任務,當公有雲裡面資源空閑時,系統會不會像掃描按量付費那樣,自動調用30Core以外的空閑資源,來加速我的任務運作?

預付費的資源池是獨享的,按購買CU(1CU=1核CPU+4G記憶體)量固定配置設定資源,計算任務隻能占用獨享的資源。但是當在同個區域,已經開通一個預付費規格的情況下,可以通過更新和降配資源方式開通其他規格。如果任務量較大,可以考慮對于消耗資源少的任務采取預付費,資源較大的任務采取按I/O後付費,這樣可以保證任務運作時一直有CU資源。

問題六、想寫Spark處理MaxCompute上的表資料,但是似乎并不能像寫Sql一樣在DataWorks上去寫Spark程式,應該在哪裡寫Spark程式,MaxCompute Studio可以嗎?

目前MaxCompute Spark支援三種運作方式:Local模式、Cluster模式和DataWorks中執行模式。三種模式需要進行不同的配置,請參考如下文檔:

https://help.aliyun.com/document_detail/102430.html

問題七、MaxCompute是否支援MD5函數?

支援,MxCompute可以通過内建函數和UDF來實作業務計算需求,常見的日期函數、數學函數、字元串函數等,MaxCompute都是支援的,可以參考如下文檔:

https://help.aliyun.com/document_detail/96342.html

問題八、日志記錄的各項資訊代表什麼如何檢視?

我了解日志記錄其實就是MaxCompute産品裡的Logview,Logview是MaxCompute Job送出後檢視和Debug任務的工具。可以通過Logview可以看到一個Job的運作狀态、運作結果和具體細節以及每個步驟的進度。

具體功能元件含義請參考如下文檔:

https://help.aliyun.com/document_detail/27987.html

問題九、MaxCompute 2.0裡的資料類型使用需要set設定,是否可以在DataWorks裡面運作?

使用資料類型系統時,需要進行設定:set odps.sql.type.system.odps2=true;或setproject odps.sql.type.system.odps2=true; ,語句是可以在DataWorks建立表的DDL模式下執行操作。

溫馨提示:記得關注資料類型轉換。

問題十、decimal資料類型精度溢出如何解決?問題執行個體如下圖。

MaxCompute問答整理之7月

可以進行set設定:set odps.sql.decimal.odps2=true;

【預告】8月活動預告

2019大資料技術公開課第三季直播8月13日開啟,直播主題及觀看直播,可加入“MaxCompute開發者社群2群” 了解并觀看

點選連結申請加入或掃描二維碼

https://h5.dingtalk.com/invite-page/index.html?bizSource=____source____&corpId=dingb682fb31ec15e09f35c2f4657eb6378f&inviterUid=E3F28CD2308408A8&encodeDeptId=0054DC2B53AFE745
MaxCompute問答整理之7月

繼續閱讀