大家知道,使用者可以在Notebook UI中以互動方式運作Notebook中的SQL、Python等代碼,互動方式便于資料的調查和分析。使用者還可以通過Job來自動維護資料,Job是立即運作或按計劃運作notebook(或JAR)的一種方法,通過Job可以定時執行資料的清理和整合,使用者隻需要設定好計劃(schedule),就可以自動實作資料的維護。
使用者也可以通過Databricks UI來監控Job的運作結果,或者發送email alert,一旦Job運作失敗或成功,使用者會收到包含Job運作結果的郵件。
Databricks限制一個工作區:
- 最多隻能同時運作1000個Job,并發度是1000;
- 在一個小時内,最多可以建立5000個Job(包括“立即運作”和“運作送出”)
一,使用UI來建立Job
點選“Jobs”圖示
,進入到Jobs頁面,點選下面的“Create Job”按鈕來建立Job:
輸入Job的Title,并選擇Job執行的Task。
設定Job的屬性:
- 設定Task,可以選擇 Notebook、 Set JAR、Configure spark-submit,通常選擇Notebook。
- 設定Cluster:設定Job運作時使用的Cluster
- 設定Schedule:設定計劃定時執行Job
二,立即運作Job
若要立即運作作業,請在“Active runs”清單中單擊“Run Now”:
三,檢視Job運作結果
可以通過導出作業運作的結果來持久儲存作業運作。 對于筆記本作業運作,可以先導出呈現的筆記本,稍後再将其導入到 Databricks 工作區中。
1,在作業詳細資訊頁中,單擊“運作”列中的作業運作名稱。
2,單擊“導出到 HTML”。
四,控制對Job的通路
Job的所有者和管理者可以通過"Job Access Control"控制權限。使用作業通路控制,作業所有者可以選擇允許哪些其他使用者或組檢視作業的結果。 所有者還可以選擇允許誰管理其作業的運作(即,調用“立即運作”,然後單擊“取消”)。
Step1,跳轉到Job的詳細資訊頁面,點選“Advanced”連結
Step2,點選Permissions後面的“Edit”連結
Step3,在彈出對話框中,通過使用者名旁邊的下拉菜單配置設定作業權限。
參考文檔:
Databricks Jobs
作者:悅光陰
出處:http://www.cnblogs.com/ljhdo/
本文版權歸作者和部落格園所有,歡迎轉載,但未經作者同意,必須保留此段聲明,且在文章頁面醒目位置顯示原文連接配接,否則保留追究法律責任的權利。