天天看點

Databricks 第10篇:Job

大家知道,使用者可以在Notebook UI中以互動方式運作Notebook中的SQL、Python等代碼,互動方式便于資料的調查和分析。使用者還可以通過Job來自動維護資料,Job是立即運作或按計劃運作notebook(或JAR)的一種方法,通過Job可以定時執行資料的清理和整合,使用者隻需要設定好計劃(schedule),就可以自動實作資料的維護。

使用者也可以通過Databricks UI來監控Job的運作結果,或者發送email alert,一旦Job運作失敗或成功,使用者會收到包含Job運作結果的郵件。

Databricks限制一個工作區:

  • 最多隻能同時運作1000個Job,并發度是1000;
  • 在一個小時内,最多可以建立5000個Job(包括“立即運作”和“運作送出”)

一,使用UI來建立Job

點選“Jobs”圖示

Databricks 第10篇:Job

,進入到Jobs頁面,點選下面的“Create Job”按鈕來建立Job:

Databricks 第10篇:Job

輸入Job的Title,并選擇Job執行的Task。

Databricks 第10篇:Job

設定Job的屬性:

  • 設定Task,可以選擇 Notebook、 Set JAR、Configure spark-submit,通常選擇Notebook。
  • 設定Cluster:設定Job運作時使用的Cluster
  • 設定Schedule:設定計劃定時執行Job
Databricks 第10篇:Job

二,立即運作Job

若要立即運作作業,請在“Active runs”清單中單擊“Run Now”:

Databricks 第10篇:Job

三,檢視Job運作結果

可以通過導出作業運作的結果來持久儲存作業運作。 對于筆記本作業運作,可以先導出呈現的筆記本,稍後再将其導入到 Databricks 工作區中。

1,在作業詳細資訊頁中,單擊“運作”列中的作業運作名稱。

Databricks 第10篇:Job

 2,單擊“導出到 HTML”。

Databricks 第10篇:Job

四,控制對Job的通路

Job的所有者和管理者可以通過"Job Access Control"控制權限。使用作業通路控制,作業所有者可以選擇允許哪些其他使用者或組檢視作業的結果。 所有者還可以選擇允許誰管理其作業的運作(即,調用“立即運作”,然後單擊“取消”)。

Step1,跳轉到Job的詳細資訊頁面,點選“Advanced”連結

Databricks 第10篇:Job

 Step2,點選Permissions後面的“Edit”連結

Databricks 第10篇:Job

Step3,在彈出對話框中,通過使用者名旁邊的下拉菜單配置設定作業權限。

Databricks 第10篇:Job

參考文檔:

Databricks Jobs

作者

:悅光陰

出處

:http://www.cnblogs.com/ljhdo/

本文版權歸作者和部落格園所有,歡迎轉載,但未經作者同意,必須保留此段聲明,且在文章頁面醒目位置顯示原文連接配接,否則保留追究法律責任的權利。

繼續閱讀