Arena - 打開KubeFlow的正确姿勢

2018-08-02 23:50:00

KubeFlow是基于Kubernetes建構的可組合，便攜式, 可擴充的機器學習技術棧，支援實作從JupyterHub模型開發，TFJob模型訓練到TF-serving，Seldon預測端到端的解決方案。但是KubeFlow需要使用者精通Kubernetes，比如寫一個TFJob的部署yaml檔案，這對于機器學習平台最主要的使用者---資料科學家來說是非常有挑戰的事情。

這與資料科學家的期望還有比較大的差距，資料科學家關心的是三件事：

資料從哪裡來
如何運作機器學習的代碼
訓練結果（模型和日志）如何檢視

資料科學家編寫一些簡單的腳本，在桌面機上運作機器學習代碼，這是他們熟悉和喜歡的工作方式。但是利用桌面機進行模型訓練，又會遇到由于硬碟空間有限導緻處理資料量不足，無法使用分布式訓練導緻計算力受限等問題。

為此我們開發了Arena，用一個指令行工具屏蔽所有底層資源、環境管理、任務排程和GPU排程配置設定的複雜性，它幫助資料科學家以一種簡單熟悉的方式送出訓練任務并且檢查訓練進展。資料科學家在調用Arena的時候可以指定資料來源，代碼下載下傳和是否使用TensorBoard檢視訓練效果。

Arena目前支援單機訓練和PS-Worker模式的分布式訓練，其後端實作依賴于KubeFlow提供的TFJob，很快也會擴充到MPIJob，PytorchJob。

未來我們希望能夠通過Arena實作深度學習生産流水線 - 內建訓練資料管理，實驗任務管理，模型開發，持續訓練、評估，上線預測全流程。

同時也支援實時訓練的運維包括：

利用top指令監控GPU資源的配置設定和排程
支援CPU，GPU的資源監控
訓練日志的實時查詢

Arena的目标就是讓資料科學家簡單的釋放KubeFlow的洪荒之力，像桌面機上訓練一樣簡單，同時又擁有了叢集級别排程和管理的掌控性。為了能夠更好的在社群内共享和合作，我們已經在github上開源了自己的代碼：

https://github.com/AliyunContainerService/arena

，歡迎大家了解和使用，如果您覺得不錯，請給我們點贊。如果您希望貢獻代碼，我們非常歡迎。

以下是使用文檔:

視訊Demo:

Arena - 打開KubeFlow的正确姿勢

繼續閱讀

Linux下ssh秘鑰方式登入遠端伺服器

Linux指令集錦：scp指令一、文法二、執行個體

docker 指令集錦

LINUX常見指令集錦

windows開始→運作→輸入的指令集錦 winver---------檢查Windows版本 w

K-近鄰算法以及圖像分類應用

更改LYNC SIP位址

Storm編譯打包過程中遇到的一些問題及解決方法

ansible配置檔案說明及ad hoc指令

vsftpd dead but subsys locked 的解決方法

Shell程式設計——sort排序、uniq忽略重複、tr替換壓縮删除、cut指定删除字段、正規表達式元字元sort 指令uniq 指令tr 指令cut 指令正規表達式

Linxu常用指令技巧彙總

httpd服務的部署、啟動、配置和簡單優化一、部署二、啟動三、配置檔案

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

nginx 安裝錯誤資訊解決

Ambari介紹和架構原理