MLOps鑄造模型高質效傳遞新範式——模型傳遞标準解讀之建構內建

背景介紹

為打造AI模型開發、傳遞以及運維過程中自動化的工作流程，保障業務流程穩定且持續營運，諸多行業正積極部署和落地MLOps研發營運體系，加快釋放智能化轉型潛力，進而推動AI規模化應用的步伐。中國信通院雲計算與大資料研究所聯合業界30餘家機關已釋出業内首個AI模型傳遞标準《人工智能研發營運一體化能力成熟度模型第二部分：模型傳遞》（以下簡稱“MLOps模型傳遞”标準），目前本标準的首批試評估工作正在緊鑼密鼓開展中。

評估價值

MLOps系列标準的評估适合正在進行智能化轉型或更新的組織，它針對機器學習等AI模型研發營運項目，以規模化生産高品質和低風險的AI模型為目标，全方位推動AI項目的管理能力建設。本項評估主要基于“MLOps模型傳遞”标準，重點關注模型及其服務的傳遞過程（包括建構、內建、部署、釋出、測試等環節）的管理，幫助企業精确判斷其傳遞能力現狀，即評價AI項目在傳遞環節對高效率、快速響應、疊代等多元需求的應對能力，并診斷自身的缺點和不足。同時，通過評估可提供具有針對性的改進方向和提升路徑，進而推動企業級AI工程化能力的提升。

MLOps模型傳遞标準全貌

“MLOps模型傳遞”标準包含建構內建、部署釋出、模型測試、配置管理、度量改進共5個能力子域、10個能力項、28個能力子項和300餘個細分能力要求，具體結構如下：

MLOps模型傳遞标準結構

本文是“MLOps模型傳遞”标準解讀系列的第一篇文章，後續文章将對其他能力子域進行持續解讀。

建構內建能力子域解讀

持續的建構內建通過高效的模型建構、自動化的測試、可視化的內建過程及靈活的回報問題機制，解決機器學習等AI項目中開發與測試環境不一緻、內建過程混亂無序、測試不充分、內建效率低下等問題，進而確定模型在後續部署上線的靈活快速和安全可靠。

建構內建是指将代碼、模型、配置等要素進行建構打包和內建測試，生産出可傳遞物（例如形态有部署包、鏡像等）的過程，涵蓋模型建構（模型訓練過程）和模型服務建構。建構內建包括建構管理和持續內建兩個部分。

（一）建構管理

針對構模組化型過程中存在的配置易出錯、過程難追蹤等方面的問題，本标準的建構管理圍繞自動化、可視化、可追溯等原則，對模型建構打包過程提出必要的技術和管理要求，有助于提高建構過程的執行質效。

建構管理聚焦由資料、代碼、模型、配置等内容變更而觸發的訓練、編譯、打包和面向目标環境适配的過程。建構管理包括建構過程、建構計劃、模型轉換與優化（若有）三個部分。

建構過程：将代碼或模型轉換成可傳遞物的過程，并對建構依賴的環境、使用者、軟硬體等參數配置進行管理。
建構計劃：對建構過程進行規劃和設計，包括建構的類型、觸發方式、執行周期等内容。
模型轉換與優化：根據需要，通過技術手段對模型進行轉換、壓縮、編譯優化等，以優化模型大小，降低計算資源消耗，提高模型适配性和穩定性。

下圖以建構過程作為示例，展示從1級到5級不同級别的細分能力要求：

（二）持續內建

模型的建構和內建往往需要頻繁內建代碼、模型等傳遞物，以實作使用者無感覺的版本更新，而這種靈活疊代背後隐藏了巨大風險隐患。本标準的持續內建圍繞自動化、可測試、可閉環、可持續性等原則，對于內建過程提出細粒度的要求，有助于發現潛在風險并及時回報和修複問題，提升模型傳遞品質及傳遞速度。

持續內建（CI）是指在版本控制基礎上，當資料、代碼、模型、配置等發生變更時，快速地建構編譯和內建測試等。持續內建包括內建過程、內建回報兩個部分。

內建過程：對建構、模型轉換與優化、靜态掃描、測試驗證等過程進行內建和管理，生成持續內建流水線，并對流水線執行過程進行驗證。
內建回報：對內建問題的回報機制和解決時長進行管理，提高內建效率。

下圖以內建過程作為示例，展示從1級到5級不同級别的細分能力要求：