業界 | 谷歌、百度等聯合釋出機器學習新基準MLPerf，旨在促進AI發展和公衆參與

選自hpcwire

作者：John Russell

機器之心編譯

參與：劉曉坤、路

昨日，來自學界和業界的多個組織（包括谷歌、百度、英特爾、AMD、哈佛和斯坦福）共同釋出了新型基準 MLPerf，「用于衡量機器學習軟硬體的速度」。

長期以來，市場上的 AI 性能對比一直比較粗略，魚龍混雜且通用性不足，難以作為參考，但 AI 基準之戰即将開始。今天，來自學界和業界的多個組織（包括谷歌、百度、英特爾、AMD、哈佛和斯坦福）共同釋出了新型基準 MLPerf，「用于衡量機器學習軟硬體的速度」。

上周，RiseML 釋出部落格，對比了谷歌的 TPUv2 和 Nvidia V100。今天，英特爾釋出部落格，展示了使用 RNN 執行機器翻譯時選擇軟硬體的相關資料。

很長時間以來，圍繞對有意義的 AI 基準出現大量讨論，支援者認為此類工具的缺乏限制了 AI 的應用。MLPerf 釋出公告引用了 AI 領域先驅吳恩達的話：「AI 正在改變多個行業，但是要想完全發揮其潛力，我們仍然需要更快的硬體和軟體。」我們希望更好、更标準化的基準能夠幫助 AI 技術開發者創造出此類産品，允許采用者做出明智的 AI 技術選擇。

MLPerf 稱其主要目标是：

通過公平、有用的度量來加速 ML 的進展；
推動互相競争的系統之間的公平對比，同時鼓勵創新，以提升 ML 領域的目前最優水準；
使基準測試可負擔，所有人都可以參與其中；
服務商業和研究社群；
強制要求複現性，以確定結果的可靠性。

AI 性能對比（h/w 和 s/w）目前主要由既得利益者釋出，如英特爾近日的部落格《Amazing Inference Performance with Intel Xeon Scalable Processors》。這并不是在針對英特爾。此類對比通常包含有用的見解，但是它們通常用于展示一方比另一方的優勢。标準化基準可以緩解這一狀況。

業界 | 谷歌、百度等聯合釋出機器學習新基準MLPerf，旨在促進AI發展和公衆參與

MLPerf 在模拟之前的一些嘗試，比如 SPEC（标準性能評估組織）。「SPEC 基準加速了通用計算方面的進步。SPEC 于 1988 年由多個計算公司聯合成立。接下來的 15 年中 CPU 性能提升 1.6X/年。MLPerf 将之前基準的最佳實踐結合起來：SPEC 使用的一套程式；SORT 的一個部門來做性能對比，另一個部門負責創新；DeepBench 覆寫産品中的軟體部署；DAWNBench 的 time-to-accuracy 度量。」MLPerf 稱。

Intersect360 Research 的 CEO Addison Snell 稱：「現在那麼多公司在發展 AI，提供基準測試的嘗試具備極高的重要性，尤其是對于大量互相競争的技術。但是，AI 領域非常多樣化，我懷疑是否會出現主導的單一基準。想想五年前所有圍繞大資料和分析學的熱情；盡管每個人都嘗試定義它，行業并沒有提供一個統一、常用的基準。我認為 AI 領域也會是這種情況。」

Hyperion Research 的進階研究副總裁 Steve Conway 稱 MLPerf 是「很好、很有用的」一步，「因為多年來對于買方和賣方來說确實缺乏一個基準來展現不同 AI 産品和解決方案之間的差別。這個基準似乎是為了解決如今 AI 早期主要的受限問題（bounded problem）而建立的。之後随着 AI 開始出現未受限問題（unbounded problem，它們将是經濟上最重要的問題），我們将需要額外的基準。受限問題相對簡單，例如聲音和圖像識别或玩遊戲等。未受限問題例如診斷癌症，其對應的受限問題可能是讀取 MRI 圖像；未受限問題能夠在非常複雜的問題上推薦決策。」

MLPref 已經在 GitHub 上開源，但仍然處于非常早期的階段，正如 MLPref 所強調的：「這次釋出的更像是一個内部測試版，它仍可以從多個方面改進。該基準仍然在開發和精煉中，可以檢視下方的 Suggestions 部分了解如何貢獻該開源項目。我們期待在五月末能基于使用者輸入進行大幅更新。」

目前在 MLPerf 套裝中的 7 個基準，每一個都有參考實作：

圖像分類—ResNet-50 v1（ImageNet）
目标檢測—Mask R-CNN（COCO）
語音識别—DeepSpeech2（Librispeech）
翻譯—Transformer（WMT English—German）
推薦—Neural Collaborative Filtering（MovieLens 20 Million (ml-20m)）
情感分析—Seq-CNN（IMDB 資料集）
強化學習—Mini-go（預測 pro 遊戲中的移動）

每個參考實作提供了：至少在一個架構中實作模型的代碼；可用于在一個容器内運作基準的 Dockerfile；下載下傳合适資料集的腳本；運作模型訓練和計時的腳本；資料集、模型和機器設定的相關文檔。

這些基準已經在以下的機器配置上進行了測試：

16 塊 CPU、一塊 Nvidia P100；
Ubuntu 16.04，包含 docker 和 Nvidia 支援；
600GB 硬碟（雖然很多基準不需要這麼多硬碟空間）。

業界選擇結合幾個 AI 基準還是讓基準數量激增是很有趣的現象。在這樣一個年輕的市場，大部分人選擇提供基準測試工具和服務。例如，斯坦福（MLPerf 成員）近日釋出了它的第一個 DAWNBench v1 Deep Learning 結果。

斯坦福報告稱：「2018 年 4 月 20 日，我們釋出了第一個衡量端到端性能的深度學習基準和競賽，這些性能包括：在常見深度學習任務中達到目前最優準确率級别所需的時間/成本，以及在目前最優準确率級别上執行推斷的延遲/成本。聚焦于端到端性能提供了标準化計算架構、硬體、優化算法、超參數設定和其它重要因素的差別的客觀手段。」像 MLPerf 這樣的項目可以在目前對比 AI 性能的時候，清除那些模糊不清的因素。

原文連結：https://www.hpcwire.com/2018/05/02/mlperf-will-new-machine-learning-benchmark-help-propel-ai-forward/