天天看點

業界 | 谷歌、百度等聯合釋出機器學習新基準MLPerf,旨在促進AI發展和公衆參與

選自hpcwire

作者:John Russell

機器之心編譯

參與:劉曉坤、路

昨日,來自學界和業界的多個組織(包括谷歌、百度、英特爾、AMD、哈佛和斯坦福)共同釋出了新型基準 MLPerf,「用于衡量機器學習軟硬體的速度」。

長期以來,市場上的 AI 性能對比一直比較粗略,魚龍混雜且通用性不足,難以作為參考,但 AI 基準之戰即将開始。今天,來自學界和業界的多個組織(包括谷歌、百度、英特爾、AMD、哈佛和斯坦福)共同釋出了新型基準 MLPerf,「用于衡量機器學習軟硬體的速度」。

上周,RiseML 釋出部落格,對比了谷歌的 TPUv2 和 Nvidia V100。今天,英特爾釋出部落格,展示了使用 RNN 執行機器翻譯時選擇軟硬體的相關資料。

很長時間以來,圍繞對有意義的 AI 基準出現大量讨論,支援者認為此類工具的缺乏限制了 AI 的應用。MLPerf 釋出公告引用了 AI 領域先驅吳恩達的話:「AI 正在改變多個行業,但是要想完全發揮其潛力,我們仍然需要更快的硬體和軟體。」我們希望更好、更标準化的基準能夠幫助 AI 技術開發者創造出此類産品,允許采用者做出明智的 AI 技術選擇。

MLPerf 稱其主要目标是:

  • 通過公平、有用的度量來加速 ML 的進展;
  • 推動互相競争的系統之間的公平對比,同時鼓勵創新,以提升 ML 領域的目前最優水準;
  • 使基準測試可負擔,所有人都可以參與其中;
  • 服務商業和研究社群;
  • 強制要求複現性,以確定結果的可靠性。

AI 性能對比(h/w 和 s/w)目前主要由既得利益者釋出,如英特爾近日的部落格《Amazing Inference Performance with Intel Xeon Scalable Processors》。這并不是在針對英特爾。此類對比通常包含有用的見解,但是它們通常用于展示一方比另一方的優勢。标準化基準可以緩解這一狀況。

業界 | 谷歌、百度等聯合釋出機器學習新基準MLPerf,旨在促進AI發展和公衆參與

MLPerf 在模拟之前的一些嘗試,比如 SPEC(标準性能評估組織)。「SPEC 基準加速了通用計算方面的進步。SPEC 于 1988 年由多個計算公司聯合成立。接下來的 15 年中 CPU 性能提升 1.6X/年。MLPerf 将之前基準的最佳實踐結合起來:SPEC 使用的一套程式;SORT 的一個部門來做性能對比,另一個部門負責創新;DeepBench 覆寫産品中的軟體部署;DAWNBench 的 time-to-accuracy 度量。」MLPerf 稱。

Intersect360 Research 的 CEO Addison Snell 稱:「現在那麼多公司在發展 AI,提供基準測試的嘗試具備極高的重要性,尤其是對于大量互相競争的技術。但是,AI 領域非常多樣化,我懷疑是否會出現主導的單一基準。想想五年前所有圍繞大資料和分析學的熱情;盡管每個人都嘗試定義它,行業并沒有提供一個統一、常用的基準。我認為 AI 領域也會是這種情況。」

Hyperion Research 的進階研究副總裁 Steve Conway 稱 MLPerf 是「很好、很有用的」一步,「因為多年來對于買方和賣方來說确實缺乏一個基準來展現不同 AI 産品和解決方案之間的差別。這個基準似乎是為了解決如今 AI 早期主要的受限問題(bounded problem)而建立的。之後随着 AI 開始出現未受限問題(unbounded problem,它們将是經濟上最重要的問題),我們将需要額外的基準。受限問題相對簡單,例如聲音和圖像識别或玩遊戲等。未受限問題例如診斷癌症,其對應的受限問題可能是讀取 MRI 圖像;未受限問題能夠在非常複雜的問題上推薦決策。」

MLPref 已經在 GitHub 上開源,但仍然處于非常早期的階段,正如 MLPref 所強調的:「這次釋出的更像是一個内部測試版,它仍可以從多個方面改進。該基準仍然在開發和精煉中,可以檢視下方的 Suggestions 部分了解如何貢獻該開源項目。我們期待在五月末能基于使用者輸入進行大幅更新。」

目前在 MLPerf 套裝中的 7 個基準,每一個都有參考實作:

  • 圖像分類—ResNet-50 v1(ImageNet)
  • 目标檢測—Mask R-CNN(COCO)
  • 語音識别—DeepSpeech2(Librispeech)
  • 翻譯—Transformer(WMT English—German)
  • 推薦—Neural Collaborative Filtering(MovieLens 20 Million (ml-20m))
  • 情感分析—Seq-CNN(IMDB 資料集)
  • 強化學習—Mini-go(預測 pro 遊戲中的移動)

每個參考實作提供了:至少在一個架構中實作模型的代碼;可用于在一個容器内運作基準的 Dockerfile;下載下傳合适資料集的腳本;運作模型訓練和計時的腳本;資料集、模型和機器設定的相關文檔。

這些基準已經在以下的機器配置上進行了測試:

  • 16 塊 CPU、一塊 Nvidia P100;
  • Ubuntu 16.04,包含 docker 和 Nvidia 支援;
  • 600GB 硬碟(雖然很多基準不需要這麼多硬碟空間)。

業界選擇結合幾個 AI 基準還是讓基準數量激增是很有趣的現象。在這樣一個年輕的市場,大部分人選擇提供基準測試工具和服務。例如,斯坦福(MLPerf 成員)近日釋出了它的第一個 DAWNBench v1 Deep Learning 結果。

斯坦福報告稱:「2018 年 4 月 20 日,我們釋出了第一個衡量端到端性能的深度學習基準和競賽,這些性能包括:在常見深度學習任務中達到目前最優準确率級别所需的時間/成本,以及在目前最優準确率級别上執行推斷的延遲/成本。聚焦于端到端性能提供了标準化計算架構、硬體、優化算法、超參數設定和其它重要因素的差別的客觀手段。」像 MLPerf 這樣的項目可以在目前對比 AI 性能的時候,清除那些模糊不清的因素。

原文連結:https://www.hpcwire.com/2018/05/02/mlperf-will-new-machine-learning-benchmark-help-propel-ai-forward/