如同他的演講題名「AI,在實踐中前行」,這一屆人工智能大會與半年前在舊金山舉辦的英特爾首屆第一屆 AIDC 相比,在展示硬體産品與工具、闡釋其開發理念的基礎之上,英特爾引入了更多為特定應用場景高度定制的案例、邀請了更多來自各行各業的合作夥伴進行經驗分享。
換句話說,他們将那「4%」請來了現場。
于是我們知道了,神經計算棒在給開發者的終端裝置增加一些訓練算力之外,更重要且不可替代的應用方式是支援部署在終端的深度學習模型的測試和原型制作,成為連接配接模型開發與量産階段的橋梁;而 OpenVINO 這個看起來隻是架構與裝置之間的「交叉編譯器」的工具,在工廠進行大規模部署的時候,究竟能如何提高效率。
英特爾神經計算棒二代:邊緣裝置從實驗室到量産
「相比于上一代神經計算棒,NCS 2 有高達 8 倍的性能提升。」英特爾人工智能産品事業部總經理 Naveen Rao 這樣介紹道。
第二代神經計算棒和第一代的最大差別,就是内含的終端視覺處理器 VPU,從上一代 Myriad 2 更新成了最新的 Myriad X。Myriad X 的效率高達每秒鐘 4 萬億次運算(4TOPS),而且比 Myriad 2 多了一個專門加速神經網絡的子產品,能夠以 1w 的耗電量實作每秒鐘一萬億次神經網絡運算。
神經計算棒可以說是比原型設計中常見的「開發闆」更靈活一個等級的算力子產品。5 月,在采訪原 Movidius CEO,Remi El-Ouazzane 時,他這樣介紹針對于企業使用者的開發闆:「……我們的産品還有内含 Myriad 2 或 Myriad X 的開發者工具包,它是一塊包含 VPU 在内的開發闆,包含攝像頭,各種輸入輸出接口。客戶可以利用開發闆進行研發和測試,然後在研發完成後,再接入自己的工具包、傳感器等……開發闆并不直接進行『零售』,我們直接向需要開發 VPU 相關裝置的公司銷售這一産品。」
是以,如果你的系統在走入量産階段之前,想要進行原型設計與測試,那麼 NCS 就非常适合你了。
自 2017 年 7 月 神經計算棒(NCS)一代釋出以來,緻力于在邊緣裝置上發力的開發團隊想出了不少有趣的點子。英特爾自己也推出了 AI Builder 項目,英特爾為合作夥伴提供資源和支援,而合作夥伴則貢獻出基于英特爾 AI 平台的好點子。
在現場,Clean Water AI 項目的創始人 Peter Ma 就介紹了他利用神經計算棒闖關大小 Hackathon 的經曆:在去年 9 月拿到神經計算棒後,他先後将皮膚癌檢測技術、人臉識别「開鎖」技術乃至機械臂相關的訓練技術放在了終端上。最後,他用神經計算棒設計了 Cleanwater AI,一個能從顯微鏡圖檔中離線、實時檢測出水中的污染物的裝置。原型機隻是筆記本電腦加上神經計算棒,實驗成功後他們決定将這個項目産品化。
至強與 FPGA:為深度學習優化的高性能裝置們
神經計算棒和 VPU 主要集中為終端邊緣裝置提供低功耗的算力,在伺服器級的訓練與推理方面,則是至強與 FPGA 的天下。
英特爾在今年公布了面向資料中心的至強系列的新一代路線圖,其中包括了一系列用于神經網絡的指令集擴充,統稱為 DLBoost。DLBoost 給 AVX-512 指令集擴充了一系列神經網絡指令,并引入了 bfloat16 等用于神經網絡推理的新格式,而這一系列舉措的目的就是加速神經網絡計算負載。在現場,英特爾的工程師展示了 DLBoost 之後,今年的至強處理器相較于去年的版本在速度上有了近 11 倍的提升。
除此之外,至強也被諸多企業合作夥伴頻繁提及。專攻醫療影像的彙醫慧影提到了至強使得醫療影像中三維乃至四維資料的直接訓練變得可行,騰訊優圖實驗室的安防項目用至強伺服器在雲端進行人臉識别、人體結構化資料分析,包括跨攝像頭的跟蹤。
制造業巨頭美的,用攝像頭和至強處理器搭配,搭建了「視覺檢測平台」,用以完成質檢任務。
「美的擁有足夠多的工業視覺資料資源,缺少的是一套能夠整合資料采集、算法模型訓練、算法部署三位一體的機制。是以我們就開始了工業視覺檢測雲平台的建構。」美的視覺研究所所長胡正博士說。英特爾提供了雲計算部署,輔以基于酷睿的工業終端和 Analytics Zoo 開發工具,完成了能在 50 毫秒内完成圖檔的讀取和處理、在 124 毫秒内完成模型推理,且不需要産線進行任何額外停頓的視覺檢測系統,應用在了中央空調、濾芯、微波爐等多條産線,開發周期隻有 0.5 個月。
「如果你還想要額外的加速,現場可程式設計門陣列,或者說 FPGA 就是正确的解決方案。」Naveen Rao 說。
大量的 I/O,讓使用者可以減少資料遷移,直接将輸入源接入 FPGA。而「可程式設計」意味着工程師可以根據模型需求改變晶片結構,在 INT4 到 FP32 範圍内調整精度,找到性能與功耗的最佳平衡,「優化算法直到每一個比特」。在展台區,鲲雲科技模拟了一個擁有 16 台攝像頭的智能門店場景,示範了一個基于 Arria 10 FPGA 的解決方案。
nGraph 與 OpenVINO:任選架構、任選硬體
在過去,每一種架構通常隻運作在一種硬體上,想要使用其他硬體,意味着工程師需要多掌握一門,甚至幾門語言。選擇架構幾乎和選擇技術路徑一樣重要,跨前後端組合有時意味着重組團隊。
而英特爾在 15 年到 17 年,斥資數百億美元,耗時兩年完成了人工智能領域幾乎是全品類的硬體收購之後,開始了軟體中間層的建設工作。
今年 5 月的 AIDC 上,英特爾介紹了 nGraph 與 OpenVINO。nGraph 是一個「跨英特爾所有硬體的統一中間層編譯器」,而 OpenVINO 是針對視覺任務進行快速神經網絡優化與壓縮的軟體工具包。
「今天你可能希望在至強處理器上用 TensorFlow 來訓練模型,明天你可能想在 NNP 訓練加速器上加快這些模型的訓練,或者你想在另一個項目中擷取開拓式的動态性能,同時保持針對 TensorFlow 的軟體優化,nGraph 可以幫助你有效結合前端、後端組合,甚至可以同時使用多個加速器進行模型訓練。」英特爾人工智能部門資料科學部主任劉茵茵描述了一個完全不受架構與硬體限制的情境。
而這樣的情境,已經從願景成為了現實。
百度帶着利用 OpenVINO 和智能攝像頭的貨運卡車監控解決方案來到了現場。阿裡雲更是直接搬來了将鋁合金壓鑄廠的缺陷檢測精度提升了 5 倍的機械臂與視覺系統:在現場,機械臂以每秒 100 幀的速度,在「有瑕疵産品」和「無瑕疵産品」間切換,而平台能在産品出現翻面的瞬間給出缺陷識别結果。
這個系統使用酷睿 i7 處理器,以及 8 個 Movidius Myriad X VPU 加速器。而這個系統隻利用了加速器的 7%,與 CPU 的 25%。
使用 OpenVINO 提升視覺模型效果的企業名單還很長,在會上,英特爾給出了一個「推理性能價格功耗比」的比較:與英偉達 P4 和 Tegra X2 相對标的是多塊 Myriad X VPU 的組合或者單塊 Arria 10 FPGA,在給定性能比較成本方面,有了加速工具的英特爾解決方案似乎都略勝一籌。
「人工智能作為一項技術,需要與實體經濟有更緊密的結合,推動實體經濟轉型更新。」楊旭在開幕緻辭裡的這一句話,在這兩天的會議裡,被英特爾邀請來的諸多合作夥伴與使用者所印證。
如果人工智能如其所言,是一場剛剛起步的、看不到終點的馬拉松,那麼在這裡,我們得以窺見那些領跑者。