天天看點

即将搭載人工智能晶片的華為Mate10,究竟會為業界帶來什麼?

随着華為旗艦機型Mate 10即将釋出,科技媒體紛紛爆料,華為Mate10将首次在智能手機曆史上,搭載一顆人工智能晶片。其實早在華為半年業績釋出會上,華為餘承東就透露,預計将在今年秋季推出人工智能晶片,而根據目前最新的消息,這顆人工智能晶片極有可能就是搭載在麒麟970之中的寒武紀晶片。

當然,目前Mate 10的最終規格還沒釋出,具體還要期待10月16日的慕尼黑釋出會,上述消息僅是我們的合理猜測。如果屬實的話,意味着Mate 10将成為全球首款具備人工智能晶片的機型,這将會為業界帶來怎樣的沖擊?畢竟智能手機自喬布斯後,再無革命性的範式進步。

這無疑是一個有趣而又重要的問題,本文接下來将看看寒武紀晶片的前世今生,實際上這顆晶片更為精确地說,是一款深度網絡加速晶片,其本身并無夢幻的AI技能,而其加速功能,又究竟能在何種場景上帶來逆天的變化?

根據目前最新消息,麒麟970極有可能通過IP授權的方式搭載寒武紀人工智能晶片,本文這裡先解釋一下IP授權這一概念。目前無論是高通骁龍還是海思麒麟,都不是嚴格意義上的純CPU晶片,而是一塊SoC(System-on-chip)晶片。所謂的SoC即晶片上內建了若幹不同的功能子產品。以高通骁龍801為例,801上除了四核Krait 400 CPU外,還內建了Adreno 330 GPU、Snapdragon Camera相機圖像信号處理器、藍牙、GPS、WIFI以及視訊音頻編解碼等子產品,上面的每一個這些子產品通常都是SoC廠商上遊的技術提供商通過IP(intellectual property,知識産權)提供授權,當然這樣做的好處是技術提供商可專注于IP方案設計,而晶片封裝工作可交由高通等SoC商負責,這樣雙方揚長避短,共同加速晶片的上市及更新疊代速度。

麒麟970上搭載的寒武紀IP,主要用于深度神經網絡(DNN)中的複雜計算,而深度神經網絡正是目前人工智能技術的半壁江山,這樣一來麒麟970将成為全球首款具備人工智能處理能力的SoC晶片。當然目前寒武紀這家公司對于大衆來說還十分陌生,這裡先對寒武紀進行簡單的介紹。

寒武紀科技(Cambricon)是中科院計算所孵化的一家獨角獸公司,2016年推出的寒武紀1A處理器(Cambricon-1A)是世界首款商用深度學習專用處理器,面向智能手機、安防監控、可穿戴裝置、無人機和智能駕駛等各類終端裝置,最近獲得了包括阿裡在内的1億美元A輪融資。這家成立于2016年的AI晶片公司以火箭般的速度發展,據寒武紀稱,其在2016年已經實作了盈利并獲得1億元量級的營收。而華為與寒武紀的合作,很可能是因為華為與中科院計算所長久以來不菲的合作關系,早在2011年,華為就與中科院計算所成立了“中科院計算所-華為聯合實驗室”。

當然打鐵還得自身硬,寒武紀科技創始人陳天石教授是人工智能硬體加速的早期倡導者,連谷歌在其萬衆矚目的人工智能晶片TPU的論文之中,全文共引用了寒武紀團隊成員發表的6篇論文,在全球人工智能公司中,能享受到谷歌如此待遇恐怕實屬鳳毛麟角。

而對于華為而言,在産品中具備這樣一個中國完全自主知識産權的人工智能晶片IP,或許更加是一項營銷利器。

大家還記得去年火爆的俄羅斯修圖應用Prisma嗎?

Prisma使用了深度神經網絡來擷取著名繪畫大師和主要流派的藝術風格,然後對使用者的照片進行智能風格轉化,一張普通的照片通過Prisma能變成具備令人驚歎藝術效果的作品,下面是一組示例:

從技術原理上說,Prisma使用了GAN對抗生成網絡,是一款典型的基于深度網絡的人工智能應用。但用過Prisma的人都知道其實際體驗并不是非常友好,在最初的時候,使用者首先要上傳待修的圖檔到Prisma伺服器上,經過一段時間才能夠下載下傳修好的作品。但随着Prisma的火爆,使用者雲端等待時間越來越長,國内使用者更是要忍受連接配接到俄羅斯伺服器的爆高網絡延遲。盡管後來Prisma實作了本地計算,但其速度仍然比較緩慢,部分風格濾鏡需要計算10秒以上才能完成圖檔轉換,當然相比此前隻能依賴雲端計算,其體驗已經有所進步,但與美圖等主流修圖應用的修圖速度仍然無法相比。

Prisma上述這些體驗的不完美,其主要原因是深度神經網絡的執行需要大量的計算。一般而言,建立一款如Prisma的人工智能應用,需要通過訓練(training)和推斷(inference)兩個過程:訓練是通過大量的資料輸入,或采取增強學習等非監督學習方法,訓練出一個神經網絡模型,如對于Prisma來說,在訓練過程中神經網絡學習了大量的繪畫風格。一旦訓練完成,即可使用由訓練确定的權值進行計算,如Prisma中通過訓練好的網絡改變圖像風格,這個應用的過程被稱為推斷(inference)。

由于深度神經網絡本身的特征,在推斷過程中往往需要大量的權重計算,這在伺服器端通常沒什麼問題,但一旦放在手機等裝置上就有點捉襟見肘了。如Prisma的手機本地端計算,雖然通過大量優化顯著降低了模型的複雜度(當然這樣做的直接後果就是效果變差了),但對于手機CPU來說仍然負荷很大。

這樣一來問題就擺出來了,如果要讓手機掌握更多的人工智能應用,需要讓手機具備強大的計算能力做inference,否則使用者體驗難以保障,但摩爾定律畢竟放在哪,CPU本身目前難以具備如此的計算能力,這就是深度神經網絡在手機等各種嵌入式裝置上的應用難題。

這時候,深度網絡加速晶片應運而生了。

深度網絡加速晶片是怎麼一回事?在深度神經網絡的應用過程中,人們發現實際上複雜的神經網絡架構中計算量通常都集中在少量的計算類型上,比如矩陣運算,如果設計一款專門優化的硬體晶片從事這些繁重的計算,正如當年CPU對複雜的圖像運算力不從心,催生了GPU的出現,豈不是把問題給解決了?

業界确實是這樣做的,如谷歌自家推出的深度網絡加速晶片TPU,定義了十幾個專門為神經網絡推理而設計的進階指令,比如矩陣運算、計算激活函數、讀取/寫入記憶體等,相比用CPU進行相同的計算,TPU的功耗效率(performance/Watt, 每耗電1瓦的性能)比CPU高出80倍,下圖列出的是谷歌TPU部分核心的進階指令。

這時候,大家是不是想起了比特币礦機中的ASIC(專用內建電路)呢?沒錯,深度網絡加速晶片也是一款ASIC,隻不過比特币的ASIC隻能進行哈希運算,深度網絡加速晶片則定位于承載若幹種深度網絡的常用計算。

而華為Mate 10即将搭配的寒武紀晶片,也正是這樣的一款深度網絡加速晶片。由于目前寒武紀晶片尚未正式公布,其真實性能情況無從知曉,但從寒武紀科技自家去年在計算機架構頂級會議ISCA上釋出的論文《Cambricon: An Instruction Set Architecture for Neural Networks》中,我們就能夠管中窺豹。論文中提及了寒武紀(Cambricon)是一款面向于目前神經網絡技術,內建了常量運算、向量運算、矩陣運算、邏輯運算、資料轉換以及控制指令等功能的深度神經網絡加速晶片架構(…..we propose a novel domain-specific Instruction Set Architecture (ISA) for NN accelerators, called Cambricon, which is a load-store architecture that integrates scalar, vector, matrix, logical, data transfer, and control instructions, based on a comprehensive analysis of existing NN techniques.),其主要定位是解決深度神經網絡中推斷(inference)所涉及的複雜計算問題。

到此為止,華為Mate 10上的麒麟970晶片,所搭載的人工智能子產品就相當清晰了:與其說它是一塊人工智能晶片,更準确地說是一塊深度網絡加速晶片,主要用于加速人工智能中深度神經網絡所帶來的複雜計算。

若真如此,華為粉絲們的熱切期待恐怕會失望了,麒麟970本身不會帶來任何夢幻的智能,而是賦予了手機本身處理深度神經網絡中前所未有的計算能力,讓如Prisma等需要跑在深度神經網絡上的應用能夠有革命性的體驗。

麒麟970上的深度網絡加速子產品,如果要為業界帶來沖擊的話,我認為首先是讓大家深入思考,在手機等移動裝置中加入深度網絡硬體加速,是否是一個未來的趨勢?消費者是否願意為這塊晶片買單?當然這個問題是很顯淺的,其核心在于是否能為消費者帶來有價值的應用場景。

深度神經網絡作為人工智能目前的半壁江山,其在智能語音、計算機視覺中有廣泛的應用,前者典型的應用如Siri等智能語音助手,以及基于此目前火爆得不能再火的智能音箱;而後者在消費端莫過于各種類似Prisma的修圖應用。

通過深度神經網絡,能實作圖像編輯的智能化。比如以往需要大量使用者手工操作的瘦臉、美顔、瘦腰、拉長腿,通過深度神經網絡的加持,使用者可以如使用Prisma的體驗一般,智能化搞定全部。當然圖像智能編輯是目前計算機視覺中的熱門應用,未來期待還有更多夢幻的應用出現。

對于很有可能搭載寒武紀的Mate 10,這裡大膽猜測一句,其廣告語會是“智能攝影大師”嗎(笑)?

圖像識别是另外一個應用點,比如,使用者在手機中标準了一張人臉後(比如同僚A),通過圖像識别,手機能把圖庫中所有含有同僚A的照片都篩選出來,這個運算在目前的智能手機上會非常緩慢,但有了深度網絡加速晶片後變得可能。

語音識别是深度網絡的另外一個核心應用,目前我們都知道,Siri、出門問問等語音助手都需要在聯網的狀态下才能使用,原因是語音識别的inference放在了雲端處理,而同樣通過深度網絡加速晶片,或許能實作手機本底端的識别,即在無網絡的情況下,依然能使用智能語音助手實作有限度的應用,比如讓助手找出通訊錄中符合條件的某個人。

當然,站在市場營銷層面,有很多實際上并不需要深度網絡加速晶片去加速的應用,都可以通過混淆概念的方式納入消費者的想象之中,比如拿起手機亮屏、在漆黑的環境中自動打開手電等。

然而我們客觀地說,目前智能手機上需要使用到深度網絡加速晶片去加速的應用,并不能算很多,其中真正能算是有效需求的更加寥寥無幾。在安防攝像頭、無人機、自動駕駛汽車中融合人工智能專用晶片無疑是未來的清晰趨勢,畢竟如無人駕駛汽車中,我們不能指望使用雲端的方式去做inference,畢竟網絡一旦出現問題,難道放任汽車撞樹上?但智能手機這個充分競争的領域,任何功能的革新都需要經過市場的長期考驗,而其中的關鍵還是在于場景。

而這次極有可能搭載了深度網絡加速晶片的Mate 10,将會為我們帶來什麼尚未想象到的場景?或許這點,才是我們真正需要熱切期待的。

本文作者:胡嘉琪TakeeWOO

繼續閱讀