天天看點

拿着錘子找釘子,數字晶片上司者比特大陸進軍人工智能

占領了虛拟貨币晶片80%以上的市場後,比特大陸開始拿着高性能計算晶片設計的“錘子“探索新的”釘子“,而深度學習計算晶片無疑是其中最大的一顆。

随着大資料發展、深度學習算法和計算技術的突破,人工智能掀起了新的時代浪潮。同時,全球科技巨頭如Google, Facebook, Microsoft,國内BAT都在搶占布局AI市場。而晶片和算法,被視為是人工智能産業的重要技術支撐。

近日,北京比特大陸科技有限公司(以下簡稱“比特大陸”/BITMAIN)推出了人工智能品牌SOPHON(算豐),并重磅釋出了面向人工智能應用的專用定制晶片SOPHON BM1680,深度學習加速卡SC1和SC1+以及智能視訊分析伺服器SS1。同時,筆者注意到,“算豐”的官網SOPHON.AI已正式上線,比特大陸的晶片、加速卡和處理器都已經進入量産階段,11月8日在官網全球發售。

“人工智能驅動了又一個星球級的計算體量。”比特大陸聯合創始人、CEO詹克團在釋出會上表示。

比特大陸釋出的三款産品标志着其正式進軍AI晶片領域。作為今年人工智能領域的重要賽道之一,盡管“人工智能晶片”相比于語音識别等技術,在消費級市場并沒有得到大衆的特别關注,但是作為人工智能的基礎硬體設施,其已經成為諸多公司搶奪人工智能市場、占據風口的一大戰略制勝點。

國内,相關初創公司戰況愈烈:上個月,主打“嵌入式”的地平線機器人獲得來自英特爾的戰投,預計年底前将完成A輪融資;同月晚些時候,深鑒科技宣布已完成約4000萬美金的A+輪融資,将加大對安防和相關研發投入;今年8月,寒武紀完成一億美元A輪融資,成為人工智能晶片領域的首個獨角獸。而英特爾等國際大公司也在陸續進入這個炙手可熱的領域:英特爾陸續收購Altera、Mobileye等多家公司,拿下相關技術;晶片大廠英偉達則憑借在GPU上的優勢走在了人工智能晶片的前列,前幾個月,黃仁勳在GTC技術大會上還釋出了一款針對深度學習而打造的晶片Tesla V100;微軟則把重心放在FPGA人工智能晶片上,目前已經被用在Bing搜尋的支援上。

入場人工智能領域,是比特大陸的重要一步。而這家全球最大的數字貨币晶片及硬體公司入局人工智能領域也無疑對這個賽道産生了不可置疑的巨大影響。

拿着錘子找釘子,現在是進軍人工智能行業的最佳時機

在第三次的人工智能浪潮中,作為讓人工智能技術更快、更好運作的基礎硬體設施,人工智能晶片必然是未來智能化時代的重要底層技術。也是以,雖然人工智能晶片相比于其他人工智能技術和應用顯得低調得多,但它的布局依舊是衆多廠商眼中不能錯過的“機遇”。

比特大陸顯然也看好這一機會,而多年來在晶片應用領域多積累的專業經驗,也讓其在切入這一新領域的過程中深入且高效:彙聚了世界各地對AI懷抱無限激情的工作者,比特大陸的研發團隊中有全球晶片設計領域的一流專家,有深度學習算法領域的頂級高手,有計算機視覺領域的超級大師,這個團隊亟待在具有強大競争對手的AI領域開辟出一片前所未有的天地。

數字貨币晶片出身的比特大陸成立于2013年,詹克團稱在比特币、萊特币這些主要的虛拟數字貨币市場上,比特大陸的占有率已經超過80%,甚至可能超過90%。比特大陸用全定制的晶片設計方法去設計高速低功耗的晶片。在今年16納米節點上,其晶片出貨量已經超過10億隻,而其商業模式非常簡單,最核心就是賣比特币等虛拟貨币的挖礦機。除了研發和銷售礦機,比特大陸還在建設和部署大型的資料中心。

“在比特币上小有成就之後,我們感覺自己手裡好像拿着一把錘子,到處看哪裡都是釘子”,就在找釘子的過程中,我們發現深度學習是非常适合用錘子對付的釘子,是以我們開始做這個深度學習計算晶片。

比特大陸很早就意識到,不斷提升的計算量在計算機體系結構上面要做一定的創新,傳統的CPU顯然不合适。是以,從各種産業和論文都可以看到,其實深度學習用在Cloud端高性能晶片的體系結構,都已經慢慢往Tensor架構靠攏。

拿着錘子找釘子,數字晶片上司者比特大陸進軍人工智能

從Cloud端看Deep Learning計算非常簡單,一個是成本效益和能耗比。對于Deep Learning來說,确實在這兩個方面會表現的相當好,是以對于雲端的Deep Learning計算,我認為谷歌提出“TPU”張量計算處理器,Tensor這個名字是很合适的。

“但Deep Learning計算還有另外一種晶片應用,就是終端,我個人認為這是更加困難的,做這種架構由于不得不受限于單晶片的功耗,不能太大,一般來說這種晶片很難超過10瓦,是以設計這種的體系結構是非常有挑戰的一件事情。”詹克團稱。

“在數字貨币領域經過戰争般的洗禮,進而奠定我們的優勢,我們會跑的快一點。”

“我們從2013年就開始做,如果一定要說我們有什麼優勢,那就是我們可能會跑得比較快一點,畢竟我們的公司的市場管理、研發管理、财務,還有很多東西我們已經在虛拟貨币市場上經過戰争般的洗禮,虛拟貨币這個市場又是發展非常快速的市場,是以相對來說比特大陸可能會動作會更快一點點。”在釋出會上,詹克團如此描述入主人工智能晶片領域的優勢。

據了解,比特大陸基于自研的數字貨币晶片,研發和量産了高性能、高密度的伺服器系統礦機,且在全球多個地區建立資料中心,并基于此搭建雲計算服務及大規模并行計算資源排程服務平台。

成立四年多來,比特大陸的産品已銷往全球100多個國家,且在海外多個國家設定銷售和客服團隊,提供24小時支援服務,覆寫中文、英語、俄語、韓語等。對标谷歌TPU,面向全球傳遞采用改進型“Systolic脈動陳列”技術的AI晶片

随着資料量級的迅速增大,深度學習在硬體執行上一直面臨瓶頸。

大概3年前,CPU還是人們在應用機器學習算法時最常用的硬體晶片。CPU基于其構造,70%的半導體都被用來建構Cache,還有一部分用來控制單元,計算單元少,适合運算複雜邏輯複雜的算法,對程式員來說非常友好。但是,随着資料量和運算量的迅速增加,CPU執行機器學習的缺點也逐漸暴露。CPU為了滿足通用性,很大一部分的晶片面積用于複雜的控制流,犧牲了運算效率,并且,CPU也不支援張量計算。

這時候,GPU進入了機器學習研究者的視野。GPU半導體大部分建構計算單元,運算複雜度低,适合大規模并行計算。以圖像渲染為目的的GPU支援SIMD架構,這一點對機器學習算法非常有效。是以GPU的SIMT架構雖然能遮蓋記憶體通路實作高吞吐量,但是能效比(即執行完機關運算需要的能量)并不好。但是,目前能效比正在成為越來越重要的名額。對于移動應用,能效比不好意味着電池很快就會被用完,影響人工智能的普及;對于雲端資料中心應用,能效比不好則意味着資料中心需要在散熱投入許多錢,而目前散熱已經成為資料中心最大的開銷之一。

在去年的谷歌 I/O 開發者大會上,谷歌宣布釋出了一款新的定制化硬體——張量處理器(Tensor Processing Unit/TPU),這一新想法的提出令業内人士激動不已,但谷歌遲遲沒有公布細節。直到今年4月份,Google發表論文,詳解了神經網絡推斷專用晶片TPU的架構,還展示了一些性能資料,比如說:在推斷任務中,TPU平均比英偉達的Tesla K80 GPU或英特爾至強E5-2699 v3 CPU速度快15至30倍左右。

TPU作為一種人工智能技術專用處理器,在種類上歸屬于ASIC(Application Specific Integrated Circuit,為專門目的而設計的內建電路)。相比人工智能技術常見的另外幾種處理器CPU(中央處理器)、GPU(圖像處理器)、FPGA(陣列可程式設計邏輯門陣列),ASIC天生就是為了應用場景而生,不會有備援,功耗低、計算性能高、計算效率高,是以在性能表現和工作效率上都更加突出。

以下是Google硬體工程師 Norm Jouppi 在Google雲計算部落格上透露的部分性能資訊:

1、在神經網絡層面的操作上,處理速度比當下GPU和CPU快15到30倍;

2、在能效比方面,比GPU和CPU高30到80倍;

3、在代碼上也更加簡單,100到1500行代碼即可以驅動神經網絡;

這要歸功于ASIC本身的特點:處理器的計算部分專門為目标資料設計,不需要考慮相容多種情況,控制配套結構非常簡單,間接提升了能效比;可以在硬體層面對軟體層面提前進行優化,優化到位的情況下可以極大減少API接口的工作量。

在谷歌的TPU處理器中,最大的創新點之一就是采用了Systolic(脈動式)資料流。在矩陣乘法和卷積運算中,許多資料是可以複用的,同一個資料需要和許多不同的權重相乘并累加以獲得最後結果。是以,在不同的時刻,資料輸入中往往隻有一兩個新資料需要從外面取,其他的資料隻是上一個時刻資料的移位。在這種情況下,把記憶體的資料全部Flush再去去新的資料無疑是非常低效的。根據這個計算特性,TPU加入了脈動式資料流的支援,每個時鐘周期資料移位,并取回一個新資料。這樣做可以最大化資料複用,并減小記憶體通路次數,在降低記憶體帶寬壓力的同時也減小了記憶體通路的能量消耗。

Systolic事實上并不是一個太新的東西,在1982年,H. T. Kung首次在論文中提出了這一設計,對于為什麼要設計這樣的架構,作者給出了三個理由:要真正了解脈動陣列,首先要問的就是發明者的初衷。這正好也是1982年H. T. Kung論文的題目。對于為什麼要設計這樣的架構,作者給出了三個理由:

對于為什麼要設計這樣的架構,作者給出了三個理由:

1. Simple and regular design:簡單和規則是脈動陣列的一個重要原則。

2. Concurrency and communication:并行性和通信的重要。

3. Balancing computation with I/O:平衡運算和I/O,這是脈動陣列最重要的設計目标。

總結來說,正如一位知乎大v唐杉所說:脈動架構是一種很特殊的設計,結構簡單,實作成本低。

脈動架構有幾個特征:

1. 由多個同構的PE構成,可以是一維或二維,串行、陣列或樹的結構(現在我們看到的更多的是陣列形式);

2. PE功能相對簡單,系統通過實作大量PE并行來提高運算的效率;

3. PE隻能向相鄰的PE發送資料(在一些二維結構中,也可能有對角線方向的資料通道)。資料采用流水線的方式向“下遊”流動,直到流出最後的PE。

值得一提的是,和谷歌TPU的核心一樣,SOPHON BM1680内部的加速器核心也采用了脈動陣列(Systolic)架構技術。Systolic在處理Deep Learning運算上有得天獨厚的優勢,用硬體實作多元的資料搬運和計算任務的排程,就可以獲得非常高的性能,适合用在雲端做加速。

拿着錘子找釘子,數字晶片上司者比特大陸進軍人工智能

據了解,SOPHON BM1680可适用于CNN、RNN和DNN等多網絡的預測和訓練,這也是繼谷歌釋出TPU之後,又一款專門用于張量計算加速的專用晶片(ASIC)。

最後,比特大陸也給出了SOPHON的疊代時間線:第二代晶片BM1682下個月釋出,也是采用16納米工藝,功耗差不多還是30瓦,計算能力大概是3T。第三代晶片會在明年的9月份釋出,采用12納米工藝,功耗30瓦,計算能力到6T。

拿着錘子找釘子,數字晶片上司者比特大陸進軍人工智能

《三體》中的超級機器人SOPHON:伺服器+軟體全棧+應用API的全套解決方案

SOPHON的名字來自劉慈欣的小說《三體》。在《三體》中,SOPHON是被三體人制造出來鎖死地球科技的強人工智能體。比特大陸對SOPHON的厚望也如此,除了作為晶片提供方,SOPHON緻力于擁有軟硬體全棧開發的能力,和各個層次的工具鍊能力。從硬體、驅動、指令集、線性代數加速核心數學庫,RUNTIME庫,BM Deploy的Inference部署工具,FFT加速庫,針對SOPHON晶片優化的深度學習架構(Caffe,Darknet, Tensorflow,MXNet等),以真正實作軟體、硬體的協同設計和一體化的優化,實作深度學習應用在硬體上的最佳優化性能。

拿着錘子找釘子,數字晶片上司者比特大陸進軍人工智能

從SOPHON官網的參數介紹中可以了解到,BM1680現已支援Caffe Model和Darknet Model的編譯和優化,适用于Alexnet,GoogLeNet,VGG,ResNet,YOLO,YOLO2等網絡。

拿着錘子找釘子,數字晶片上司者比特大陸進軍人工智能

BM1680晶片架構圖(摘自BM1680 DATASHEET文檔)

基于BM1680晶片,比特大陸還推出了兩款新産品:深度學習加速卡SOPHON SC1和智能視訊分析伺服器SOPHON SS1,并同步釋出SOPHON.AI官網。會上,比特大陸通過該伺服器成功示範了機非人結構化demo,人體/人臉檢測Demo,這兩者廣泛應用于安防視訊監控、公安、交通、金融等領域。

拿着錘子找釘子,數字晶片上司者比特大陸進軍人工智能

SC1和SC1+的架構類似,都是PCIE的總線連入系統

據介紹,SOPHON SS1提供了一整套針對視訊和圖像識别技術的深度學習解決方案。系統核心元件是兩張SOPHON SC1(或SC1+)深度學習加速卡,通過PCIE接口實作與應用系統的連接配接。SS1的應用系統基于X86 CPU打造,以供啟動、存儲管理及深度學習SDK協調之用。SS1的整個系統被濃縮進一個4機架機關(4U)機箱中,集電源、冷卻、網絡、多系統互聯及檔案系統于一體,客戶可以在此基礎上實作快速的二次開發或系統內建,最大程度上友善了使用者對深度學習系統的利用。

“比特大陸在深度學習、AI領域的使命,或者說目标,和我們在數字貨币上面做的事情一樣,通過一點一點的、一代又一代的晶片,一代又一代的産品不斷疊代,把産品做到極緻,做到最好,服務好需要用到深度學習加速服務的使用者和應用。”詹克團稱。

比特大陸“千呼萬喚始出來”的人工智能晶片終于面世于衆,其在人工智能領域激起的新波瀾已然不容置疑。然而,在此次釋出的第一代産品基礎上,未來的産品疊代和相關生态建設可能是更加值得市場關注的問題。

原文釋出時間為:2017-11-14

繼續閱讀