天天看點

晶片戰争新思路:用英偉達的方式,抗衡英偉達

晶片戰争新思路:用英偉達的方式,抗衡英偉達

甲子光年

2024-06-07 17:50釋出于北京甲子光年官方賬号

晶片戰争新思路:用英偉達的方式,抗衡英偉達

作者|王藝

編輯|王博

6月6日,英偉達市值達到了3.01萬億美元,超過蘋果成為全球市值第二高的公司,僅次于微軟。

而去年此時,英偉達的市值剛剛突破萬億美元,成為美國第七個,也是史上第九個跻身萬億市值俱樂部的科技公司。

當年的曹阿瞞,如今已成為了曹丞相。

“規模達3萬億美元的IT行業,即将打造的商品能夠直接服務于100萬億美元的其他行業。這個商品不再僅僅是資訊存儲或資料處理工具,而是一個能為各個行業生成智能的工廠。”英偉達創始人兼CEO黃仁勳6月2日在Computex 2024(2024台北國際電腦展)上發表主題演講時志得意滿。

在生成式AI時代,英偉達的成功無需贅述。盡管台下站滿了挑戰者,包括老對手英特爾、AMD,大廠華為、谷歌、微軟,以及國内獨角獸摩爾線程、寒武紀、壁仞科技等,不時還有英偉達的“裂縫”“破綻”等分析文章,挑戰者不可謂不強,分析也不是沒有道理,但英偉達的市值說明了一切。

但是,這并不意味着其它晶片廠商就沒有機會,關鍵是要找到合适的方法。

面對号稱擁有的八十萬大軍的曹操,江東群儒議論紛紛,甚至有人喊出:“曹操雖挾天子以令諸侯,猶是相國曹參之後。劉豫州雖雲中山靖王苗裔,卻無可稽考,眼見隻是織席販屦之夫耳,何足與曹操抗衡哉!”

面對強勢的英偉達,國内妄自菲薄之聲也不少,就像當年的江東群儒一樣。

但也有人在思考“破曹之策”。曹操此前赢得官渡之戰,來自烏巢的一場火。而赤壁之戰前,諸葛亮和周瑜寫在手心的默契也是“火”。

用英偉達蠶食英特爾市場的方式,來與英偉達抗衡,就是晶片廠商欲燃起的“火”。

1.改變CPU依賴

上世紀80到90年代,是英特爾及其x86架構主導的年代。

x86架構始于1978年,當時英特爾公司推出了16位微處理器8086。由于以“86”作為結尾,是以其架構被稱為x86。

到了1997年,全球超過90%的個人電腦和資料中心都搭載了英特爾的CPU(中央處理器),計算機内部大部分的互聯協定、接口标準、晶片組和主機闆标準、記憶體标準、網絡标準等,都是由英特爾定義的。

那個年代,還有不少公司也在開發CPU這種執行輸入計算機的指令的通用晶片。不過,上世紀90年代初,SunSoft公司有三位工程師(兩位工程師、一位合作工程師)被委派建構一種可以與CPU一起插入SunSoft工作站并可以在螢幕上渲染圖形的晶片。

這款晶片被認為是英偉達GPU(圖形處理器)的前身,而這三個人是克裡斯·馬拉科夫斯基(Chris Malachowsky)、柯蒂斯·普裡姆(Curtis Priem)和黃仁勳。

1993年,他們三個人共同創立了英偉達,他們并沒有選擇研發CPU直接與英特爾競争,而是選擇入局基于圖形和視訊遊戲的計算卡市場。

盡管英偉達首款産品NV1賣得并不好,但是1997年其推出的128位3D處理器RIVA 128在四個月内出貨量突破100萬台;1999年推出的GeForce 256更是成為了當時的爆款産品,圖形計算卡也是以有了一個新的名字——GPU。

GeForce256的革命性突破在于T&L引擎(Transforming&Lighting,坐标轉化和光照計算)的加入,這使得顯示卡能夠進行大量浮點運算,并将原本依賴CPU的3D計算剝離到顯示卡上,進而釋放了大量CPU資源。這讓遊戲運作更流暢的同時,也大幅提高了畫面的精細度。

是以,GeForce256直接改變了業内的競争格局,之前用“高端CPU”才能完成的工作,變成了用“正常CPU+GeForce256”就能完成,而且流暢度更好。

這意味着,一部分使用者對CPU的依賴,逐漸轉到了對GPU的依賴。

CPU和GPU是計算機中兩種不同類型的處理器,CPU設計用于執行廣泛的計算任務,特别是順序處理和複雜邏輯,擁有較少但功能強大的核心;而GPU則專為處理大量并行計算任務而設計,如圖形渲染和視訊處理,擁有大量但功能相對簡單的核心,使得GPU在處理多線程和資料密集型任務時更為高效。

晶片戰争新思路:用英偉達的方式,抗衡英偉達

CPU和GPU的對比,圖檔來源:英偉達

英偉達最初設計GPU是為了給《光環》和《俠盜獵車手》等熱門的電子遊戲快速渲染圖形,但在這個過程中,深度學習的研究人員意識到,GPU同樣擅長運作支撐神經網絡的數學。基于這些晶片,神經網絡能夠在更短的時間内從更多的資料中進行學習。

2006年,英偉達推出CUDA(Compute Unified Device Architecture,統一計算架構),極大地簡化了并行程式設計的複雜性,使得開發者能夠輕松地為裝有GPU的電腦程式設計,讓電腦不僅能夠處理圖形設計任務,還能夠進行高效的資料運算。實際上,這樣的電腦在性能上已經相當于一個超級計算機,成本卻大大降低,這使得高性能計算變得更加普及。

2009年深秋,一位六十多歲的學者從加拿大多倫多來到美國西雅圖,由于腰椎間盤有傷,他幾乎無法彎腰或坐着,隻能躺着或站着,但他還是堅持和當地微軟實驗室的同仁開啟了一個項目——利用之前的研究成果打造一個原型,訓練一個神經網絡來識别口語詞彙。

這位學者就是多倫多大學計算機科學系教授傑弗裡·辛頓(Geoffrey Hinton),在這個項目中,他們就使用了英偉達的GPU。在項目組裡的人認為GPU是用來玩遊戲的,而不是用來做人工智能研究的時候,辛頓當時直言,如果沒有一套完全不同的硬體,包括一塊價值一萬美元的GPU顯示卡,這個項目就不會成功。

晶片戰争新思路:用英偉達的方式,抗衡英偉達

傑弗裡·辛頓,圖檔來源:多倫多大學

2012年10月,辛頓和他的兩名學生——亞曆克斯·克裡哲夫斯基(Alex Krizhevsky)、伊利亞·蘇茨克維(Ilya Sutskever),在ImageNet圖像識别比賽上拿了冠軍,并且發表論文介紹了AlexNet架構,而他們訓練這種全新的深度卷積神經網絡架構僅用了兩塊英偉達GPU。

AlexNet團隊參賽的時候發現,如果用CPU來訓練AlexNet需要幾個月的時間,于是他們嘗試了一下英偉達的GPU,沒想到用兩張GTX 580顯示卡隻花了一周的時間就完成了1400萬張圖檔的訓練。這場比賽不僅加速了神經網絡研究的發展,更是讓GPU進入了更多AI研究者、工程師的視野——很快,網際網路公司和高校實驗室就開始向英偉達訂購GPU。

英偉達自然也意識到了GPU對于AI加速計算的重要性,并開始着重布局專門用于AI訓練的GPU産品。2016年,黃仁勳向OpenAI捐贈了首台DGX-1,并在上面寫到:To Elon & the OpenAI Team! To the future of computing and humanity. I present you the World's First DGX-1!(緻埃隆和OpenAI團隊!緻計算和人類的未來。我為你們呈上世界上首台DGX-1!)

晶片戰争新思路:用英偉達的方式,抗衡英偉達

黃仁勳向OpenAI捐贈DGX-1,圖檔來源:馬斯克社交媒體賬号

六年後,OpenAI的ChatGPT掀起大模型浪潮,開啟了對算力的新一輪緊迫需求;後面的故事大家都知道了——英偉達的GPU和資料中心迎超強勁爆發,一年内利潤暴漲8倍,一卡難求。

而英特爾,逐漸被英偉達甩開了。

根據Counterpoint的資料,2022年Q4英特爾的資料中心還有46.4%的市場佔有率,但是由于在AI晶片領域的競争力不足,2023年Q3其市場佔有率降至19.1%;而英偉達資料中心的市場佔有率則一路走高,從2022年Q4的36.5%增長到2023年Q3的72.8%。

晶片戰争新思路:用英偉達的方式,抗衡英偉達

英偉達、AMD、英特爾的資料中心市場佔有率變化,圖檔來源:Finbold

如今,英偉達是AI領域繞不過去的名字。四年前,當27歲的英偉達市值首次超過英特爾時,這被看作“一個時代的終結”。而到了今年6月6日,當英偉達市值達到3.01萬億美元時,其市值已是英特爾的23倍。

晶片戰争新思路:用英偉達的方式,抗衡英偉達

英偉達和英特爾市值對比(圖表資料截至2024年1月),圖檔來源:EEAGLI

英偉達超越英特爾并不是研發出了比英特爾更強的CPU,也不是強行建立生态,而是先融入到英特爾的生态中,再利用其獨特優勢,瞄準GPU進行單點突破,讓使用者逐漸減少對CPU的依賴,轉而加強對GPU的依賴,最終建立自己的生态。

最終的結果是,由于需求的減少,CPU的疊代速度變慢,而GPU的疊代速度在加快。

去年,英偉達發文宣布了“黃氏定律(Huang's Law)”,該定律預測GPU将推動AI性能實作逐年翻倍。與摩爾定律關注于半導體數量的翻倍不同,黃氏定律着重于GPU在AI處理能力方面的增長。在過去十年中,英偉達GPU的人工智能處理能力增長了1000倍。

晶片戰争新思路:用英偉達的方式,抗衡英偉達

單晶片推理性能變化,圖檔來源:英偉達

黃仁勳在Computex 2024的主題演講中特意曬出了CPU和GPU的對比圖,并表示,CPU性能的擴充速度無法再跟上資料持續呈指數級增長的速度,但還有一個更好的辦法就是加速計算。

“CUDA增強了(原本由)CPU(提供的計算能力),解除安裝的同時加速了更适合由專用處理器處理的工作負載。事實上,性能提升十分顯著,随着CPU擴充速度減慢并最終基本停止,答案顯而易見,加速計算才是解決之道。”黃仁勳說。

晶片戰争新思路:用英偉達的方式,抗衡英偉達

黃仁勳在Computex 2024的主題演講,圖檔來源:英偉達

如果要用一個詞總結英偉達的打法,那就是“異構”。

英偉達所做的“異構”,就是把算力的提供方從CPU,變成CPU+GPU。這種創新架構帶來的性能提升是驚人的,加速100倍,而功率僅增加約3倍,成本僅上升約50%。“我們在PC行業早已實踐了這種政策。在資料中心,我們也采用了同樣的方法。”黃仁勳說。

英偉達在今年GTC推出的GB200超級晶片就是由兩張B200 Blackwell GPU和一張Grace CPU組成。這種組合提供了強大的推理能力,特别是在處理大語言模型時,推理性能比H100提升了30倍,成本和能耗降至原來的1/25。

晶片戰争新思路:用英偉達的方式,抗衡英偉達

GB200超級晶片,圖檔來源:英偉達

英偉達超越英特爾,不是一個新的CPU的故事,也不是GPU取代了CPU的故事,而是CPU+GPU異構的硬體形态逐漸地取代了CPU叢集的故事。

英偉達的打法,對如今的AI晶片公司有很大的借鑒意義——跟巨頭競争,可以不走“替代”的邏輯,而是進行“配比”的藝術,在原有的遊戲規則下把單點拉滿,拉到原有霸主追不上,進而擴充自己的生态位。

那麼,新的單點是什麼呢?

2.尋找新的單點

現在算力行業的痛點是,英偉達的晶片太貴、供不應求,對于國内使用者來說,還要加上高性能晶片無法通過合法管道買到這一條。

盡管其它晶片廠家也在追趕英偉達,推出各種AI晶片。但是,某晶片廠商大模型專家陳風(化名)告訴「甲子光年」,想要提升算力,必須在軟體和硬體兩方面同步發力,而英偉達的CUDA和其硬體的适配體系做得太好,以至于在算力使用率上,其他廠商很難望其項背。

“就以AMD為例,單卡算力是383TFLOPs,已經比英偉達的某些卡要高了,但是算力的使用率就是比英偉達低,為什麼呢?因為軟體沒有辦法充分發揮硬體的性能。大家都能做7納米又如何?你即使是用7納米的晶片,算力使用率也做不過英偉達320TFLOPs的GPU。”陳風說。

不過英偉達的這種算力叢集,也是規模不經濟的。如今,大模型巨大的邊際成本也已經成為其商業化最大的障礙。紅杉資本透露,AI行業去年僅在英偉達晶片上就花費了500億美元,但産出的營收隻有30億美元,投入産出比為17:1。

有晶片廠商意識到,英偉達的好和貴,是把自家單卡産品疊疊羅漢、加上NVLink、NVSwitch和Infiniband等互聯技術和CUDA平台,構成一個封閉的體系實作的。如果參考英偉達超越英特爾的方式,不跟英偉達硬拼“CPU+GPU”,而是去找一個新單點,用“CPU+GPU+新單點”的體系,慢慢侵蝕掉英偉達封閉昂貴的舊體系,是不是就能把價格打下來,同時解構掉英偉達原來的優勢地位了呢?

那麼,這個新單點是什麼呢?

把目光放到需求端,一切似乎都有了答案。

目前,以GPT為代表的大模型主要是Transformer架構,這一架構的特點就是相當吃顯存。

這不隻是因為Transformer模型通常包含大量的權重參數,更是因為自回歸算法讓Transformer模型在處理序列資料時,每增加一個輸入序列的長度,就需要更多的顯存來存儲該序列的嵌入向量、鍵(key)、查詢(query)和值(value)向量,以及中間計算的隐藏狀态,特别是自注意力機制的計算複雜度還與序列長度的平方成正比;同時,Transformer每層都會産生大量的激活張量,這些張量在反向傳播期間用于計算梯度,也需要暫存在顯存中……種種因素,導緻随着輸入序列長度的增長,顯存占用迅速上升。

晶片戰争新思路:用英偉達的方式,抗衡英偉達

Transformer架構運作過程,圖檔來源:Jay Alammar

針對大模型推理這類訪存密集型的任務,顯存及其帶寬會明顯限制其對算力的利用,是以在考慮算力需求的時候,似乎也不能單單考慮FLOPs的需求,顯存容量及帶寬同樣重要。

在大模型的遊戲規則下,顯存容量、顯存帶寬以及互聯帶寬變成了最核心的競争力,而算力的重要性和優先級則在默默向後排。

做一張“顯存名額很高的新型計算卡”就是新的單點,這就給其它晶片廠商提供了一個和英偉達競争的新思路——向着顯存,全速前進。

3.大膽假設,小心求證

季宇就是這麼想的,作為英偉達的粉絲,他希望用英偉達的方式超越英偉達,也是以将目光聚焦在了大模型對顯存的需求上。

季宇畢業于清華大學計算機系,博士期間一直專注于神經網絡加速器、編譯器和面向系統優化的機器學習的研究,畢業後作為華為“天才少年”在海思從事昇騰編譯器架構師相關工作。2023年8月,他創立了行雲內建電路,主要緻力于研發下一代針對大模型場景的AI加速計算晶片。

具體來說,行雲內建電路希望做一張“顯存名額很高的新型計算卡”,通過”CPU+GPU+新型計算卡”的組合,去應對大模型推理時訪存密集的各種任務,進而把“顯存”這一單點拉滿,成為與英偉達體系相抗衡的存在。

“大模型有巨大的顯存需求是業界的共識。在英偉達也在不斷提升GPU的顯存規格來滿足市場需求,但我們希望用兩張卡,也就是一張算力密集的卡、一張訪存密集的卡來解決這個問題。兩張卡的方案裡面,算力密集的那張卡甚至可以是英偉達的GPU。”季宇說。

季宇也特别在意“異構”,“不過我講的‘異構’是類似過去CPU和GPU這種不同産品生态位的異構,今天算力行業說得很多的‘異構’是指同一個晶片生态位下不同晶片的異構,比如不同的AI晶片”。行雲內建電路的定位是一家晶片廠商,而非算力營運商,“我們是賣卡,英偉達和伺服器廠商什麼關系,我們就和伺服器廠商什麼關系”。

對于生态,季宇認為任何繁榮的産業都需要一個開放的生态體系,也就是一個“白盒”,大模型産業也不例外。但英偉達是一個封閉的體系,把算力、記憶體、互聯等各項标準都做得很強,導緻自己的黑盒體系越來越有競争力、也越來越封閉。

“今天有太多公司為了跟英偉達的這套體系競争,既要做單卡、又要做互聯、伺服器、網絡,自建和英偉達對标的私有體系投入巨大,也極其困難,如果能給業界塑造一個可擴充的白盒體系,讓體系内的參與者在每個次元與英偉達充分競争,把英偉達的這套私有體系的力量打散,或許能有與英偉達體系博弈的機會。”季宇告訴「甲子光年」,“當然英偉達也可以在每個次元做到非常領先,隻是它的溢價一定會被越來越強的同行給稀釋罷了。”

不過季宇也坦言,目前産品還沒出來,一些假設也有待論證。目前最重要的是吸引更多志同道合的人才、合作夥伴,踏實做好研發工作。

長期關注半導體行業的新鼎資本合夥人劉霞認為,這種新的AI晶片競争思路可以更好地滿足不同的應用需求,在某些特定的場景下會産生更好的效果和成本效益。“這種方案的确很有啟發性,但是也有困難和風險,涉及到各個廠商之間的高度的協作和協調,也涉及到技術名額、利潤配置設定等各種複雜的問題,需要在研發過程當中,不斷的适配新場景,不斷的探索和優化。”劉霞說。

魯民投上海投資總監楊浩也表示,這種聯合全行業做白盒生态的思路非常新穎,“現在大家都想挑戰英偉達,但是确實生态跟不上,國内隻有少部分公司在做。如果能通過新型産品打開突破口,建立一個新的生态的話,前景确實值得期待。”

然而,在國内某晶片初創公司工程師劉永(化名)看來,行雲內建電路提出的新思路,還有待讨論。

“目前主流擴顯存的方式是在一張卡裡把GPU和HBM的配比做到均衡,然後利用片間互連的方式,将多張這樣的卡相連接配接,共同為大模型提供服務。這種方式能夠實作顯存的擴充,也可以充分利用其他卡的算力資源,實作并行計算,同時高效的資料交換和同步。”劉永說。

劉永認為,行雲內建電路的确提出了一種新穎的設計方式,可以顯著擴充可用顯存容量,進而能夠處理更大規模的模型和資料集,超越單卡顯存容量的限制,在大顯存卡上可能會颠覆現有的存儲層次結構(多級cache+HBM的方案),設計可能會更簡單,也有更多面積可以用到HBM上,成本更低、容量更大。

晶片戰争新思路:用英偉達的方式,抗衡英偉達

GPU緩存機制,圖檔來源:ZOMI醬

劉永提到的HBM(High Bandwidth Memory,高帶寬記憶體)是一種先進的存儲技術,專為需要大量資料吞吐量的應用場景設計,非常适合用于AI加速計算,HBM也是制約單晶片能力的最大瓶頸之一。

HBM将多個DRAM晶片通過矽中介層(interposer)堆疊在一起,并直接連接配接到GPU或其他處理器,而不是像傳統記憶體那樣通過主機闆上的記憶體插槽連接配接。由于每個DRAM層都能夠通過短路徑直接與處理器通信,減少了資料傳輸的延遲,是以HBM的這種三維堆疊結構極大提高了顯存容量和能力。

但HBM技術涉及到先進封裝工藝,也是國内被外部限制的領域,想靠HBM擴大顯存,阻力重重。

“HBM的成本幾乎占據了一張晶片成本的50%,而且現在國内能做HBM的企業不多,隻有長鑫存儲,但是長鑫存儲的工藝較之台積電、日月光還是落後一點。HBM3E(最新一代HBM)還在流片過程中且品質不穩定,而英偉達Blackwell架構的GPU B100已經用上HBM3E了。”昇騰大模型訓練專家、B站AI科普視訊UP主ZOMI醬告訴「甲子光年」。

由此看來,大模型和GPU是明戰,HBM則是暗戰。

甲子光年智庫認為,AI生産時代,算力是生産力的壓艙石。這裡面最大的命題是,要解決算力供需結構的沖突。整個“算力江湖”的構成是極其複雜和多元的,并不存在一個能夠統領全局的“鐵王座”。

雖說技術對晶片至關重要,但晶片更需要的是市場。

英偉達用一種方式超越了英特爾,誰能說不會出現新的挑戰者,用英偉達的方式與英偉達抗衡呢?

“東風不與周郎便,銅雀春深鎖二喬。”在晶片的“戰争”中,不少晶片廠商如同江東的将士們一樣,已經做好了準備,“隻待風來”。

*參考資料:

《晶片戰争》,餘盛

《深度學習革命》,凱德·梅茨

*應受訪者要求,陳風、劉永為化名。

(封面圖來源:電影《赤壁》)

檢視原圖 821K

  • 晶片戰争新思路:用英偉達的方式,抗衡英偉達
  • 晶片戰争新思路:用英偉達的方式,抗衡英偉達
  • 晶片戰争新思路:用英偉達的方式,抗衡英偉達
  • 晶片戰争新思路:用英偉達的方式,抗衡英偉達
  • 晶片戰争新思路:用英偉達的方式,抗衡英偉達
  • 晶片戰争新思路:用英偉達的方式,抗衡英偉達
  • 晶片戰争新思路:用英偉達的方式,抗衡英偉達
  • 晶片戰争新思路:用英偉達的方式,抗衡英偉達
  • 晶片戰争新思路:用英偉達的方式,抗衡英偉達
  • 晶片戰争新思路:用英偉達的方式,抗衡英偉達
  • 晶片戰争新思路:用英偉達的方式,抗衡英偉達

繼續閱讀