晶片戰争新思路：用英偉達的方式，抗衡英偉達

甲子光年

2024-06-07 17:50釋出于北京甲子光年官方賬号

作者｜王藝

編輯｜王博

6月6日，英偉達市值達到了3.01萬億美元，超過蘋果成為全球市值第二高的公司，僅次于微軟。

而去年此時，英偉達的市值剛剛突破萬億美元，成為美國第七個，也是史上第九個跻身萬億市值俱樂部的科技公司。

當年的曹阿瞞，如今已成為了曹丞相。

“規模達3萬億美元的IT行業，即将打造的商品能夠直接服務于100萬億美元的其他行業。這個商品不再僅僅是資訊存儲或資料處理工具，而是一個能為各個行業生成智能的工廠。”英偉達創始人兼CEO黃仁勳6月2日在Computex 2024（2024台北國際電腦展）上發表主題演講時志得意滿。

在生成式AI時代，英偉達的成功無需贅述。盡管台下站滿了挑戰者，包括老對手英特爾、AMD，大廠華為、谷歌、微軟，以及國内獨角獸摩爾線程、寒武紀、壁仞科技等，不時還有英偉達的“裂縫”“破綻”等分析文章，挑戰者不可謂不強，分析也不是沒有道理，但英偉達的市值說明了一切。

但是，這并不意味着其它晶片廠商就沒有機會，關鍵是要找到合适的方法。

面對号稱擁有的八十萬大軍的曹操，江東群儒議論紛紛，甚至有人喊出：“曹操雖挾天子以令諸侯，猶是相國曹參之後。劉豫州雖雲中山靖王苗裔，卻無可稽考，眼見隻是織席販屦之夫耳，何足與曹操抗衡哉！”

面對強勢的英偉達，國内妄自菲薄之聲也不少，就像當年的江東群儒一樣。

但也有人在思考“破曹之策”。曹操此前赢得官渡之戰，來自烏巢的一場火。而赤壁之戰前，諸葛亮和周瑜寫在手心的默契也是“火”。

用英偉達蠶食英特爾市場的方式，來與英偉達抗衡，就是晶片廠商欲燃起的“火”。

1.改變CPU依賴

上世紀80到90年代，是英特爾及其x86架構主導的年代。

x86架構始于1978年，當時英特爾公司推出了16位微處理器8086。由于以“86”作為結尾，是以其架構被稱為x86。

到了1997年，全球超過90%的個人電腦和資料中心都搭載了英特爾的CPU（中央處理器），計算機内部大部分的互聯協定、接口标準、晶片組和主機闆标準、記憶體标準、網絡标準等，都是由英特爾定義的。

那個年代，還有不少公司也在開發CPU這種執行輸入計算機的指令的通用晶片。不過，上世紀90年代初，SunSoft公司有三位工程師（兩位工程師、一位合作工程師）被委派建構一種可以與CPU一起插入SunSoft工作站并可以在螢幕上渲染圖形的晶片。

這款晶片被認為是英偉達GPU（圖形處理器）的前身，而這三個人是克裡斯·馬拉科夫斯基（Chris Malachowsky）、柯蒂斯·普裡姆（Curtis Priem）和黃仁勳。

1993年，他們三個人共同創立了英偉達，他們并沒有選擇研發CPU直接與英特爾競争，而是選擇入局基于圖形和視訊遊戲的計算卡市場。

盡管英偉達首款産品NV1賣得并不好，但是1997年其推出的128位3D處理器RIVA 128在四個月内出貨量突破100萬台；1999年推出的GeForce 256更是成為了當時的爆款産品，圖形計算卡也是以有了一個新的名字——GPU。

GeForce256的革命性突破在于T&L引擎（Transforming&Lighting，坐标轉化和光照計算）的加入，這使得顯示卡能夠進行大量浮點運算，并将原本依賴CPU的3D計算剝離到顯示卡上，進而釋放了大量CPU資源。這讓遊戲運作更流暢的同時，也大幅提高了畫面的精細度。

是以，GeForce256直接改變了業内的競争格局，之前用“高端CPU”才能完成的工作，變成了用“正常CPU+GeForce256”就能完成，而且流暢度更好。

這意味着，一部分使用者對CPU的依賴，逐漸轉到了對GPU的依賴。

CPU和GPU是計算機中兩種不同類型的處理器，CPU設計用于執行廣泛的計算任務，特别是順序處理和複雜邏輯，擁有較少但功能強大的核心；而GPU則專為處理大量并行計算任務而設計，如圖形渲染和視訊處理，擁有大量但功能相對簡單的核心，使得GPU在處理多線程和資料密集型任務時更為高效。

CPU和GPU的對比，圖檔來源：英偉達

英偉達最初設計GPU是為了給《光環》和《俠盜獵車手》等熱門的電子遊戲快速渲染圖形，但在這個過程中，深度學習的研究人員意識到，GPU同樣擅長運作支撐神經網絡的數學。基于這些晶片，神經網絡能夠在更短的時間内從更多的資料中進行學習。

2006年，英偉達推出CUDA（Compute Unified Device Architecture，統一計算架構），極大地簡化了并行程式設計的複雜性，使得開發者能夠輕松地為裝有GPU的電腦程式設計，讓電腦不僅能夠處理圖形設計任務，還能夠進行高效的資料運算。實際上，這樣的電腦在性能上已經相當于一個超級計算機，成本卻大大降低，這使得高性能計算變得更加普及。

2009年深秋，一位六十多歲的學者從加拿大多倫多來到美國西雅圖，由于腰椎間盤有傷，他幾乎無法彎腰或坐着，隻能躺着或站着，但他還是堅持和當地微軟實驗室的同仁開啟了一個項目——利用之前的研究成果打造一個原型，訓練一個神經網絡來識别口語詞彙。

這位學者就是多倫多大學計算機科學系教授傑弗裡·辛頓（Geoffrey Hinton），在這個項目中，他們就使用了英偉達的GPU。在項目組裡的人認為GPU是用來玩遊戲的，而不是用來做人工智能研究的時候，辛頓當時直言，如果沒有一套完全不同的硬體，包括一塊價值一萬美元的GPU顯示卡，這個項目就不會成功。

傑弗裡·辛頓，圖檔來源：多倫多大學

2012年10月，辛頓和他的兩名學生——亞曆克斯·克裡哲夫斯基(Alex Krizhevsky)、伊利亞·蘇茨克維（Ilya Sutskever），在ImageNet圖像識别比賽上拿了冠軍，并且發表論文介紹了AlexNet架構，而他們訓練這種全新的深度卷積神經網絡架構僅用了兩塊英偉達GPU。

AlexNet團隊參賽的時候發現，如果用CPU來訓練AlexNet需要幾個月的時間，于是他們嘗試了一下英偉達的GPU，沒想到用兩張GTX 580顯示卡隻花了一周的時間就完成了1400萬張圖檔的訓練。這場比賽不僅加速了神經網絡研究的發展，更是讓GPU進入了更多AI研究者、工程師的視野——很快，網際網路公司和高校實驗室就開始向英偉達訂購GPU。

英偉達自然也意識到了GPU對于AI加速計算的重要性，并開始着重布局專門用于AI訓練的GPU産品。2016年，黃仁勳向OpenAI捐贈了首台DGX-1，并在上面寫到：To Elon & the OpenAI Team! To the future of computing and humanity. I present you the World's First DGX-1！（緻埃隆和OpenAI團隊！緻計算和人類的未來。我為你們呈上世界上首台DGX-1！）

黃仁勳向OpenAI捐贈DGX-1，圖檔來源：馬斯克社交媒體賬号

六年後，OpenAI的ChatGPT掀起大模型浪潮，開啟了對算力的新一輪緊迫需求；後面的故事大家都知道了——英偉達的GPU和資料中心迎超強勁爆發，一年内利潤暴漲8倍，一卡難求。

而英特爾，逐漸被英偉達甩開了。

根據Counterpoint的資料，2022年Q4英特爾的資料中心還有46.4%的市場佔有率，但是由于在AI晶片領域的競争力不足，2023年Q3其市場佔有率降至19.1%；而英偉達資料中心的市場佔有率則一路走高，從2022年Q4的36.5%增長到2023年Q3的72.8%。

英偉達、AMD、英特爾的資料中心市場佔有率變化，圖檔來源：Finbold

如今，英偉達是AI領域繞不過去的名字。四年前，當27歲的英偉達市值首次超過英特爾時，這被看作“一個時代的終結”。而到了今年6月6日，當英偉達市值達到3.01萬億美元時，其市值已是英特爾的23倍。

英偉達和英特爾市值對比（圖表資料截至2024年1月），圖檔來源：EEAGLI

英偉達超越英特爾并不是研發出了比英特爾更強的CPU，也不是強行建立生态，而是先融入到英特爾的生态中，再利用其獨特優勢，瞄準GPU進行單點突破，讓使用者逐漸減少對CPU的依賴，轉而加強對GPU的依賴，最終建立自己的生态。

最終的結果是，由于需求的減少，CPU的疊代速度變慢，而GPU的疊代速度在加快。

去年，英偉達發文宣布了“黃氏定律（Huang's Law）”，該定律預測GPU将推動AI性能實作逐年翻倍。與摩爾定律關注于半導體數量的翻倍不同，黃氏定律着重于GPU在AI處理能力方面的增長。在過去十年中，英偉達GPU的人工智能處理能力增長了1000倍。

單晶片推理性能變化，圖檔來源：英偉達

黃仁勳在Computex 2024的主題演講中特意曬出了CPU和GPU的對比圖，并表示，CPU性能的擴充速度無法再跟上資料持續呈指數級增長的速度，但還有一個更好的辦法就是加速計算。

“CUDA增強了（原本由）CPU（提供的計算能力），解除安裝的同時加速了更适合由專用處理器處理的工作負載。事實上，性能提升十分顯著，随着CPU擴充速度減慢并最終基本停止，答案顯而易見，加速計算才是解決之道。”黃仁勳說。

黃仁勳在Computex 2024的主題演講，圖檔來源：英偉達

如果要用一個詞總結英偉達的打法，那就是“異構”。

英偉達所做的“異構”，就是把算力的提供方從CPU，變成CPU+GPU。這種創新架構帶來的性能提升是驚人的，加速100倍，而功率僅增加約3倍，成本僅上升約50%。“我們在PC行業早已實踐了這種政策。在資料中心，我們也采用了同樣的方法。”黃仁勳說。

英偉達在今年GTC推出的GB200超級晶片就是由兩張B200 Blackwell GPU和一張Grace CPU組成。這種組合提供了強大的推理能力，特别是在處理大語言模型時，推理性能比H100提升了30倍，成本和能耗降至原來的1/25。

GB200超級晶片，圖檔來源：英偉達

英偉達超越英特爾，不是一個新的CPU的故事，也不是GPU取代了CPU的故事，而是CPU+GPU異構的硬體形态逐漸地取代了CPU叢集的故事。

英偉達的打法，對如今的AI晶片公司有很大的借鑒意義——跟巨頭競争，可以不走“替代”的邏輯，而是進行“配比”的藝術，在原有的遊戲規則下把單點拉滿，拉到原有霸主追不上，進而擴充自己的生态位。

那麼，新的單點是什麼呢？

2.尋找新的單點

現在算力行業的痛點是，英偉達的晶片太貴、供不應求，對于國内使用者來說，還要加上高性能晶片無法通過合法管道買到這一條。

盡管其它晶片廠家也在追趕英偉達，推出各種AI晶片。但是，某晶片廠商大模型專家陳風（化名）告訴「甲子光年」，想要提升算力，必須在軟體和硬體兩方面同步發力，而英偉達的CUDA和其硬體的适配體系做得太好，以至于在算力使用率上，其他廠商很難望其項背。

“就以AMD為例，單卡算力是383TFLOPs，已經比英偉達的某些卡要高了，但是算力的使用率就是比英偉達低，為什麼呢？因為軟體沒有辦法充分發揮硬體的性能。大家都能做7納米又如何？你即使是用7納米的晶片，算力使用率也做不過英偉達320TFLOPs的GPU。”陳風說。

不過英偉達的這種算力叢集，也是規模不經濟的。如今，大模型巨大的邊際成本也已經成為其商業化最大的障礙。紅杉資本透露，AI行業去年僅在英偉達晶片上就花費了500億美元，但産出的營收隻有30億美元，投入産出比為17:1。

有晶片廠商意識到，英偉達的好和貴，是把自家單卡産品疊疊羅漢、加上NVLink、NVSwitch和Infiniband等互聯技術和CUDA平台，構成一個封閉的體系實作的。如果參考英偉達超越英特爾的方式，不跟英偉達硬拼“CPU+GPU”，而是去找一個新單點，用“CPU+GPU+新單點”的體系，慢慢侵蝕掉英偉達封閉昂貴的舊體系，是不是就能把價格打下來，同時解構掉英偉達原來的優勢地位了呢？

那麼，這個新單點是什麼呢？

把目光放到需求端，一切似乎都有了答案。

目前，以GPT為代表的大模型主要是Transformer架構，這一架構的特點就是相當吃顯存。

這不隻是因為Transformer模型通常包含大量的權重參數，更是因為自回歸算法讓Transformer模型在處理序列資料時，每增加一個輸入序列的長度，就需要更多的顯存來存儲該序列的嵌入向量、鍵（key）、查詢（query）和值（value）向量，以及中間計算的隐藏狀态，特别是自注意力機制的計算複雜度還與序列長度的平方成正比；同時，Transformer每層都會産生大量的激活張量，這些張量在反向傳播期間用于計算梯度，也需要暫存在顯存中……種種因素，導緻随着輸入序列長度的增長，顯存占用迅速上升。

Transformer架構運作過程，圖檔來源：Jay Alammar

針對大模型推理這類訪存密集型的任務，顯存及其帶寬會明顯限制其對算力的利用，是以在考慮算力需求的時候，似乎也不能單單考慮FLOPs的需求，顯存容量及帶寬同樣重要。

在大模型的遊戲規則下，顯存容量、顯存帶寬以及互聯帶寬變成了最核心的競争力，而算力的重要性和優先級則在默默向後排。

做一張“顯存名額很高的新型計算卡”就是新的單點，這就給其它晶片廠商提供了一個和英偉達競争的新思路——向着顯存，全速前進。

3.大膽假設，小心求證

季宇就是這麼想的，作為英偉達的粉絲，他希望用英偉達的方式超越英偉達，也是以将目光聚焦在了大模型對顯存的需求上。

季宇畢業于清華大學計算機系，博士期間一直專注于神經網絡加速器、編譯器和面向系統優化的機器學習的研究，畢業後作為華為“天才少年”在海思從事昇騰編譯器架構師相關工作。2023年8月，他創立了行雲內建電路，主要緻力于研發下一代針對大模型場景的AI加速計算晶片。

具體來說，行雲內建電路希望做一張“顯存名額很高的新型計算卡”，通過”CPU+GPU+新型計算卡”的組合，去應對大模型推理時訪存密集的各種任務，進而把“顯存”這一單點拉滿，成為與英偉達體系相抗衡的存在。

“大模型有巨大的顯存需求是業界的共識。在英偉達也在不斷提升GPU的顯存規格來滿足市場需求，但我們希望用兩張卡，也就是一張算力密集的卡、一張訪存密集的卡來解決這個問題。兩張卡的方案裡面，算力密集的那張卡甚至可以是英偉達的GPU。”季宇說。

季宇也特别在意“異構”，“不過我講的‘異構’是類似過去CPU和GPU這種不同産品生态位的異構，今天算力行業說得很多的‘異構’是指同一個晶片生态位下不同晶片的異構，比如不同的AI晶片”。行雲內建電路的定位是一家晶片廠商，而非算力營運商，“我們是賣卡，英偉達和伺服器廠商什麼關系，我們就和伺服器廠商什麼關系”。

對于生态，季宇認為任何繁榮的産業都需要一個開放的生态體系，也就是一個“白盒”，大模型産業也不例外。但英偉達是一個封閉的體系，把算力、記憶體、互聯等各項标準都做得很強，導緻自己的黑盒體系越來越有競争力、也越來越封閉。

“今天有太多公司為了跟英偉達的這套體系競争，既要做單卡、又要做互聯、伺服器、網絡，自建和英偉達對标的私有體系投入巨大，也極其困難，如果能給業界塑造一個可擴充的白盒體系，讓體系内的參與者在每個次元與英偉達充分競争，把英偉達的這套私有體系的力量打散，或許能有與英偉達體系博弈的機會。”季宇告訴「甲子光年」，“當然英偉達也可以在每個次元做到非常領先，隻是它的溢價一定會被越來越強的同行給稀釋罷了。”

不過季宇也坦言，目前産品還沒出來，一些假設也有待論證。目前最重要的是吸引更多志同道合的人才、合作夥伴，踏實做好研發工作。

長期關注半導體行業的新鼎資本合夥人劉霞認為，這種新的AI晶片競争思路可以更好地滿足不同的應用需求，在某些特定的場景下會産生更好的效果和成本效益。“這種方案的确很有啟發性，但是也有困難和風險，涉及到各個廠商之間的高度的協作和協調，也涉及到技術名額、利潤配置設定等各種複雜的問題，需要在研發過程當中，不斷的适配新場景，不斷的探索和優化。”劉霞說。

魯民投上海投資總監楊浩也表示，這種聯合全行業做白盒生态的思路非常新穎，“現在大家都想挑戰英偉達，但是确實生态跟不上，國内隻有少部分公司在做。如果能通過新型産品打開突破口，建立一個新的生态的話，前景确實值得期待。”

然而，在國内某晶片初創公司工程師劉永（化名）看來，行雲內建電路提出的新思路，還有待讨論。

“目前主流擴顯存的方式是在一張卡裡把GPU和HBM的配比做到均衡，然後利用片間互連的方式，将多張這樣的卡相連接配接，共同為大模型提供服務。這種方式能夠實作顯存的擴充，也可以充分利用其他卡的算力資源，實作并行計算，同時高效的資料交換和同步。”劉永說。

劉永認為，行雲內建電路的确提出了一種新穎的設計方式，可以顯著擴充可用顯存容量，進而能夠處理更大規模的模型和資料集，超越單卡顯存容量的限制，在大顯存卡上可能會颠覆現有的存儲層次結構（多級cache+HBM的方案），設計可能會更簡單，也有更多面積可以用到HBM上，成本更低、容量更大。

GPU緩存機制，圖檔來源：ZOMI醬

劉永提到的HBM（High Bandwidth Memory，高帶寬記憶體）是一種先進的存儲技術，專為需要大量資料吞吐量的應用場景設計，非常适合用于AI加速計算，HBM也是制約單晶片能力的最大瓶頸之一。

HBM将多個DRAM晶片通過矽中介層（interposer）堆疊在一起，并直接連接配接到GPU或其他處理器，而不是像傳統記憶體那樣通過主機闆上的記憶體插槽連接配接。由于每個DRAM層都能夠通過短路徑直接與處理器通信，減少了資料傳輸的延遲，是以HBM的這種三維堆疊結構極大提高了顯存容量和能力。

但HBM技術涉及到先進封裝工藝，也是國内被外部限制的領域，想靠HBM擴大顯存，阻力重重。

“HBM的成本幾乎占據了一張晶片成本的50%，而且現在國内能做HBM的企業不多，隻有長鑫存儲，但是長鑫存儲的工藝較之台積電、日月光還是落後一點。HBM3E（最新一代HBM）還在流片過程中且品質不穩定，而英偉達Blackwell架構的GPU B100已經用上HBM3E了。”昇騰大模型訓練專家、B站AI科普視訊UP主ZOMI醬告訴「甲子光年」。

由此看來，大模型和GPU是明戰，HBM則是暗戰。

甲子光年智庫認為，AI生産時代，算力是生産力的壓艙石。這裡面最大的命題是，要解決算力供需結構的沖突。整個“算力江湖”的構成是極其複雜和多元的，并不存在一個能夠統領全局的“鐵王座”。

雖說技術對晶片至關重要，但晶片更需要的是市場。

英偉達用一種方式超越了英特爾，誰能說不會出現新的挑戰者，用英偉達的方式與英偉達抗衡呢？

“東風不與周郎便，銅雀春深鎖二喬。”在晶片的“戰争”中，不少晶片廠商如同江東的将士們一樣，已經做好了準備，“隻待風來”。

*參考資料：

《晶片戰争》，餘盛

《深度學習革命》，凱德·梅茨

*應受訪者要求，陳風、劉永為化名。

（封面圖來源：電影《赤壁》）

檢視原圖 821K

晶片戰争新思路：用英偉達的方式，抗衡英偉達
晶片戰争新思路：用英偉達的方式，抗衡英偉達
晶片戰争新思路：用英偉達的方式，抗衡英偉達
晶片戰争新思路：用英偉達的方式，抗衡英偉達
晶片戰争新思路：用英偉達的方式，抗衡英偉達
晶片戰争新思路：用英偉達的方式，抗衡英偉達
晶片戰争新思路：用英偉達的方式，抗衡英偉達
晶片戰争新思路：用英偉達的方式，抗衡英偉達
晶片戰争新思路：用英偉達的方式，抗衡英偉達
晶片戰争新思路：用英偉達的方式，抗衡英偉達
晶片戰争新思路：用英偉達的方式，抗衡英偉達

晶片戰争新思路：用英偉達的方式，抗衡英偉達

晶片戰争新思路：用英偉達的方式，抗衡英偉達

繼續閱讀

火箭再秀神操作：探花選謝潑德 44号簽換格裡芬雙向淘寶19+10中鋒

男女交往潛規則：越匮乏的人，越容易“暧昧上瘾”

黃渤一家四口外出，大女兒與媽媽很相似，顔值比父母出衆

這5種水果，用清水沖等于白洗，教正确清洗方法，家人吃得更安心

公募薪資“超過290萬的部分要退回”？員工調侃降薪後每天隻吃兩頓飯

李雪琴這瓜，可真有趣啊

解決财政收入下降赤字增長難題，需要盡快改革收入配置設定制度

一加平闆 Pro 體驗：高通骁龍 3 搭配高清大屏，用性能機的标準做平闆

玫瑰的故事：四個男人誰最有錢？林更新沒想到成了網友最想嫁的對象

翼真L380正式上市！大是真大，醜是真醜

布朗尼被選中瞬間曝光：激動落淚老媽跟着哭豪宅擠滿人排面十足

《浪姐5》接近尾聲，6人成赢家，2人活該下滑，1人難以置信

3元以下股票數量大幅攀升，該不該叫停面值退市？

NBA次輪選秀：誕生三赢家，詹姆斯父子同台創紀錄，崔永熙落選

黃一鳴成功了！自曝王思聰認可女兒的存在，自己被拉黑有隐情

3199元起，一加Ace 3 Pro與骁龍8G3平闆釋出：真陶瓷+6100mAh電池