目前在生成式AI市場，還是晶片巨頭的天下。

在整個計算機發展曆史中，我們不得不學習計算機語言，但随着人工智能時代的來到，計算機也将學會我們的語言，與人類進行交流，ChatGPT生成式人工智能的爆火更是将人機互動提升到了新的高度。這種變革也許就如同當時網際網路的到來一樣重要。作為底層支撐的晶片，正成為計算機學習人類語言的關鍵。

“春江水暖鴨先知”，圍繞生成式AI，晶片三大巨頭英偉達，AMD和英特爾無不在快馬加鞭的進行部署，迎接新拐點的到來。随着昨天英特爾祭出高成本效益的“中國特定版”Gaudi 2新産品，三大晶片巨頭英特爾、英偉達和AMD已經都在生成式AI領域擁有了各自強有力的“武器”，生成式AI領域即将迎來一番鏖戰！

英偉達，瘋狂押注生成式AI初創公司

英偉達無疑是生成式AI領域最大的赢家，憑借在生成式AI領域“一芯難求”的A100晶片，英偉達已經賺的盆滿缽滿，市值更是飙到1萬億美元，短暫的與科技巨頭肩并肩。相信大家都對最近英偉達的“瘋狂投資”頗為關注，英偉達一連投資了Inflection AI、RunwayML、Cohere等好幾家初創公司，而這些投資對象無不與生成式AI相關。

随着越來越多的大模型初創公司的興起，英偉達正在在成百上千的生成式人工智能競賽中選“馬”，向初創公司投入更大的賭注。根據PitchBook的資料，英偉達自2018年以來參與的五筆最大的風險投資交易都發生在今年，确切的說是在過去六個月内，足見英偉達對人工智能的看好。被老黃選中的這些生成式AI初創企業的估值正在不斷飙升，老黃似要再賺一波。

Inflection AI成立于2022年，由Google DeepMind聯合創始人Mustafa Suleyman和LinkedIn聯合創始人 Reid Hoffman創立，該公司正在使用英偉達的晶片部署大規模的生成式人工智能模型，建構面向消費者的AI産品，被認為是OpenAI的頂級競争對手。在Inflection AI的最新一輪輪融資中，除了英偉達，Inflection AI的投資者名單中還有微軟聯合創始人比爾蓋茨、谷歌前首席執行官 Eric Schmidt。目前Inflection AI的估值據說已達到40億美元。

Inflection AI将建構一個由大約22,000個英偉達H100晶片組成的超級計算機，這大約是用于訓練所有GPT4的計算量的三倍。他們已經釋出了一個名為Pi的聊天機器人（Pi代表“personal intelligence，個人智慧”），與ChatGPT類似，可提供“文本和語音對話、友好的建議以及自然流暢的簡潔資訊”。

Inflection AI的Pi機器人

出于好奇心，小編嘗試着與其對話，“你與ChaGPT誰更厲害？”他的回答是“我不會回答這個問題——那隻是自找麻煩。我專注于成為一個友好、支援性的人工智能，為人們提供各種幫助。ChatGPT做了一些令人驚奇的事情，但我并不想與它競争。我正在努力做我自己的事！”這個回答确實有點絲滑，他不僅能發出跟真人口語一般的語音（4種可選），甚至還能發表情包。

英偉達投資的另一家初創公司Runway是一家AI視訊軟體公司，成立于2018年，該公司一直處于人工智能與創造力相結合的前沿。今年他們利用計算機圖形學和機器學習方面的最新進展釋出了Gen1和Gen2兩代視訊生成模型，其中Gene1還需要提供原源頻，而Gen2僅需要幾個單詞就能生成短視訊。目前早期的生成式AI大都是集中在“文生文”和“文生圖”等方面，但是Runway這家初創公司做的是文生視訊，這算是一個無人區。據悉，Gen-2生成視訊每秒的成本為0.05美元。如此看來，生成式視訊的潛力也巨大。

Runway的Gen-2生成式視訊

2023年6月，Runway從谷歌和英偉達那裡募集了1.41億美元的投資，目前其估值已飙升至15億美元，比去年12月增長了3倍。英偉達首席執行官黃仁勳表示，生成式 AI 正在改變内容創作行業，Runway的技術為難以想象的故事和想法注入了新的生命。

Cohere是一家總部位于加拿大，專注于企業的生成人工智能初創公司，該公司由谷歌前頂級人工智能研究人員創立。Cohere生産的人工智能工具可以為文案寫作、搜尋和摘要提供支援，專注在企業領域，也是為了将自己與OpenAI差別開來，避免競争的一種表現。2023年6月8日，其在一輪融資中籌集了2.7億美元，投資者中包括英偉達和甲骨文等。最新一輪的融資使其估值達到22億美元左右。

可以看出，英偉達在生成式人工智能競賽當中，選中了不同細分應用的“戰馬”，押寶也算押的全面。

而除了投資押注之外，英偉達還在為其自身的AI發展鞏固護城河。

2023年2月份，英偉達秘密收購了一家初創公司OmniML，官網資料顯示，OmniML成立于2021年，總部位于加利福尼亞州，OmniML由麻省理工學院EECS教授、原深鑒科技聯合創始人韓松博士、前Facebook工程師吳迪博士和斯坦福大學“深度壓縮”技術聯合發明人毛慧子博士創立。

據悉，OmniML是一家專門緻力于縮小ML（機器學習）模型的公司，以便将大模型移動到無人機、智能相機和汽車等等邊緣裝置當中去。去年，OmniML公司推出了一個名為Omnimizer的平台，這是一個能使人工智能快速、輕松地進行大規模優化的平台。除此之外，該平台還優化了模型，使其甚至能夠在功耗最低的裝置上運作。而在被英偉達收購之前，2022年3月，OmniML獲得了GSR Ventures、Foothill Ventures以及高通風投領投的1000萬美元的種子輪資金。

至于為何要收購這家初創公司，從英偉達的邊緣AI布局也不難了解。雖然英偉達憑借其GPU在資料中心AI訓練市場占據主導地位，但是邊緣也是一塊很大的市場，英偉達也有意要争一争。目前英偉達主要有三大邊緣産品，分别是用于企業邊緣計算的NVIDIA EGX平台、用于工業應用的IGX平台以及用于自主機器和嵌入式邊緣用例的 Jetson。而通過收購OmniML，将OmniML技術內建到其邊緣産品中，英偉達可以優化模型，以便在低端硬體上進行高效部署。考慮到如果将大模型轉移到邊緣，未來可能帶來巨大的價值，英偉達收購這家尚處于起步階段的公司也就不足為奇了。而此舉無疑将進一步增強英偉達全面的邊緣AI戰略，也将鞏固其在AI市場的上司地位。

搶奪英偉達市場，AMD先行一步

而另一邊的AMD早已按捺不住，先是在去年6月份，AMD推出CPU+GPU架構的Instinct MI300正式進軍AI訓練端。緊接着在今年6月的AMD釋出會上，祭出AI大模型“專用武器”GPU MI300X，它配備192GB HBM記憶體，與英偉達的H100相比，MI300X提供了2.4倍的記憶體和1.6倍的記憶體帶寬，這将成為AMD的一大優勢，因為記憶體容量是當下AI大模型的限制因素，192GB的MI300X也讓運作更大的模型成為可能。

MI300X是AMD特意針對大語言模型優化的版本，它是MI300産品的「純GPU」版本，擁有12個5nm的小晶片，半導體數量達到了1530億個，是AMD Chiplet技術應用的又一傑作。據AMD CEO Lisa Su的介紹，單個MI300X可以在記憶體中運作多達大約800億個參數的模型，這意味着減少了所需的GPU數量，而且使用多個MI300X疊加可以處理更多的參數。

MI300X看起來是一個強有力的競争者。不過，MI300X的高密度HBM卻是燒錢神器，與NVIDIA H100相比，AMD可能不會具有顯着的成本優勢。據悉，MI300X将在第三季度出樣，第四季度加大生産。屆時我們可以看看實際的情況。

AMD與英偉達在GPU領域的競争由來已久，早在2006年，AMD收購加拿大公司ATI獲得了圖形處理技術，這是AMD最重要的一筆收購，自此開啟了與英偉達在GPU領域的長久戰。2022年AMD又收購了DPU晶片廠商Pensando，這些都成為AMD面對生成式AI巨大的市場需求下，能繼續與英偉達抗衡的背後引擎。

要知道，英偉達除了GPU晶片之外，DPU晶片也在生成式AI領域發揮着重要作用。當GPU數量擴充到成千上萬時，性能不再僅依賴于單一CPU，也不再僅依賴于單一伺服器，而是更加依賴于網絡的性能。“網絡已經成為生成式AI或AI工廠中的計算單元，就像InfiniBand的DPU不僅僅負責通信，也是計算單元的一部分。是以，我們不僅要考量CPU和GPU提供的計算能力，還需要将網絡的計算能力納入考慮範圍。”英偉達網絡亞太區進階總監宋慶春在此前的一次交流會中指出。

英特爾拿什麼打生成式AI市場？

對于如此火爆的生成式AI領域，英特爾自然也想分一杯羹。英特爾在個人電腦市場的搖錢樹正在被逐漸侵蝕，他們早就看中了資料中心以及AI的市場。但在生成式AI領域，不同于英偉達和AMD的做法，英特爾似乎不是靠GPU來打。英特爾雖然也釋出了GPU産品，不過其GPU似乎暫時志不在此，而是更加注重其GPU在科學計算領域的優勢。前段時間，英特爾宣布配備了其Max系列CPU和GPU的Aurota超級計算機已經安裝完成，其中包含了63744個Ponte Vecchio 計算GPU，這算是英特爾Max系列GPU的首次大規模部署。

而且英特爾暫時放棄了CPU+GPU Falcon Shores“XPU”組合産品，轉而采用純GPU Falcon Shores。這使得英特爾無法與AMD的 Instinct MI300和Nvidia的Grace Hopper處理器競争，後兩者均采用混合處理器。延伸閱讀：關于晶片三巨頭的XPU之間的競争，筆者曾在《英偉達，落後了？》一文中進行過描述。英特爾的這一轉變是由于生成式AI大模型的爆發而做出的調整，英特爾認為，生成式AI市場大部分是來自商業領域，是以原來的XPU政策一方面市場不如标準化晶片市場大，成本會太高，而且标準化晶片不一定會受到客戶的青睐，這引發了英特爾如何建構下一代超級計算晶片的思維轉變。不過，英特爾的Falcon Shores改用純GPU，不知道是否也會像AMD的MI300X一樣做出針對大模型應用産品。

無論如何，在當下這是緊迫的時間節點下，英特爾用來打生成式AI市場的主要産品是其AI晶片——Gaudi 2。

Habana Gaudi 2夾層卡

談到Gaudi 2，就不得不從一段收購曆史說起。為了進軍深度學習市場，早在2016年8月，英特爾就花費4億美元收購了Nervana Systems，當時的想法是，通過開發專門用于深度學習的ASIC，它可以獲得與英偉達競争的優勢。不過2019年12月，英特爾又斥資20億美元收購了晶片功能更強的Habana Labs之後，英特爾也在2020年放棄了Nervana神經網絡處理器（NNP）的研發，轉而集中精力開發Habana AI産品線。

而Nervana被放棄之後，原Nervana創始人Naveen Rao和Nervana的前核心員工Hanlin Tang離開了英特爾，另立門戶于2021年創立了一家生成式AI初創公司MosaicML，他們專注于企業生成式AI的需求，具體而言，MosaicML提供了一個平台，讓各類型企業都可以輕松地在安全的環境中訓練和部署AI模型。而就在2023年6月28日，MosaicML被大資料巨頭Databricks以13億美元收購，這可以說是今年以來生成式AI領域内公布的最大一筆收購案。

言歸正傳，繼續說回英特爾，被英特爾收購後，Habana一共釋出了2款AI晶片，分别是第一代Gaudi 和Gaudi 2。Gaudi平台從一開始就為資料中心的深度學習訓練和推理工作負載而建構的AI加速器。其中Gaudi 2于2022年推出，相比第一代，Gaudi 2在性能和記憶體方面的提升，使其成為市場上能夠橫向擴充AI訓練的一大解決方案。

尤為值得一提的是，就在日前，英特爾特意為中國市場推出了專為訓練大語言模型而建構的最新Gaudi 2新産品——HL-225B夾層卡。HL-225B處理器符合美國工業與安全局 (Bureau of Industry and Security, BIS)釋出的有關出口規定。Gaudi2夾層卡符合OCP OAM 1.1（開放計算平台之開放加速器子產品）規範。這樣一來，客戶便可從符合規範的多種産品中做出選擇，靈活地進行系統設計。

Gaudi 2處理器采用7nm，作為對比，第一代Gaudi處理器采用16nm工藝。Gaudi 2具備出色的2.1 Tbps網絡容量可擴充性，原生內建21個100 Gbps ROCE v2 RDMA端口，可通過直接路由實作Gaudi處理器間通信。Gaudi2處理器還內建了專用媒體處理器，用于圖像和視訊解碼及預處理。

HL-225B夾層卡采用的是Gaudi HL-2080處理器，HL-2080處理器擁有24個完全可程式設計的第四代張量處理器核心(TPC)。這些核心原生設計能夠為廣泛的深度學習工作負載加速，同時還賦予使用者按需進行優化和創新的靈活性。此外，它還內建了96 GB HBM2e記憶體和48MB SRAM，支援600瓦夾層卡級熱設計功耗(TDP)。

Gaudi 2是為數不多的能替代英偉達H100進行LLM訓練的方案。最近英特爾公布了Gaudi 2在GPT-3（1750億個參數）基本模型的LLM訓練基準的性能結果。MLPerf結果顯示：

Gaudi 2在GPT-3上的訓練時間情況是在384個加速器上花費了311分鐘，作為對比，英偉達和雲提供商CoreWeave合作運作的3584 GPU計算機在不到 11 分鐘内完成了這項任務，如下圖所示。以每個晶片為基礎，英偉達H100系統的任務速度是Gaudi2的3.6倍。但是Gaudi 2的優勢在于其成本要比H100低，而且能跑大模型。

Gaudi 2在GPT-3模型上從256個加速器到384個加速器實作了近線性95%擴充；而且它在計算機視覺（ResNet-50 8 加速器和Unet3D 8加速器）以及自然語言處理模型（BERT 8 和 64 加速器）方面均取得了出色的訓練結果；與11月送出的内容相比，Gaudi 2 在BERT和ResNet模型的性能分别提高了10%和4%，代表軟體成熟度在提高。

英特爾聲稱目前在FP16軟體中Gaudi 2比英偉達A100價格更有競争力，且性能更高，其每瓦性能約為英偉達A100的2倍。而且要計劃在今年9月份在FP8軟體中顯著縮短訓練完成時間，在成本效益上打敗英偉達的H100。

除了Gaudi 2，英特爾的另一款可以跑大模型的産品是第四代至強CPU。不過CPU的應用空間相對有局限性，英特爾的CPU隻适用于少數從頭開始間歇性訓練大型模型的客戶，并且通常在他們已經部署來運作業務的基于Intel的伺服器上使用。是以CPU不算是英特爾用來主打生成式AI市場的産品，可以算作是一個補充方案。

結語

對于比“毒品”還難買到的英偉達GPU而言，英特爾Gaudi 2和AMD MI300X将成為Nvidia H100的有利替代品，不過英偉達留出的時間視窗可不大，據悉，英偉達的H100 GPU直到明年一季度仍處于售罄的狀态，與此同時，英偉達正在不斷增加H100 GPU的出貨量，還訂購了大量用于H100 GPU的晶圓。

無論如何，目前在生成式AI市場，還是晶片巨頭的天下。國内的GPU晶片企業或者SoC企業都需要加把勁了。

三大晶片巨頭，新混戰

英偉達，瘋狂押注生成式AI初創公司

搶奪英偉達市場，AMD先行一步

英特爾拿什麼打生成式AI市場？

結語