天天看點

英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200

作者:芯東西
英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200

作者 | ZeR0

編輯 | 漠影

芯東西4月10日報道,昨夜,英特爾在年度Intel Vision大會上重磅推出新一代AI訓練晶片Gaudi 3,正面向英偉達旗艦晶片發起挑戰。

會上,英特爾CEO基辛格揮舞着Gaudi 3,跟随現場伴奏開心地搖晃起身體,随後宣布Gaudi 3的戰績:相比英偉達上一代旗艦H100 GPU,Gaudi 3的訓練性能可提高70%,推理性能提高50%,能效提高40%,同時價格低得多。

英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200

在跑1800億參數Falcon模型時,Gaudi 3的推理速度比英偉達H200快30%。

Gaudi 3采用台積電5nm制程、128GB HBM2e DRAM記憶體、第五代Tensor Core架構,記憶體帶寬高達3.7TB/s,共有24個200Gb以太網端口。不過英特爾沒有公布這塊晶片的半導體總數。

英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200

和英偉達、AMD一樣,英特爾在最新AI晶片中通過“晶片拼裝”設計來超越reticle極限。

Gaudi 3基于統一記憶體架構,将将64個Tensor Core封裝在兩個計算Tile中,共享96MB緩存池,借助高速互連技術,兩個計算Tile能宛如一個完整晶片一樣運作。

相比上一代Gaudi 2,Gaudi 3在BF16精度下可提供4倍的AI計算能力、1.5倍的記憶體帶寬、2倍的網絡帶寬,支援大規模系統橫向擴充,最多可擴充至8192個晶片的參考架構。

英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200

基辛格說,Gaudi 3将幫助AI經曆三個階段,從AI Copilot時代邁向AI Agent時代,然後抵達AI功能時代,即用于自動化複雜的、企業範圍的結果。

他預言當發展到第三階段,功能自動化帶來的效率意味着或将出現“一人擁有 10億美元資産的公司”。

英特爾計劃從第一季度和第二季度分别開始向OEM/ODM合作夥伴提供風冷版和液冷版的Gaudi 3晶片樣品,從第三季度開始加大風冷部件的出貨量,第四季度加大液冷設計的出貨量。英特爾還将在開發者雲中提供Gaudi 3的支援。

英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200

Gaudi 3應該會是英特爾最後一代對标H100的AI訓練晶片。畢竟對于今年剛釋出過最新旗艦GPU晶片B200的英偉達來說,H100/H200已經是上一代的事了。英偉達Blackwell GPU将在今年晚些時候上市,可以想見Gaudi 3搶占市場佔有率的機會多狹窄,面臨的競争壓力将有多大。

令人稍有困惑的是,根據英特爾路線圖,Gaudi 3後續産品将變成IP融入到英特爾的Falcon Shores平台裡,也就是說英特爾GPU Max和專用AI晶片産品線将在2025年融合。

英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200

按這個發展走向,很難說英特爾什麼時候會推出下一代專用AI晶片,如果英特爾一直基于現有晶片參與市場競争,或者将研發重心向GPU傾斜,Gaudi 3可能會成為“時代的眼淚”。

英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200

01.

罕見披露FP8浮點性能,

訓練130億參數模型比H100快70%

負責研發專用AI晶片的英特爾Habana團隊一向不喜歡用FLOPS來展現AI性能,而是傾向于突出其在實際應用中的性能。

原因之一是,FLOPS限定條件多,比如測量精度、是稀疏型還是稠密型、使用率多高……這些因素會可能導緻理論和實際性能差别很大。

不過這次,他們相當罕見地披露了Gaudi 3在FP8精度下的總吞吐量——1835TFLOPS,達到上一代FP8性能的2倍。

英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200

在稠密型FP16/BF16精度下,英特爾Gaudi 3的浮點性能可達到1835TFLOPS,高于英偉達H100/H200的989TFLOPS、AMD MI300X的1307TFLOPS。

但如果比FP8精度,H100/H200和MI300X的浮點算力較FP16翻倍到1979TFLOPS、2614TFLOPS,性能反超不支援稀疏化的Gaudi 3。

不過換個角度來看,Gaudi 3在FP16/BF16精度下能實作接近競品FP8精度下的性能,已經足見其性能優勢。

與英偉達旗艦GPU相比,英特爾新一代AI訓練晶片Gaudi 3的性能提升如下:

1、訓練Llama 7B、13B以及GPT-3 175B模型,速度比H100快40%~70%。

英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200
英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200

看起來,Gaudi 3在訓練參數規模較小的模型時更能展現出訓練優勢,訓練1750億參數GPT-3模型是用了基于1028個節點、8192個Gaudi 3的叢集。

2、跑Llama 7B、70B以及Falcon 180B模型,推理速度比H100快50%,推理能效提高40%,在較長輸入和輸出序列上的推理性能優勢更大。

英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200
英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200
英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200

3、跑Llama 7B、70B以及Falcon 180B模型,推理速度最多可以比H200快30%。

英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200
英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200

從圖表中可以看到,在跑Llama 7B、70B時,Gaudi 3與H200 PK得略顯吃力。

雖然英特爾披露的這些資料不好驗證真實性,但從過往來看,英特爾一向光明磊落,積極參與權威基準測試MLPerf,無懼披露真實AI性能、與英偉達旗艦晶片産品同台較量,很有大将風範。

這多少會帶來更可靠的印象,進而持續擴大英特爾Gaudi系列在AI訓練市場競争的赢面。

02.

雙芯設計,台積電5nm,128GB記憶體

英特爾Gaudi 3采用将兩個計算Tile、8個HBM封裝在一起的設計方式,共有96MB SRAM、8個矩陣數學引擎和64個Tensor Core。這種将兩塊晶片當一塊晶片用的拼裝思路,與英偉達上個月釋出的Blackwell晶片相似。

英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200

Gaudi 3采用台積電5nm、128GB HBM2e,記憶體帶寬達3.7TB/s。從這些保守的制程和記憶體選擇,很難看出它對最強AI訓練晶片的勢在必得。

現在市面上最先進的制程已經是3nm,其競品英偉達H100和AMD MI300X都已經用上更先進的HBM3高帶寬記憶體。

英偉達H200采用141GB HBM3e,記憶體帶寬達4.8TB/s;AMD MI300X采用192GB HBM3,記憶體帶寬達5.3TB/s。無論是記憶體的容量還是帶寬,都比Gaudi 3更有競争力。

英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200

據外媒報道,Habana首席營運官Eitan Medina解釋說,堅持采用HBM2e的原因是風險管理,其方法是隻使用在流片前已在矽片中得到驗證的IP,Gaudi 3流片時根本沒有經過驗證符合其标準的實體層。

相比單晶片性能,英特爾強調的是大量Gaudi 3晶片互連形成的叢集能提供更高的成本效益和TCO。

現在AI計算競賽的焦點在大模型上,單卡記憶體根本不夠用,需要将多個AI晶片連接配接在一起來支撐大模型訓練及推理。

性能比拼也不再是看單卡峰值性能,而是比拼大規模擴充後的整體系統性能和TCO,即達到同等算力,誰能節省更多的電力和成本。

是以先進互連技術對資料中心越來越重要。

H100/H200采用英偉達專用互連技術NVLink,總帶寬達900GB/s;MI300X采用AMD專用互連技術Infinity Fabric,總帶寬達896GB/s。

對比之下,Gaudi 3采用的是正常的ROCe,內建了24個200Gb以太網端口,總帶寬達1.2TB/s。其中有3個端口用于節點外通信,剩下1Tb/s用于伺服器内晶片之間通信。

英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200

英特爾稱,通過将以太網網卡內建到其加速器中,使用傳統的主幹葉架構擴充以支援512個甚至1024個節點的叢集變得更加容易。

這種以太網設定的另一種好處是吸引那些不想投資或換用專有互連技術的客戶。

通過超以太網連聯盟,英特爾正驅動面向AI高速互連技術(AI Fabrics)的開放式以太網網絡創新,并推出一系列面向AI優化的以太網解決方案,以大規模縱向和橫向擴充晶片,支援越來越龐大的AI模型的訓練與推理。

其産品組合包括英特爾AI網絡連接配接卡(AI NIC)、內建到XPU的AI連接配接芯粒、基于Gaudi加速器的系統,以及一系列面向英特爾代工的AI互聯軟硬體參考設計。

除了網絡外,軟體也是英特爾的重頭戲。英特爾認為大多數程式員都在AI架構級别或者更進階别進行程式設計,使用CUDA進行低級程式設計已經不那麼普遍,也就是說英偉達的軟體生态護城河已經不像原來那樣堅不可摧。

目前英特爾正在不斷優化遷移工具和牽頭參與行業标準的制定,向市場提供CUDA替代方案。

03.

可擴充至8192芯,提供15EFLOPS算力

總結一下英特爾Gaudi 3的主要亮點:

1、AI專用計算引擎:有獨特的異構計算引擎,由64個AI定制和可程式設計TPC以及8個MME組成。每個Gaudi 3 MME能執行64000 次并行操作,實作高計算效率,使其擅長處理複雜的矩陣運算、加速并行AI操作。該晶片支援多種資料類型,包括FP8和BF16。

2、滿足大語言模型要求的記憶體容量:128GB HBMe2、3.7TB/s記憶體帶寬、96MB闆載SRAM提供了充足記憶體,可在更少的Gaudi 3晶片上處理大型生成式AI資料集。

3、面向企業生成式AI的高效系統擴充:Gaudi 3內建了24個200Gb以太網端口,提供靈活且開放标準的網絡,支援大型計算叢集,可高效地橫向和縱向擴充至數千個節點。

4、開放行業軟體,提高開發者效率:Gaudi軟體內建了PyTorch架構,并提供優化的Hugging Face社群模型,使生成式AI開發人員能夠在高抽象級别上進行操作,進而提高易用性和工作效率,并易于跨硬體類型遷移模型。

英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200

英特爾已經開發了一個端到端AI軟體棧,包括從固件、庫、驅動程式到開各種AI應用所需的模型、架構和工具。

英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200

5、Gaudi 3 PCIe add-in卡:專為實作高效率和低功耗而設計,非常适合微調、推理和檢索增強生成 (RAG) 等工作負載,采用全高、雙寬、10.5英寸長設計,被動冷卻,TDP僅為600W。

英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200

除了PCIe add-in卡,Gaudi 3還提供符合OCP标準的OAM子產品、搭載8個加速器的通用基闆。PCIe規格與OAM版本相同,功耗更低。OAM的TDP在風冷版可達900W,液冷版可達1200W。

英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200

英特爾也為Gaudi 3開發了參考架構。

搭載8個Gaudi 3的單個節點,FP8性能可達14.7PFLOPS,擁有1024GB記憶體和8.4TB/s網絡帶寬。512個節點,可提供7.5EFLOPS算力,有524.3TB記憶體容量、614TB/s網絡帶寬。

英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200

Gaudi 3最多可擴充到由8192個晶片組成的1024個節點的叢集,可提供15EFLOPS算力、1PB記憶體容量、1.229PB/網絡帶寬。

英特爾甩出全新AI訓練晶片!跑千億大模型速度超H200

04.

結語:大規模AI計算已經進入系統競賽

在Intel Vision大會上,“生成式AI”這一主題可以說是貫穿全程,從資料中心的大規模AI訓練與推理,到AI PC改變端側生産力,英特爾正竭力展示自己作為先進晶片技術上司者的競争力。

如今談到大模型訓練晶片,英偉達當仁不讓是首選供應商,但這棵搖錢樹早已被其他晶片大廠和創業新秀盯上,英特爾便是其中之一。英特爾正通過推出更具成本效益的可擴充系統來打破這種一家獨大的局面,這将為市場帶來另一種選擇。

大規模AI計算已經進入系統競賽,無論是守擂者英偉達,還是英特爾、AMD、Cerebras、Groq等追擊者,都明顯加大對先進Chiplet封裝、先進存儲、先進互連技術的重視,通過從超越制程和reticle極限的晶片内部設計優化,到擴充至大型叢集系統的技術更新,為整個資料中心的AI計算提供更高性能和能效的加速。

除了Gaudi 3,英特爾還在Intel Vision大會上分享了資料中心至強處理器和AI PC的進展,并現場連線遠在英特爾晶圓廠的同僚,示範如何在AI PC上用先進AI技術輔助晶片檢測。

英特爾宣布面向資料中心、雲和邊緣的下一代處理器進行品牌煥新,即英特爾至強6。配備能效核的至強6(此前代号為Sierra Forest)将于2024年第二季度推出,配備性能核的至強6(此前代号為Granite Rapids)将緊随其後推出。

配備性能核的英特爾至強6包含了對MXFP4資料格式的軟體支援,與使用FP16的第四代至強處理器相比,可将下一個token的延遲時間縮短至原來的15%,能運作700億參數Llama-2模型。

英特爾預計将于今年出貨4000萬台AI PC,以及超過230種的設計,覆寫輕薄PC和遊戲掌機裝置。新一代英特爾酷睿Ultra用戶端處理器家族(代号Lunar Lake)将于今年推出,具備超過100 TOPS平台算力,NPU算力超過46TOPS。

繼續閱讀