天天看點

悄然崛起的英偉達新對手,竟然是TA

作者:晶片界的國小生
悄然崛起的英偉達新對手,竟然是TA

英偉達都有哪些對手?

首選當然是AMD和英特爾,前者本身就有AI加速卡的業務,集CPU和GPU設計能力與一身,而後者呢,作為x86架構的創始者,如今也涉足AI加速卡領域,可以見到它們所推出的産品不僅在參數上對标英偉達,還在定位與售價等方面發動了一輪又一輪的攻勢。

而英偉達的客戶與博通和Marvell組成統一戰線後,也成了它的對手,不斷推陳出新的自研定制晶片,開始取代傳統的通用AI加速卡,讓英偉達感受到了另一種壓力。

而在網絡領域,英偉達也迎來了自己的對手。

01.英偉達獨占AI網絡

進入21世紀以來,随着雲計算、大資料的日益普及,資料中心得到了快速發展。而InfiniBand在其中發揮了很大的作用,尤其是從2023年開始,以ChatGPT為代表的大型AI模型依賴于InfiniBand,讓這一網絡技術的關注度進一步提升。

衆所周知,現代數字計算機自誕生以來就一直采用馮·諾依曼體系結構,該體系結構中有CPU(算術邏輯單元和控制單元)、記憶體(RAM、硬碟)和I/O(輸入/輸出)裝置。20世紀90年代初,為了支援越來越多的外部裝置,Intel率先在标準PC架構中引入了外圍元件互連(PCI)總線設計。

随後,網際網路進入快速發展階段,線上業務和使用者規模的不斷增長對IT系統容量提出了巨大挑戰。在摩爾定律的支援下,CPU、記憶體、硬碟等部件都在飛速進步,而PCI總線的更新換代速度卻比較慢,大大限制了I/O性能,成為了整個系統的瓶頸。

為了解決這個問題,Intel、微軟和SUN牽頭制定了“下一代I/O(NGIO)”技術标準,而IBM、康柏和惠普則牽頭制定了“未來I/O(FIO)”,并于1998年聯合制定了PCI-X标準。

1999 年,FIO開發者論壇和 NGIO 論壇合并成立了InfiniBand貿易協會 (IBTA)。很快,在2000年,InfiniBand架構規範1.0版本正式釋出。InfiniBand誕生的目的就是為了取代PCI總線,它引入了RDMA協定,提供更低的延遲、更高的帶寬、更高的可靠性,進而實作更強大的I/O性能。

同樣在1999年5月,幾位從英特爾和伽利略科技公司出走的員工在以色列成立了一家叫Mellanox的晶片公司, Mellanox成立後加入了NGIO,後來NGIO與FIO 合并,Mellanox也加入了InfiniBand陣營,并于2001年推出了第一款InfiniBand産品。

而随着英特爾轉向PCI Express(PCIe),以及微軟退出InfiniBand,該網絡技術開始轉向計算機叢集互聯的應用領域,而新成立的Mellanox開始走上舞台,逐漸成為InfiniBand發展過程中的中堅力量。

InfiniBand雖然同時被英特爾和微軟放棄,但它在新的領域中找到了增長點。2012年以後,随着高性能計算(HPC)需求的不斷增長,InfiniBand技術不斷取得長足進步,市場佔有率不斷提升。2015年,InfiniBand技術在TOP500榜單中的份額首次突破50%,達到51.4%(257個系統)。這标志着InfiniBand技術首次成功挑戰以太網技術,成為超級計算機首選的内部互連技術。

悄然崛起的英偉達新對手,竟然是TA

而Mellanox也在不斷成長:2010年,Mellanox與Voltaire合并,Mellanox和QLogic成為InfiniBand的主要供應商;2013年,Mellanox進一步進軍網絡領域,收購矽光技術公司Kotura和并行光互連晶片制造商IPtronics,進一步鞏固其行業地位;到2015年,Mellanox已占據全球InfiniBand市場80%的份額。業務範圍從晶片擴充到網卡、交換機/網關、遠端通信系統、線纜和子產品,成為世界級網絡供應商。

随着AI的持續發展,InfiniBand的價值也日益顯現,Mellanox也因其在該技術上近乎壟斷的地位而成為廠商眼裡的香饽饽。

為什麼InfiniBand對于AI如此重要?對于AI超級計算機來說,我們可以把它看作一個由許多圖形處理單元(GPUs)組成的叢集,這些單元進行大量複雜的計算。此外,還有一些中央處理單元(CPUs)負責指揮計算機的操作,再加上一些DRAM晶片和NAND晶片,成本大約配置設定為:50-60%用于GPUs,10-15%用于CPUs和DRAM晶片,5-10%用于NAND晶片。

但上述所有的晶片需要互相連接配接,這可以通過InfiniBand或以太網電纜來實作,也就是所謂的“網絡”,它們占硬體成本的10-15%,而目的就是提供盡可能高的帶寬,讓資料能快速傳輸,倘若不能實作更高的帶寬,那麼無論在GPUs上花費多少成本,最後都會變得毫無意義。

英偉達作為AI領域最早的探索者之一,很敏銳地察覺到了這一點,同時決定将其關注點從遊戲轉向AI。2019 年,英偉達以69億美元收購Mellanox,超過了競争對手英特爾和微軟的出價,後兩者的出價分别為60億美元和55億美元,這筆數額龐大的收購,為英偉達進入網絡技術市場鋪平了道路。

當時英偉達的CEO黃仁勳解釋稱,收購Mellanox的原因是:“這是兩家全球領先的高性能計算公司的合并,我們專注于加速計算,而Mellanox則專注于互連和存儲。”

GPU和網絡技術捆綁銷售,聽起來有點像強買強賣,但令許多人都未預料到的是,由黃仁勳所打造的這一模式迅速取得了成功。截至今年1月,英偉達的年收入翻了一番多,達到609億美元,計算和網絡部門的銷售額增長了215%,占英偉達業務的78%。雖然英偉達的GPU部分引起了大量關注,但其網絡業務也是成功的關鍵。在公司的最後一次财報電話會議上,黃仁勳表示,InfiniBand的收入同比增長了5倍,意味着其增長速度約為整個計算和網絡業務的兩倍。

英偉達将自身的GPU算力Mellanox的網絡技術相結合,打造出了一個強大的“計算引擎”,在計算基礎設施方面,英偉達無疑占據着領先優勢。

02.英偉達的大威脅

過去,業界一直在使用英偉達配套的 InfiniBand 網絡解決方案來部署人工智能和機器學習技術,原因很簡單,它是目前最成熟的支援大規模部署的網絡技術,但InfiniBand并非完美,一方面由于收購,它變成了英偉達的獨家産品,另一方面,它的成本昂貴,絕非普通企業可以輕松承擔得起的。

英偉達的CEO黃仁勳曾調侃道,InfiniBand隻占叢集成本的20%,而它能将人工智能訓練的性能提高20%,某種程度上已經收回了成本,因而InfiniBand實際上是免費的。但這樣的論斷顯然是有失偏頗的,客戶必須首先拿出叢集成本的20%,才能真正榨取出叢集的性能,這就意味着用120%的成本創造120%的性能。

相對比之下,基于以太網的叢集通常隻需要額外的10%甚至更低的成本,盡管後者在性能上往往難以與InfiniBand匹敵,但它憑着自己的低廉價格也争取到了一部分使用者。事實上,如今高性能網絡的競争,是InfiniBand與高速以太網的較量,資源充足的廠商會更傾向于選擇InfiniBand,而注重成本效益的廠商則可能傾向于高速以太網。

但這樣的情況并非一成不變,即便是那些具備雄厚财力的大企業,也在尋找更廉價更合适的網絡方案,英偉達與InfiniBand正在不斷受到挑戰。

2023年7月,Linux基金會宣布,将監督成立一個超級以太網聯盟,該聯盟的創始成員包括AMD、Arista、Broadcom、思科、Eviden、HPE、英特爾、Meta 和微軟的支援下,超以太網聯盟表示将緻力于改進以太網,以滿足高性能計算和人工智能系統所需的低延遲和可擴充性要求。

該聯盟創立的首要任務是定義和開發他們所稱的超以太網傳輸(UET)協定,這是一種新的以太網傳輸層協定,能更好地滿足人工智能和HPC工作負載的需求。

在高層次上,超以太網聯盟希望以外科手術的方式完善以太網,隻對實作目标所必需的部分進行改進和改動。從一開始,該聯盟就着眼于改進以太網技術的軟體層和實體層,但不改變其基本結構,以確定成本效益和互操作性。

聯盟的技術目标包括開發規範、應用程式接口和源代碼,以定義超以太網通信的協定、接口和資料結構。此外,聯盟還緻力于更新現有的鍊路和傳輸協定,建立新的遙測、信令、安全和擁塞機制,以更好地滿足大型人工智能和高性能計算叢集的需求。同時,由于人工智能和高性能計算工作負載有許多不同之處,UET 将為适當的部署提供單獨的配置檔案。

得益于這個超級以太網聯盟,過去以太網運作人工智能工作負載的幾個問題正在解決,也推動了以太網在傳統HPC工作負載中的更廣泛采用,這也讓以太網網絡公司找到了反攻InfiniBand的機會。

悄然崛起的英偉達新對手,竟然是TA

超級以太網聯盟成員之一,以太網絡公司Arista Networks在今年2月的财報電話會議中,其首席執行官Jayshree Ullal解釋了InfiniBand和以太網之間的差別:“如你所知,從曆史上看,當單獨考慮InfiniBand和以太網時各有優勢。傳統上,InfiniBand被認為是無損的,而以太網被認為有一些損失特性。然而當你實際将一個完整的GPU叢集連同光學裝置等一同考慮,并檢視所有資料包大小上的任務完成時間一緻性時,資料——包括來自博通的第三方資料——顯示在現實環境中比較這些技術,以太網的任務完成時間大約快10%。是以,你可以孤立地看待這些技術,也可以在實際叢集中看待它們。而在實際叢集中,我們已經看到以太網的改進。請記住,這隻是我們今天所知的以太網。一旦我們有了超級以太網聯盟和一些改進,比如資料包噴灑、動态負載平衡和擁塞控制,我相信這些數字會變得更好。”

“Arista聲稱其以太網在任務完成速度上比InfiniBand快約10%,這一點令我們感到意外,特别是考慮到InfiniBand在目前GPU叢集中的深度滲透。”Jefferies分析師George Notter在會議後表示。

他指出,英偉達将GPUs與InfiniBand簡單捆綁銷售是該技術成功的關鍵原因,換句話說,InfiniBand受歡迎的部分原因是因為它與英偉達的GPU一起銷售,但這現在GPU的積壓訂單減少了,使用InfiniBand的動機可能也會減少,這對Arista以及另一家以太網網絡公司博通來說是個好消息。

“我們在四個主要的AI以太網叢集中取得了進展,這些叢集都是我們戰勝InfiniBand的案例。在所有四個案例中,我們現在正從試驗轉向試點,每年連接配接數千個GPU,”Arista首席執行官Jayshree Ullal解釋道。Arista在上季度業績表現也非常不錯,截至3月的三個月中,Arista的收入同比增長了16%,每股收益增長了44%,分析師預計随着AI基礎設施支出的增加,這一增長将會加速。Arista約40%的業務來自微軟和Meta,這兩家公司都宣布明年将再次增加資本支出。Jefferies分析師George Notter最近還将Arista的評級從持有上調至買入,他表示:“現在,部署基于GPU的基礎設施(包括以太網)的熱潮将會持久。”

Arista并不是唯一一家受益于“部署熱潮”的網絡公司。博通截至2月4日的三個月收入同比增長了34%,達到120億美元,其中網絡收入增長了46%,達到33億美元。“這主要是由于我們的兩個超大規模客戶對AI加速器的強勁需求,”博通首席執行官Hock Tan在财報電話會議上解釋道。

對網絡硬體的需求比博通預期的還要快,“超大規模客戶以及部署AI資料中心的大型企業的強勁需求”推動了這一增長。是以,博通将其網絡業務的全年增長預期從30%上調至35%。整體而言,博通今年的收入預計為500億美元,比去年增長40%。

國外媒體The Next Platform提出了一個有趣的數學問題:Arista Networks在AI叢集互連銷售中每賺取7.5億美元,英偉達可能會損失15億至22.5億美元。在過去的12個月中,粗略估計英偉達在 InfiniBand 網絡方面的銷售額為64.7億美元,而資料中心的GPU計算銷售額為397.8億美元,在四比一的分紅率和穩定的市場條件下,英偉達可以保留約13億美元,而超級以太網聯盟可以保留17億至26億美元,如果一切保持不變,InfiniBand的銷售目标将達到120億美元。

該媒體指出,超級以太網聯盟的成員可以搶占的市場佔有率很大,但他們将通過從系統中移除收入來搶占,就像Linux對Unix所做的那樣,而不是将收入從一種技術轉換為另一種技術,其中節省下來的資金将重新投入到GPU中。

03.挑戰英偉達

英偉達不止是在網絡領域受到挑戰,正如我們前文中提到的,它的最大依仗——GPU正在受到AMD、英特爾、博通等公司的圍剿,盡管它坐擁3萬億美元市值,但依然會倍感壓力。

在網絡市場,Arista現在無疑還是非常弱小的一家公司,相較于英偉達InfiniBand動辄數十億美元的營收,短期内它還難以挑戰,但巨頭們對于AI叢集網絡壟斷的不滿,讓Arista獲得快速發展的寶貴機會,假以時日,它很有可能成為英偉達新的心腹大患。