天天看點

騰訊釋出星脈網絡2.0,讓AI大模型訓練效率提升20%

作者:甲子光年
騰訊釋出星脈網絡2.0,讓AI大模型訓練效率提升20%

(騰訊雲副總裁王亞晨)

随着大模型的火熱持續疊代,AI基礎設施愈發成為雲廠商的核心競争力之一。

7月1日,騰訊宣布其自研星脈高性能計算網絡全面更新,更新後的星脈網絡2.0搭載全自研的網絡裝置與AI算力網卡,支援超10萬卡大規模組網,網絡通信效率比上一代提升60%,讓大模型訓練效率提升20%。這意味着,如果原來訓練中某個計算結果的同步需要花100秒完成,現在隻需要40秒;原來需要花50天訓練的模型,隻需要花40天。

AI大模型就像是一場F1比賽,騰訊雲專門設計了星脈高性能算力網絡“賽道”,并自研了TiTa和TCCL網絡協定作為“賽事指揮中心與專業車隊”,共同讓“騰訊雲高性能計算叢集HCC的GPU伺服器”這台馬力強大的F1賽車發揮最大的算力性能,助力客戶在AI大模型的競争中遙遙領先。

騰訊釋出星脈網絡2.0,讓AI大模型訓練效率提升20%

AIGC的火熱推動着AI大模型參數量從億級到萬億級的飙升。模型參數規模與架構更新對底層網絡網絡也提出了新的要求。

為支撐AIGC中海量資料的大規模訓練,大量伺服器通過高速網絡組成大規模算力叢集,互聯互通,共同完成訓練任務。

然而,叢集規模越大,所産生的通信損耗會越高;同時,AI訓練的通信模式,與傳統的通信模式差異較大,不同大模型架構也存在着通信模式的差異。部分大模型訓練過程中通信占比最大可達50%。同時,分布式計算模式也意味着,單點的故障将導緻整個叢集不可用,是以在故障的時候需要快速定位與恢複訓練,把損失降到最低。

如何在大規模組網前提下,提升通信效率、降低通信占比,讓訓練穩定高可用,進而提升GPU的使用率和模型訓練效率,是AI網絡要解決的核心問題。

資料顯示,星脈網絡2.0可實作大模型訓練過程中,網絡通信占比(通信時間占總體時間比例)低至6%,遠低于10%的業界水準;通信負載率達到90%,與IB網絡(Infiniband)持平,相較于标準以太網提升60%。整體能力處于業界頂尖水準。

四大元件全面更新,助力AI訓練提速

騰訊自研星脈網絡是一套軟硬協同的高性能網絡體系,包括自研網絡裝置、通信協定、通信庫以及營運系統四大關鍵元件,每個元件均采用了業界首創的騰訊核心技術。

騰訊釋出星脈網絡2.0,讓AI大模型訓練效率提升20%

(騰訊雲副總裁王亞晨)

硬體方面,騰訊星脈網絡是業界首個采用全自研網絡裝置的高性能網絡,包括交換機、自研光子產品、網卡等。自研交換機從25.6T容量更新到51.2T,同時在業界率先引入400G矽光子產品,速率翻倍,讓網絡延遲降低40%,支援超10萬卡大規模組網。

值得注意的是,星脈網絡2.0支援搭載騰訊自研的全新算力網卡,這是公共雲業内首款為AI訓練設計的網卡,網卡采用最新一代 FPGA 晶片,整卡帶寬可達400Gbps,具備業界最高的3.2T整機通信帶寬。該自研算力網卡運作着新一代騰訊自研通信協定TiTa,并搭載了騰訊獨有的主動擁塞控制算法。

相比起上一代,TiTa協定2.0從部署在交換機轉移到了端側的網卡上,從原來的被動擁塞算法更新到了更為智能的主動擁塞控制算法,可主動調整資料包發送速率,進而避免網絡擁堵;并通過擁堵智能排程,實作網絡擁塞快速自愈。這讓混合專家(MoE)模型訓練下網絡通信性能相比1.0提升30%,帶來訓練效率10%的提升。

專為星脈網絡設計的高性能集合通信庫TCCL,也進行了更新。通過創新的NVLINK+NET異構并行通信、Auto-Tune Network Expert自适應算法等通信庫的更新,在MoE模型訓練下,給星脈網絡帶來了30%的通信效率提升,讓模型訓練效率提升10%。

TCCL 對外的接口跟原生通信庫接口完全一緻的,主流AI大模型客戶不需要額外适配,隻需要替換通信庫就可以發揮星脈的能力。

通信協定TiTa與通信庫TCCL的更新帶來的效果疊加,讓星脈網絡的通信效率提升60%,MoE大模型訓練效率提升20%。

網絡的故障或任何單點的故障,将導緻整個叢集不可用,讓模型訓練暫停。是以,網絡的高可用、穩定性也極為重要。為確定星脈網絡的高可用,騰訊雲自研了端到端的全棧網絡營運系統,這也是星脈網絡第四大關鍵元件。

營運系統2.0新增騰訊獨家技術靈境仿真平台,從原來僅能定位網絡問題,到可定位GPU節點問題,實作萬卡級訓練故障卡頓、慢節點分鐘級定位。這對星脈網絡進行了360度無死角的立體監控,可以更快發現與定位網絡問題,讓整體故障的排查時間再次大幅縮短,故障時盡快恢複續訓。

打造最适合大模型的雲

目前,騰訊雲已經面向AIGC場景推出了基于星脈網絡的大模型訓練叢集HCC、AIGC存儲解決方案、向量資料庫以及行業大模型服務MaaS、天禦AIGC内容安全解決方案等大模型全鍊路雲服務。超過80%的頭部大模型企業使用了騰訊雲服務。

大模型訓練叢集在HCC将高性能雲伺服器作為節點,滿配最新代次的GPU,節點之間通過自研星脈網絡互聯,提供高性能、高帶寬和低延遲的一體化高性能計算産品。

騰訊雲AIGC雲存儲解決方案是國内首個實作存儲引擎全面自研的雲存儲解決方案,可将大模型的資料清洗和訓練效率均提升一倍,需要的時間縮短一半。

騰訊雲向量資料庫Tencent Cloud VectorDB每日支撐超過3700億次向量檢索請求,可支援千億級向量規模存儲,百萬級 QPS 及毫秒級查詢延遲,适用于大模型的訓練推理、RAG場景、AI應用以及搜尋推薦服務,實作企業資料接入AI的效率比傳統方案提升10倍。

騰訊雲打造了天禦AIGC全鍊路的内容安全解決方案,提供包含資料服務、安全專家、機器稽核、版權保護、客戶體驗管理五大服務體系,護航企業從模型訓練到事後營運全過程的内容安全建設。

同時,在自身AI基礎設施支撐下,騰訊自研的通用大模型騰訊混元大模型也在持續疊代。

借助基于星脈網絡的大模型訓練叢集HCC、Angel機器學習平台等自研底層技術,騰訊搭建起萬卡AI訓練叢集,可以用更少的資源訓練更大的模型,訓練速度是主流架構的2.6倍;推理成本相比業界主流架構下降70%,并且支援國産主流硬體的适配。

騰訊混元已擴充至萬億級參數規模,采用混合專家模型(MoE)結構,在通用基礎能力和專業應用能力方面處于國内主流大模型領先地位。無論是企業客戶還是個人開發者,都可以通過騰訊雲上API直接調用騰訊混元,實作更便捷的智能化更新。騰訊還聯合生态夥伴,将大模型技術與20多個行業結合,提供超50個行業大模型解決方案。

大模型時代的來臨,将開創下一代雲服務,騰訊雲緻力于打造“最适合大模型的雲”,也将持續更新底層AI基礎設施,助力企業把握AI時代。

繼續閱讀