面向大模型訓練，騰訊釋出超強算力叢集！

2023-04-14 12:27:49

請看标題。

這個國内超強算力叢集，就是騰訊雲新釋出的面向大模型訓練的新一代HCC（High-Performance Computing Cluster）高性能計算叢集，整體性能比過去提升了3倍。

它搭載了NVIDIA H800 Tensor Core GPU，能夠提供高性能、高帶寬、低延遲的智算能力支撐。

目前大熱的人工智能大模型訓練，離不開高性能的算力叢集。我們很高興第一時間跟你分享這個好消息。

一般運算，由運算卡（晶片）來完成。

但遇到海量運算，單塊晶片無力支撐，就要将成千上萬台伺服器，通過網絡聯結，組成大型的算力叢集，同心合力，更高更強。

一個人工智能大模型，通常得用數萬億個單詞訓練，參數量也“飙升”到了上萬億。這個時候，隻有高性能的計算叢集能hold住。

算力叢集的“強”，由單機算力、網絡、存儲共同決定。就像一個牢固的木桶，缺一不可。

騰訊雲新一代叢集通過對單機算力、網絡架構和存儲性能進行協同優化，能夠為大模型訓練提供高性能、高帶寬、低延遲的智算能力支撐。

總體來說，有以下幾個特點：

計算方面，性能強——

在單點算力性能最大優化的基礎上，我們還将不同種類的晶片組合起來，GPU+CPU，讓每塊晶片去最恰當的地方，做最擅長的事情。

網絡方面，帶寬足——

GPU擅長并行計算，一次可以做多個任務。我們的自研星脈高性能網絡，讓成千上萬的GPU之間互相“通氣”，資訊傳遞又快又不堵車，打一場漂亮的配合戰，大模型叢集訓練效率提升了20%。

存儲方面，讀取快——

訓練大模型時，幾千台伺服器會同時讀取一批資料集，如果加載時間過長，也會成為木桶的短闆。我們的最新自研存儲架構，将資料分類放進不同“容器”，用作不同的場景，讀取更快更高效。

随着算力需求的陡增，自己采購GPU的價格昂貴，甚至有錢也買不到，給創業企業、中小企業帶來很大壓力。我們的新一代HCC叢集，能夠幫助在雲上訓練大模型，希望緩解他們的壓力。

我們有訓練架構AngelPTM，對内支援了騰訊混元大模型的訓練，也已認證騰訊雲對外提供服務。它在去年10月，完成了首個萬億參數大模型訓練，并将訓練時間縮短80%。

我們的TI平台（一站式機器學習平台）擁有大模型能力和工具箱，能幫助企業根據具體場景，進行精調訓練，提升生産效率，快速建立和部署 AI 應用。

我們的自研晶片已經量産，包括用于AI推理的紫霄晶片。它采用自研存算架構和自研加速子產品，可以提供高達3倍的計算加速性能和超過45%的整體成本節省。

總體而言，我們正以新一代HCC為标志，基于自研晶片、自研伺服器等方式，軟硬一體，打造面向AIGC的高性能智算網絡，持續加速全社會雲上創新。

未來你希望算力來做什麼？我們留言區見。

繼續閱讀