天天看點

1000000萬億次/秒運算!Cerebras超級計算機造世界最大核心AI叢集

作者:新智元

編輯:昕朋

【新智元導讀】沒有什麼問題是一台AI計算機解決不了的,如果有,那就用16台!

明星晶片企業Cerebras帶着它餐盤大小的晶片來了,這次有16個!

更大、更快、更好用

周一,Cerebras公布了其用于深度學習的Andromeda AI超級計算機。據稱,該計算機在16位半精度下能提供超過1 ExaFLOP,相當于每秒100億億次運算的算力!

1000000萬億次/秒運算!Cerebras超級計算機造世界最大核心AI叢集

Andromeda是一個由16台Cerebras CS-2計算機連接配接起來的叢集,擁有1350萬個AI核心,遠遠超過全球超算TOP500冠軍Frontier的870萬個核心。

1000000萬億次/秒運算!Cerebras超級計算機造世界最大核心AI叢集

該計算機還采用了18,176個AMD Epyc中央處理單元的晶片。

1000000萬億次/秒運算!Cerebras超級計算機造世界最大核心AI叢集

Andromeda由Cerebras晶圓級引擎Wafer Scale Engine(WSE-2)提供核心算力。

處理器是由被稱為晶圓的矽盤制成的。在晶片制造過程中,一塊晶圓被分割成幾十個長方形,然後每個長方形被變成一個單獨的處理器。

1000000萬億次/秒運算!Cerebras超級計算機造世界最大核心AI叢集

但是,Cerebras另辟蹊徑,沒有将晶圓分割成幾十個小處理器,而是将其變成一個擁有數萬億半導體的大處理器。

WSE-2是有史以來最大的晶片,包含2.6萬億個半導體,組成85萬個核心,面積超過46225平方毫米。Andromeda超級計算的晶片拼起來,有16個餐盤那麼大!

相比之下,英偉達最大的GPU隻有540億個半導體,面積為815平方毫米。

1000000萬億次/秒運算!Cerebras超級計算機造世界最大核心AI叢集

用大晶片賺足眼球後,Cerebras打起了Andromeda的三大招牌。

首先,Andromeda運作AI任務的設定非常簡單。在嚴格的資料并行模式下,Andromeda實作了CS-2簡易的模型配置設定,以及從1到16個CS-2的單鍵擴充。

Cerebras表示,使用者隻需3天時間,就可以在不對代碼做任何改動的前提下,組裝完成16個CS-2,進行AI任務處理。

其次,它的程式設計很簡單。Cerebras的編譯器處理了所有的細節和善後工作,使用者隻需輸入一行代碼,指定在多少個CS-2上運作,然後就大功告成了。

Andromeda可由多個使用者同時使用,這意味着該超算不僅可以供一個使用者從事一項工作,還可以同時服務于16個不同的使用者從事16項不同的工作,工作效率和靈活度瞬間拉滿。

更重要的是,這個系統展示了近乎完美的線性可伸縮性。

「近乎完美」的可伸縮性

近幾年,神經網絡的規模一直在穩步增長。在過去的一年裡,OpenAI的GPT-3自然語言處理程式,一度以1750億參數成為世界上最大的神經網絡,後來很快被谷歌的1.6萬億參數模型Switch Transformer超過。

如此龐大的模型會遇到算力瓶頸問題,系統需求已經遠遠超出了單個計算機系統的處理能力。單個GPU的記憶體約為16GB,而GPT-3等模型所需的記憶體往往高達幾百TB。

1000000萬億次/秒運算!Cerebras超級計算機造世界最大核心AI叢集

像過去一樣,單純進行簡單粗暴的算力擴充,已經難以滿足需求。

是以,系統叢集變得至關重要。而如何實作叢集,是一個最關鍵的問題。要讓每台機器都保持忙碌,否則系統的使用率就會下降。

Cerebras 正是為了解決這個問題。

與任何已知的基于GPU的叢集不同,Andromeda在GPT級大型語言模型中展現了「近乎完美」的可伸縮性。在GPT-3、GPT-J和GPT-NeoX中,Andromeda的處理能力随CS-2數量的增加呈現了近乎完美的線性增長。

1000000萬億次/秒運算!Cerebras超級計算機造世界最大核心AI叢集

這意味着,在叢集中每增加一台CS-2計算機,整體的訓練時間會以近乎線性的趨勢減少。

1000000萬億次/秒運算!Cerebras超級計算機造世界最大核心AI叢集

做到這一點,離不開晶片與存儲、分解和叢集技術的協同工作。

Weight Memory & MemoryX:實作極速擴充

MemoryX是一種記憶體擴充技術,它使模型參數能夠存儲在晶片外,并有效地流式傳輸到 CS-2,實作同在晶片上那樣的性能。

這一架構靈活性極強,支援4TB到2.4PB的存儲配置,2000億到120萬億的參數大小。

而通過軟體執行模式Weight Memory,可以将計算和參數存儲分解,使規模和速度得以獨立且靈活地擴充,同時解決了小型處理器叢集存在的延遲和記憶體帶寬問題。

1000000萬億次/秒運算!Cerebras超級計算機造世界最大核心AI叢集

最終,WSE 2可以提供高達 2.4 PB 的高性能記憶體,CS-2 可以支援具有多達 120 萬億個參數的模型。

Cerebras SwarmX:提供更大、更高效的叢集

這是一種人工智能優化的高性能通信結構,可将 Cerebras的晶片内結構擴充到晶片外,進而擴充AI叢集,而且使其性能實作線性擴充。

1000000萬億次/秒運算!Cerebras超級計算機造世界最大核心AI叢集

最終,SwarmX 可以将CS-2 系統從2個擴充到192 個,鑒于每個 CS-2 提供85萬個 AI 優化核心,Cerebras 便可連接配接 1.63 億個 AI 優化核心叢集。

1000000萬億次/秒運算!Cerebras超級計算機造世界最大核心AI叢集

同時,Cerebras WSE-2基于細粒度資料流架構,其 85萬個 AI 優化計算核心可以單獨忽略零。

Cerebras 架構獨有的資料流排程和巨大的記憶體帶寬,使這種類型的細粒度處理能夠加速所有形式的稀疏性。這些都是其他硬體加速器,包括GPU,根本無法做到的事情。

Cerebras表示,可以訓練超過90%的稀疏性模型,達到最先進的精度。

目前,包括美國阿貢國家實驗室、AMD和劍橋大學等多名使用者已經使用了Andromeda超算系統,都對其近乎完美的線性可收縮性能力贊不絕口。

1000000萬億次/秒運算!Cerebras超級計算機造世界最大核心AI叢集

其中,與阿貢國家實驗室合作的基于HPC的COVID-19研究還入選有「超算領域的諾貝爾獎」之稱的戈登·貝爾獎。

1000000萬億次/秒運算!Cerebras超級計算機造世界最大核心AI叢集

擁有世界最大的晶片和協同技術,Cerebras能否挑戰目前超算Top 1的Frontier?我們拭目以待。

參考資料:

https://arstechnica.com/information-technology/2022/11/hungry-for-ai-new-supercomputer-contains-16-dinner-plate-size-chips/

https://www.forbes.com/sites/karlfreund/2022/11/14/cerebras-builds-its-own-ai-supercomputer-andromeda/?sh=2794ece11057

繼續閱讀