編輯：昕朋

【新智元導讀】沒有什麼問題是一台AI計算機解決不了的，如果有，那就用16台！

明星晶片企業Cerebras帶着它餐盤大小的晶片來了，這次有16個！

更大、更快、更好用

周一，Cerebras公布了其用于深度學習的Andromeda AI超級計算機。據稱，該計算機在16位半精度下能提供超過1 ExaFLOP，相當于每秒100億億次運算的算力！

Andromeda是一個由16台Cerebras CS-2計算機連接配接起來的叢集，擁有1350萬個AI核心，遠遠超過全球超算TOP500冠軍Frontier的870萬個核心。

該計算機還采用了18,176個AMD Epyc中央處理單元的晶片。

Andromeda由Cerebras晶圓級引擎Wafer Scale Engine（WSE-2）提供核心算力。

處理器是由被稱為晶圓的矽盤制成的。在晶片制造過程中，一塊晶圓被分割成幾十個長方形，然後每個長方形被變成一個單獨的處理器。

但是，Cerebras另辟蹊徑，沒有将晶圓分割成幾十個小處理器，而是将其變成一個擁有數萬億半導體的大處理器。

WSE-2是有史以來最大的晶片，包含2.6萬億個半導體，組成85萬個核心，面積超過46225平方毫米。Andromeda超級計算的晶片拼起來，有16個餐盤那麼大！

相比之下，英偉達最大的GPU隻有540億個半導體，面積為815平方毫米。

用大晶片賺足眼球後，Cerebras打起了Andromeda的三大招牌。

首先，Andromeda運作AI任務的設定非常簡單。在嚴格的資料并行模式下，Andromeda實作了CS-2簡易的模型配置設定，以及從1到16個CS-2的單鍵擴充。

Cerebras表示，使用者隻需3天時間，就可以在不對代碼做任何改動的前提下，組裝完成16個CS-2，進行AI任務處理。

其次，它的程式設計很簡單。Cerebras的編譯器處理了所有的細節和善後工作，使用者隻需輸入一行代碼，指定在多少個CS-2上運作，然後就大功告成了。

Andromeda可由多個使用者同時使用，這意味着該超算不僅可以供一個使用者從事一項工作，還可以同時服務于16個不同的使用者從事16項不同的工作，工作效率和靈活度瞬間拉滿。

更重要的是，這個系統展示了近乎完美的線性可伸縮性。

「近乎完美」的可伸縮性

近幾年，神經網絡的規模一直在穩步增長。在過去的一年裡，OpenAI的GPT-3自然語言處理程式，一度以1750億參數成為世界上最大的神經網絡，後來很快被谷歌的1.6萬億參數模型Switch Transformer超過。

如此龐大的模型會遇到算力瓶頸問題，系統需求已經遠遠超出了單個計算機系統的處理能力。單個GPU的記憶體約為16GB，而GPT-3等模型所需的記憶體往往高達幾百TB。

像過去一樣，單純進行簡單粗暴的算力擴充，已經難以滿足需求。

是以，系統叢集變得至關重要。而如何實作叢集，是一個最關鍵的問題。要讓每台機器都保持忙碌，否則系統的使用率就會下降。

Cerebras 正是為了解決這個問題。

與任何已知的基于GPU的叢集不同，Andromeda在GPT級大型語言模型中展現了「近乎完美」的可伸縮性。在GPT-3、GPT-J和GPT-NeoX中，Andromeda的處理能力随CS-2數量的增加呈現了近乎完美的線性增長。

這意味着，在叢集中每增加一台CS-2計算機，整體的訓練時間會以近乎線性的趨勢減少。

做到這一點，離不開晶片與存儲、分解和叢集技術的協同工作。

Weight Memory & MemoryX：實作極速擴充

MemoryX是一種記憶體擴充技術，它使模型參數能夠存儲在晶片外，并有效地流式傳輸到 CS-2，實作同在晶片上那樣的性能。

這一架構靈活性極強，支援4TB到2.4PB的存儲配置，2000億到120萬億的參數大小。

而通過軟體執行模式Weight Memory，可以将計算和參數存儲分解，使規模和速度得以獨立且靈活地擴充，同時解決了小型處理器叢集存在的延遲和記憶體帶寬問題。

最終，WSE 2可以提供高達 2.4 PB 的高性能記憶體，CS-2 可以支援具有多達 120 萬億個參數的模型。

Cerebras SwarmX：提供更大、更高效的叢集

這是一種人工智能優化的高性能通信結構，可将 Cerebras的晶片内結構擴充到晶片外，進而擴充AI叢集，而且使其性能實作線性擴充。

最終，SwarmX 可以将CS-2 系統從2個擴充到192 個，鑒于每個 CS-2 提供85萬個 AI 優化核心，Cerebras 便可連接配接 1.63 億個 AI 優化核心叢集。

同時，Cerebras WSE-2基于細粒度資料流架構，其 85萬個 AI 優化計算核心可以單獨忽略零。

Cerebras 架構獨有的資料流排程和巨大的記憶體帶寬，使這種類型的細粒度處理能夠加速所有形式的稀疏性。這些都是其他硬體加速器，包括GPU，根本無法做到的事情。

Cerebras表示，可以訓練超過90%的稀疏性模型，達到最先進的精度。

目前，包括美國阿貢國家實驗室、AMD和劍橋大學等多名使用者已經使用了Andromeda超算系統，都對其近乎完美的線性可收縮性能力贊不絕口。

其中，與阿貢國家實驗室合作的基于HPC的COVID-19研究還入選有「超算領域的諾貝爾獎」之稱的戈登·貝爾獎。

擁有世界最大的晶片和協同技術，Cerebras能否挑戰目前超算Top 1的Frontier？我們拭目以待。

參考資料：

https://arstechnica.com/information-technology/2022/11/hungry-for-ai-new-supercomputer-contains-16-dinner-plate-size-chips/

https://www.forbes.com/sites/karlfreund/2022/11/14/cerebras-builds-its-own-ai-supercomputer-andromeda/?sh=2794ece11057

1000000萬億次/秒運算！Cerebras超級計算機造世界最大核心AI叢集

【新智元導讀】沒有什麼問題是一台AI計算機解決不了的，如果有，那就用16台！

更大、更快、更好用

「近乎完美」的可伸縮性

Weight Memory & MemoryX：實作極速擴充

Cerebras SwarmX：提供更大、更高效的叢集

繼續閱讀

軟體日志引發關注，資料報告收集驗證，将要開啟全新時代近年來，由于技術的快速發展，自動分析軟體日志引起了廣泛關注。目前，在

共計157台，榮威全部出光，吉利帝豪所剩無幾，感興趣的抓緊定金留車！新車吉利帝豪evpro享道平台專用車，帶标簽，優先派

各大房地産企業的資料對比：央行貸款餘額還有13萬億備用金給企業嚯嚯：第一名，許家印，恒大集團負債2.4萬億，第二名，楊國

在Java中，分析ConcurrentHashMap的Node下标的雜湊演算法。在Java中，分析jdk1.8中Concu

[震驚]上車尋底（附源碼）等漲停，與莊共舞可能嗎？[靈光一閃]牛市味道，今天又是40-50家漲停？8月可能更是超乎所有人

名稱：RHTAGS-GL4012尺寸:40mm12mm5mmRFID資産管理标簽晶片：UHF、TK4100、FM11

好家夥，我直接一個好家夥這才8月1号，就有車企中的顯眼包，迫不及待把自己7月的銷量亮出來了五菱缤果不負衆望，賣出了2

10000u挑戰30000u第二天更新一下前面兩天的#以太坊eth##ETH#

判斷莊股靠什麼（附源碼可選股）？尤其是在漲停的時候，散戶不知不覺被洗下車，其實有可能是中計了。漲停背後肯定有很多故事？就

中國人自己的突破，評論區全是質疑的。南韓可以沒有電磁彈射航母、空間站、火星車、月壤、量子計算機、量子加密通訊、光刻機、圓

今天我的雙千兆融合網絡終于不用斷電重新開機，好了！代價是2400元昨天早上吐槽網絡嬌氣之後，上午連續罷工，幾乎一小時就要休息

這是來自于閃極的『流浪地球主機密鑰移動電源40W』。當閃極在官微上宣布要出《流浪地球》的官方周邊的時候，我就狠狠的期待了

炒股為什麼上瘾？莊家有多壞？就是要制造假象，讓你在拉升前跑掉。背離後上攻（附源碼）不會被洗出去？有時盤整了好久，就是在考

教你七天内快速漲粉10000+的技巧。雖然玩抖音的人都知道這個秘密，但很少有人會告訴你。我的賬号在七天内成功增粉6.4萬

起飛前預熱嗎？周末精選[給力]量價背離（附源碼），不要在[我想靜靜]加速時被甩下車了。在利好資訊落地前，做到潛伏？[wh

MACD起飛預警（附源碼可選股），不怕得罪和驚動主力，可慢慢埋伏？啟動時第一時間被發現，真的這麼難嗎？MACD金叉背離這