天天看點

助力AI産業革新!浪潮資訊重磅推出AIGC存儲解決方案

作者:美通社

北京2024年7月2日 /美通社/ -- 6月28日,浪潮資訊"元腦中國行"全國巡展杭州站順利舉行。會上,浪潮資訊重磅推出

基于新一代分布式存儲平台 AS13000G7的AIGC存儲解決方案

。通過加持EPAI/AIStation的資源排程能力、新一代分布式存儲AS13000G7自身産品優勢,新方案從容應對大模型應用對存儲性能、容量以及資料管理等方面的苛刻要求。同時,浪潮資訊嘗試性提出GPU計算叢集算力與存儲叢集聚合帶寬的推薦配比,實作檢測點資料60秒内寫入和讀取恢複,提高大模型訓練效率。

助力AI産業革新!浪潮資訊重磅推出AIGC存儲解決方案
大模型時代,資料基礎設施挑戰更新

随着數字經濟的蓬勃發展,AI技術正逐漸成為推動企業業務變革和創新的重要動力,大模型已經成為驅動數字經濟深度創新、引領企業業務變革、加速形成新質生産力的重要動能。

會上,存儲産品線副總經理劉希猛表示,随着大模型參數量和資料量的極速膨脹,多源異構資料的傳、用、管、存,正在成為制約生成式AI落地的瓶頸之一,在AI大模型資料歸集、訓練、資料歸檔與管理等階段,面臨着資料歸集時間長、模型訓練效率低、資料管理複雜度高等針對資料基礎設施的新挑戰,使用者亟需建構支援多協定、高帶寬、低延遲、資料高效流轉的大模型存儲底座。

作為率先在業界提出分布式融合存儲的廠商,浪潮資訊聚焦行業客戶的大模型落地需求與核心痛點,打造基于NVMe SSD高效适配和優化的分布式全閃存儲AS13000G7-N系列。依托自研分布式檔案系統建構了新一代資料加速引擎DataTurbo,在緩存優化、空間均衡、縮短GPU與存儲讀取路徑等方面進行了全面更新,提供TB級帶寬、千萬級IOPS、EB容量,滿足大模型存儲在性能和容量方面的要求。

劍指 AIGC主戰場,打造面向大模型應用的存儲解決方案

在大模型資料處理全流程中,要想使訓練效率達到極緻,減少不必要的資源浪費,算力和存力需要均衡配置,訓練階段的資料讀寫性能成為發揮存力最大作用的關鍵。而想要提升存儲效率、降低模型訓練成本,必須要在存儲技術上進行創新。對此,浪潮資訊推出基于AS13000G7的AIGC存儲解決方案,該方案通過浪潮資訊AIStation人工智能平台進行智能資源排程和深度資料管理,與EPAI"元腦企智"平台深度內建,資料在熱、溫、冷、冰四個存儲資源池中高效流動,最大限度滿足AIGC不同階段對高性能、易管理的存儲需求。首先,通過與上層EPAI/AIStation的深度定制,依托智能資料預讀和智能故障處理等技術,為行業使用者提供經驗證的、更成熟的存儲整體方案,目前已累計服務AIGC使用者超100家,其中百PB級使用者超10家;其次,通過全局命名空間、多協定實時互通、資料冷熱分層等技術實作橫向資料自由流動,提升存儲效率和降低使用者TCO 20%以上,方案更加簡約;最後,通過AS13000G7-N系列強大的智能緩存優化、智能空間均衡和GPU直通存儲等優勢實作縱向資料高效通路,縮短大模型訓練時間50%,方案更加高效。憑借成熟的深度定制能力、卓越的産品性能優勢以及資料全生命周期管理能力,浪潮資訊基于AS13000G7的AIGC存儲解決方案充分滿足大模型訓練階段高性能、歸檔階段低成本的存儲需求。

助力AI産業革新!浪潮資訊重磅推出AIGC存儲解決方案
算存黃金比例,加速大模型訓練

倪光南院士曾提出,"對于AI智能計算中心來說,要想均衡配置存力、算力和運力,一定要注意比例相當,不能失調,才能取得最大的經濟和社會效益。"為了最大限度發揮大模型潛能,解決存算比例不平衡的難題,需要制定最佳的存算比例,保障模型的高效訓練。浪潮資訊最新釋出的AIGC存儲解決方案嘗試給出了模型訓練時GPU算力與全閃存儲性能、容量的配置推薦。

性能方面:

大模型訓練過程中檢測點檔案讀寫對存儲系統讀寫性能帶來巨大挑戰。萬億模型需要12~13TB模型參數,寫檢測點需要耗費大量的時間,未經優化的存儲叢集一次寫入檢測點需要3個小時。基于對存儲叢集讀寫帶寬與大模型檢測點恢複時間的分析,為提高大模型的訓練效率,實作檢測點資料60秒以内的寫入和讀取恢複,

前端 GPU計算叢集算力(機關采用每秒千萬億次浮點預算PFLOPS)與存儲叢集聚合帶寬(機關采用每秒千億位元組也就是常說的TB/s)的推薦配比為35:1

。當然,如果期望擷取更低的CHK寫入和恢複時間,可以繼續增加叢集帶寬,但其收益率相對較低。

全閃容量方面:

模型訓練場景中,除了初始加載的訓練資料集要存放在全閃池中,還有過程訓練中的CHK資料要儲存。随着萬卡時代的到來,當出現掉卡或訓練中止現象,使用者通常會每隔一段時間就儲存一次Check point資料,可以用來恢複訓練或用于模型評估和推理。經過一年多的實踐

,建議大模型使用者 2~4小時做一次Checkpoint,檢測點資料儲存兩周時間

,實作存儲叢集容量的合理利用。通過模型分析,結合産品特點,便可推算出全閃熱存儲池的存儲配置要求。當然,使用者需求還會涉及到用于收集原始資料、準備原始資料的溫存儲池,用于歸檔的冷資料存儲池。這些溫冷池的容量一般在熱存儲池容量的10-20倍左右,達百PB級。

助力AI産業革新!浪潮資訊重磅推出AIGC存儲解決方案

"元腦中國行"杭州站現場吸引了來自天目山實驗室、網易伏羲、英特爾等300餘位專家學者、産業領袖、行業客戶,現場圍繞生成式人工智能、Al for Science、大模型的AIGC應用等行業熱點話題進行分享。浪潮資訊還在會上舉行了"EPAI種子計劃"簽約儀式,

名都科技、啟帆資訊、圖靈軟體、天健遠見等浙江區域的 10位元腦夥伴正式加入"EPAI種子計劃"

,共同加速AI應用創新發展,推動大模型應用落地實踐。

繼續閱讀