天天看點

阿裡雲E-HPC賦能制造業仿真雲彈性阿裡雲E-HPC賦能制造業仿真雲彈性

阿裡雲E-HPC賦能制造業仿真雲彈性

從公測開始說起

去年9月份E-HPC開始公測,某仿真客戶便開始申請使用彈性高性能服務。該客戶因為業務關系已開始或多或少使用雲計算産品,另一方面傳統制造業發展問題也促使客戶想嘗試做出一些改變。

經過同客戶的初步交流,客戶的主要痛點集中在以下方面:客戶從事仿真行業,通過服務傳統的制造業獲得營收,是以客戶的客戶集中在汽車,航天,船舶等。一方面該仿真企業的客戶在不同階段對算力的需求也不盡相同,有時也突然遇到比較大的仿真需求的客戶,自己機房的小規模的機器經常滿足不了生産需要,總的來說一年四季客戶對計算力的需求總是會有各種各樣的波動。

最開始的彈性

E-HPC剛上線時為在雲上資源所建立的叢集提供了計算機群擴容和縮容的功能,這意味者在雲上New出來的計算節點一方面要能部署同其他計算節點一樣高性能軟體棧,另外一方面要求節點要有同一套POSIX賬号體系,以便叢集作業排程器能夠将使用者送出的作業排程到該節點上運作。客戶剛開始便很快完成了基于ECS的叢集建立,剛開始運作需要幾十個計算核心的算例,通過E-HPC的擴容完成計算機群節點的增加,同時可以馬上在該叢集運作更多核心的結構和流體求解器計算作業。

能自動伸縮的彈性

客戶為制造企業提供仿真服務,有些算例客戶在運作前可以預估大概需要多少計算核心計算多少時間,但有些複雜算例,客戶也無法确定資源需求量。客戶希望E-HPC産品提供的計算機群能夠貼着客戶從仿真系統送出的作業數量和實際的真正運作作業的計算核心數走,即客戶想盡可能用好每一個CPU周期,是以希望E-HPC能幫助客戶自動完成自動增加計算節點和自動減少叢集的計算節點。是以,AutoScale功能便上線了。AutoScale可以根據整個高性能叢集的負載和政策動态調整計算機群擴容和縮容。
           

同雲桌面/GPU伺服器的結合

一般在仿真工作流裡面,完成大量的仿真計算後會進入到渲染階段,是以一般會經過GPU伺服器叢集的Pipeline,最後通過雲桌面展示給客戶的客戶。于是E-HPC開始支援自定義鏡像,友善客戶從帶有特點渲染軟體的鏡像啟動GPU執行個體完成仿真後處理工作,并且E-HPC開始推出支援競價執行個體的擴容方式以便客戶能夠使用較低的成本完成一些無狀态的訓練任務。

超級計算叢集

傳統的高能計算,為了計算的極緻,從每年的Top500來看,在計算存儲網絡方面都有很明顯的特點。首先,在計算方面高能計算的叢集的計算節點傾向于選擇高主頻類型的處理器,頻率基本都在3GHz~4GH;其次在存儲方面 基本是基于傳統企業級盤陣,存儲系統的可靠性放在盤陣自身的容錯能力上,很少使用多副本的方案;在網絡方面,傳統應用多使用基于同步通信的并行算法,是以為了能達到較大的加速比一般使用低延遲的RDMA網絡甚至是專門定制的通信網絡。

年初雲上超級計算叢集(SCC)開始公測,提供能運作超算應用的計算存儲和網絡基礎設施,SCC能夠給流體仿真之類的有限元分析軟體提供近乎線性的加速比。結合E-HPC提供的彈性,客戶很快便完成了POC測試。

我們可以看到對于同樣幾億單元的有限元分析,使用SCC無論是單節點的計算能力還是多節點加速比都有顯著提升,是以客戶給回報了如下的測試感受:

“1.計算性能強勁:無論是單節點的計算能力,還是多節點分布式計算能力都有顯著提升,在測試項目計算規模之内,都可以獲得非常不錯的加速效率”

“2.叢集互聯IO性能:RDMA高速互聯可以滿足一定範圍内的大規模的機械,流體等仿真應用計算要求,效果顯著” ,要性能有性能,要彈性有彈性之後,客戶便更有信心将仿真生産系統往雲上遷移。

仿真應用遷雲

該仿真客戶經過多年的仿真服務實踐,開發了一款仿真系統,該系統內建了制造仿真行業常用的商業軟體,基本覆寫碰撞仿真,流體動力學,機械結構,電磁模拟等。

該仿真系統提供了統一的Portal給不同的制造企業以一緻的體驗完成仿真工作流,早期的系統結構基本如下圖所示:從中我們可以看出早期的結構基本立足于傳統超算,融合了CAE并行計算、計算資源排程、軟硬體資源管理、遠端圖形桌面以及CAE專業應用等技術,由此面向仿真使用者提供仿真計算服務。客戶需要很重的成本來擁有這些基礎設定作為生産資料來服務客戶的客戶。然而,經過交流,客戶的心聲是做仿真他們是專業的,但是經營IT基礎設施隻是為了維持他們的仿真生産系統而進行的活動;他們想專注于仿真服務,而将IT基礎設施遷往雲上,于是客戶便有了仿真系統遷雲的想法。

客戶想通過将仿真系統遷雲,達到以下效果:

1.使用者不需要購買任何實體IT硬體資源,通過Web即可開展仿真分析工作。

2.統一管理和調配專業軟體軟體管理,充分利用昂貴的CAE軟體資源。

3.通過雲計算彈性充分利用雲上資源進行仿真。

經過逐漸的驗證,客戶在阿裡雲上完成了将仿真流程收斂到下面的結構:

從上面的分析,我們可以發現客戶能夠更加專注于仿真工作流本身,而将對IT基礎設施的使用變成了阿裡雲上一條一條的OpenAPI;需要叢集時通過一條OpenAPI New出一個超算叢集,算力不夠時通過一條Open API New出新的計算機群,作業空閑時通過一條Open API釋放計算機群,不想手動操作時通過一條Open API 自動伸縮叢集。客戶不用再考慮自建機房,備貨,擴建,裝置運維...... 。

總結

随着工業仿真技術的不斷發展和成熟以及工業産品的自身的複雜程度越來越高,目前現在多數工業仿真對象都是在各種複雜實體環境條件情況下進行的,這種情況決定了完成工業級的仿真工作需要大量的計算和高性能的存儲資源,以及配套的可以執行快建立和通路仿真模型和資料,并能夠實作較高程度的自動化仿真流程。工業上的仿真技術在産品研發中所扮演的角色在流程上越來越靠前,不再是産品設計完成後的後端驗證。與此同時,工業仿真技術在産品生命周期的下遊也發揮着越來越重要的作用,比如分析來自工業物聯網中機器的實時操作資料。是以,工業仿真所需計算資源、人才培養、環境建設的難度都在增加。但對于企業來講,搭建一個環境并培養專職的仿真工程師并不容易,僅僅是購買軟硬體的需求調研就可能花費數月時間,之後還得投入大量的時間和精力進行專業領域仿真教育訓練和應用部署。

同其他的企業級IT應用一樣,雲計算技術正在給仿真應用帶來巨大的改變。通過仿真雲平台能夠對産品進行設計、改進、創新進行模型的快速驗證和方案的對比。對于傳統制造企業來說,使用雲計算技術的價值歸根結底是不用購買和管理實體計算叢集,進而可以改變傳統的仿真應用流程,更加專注于仿真應用本身。基于雲計算技術,企業将可以用到更加靈活的軟體使用價格,并可以随時随地進行模組化解決複雜的仿真應用問題。借助同時模拟多個不同設計方案的能力,基于雲計算技術的仿真可以支援傳統制造業更輕松地進行産品設計和工程仿真。通過在阿裡雲上仿真,可以很快擷取彈性資源,能夠在很短的時間就可以進行完整的仿真生産流程。不管是加快産品創新,還是滿足制造業不斷增長的仿真需求或是,加強全球合作提高IT投資回報率,都會收到立竿見影的效果。

繼續閱讀