編者按:
阿裡的白盒交換機自研趕上了雲計算快速發展的年代。經過多年的實戰檢驗,阿裡在白盒交換機領域積累了豐富的經驗。歸根到底,軟硬體自研服務的是阿裡整個網絡架構的平滑和快速疊代,降低機關帶寬的成本;同時,軟硬體自研服務也為阿裡的大規模自動化營運提供了基礎。
全文約4641字,建議閱讀時間12分鐘。
從2018年投入第一代軟硬體全自研交換機研發至今,阿裡巴巴的自研網絡硬體已覆寫并規模部署到阿裡雲的整個網絡,成為了整個網絡的基礎。
一切為了規模
規模,是網際網路資料中心和傳統資料中心的最大差別,是以,通常會把這類網際網路、雲計算資料中心稱作超大規模資料中心——hyperscale data center。
阿裡雲在全球28個地域的86個可用區裡營運着上百座資料中心,每個資料中心能夠容納幾萬台到十幾萬台伺服器。龐大的數量催生了“三大規模”挑戰:超大規模接入、超大規模營運、超大規模演進。
超大規模接入
白盒交換機勝任超大規模接入。
Scale Out理念和CLOS架構為硬體白盒化奠定了架構基礎
Scale Out理念利用橫向擴充來增加網絡的接入能力,而不是一味增加單台裝置的端口數量。CLOS架構則很好的貫徹了Scale Out的理念。這種網絡架構能夠用小規模、低成本的裝置,建構大規模的網絡,成為超大規模資料中心的事實架構标準。
這樣的背景下,盒式交換機終于有了用武之地,盒式交換機的設計複雜度相比傳統的框式交換機要低,這就為硬體白盒化奠定了架構基礎。
SDN讓封閉系統變成開放系統
傳統的資料中心交換機多為複雜的框式交換機,并且資料面、控制、管理完全由裝置廠家控制,是一個封閉的系統。SDN的核心思想之一是開放和解耦,通過解耦把單個廠商封閉系統變成一個開放的系統。最具代表性的成果是商業化交換機晶片逐漸占據資料中心網絡市場的主導地位,開源組織和開源軟體也如雨後春筍般出現。白盒交換機有了架構的基礎,也有了晶片基礎。
最後,不得不提的是SONiC這個交換機開放作業系統。阿裡巴巴主力推動的開源SONiC已經成為交換機開源作業系統的事實标準。
至此,白盒交換機俨然成為了大規模資料中心的天選之子。
超大規模營運
白盒交換機解決超大規模網絡的營運問題。
傳統網絡的營運,類似于人工駕駛,每個營運人員就像駕駛員,需要操控好自己的車子,以應對突發路況,而當我們的交通網越來越大時,單純依靠駕駛員自身的能力将無法達到最佳效率。
超大規模網絡的營運,類似于大交通網下的自動駕駛,通過為全網交換機賦予豐富的監控能力,再通過對大量資料的智能分析和集中處理能力,能夠大幅提升超大規模網絡的營運效率。
超大規模演進
白盒化幫助實作超大規模架構的快速部署和疊代,從更高的次元實作性能和成本的最優解。
在依賴商業交換機的時代,整個網絡的演進受限于廠家的方案,使用者需求真正展現到裝置廠家會存在遲滞;除此之外,在成本上,傳統網絡成本的降低,依賴于三方競價等手段來降低單裝置的成本,而白盒賦予其在更高次元上的成本優化方式。
快速變化的業務驅動下,使用者可第一時間享受到新晶片、新架構的紅利,且能夠形成長期穩定的架構演進方案,進而實作整體網絡成本的降低。
自研之路
阿裡巴巴基于全自研交換機的網絡架構始于2018年。彼時100G子產品已成為成熟的方案,商業12.8T交換晶片也剛剛出世,25G網卡的伺服器也開始規模上線。
在這樣的背景下,有個最為恰當的選擇:利用12.8T單晶片打造128個100G端口的交換機,進而實作網絡性能、成本雙赢。
這裡有必要做一些背景介紹。
在三層CLOS架構下,整個網絡能夠接入網卡和伺服器的數量,也就是我們所說的叢集規模,取決于單台交換機的端口數量。
而交換機的單端口帶寬則反映了業務對于帶寬的需求。
以12.8T交換晶片為例,基于單晶片的交換機可以設計成128x100G端口,或者32個400G端口。對于後者來說,帶寬提升了但同時犧牲了接入的規模。
而交換機的端口形态也決定了使用哪種光子產品。業務的需求,最終反映到了網絡的架構和交換機端口形态的選擇上。
北美的四大網際網路中也有出于對高帶寬的需求,同時為了兼顧叢集規模,而采用多個盒式交換機互連來形成一個邏輯上的大帶寬多端口的Leaf/Spine交換機,并且一直延續這樣的架構。其帶來的影響是相比單晶片的盒式交換機組網方案,互連複雜度增加,同時互連跳數增加導緻時延增加。
基于當時自身的需求和産業鍊狀況,阿裡巴巴選擇了一條最為适合自己、最為簡潔的單晶片交換機方案。
2019年底,在第一代架構規模上線之時,阿裡雲開始規劃下一代的網絡方案。此時25.6T交換晶片呼之欲出。走400G網絡還是走200G網絡成了争論的焦點。當時,一些北美網際網路公司規劃了800G/400G的互連方案,從技術上看,在光互連技術上确實領先業界。但是400G在可預見的幾年内還不能達到較好的成本效益;另一方面,基于25.6T晶片做400G端口的交換機,端口數量相比200G減少一半,整體的叢集規模會降至200G網絡的1/4,這是更為緻命的一個問題。
權衡利弊之後,阿裡雲選擇了200G路線:既能保證架構和帶寬平滑演進,又能保持叢集規模,選擇這一路線帶來的挑戰是需要驅動産業鍊去為200G的子產品做好準備。從這一代開始,阿裡雲開始了自己的叢集架構和交換機的演進之路。
商業晶片還在按照既定的2年一代的節奏進行更新,51.2T晶片已躍出水面,真正的400G時代即将到來。
對業務規劃的深入了解、對産業的清晰認知和影響、對架構演進的合理規劃,讓阿裡雲比四年前更有自信。
過去很長的時間裡,網絡裝置的管理和運維都是以人手動為主,網絡配置采用指令行,網絡故障發現需要靠人肉通過Ping、Traceroute等基本工具來進行。阿裡的每個大型資料中心都有幾千台的交換機,依靠人來手工運維是不現實的。
阿裡雲的資料中心網絡利用軟硬體自主可控,實作了營運的自動化和智能化。自動化營運包括很多方面,從最開始的自動化架構驗證,到自動化的規模部署,再到自動化的新功能釋出、軟體版本更新,以及故障的自動化發現、隔離和恢複等。
與廠商的封閉裝置不同,阿裡通過軟硬體自研實作自主可控,從頭打造了适合大規模營運的部署能力、監控能力、排障能力、更新能力等等。大規模自動化營運水到渠成,支撐規模營運的思想貫穿着交換機的整個生命周期。
從第一代自研交換機開始,阿裡就将BMC引入到了交換機中,作為交換機的第二大腦。傳統的交換機内,CPU負責了所有的控制和管理任務,一旦CPU出現問題,裝置就會失聯,也很難對故障進行追溯,故障的恢複也需要依賴人工幹預。BMC的引入,将裝置的管理任務搬到了BMC,CPU則專注于交換晶片的控制:在CPU挂死時,BMC能主動擷取CPU的故障資訊,同時結合裝置上的實時傳感器監控資料對故障過程和原因進行排查、分析;同時,BMC還能對CPU和裝置進行恢複,避免了人工幹預。
除了主架構交換機,阿裡還将帶外網絡進行了全面的自研化改造。帶外交換機和序列槽伺服器是網絡的第二道生命線,當帶内出現問題時,往往要依賴于帶外通道對故障進行排查和恢複。長期以來帶外并未受到足夠重視,供應、成本、穩定性這些都是老大難的問題。
同時,主架構交換機自研的理念也帶到了帶外,除了解決供應、成本、穩定性這三大問題,也将自動化能力和豐富的運維特性帶給了帶外,極大提高了整個網絡營運的效率。
在規模部署和營運上,另一個不得不提的是“自研交換機+DAC的整機櫃一體化方案”,該方案極大提升了交換機和伺服器互連的穩定性,提升了建設和營運效率,關于這個主題,我們接下來會有單獨的一篇文章去詳細介紹。
生态的力量
傳統裝置廠商設計一款交換機,需要有非常大的投入和很長的周期。對雲計算廠商來說,效率是非常重要的。
解法是什麼?那就是——生态的力量。
S³IP-網絡标準化新引擎
打造生态,推動生态,合作共赢,讓白盒交換機的開發和內建更為簡單。這也是在2020年推動發起S³IP的初衷和主旨。今天的S³IP,聯合了國内幾乎所有的頭部網際網路廠家,也吸引了業内主要的白盒交換機ODM廠家、商業晶片廠家。
如何打造網絡标準化新引擎的呢?
因為白盒交換機底層驅動向上接口的差異,造成了不同交換機需要投入重複的內建工作,為此提出了驅動接口标準化sysfs。
因為交換機平台測試上存在的差異化,提出了平台測試标準化PIT。
因為廠家SONiC系統和使用者環境及需求存在的差異,阿裡雲提出了D4OS這一标準化的廠家出貨的OS,不僅解決了統一的問題,同時也為D4OS植入了支援交換機大規模部署的程式,使得廠家OS能夠無縫對接使用者。
在硬體層面,為了支援軟體和系統更好地內建,從功能層面提出了硬體系統的基礎能力需求。
對于核心的CPU模組進行了标準化,統一了使用者的需求,讓使用者和ODM的研發效率大大提升。可以說,S³IP從最樸素的想法出發,從點到面,已逐漸建構了一個國内白盒交換機領域的标準體系。
今天,S³IP生态已吸引了7家頭部網際網路公司、1家營運商夥伴、10家交換機領域的系統廠家,7家晶片公司的加入,目前,已經貢獻超過2萬+行代碼供生态夥伴使用,超過30款系統按照S³IP标準進行适配。S³IP目前的标準化覆寫了白盒交換機底層硬體、底層軟體、平台測試,正在向晶片标準化進發。
S³IP在紮根國内的同時,也不忘輸出影響力到國際上。去年,S³IP将PIT/Sysfs推到了SONiC社群,PIT/Sysfs HLD PR已獲通過;在未來網卡和交換機融合的新領域,S³IP也會和DASH社群保持緊密溝通。
QSFP112
除了S³IP這一白盒标準化組織,阿裡在交換機端口的标準化上也進行了持續的推動和貢獻,主導發起了QSFP112 MSA組織。
阿裡的網絡架構,決定了在交換機裝置上會持續走單晶片128端口的路線。結合交換晶片從25.6G到51.2G,再到102.4T的演進路線,阿裡的交換機端口會長期使用4個lane的方案。簡單來說,就是一個端口由四個高速串行電信号組成。
串行電信号的速率為25G,單個端口速率為100G,這就是業界現有的QSFP28标準。串行電信号的速率為50G,單個端口速率為200G,業界标準就是QSFP56标準。
當确定了長期的架構方案後,我們發現:當串行電信号的速率達到112G的時候,也就是單端口400G的時候,業界還沒有這樣的标準(很大一部分原因是由于北美四大網際網路的網絡和交換機路線和我們存在差異,他們走的是單端口8個或16個高速串行信号的方案)。這便驅動了阿裡雲在2021年率先發起QSFP112标準。使得整個産業鍊為400G時代做好了準備,也為未來QSFP224标準打下了堅實的基礎。
結語與展望
随着處理器和存儲能力不斷更新,AI等新應用的興起,網絡的性能變得愈加重要。在這樣的背景下,阿裡提出了“可預期網絡”的理念。“可預期網絡”的核心,是通過端和網的協同與融合,保證網絡的帶寬和延遲,這一思想的前提,是需要端側和網側的透明,而交換機的自主可控是這個思想的基礎之一。
和傳統的計算不同,AI和智算有着特殊的流量模型,all-reduce的算法使得網絡更容易出現Incast,而任務本身對于Incast造成的擁塞也更為敏感。
新形勢下,我們的AI網絡如何搭建和優化?我們的自研交換機怎樣配合新的網絡架構去支援新的業務場景?這些都是阿裡雲“可預期網絡”目前需要思考的問題。“可預期網絡”的目标和新興的智算業務,驅動着自研交換機的未來發展。