天天看點

一文帶你了解阿裡雲雲網絡的十年演進之路

作者:技術聯盟總壇

九善 阿裡雲開發者 2023-09-28 08:31 發表于浙江

一文帶你了解阿裡雲雲網絡的十年演進之路

阿裡妹導讀

伴随着大型和超大型企業陸續上雲,更豐富行業場景和更多樣的服務運作在阿裡雲上,對雲網絡的規模、性能、彈性提出了更極緻的要求,驅使着雲網絡不斷持續優化,從經典網絡到專有網絡,控制面從1.0到3.0,資料面從内部服務去網關,邊界網關硬體化,全面擁抱智能網卡,再到業務網元虛拟化,走上一條“螺旋”上升的路線。

一、業務需求驅動網絡變革

雲計算産業的發展帶來了豐富的使用者網絡需求,傳統的網絡裝置架構無法滿足雲計算的需求。早期阿裡雲使用者主要以網際網路行業及關聯行業為主,主要的需求是能自主規劃,安全隔離,轉換成雲網絡的功能簡化為大規模、多租戶網絡隔離的網絡(VPC),這個階段阿裡雲網絡是從經典網絡裝置架構的大二層網絡更新為租戶自主規劃的專有VPC網絡。

伴随着大型和超大型企業陸續上雲,更豐富行業場景和更多樣的服務運作在阿裡雲上,對雲網絡的規模、性能、彈性提出了更極緻的要求,也驅使雲網絡不斷持續優化,在這個階段阿裡雲雲網絡全線開始進入網絡優化持久戰,走上一條“螺旋”上升的路線。

二、從經典網絡到專有網絡

阿裡雲是在2009年開始做雲計算的,那個時期經典網絡技術比VPC技術更加成熟也更加簡單,是以那個時候阿裡雲最初也是選擇經典網絡技術,經典網絡最明顯的特征是大二層,所謂的大二層指的是經典網絡在二層是完全互通的,整個經典網絡通過鄰居表來轉發封包,虛拟網絡和實體網絡之間強耦合,使用者購買經典網絡伺服器後,伺服器的IP位址都是配置設定好的,客戶無法自助規劃網絡,同時由于伺服器之間網絡完全可達,需要客戶配置好安全規則來保證自身的安全。抽象點比喻在經典網絡内的伺服器就好比在住在一棟房子裡面的不同房間住戶,IP位址就相當于門牌号,在租房間的時候就已經配置設定好了,安全組就相當于門鎖,住戶需要設定好門鎖來防止串門。

伴随着雲上使用者增多,和越來越多的客戶開始擁抱公共雲,對彈性、安全提出了更多的要求,經典網絡方案的弊端開始暴露,例如

  • 安全隔離不足:由于是大二層的網絡,雖然預設配置下安全組的政策是禁止互訪,但會出現客戶自主配置的安全政策範圍較大導緻的非預期的安全事件。
  • 實體網絡強耦合:經典網絡機器的ARP(Address Resolution Protocol)資訊的擷取需要依賴實體交換機,靈活性較差。
  • 位址空間不足:阿裡雲經典消耗大量私網IP位址,因為經典網絡伺服器均配置設定在一個位址空間内,當虛拟機呈規模增長時,會出現位址耗盡無法擴容的問題。
  • 虛拟機遷移域受限問題:雲服務彈性可伸縮是衡量雲廠商産品和服務優劣的重要名額,這一切都依賴于熱遷移。遷移域指的是虛拟機在私網、公網IP位址不變的前提下可以遷移的範圍,而經典網絡中由于和實體網絡強耦合,私網和公網的配置依賴實體網絡裝置的配置,導緻虛拟機無法靈活跨叢集遷移和故障快速恢複。
  • 自主規劃:經典網絡場景下由于IP位址是購買時候已經配置設定好,客戶無法自主選擇,客戶無法按照自身的實際業務規劃和需求進行網絡規劃,無法有效支援大型企業上雲。

經典網絡正是因為上述的這些不足,促使阿裡雲雲網絡全面進入VPC網絡研發,并在2014年釋出阿裡雲VPC專有網絡産品。專有網絡是基于VXLAN等技術構造的隔離的Overlay網絡環境,專有網絡之間的邏輯上徹底隔離,并實作了與實體網絡之間的解耦。抽象點比喻在專有網絡中,每住戶都獨立的購買了一個獨棟的别墅,在購買的時候隻需要選好地基(專有網絡的網段),然後住戶可以自定義對每個房間進行裝修,劃分不同的房間(VSW虛拟交換機),每棟别墅之間都是完全獨立的互不影響。

全面擁抱專有網絡,第一個階段是讓現有經典網絡使用者能夠享受專有網絡的紅利,于是從阿裡雲從2014年到2018之間一直在推動經典網絡遷移專有網絡方案的落地,期間在2016年7月開始為新使用者預設推薦專有網絡VPC,2017年8月阿裡雲釋出Classiclink标志着經典網絡遷移專有網絡方案成熟。

Classiclink是用于遷移過程中暫态下經典ECS和VPC網絡互通的一種解決方案,經典網絡和VPC網絡是兩個網絡平面,ClassicLink将這兩個網絡平面拉齊,讓其具備互通的條件。使用ClassicLink後,經典ECS可以通路VPC内的資源。同時VPC内的ECS隻能通路已連結到該VPC的經典網絡ECS,不能通路尚未連結的經典ECS,也不能通路經典網絡内的其他雲資源。技術方案上,是經典網絡ECS和VPC之間建立VXLAN隧道,讓經典網絡的轉發面和VPC的網關流表中擁有對方的資訊,進而實作互通。

Classiclink解決遷移過程中經典網絡和專有網絡之間伺服器内網互通的中間态問題,但是客戶在遷移過程中對于保留公網存在強需求,比如更換ICP備案,域名和IP位址綁定,外部接口對IP白名單的強綁定關系,采購的商業軟體授權失效等問題,為了做到公網IP不變,需要将經典網絡實體下與實體裝置強關聯的公網IP,整體上移到Overlay的虛拟網關,公網上移後IP位址由SDN控制器控制面集中管理,而未上移前IP位址與實體裝置叢集關聯性較長,無法跨叢集配置設定,也因為由Overlay網關集中管理,公網上移同時提升公網IP位址的使用率,在IPv4位址逐漸耗盡的時代意義非凡,2018年3月公網上移完成,也從2018年開始阿裡雲全面進入專有網絡時代。

三、業務模型帶動專有網絡底層持續演進

專有網絡的底層組成主要由VPC控制器(Controller)、虛拟網絡網關(Gateway)、虛拟交換機(vswitch)而這三個部分的演進路線因為角色和承載的流量大小不同,各自演進的路線各有不同。

一文帶你了解阿裡雲雲網絡的十年演進之路

VPC控制器是阿裡雲VPC網絡的控制引擎,向上承接着使用者控制台的管控接口,客戶在控制台的建立和路由變配等通過一層管控能下發到VPC控制器,向下控制着虛拟網關和虛拟交換機等資料面單元。

在超大規模的雲網絡中,虛拟網絡控制面主要有三個挑戰:

  • 更大的表項:更大分為兩個方面:
    • 1. 雲網絡一個虛拟網關叢集上面通常會承載上百萬的流表資訊,流表包含路由表、虛拟機與實體機對應關系表,轉發表,位址映射表,QOS限速表等,假如1個VPC對應最基礎的三個表,每個表項内有三條資訊,那麼上百萬個VPC就至少包含了300萬個表,900萬條資訊,而通常一台大型實體路由裝置的路由表項在幾十萬,雲網絡的控制面流表資訊已經遠遠大于基礎的實體網絡。
    • 2. 伴随着客戶自身業務的增長一個虛拟網絡VPC中往往會有持續的虛拟機增長,一個VPC裡面甚至會超過5000台VM的規格,這樣需要一個流表中能支援更多的表項。
  • 更廣的流表:相應的雲網絡的控制面不僅僅隻存在于網關裝置上,每一台虛拟機都存在相應的流表資訊在實體機上,那麼假如一台實體機上有10個虛拟機,一個計算叢集有5千台裝置的話,一個資料中心内可能存在6個叢集那麼對應的控制台需要管理在10*5000*6個單元
  • 更快的生效:雲網絡中虛拟網絡控制面需要支援超過10W VM的虛拟網絡,批量變更生效時間的200ms内(一次RTO)。一個使用者操作自身的VPC變更,不會對其他虛拟網絡造成影響,對于雲網絡而言客戶層面的操作是無序的且不可預預期。

起初阿裡雲VPC控制器1.0需要處理的業務比較簡單,同時資料量也比較小,控制的裝置數量也比較少,架構相對簡單,煙筒式處理,收到上遊業務方請求,将請求中的參數轉換為系統内需要的對象模型,每個請求對應一個處理流程,校驗參數合法性,生成對應的配置下發流表,資料面單元響應,确認請求結束。這個架構簡單、高效,但是并發能力差、可擴充性差、無法有效管理大量轉發裝置。随着業務量的增加,尤其是虛拟交換機的數量指數級别的增長,給虛拟交換機下發配置的壓力越來越大,控制器2.0引入中間層服務,形成異步化處理,進而節約整個接口的耗時。

一文帶你了解阿裡雲雲網絡的十年演進之路

全面進入VPC時代後,雲上的虛拟機數量開始爆發式的增長,VPC控制器管理的機器數量也開始呈現幾何數量增長,更勝者阿裡集團提出單一VPC百萬級虛拟機的需求,數十萬裝置要求秒級完成配置下發。為了滿足這樣的業務模型變化,VPC控制器3.0進行了橫向劃分,分成四層,API處理層、業務邏輯編排層,task處理層,配置下發層,并針對虛拟交換機數量多、單機配置較少和虛拟網關數量少、單機配置很多特點,分别設計虛拟交換機下發引擎和虛拟網關下發引擎,這樣的架構将系統水準分割、不同層次之間互相獨立,進一步演進的方向也已經明确,将每個業務單元獨立微服務化,進一步向微服務化發展。

四、内部服務去網關:業務潮汐,南北向流量下沉東西向

在資料中心實體網絡中,通常将網絡流量分為兩種類型,一種是資料中心外部使用者和内部伺服器之間互動的流量,這樣的流量稱作南北向流量或者縱向流量;另外一種就是資料中心内部伺服器之間互動的流量,也叫東西向流量或者橫向流量。

在專有網絡中,上層雲網絡淡化了底層實體網絡的架構和架構,而是通過虛拟交換機和虛拟網關兩部分來定義整個轉發平面,是以可以簡化成所有要和網關進行通信的流量都是南北向的,而無需經過網關直接互動的流量是東西向的,這樣的網絡轉發也帶來了新的問題,比如當VM和VM之間需要直接通信,因為在雲網絡裡面所有的VM都是虛拟出來的,在VM的不存在遠端真實的MAC位址,而所有的MAC位址都是實體機上面的ARP Proxy代理後直接傳回給VM的,是以在雲網絡中VM之間的之間通信在實體網絡中都是封裝在三層之上的,這導緻了實體機之間幾乎沒有直接互訪的流量,所有的流量都轉發到了虛拟路由器所在的網關上進行轉發,由虛拟路由器提供中轉。

這樣帶來的新問題是網關的負載很高,伴随着客戶雲業務的發展,從傳統的直接和公網用戶端之間互訪為主的業務模型轉變為在資料中心内有大量的互動和計算型的業務模型,同時伴随着打通不同VPC之間對等連接配接(VPCPeering)需求,VPC間的互訪也需要經過虛拟路由器所載的中心化的網關,VGW成為了雲網絡擴充的瓶頸。

一文帶你了解阿裡雲雲網絡的十年演進之路

如上圖所示,針對中心化的瓶頸,最優的方案就是去中心化,将VPC間VM互訪的流量、VPC内VM互訪的流量從圖中的紅線部分,下沉到綠線的部分,讓這部分需要去網關互動的南北向流量下沉到東西向,進而旁路掉中心化網關的瓶頸,進一步擴充雲網絡的橫向能力。

為了使得VM間互訪的流量下沉,阿裡雲将所有的路由表項下沉,在虛拟交換機的層面就下發VM和實體機對應關系表,但通過控制器向所有實體機全量同步所有vm之間的直連路由表項難度大,是以阿裡雲自研RSP(Route Synchronization Protocol)通過RCM(Remote Control Message)來針對海量VM路由與實體機關系的重新整理。

當實體機内的虛拟機建立成功後,開始對VPC内的其他虛拟機進行請求,這裡用TCP請求舉例,由于第一時間沒有表項的存在,TCP封包的SYN封包會轉發給VGW(vRouter Gateway),因為實體機中沒有虛拟機遠端的表項,這個SYN封包發送的同時會發送一個RCM request請求封包,封包的Payload載體包含源實體機IP、VPC的Tunnel ID、目的VM的IP位址,VGW收到業務的SYN封包後會直接轉發給遠端的實體機,在收到RCM request封包時候,會将目的實體機的IP位址傳回給源實體機,源物流收到後,會将該資訊更新到自身的表項中,回程的封包同理,當目的實體機收到源的SYN請求後,目的虛拟機響應的[SYN,ACK]封包會發送到VGW,同時發送RCM request請求來擷取對端的資訊,當收到VGW的RCM reply後,會将源端的實體機IP位址儲存在自身的表項中,後續的業務互動就無需VGW參與,兩側的實體機直接進行通信,完成流量的下沉。

相關的互動可以參考下圖:首包->首包回包->後續業務封包。

一文帶你了解阿裡雲雲網絡的十年演進之路
一文帶你了解阿裡雲雲網絡的十年演進之路
一文帶你了解阿裡雲雲網絡的十年演進之路

五、邊界網關硬體化:硬體破局,二八效應下的大象流難題

雲網關的演進和它在雲網絡中處于的角色以及實體網絡的發展息息相關,雲網關本身主要是處理網絡中南北向相關的流量,主要指的是公網流量、VPC間互通流量、跨資料中心的專線的流量,也是以初期阿裡雲網關由IGW(Internet gateway,處理公網相關流量)、VGW(vrouter Gateway,處理私網相關流量)、CGW(Customer Gateway,處理專線相關流量)三部分組成。

為了讓虛拟網絡集中式處理,2013年阿裡雲開始走上自研基于DPDK高性能轉發套件的x86平台,從硬體網關全面轉化為基于DPDK 通用x86架構設計,獨立部署的虛拟網關,并且從将10G的實體網絡轉換為4*40G的x86伺服器網關架構。但伴随着業務的不斷增長,雲網關多叢集的部署導緻建設成本、運維成本過高,且由于不同的流量波峰波谷不一,往往存在單一叢集空閑另一叢集負載不堪重負的情況,是以産生了将雲網關合并的需求,将IGW、VGW、CGW合并為XGW,X代表Any。合并後XGW的單機性能得到了很大的提升,CPU核數從16核增加到了32核,單機帶寬從40G增長到160G,單機PPS從12M增長到了26M,線上裝置的成本降低從原先分拆的3*4變成4台,同時也簡化了網關上線的流量,降低了運維的複雜性。

雲網關x86叢集合并的方式在阿裡雲線上穩定運作了5年,但是從18年開始伴随着線上業務的高速發展,包括阿裡集團的雙十一大促,XGW叢集的模型遇到全新的挑戰,DPDK架構下存在單核PPS性能瓶頸,當一條大象流轉發到雲網關時,固定的五元組會轉發到CPU的單核上處理,導緻單核被打滿,進而影響所有其他的客戶,影響整體的穩定性。另外XGW的單機轉發性能也成為瓶頸,18年末有頭部客戶提出單叢集支援1.6T的流量需求,XGW叢集單機40G,支援1.6T并且按照50%水位評估,需要至少80台的x86機器支援,這樣規模的叢集是無法進行有效維護和管理的。

基于這樣的背景和業界的方案調查,阿裡雲雲網關選擇軟硬一體化的方案,先對阿裡雲線上的業務流量進行分析,可以看到20%的客戶業務占據了雲上80%的流量,這20%的客戶的流量模型基本上都屬于大象流,這樣的流量是适合用硬體化的網關來進行承載的。20%的客戶的流表數量有限,對于硬體化網關,需要用僅5%的表項,承載95%的流量,剩下的表項用軟體化的網關輔助,軟體化的網關負載95%的表項,承載5%的業務流量。

阿裡雲新一代的硬體網關,具備超強的計算能力和高帶寬的交換能力,對于快速轉發業務可以offload到Tofino晶片做轉發,對于負載的業務邏輯可以上送CPU進行靈活處理,同時考慮空間和部署的便利性,新一代硬體網關機體升設計為2U的緊湊型機箱。

  • 交換能力:3.2T可程式設計交換晶片,32*100GE QSFP28網絡接口
  • 計算資源:最大支援2個CPU,26 cores per CPU,128GB DRAM
  • 6*PCIE,同時支援FPGA擴充
一文帶你了解阿裡雲雲網絡的十年演進之路

網關硬體化後,首先解決了DPDK x86架構下叢集單核性能問題,和單機群容器的問題,同時有效降低了邊界網關部署的成本,在原有1.6T需要部署80台x86機器的情況下,硬體化後僅需1台硬體網關。

六、全面擁抱智能網卡:帶寬再提升,從軟體解除安裝到硬體解除安裝

虛拟網關硬體化,解決了南北向大象流的問題,并且伴随了去網關化,南北向流量的瓶頸短時間内不再成為瓶頸,東西向的流量阿裡雲也未停止過演進的步伐,東西向的流量溯源看是單台虛拟機的能力,而單台虛拟機的能力由實體機上的虛拟交換機子產品決定,從13年初代阿裡雲虛拟交換機(apsara virtual switch,簡稱AVS)基于bridge和netfilter,到15年參考快慢轉分離重構的AVSv3,再到17年基于使用者态實作的DPDKAVS,阿裡雲從未停止對單機性能的極緻追求。伴随着虛拟機規模的不斷增大,使用者态的DPDKAVS不足之處逐漸凸顯。

首先是資源成本,AVS本身作為一個軟體運作在實體機上,需要獨立的CPU和記憶體資源,這樣導緻實體機本身可以對外售賣的資源變少,也就是常說的雲資源的公攤成本,第二是虛拟化的開銷,虛拟機在接受和發送封包的時候,都需要CPU執行記憶體拷貝的操作,而在大帶寬的場景下,CPU的記憶體拷貝是十分消耗計算資源的,第三是numa開銷,阿裡雲公共雲線上的機器至少是兩路CPU的,如果AVS的CPU和虛拟機的vCPU在不同的CPU node上,會導緻大量的LLC miss,進而導緻轉發性能下降。同時由于實體機型号的不同,AVS需要有大量的适配工作,需要适配網卡的型号,實體機的CPU的架構,這樣在部署和維護上存在大量的工作。

伴随使用者業務對性能極緻要求,伺服器100G網卡的普及,單純的軟體化方案已經無法直面雲業務的需求,業界和阿裡雲都将單台虛拟機的能力提升聚焦到智能網卡(smart network interface Card,SmartNIC)身上,通過将虛拟交換機的功能解除安裝到網卡上,利用智能網卡獨立的CPU和硬體提升網絡性能。

什麼是智能網卡?網卡(network interface card,NIC)是連接配接網絡和伺服器的網絡硬體裝置,用于網絡資料傳輸和通信,智能網卡是一種靈活可程式設計的網卡,在網卡的基礎上增加闆載CPU,與伺服器配合使用。智能網卡具備獨立的計算資源,進而釋放主控端的CPU算力,智能網卡将負擔網絡、安全、存儲中不适合CPU相關的資料處理功能解除安裝到可程式設計硬體晶片執行,在雲網絡中也将虛拟化hypervisor進行解除安裝,使得伺服器能更有效的運作業務程式,優化業務資料處理整體效力。

一文帶你了解阿裡雲雲網絡的十年演進之路

阿裡雲MOC卡是一張帶有CPU的片上SoC,是一種智能網卡,AVS由原來運作在實體機的host CPU變為運作在網卡上的獨立CPU,同時将虛拟化KVM架構下virtio驅動進行替換,AVS從實體網絡接受封包後不再通過CPU 記憶體拷貝的方式将封包拷貝到虛拟機,而是通過硬體DMA方式将封包拷貝到虛拟機,這樣的軟體解除安裝架構下首先解決資源問題,實體機可售賣的記憶體和CPU得到增加,降低實體機成本。通常網卡的CPU成本會比實體機的CPU成本低,同時硬體DMA的方式能更有效的解決CPU,進而使得智能網卡場景能更好的支援大帶寬。

一文帶你了解阿裡雲雲網絡的十年演進之路

快慢轉的轉發路徑

在軟體解除安裝的基礎上,AVS借助硬體轉發優勢,并且參考快慢轉分離的模型,在原有的軟體解除安裝模型在更進一步的增加硬體解除安裝,使得網絡轉發性能大幅度提升,目前最新一代的MOC 2.5支援200G網絡帶寬,5000W PPS,并額外增加流量鏡像、eRDMA、VPC加解密、jumboframe等特性。

阿裡雲雲網絡通過智能網卡,使得阿裡雲最新一代"網絡增強型"執行個體支援160G網絡帶寬,3000W PPS,1600W連接配接數,為業務網元NFV化奠定基石。

一文帶你了解阿裡雲雲網絡的十年演進之路

七、業務網元虛拟化:效能與成本,網元全面擁抱雲原生

在傳統網絡中,不論底層的IT基礎設施還是上層的應用,都由專屬裝置來完成。這些裝置成本高昂,能力和位置僵化,難以快速響應新業務對網絡快速、靈活部署的需求。随着雲計算的快速發展,雲服務提供商以及網際網路企業疊代創新的特征也對網絡功能的快速部署、靈活彈性甚至成本,都提出了更高的要求。歐洲電信标準協會(ETSI)首先提出了NFV(Network Functions Virtualization,網絡功能虛拟化)的概念,通過使用标準x86的伺服器、虛拟化等技術,将網絡硬體裝置和業務解耦,使網絡功能不再依賴于專用硬體。虛拟化資源可以充分靈活共享,實作新業務的快速開發和部署,并基于實際業務需求進行自動部署、彈性伸縮、故障隔離和自愈等。

一文帶你了解阿裡雲雲網絡的十年演進之路

上圖是ETSI釋出的一個NFV參考架構,左側從下到上可以分為三層,最下面是基礎設施層,為虛拟化提供實體資源以及虛拟技術的支撐。中間是虛拟功能和對應的EMS系統,網絡服務的實際業務處理就在該層中實作,最上面是營運支撐層,也就是營運商的OSS/BSS系統。右側是NFV中的核心,主要負責編排和管理。可從圖中看到這塊由三個子產品構成:NFVO、VNFM、VIM。NFVO負責NS的編排、VNFM和VIM的管理。VNFM負責管理VNF的生命周期,并對VNF進行監控,VIM負責管理虛拟化的基礎設施。

在計算機網絡中,網元是聯合一個或多個實體裝置的可管理的邏輯實體,而在雲網絡中業務網元指的是NAT網關、負載均衡(Server Load Balancer,SLB)、雲企業網(Transit Router)、私網連結(Privatelink)、VPN網關這些提供特定網絡邏輯功能的産品底層子產品。

在此前的雲網絡中,用負載均衡舉例,采用專用的硬體資源建設LVS(Linux Virtual Server)叢集,而一個機房的實體機裝置叢集往往是提前規劃好的,當客戶業務出現短時指數級的增長時,基于實體機形态網絡裝置的問題缺點就被放大,例如,實體機采購和部署周期長,機櫃位和上聯實體交換機需要重新規劃,實體資源擴容困難,同時叢集化部署故障域大,雲網絡功能釋出周期長,新功能疊代緩慢等問題,并且由于基于實體機這種功能子產品化的網元節點不具備高彈性能力,這個點和雲計算的理念是相斥的。

邊界網關通過硬體化來解決大象流問題,轉發性能是硬體裝置擅長的,但是對于負載均衡,SNAT這類有狀态的複雜業務,硬體裝置就顯得有些力不從心了。阿裡雲軟硬體一體的方案,很好的相容性能和靈活性,同時通過将業務網元的功能部署在虛拟機中,很好的結合虛拟機的彈性能力,進而實作高性能、高度靈活、高度彈性的網絡需求,硬體網關負載基礎轉發能力,将複雜的網絡應用邏輯導流到對應的NFV網元,而NFV網元基于虛拟機ECS部署,實作SLB、NAT、CEN TR、VPN等網絡功能的業務邏輯,并基于阿裡雲ECS的能力實作彈性,擁抱雲原生,并且阿裡雲提供統一NFV平台Cyberstar為網元的開發提供統一的底座,網元的開發僅需要專注在邏輯代碼層面的開發,彈性和NFV層面架構都用NFV平台提供。

阿裡雲NFV平台參考ETSI ISG NFV工作組的MANO模型,将NFV管控劃分為NFVO、VNFM和VIM三大子產品,如圖所示:

一文帶你了解阿裡雲雲網絡的十年演進之路

阿裡雲NFV平台中,VIM(Virtual Infrastructure Manager)負責南向NFVI層的虛拟存儲、網絡、計算資源的管理,負責虛拟計算資源的生命周期管理,建立、删除、上線、下線以及灰階更新。VNFM主要為業務網元配置設定一組/多組邏輯的計算資源,同時滿足計算資源組的高可用、彈性、故障隔離和自愈的需求。并且阿裡雲NFV平台提供shuffle sharding的能力,有效的縮小故障域。

NFVO層根據業務網元注冊的網絡拓撲,為業務網元編排分布式的快慢速節點,并且阿裡雲NFVO層設計實作了一套分布式的快慢速轉發架構,在實作上用兩層ECS組成,Fastpath ECS無狀态的轉發層,有Slowpath ECS下發offload轉發規則,一台流首包miss到Slowpath處理,Slowpath根據邏輯規則下發flow到快轉後,後續所有業務流量轉發到Fastpath後直接進行業務轉發,采用這樣的架構業務網元僅需要專注于網絡本身的業務邏輯處理,即隻需要關注首流的處理,其它複雜邏輯比如分布式的Session同步和後續封包的比對規則和邏輯轉發全部交由NFV平台處理。

一文帶你了解阿裡雲雲網絡的十年演進之路

Fastpath借助AVS ECMP能力實作無狀态化轉發層示意圖

阿裡雲的業務網元通過NFV平台的VIM層有效的在大流量業務出現時候水準擴容,并在業務減小時縮容,有效的彈性降低網元成本,并且整體的編排方式與K8S對service的編排類似,NFV網元也将全面擁抱serverless。

八、小結

  • 經典網絡由于安全隔離不足、與實體網絡強耦合、位址空間不足、故障域、不滿足客戶自足規劃的特點,促使阿裡雲演進到專有網絡VPC。
  • VPC控制器的演進的核心目标是滿足超大規模網絡組網,提供極緻彈性的網絡管理能力。
  • 内部服務去網元,通過首包查找流表的方式将部分虛拟機之間互訪的流量,解除安裝到東西向,解決了集中化網關的瓶頸。
  • 20%的客戶貢獻了80%的流量,并且大多數流量是單一五元組的大象流,促使阿裡雲雲網關演進,從x86 DPDK雲網關轉向可程式設計的硬體化網關。
  • 單台虛拟機的流量通過智能網卡再突破,阿裡雲智能網卡也采用快慢轉分離的模型。
  • 業務網元NFV化,通過NFV平台的能力實作阿裡雲業務網元彈性能力,有效節約成本。
  • 阿裡雲NFV平台的快慢轉分離能力使得業務邏輯的開發簡化。

附錄:

阿裡洛神雲網絡VPC團隊與浙江大學合作的學術論文洛神(Achelous),為雲網絡貢獻了第三篇SIGCOMM論文,是繼Azure的VFP(NSDI'17)和GCP的Andromeda(NSDI'19)之後,第三個在頂級會議上分享的頭部公有雲網絡底座平台。

對阿裡雲雲網絡細節期望更多了解的讀者,可以閱讀洛神(Achelous)的論文,連結:https://dl.acm.org/doi/10.1145/3603269.3604859。

繼續閱讀