天天看點

《政策驅動型資料中心——ACI技術詳解》一第1章 資料中心架構考慮因素1.1 應用和存儲

本節書摘來自異步社群《政策驅動型資料中心——aci技術詳解》一書中的第1章,第1.1節,作者【美】lucien avramov 【意】maurizio portolani,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視

政策驅動型資料中心——aci技術詳解

本章介紹資料中心架構所需考慮的因素。其中将介紹設計時的考慮因素和設計過程中使用的方法,以便對于資料中心矩陣項目,使架構師能高效地選擇端到端的網絡設計,為其演進提供所需的增長能力。

在資料中心網絡設計過程中,在架構選擇和最終設計方面需要注意以下一些關鍵考慮因素。

要托管在資料中心的應用和這些應用将使用的存儲類型。

資料中心的需求和限制,包括實體決策和pod模型。

不同類型的資料中心設計。

大多數的資料中心矩陣部署是用于虛拟化資料中心的。本章還介紹了資料中心的其他應用場景:大資料、超低延遲、高性能計算和超大規模資料中心。資料中心呈現出朝主幹-葉節點架構發展的趨勢,該架構是全書中介紹的以應用為中心的基礎架構(aci)的組模組化塊。

設計資料中心時,最常見的方法是使用三層方法。此方法包括經典的接入層、彙聚層和核心層,常被稱為三層拓撲結構。資料中心設計正在從這種三層方法向更特定的資料中心演變,呈現出朝兩層主幹-葉節點架構發展的現代趨勢。了解資料中心的不同技術趨勢和項目需求,将引導讀者考慮設計中的多個基本問題。這種了解将給讀者以關鍵的知識來幫助設計最佳的解決方案,進而滿足資料中心項目的需求。本節介紹目前實作端到端資料中心設計的推薦方法。

本章将介紹如何使用最新的設計方法來滿足以下工作負載類型的需求。

虛拟化資料中心

大資料

高性能計算(hpc)

超低延遲資料中心

超大規模資料中心

許多資料中心都擁有上述幾個類别的工作負載組合。對于這些類型的資料中心,需要建構一種多用途的矩陣;例如,基于思科nexus 9000交換機系列産品的矩陣。

現代資料中心包含大量虛拟化伺服器。本章将介紹針對虛拟化工作負載的設計考慮因素。

簡介

虛拟化資料中心占目前資料中心矩陣項目部署的大多數。這些部署包括小型、中型商業企業,以及大型企業。完整的思科資料中心矩陣産品系列被廣泛使用,從虛拟機管理程式級交換機(例如nexus 1000v)到nexus 9000産品系列,包括擁有刀片機箱伺服器或機架式伺服器的思科統一計算系統(ucs)伺服器。光纖通道存儲是整合在以太網上的,可與其他以太網流量和ip流量共存。還可使用nfs存儲流量來存儲虛拟機(vm)。fcoe并不是必須的;許多虛拟化資料中心的部署都使用ip存儲。

虛拟化資料中心是圍繞着一種或多種必須共存的或通信的虛拟機管理程式類型而建構的。該資料中心網絡不僅需要處理虛拟化流量,而且它還必須是高度可用的。它需要在發生工作負載移動事件時最大程度地減少vm中斷,例如當vm需要轉移到另一台主機上的時候。不同虛拟化資料中心的一個重要差別在于網絡矩陣本身。第一條連接配接到架頂式(tor)交換機的電纜在某種意義上講已屬于“矩陣”,因為它承載着從多台主機傳輸到連接配接的第一台實體網絡裝置的流量,這台裝置是tor或接入交換機。連接配接的第一台交換機現在可能會是一台虛拟交換機裝置。:例如vswitch、vethernet、vnic等帶有字母v字首的每個熟知的網絡裝置。

建構資料中心網絡矩陣時,一定要考慮到将來會在每台主機上運作的虛拟機數量和應用數量,這些資訊可為使用超載比提供指導。虛拟化具有多個層面。例如,運作虛拟環境的雲提供商可能允許其使用者也運作自己的虛拟機管理程式。這會建立出一個處理多個虛拟化級别的資料中心環境。因而不同封裝的數量将得以擴充。這會在虛拟機管理程式内建立更多層級,當連接配接到第一個虛拟通路端口時,在這些層級中的不同屬性(服務品質qos、帶寬限制、安全、端口鏡像等)會被實作。

在虛拟化層中,不同類型的流量都可以作為ip或以太網的應用流量,例如視訊、語音和存儲。是以,虛拟化資料中心設計會使用各種qos功能來對使用和連接配接第一台tor交換機相同的上行鍊路的各種流量模式提供不同的優先級。在虛拟化資料中心運作的典型應用類型常常采用所謂的三層應用模型:由特定的應用、資料庫和web伺服器組合而成。每一層通常運作在一台專門的虛拟機上。在企業部署中,資料庫常常托管在裸機伺服器上。

定義和虛拟化概念

資料中心的虛拟化不僅僅限于伺服器。是以,現代資料中心使用以下技術。

伺服器虛拟化

存儲虛拟化

服務虛拟化

網絡虛拟化

編排管理(管理虛拟化)

伺服器虛拟化是最常見的硬體虛拟化類型。在運作單個作業系統及其應用時,目前的x86計算機硬體在很大程度上并未得到充分使用。借助虛拟化,通過在同一台實體計算機上運作多個虛拟機和應用,硬體資源就能得到更有效的利用,如圖1-1所示。實體伺服器與虛拟機之間存在着一個虛拟機管理程式軟體層,用于模拟在邏輯上與真實實體主機伺服器隔離的專用實體計算機。它允許多個作業系統共享一台硬體主機,同時運作互相獨立的功能和應用。虛拟機以檔案形式存儲,這使在相同或不同的實體主機上的自愈功能成為可能。由于伺服器虛拟化優化了資料中心項目(也稱為整合項目),因而實體伺服器能得到更高效的使用。

《政策驅動型資料中心——ACI技術詳解》一第1章 資料中心架構考慮因素1.1 應用和存儲

存儲虛拟化是特定資料中心項目中所有實體儲存設備的一種邏輯和抽象的視圖。使用者和應用通過存儲虛拟化來通路存儲,而無需知道存儲位于何處,如何通路或如何管理。這将進一步支援跨多個應用和伺服器來共享功能:存儲被視為一個沒有實體邊界的資源池。存儲虛拟化适用于大型的存儲區域網絡(san)陣列,本地工作站硬碟驅動器的邏輯分區,或者獨立磁盤備援陣列(raid)。存儲虛拟化提供以下4個重要優勢。

資源優化:儲存設備不再專門用于特定的伺服器或應用,在全局上優化了可供資料中心伺服器群組中的所有伺服器和應用使用的存儲空間。當需要更多存儲空間時,可向共享池添加實體存儲。

更低的操作成本:存儲配置是集中化的,不需要為每台伺服器配置其自己的存儲。存儲管理工具允許添加、維護和操作共享存儲。該方法不僅降低了存儲的總營運成本,還節省了大量時間。

更高的存儲可用性:在傳統環境中,維護、存儲更新、斷電、病毒等所導緻的計劃内或計劃外當機,會導緻最終使用者的應用中斷。借助存儲虛拟化和備援,可快速配置新存儲資源,減少了當機所造成的影響。

改善的存儲性能:應用建立的存儲操作工作負載,可分散到多個不同的實體儲存設備 上。因為任務可能讓儲存設備不堪重負,是以這就會改善了應用執行讀取或寫入操作的完成時間。

資料中心的服務虛拟化指的是一些服務裝置的使用,例如防火牆、負載均衡器、緩存加速引擎等。資料中心對外顯示的虛拟接口也稱為虛拟ip位址,它表現為web伺服器。然後,該虛拟接口管理與web伺服器之間進行按需連接配接。負載均衡器提供了更可靠的拓撲結構和安全的伺服器通路,允許使用者将多個web伺服器和應用作為一個執行個體來通路,而不是采用每台伺服器一個執行個體的方法。向外部使用者顯示一台伺服器,将多台可用的伺服器隐藏在一個反向代理裝置之後。網絡裝置可以是實體的或虛拟的。在編寫本書時,市場上有多種虛拟防火牆和虛拟負載均衡器。

虛拟化伺服器還需要變更網絡基礎架構,才能保證虛拟機之間的隔離。其主要變化是伺服器内的網絡接入層轉移到了虛拟機管理程式級别上,而在傳統的裸機伺服器上,從實體網線連接配接到的第一個通路端口,并一直到最終的伺服器都是接入層。網絡虛拟化可采用以下一種或多種技術。

使用vlan

使用虛拟可擴充區域網路(vxlan)

使用虛拟路由與轉發(vrf)

編排

編排指的是協調地配置虛拟化資源池和虛拟執行個體。這包括虛拟資源到實體資源的靜态和動态映射,以及管理功能,例如容量規劃、分析、計費和服務等級協定(sla)。服務通常抽象為一個客戶門戶層,其中最終使用者選擇服務,然後該服務使用各種域和中間件管理系統并按以下步驟自動配置(如圖1-2所示)。

《政策驅動型資料中心——ACI技術詳解》一第1章 資料中心架構考慮因素1.1 應用和存儲

配置管理資料庫(cmdb)

服務目錄

核算

sla管理

服務管理

服務門戶

網絡和設計需求

在網絡上使用虛拟化資料中心的影響包括下列内容。

要管理的實體端口更少,虛拟端口更多。

風險增加。一個機架擁有數百台虛拟機,這意味着當機或更新的影響更高,這就需要高可用性。

提高可擴充性的需求。虛拟機越多,mac位址和vlan就越多。

移動性使容量規劃變得非常困難。必須使用更高的帶寬來超載配置上行鍊路。

由于整合的原因,伺服器在接入層演進為10gb以太網(ge)。

在超載配置情況下,上行鍊路會增加到40-ge和100-ge。

虛拟機管理程式的網卡綁定,不同于機架式伺服器的網卡綁定。

資料中心70%至80%的流量現在都是東西向的(也就是在伺服器之間傳輸)。

服務現在不僅是實體的,而是虛拟和實體的。

通過vlan的移動性來适應新的多租戶模型的需求。

實體伺服器的vm本地化相關知識的需求。

多層虛拟化(基于雲的産品)。

傳統需求必須與虛拟環境(例如任務關鍵型資料庫)共存。

新的按需付費模式,其中虛拟化資料中心的增長是随機架數量增加,而不是固定在最初的端到端的資料中心項目。

虛拟化引入了管理虛拟交換機的需求。

存儲需求

虛拟化使nfs可用于存儲虛拟機,使以太網光纖通道(fibre channel over ethernet,fcoe)可用于存儲虛拟機管理程式。目前的趨勢是向ip存儲以及虛拟機管理程式存儲發展。正因為如此,高帶寬容量或qos對于保障存儲陣列與生産計算節點之間的存儲資料傳輸來說至關重要。

本節詳細介紹大資料資料中心趨勢。

定義

gartner和其他市場分析公司指出,大資料可由它的主要屬性來粗略定義:資料量、速率、種類和複雜性。大資料由結構化和非結構化資料組成。盡管大量的記錄都是結構化資料,并且常常高達數pb,但非結構化資料(絕大部分由人為生成)通常占總資料量的更大比例。多元化和一些生态系統因素導緻了生成如此多的資訊。

移動趨勢:移動裝置、移動事件和共享、傳感器內建。

資料通路和使用:internet、互聯系統、社交網絡,以及彙聚性接口和通路模型(internet、搜尋和社交網絡,以及消息傳遞)。

生态系統功能:資訊處理模型中的重大變化和開源架構的出現;通用計算和統一網絡內建。

大資料是社交網絡和基于web的資訊公司的基礎元素。是以,大資料(尤其是來自于外部時)可能包含錯誤、不正确的内容和缺失。此外,大資料通常不包含唯一辨別符。這些問題為實體解析和實體消歧帶來了重大的挑戰。對于通過關聯鄰近資料來為客戶提供服務和實作服務差異化的web門戶和網際網路公司來說,資料生成、使用和分析為他們帶來了業務上的競争優勢。

一些對網際網路極具影響力的公司出于以下原因使用大資料。

針對性的營銷和廣告。

相關的附加銷售促銷。

行為社會模式分析。

對數百萬使用者的工作負載和績效管理進行基于中繼資料的優化。

大資料正在進入企業中

傳統企業資料模型對應用、資料庫和存儲資源的需求逐年增長,這些模型的成本和複雜性也在不斷增加,以滿足大資料的需求。這一快速變化推動了描述大資料存儲、分析和通路方式的基礎模型的變化。新模型基于橫向擴充、無共享的架構,給企業帶來了決定使用哪些技術,在何處使用它們和如何使用的新挑戰。不再有一體化适用的解決方案,傳統的三層網絡模型(接入/彙聚/核心)現在正在擴充,納入了新的組模組化塊來解決這些挑戰,使用新的專用資訊處理架構來滿足大資料需求。但是,這些系統還必須滿足內建到目前業務模式、資料戰略和網絡基礎架構的内在需求。

大資料元件

企業堆棧中業已增加了兩個主要的組模組化塊來容納大資料,如圖1-3所示。

hadoop:通過分布式、共享檔案系統來提供存儲功能,通過名為mapreduce的任務來提供分析能力。

nosql:提供實時截取、讀取和更新流入的大量非結構化資料和非模式化資料的能力。其示例包括:單擊流、社交媒體、日志檔案、事件資料、移動趨勢、傳感器和機器資料。

《政策驅動型資料中心——ACI技術詳解》一第1章 資料中心架構考慮因素1.1 應用和存儲

一種趨勢是将此資料存儲在閃存或ram存儲器中,以供更快速的通路。nosql已變得更加流行,這是因為要處理的資料量比sql類型的資料庫結構更大。

網絡需求

大資料元件需要與企業目前的業務模式相內建。通過使用為大資料而優化的思科nexus網絡基礎架構,可讓這種新的、專用的大資料模型內建完全透明,如圖1-4所示。

《政策驅動型資料中心——ACI技術詳解》一第1章 資料中心架構考慮因素1.1 應用和存儲

包含hadoop組模組化塊的叢集設計:pod

分而治之的政策,對多種處理大量資料的工作負載來說非常有效。一個大型工作負載可被拆分或映射到更小的子工作負載,然後通過合并、濃縮和化簡來自子工作負載的結果來擷取最終的結果。hadoop的初衷是利用工作負載的這一功能,将更小的子工作負載配置設定給使用通用硬體搭建的廉價節點所組成的龐大叢集,而不是使用昂貴的容錯硬體。此外,處理大量資料需要存儲空間。hadoop采用分布式的叢集檔案系統,它可被擴充以容納這些海量資料。叢集的建構,使整個基礎架構具有自愈和容錯能力,盡管擁有極高的元件平均無故障時間(mtbf)比率,但是個别元件的失效,仍會顯著降低系統級mtbf比率,如圖1-5所示。

《政策驅動型資料中心——ACI技術詳解》一第1章 資料中心架構考慮因素1.1 應用和存儲

大資料應用采用分布式ip存儲。它是共享檔案系統,通常為nfs或直接附加存儲(das)。該存儲位于每個伺服器節點上。大資料領域的一些高性能應用,類似于位于每個節點的易失性存儲器(而不是硬碟)上的超低延遲應用存儲。在此環境中也可以擴充為閃存硬碟。

設計考慮因素

一個能正常運作且具有自愈能力的網絡對有效的大資料叢集來說至關重要。但是,分析證明,網絡以外的因素對叢集的性能具有更大的影響。而且一些相關的網絡特征和它們潛在的影響也值得考慮。圖1-6顯示了在廣泛測試期間驗證的主要參數的相對重要性。

可用性和自愈能力

網絡裝置的失效可能影響hadoop叢集的多個資料節點。然後,受影響的節點上的任務需要在其他正常運作的節點上重新安排,這就增加了它們的負載。此外,hadoop基礎架構可能啟動一些維護作業,例如資料再平衡和複制,以彌補失效節點上的損失,這進一步增加了叢集上的負載。這些事件是導緻叢集性能降級的關鍵因素。項目因為會需要更長的時間才能完成,這降低了安排新作業的能力。

《政策驅動型資料中心——ACI技術詳解》一第1章 資料中心架構考慮因素1.1 應用和存儲

建構一個随時可用且具有自愈能力的網絡很重要。首先需要關注網絡架構:需要部署不僅提供了所需備援,而且也可随叢集增長而擴充的架構。允許在資料節點之間包含多個備援路徑的網絡設計的技術,在本質上比擁有一兩個故障點的技術更好。

架構架構布局好後,就需要考慮單台裝置的可用性。運作經業内證明具有自愈能力的作業系統的交換機和路由器,會向伺服器提供更高的網絡可用性。可在不破壞資料節點的情況下進行更新的交換機和路由器,也提供了更高的可用性。此外,經證明易于管理、易于排除故障和更新的裝置,有助于確定更短的網絡當機時間,進而提高了網絡(進而增加叢集)的可用性。

突發處理和隊列深度

在hadoop類型的大資料作業中,操作和過程将會是突發的。無法有效處理突發流量的網絡将會丢棄資料包,是以裝置需要優化緩沖區來承受突發流量。任何因緩沖區不可用而被丢棄的資料包都會導緻重新傳輸,大量重傳這些資料包會導緻作業需要更長的時間才能完成。在選擇交換機和路由器時,一定要確定其架構采用了可有效處理突發流量的緩沖區和隊列政策。第10章“資料中心交換機架構”給出了突發和緩沖區使用的示例。

超載比

優秀的網絡設計必須考慮到網絡中的關鍵位置在真實負載下發生不可接受的擁塞的可能性。如果tor裝置從伺服器接收20gbps流量,但僅僅配置了兩個 1-gbps 上行鍊路(總共2 gbps)(超載比為20:2或10:1),那麼它就可能會丢棄一些資料包,導緻糟糕的叢集性能。但是,超載配置網絡會需要很高的成本。一般可接受的超載比是,伺服器接入層約為4:1,接入層與彙聚層或核心之間為2:1。如果需要更高的性能,應考慮更低的超載比。在某些裝置發生故障時,如何增加超載比?確定為網絡中的關鍵點(例如核心)配置了足夠的資源。多路徑技術,例如具有或沒有vxlan或aci的3層等價多路徑,會實作與每台裝置的故障率呈線性關系的超載比增幅,這比在故障期間顯著降級的架構要好。

資料節點網絡速率

必須為資料節點配置足夠的帶寬,以便高效地完成工作。還要記得在向節點添加更多帶寬時所要求的成本效益。一個叢集的推薦配置依賴于工作負載特征。典型的叢集會為每個資料節點配置一到兩個 1-gbps 上行鍊路。選擇經證明具有自愈能力且易于管理,而且可随資料增長而擴充的網絡架構,将會使叢集管理變得更為簡單。10-gbps伺服器通路帶寬的使用主要取決于成本/性能的權衡。工作負載的特征和在規定的時間内完成工作的業務需求,決定了對10-gbps伺服器連接配接的需求。随着未來10-gbps以太網闆載網卡(lan-on-motherboard,lom)連接配接器在伺服器上的更加普及,更多的叢集會更有可能采用10gb以太網資料節點上行鍊路。nexus 2000矩陣擴充器(fex)并不是hadoop環境中的通用最佳實踐。

網絡延遲

可以看出,交換機和路由器延遲的變化對叢集性能的影響是有限的。從網絡角度講,任何與延遲相關的優化都必須從網絡級分析開始。“先架構,後裝置”是一種有效的政策。與具有較高的總體延遲但較低的單台裝置延遲的架構相比,在整體上始終具有較低延遲的架構會更好。應用級延遲對工作負載的影響比網絡級延遲大得多,應用級延遲主要是由應用邏輯造成的(java虛拟機軟體堆棧、套接字緩沖區等)。在任何情況下,網絡延遲的細微變化都不會給作業完成時間帶來明顯的影響。2層網絡不是必須的。有些設計允許帶有bgp或ospf協定的l3在計算節點上運作。

本節詳細介紹高性能計算資料中心趨勢。

高性能計算(hpc)指的是整合了比正常工作站更高性能的計算能力,以解決工程、工業、科學、商業等方面的大型問題的工程實踐。

網絡流量在資料中心内通常為東西向的流量模式。規模性部署可通過pod模型來實作,此議題将在“設計考慮因素”一節中介紹。可預測性和超低延遲是關鍵。提供類似低延遲的資料中心網絡矩陣(無論伺服器是否連接配接到同一個機架、同一個叢集或同一列中)都會減少hpc應用的計算時間。足夠的吞吐量和緩沖區(能夠随計算節點的增長而彈性擴充)是關鍵。

hpc和大資料在網絡需求和設計上是非常相似的,其主要差別是:大資料基于ip,而hpc通常基于以太網而不是ip。相對于大資料而言,這限制了為hpc建構資料中心矩陣的選擇機會。其他網絡屬性仍舊是相似的。可采用2層資料中心矩陣協定(例如思科vpc和vxlan)來建構大型hpc叢集。

hpc的網絡需求可總結為如下所示。

2層網絡

90%以上的流量都是東西向的

沒有虛拟化

1-ge 網卡更新為10-ge和40-ge

核心網絡采用10-ge或40-ge

當存儲包含在每台主機上時;此模型稱為分布式存儲模型。存儲由hpc應用處理。hpc存儲通常不需要光纖通道,任何特定的存儲網絡也不受交換機上的位址限制。

流量可以是ip,也可以是非ip(在以太網上傳輸)。本書不會探讨非以太網的超級計算能力。借助如今的以太網技術,非以太網流量可以被封裝并通過标準以太網媒體傳輸到标準的、整合的以太網資料中心(例如,通過使用思科nexus産品建立的資料中心)。思科的實作方法是建構基于以太網的hpc叢集。

典型的hpc環境使用包含32個節點的叢集。一個節點代表了機架式伺服器中的一個邏輯實體,它擁有24核cpu和一張10-ge網卡。這為每個機架提供了768個cpu核心。典型的hpc環境初始時可以僅有一個包含32個節點的機架。通常的部署至少擁有4個機架,共有128個節點。

定義pod的大小很重要。項目的初始大小至關重要。随着項目的增長,可重複采用pod概念來添加更多hpc叢集。本節中提供的示例示範了一個pod,它包含128節點的伺服器和相應的交換機,它們形成了一個邏輯計算實體。

思科的hpc實作方法是整合了ucs-c機架式伺服器和名為usnic的特定hpc網卡。思科使用者空間nic (usnic)提供了從linux使用者空間直接通路nic硬體的能力。它通過linux verbs api (ud)和openmpi實作了作業系統旁路機制。此nic提供了1.7微秒的端到端延遲,還在512個cpu核上提供了高達89.69%的hpl效率。此nic的優勢取決于以太網标準,而不是rdma網絡媒體的使用。請注意,rdma解決方案可通過基于以太網的rdma協定将思科nexus交換機和aci結合起來。iwarp是另一種能夠加速的tcp協定,它的性能慢于usnic。

hpc網絡需要盡可能快速,以在節點之間提供盡可能低的延遲。在編寫本書時,延遲最低的産品是思科nexus 3548交換機,它可提供僅有190納秒(ns)延遲的線速轉發。它可用作葉節點層的tor,也可在超載比足夠時用在主幹層上。網絡矩陣需要承載以太網流量;是以,思科vpc和思科vxlan等矩陣技術非常适合建構一個能夠承載從任何主機到另一台裝置的hpc流量的以太網矩陣。hpc設計的典型網絡超載比為2:1。要想實作更低成本的設計,可增加超載比,最高通常為5:1。

設計拓撲結構

在hpc拓撲結構中,典型的設計為一層或兩層網絡基礎架構。這也可稱為主幹/葉節點設計類型,其中的主幹發揮着彙聚裝置的作用。設計拓撲結構的目的是在給定的服務nic速率下提供必要的端口數量。最常見的是從接入層到網絡層的10-ge設計;可使用40-ge上行鍊路來連接配接聚合裝置。在選擇設計時,必須考慮到端到端的延遲。圖1-7描繪了可用于hpc叢集的不同拓撲結構,它們可劃分為10-ge矩陣和40-ge矩陣。這些矩陣都是非阻塞矩陣,擁有端到端、不含超載比的10-ge或40-ge速率。最佳實踐是将10-ge伺服器通路連接配接與40-ge主幹交換機相聚合。

圖1-7描繪了包含160個伺服器節點的hpc叢集,它使用了2:1的超載比。

《政策驅動型資料中心——ACI技術詳解》一第1章 資料中心架構考慮因素1.1 應用和存儲

本節詳細介紹超低延遲資料中心趨勢。

超低延遲(ull)資料中心設計是一場實作零延遲的競賽。這些資料中心的目标是設計具有最低的端到端延遲的最快的以太網絡。

将端口密度降到最低限度,對應用進行叢集化,可以将每種環境的網絡裝置數量嚴格控制到最低。在大多數典型的ull設計中,整個ull資料中心的伺服器端口數量都在500個以下。高頻交易(hft)環境是最具代表性的ull資料中心,每個機架通常使用24到48個端口。hft資料中心在交易所的資料中心設施上搭建,這樣可以減少資訊從交易所本身傳遞到hft公司的延遲。

在hft資料中心,必須盡可能快地以最低延遲從股票交易所擷取資訊。建構最快網絡的能力使hft公司能夠向客戶提供更有競争力的解決方案。是以,hft客戶選擇此公司而非另一家的主要标準是其資料中心的延遲。

hft資料中心設計與其他設計具有很大的不同。例如,此環境中沒有虛拟化,使用了具有核心旁路技術的nic來最大限度地減少伺服器處理端的延遲,并避免cpu延遲。在網絡端,由于cx-1線(雙絞線)比光纖使用距離長5米,故為首選。該設計常常是非阻塞性的,它提供了10-ge到40-ge的端到端速率。擁塞和排隊對資料中心交換機的影響被盡可能地降低。如果要減少對緩存的需求,可将應用拆分到多台伺服器上,以減少速率不比對或網絡裝置上的多打一的流量等因素。東西向和南北向流量模式在網絡中是分離的,通常位于不同的資料中心拓撲結構上。這消除了網絡端對qos的需求。在ull環境中,所有設計都是為了避免對qos的需求。

現在所獲得的延遲幾近于0,ip/以太網交換的性能延遲低至50納秒,這是線路上最小幀的串行延遲:以10-ge的速率傳輸64位元組(byte),而且減少資料中心交換裝置延遲的主要工作已非常成熟。這使設計模式現在轉為注重nic、伺服器、閃存以及最重要的應用優化。

圖1-8示範了網絡端上的不同元件以及中間件和應用的延遲的數量級。這并不是一個詳盡的清單,隻是一個幫助了解延遲水準的概覽清單。

《政策驅動型資料中心——ACI技術詳解》一第1章 資料中心架構考慮因素1.1 應用和存儲

對于超低延遲,網絡需求如下。

最快的網絡,以最少的功能提供最佳的性能。如有可能,首選線速裝置(非阻塞交換)。

最終設計必須速率統一;沒有速率不比對(例如1ge–10-ge)。網絡裝置到伺服器端口的常見端到端速率是10-ge。随着40-ge/100-ge和40-ge/100-ge nic在業界變得更加普遍,交換機延遲進一步降低,将會出現采用更高速率的趨勢。

沒有隊列,不用qos。

支援3層交換的資料中心交換裝置,和支援3層交換的資料中心網絡矩陣。

支援2層和3層多點傳播。

網絡位址翻譯(nat)。

最快速的流量複制。

支援資料分析和腳本功能。

減少延遲的要求還催生了一個新的資料中心架構設計領域:資料分析。因為不可能改進無法度量的名額,并且低至1.5mb的瞬時擁塞事件就可能導緻1毫秒(ms)的網絡延遲(這已是非擁塞期間交換機延遲的100萬倍),是以監測也成為了資料中心的要求。以這樣的超低延遲運作的生産環境需要監測。在應用出現問題時,資料中心運維團隊必須檢查網絡,确定此問題是否發生在網絡環境中(例如交換機緩沖區)。正因為如此,網絡監測和以應用為中心的視圖就變得非常重要了。

在hft環境中,存儲位于主機本地,遵循分布式模型。存儲空間非常小,而且出于性能原因,在資料處理期間以ram或閃存類型存儲器形式僅存在于主機之上。hft網絡的備份存儲也可使用諸如nfs/cifs的集中化ip存儲模型。

減少端到端資料中心延遲的10條設計原則如下。

速度:網絡越快,串行延遲和延時就越低。

實體媒體類型:雙絞線銅纜目前比光纖更快;在以一定速度并在一定距離内建立互聯的情況下,微波可能比光纖更快。例如,與兩個城市間的傳統裸光纖互聯相比,通過微波在芝加哥與紐約市之間建立互聯,由于裸光纖在可視範圍外,是以在兩個城市之間的傳輸距離更長。

交換模式:與存儲轉發交換相比,直通交換在不同的資料包大小方面提供了可預測的性能。

網絡中的緩沖區容量:究竟需要多大的緩沖區容量才能提高性能?緩存膨脹會影響資料中心的延遲性能。大規模、吞吐量敏感型tcp流量會加深隊列深度,給小規模、延遲敏感型流量帶來延遲。

網絡裝置上使用的功能集:這對端到端延遲具有直接影響。例如,cdp、stp和lldp等協定造成的延遲是不使用它們時的2.5倍。

機架式伺服器:比刀片伺服器擁有更低的延遲,并且非虛拟化作業系統也會減少 延遲。

cpu/記憶體選擇:這在伺服器中非常重要,因為它決定了計算的性能。

使用的網絡擴充卡卡和協定:可将延遲降低達4倍(從20微秒到5微秒)。

可視性和資料分析:這是了解延遲影響的關鍵。精确時間協定(ptp),ieee1588 v2有助于提供跨網絡和計算裝置的準确時鐘,以達到監測效果。

安全:安全措施會顯著增加延遲,可能會使解決方案離超低延遲或者甚至低延遲相差甚遠。但有些方法可以在網絡中繞過這一問題。

拓撲結構設計

本節介紹的兩種主要的拓撲結構設計是源複制和hft。

源複制

源複制提供了将市場資料資訊複制到處理市場資料的不同目标伺服器(稱為源處理器)的最快方式。借助思科nexus 3548,可用50納秒的延遲實作從北向南的流量複制。源處理器進而從交易所的資料源接收流量,而網絡附加的延遲隻有50納秒。傳回流量(從南到北,用于訂單交易)可實作190納秒的延遲。這種設計的目的是最大限度地減少交易所的資料源與源處理器伺服器之間的交換機數量、電纜長度等。圖1-9描繪了包含nexus 3548的源複制設計示例,其中從交易所的資料源傳來的從北到南流量的交換機延遲可以低至50納秒。借助思科nexus 9000 獨立式的架頂交換機,可實作約0.600微秒的性能;使用aci交換機,延遲控制在1微秒範圍内。

《政策驅動型資料中心——ACI技術詳解》一第1章 資料中心架構考慮因素1.1 應用和存儲

hft示例

在hft拓撲結構中,典型的設計為一層或兩層網絡基礎架構。這也稱為主幹/葉節點設計類型,其中的主幹發揮着聚合裝置的作用。設計拓撲結構的目的是在給定的服務 nic 速度下提供必要的端口數量。最常見的是從接入層到網絡層的10-ge設計。可使用40-ge上行鍊路來連接配接聚合裝置。在選擇設計時需考慮端到端的延遲。圖1-10描繪了可用于hft叢集的不同拓撲結構,它們可劃分為10-ge矩陣和40-ge矩陣。這些矩陣是非阻塞矩陣,擁有端到端、無超載比的10-ge或40-ge速率。最佳實踐是将10-ge伺服器通路連接配接與40-ge主幹交換機相聚合。但是,引入的速率變化造成了in-cast緩沖區場景,這增加了并發對網絡的影響。是以,隻有在它提供了最低的端到端的延遲時,才應考慮這種設計類型。目前最快的解決方案是采用nexus 3548雙層10-ge矩陣設計。

圖1-10提供了hft的拓撲結構設計;第一個包含最多12台伺服器,第二個包含最多48台伺服器和10-ge帶寬、無阻塞且每台伺服器中有兩張nic。

《政策驅動型資料中心——ACI技術詳解》一第1章 資料中心架構考慮因素1.1 應用和存儲

本節詳細介紹msdc資料中心趨勢。

超大規模資料中心(msdc)并不是行業标準術語,而是思科用于表示此類資料中心的名稱。msdc系統是一種基于clos矩陣(拓撲結構),使用思科平台建構的參考架構。msdc系統的目的是建設擁有數十萬台伺服器的非常大型的資料中心,這些伺服器通過10-ge接口以非阻塞方式連接配接到一個擁有3層鄰接關系的網絡。甚至可以讓路由協定從主機本身對接進入網絡裝置,進而給來自主機的路徑提供判斷和優化的能力。在擁有結構化和非結構化資料模型的web搜尋引擎、社交網絡和雲托管裝置中,通常會見到這種類型的資料中心。

msdc架構由兩種關鍵的細分應用類别所驅動:内容服務和大資料分析。

内容傳送應用包括:akamai公司的内容傳送網絡(cdn)、apple的itunes、youtube的視訊,facebook照片等。通過數十萬台裝置向數百萬使用者提供媒體内容的大規模應用的挑戰,所要求使用的工具和技術通常是沒有現成産品的。服務提供商需要自行搭建這些叢集或網格。如今這些自産的基礎架構成為了這些服務提供商的差異化優勢。其中一些提供商,例如linkedin、facebook和google,已開源了它們的基礎架構以發展其生态系統。

大資料分析是一種新應用,它采用并行存儲和處理來分析包含非結構化資料(非中繼資料)的大型資料倉庫。目前已有多種處理大資料的架構。但開源hadoop現在被視為是明顯的勝出者。在社交應用中,這些技術用于為網站的通路者生成自定義的網頁。為填充網頁的各部分而執行的後端分析工作,可通過hadoop或相關的并行處理基礎架構來實作。

圖1-11顯示了典型的社交應用web基礎架構解決方案的工作流。

《政策驅動型資料中心——ACI技術詳解》一第1章 資料中心架構考慮因素1.1 應用和存儲

msdc客戶系統的特征已總結在表1-1中。

《政策驅動型資料中心——ACI技術詳解》一第1章 資料中心架構考慮因素1.1 應用和存儲

以下3種主要需求,推動着資料中心網絡去适應msdc系統。

規模超出目前限制:業界正處在由集中且密集的計算型資料中心朝應用傳遞整合型資料中心的根本性轉變之中。站點的設計規模遠遠超出如今的資料中心網絡裝置和協定所釋出的配置限制。

資料流量流向的更改:資料中心應用已将主要的網絡流量方向從北-南(進/出資料中心)向東-西(在叢集中的伺服器之間)轉變。新的模式需要一種橫向擴充的網絡架構,類似于計算/存儲基礎架構中的橫向擴充架構。

包含層數更少的多根拓撲結構的橫向擴充:msdc是業界少數正在大力發展的橫向擴充架構之一。此架構的關鍵功能是使用了多級clos拓撲結構的分布式核心架構,而該拓撲結構使用3層協定。

協定作為控制平面。clos拓撲結構也稱為非阻塞拓撲結構或胖樹拓撲結構。

下面總結了msdc系統的網絡需求。

規模(非阻塞網絡的大小)。

端口密度。

帶寬。

1 ge,與葉節點交換機的主要連接配接為10-ge的連接配接,從葉節點到主幹是更高速的連接配接。

可變的超載比,不斷調整超載比的能力。

ip傳輸:tcp/udp。

3層矩陣擴充至主機層(主要為ospf和/或bgp;可能會有eigrp)。

ipv6。

目前,更先進的擁塞控制、傳輸機制和負載均衡算法(pfc、dctcp等)的研發工作正在積極地開展之中。但是,最常見的功能是用于上行鍊路轉發路徑選擇的基于主機的等價多路徑(ecmp)和簡單的尾部丢包隊列管理。

msdc存儲通常是分布式的,直接托管在伺服器上。在一些情況下,它托管在專用儲存設備上。

msdc類型的資料中心的關鍵設計考慮以下因素。

主幹和葉節點的拓撲結構。

3層協定的控制平面。

開放硬體和開放軟體。

包含基于租戶和基于應用的多租戶支援。

圖1-12展示了一個msdc系統,它使用三級clos拓撲結構,可擴充到以1:1的超載比連接配接多達12,288個節點端口,或者以3:1的超載比連接配接36864個節點端口。所有主機都是具有10-ge接口的實體節點。它還支援使用3層協定的鄰接方式,使用1-gbps連接配接支援多達122880個(1:1)和368640個(3:1)實體節點。該系統不依賴于生成樹協定來實作自愈。相反地,它使用ecmp管理多個路徑,ecmp充當着葉節點交換機上的路由協定。該網絡提供了可用在每一跳(從葉節點開始)上的3層查找功能。該網絡具有邊界網關或邊界葉節點,這些節點提供了與網際網路或dci連結的10-gbps吞吐量。

《政策驅動型資料中心——ACI技術詳解》一第1章 資料中心架構考慮因素1.1 應用和存儲

虛拟化資料中心、大資料、hpc、ull和msdc(主幹-葉節點)設計拓撲結構可使用思科aci或獨立的思科nexus 9000交換機來實作。圖1-13中總結了clos非阻塞架構的3個示例,其中每個10g的面向主機端口可發送線速流量。此設計示例是基于思科nexus 9396葉節點交換機及思科nexus 9336、9508和9516主幹交換機(每台交換機擁有36個40ge主幹線卡)。給定的示例包含n個主幹;其目的是展示一個中小型到大型架構的示例。該計算基于主幹數量n,主幹中的端口數量或主幹線卡:36個40ge端口,葉節點交換機為48個下行10ge端口提供了12個40ge上行鍊路。主幹類型與圖1-13中顯示的公式中描述的非阻塞葉節點端口的潛在數量之間存在着直接關聯。這裡的主幹和葉節點之間的互聯使用了一個 40-ge 端口。未來預計在面向葉節點的級别上會是40-ge,主幹和葉節點之間的互聯使用100-ge。同樣的方法也适用于該設計,但端口密度可能會更改。

《政策驅動型資料中心——ACI技術詳解》一第1章 資料中心架構考慮因素1.1 應用和存儲

繼續閱讀