天天看點

揭開彈性資料中心的神秘面紗

當涉及到資料中心時,"彈性"一詞可以定義為"在面對環境極端以及人為錯誤或故意破壞的情況下維持ICT服務的能力",通常可以将更高水準的彈性設計成機械和電力基礎設施在成本上的溢價。

Uptime Institute的資料中心的等級标準是廣泛用于衡量資料中心基礎架構彈性的方法。然而根據研究,"人為錯誤"是資料中心中斷的主要原因,至少為70%。但即使這樣,可以通過備援設計來提高可靠性。在每個總線中使用UPS的雙母線供電系統可以在很大程度上保護雙接線負載,防止電源故障,人為錯誤和無效的破壞,但即使如此,也一定要更加小心謹慎。

數字誤導使用者

當然,資料中心的使用者希望資料中心具有更高的可靠性和可用性,并且物有所值。那麼,如何了解資料中心的可用性呢?以下兩個有些互相關聯的"名額":

"Uptime Institute(I-IV)"或"TIA-942"(I-IV)的"類型",BICSI的"評級"和EN50600的"可用性類"

可用性百分率,例如99.999%(所謂的"五個九")

除了指出,隻有Uptime Institute可以給出一個等級,TIA-942和BICSI是最适用于北美的ANSI标準,EN50600還沒有被使用,人們可以将這些标準都概述成描述能力的四個級别"可維護性"和"容錯".這些原則是明确的,相容的可維護性回答了一個問題,即建立一個非常可靠(可能是有彈性的)資料中心,這個資料中心必須每年關閉一次以便維護?雖然容錯系統可能會有任何元件,路徑或空間"失敗",但卻不會影響ICT服務。

<a href="http://s4.51cto.com/wyfs02/M01/08/84/wKiom1njaN3C-T7IAAJ1dnxC9us450.jpg-wh_651x-s_3147370705.jpg" target="_blank"></a>

然而濫用最多的是可用性百分率,因為這很容易計算,但可以愚弄非專業的買方和使用者,使其造成誤解。其實要明确地表示可用性,隻需要兩個數字就可以,MTBF(平均故障間隔時間,小時)和MTTR(平均修複時間,小時),隻需将MTBF除以總時間( MTBF + MTTR)來表示可用性,再乘以100%,就是真正的可用性。

是以,擁有很長的MTBF和很短的MTTR可能會得可用性非常高的結果。不幸的是,MTBF和MTTR卻是營銷部門可以猜測的數字,如果他們使用這些數字來解釋。例如,企業可以通過假設用戶端具有豐富經驗的從業人員和備件,并可在20分鐘内修複UPS,UPS的可用性可以引用99.999%。然而真正的情況是,緻電服務工程師上門維修,等待備件,重新投入使用之前進行測試(通常為一天或更長時間)。而假設MTBF為100,000小時(12年以下),而MTTR為20分鐘到12小時,這可以産生任何人們想要的結果。

第二個問題是故障事件的數量(多個MTTR求和)和MTBF的組合。舊版本的Uptime Institute白皮書(現已廢棄)試圖将可用率與四個Tier等級相關聯,但沒有定義測量時間。這導緻了一個奇怪的情況,即Tier級别低的資料中心設施每年可以允許53分鐘的離線時間,但級别最高的的Tier IV級資料中心隻能提供5.3分鐘。這很奇怪,然而如果每年發生一次的故障,這個對于TierI-Tier IV的任何級别的資料中心來說都是災難。

不管怎樣,人們不要總是關注這個問題,而要考慮組合問題。這尤其影響到許多非常短暫的失敗。最簡單的說明方法,就是以人們的心髒跳動為例,某人的心髒是99.9%"可用",這聽起來還不錯,一年有3153600秒,0.01%代表着一年中可能30000次心跳停止跳動,如果某次時間較長,就會帶來生命危險,而如果它們在一年中平均分布,那麼可能隻是感覺不舒服。在資料中心的術語中,檢視電源輸入提供給負載的電壓。許多現代的伺服器無法承受10ms的電力中斷,而在6毫秒時,電力系統的可用性為99.9999999%,是以每年可能會産生三個10ms的故障。

那麼該怎麼辦呢?既然可用性是一個度量标準,隻要它表達清晰,就沒有什麼問題。例如,"10年以上測量的99.99%的可用性,單次故障持續不超過10小時"是MTBF(10年)和MTTR(10小時)的明确聲明。一些人可能已經算出了答案,可用性将達到99.98859.但是現在人們可能會得出這樣一個觀點:MTBF比可用性更重要,人們需要采用MTBF來計算可用性在第一位。"單一失敗"卻避免了多個事件的求和。

當然,彈性資料中心的最終"失敗"可能是最容易實作的:并不是通過黑客網際網路入侵UPS,而是人為因素或故障關閉電源,提高伺服器入口溫度,使其當機。

彈性對于資料中心基礎管理和防止出現停機中斷都是至關重要的。即使是最好的設計和營運也可能會發生失敗。是以資料中心技術人員通過設計和測試來滿足營運商操作人員的需求,減少對停機中斷的恐懼,同時還可以提高從業人員管理維護資料中心,并提升對可用性的信心。

原文釋出時間為:2017-10-16

本文作者:佚名

本文來自雲栖社群合作夥伴51CTO,了解相關資訊可以關注51CTO。

繼續閱讀