天天看點

雲原生容器高可用運維能力應用

作者:華為雲開發者聯盟

本文分享自華為雲社群《雲原生容器高可用運維能力應用-雲社群-華為雲》,作者:陳勇/劉志超/袁文峰。

雲原生場景下,對架構高可用、應用高可用、基礎雲平台高可用提出了更高的要求,企業以及雲平台都在不斷緻力于穩定性建設。但面對海量複雜的客戶業務場景,業務會不可避免的遇到非預期的故障,比如配置異常、應用過載、底層網絡異常、硬體故障等,當這些确定性故障場景出現時,如何做到快速診斷和快速恢複,如何在故障發生前提前識别風險、消除隐患,如何在故障發生時監控準确發現定界,一直是雲計算廠商面臨的困難問題之一。

雲原生容器面對的挑戰與解決方案

1、華為雲雲原生容器年複合增長快,需要維護的站點和k8s叢集多,複雜的海量客戶應用場景給運維工作帶來巨大挑戰。

2、雲原生便捷的快速部署能力、可伸縮性使得使用者業務容器、叢集結構等無時無刻不在變化之中,單局點節點變化非常快。

3、雲原生社群豐富的應用實踐以及容器開放的部署方式,使用者易出現配置類錯誤,導緻故障發生。

4、面對客戶不同的業務場景、叢集類型,目前社群在監控準确率、故障快速定位恢複等通用運維能力尚無有效的解決方案。

解決思路:

1、現網客戶請求事件同比增長,單純依賴人力的運維已無法支撐業務的快速增長,以軟體工程的手段解決現網運維中的實際困難,建構貼合業務特征的自動化運維平台。

2、将業務形态與業界開源方案相結合,建構可靠、可信的租戶監控能力

3、打通運維能力産品化落地路徑,将實踐可靠的運維能力固化到産品中,提升産品易用性以及客戶自運維能力。

智能運維能力

>> 故障預防

“故障預防"在确定性運維中是很重要的一環,可以有效避免客戶業務發生故障。風險識别在故障預防中極為有效的一種手段,客戶業務的高可用部署、容器的資源配置合理性、依賴各服務的使用配額、叢集和節點配置設定和使用率等,均會導緻業務存在潛在風險,完備、及時的有效風險識别可消除客戶業務隐患,防止應用故障。

解決思路和措施:

a. 結合曆史現網故障以及容器業務架構,梳理關鍵風險場景和有效監控名額。

b. 基于專家經驗、曆史故障場景、結合租戶曆史行為,建構風險名額判斷識别系統,自動檢測租戶容器場景叢集風險項,為叢集建構叢集畫像,識别叢集風險。

c. 風險識别能力實作原子化對接TSC平台,賦能客戶經理。

d. 風險識别關聯周邊,推動産品設計改進、引導租戶提前消除、支撐SRE風險收編以及故障快速恢複。

雲原生容器高可用運維能力應用

現網效果:

周級别自動識别全網叢集風險、分鐘級單叢集深度自動巡檢,資料入湖并被TSC訂閱消費。

雲原生容器高可用運維能力應用

>> 監控故障發現

“監控發現”旨在先于客戶發現,在底層ECS故障、網絡故障發生時,及時發現故障,及時自愈或通知到客戶,盡最大可能短時間止損,減少客戶的損失。另一方面,在真正客戶業務受損時,監控要做到快速判斷故障影響面,做到應用鍊路透視監控,可以輔助快速定位至故障點。

解決思路和措施:

a. 曆史事件+業務架構,确定監控場景:通過對曆史現網事件負向分析和容器場景故障模式正向分析,梳理确定容器監控場景。

b. 從0到1建構監控能力:建構容器prometheus監控能力,實作從叢集、租戶、站點三級視圖的監控能力,并完成1-N個站點的快速複制和覆寫。

c. 引入基于孤立森林的智能檢測算法以及租戶面叢集容器狀态細粒度監控等不斷提升監控覆寫率和準确度。

雲原生容器高可用運維能力應用

現網效果:

容器現網warroom提前發現率顯著提高。

雲原生容器高可用運維能力應用

确定性場景恢複

>> 快速定位恢複

“快速定位恢複”從定位和止損兩方面出發,目标是降低故障發生後的MTTR,減少客戶業務損失。通過曆史海量使用者故障輸入,明确故障确定性場景,針對這些确定性故障場景,建設自動診斷能力和一鍵恢複預案能力。

解決思路和措施:

a. 基于CMC/AOM/Promtheus/CLS/datahub等建構容器場景全名額監控接入.

b. 結合容器場景業務生命周期以及現網故障,建構容器域故障推導模型。

c. 結合監控資料,業務性,CLS日志等建構故障推導原子能力。

d. 基于CAR打造故障定位編排引擎。

e. 結合故障模式以及應急預案,降故障恢複動作平台化。

雲原生容器高可用運維能力應用

現網效果:

a. 實作核心故障場景預案平台化、建構故障場景故障定位能力,對應确定性故障場景5min定界。

b. 對應确定性故障場景實作10min恢複。

雲原生容器高可用運維能力應用

雲原生容器場景運維方向

未來華為雲雲原生容器體量會更快速的增長,k8s社群新特性也在快速疊代,跨雲跨地域業務部署是大趨勢,如何在雲原生時代為客戶業務提供穩定的運維保障能力,如何在不斷指數式增長的容器規模下,建構統一确定性運維能力是我們的方向。

總結

華為雲通過海量複雜雲原生客戶業務場景,從風險預防、資料面監控、故障自動診斷、确定性場景預案恢複等方面,識别雲原生客戶雲上确定性業務使用和故障場景,持續建構智能運維能力和确定性場景恢複能力,保障客戶雲上業務穩定,以應對雲原生業務快速增長。

關注#華為雲開發者聯盟# 點選下方,第一時間了解華為雲新鮮技術~

華為雲部落格_大資料部落格_AI部落格_雲計算部落格_開發者中心-華為雲