天天看點

從ITOM到AIOps:IT運維管理向智能運維的進化

目前網際網路和移動網際網路發展迅猛,從事各個行業的企業為了應對日趨激烈的市場競争,紛紛進行了數字化轉型,利用移動網際網路技術、雲計算及大資料等新興資訊技術發展企業的數字服務,進而吸引客戶,幫助銷售和推廣産品,提升客戶體驗。

然而,随之而來的是規模不斷擴大的IT系統、日益複雜的系統架構,以及海量的IT運維資料,同時公司業務對IT系統的連續性要求也進一步提高。

面對這些新形勢下的挑戰,IT 運維管理(ITOM)需要從原有的人工加被動響應,轉變為更高效、更智能化的運維體系,為新形勢下的IT系統保駕護航。 

目前傳統的 ITOM 工具往往缺乏分析能力,雖然也能采集到運維資料,但無法對這些資料所包含的資訊進行洞察,更加無法将資料進行知識化的本質提升。研究機構Forrester 曾在之前的一份報告中指出:“這些工具為我們提供了大量的原始資料,但能洞察出埋在這些資料中的有價值資訊的能力還是非常稀缺的。”(來源:Turn Big Data Inward With ITAnalytics)

令IT運維團隊感到欣慰的是,智能運維(AIOps)踏着人工智能的時代浪潮應運而生。

Gartner在2016年釋出的報告中首先提出了基于大資料及算法(Algorithmic IT Operations)的 IT運維概念。随着人工智能的快速興起,Gartner 将 AIOps 的概念從原本的基于大資料及算法,擴充為基于人工智能(ArtificialIntelligence for IT Operations,AIOps),期望通過大資料、現代機器學習及更多進階分析技術,提供具備主動性、人性化及動态可視化的能力,直接或間接地提升目前傳統IT運維(監控、自動化、服務台)的能力。

AIOps 為IT運維提供了全新的管理思路。AIOps 的定義涵蓋的兩個階段,可概括為兩個層次的提升:資料到資訊分析層次的提升;資訊到知識提取層次的提升。                          

從ITOM到AIOps:IT運維管理向智能運維的進化

從資料到資訊的分析,更多的是采用資料統計方法,幫助運維相關人員更好地從衆多運維資料中了解系統的運作狀态,分析并定位故障,實時擷取統計資料。而資訊到知識的提升更多的是希望借助人工智能算法,在資訊分析的基礎上通過機器學習的方式實作異常狀況檢測、故障/趨勢分析、故障關聯和精準告警。

根據權威機構Gartner的預測,比起現今5%這樣的資料比例,到 2019 年,全球25%的公司都将系統性部署實施 AIOps 平台支援兩個及以上的主要 IT 運維功能。到2022年,40% 的大型企業會通過大資料和機器學習的能力來幫助甚至逐漸取代傳統運維中的監控、服務台及自動化流程。

AIOps重新定義了IT運維的管理方式,為IT運維團隊适時提供适當資訊,以便實作以下幾點。

  • 通過采集目前環境中的運維資料,內建現有IT運維管理工具,利用聚合資料分析的技術,對IT系統中各個環節的問題進行快速定位、故障排除和預測。
  • 對來自業務環節中各個分布系統的資料進行整體分析,合理優化IT服務,挖掘關鍵業務 KPI 名額,反哺業務端,幫助其做出明智決策。
  • 通過大資料和人工智能技術分析使用者的行為日志和運維資料,發掘潛在的系統安全和合規問題,為企業的資訊安全保駕護航。  
    從ITOM到AIOps:IT運維管理向智能運維的進化

那麼AIOps究竟在IT運維中有哪有典型的應用場景呢?常見的場景大緻如下。 

  • 全局日志檢索

以一個典型金融行業為例,他們有上百個業務系統,面對每天産生的大量日志資料(幾TB),日常運維過程中,當運維人員需要排錯或日志巡檢時,需要逐台登入伺服器, 無法集中檢視和管理日志資料;另外,日志查詢方式比較原始, 比如 Windows 伺服器,手動檢視Event Log, Linux伺服器則隻能通過less、grep和awk等常見的Linux指令,無法從時間段、關鍵字、字段值統計等方面進行多元度查詢。

AIOps平台通過收集各類資料源(包括作業系統、系統軟體、資料庫、應用日志等),統一進行管理。不同于以往每次僅可檢視數量有限的幾種日志,運維人員可通過智能運維平台所提供的關鍵字、統計函數、單條件、多條件、模糊查找等功能,在多個系統中快速定位故障資訊,幫助運維人員從全局視角檢視系統的運維資料資訊。

  • 複雜多元報表,應用深度監控

AIOps将各系統的運維資料進行統計分析并生成各類實時報表,對各類運維資料(如應用日志、交易日志、系統日志)進行多元度、多角度深入分析及可視化展現,以業務視角實時展示各種業務名額,具體如下。 

  • 快速發現故障,精準告警

實時采集各類運維資料(日志、監控系統告警、性能資料等),通過對曆史資料的挖掘和分析,AIOps 可以找出哪些告警和事件是頻繁一起出現的,并将其認看作同一類故障的告警,進而把多個告警和名額合并,推送給運維人員,做到精細化告警,避免傳統監控工具因一故障而導緻的告警風暴,生産告警噪音。 

  • 縮短故障解決時間

通過運維資料可視化(複雜多元報表,熱力圖)及精細化告警資訊,結合以前發現問題的經驗知識庫和模型,進而将運維資訊從平面變為立體,立體展現故障樹分析,通過推導路徑使運維人員對于問題的定位更加快速、直覺,使得問題的解決更加容易。 

  • 預測未來

進行資料挖掘,生成分析類報表,進行趨勢/容量/故障預測。例如,某些故障之間有時間上的先後關系,交換頁不足、記憶體不足會逐漸導緻系統故障或應用故障,該系統建立關聯模型,發現前者故障,提醒使用者可能後繼可能發生系統故障或應用故障。在故障産生真正業務影響前,告知運維人員事先解決問題。 

  • IT輔助決策支援

通過采集海量多元度資料,建構多元結構化底層資料倉庫,以搭積木的方式适配各類運維場景,并在場景裡刻畫系統和人員畫像,通過畫像形式來輔助企業進行 IT 決策。 

從ITOM到AIOps:IT運維管理向智能運維的進化

AIOps與現有ITOM平台的關系具體如何呢?傳統IT運維管理平台,即 ITOM 平台,往往是為完成單一管理任務而設計的,更偏向于管理某一細分專業領域。

  • 監控系統:負責IT系統的健康及可用性管理
  • IT服務管理平台:負責配置管理,資産管理,事件/問題/變更等服務流程管理
  • SOC平台:專注于資訊安全管理
  • APM平台:應用邏輯拓撲管理,應用故障診斷等 

而AIOps平台則建構在傳統ITOM平台的上層,把ITOM作為分析的源頭,通過接口內建将各個 ITOM平台元件中的孤立運維資料進行彙總,使其突破資料孤島的壁壘,其次借助自身的關聯分析、機器學習、資料模組化、全局搜尋能力,幫助企業從IT系統的行為、狀态、配置、故障和事件中等多個次元,産生趨勢預判、快速故障定位和商業洞察等價值。