天天看點

「DataFlux」關鍵事件,助你掌控IT監控的“蝴蝶效應”

DataFlux是上海駐雲自研發的一套大資料統一分析平台,可以通過對任何來源、類型、規模的實時資料進行監控、分析和處理,釋放資料價值。

DataFlux産品有一個功能點——關鍵事件,功能很強大,但是使用者在實際使用的過程中對于其掌握不是很好。為此,專門以一篇文章的内容介紹下為什麼設計這個關鍵事件功能以及關鍵事件的實際使用的一些舉例。

「DataFlux」關鍵事件,助你掌控IT監控的“蝴蝶效應”

DataFlux作為一個從各個機器,軟體,系統,硬體中可以擷取實時資料的平台,能夠很好的幫助客戶去計算,分析實時的各種資料,但是我們往往忽略了資料名額的變化可能是有原因的,而這些原因可能會因為資訊不對稱或者實際使用者的認知差異,使得我們在得出結論的時候忽略了關鍵事件,不管這個關鍵事件是内部的還是外部的。

舉個例子來說,當一個運維工程師發現系統出現異常,如資料庫出現了異常的IOPS,往往需要花非常多得時間去找到原因,但實際上的原因可能是開發工程師剛剛釋出更新了一個錯誤的代碼。是以當這個關鍵事件不被掌握的時候,資訊的不對稱使得我們會停留在自己所能看到的部分。一般情況下,IT系統在穩定運作過程中,沒有一個外部的改變,通常是不會有問題的,90%的故障都是變更引起。

「DataFlux」關鍵事件,助你掌控IT監控的“蝴蝶效應”

而傳統ITIL為了解決這個問題的辦法是通過流程管理控制,如引入一個概念叫做變更管理,但是這種行為對于執行者的要求非常高,并且實際上往往大部分企業無法做到有效的記錄,使得這個例子導緻的系統恢複時間非常長。那DataFlux的關鍵事件功能怎麼解決這個問題呢?

很簡單,隻要同時收入代碼Commit,或者代碼內建釋出Pipeline,甚至是容器鏡像更新的行為,把這些事件作為關鍵事件,我們就能過從時間發生的先後順序來快速定位這些關鍵事件,資訊不對稱解決了,一個運維工程師就能瞬間發現是某個程式員的代碼導緻了這次故障,就可以迅速聯系解決。

「DataFlux」關鍵事件,助你掌控IT監控的“蝴蝶效應”

DataFlux關鍵事件和變更管理最大的差別是,當我們将關鍵事件內建後,實際上記錄的每個行為本身就會會自動形成這些關鍵事件,運維工程師可以快速的将名額異常的故障和這些關鍵事件以時間次元關聯起來,迅速找到導緻異常的原因。很多時候異常告警往往并不是最關鍵的,最關鍵的是發現導緻異常的原因,很多傳統的運維理念隻是停留在發現異常,而沒有上升到定位異常的原因,這就是這個關鍵事件功能在IT監控領域的價值。

實際上在不同的商業場景中我們會發現關鍵事件往往影響着很多事情,而很多商業領域的關鍵事件甚至要跟外部事件聯系起來,比如你的店鋪流量突增,可能是因為微網誌上你的産品關鍵字上了熱搜;記錄淘寶廣告位的變化,可以讓你發現淘寶是不是有效的投放了廣告;某個崗位的人員變更,對于後期業務的影響等等。如果我們把可能影響我們業務的内外部關鍵事件都收集起來,那麼就能更快的為這些事件做出反應,我們也許就能發現那些關鍵的“蝴蝶”,了解蝴蝶效應是如何發生的。

「DataFlux」關鍵事件,助你掌控IT監控的“蝴蝶效應”

為了友善大家使用這個功能,關鍵事件本身也支援關聯外部URL,以及增加較長的描述,友善我們可以完善對整個關鍵事件的描述,讓最終使用資料的各種崗位的人可以更全面的了解這些事件本身。詳細關于關鍵事件的使用請參考DataFlux的幫助。

位址:

https://help.dataflux.cn/doc/50c55e9eb14fa5ec02b2f268f56019299834e5ae