天天看點

如何應對資料中心突發事件

資料中心運維團隊需能夠在沒有任何預警的情況下,能夠迅速、有效地應對突發狀況。對于不可預見的問題,故障、危險可導緻人身傷害或當機的情況,都需有應對措施。隻有做好充分準備,才可以迅速響應,最大限度降低突發狀況對資料中心影響,并有效防止事故再次發生。文章描述對關鍵裝置有效應急準備以及響應戰略體系。内容由7部分組成,分為3類:緊急響應程式,緊急演習和事件管理。

即使經過專業設計與tier iv認證的資料中心,也不能保證其100%的可靠性。由于it系統意外停機,業務中斷始終是一種潛在風險。做足準備是一種最好的抵禦方式,并有助于確定及時應對。

準備工作從為确定高風險故障(例如冷卻裝置受損,發電機啟動失敗等)到開啟緊急操作程式(eop),還需要制定和演練更新程式,以確定通知指揮系統,并随着形勢的發展調派資源。

應定期對運維團隊成員進行情境演練,評估團隊面對突發狀況的反應與應激能力、個人對應急事件響應的狀态與效果。一旦遇到突發狀況,為降低其帶來的影響,應在事後進行充分分析,找到發生事件根本原因,分析響應應急措施在處理這狀況時的效果以及待改善的地方。對重大裝置事件故障分析是全部完善過程的基本組成部分,最終目的在于降低故障率,并提高應對未來發生不可預見事件的處理速度。

表1:簡要概述資料中心有效應急準備和響應計劃的主要方面。有七部分,被分組在三個分類中。

首先我們來看eop,需要對突發狀況現場進行快速、安全地隔離,同時盡快恢複服務、提供急救是緊急響應流程中的最重要與關鍵的方面。

接下來,危機管理計劃(cmp)被描述為處理資料中心緊急情況、危機的總體計劃,如果不定期檢查,将導緻災難。(關于術語“危機”和“災難”的解釋,見下)。最後,應急演練和事件管理的作用被解釋為一個方案的重要方面,以便為問題不斷做好準備,并更好地發現問題在他們成為一個危機或更糟的,一場災難。

一、應急操作流程

*名詞釋義:

危機 :遇到緊急的,重要事件,如不能及時響應,将最終導緻系統中斷、業務虧損或人員受傷。

危機管理計劃(cmp)涉及準備,發現和緩解危機。

緊急操作程式(eop)用于應對危機,因為它正在發展以防止災難的希望。例如:ups備援出現故障,發電機燃料用盡,ups電池組故障等)

災難或緊急: - 導緻系統嚴重損壞、停機,業務中斷或人身傷害的事件或情況。

一、應急操作流程(eop):用于應對災難或緊急

示例:在ups電池能源耗盡,火災,開關裝置時出現電弧爆炸等任何可能導緻立即停機或受傷的情況。

(說明:構成“危機”和“災難”的事件因資料中心自身不同而不同,取決于各自認為關鍵或緊急的事件。)

緊急操作流程(eop):

被就用于處理危機和災難。 eop流程應作為文檔被留存,詳細記錄針對應對危機或災難被準許的流程。響應流程包括:如何安全隔離故障;如何恢複服務或備援。 eop旨在使運維人員對遇到的突發事件做出正确的反應,進而達到安全的目的,并最大限度地減少緊急情況的持續時間與影響。

eop具有多重功能:

首先,它幫助運維人員盡快将受影響的系統置于受控或穩定的狀态。

第二,它提供逐漸指導,以確定所有活動都以安全和有效的方式進行。這樣做是為防止進一步(或範圍更廣的)的服務中斷,裝置損壞或人身傷害。這些負面或可能甚至毀滅性的影響是由于以不受控制的方式執行工作,通過省略必要的步驟,或者通過不正确地執行,或半心半意地執行。

第三是作為新操作員的教育訓練工具。它們應被用作在員工教育訓練計劃中進行場景演練和測試的基礎。在客戶或管理層審計或評估時,它們也很重要,以證明有效的應急準備和響應。

将eop等同于标準操作程式(sop)是一個常見的錯誤。 sop為執行日常正常操作類型任務(例如将ups置于旁路或其它維護任務)提供通用指導或訓示。

sop涉及如何操作或維護系統。它沒有描述如何處理和從故障或緊急情況中恢複系統。

如果運維人員僅僅依靠sop來了解裝置如何運作與維護,其結果就導緻應對緊急情況經驗不足。導緻故障發生原因與産生的後續影響通常與多個系統有關。另一方面,sop通俗點兒說,就是固定的流程,靈活性不強。是以,sop對于運維人員了解各個系統之間互相聯系而言,并不實用。不過,具備這些知識卻對于快速診斷和解決問題至關重要。此外,沒有針對高風險故障情況的特定eop流程,無法提前進行模拟演練,無法為此狀況做更多準備。

應将eop文檔副本流程張貼在執行區域周圍。正本檔案放在辦公室儲存。持續跟進eop使用情況、實時根據需要修訂eop,確定使用執行時流程清晰簡明。

eop是在故障發生後,保障系統運作穩定、和恢複系統的最重要的工具。eop執行過程中需要運維人員具備豐富經驗、參加過eop模拟演練的,進而在eop執行過程中明确他們擔負的責任與任務,可以做到迅速響應。在開發eop之前,先将所有可能的、或高風險的故障情況列出一份清單。最常見的故障見表2。應為每一個故障寫一個eop。當然,運維人員和他們的經理不能預見所有的問題,但他們可以預估最壞的情況,做好最壞的準備。

所有這些檔案都應被妥善儲存。eop執行隻能由在現場的運維人員進行操作,外部承包商在某些情況下可以在運維人員指導下執行eop中一些步驟。經驗表明,經過一定教育訓練的運維人員,可以有效地抵消遇到緊急情況下心理的恐慌感。對運維人員而言,做足充分準備意味着在千鈞一發的那一刻,運維人員根據現場突發狀況迅速做出判斷,可以在緊要關頭為資料中心挽回一部分損失。

有效的訓練方法是情境演練,通過預先設定好的情境,模拟故障發生時的情境。必要時,可以使用道具(如彩色便利貼)來模拟面闆訓示器或開關位置,以此鍛煉運維人員的操作能力并評估他們對現場問題的反應能力。

表2:

  2.危機管理計劃(cmp)

危機管理要素:

規劃

程式

實施

測試和教育訓練

危機類型

災難類型

第一反應

通知

咨詢

授權

緩解

疊代

事件後分析

報告

危機管理計劃(cmp)是一系列規定與流程,是幫助營運商在遇到真正緊急狀況或災難時,提前做好準備、了解如何應對,根據eop流程進行應對 。在危機管理的過程中,cmp應對所有參與者尤其是利益相關者進行密切審查。這包括運維人員,營運商,以及在資料中心内工作的it經理以及和他們團隊的從業人員。該計劃旨在指導從業人員發現、預防以及應對各種危機狀況,最終目标為資料中心提供一個安全,響應迅速、可靠的執行方案,盡最大限度的為防止意外狀況演變成一場災難做出努力。

準備和預防

最好的危機管理工具是什麼? 是預防。衆所周知,大部分資料中心業務中斷是人為錯誤導緻的直接或間接的結果。這些錯誤大部分發生在從業人員在對裝置進行安裝與維護期間,由于操作不當導緻的意外狀況發生。

為盡可能最大限度減少此類錯誤,運維人員應接受在專業領域方面的密集教育訓練,以確定在對裝置進行維護與巡檢時,表現出操作的專業水準,減少人為故障。應将為資料中心所有工作内容建立标準操作流程作為首要目标(标準操作程式或“sop”),從業人員可通準操作流程對裝置進行維護、保養,降低人員操作風險。建議将建立的标準流程全部由業界專業人士進行測評,并由業界專家對其技術與流程方面的精準性進行額外審查。尤其要對各種風險情況進行合理分類,做好安全準備,工作任務排序以及退出流程。

另一項重要的活動是識别極有可能發生的故障或間接導緻系統發生故障的模式,這是是否使用緊急操作程式(eop)的先決條件。這項練習不僅确定在此之前有無必要執行eop,而且也将有助于防止此類事件發生,這是做好識别與準備過程的必然結果。流程一旦建立,需定期做eop演習,提前協調從業人員按時參加。

檢測和事件分類

當危機發生時,如何識别危機?不是所有的事件一眼就能看出機關。通常,一個完全可控的情況會随着時間的變化演變成一場危機,這會讓運維人員措手不及。 對于運維人員而言,識别事件的早期預警标志以及了解各類裝置臨界值時很必要的。

緊急情況和危機時有差別的。通過使用已經通過稽核的流程來管理的緊急情況通常不會被視為危機。例如ups備援出現問題或空調機組冷量不夠可能被認為危機,按照既定流程執行eop,則可以以有序、受控的方式解決這次事件,而不會等到發生當機或傷害的災難級别。

危機特征就是失控;如果突發情況已超越可控管理範圍,現場局面已構成威脅,這種情況确立為危機。危機的另一個特征是意外狀況造成損害嚴重,有可能危及到整個系統。例如,關鍵負載突然中斷,雖然由與之對應的響應計劃,但遇到這種狀況需确立為危機。

資料中心基礎設施管理(dcim)軟體工具可以有效幫助資料中心對環境裝置進行集中監控,了解資料中心裝置系統狀态變化和報警的有效方法,進而在遇到危機或災難的問題和狀況時,能及時通知運維人員。dcim軟體同時還提供變更管理、工作訂單以及模拟添加、移動和其他更改等功能,確定操作不會導緻任何問題。

在危機或災害的情況下,快速識别分類事件的能力是危機管理中至關重要的第一步,這對及時響應以及政策性的溝通是有必要的。

反應和緩解

一旦危機或災難被宣布,通常,營運商會馬上采取行動解決這個問題。然而,在充分了解情況并制定周全的響應計劃之前,立即行動有可能導緻進一步危害或停機的風險。除非在事件非常明顯的情況下才需要立即采取行動(例如火災),合理的行動是圍繞發生的事件制定計劃,并與相關專家以及利益攸關方共同制定。從長遠來看,将時間放在制定計劃上,比起倉促行動更能為資料中心提供更安全、可靠以及更持久的解決方案。

當然,如果對人身安全、配電裝置造成直接威脅,應立即采取行動,降低裝置損失。如果某人正在或即将受到傷害,就需要立即采取行動,無需通過審議,隻要這種草率行為不會傷及任何人。同樣,如果有手段控制火情或者用安全手段熄滅它,立即采取行動是可行的。這隻是兩個可能的例子,做出第一反應是合理、謹慎的。話雖如此,當遇到需要立即做出第一反應的情況,都需特别小心。隻有當風險高,并且能預見後果,才可考慮立即做出反應行動。

做出第一反應行動後,首要任務是立即對事故進行評估,需将關于情況涉及的範圍、嚴重性等所有資訊進行評估,同時将裝置的狀态、穩定性也進行評估。必須快速收集這些資料,以及随着事故變化不斷更新資料,以便對事故做出适當補救措施,同時保證溝通的有效性。能夠做到這一點的運維人員,都經過專業知識的教育訓練,以及大量的情境演練,具備良好的心理素質,才能應對這樣的場面。

恢複與分析

一旦事故解決,應将事故分析報告第一時間發給相關部門人員,最好是在事件解決方案制定後的一星期内發出。故障分析報告應包括:

主要原因分析:

· 經驗教訓報告 :參與者反思事件如何發生,以及從中學到的教訓

· 執行過程: 包含具體建議和一系列行動,以改善團隊對特定事件的響應。

· 對現有營運商以及新員工持續教育訓練,確定他們了解行動的意義與價值。

· 所有這一切旨在防止同樣的危機或緊急情況再次發生。

更新程式:

随着情況從正常到緊急再到潛在危機,甚至到災難級别,随之帶來的問題就是對裝置更新。這是為保證裝置在恰當的時間内獲得恰當的知識與資源。更新管理可能是一項緊迫的任務,但正确的流程将有助于其盡可能輕松有效地管理更新。

對業務進行适當更新以及 “幸免于難”是應急準備與響應政策的一個重要因素。運維人員,團隊管理層,客戶和供應商之間的有效溝通是確定情況已受到控制,所有相關資源都集中在事件的處理上。雖然沒有單一的逐漸更新程式保證解決每個問題,但有一些基本要素可以確定内部流程成功。為更新程式提供架構,下面的表3示意更新過程與時間示例。它可以被修改,進而适應任何組織具體要求與期望。

本文轉自d1net(轉載)