天天看點

節假日正是測試資料中心監控的好時機

當許多人在節假日進行玩樂,遠離工作的時候,資料中心的技術人員卻一直在努力確定資料中心以及其代表的一切業務安全無憂。此外,如果确實發生問題,人們要盡快找到問題所在,以便可以采取相應的行動。

為了實作這一目标,資料中心維護需要監控系統、流程和人員。人們可能會認為這一切都是很到位的,但資料中心維護人員什麼時候進行的最後一次測試?備援水準是什麼樣的?誰擁有代碼和備用鑰匙?如何知道警報系統失敗?将如何管理任何災難可能降臨的資料中心?這些問題都需要明确的答案。

資料中心監控需要夜以繼日地持續進行,而不是确認過程記錄下來并通路,但他們都知道在保護資料中心需要發揮其作用。這需要時間來檢驗。而這種軍事或航空公司飛行員将通過模拟方式來檢驗故障,資料中心從業人員的工作也采取同樣的方式。他們在節假日随時待命。每個事件都有可能發生,從業人員應該知道要采取的步驟,而如果問題比最初想象的更糟或惡化,并超出從業人員的能力範圍的話,從業人員就應該了解更新更新的路徑。

毫無疑問,通過單個伺服器和叢集之間的故障切換測試,可以確定在資料崩潰或硬體故障時,資料中心繼續履行所有的服務,但是當資料中心電力中斷的故障發生時怎麼辦?難道切換到發電機,通知從業人員關閉任何不必要的伺服器?這些類型的測試應定期進行,而且還應當在正常運作進行連接配接測試。

最後的想法是,在資料中心正在使用的監控系統中,更具體地說,應該了解它們是如何配置的。現在不是提出更換一個新系統的時候,但重要的是要檢查将觸發一個動作和警報是什麼監測的條件和參數,

人們最好利用節假日這段時間充分評估監控對企業的流程和it問題“紅名單”。大多數人承認,檢查警報要選擇合适的人。而例如有人兩年前離開公司,卻仍然管理其監控軟體,這是比較常見的。

最後,監控軟體将會為從業人員帶來好消息。最好每天得到一個報告,知道一切狀況都很好,而不是隻配置為與壞消息發送警報系統!如果監控系統沉默則讓人害怕,因為你甚至是會擔心資料中心是否已經消失在一個排水孔中。

在節假日到來的時候,從業人員一定要確定監控系統能夠正常運作。

本文轉自d1net(轉載)

繼續閱讀