當我們還沒有了解網際網路的時候,移動互聯來了,當我們還沒有了解移動互聯的時候,大資料和雲計算又來了。不知不覺,成百上千棟資料中心拔地而起,海量的資料已悄然産生,并潛移默化地影響着我們生活中的點點滴滴。
當我們出行時,參考高德地圖的交通資料;當我們餐飲時,打開大衆點評檢視評論資料;當我們購物時,淘寶網的消費資料分析會推送符合我們傾向的商品。生活中的小事尚且需要大資料的分析,IDC營運這樣一件嚴肅而又嚴謹的工作,同樣需要大資料分析。
IDC營運需要大資料分析
所謂IDC,就是為電子資訊裝置提供運作環境的場所,該場所可以安裝資料處理、資料傳輸和網絡通訊等多種IT裝置,同時還需要安裝為IT裝置服務的電力、空調、傳輸管路等相關系統及裝置,通過合理的IT架構,實作資訊的處理、傳輸、儲存、交換、管理等功能。完善的管理方式和良好的IT環境就是要保障IT裝置的正常有效運轉、保障業務的順暢進行和服務的及時提供。
一個典型的IDC如下圖1-1:
圖1-1 典型IDC組成圖
一個典型的IDC包含哪些元素呢?從業務層面,有軟體應用、虛拟化、伺服器、存儲、異地災備;從風、火、水、電、光層面,有通風、消防、供水、制冷、空調、配電、布線、通信、兩路市電、備援電源;從運維層面,有搬遷、物流、安防、巡檢、反恐怖活動、防自然災害;從成本層面,有設計成本、建造成本、運作成本、維護成本。可以說,IDC是一個複雜的綜合體系。一個如此龐雜的體系自然需要科學的管理。可以這樣了解“管理”二字,“管”意味着決策與執行,“理”意味着整合與分析資料。“理”是手段,“理”的功能為采集資料:“管”是目的,“管”的功能為根據“理”的資料分析結果進行決策和執行,進行運維操作。
既然IDC的營運是一種管理,管理需要資料,那麼如何擷取IDC營運資料呢?如圖1-2,IDC的電力監控系統會得到到柴油發電機、燃油、市電、變壓器、UPS、電池、高壓直流、開關狀态、PDU電量等系列資料;制冷空調的監控系統會得到冷機、冷塔、水泵、闆換、精密空調、冷熱通道溫度、自然冷卻的運作時間、PUE、WUE等系列資料;消防與安防監控會得到人流、物流等系列資料;ITSM系統得到伺服器上架、流程進度等資料。
圖1-2 擷取資料的方式與途徑
這些資料有的進行了分析,形成了報表,如圖1-2中左一圖檔所示的裝置電量波動趨勢,左二圖檔的自然冷卻分析,但是大量的資料還停留在初級采集階段,并未形成綜合分析與報表。例如,冷凍水泵的變頻器發生故障,這樣的故障可能會直接影響冷機運作,但報警資訊隻顯示在電力監控界面上,不對制冷運維人員開放,則導緻制冷運維人員不能在第一時間得到通知,無法快速響應故障。又如,制冷系統中的蓄冷罐溫度異常可能由冷機故障引起,也可能由冷機專用變壓器或開關故障引起,此時隻分析蓄冷罐的溫度資料、隻分析冷機的狀态資料是不夠的,還需要跨系統分析電氣系統的冷機配電開關和變壓器狀态的資料庫。
是以,IDC營運迫切需要擷取到大資料,需要資料的跨系統整合、關聯、統計與挖掘,需要大資料分析。
DCIM是進行大資料分析的有效工具
為了順應IDC營運跨系統資料關聯、分析的需要,DCIM(Data Center Infrastructure Management資料中心基礎設施管理)是再好不過的工具了。
DCIM概念起源于國外,不同的機構對DCIM也有不同的定義,但基本共同的觀點是DCIM工具可以架起一座溝通關鍵基礎設施和IT裝置之間的橋梁,進而幫助資料中心管理人員更高效的營運資料中心。
Gartner對DCIM的定義是:Data center infrastructure management (DCIM) tools monitor, measure, manage and/or control data center utilization and energy consumption of all IT-related equipment (such as servers, storage and network switches) and facility infrastructure components (such as power distribution units [PDUs] and computer room air conditioners [CRACs])。資料中心基礎設施管理(DCIM)工具監控、管理和控制資料中心所有IT相關裝置(比如伺服器、存儲和交換機)和關鍵基礎設施相關裝置(比如PDU和精密空調)的使用情況以及能耗水準。
451 Group對DCIM的定義是:A datacenter infrastructure management system collects and manages information about a datacenter‘s assets, resource use and operational status. This information is then distributed, integrated, analyzed and applied in ways that help managers meet business and service-oriented goals and optimize the datacenter’s performance. 資料中心基礎設施系統通過持續收集和管理資料中心的資産、資源以及各種裝置的運作狀态,然後通過分析、整合提煉成有用的資料,進而幫助資料中心管理者管理資料中心并優化性能。
從海外資料對DCIM的了解可以看到,DCIM定義中的Infrastructure是指支撐整個資料中心IT系統運作的所有實體層設施,包括供配電、空調環境、安全防護、綜合布線、消防等場地基礎設施與伺服器、存儲、網絡與安全等IT硬體基礎設施。
事實上,對于基礎設施,業内比較通用的認知是:
基礎設施(infrastructure)
=場地基礎設施(site facility infrastructure)+ IT基礎設施(IT infrastructure)
其中場地基礎設施(site facility infrastructure),通常也簡稱facility,就是常說的風火水電等機電裝置。DCIM的主要價值就是在于打通場地基礎設施和IT基礎設施(硬體層)的組織和資訊斷層、打通場地基礎設施各子系統的資料庫,采用統一的平台管理場地基礎設施如UPS、空調以及IT基礎設施如伺服器,并通過資料的分析和聚合,最大化資料中心的營運效率以保證資料中心的可用性和業務的連續性。
DCIM能夠為IDC營運帶來的價值
可靠運維
IDC營運的第一要務是保證7×24×365不間斷可靠運作,IDC承載的業務的重要性要求故障時須即時處理,以減少事故曆時、降低故障帶來的損失和風險。裝置的故障是IDC營運需要重點關注的一個問題,是否等到裝置故障告警,運維人員才去關注呢?是否可以做到預測故障呢?DCIM可對故障期間的資料進行記錄、整理、統計、分析,尋找故障發生的誘因和共性,探讨縮短故障曆時的途徑;DCIM的資料分析結果可幫助運維人員提前診斷哪些裝置處于亞健康的狀态,進而可預測故障、提醒運維人員提前排查故障,降低風險。
表3-1 關鍵裝置平均無故障時間與故障率
如表3-1,DCIM可彙總、統計來自電力監控、制冷監控子系統的資料庫,整理關鍵裝置如冷機、冷塔、水泵、柴發、開關、變壓器、UPS等的平均維護時間、平均無故障時間和每月累計故障率,如果資料分析顯示某一組電池的月故障率突然高于平均值,則有理由懷疑這組電池近期可能出現故障,這就可以提醒IDC運維人員提前對這組電池進行維護和更換,進而避免故障的發生,減少當機的可能。
圖3-2 海恩法則
論及運維的可靠性,圖3-2是著名的海恩法則,它的含義是一次嚴重的事故之前可能有1000起事故隐患、300起未遂先兆、29次輕微事故,DCIM的橫向資料分析可以幫助運維人員在隐患階段排除故障的可能。如制冷空調系統的環境溫度監測,當溫度超出限定值時,系統告警,但是等到系統告警往往為時過晚,局部熱點極易導緻當機;然而電氣系統的PDU電量監測可預警告空調的局部熱點,例如某列機櫃PDU電量持續徘徊在高位,則運維人員可以預判附近可能出現局部熱點,并提前加速周邊空調的EC風機,進而避免局部熱點的出現,減少當機風險。
運維的可靠性常常需要多個子系統聯合保障,例如市電斷電、導緻冷機重新啟動,為了保障冷機重新開機的時間段内冷量可持續供給,資料中心制冷系統常常配置應急冷源(如蓄冷罐),暖通制冷監控系統(BMS)須響應緊急情況,自動控制應急冷源(如水蓄冷罐)放冷,并能實作再次充冷。BMS須準确感覺電氣系統中冷機的配電狀況,并在冷機掉電或其他緊急工況時,平穩切換至應急冷源供冷,保障伺服器的冷量持續供應;在應急冷源放冷完畢時,BMS須自動切換應急冷源至再次充冷。DCIM可橫向整合電力監控、暖通制冷監控的資料,實作資料的互聯互通,以免各子系統監控自成體系、執行子系統指令時影響到其他系統的安全運作,進而影響整個IT環境的穩定可靠。
圖3-3伺服器平均電量資料分析
DCIM橫向資料庫分析可以幫助運維人員篩選僵屍伺服器,對連續監測的IT電量資料進行彙總、分析和比較,如圖3-3,如某IDC大部分機櫃伺服器運作在5kW左右的平均值,個别機櫃伺服器電量維持在2kW左右,可想而知,這樣的伺服器對計算資源的貢獻非常有限,極有可能是僵屍伺服器。運維人員可根據電量提示優化伺服器的配置及軟體架構,或移除伺服器另作他用。可見,DCIM資料分析可幫助IDC運維人員優化IT資源配置。
綠色節能
伺服器在飛快地運算着,電表的數字也在飛快地跳着,IDC輸出計算能力的同時也在消耗大量能源,有資料表明IDC的耗電量占全國總耗電量的20%左右,綠色節能是IDC營運的重要課題。DCIM的橫向資料分析可以幫助IDC營運優化節能。例如,某IDC的設計IT負荷為5000kW,采用冷卻塔串聯闆換的水側節能,如圖3-4,滿載時濕球溫度4℃開始自然冷卻。
圖3-4 冷卻塔串聯闆換的水側節能
然而伺服器往往是分批上架的,IDC也是分期部署的,如果一期IT負載率低于某設定值如3000kW,則DCIM可建議運維人員設定濕球溫度6℃或7℃開始自然冷卻,進而延長自然冷卻的時間,縮短電制冷的運作時間,達到節省制冷系統電耗、降低PUE、節能運作的目的。
IDC的規劃、設計、建造都是按照IT滿載做的,實際運作往往是變工況運作,DCIM綜合資料分析可根據運作動态資料分析改變設定值。例如最初的空調送風溫度設定為18℃,冷通道溫度上限設定為22℃,運作一段時間後,系統監測到機房冷通道的溫度普遍持續低于22℃,則可以提醒運維人員嘗試提高送風溫度設定值為20℃,甚至冷水機組的供水溫度也可提高,冷凍水供水溫度每提高1℃,冷機效率提升2~3%,自然冷卻的運作時間也可相應延長,如此可實作節省制冷系統電耗、節能運作的目的。
決策依據
DCIM通過對運維資料的動态收集、分析以及監測,也可以幫助IDC運維人員在下一個生産環節提供輸入。
圖3-5 Space Power Cooling(SPC)管理
IDC有SPC的管理三元素,S指空間、P指供電、C指的就是冷卻。DCIM系統收集到U位的總資料,已占用U位的資料,兩者相減就可得到可用的U位空間;電力、制冷也是如此,得到可用電力、可用冷量;如圖3-5,通過SPC三個資料庫的聯合分析,運維人員就可以确定上多少台伺服器,在哪些U位空間進行擺放。可見,DCIM綜合資料分析可幫助IDC營運工作科學決策。
可以舉的例子還有很多,例如,某企業某類業務的IDC,在一期規劃設計采用百分之百的滿負荷進行基礎設施的容量規劃,以及平面設定。然而DCIM常年的運作資料表明,此類業務平均運作在70%左右的負荷,峰值也不會超過80%,那麼,在同樣業務的下一個IDC規劃中,就可以把IT的負載率設定為80%,則可以縮減基礎設施的容量、節省基礎設施初投資。可見,DCIM可幫助IDC規劃優化配置,節約成本。
又例如,某企業某類業務在某一線城市采用雙路市電加柴油發電機的備援方案,但DCIM多年的運作資料表明市電從未斷電,電網可靠性達到5個9,甚至更高,則在下一個IDC的規劃中可考慮優化架構為一路市電加柴油發電機的方案。可見,DCIM可幫助IDC規劃優化設計方案。
從以上分析可以看出,大規模IDC存在多套監控管理子系統,如電力監控(EPMS)、暖通制冷監控(BMS)、消防與安防監控、ITSM等,每個子系統都有自己獨立的資料采集、統計、分析和執行等裝置,完成某項獨立的功能;但是IDC的整體營運需要這些子系統的資料橫向整合、縱向挖掘、綜合分析;資料不進行分析,就隻是資料,無法對營運産生價值;DCIM對各子系統的資料進行篩選、整合并加以關聯、挖掘、分析,進而根據大資料分析的結果提出運維建議、優化運作能效、降低故障風險、提升IDC營運效率,并為運維人員提供科學決策的依據。
DCIM大資料分析的前景展望
圖4-1 DCIM的大資料分析的多種可能
DCIM的大資料分析可以做的事情非常多,如圖4-1,可以實作成本管理、規劃管理、工單管理、容量管理、可靠性管理、能效管理。如圖4-2,更可以關聯故障與應急預案實作告警管理,可以關聯資産與容量管理實作變更管理,可以彙總技術規範與運維手冊實作知識庫管理,可以供應商管理與二維碼對應的方式實作供應商管理,可以從能效管理進一步提升為計費管理,可以把巡檢的主動式運維流程化變成工單管理。
圖4-2 DCIM的大資料分析幫助IDC營運的方式
小結
大資料分析是IDC營運的核心競争力,如圖5-1
圖5-1 大資料分析的核心價值
它可以幫助IDC營運增能效、減成本、助運維、輕風險,是科學管理營運IDC的必殺技。IDC營運即将進入大資料分析的時代,DCIM是進行大資料挖掘與分析不可或缺的工具,亟需針對運維需求的深度開發和有效運用。
本文轉自d1net(轉載)