天天看點

ibm伺服器面闆報警訓示燈含意

有台IBM伺服器前面的光通路面闆開始亮起了小黃燈,推出這個小盒子一看,是EVENT LOG訓示燈報警。一時不知道是什麼原因,可能是日志錯誤,要進Configuration 去調一下,于是打800電話,硬體工程師聽了我的問題後,說應該是日志檔案滿了,應清空一下,開機啟動時,看到提示按F1進Configuration中把兩個日志檔案都清一下,我問怎麼會滿呢?他說隻能存512條日志檔案,多了就因覆寫不了前面的日志檔案而報警,按他的方法在F1進入的 Configuration/Setup Utility中,選擇POST Error Log選項後,直接回車選擇Clear error logs清除所有的自檢日志,同樣選擇System Error Log,直接回車選擇Clear error logs清除所有的系統日志,一切OK(注:不同機型可以會略有不同,如3550隻有system Error log選項,如果清除完後仍亮黃燈,建議斷電幾分鐘再開機試試,如果問題還沒有解決,那可能是硬體有問題了,請跟IBM售後聯系!)。

PS2訓示燈報警

IBM的解釋是這個PS2不是PS2接口,而是伺服器電源

DASD訓示燈報警

7月21日下午檢查機房裝置時,發現一台IBM x3650伺服器0号硬碟黃燈閃爍,前面闆“!”紅色警示燈亮,作業系統運作正常。打開“Light Path“面闆,發現”DASD“燈亮,上網搜尋了一下得知DASD(Direct Access Storage Device)燈亮是硬碟背闆故障。這台伺服器才運作一年多時間啊,不會這麼快就壞吧。趕緊撥打IBM 800報修電話,描述完故障,客服人員做好記錄後說呆會有工程師回電。可1個多小時過去了還沒接到回電(當時心裡不是很爽),于是又撥通了IBM報修熱線,這回接電話的是另外一位工程師,了解故障情況後,答複:黃燈閃爍是硬碟在同步資料,同步完成會熄滅,DASD燈亮需作測試報告以進一步确定故障原因,有可能要對機器作微碼更新,讓我先做好資料備份,并将測試步驟以及所需測試軟體發到我的郵箱。

下午快下班的時候,0号硬碟黃色故障燈果然熄滅恢複正常,但DASD故障燈仍亮,這樣看來,0号硬碟本身應該沒什麼問題,故障可能真的出在硬碟背闆上。不管怎麼樣,先将資料備份至另外一台伺服器上。備完資料,按照IBM郵件裡的處理步驟,進行DSA動态系統診斷,并将生成的診斷報告回複給IBM。

7月23日下午3:30,BE準時到現場。我詢問到底是什麼故障?答複更新微碼後應該能解決問題,至于要不要更換硬碟背闆還要看更新後的情況。接下去就是一系列的微碼更新工作,包括主機闆BIOS、RAID卡等等。更新完成後,DASD故障燈果然熄滅,伺服器看似恢複正常了。由于此前0号硬碟有報警,于是按Ctrl+A進入Array Controller對0号硬碟進行掃描檢測,結果一切正常,排除了硬碟故障。硬碟背闆是否正常,現在也不能下定論,工程師讓我再觀察幾天,暫時不換備件。

下午2點,BE帶着備件準時到場重新接回線纜、蓋上機蓋、開機、進入系統,一切常,                              故障排除了,也留下許多疑問。如果确實是硬碟背闆問題,為什麼微碼更新過後就恢複正常了?如果背闆是好的隻是單純微碼更新問題,為什麼故障在機器運作一年多後才出現?這些疑問BE沒有當場給我答複,讓人納悶。希望有同樣經曆的朋友互相交流!

ps   訓示燈:當此訓示燈發亮時,表明電源2 出現故障。

temp 訓示燈:當此訓示燈發亮時,表明系統溫度超出門檻值級别。

fan:當此訓示燈點亮時,表明散熱風扇或電源風扇出現故障或運作太慢。風扇發生故障還會導緻over temp 訓示燈發亮。

link訓示燈:當此訓示燈發亮時,網卡出現故障。

vrm 訓示燈:當此訓示燈發亮時,表明微處理器托盤上的某個vrm 出現故障。

cpu 訓示燈:當此訓示燈發亮時,表明某個微處理器出現故障。

pci 訓示燈:當此訓示燈發亮時,表明某個pci 總線發生錯誤。

mem 訓示燈:當此訓示燈發亮時,表明發生記憶體錯誤。

dasd 訓示燈:當此訓示燈發亮時,表明某個熱插拔硬碟驅動器出現故障。

nmi 訓示燈:當此訓示燈發亮時,表明出現一個不可屏蔽中斷(nmi)。

sp 訓示燈:當此訓示燈發亮時,表明服務處理器遇到錯誤。

brd 訓示燈:當此訓示燈發亮時,表明某個連接配接的i/o 擴充單元出現故障。

log 訓示燈:當此訓示燈發亮時,表明您應該檢視事件日志或remotesupervisor。

cnfg訓示燈:當此訓示燈發亮時,表明BIOS配置錯誤

raid 訓示燈:當此訓示燈發亮時,表明陣列卡故障。

over spec 訓示燈:當此訓示燈發亮時,表明對電源的需求超過了指定的電源供應。

remind 按鈕:按下此按鈕可重新設定操作員資訊面闆上的系統錯誤訓示燈并将伺服器置于提醒方式。在提醒方式下,故障并沒有清除但系統錯誤訓示燈會閃爍(每2 秒閃爍一次)而不是持續發亮;如果出現另一個系統錯誤,則系統錯誤訓示燈将會持續發亮。 

本文轉自pimg200551CTO部落格,原文連結:<b>http://blog.51cto.com/pimg2005/1074616</b> ,如需轉載請自行聯系原作者

繼續閱讀