天天看點

硬碟SMART檢測參數詳解一、SMART概述二、SMART資訊解讀三、SMART參數詳解

硬碟SMART

  • 一、SMART概述
  • 二、SMART資訊解讀
  • 三、SMART參數詳解

一、SMART概述

要說Linux使用者最不願意看到的事情,莫過于在毫無警告的情況下發現硬碟崩潰了。諸如RAID的備份和存儲技術可以在任何時候幫使用者恢複資料,但為預防硬體崩潰造成資料丢失所花費的代價卻是相當可觀的,特别是在使用者從來沒有提前考慮過在這些情況下的應對措施時。

硬碟的故障一般分為兩種:可預測的(predictable)和不可預測的(unpredictable)。後者偶而會發生,也沒有辦法去預防它,例如晶片突然失效,機械撞擊等。但像電機軸承磨損、盤片磁媒體性能下降等都屬于可預測的情況,可以在在幾天甚至幾星期前就發現這種不正常的現象。

對于可預測的情況,如果能通過磁盤監控技術,通過測量硬碟的幾個重要的安全參數和評估他們的情況,然後由監控軟體得出兩種結果:“硬碟安全”或“不久後會發生故障”。那麼在發生故障前,至少有足夠的時間讓使用者把重要資料轉移到其它儲存裝置上。

最早期的硬碟監控技術起源于1992年,IBM在AS/400計算機的IBM 0662 SCSI 2代硬碟驅動器中使用了後來被命名為Predictive Failure Analysis(故障預警分析技術)的監控技術,它是通過在固件中測量幾個重要的硬碟安全參數和評估他們的情況,然後由監控軟體得出兩種結果:“硬碟安全”或“不久後會發生故障”。

不久,當時的微機制造商康柏和硬碟制造商希捷、昆騰以及康納共同提出了名為IntelliSafe的類似技術。通過該技術,硬碟可以測量自身的的健康名額并将參量值傳送給作業系統和使用者的監控軟體中,每個硬碟生産商有權決定哪些名額需要被監控以及設定它們的安全門檻值。

1995年,康柏公司将該技術方案送出到Small Form Factor(SFF)委員會進行标準化,該方案得到IBM、希捷、昆騰、康納和西部資料的支援,1996年6月進行了1.3版的修正,正式更名為S.M.A.R.T.(Self-Monitoring Analysis And Reporting Technology),全稱就是“自我檢測分析與報告技術”,成為一種自動監控硬碟驅動器完好狀況和報告潛在問題的技術标準。

SMART的目的是監控硬碟的可靠性、預測磁盤故障和執行各種類型的磁盤自檢。如今大部分的ATA/SATA、SCSI/SAS和固态硬碟都搭載内置的SMART系統。作為行業規範,SMART規定了硬碟制造廠商應遵循的标準,滿足SMART标準的條件主要包括:

1)在裝置制造期間完成SMART需要的各項參數、屬性的設定;

2)在特定系統平台下,能夠正常使用SMART;通過BIOS檢測,能夠識别裝置是否支援SMART并可顯示相關資訊,而且能辨識有效和失效的SMART資訊;

3)允許使用者自由開啟和關閉SMART功能;

4)在使用者使用過程中,能提供SMART的各項有效資訊,确定裝置的工作狀态,并能發出相應的修正指令或警告。在硬碟及作業系統都支援SMART技術并且開啟的情況下,若硬碟狀态不良,SMART功能會在開機時響起警報,SMART技術能夠在螢幕上顯示英文警告資訊:“WARNING IMMEDIATLY BACKUP YOUR DATA AND REPLACE YOUR HARD DISK DRIVE,A FAILURE MAY BE IMMINENT.”(警告:立刻備份你的資料并更換硬碟,硬碟可能失效。)

SMART功能不斷從硬碟上的各個傳感器收集資訊,并把資訊儲存在硬碟的系統保留區(service area)内,這個區域一般位于硬碟0實體面的最前面幾十個實體磁道,由廠商寫入相關的内部管理程式。這裡除了SMART資訊表外還包括低級格式化程式、加密解密程式、自監控程式、自動修複程式等。使用者使用的監測軟體通過名為“SMART Return Status”的指令(指令代碼為:B0h)對SMART資訊進行讀取,且不允許最終使用者對資訊進行修改。

smartmontools是smart的的軟體包程式,由smartctl和smartd兩部分工具程式組成,它們一起為Linux平台提供對磁盤退化和故障的進階警告。

二、SMART資訊解讀

硬碟SMART檢測參數詳解一、SMART概述二、SMART資訊解讀三、SMART參數詳解
  • ID

    屬性ID,通常是一個1到255之間的十進制或十六進制的數字。硬碟SMART檢測的ID代碼以兩位十六進制數表示(括号裡對應的是十進制數)硬碟的各項檢測參數。目前,各硬碟制造商的絕大部分SMART ID代碼所代表的參數含義是一緻的,但廠商也可以根據需要使用不同的ID代碼,或者根據檢測項目的多少增減ID代碼。一般來說,以下這些檢測項是必需的:

01(001) Raw_Read_Error_Rate 底層資料讀取錯誤率 
04(004) Start_Stop_Count 啟動/停止計數 
05(005) Reallocated_Sector_Ct 重映射扇區數 
09(009) Power_On_Hours 通電時間累計,出廠後通電的總時間,一般磁盤壽命三萬小時 
0A(010) Spin_Retry_Count 主軸起旋重試次數(即硬碟主軸電機啟動重試次數) 
0B(011) Calibration_Retry_Count 磁盤校準重試次數 
0C(012) Power_Cycle_Count 磁盤通電次數 
C2(194) Temperature_Celsius 溫度 
C7(199) UDMA_CRC_Error_Count 奇偶校驗錯誤率 
C8(200) Write_Error_Rate: 寫錯誤率 
F1(241) Total_LBAs_Written:表示磁盤自出廠總共寫入的的資料,機關是LBAS=512Byte 
F2(242) Total_LBAs_Read:表示磁盤自出廠總共讀取的資料,機關是LBAS=512Byte
           
  • ATTRIBUTE_NAME

    硬碟制造商定義的屬性名。,即某一檢測項目的名稱,是ID代碼的文字解釋。

  • FLAG

    屬性操作标志(可以忽略)

  • 目前值(value)

    目前值是各ID項在硬碟運作時根據實測原始資料(Raw value)通過公式計算的結果,1到253之間。253意味着最好情況,1意味着最壞情況。計算公式由硬碟廠家自定。

    硬碟出廠時各ID項目都有一個預設的最大正常值,也即出廠值,這個預設的依據及計算方法為硬碟廠家保密,不同型号的硬碟都不同,最大正常值通常為100或200或253,新硬碟剛開始使用時顯示的目前值可以認為是預設的最大正常值(有些ID項如溫度等除外)。随着使用損耗或出現錯誤,目前值會根據實測資料而不斷重新整理并逐漸減小。是以,目前值接近臨界值就意味着硬碟壽命的減少,發生故障的可能性增大,是以目前值也是判定硬碟健康狀态或推測壽命的依據之一。

  • 最內插補點(Worst)

    最內插補點是硬碟運作時各ID項曾出現過的最小的value。

    最內插補點是對硬碟運作中某項資料變劣的峰值統計,該數值也會不斷重新整理。通常,最內插補點與目前值是相等的,如果最內插補點出現較大的波動(小于目前值),表明硬碟曾出現錯誤或曾經曆過惡劣的工作環境(如溫度)。

  • 臨界值(Threshold)

    在報告硬碟FAILED狀态前,WORST可以允許的最小值。

    臨界值是硬碟廠商指定的表示某一項目可靠性的門限值,也稱門檻值,它通過特定公式計算而得。如果某個參數的目前值接近了臨界值,就意味着硬碟将變得不可靠,可能導緻資料丢失或者硬碟故障。由于臨界值是硬碟廠商根據自己産品特性而确定的,是以用廠商提供的專用檢測軟體往往會跟Windows下檢測軟體的檢測結果有較大出入。

    硬碟的每項SMART資訊中都有一個臨界值(門檻值),不同硬碟的臨界值是不同的,SMART針對各項的目前值、最內插補點和臨界值的比較結果以及資料值進行分析後,提供硬碟目前的評估狀态,也是我們直覺判斷硬碟健康狀态的重要資訊。根據SMART的規定,狀态一般有正常、警告、故障或錯誤三種狀态。

    SMART判定這三個狀态與SMART的 Pre-failure/advisory BIT(預測錯誤/發現位)參數的指派密切相關,當Pre-failure/advisory BIT=0,并且目前值、最內插補點遠大于臨界值的情況下,為正常标志。當Pre-failure/advisory BIT=0,并且目前值、最內插補點大于但接近臨界值時,為警告标志;當Pre-failure/advisory BIT=1,并且目前值、最內插補點小于臨界值時,為故障或錯誤标志

  • 原始值(RAW_VALUE)

    制造商定義的原始值,從VALUE派生。

    資料值是硬碟運作時各項參數的實測值,大部分SMART工具以十進制顯示資料。

    資料值代表的意義随參數而定,大緻可以分為三類:

    1)資料值并不直接反映硬碟狀态,必須經過硬碟内置的計算公式換算成目前值才能得出結果;

    2)資料值是直接累計的,如Start/Stop Count(啟動/停止計數)的資料是50,即表示該硬碟從出廠到現在累計啟停了50次;

    3)有些參數的資料是即時數,如Temperature(溫度)的資料值是44,表示硬碟的目前溫度是44℃。

    是以,有些參數直接檢視資料也能大緻了解硬碟目前的工作狀态。

  • TYPE

    屬性的類型(Pre-fail或Oldage)。Pre-fail類型的屬性可被看成一個關鍵屬性,表示參與磁盤的整體SMART健康評估(PASSED/FAILED)。如果任何Pre-fail類型的屬性故障,那麼可視為磁盤将要發生故障。另一方面,Oldage類型的屬性可被看成一個非關鍵的屬性(如正常的磁盤磨損),表示不會使磁盤本身發生故障。

  • UPDATED

    表示屬性的更新頻率。Offline代表磁盤上執行離線測試的時間。

  • WHEN_FAILED

    如果VALUE小于等于THRESH,會被設定成“FAILING_NOW”;如果WORST小于等于THRESH會被設定成“In_the_past”;如果都不是,會被設定成“-”。在“FAILING_NOW”情況下,需要盡快備份重要 檔案,特别是屬性是Pre-fail類型時。“In_the_past”代表屬性已經故障了,但在運作測試的時候沒問題。“-”代表這個屬性從沒故障過。

三、SMART參數詳解

一般情況下,使用者隻要觀察目前值、最內插補點和臨界值的關系,并注意狀态提示資訊即可大緻了解硬碟的健康狀況。下面簡單介紹各參數的含義,以紅色标出的項目是壽命關鍵項,藍色為固态硬碟(SSD)特有的項目。

在基于閃存的固态硬碟中,存儲單元分為兩類:SLC(Single Layer Cell,單層單元)和MLC(Multi-Level Cell,多層單元)。SLC成本高、容量小、但讀寫速度快,可靠性高,擦寫次數可高達100000次,比MLC高10倍。而MLC雖容量大、成本低,但其性能大幅落後于SLC。為了保證MLC的壽命,控制晶片還要有智能磨損平衡技術算法,使每個存儲單元的寫入次數可以平均分攤,以達到100萬小時的平均無故障時間。是以固态硬碟有許多SMART參數是機械硬碟所沒有的,如存儲單元的擦寫次數、備用塊統計等等,這些新增項大都由廠家自定義,有些尚無詳細的解釋,有些解釋也未必準确,此處也隻是僅供參考。下面凡未注明廠商的固态硬碟特有的項均為SandForce主要晶片特有的,其它廠商各自單獨注明。

  • 01(001)底層資料讀取錯誤率 Raw Read Error Rate

    資料為0或任意值,目前值應遠大于與臨界值。

    底層資料讀取錯誤率是磁頭從磁盤表面讀取資料時出現的錯誤,對某些硬碟來說,大于0的資料表明磁盤表面或者讀寫磁頭發生問題,如媒體損傷、磁頭污染、磁頭共振等等。不過對希捷硬碟來說,許多硬碟的這一項會有很大的資料量,這不代表有任何問題,主要是看目前值下降的程度。

    在固态硬碟中,此項的資料值包含了可校正的錯誤與不可校正的RAISE錯誤(UECC+URAISE)。

    注:RAISE(Redundant Array of Independent Silicon Elements)意為獨立矽元素備援陣列,是固态硬碟特有的一種備援恢複技術,保證内部有類似RAID陣列的資料安全性。

  • 02(002)磁盤讀寫通量性能 Throughput Performance

    此參數表示硬碟的讀寫通量性能,資料值越大越好。目前值如果偏低或趨近臨界值,表示硬碟存在嚴重的問題,但現在的硬碟通常顯示資料值為0或根本不顯示此項,一般在進行了人工脫機SMART測試後才會有資料量。

  • 03(003)主軸起旋時間 Spin Up Time

    主軸起旋時間就是主軸電機從啟動至達到額定轉速所用的時間,資料值直接顯示時間,機關為毫秒或者秒,是以資料值越小越好。不過對于正常硬碟來說,這一項僅僅是一個參考值,硬碟每次的啟動時間都不相同,某次啟動的稍慢些也不表示就有問題。

    硬碟的主軸電機從啟動至達到額定轉速大緻需要4秒~15秒左右,過長的啟動時間說明電機驅動電路或者軸承機構有問題。旦這一參數的資料值在某些型号的硬碟上總是為0,這就要看目前值和最內插補點來判斷了。

    對于固态硬碟來說,所有的資料都是儲存在半導體內建電路中,沒有主軸電機,是以這項沒有意義,資料固定為0,目前值固定為100。

  • 04(004)啟停計數 Start/Stop Count

    這一參數的資料是累計值,表示硬碟主軸電機啟動/停止的次數,新硬碟通常隻有幾次,以後會逐漸增加。系統的某些功能如空閑時關閉硬碟等會使硬碟啟動/停止的次數大為增加,在排除定時功能的影響下,過高的啟動/停止次數(遠大于通電次數0C)暗示硬碟電機及其驅動電路可能有問題。

    這個參數的目前值是依據某種公式計算的結果,例如對希捷某硬碟來說臨界值為20,目前值是通過公式“100-(啟停計數/1024)”計算得出的。若新硬碟的啟停計數為0,目前值為100-(0/1024)=100,随着啟停次數的增加,該值不斷下降,當啟停次數達到81920次時,目前值為100-(81920/1024)=20,已達到臨界值,表示從啟停次數來看,該硬碟已達設計壽命,當然這隻是個壽命參考值,并不具有确定的名額性。

    這一項對于固态硬碟同樣沒有意義,資料固定為0,目前值固定為100。

  • 05(005)重映射扇區計數 Reallocated Sectors Count/ 退役塊計數 Retired Block Count

    資料應為0,目前值應遠大于臨界值。

    當硬碟的某扇區持續出現讀/寫/校驗錯誤時,硬碟固件程式會将這個扇區的實體位址加入缺陷表(G-list),将該位址重新定向到預先保留的備用扇區并将其中的資料一并轉移,這就稱為重映射。執行重映射操作後的硬碟在Windows正常檢測中是無法發現不良扇區的,因其位址已被指向備用扇區,這等于屏蔽了不良扇區。

    這項參數的資料值直接表示已經被重映射扇區的數量,目前值則随着資料值的增加而持續下降。當發現此項的資料值不為零時,要密切注意其發展趨勢,若能長期保持穩定,則硬碟還可以正常運作;若資料值不斷上升,說明不良扇區不斷增加,硬碟已處于不穩定狀态,應當考慮更換了。如果目前值接近或已到達臨界值(此時的資料值并不一定很大,因為不同硬碟保留的備用扇區數并不相同),表示缺陷表已滿或備用扇區已用盡,已經失去了重映射功能,再出現不良扇區就會顯現出來并直接導緻資料丢失。

    這一項不僅是硬碟的壽命關鍵參數,而且重映射扇區的數量也直接影響硬碟的性能,例如某些硬碟會出現資料量很大,但目前值下降不明顯的情況,這種硬碟盡管還可正常運作,但也不宜繼續使用。因為備用扇區都是位于磁盤尾部(靠近盤片軸心處),大量的使用備用扇區會使尋道時間增加,硬碟性能明顯下降。

    這個參數在機械硬碟上是非常敏感的,而對于固态硬碟來說同樣具有重要意義。閃存的壽命是正态分布的,例如說MLC能寫入一萬次以上,實際上說的是寫入一萬次之前不會發生“批量損壞”,但某些單元可能寫入幾十次就損壞了。換言之,機械硬碟的盤片不會因讀寫而損壞,出現不良扇區大多與工藝品質相關,而閃存的讀寫次數則是有限的,因而損壞是正常的。是以固态硬碟在制造時也保留了一定的空間,當某個存儲單元出現問題後即把損壞的部分隔離,用好的部分來頂替。這一替換方法和機械硬碟的扇區重映射是一個道理,隻不過機械硬碟正常時極少有重映射操作,而對于固态硬碟是經常性的。

    在固态硬碟中這一項的資料會随着使用而不斷增長,隻要增長的速度保持穩定就可以。通常情況下,資料值=100-(100×被替換塊/必需塊總數),是以也可以估算出硬碟的剩餘壽命。

    Intel固态硬碟型号的第十二個字母表示了兩種規格,該字母為1表示第一代的50納米技術的SSD,為2表示第二代的34納米技術的SSD,如SSDSA2M160G2GN就表示是34nm的SSD。是以參數的檢視也有兩種情況:

    50nm的SSD(一代)要看目前值。這個值初始是100,當出現替換塊的時候這個值并不會立即變化,一直到已替換四個塊時這個值變為1,之後每增加四個塊目前值就+1。也就是100對應0~3個塊,1對應4~7個塊,2對應8~11個塊……

    34nm的SSD(二代)直接檢視資料值,資料值直接表示有多少個被替換的塊。

  • 06(006)讀取通道餘量 Read Channel Margin

    這一項功能不明,現在的硬碟也不顯示這一項。

  • 07(007)尋道錯誤率 Seek Error Rate

    資料應為0,目前值應遠大于與臨界值。

    這一項表示磁頭尋道時的錯誤率,有衆多因素可導緻尋道錯誤率上升,如磁頭元件的機械系統、伺服電路有局部問題,盤片表面媒體不良,硬碟溫度過高等等。

    通常此項的資料應為0,但對希捷硬碟來說,即使是新硬碟,這一項也可能有很大的資料量,這不代表有任何問題,還是要看目前值是否下降。

  • 08(008)尋道性能 Seek Time Performance

    此項表示硬碟尋道操作的平均性能(尋道速度),通常與前一項(尋道錯誤率)相關聯。目前值持續下降标志着磁頭元件、尋道電機或伺服電路出現問題,但現在許多硬碟并不顯示這一項。

  • 09(009)通電時間累計 Power-On Time Count (POH)

    這個參數的含義一目了然,表示硬碟通電的時間,資料值直接累計了裝置通電的時長,新硬碟當然應該接近0,但不同硬碟的計數機關有所不同,有以小時計數的,也有以分、秒甚至30秒為機關的,這由磁盤制造商來定義。

    這一參數的臨界值通常為0,目前值随着硬碟通電時間增加會逐漸下降,接近臨界值表明硬碟已接近預計的設計壽命,當然這并不表明硬碟将出現故障或立即報廢。參考磁盤制造商給出的該型号硬碟的MTBF(平均無故障時間)值,可以大緻估計剩餘壽命或故障機率。

    對于固态硬碟,要注意“裝置優先電源管理功能(device initiated power management,DIPM)”會影響這個統計:如果啟用了DIPM,持續通電計數裡就不包括睡眠時間;如果關閉了DIPM功能,那麼活動、空閑和睡眠三種狀态的時間都會被統計在内。

  • 0A(010)主軸起旋重試次數 Spin up Retry Count

    資料應為0,目前值應大于臨界值。

    主軸起旋重試次數的資料值就是主軸電機嘗試重新啟動的計數,即主軸電機啟動後在規定的時間裡未能成功達到額定轉速而嘗試再次啟動的次數。資料量的增加表示電機驅動電路或是機械子系統出現問題,整機供電不足也會導緻這一問題。

  • 0B(011)磁頭校準重試計數 Calibration Retry Count

    資料應為0,目前值應遠大于與臨界值。

    硬碟在溫度發生變化時,機械部件(特别是盤片)會因熱脹冷縮出現形變,是以需要執行磁頭校準操作消除誤差,有的硬碟還内置了磁頭定時校準功能。這一項記錄了需要再次校準(通常因上次校準失敗)的次數。

    這一項的資料量增加,表示電機驅動電路或是機械子系統出現問題,但有些型号的新硬碟也有一定的資料量,并不表示有問題,還要看目前值和最內插補點。

  • 0C(012)通電周期計數 Power Cycle Count

    通電周期計數的資料值表示了硬碟通電/斷電的次數,即電源開關次數的累計,新硬碟通常隻有幾次。

    這一項與啟停計數(04)是有差別的,一般來說,硬碟通電/斷電意味着計算機的開機與關機,是以經曆一次開關機資料才會加1;而啟停計數(04)表示硬碟主軸電機的啟動/停止(硬碟在運作時可能多次啟停,如系統進入休眠或被設定為空閑多少時間而關閉)。是以大多情況下這個通電/斷電的次數會小于啟停計數(04)的次數。

    通常,硬碟設計的通電次數都很高,如至少5000次,是以這一計數隻是壽命參考值,本身不具名額性。

  • 0D(013)軟體讀取錯誤率 Soft Read Error Rate

    軟體讀取錯誤率也稱為可校正的讀取誤碼率,就是報告給作業系統的未經校正的讀取錯誤。資料值越低越好,過高則可能暗示盤片磁媒體有問題。

  • AA(170)壞塊增長計數 Grown Failing Block Count(Micron 鎂光)

    讀寫失敗的塊增長的總數。

  • AB(171)程式設計失敗塊計數 Program Fail Block Count

    Flash程式設計失敗塊的數量。

  • AC(172)擦寫失敗塊計數 Erase Fail Block Count

    擦寫失敗塊的數量。

  • AD(173)磨損平衡操作次數(平均擦寫次數) / Wear Leveling Count(Micron 鎂光)

    所有好塊的平均擦寫次數。

    Flash晶片有寫入次數限制,當使用FAT檔案系統時,需要頻繁地更新檔案配置設定表。如果閃存的某些區域讀寫過于頻繁,就會比其它區域磨損的更快,這将明顯縮短整個硬碟的壽命(即便其它區域的擦寫次數還遠小于最大限制)。是以,如果讓整個區域具有均勻的寫入量,就可明顯延長晶片壽命,這稱為磨損均衡措施。

  • AE(174)意外失電計數 Unexpected Power Loss Count

    硬碟自啟用後發生意外斷電事件的次數。

  • B1(177)磨損範圍對比值 Wear Range Delta

    磨損最重的塊與磨損最輕的塊的磨損百分比之差。

  • B4(180)未用的備用塊計數 Unused Reserved Block Count Total(惠普)

    固态硬碟會保留一些容量來準備替換損壞的存儲單元,是以可用的預留白間數非常重要。這個參數的目前值表示的是尚未使用的預留的存儲單元數量。

  • B5(181)程式設計失敗計數 Program Fail Count

    用4個位元組顯示已程式設計失敗的次數,與(AB)參數相似。

  • B5(181)非4KB對齊通路數 Non-4k Aligned Access(Micron 鎂光)
  • B6(182)擦寫失敗計數 Erase Fail Count

    用4個位元組顯示硬碟自啟用後塊擦寫失敗的次數,與(AC)參數相似。

  • B7(183)序列槽降速錯誤計數 SATA Downshift Error Count

    這一項表示了SATA接口速率錯誤下降的次數。通常硬碟與主機闆之間的相容問題會導緻SATA傳輸級别降級運作。

  • B8(184)I/O錯誤檢測與校正 I/O Error Detection and Correction(IOEDC)

    “I/O錯誤檢測與校正”是惠普公司專有的SMART IV技術的一部分,與其他制造商的I/O錯誤檢測和校正架構一樣,它記錄了資料通過驅動器内部高速緩存RAM傳輸到主機時的奇偶校驗錯誤數量。

  • B8(184)點到點錯誤檢測計數 End to End Error Detection Count

    Intel第二代的34nm固态硬碟有點到點錯誤檢測計數這一項。固态硬碟裡有一個LBA(logical block addressing,邏輯塊位址)記錄,這一項顯示了SSD内部邏輯塊位址與真實實體位址間映射的出錯次數。

  • B8(184)原始壞塊數 Init Bad Block Count(Indilinx晶片)

    硬碟出廠時已有的壞塊數量。

  • B9(185)磁頭穩定性 Head Stability(西部資料)

    意義不明。

  • BA(186)感應運算振動檢測 nduced Op-Vibration Detection(西部資料)

    意義不明。

  • BB(187)無法校正的錯誤 Reported Uncorrectable Errors(希捷)

    報告給作業系統的無法通過硬體ECC校正的錯誤。如果資料值不為零,就應該備份硬碟上的資料了。

    報告給作業系統的在所有存取指令中出現的無法校正的RAISE(URAISE)錯誤。

  • BC(188)指令逾時 Command Timeout

    由于硬碟逾時導緻操作終止的次數。通常資料值應為0,如果遠大于零,最有可能出現的是電源供電問題或者資料線氧化緻使接觸不良,也可能是硬碟出現嚴重問題。

  • BD(189)高飛寫入 High Fly Writes

    磁頭飛行高度監視裝置可以提高讀寫的可靠性,這一裝置時刻監測磁頭的飛行高度是否在正常範圍來保證可靠的寫入資料。如果磁頭的飛行高度出現偏差,寫入操作就會停止,然後嘗試重新寫入或者換一個位置寫入。這種持續的監測過程提高了寫入資料的可靠性,同時也降低了讀取錯誤率。這一項的資料值就統計了寫入時磁頭飛行高度出現偏差的次數。

  • BD(189)出廠壞塊計數 Factory Bad Block Count(Micron 鎂光晶片)
  • BE(190)氣流溫度 Airflow Temperature

    這一項表示的是硬碟内部盤片表面的氣流溫度。在希捷公司的某些硬碟中,目前值=(100-目前溫度),是以氣流溫度越高,目前值就越低,最內插補點則是目前值曾經到達過的最低點,臨界值由制造商定義的最高允許溫度來确定,而資料值不具實際意義。許多硬碟也沒有這一項參數。

  • BF(191)沖擊錯誤率 G-sense error rate

    這一項的資料值記錄了硬碟受到機械沖擊導緻出錯的頻度。

  • C0(192)斷電傳回計數 Power-Off Retract Count

    當計算機關機或意外斷電時,硬碟的磁頭都要傳回停靠區,不能停留在盤片的資料區裡。正常關機時電源會給硬碟一個通知,即Standby Immediate,就是說主機要求将緩存資料寫入硬碟,然後就準備關機斷電了(休眠、待機也是如此);意外斷電則表示硬碟在未收到關機通知時就失電,此時磁頭會自動複位,迅速離開盤片。

    這個參數的資料值累計了磁頭傳回的次數。但要注意這個參數對某些硬碟來說僅記錄意外斷電時磁頭的傳回動作;而某些硬碟記錄了所有(包括休眠、待機,但不包括關機時)的磁頭傳回動作;還有些硬碟這一項沒有記錄。是以這一參數的資料值在某些硬碟上持續為0或稍大于0,但在另外的硬碟上則會大于通電周期計數(0C)或啟停計數(04)的資料。在一些新型節能硬碟中,這一參數的資料量還與硬碟的節能設計相關,可能會遠大于通電周期計數(0C)或啟停計數(04)的資料,但又遠小于磁頭加載/解除安裝計數(C1)的資料量。

    對于固态硬碟來說,雖然沒有磁頭的加載/解除安裝操作,但這一項的資料量仍然代表了不安全關機,即發生意外斷電的次數。

  • C1(193)磁頭加載/解除安裝計數 Load/Unload Cycle Count

    對于過去的硬碟來說,盤片停止旋轉時磁頭臂停靠于盤片中心軸處的停泊區,磁頭與盤片接觸,隻有當盤片旋轉到一定轉速時,磁頭才開始漂浮于盤片之上并開始向外側移動至資料區。這使得磁頭在硬碟啟停時都與盤片發生摩擦,雖然盤片的停泊區不存儲資料,但無疑啟停一個循環,就使磁頭經曆兩次磨損。是以對以前的硬碟來說,磁頭起降(加載/解除安裝)次數是一項重要的壽命關鍵參數。

    而在現代硬碟中,平時磁頭臂是停靠于盤片之外的一個專門設計的停靠架上,遠離盤片。隻有當盤片旋轉達到額定轉速後,磁頭臂才開始向内(盤片軸心)轉動使磁頭移至盤片區域(加載),磁頭臂向外轉動傳回至停靠架即解除安裝。這樣就徹底杜絕了硬碟啟停時磁頭與盤片接觸的現象,西部資料公司将其稱為“斜坡加載技術”。由于磁頭在加載/解除安裝過程中始終不與盤片接觸,不存在磁頭的磨損,使得這一參數的重要性已經大大下降。

    這個參數的資料值就是磁頭執行加載/解除安裝操作的累計次數。從原理上講,這個加載/解除安裝次數應當與硬碟的啟停次數相當,但對于筆記本内置硬碟以及桌上型電腦新型節能硬碟來說,這一項的資料量會很大。這是因為磁頭臂元件設計有一個固定的傳回力矩,保證在意外斷電時磁頭能靠彈簧力自動離開盤片半徑範圍,迅速傳回停靠架。是以要讓硬碟運作時磁頭保持在盤片的半徑之内,就要使磁頭臂驅動電機(尋道電機)持續通以電流。而讓磁頭臂在硬碟空閑幾分鐘後就立即執行解除安裝動作,傳回到停靠架上,既有利于節能,又降低了硬碟受外力沖擊導緻磁頭與盤片接觸的機率。雖然再次加載會增加一點尋道時間,但畢竟弊大于利,是以在這類硬碟中磁頭的加載/解除安裝次數會遠遠大于通電周期計數(0C)或啟停計數(04)的資料量。不過這種加載/解除安裝方式已經沒有了磁頭與盤片的接觸,是以設計值也已大大增加,通常筆記本内置硬碟的磁頭加載/解除安裝額定值在30~60萬次,而桌上型電腦新型節能硬碟的磁頭加載/解除安裝設計值可達一百萬次。

  • C2(194)溫度 Temperature

    溫度的資料值直接表示了硬碟内部的目前溫度。硬碟運作時最好不要超過45℃,溫度過高雖不會導緻資料丢失,但引起的機械變形會導緻尋道與讀寫錯誤率上升,降低硬碟性能。硬碟的最高允許運作溫度可檢視硬碟廠商給出的資料,一般不會超過60℃。

    不同廠家對溫度參數的目前值、最內插補點和臨界值有不同的表示方法:希捷公司某些硬碟的目前值就是實際溫度(攝氏)值,最內插補點則是曾經達到過的最高溫度,臨界值不具意義;而西部資料公司一些硬碟的最內插補點是溫度上升到某值後的時間函數,每次升溫後的持續時間都将導緻最內插補點逐漸下降,目前值則與目前溫度成反比,即目前溫度越高,目前值越低,随實際溫度波動。

  • C3(195)硬體ECC校正 Hardware ECC Recovered

    ECC(Error Correcting Code)的意思是“錯誤檢查和糾正”,這個技術能夠容許錯誤,并可以将錯誤更正,使讀寫操作得以持續進行,不緻因錯誤而中斷。這一項的資料值記錄了磁頭在盤片上讀寫時通過ECC技術校正錯誤的次數,不過許多硬碟有其制造商特定的資料結構,是以資料量的大小并不能直接說明問題。

  • C3(195)實時無法校正錯誤計數 On the fly ECC Uncorrectable Error Count

    這一參數記錄了無法校正(UECC)的錯誤數量。

  • C3(195)程式設計錯誤塊計數 Program Failure block Count(Indilinx晶片)
  • C4(196)重映射事件計數 Reallocetion Events Count

    資料應為0,目前值應遠大于臨界值。

    這個參數的資料值記錄了将重映射扇區的資料轉移到備用扇區的嘗試次數,是重映射操作的累計值,成功的轉移和不成功的轉移都會被計數。是以這一參數與重映射扇區計數(05)相似,都是反映硬碟已經存在不良扇區。

  • C4(196)擦除錯誤塊計數 Erase Failure block Count(Indilinx晶片)

    在固态硬碟中,這一參數記錄了被重映射的塊程式設計失敗的數量。

  • C5(197)目前待映射扇區計數 Current Pending Sector Count

    資料應為0,目前值應遠大于臨界值。

    這個參數的資料表示了“不穩定的”扇區數,即等待被映射的扇區(也稱“被挂起的扇區”)數量。如果不穩定的扇區随後被讀寫成功,該扇區就不再列入等待範圍,資料值就會下降。

    僅僅讀取時出錯的扇區并不會導緻重映射,隻是被列入“等待”,也許以後讀取就沒有問題,是以隻有在寫入失敗時才會發生重映射。下次對該扇區寫入時如果繼續出錯,就會産生一次重映射操作,此時重映射扇區計數(05)與重映射事件計數(C4)的資料值增加,此參數的資料值下降。

  • C5(197)讀取錯誤塊計數(不可修複錯誤)Read Failure block Count(Indilinx晶片)
  • C6(198)脫機無法校正的扇區計數 Offline Uncorrectable Sector Count

    資料應為0,目前值應遠大于臨界值。

    這個參數的資料累計了讀寫扇區時發生的無法校正的錯誤總數。資料值上升表明盤片表面媒體或機械子系統出現問題,有些扇區肯定已經不能讀取,如果有檔案正在使用這些扇區,作業系統會傳回讀盤錯誤的資訊。下一次寫操作時會對該扇區執行重映射。

  • C6(198)總讀取頁數 Total Count of Read Sectors(Indilinx晶片)
  • C7(199)Ultra ATA通路校驗錯誤率 Ultra ATA CRC Error Rate

    這個參數的資料值累計了通過接口循環備援校驗(Interface Cyclic Redundancy Check,ICRC)發現的資料線傳輸錯誤的次數。如果資料值不為0且持續增長,表示硬碟控制器→資料線→硬碟接口出現錯誤,劣質的資料線、接口接觸不良都可能導緻此現象。由于這一項的資料值不會複零,是以某些新硬碟也會出現一定的資料量,隻要更換資料線後資料值不再繼續增長,即表示問題已得到解決。

  • C7(199)總寫入頁數 Total Count of Write Sectors(Indilinx晶片)
  • C8(200)寫入錯誤率 Write Error Rate / 多區域錯誤率 Multi-Zone Error Rate(西部資料)

    資料應為0,目前值應遠大于臨界值。

    這個參數的資料累計了向扇區寫入資料時出現錯誤的總數。有的新硬碟也會有一定的資料量,若資料值持續快速升高(目前值偏低),表示盤片、磁頭元件可能有問題。

  • C8(200)總讀取指令數 Total Count of Read Command(Indilinx晶片)
  • C9(201)脫道錯誤率 Off Track Error Rate / 邏輯讀取錯誤率 Soft Read Error Rate

    資料值累積了讀取時脫軌的錯誤數量,如果資料值不為0,最好備份硬碟上的資料。

  • C9(201)TA Counter Detected(意義不明)
  • C9(201)寫入指令總數 Total Count of Write Command(Indilinx晶片)
  • CA(202)資料位址标記錯誤 Data Address Mark errors

    此項的資料值越低越好(或者由制造商定義)。

  • CA(202)TA Counter Increased(意義不明)
  • CA(202)剩餘壽命 Percentage Of The Rated Lifetime Used(Micron 鎂光晶片)

    目前值從100開始下降至0,表示所有塊的擦寫餘量統計。計算方法是以MLC擦寫次數除以50,SLC擦寫次數除以1000,結果取整數,将其與100的內插補點作為目前值(MLC預計擦寫次數為5000,SLC預計擦寫次數為100000)。

  • CA(202)閃存總錯誤bit數 Total Count of error bits from flash(Indilinx晶片)
  • CB(203)軟體ECC錯誤數 Run Out Cancel

    錯誤檢查和糾正(ECC)出錯的頻度。

  • CB(203)校正bit錯誤的總讀取頁數 Total Count of Read Sectors with correct bits error(Indilinx晶片)
  • CC(204)軟體ECC校正 Soft ECC Correction

    通過軟體ECC糾正錯誤的計數。

  • CC(204)壞塊滿标志 Bad Block Full Flag(Indilinx晶片)
  • CD(205)熱騷動錯誤率 Thermal Asperity Rate (TAR)

    由超溫導緻的錯誤。資料值應為0。

  • CD(205)最大可程式設計/擦除次數 Max P/E Count(Indilinx晶片)
  • CE(206)磁頭飛行高度 Flying Height

    磁頭距離盤片表面的垂直距離。高度過低則增加了磁頭與盤片接觸導緻損壞的可能性;高度偏高則增大了讀寫錯誤率。不過準确地說,硬碟中并沒有任何裝置可以直接測出磁頭的飛行高度,制造商也隻是根據磁頭讀取的信号強度來推算磁頭飛行高度。

  • CE(206)底層資料寫入出錯率 Write Error Rate
  • CE(206)最小擦寫次數 Erase Count Min(Indilinx晶片)
  • CF(207)主軸過電流 Spin High Current

    資料值記錄了主軸電機運作時出現浪湧電流的次數,資料量的增加意味着軸承或電機可能有問題。

  • CF(207)最大擦寫次數 Erase Count Max(Indilinx晶片)
  • D0(208)主軸電機重新開機次數 Spin Buzz

    資料值記錄了主軸電機反複嘗試啟動的次數,這通常是由于電源供電不足引起的。

  • D0(208)平均擦寫次數Erase Count Average(Indilinx晶片)
  • D1(209)脫機尋道性能 Offline Seek Performance

    這一項表示驅動器在脫機狀态下的尋道性能,通常用于工廠内部測試。

  • D1(209)剩餘壽命百分比 Remaining Life %(Indilinx晶片)
  • D2(210)斜坡加載值 Ramp Load Value

    這一項僅見于幾年前邁拓制造的部分硬碟。通常資料值為0,意義不明。

  • D2(210)壞塊管理錯誤日志 BBM Error Log(Indilinx晶片)
  • D3(211)寫入時振動 Vibration During Write

    寫入資料時受到受到外部振動的記錄。

  • D3(211)SATA主機接口CRC寫入錯誤計數 SATA Error Count CRC (Write)(Indilinx晶片)
  • D4(212)寫入時沖擊 Shock During Write

    寫入資料時受到受到外部機械沖擊的記錄。

  • D4(212)SATA主機接口讀取錯誤計數 SATA Error Count Count CRC (Read)(Indilinx晶片)
  • DC(220)盤片偏移量 Disk Shift

    硬碟中的盤片相對主軸的偏移量(通常是受外力沖擊或溫度變化所緻),機關未知,資料值越小越好。

  • DD(221)沖擊錯誤率 G-sense error rate

    與(BF)相同,資料值記錄了硬碟受到外部機械沖擊或振動導緻出錯的頻度。

  • DE(222)磁頭尋道時間累計 Loaded Hours

    磁頭臂元件運作的小時數,即尋道電機運作時間累計。

  • DF(223)磁頭加載/解除安裝重試計數 Load/Unload Retry Count

    這一項與(C1)項類似,資料值累積了磁頭嘗試重新加載/解除安裝的次數。

  • E0(224)磁頭阻力 Load Friction

    磁頭工作時受到的機械部件的阻力。

  • E1(225)主機寫入資料量 Host Writes

    由于閃存的擦寫次數是有限的,是以這項是固态硬碟特有的統計。Intel的SSD是每當向硬碟寫入了65536個扇區,這一項的資料就+1。如果用HDTune等軟體檢視SMART時可以自己計算,Intel SSD Toolbox已經為你算好了,直接就顯示了曾向SSD中寫入過的資料量。

  • E2(226)磁頭加載時間累計 Load ‘In’-time

    磁頭元件運作時間的累積數,即磁頭臂不在停靠區的時間,與(DE)項相似。

  • E3(227)扭矩放大計數 Torque Amplification Count

    主軸電機試圖提高扭矩來補償盤片轉速變化的次數。當主軸軸承存在問題時,主軸電機會嘗試增加驅動力使盤片穩定旋轉。這個參數的目前值下降,說明硬碟的機械子系統出現了嚴重的問題。

  • E4(228)斷電傳回計數 Power-Off Retract Cycle

    資料值累計了磁頭因裝置意外斷電而自動傳回的次數,與(C0)項相似。

  • E6(230)GMR磁頭振幅 GMR Head Amplitude

    磁頭“抖動”,即正向/反向往複運動的距離。

  • E7(231)溫度 Temperature

    溫度的資料值直接表示了硬碟内部的目前溫度,與(C2)項相同。

  • E7(231)剩餘壽命 SSD Life Left

    剩餘壽命是基于P/E周期與可用的備用塊作出的預測。新硬碟為100;10表示PE周期已到設計值,但尚有足夠的保留塊;0表示保留塊不足,硬碟将處于隻讀方式以便備份資料。

  • E8(232)壽命餘量 Endurance Remaining

    壽命餘量是指硬碟已擦寫次數與設計最大可擦寫次數的百分比,與(CA)項相似。

  • E8(232)預留白間剩餘量 Available Reserved Space(Intel晶片)

    對于Intel的SSD來說,前邊05項提到會保留一些容量來準備替換損壞的存儲單元,是以可用的預留白間數非常重要。當保留的空間用盡,再出現損壞的單元就将出現資料丢失,這個SSD的壽命就結束了。是以僅看05項意義并不大,這一項才最重要。這項參數可以看目前值,新的SSD裡所有的預留白間都在,是以是100。随着預留白間的消耗,目前值将不斷下降,減小到接近臨界值(一般是10)時,就說明隻剩下10%的預留白間了,SSD的壽命将要結束。這個與(B4)項相似。

  • E9(233)通電時間累計 Power-On Hours

    對于普通硬碟來說,這一項與(09)相同。

  • E9(233)媒體磨耗指數 Media Wareout Indicator(Intel晶片)

    由于固态硬碟的擦寫次數是有限的,當到達一定次數的時候,就會出現大量的單元同時損壞,這時候預留白間也頂不住了,是以這項參數實際上表示的是硬碟設計壽命。Intel的SSD要看目前值,随着NAND的平均擦寫次數從0增長到最大的設計值,這一參數的目前值從開始的100逐漸下降至1為止。這表示SSD的設計壽命已經終結。當然到達設計壽命也不一定意味着SSD就立即報廢,這與閃存晶片的品質有着很大的關系。

    注:Total Erase Count全擦寫計數是指固态硬碟中所有塊的擦寫次數的總和,不同規格的NAND晶片以及不同容量的SSD,其最大全擦寫次數均有所不同。

  • F0(240)磁頭飛行時間 Head Flying Hours / 傳輸錯誤率 Transfer Error Rate(富士通)

    磁頭位于工作位置的時間。

    富士通硬碟表示在資料傳輸時連接配接被重置的次數。

  • F1(241)LBA寫入總數 Total LBAs Written

    LBA寫入數的累計。

  • F1(241)寫入剩餘壽命 Lifetime Writes from Host

    自硬碟啟用後主機向硬碟寫入的資料總量,以4個位元組表示,每寫入64GB位元組作為一個機關。

  • F2(242)LBA讀取總數 Total LBAs Read

    LBA讀取數的累計。某些SMART讀取工具會顯示負的資料值,是因為采用了48位LBA,而不是32位LBA。

  • F2(242)讀取剩餘壽命 Lifetime Reads from Host

    自硬碟啟用後主機從硬碟讀取的資料總量,以4個位元組表示,每讀取64GB位元組作為一個機關。

  • FA(250)讀取錯誤重試率 Read Error Retry Rate

    從磁盤上讀取時出錯的次數。

  • FE(254)自由墜落保護 Free Fall Protection

    現在有些筆記本硬碟具有自由墜落保護功能,當硬碟内置的加速度探測裝置檢測到硬碟位移時,會立即停止讀寫操作,将磁頭臂複位。這個措施防止了磁頭與盤片之間發生摩擦撞擊,提高了硬碟的抗震性能。這個參數的資料裡記錄了這一保護裝置動作的次數。

原文連結:https://www.cnblogs.com/xqzt/p/5512075.html

我講明白了嗎?

硬碟SMART檢測參數詳解一、SMART概述二、SMART資訊解讀三、SMART參數詳解

繼續閱讀