[#] Informacje o dysku, a żywotność - smartmontools

( Ostatnio zmieniony pt., 13/06/2008 - 13:58 )
 

Aby zachęcić do przeczytania poniższego opisu, zobrazujmy co nieco:

Ile pożyje nasz nowy dysk?

Producenci dysków deklarują, że ich urządzenia wytrzymują średnio 400 tysięcy cykli parkowania głowicy dysku.

Liczymy:
Dane:

  • dzienny czas używania = 10h
  • ilość dni w roku = 365 dni

łączny czas używania = 10h * 365 dni = 3650

  • średnia ilość parkowań głowicy na 1 godzinę = 40

łączna ilość parkowań głowicy = 3650 h * 40 = 146000

  • deklaracja producenta = 400000 parkowań głowicy

żywotność naszego dysku = 400000 / 146000 = 2,7 lat

Istotna jest również informacja iż ilość parkowań może się zwiększać, jeśli korzystamy z naszego laptopa w trybie oszczędzania energii (np.: podczas pracy na baterii) i jednocześnie zmniejszać podczas pracy na zasilaniu sieciowym.

Sprawdzamy informacje o naszym dysku

sudo smartctl -a /dev/sda

lub jeśli powyższe nie działa:

sudo smartctl -a --device=ata /dev/sda

Obie komendy zwrócą nam coś na wzór:

smartctl version 5.37 [i686-pc-linux-gnu] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     Hitachi HTS541612J9SA00
Serial Number:    SB2581H6GNYNTE
Firmware Version: SBDOC7BP
User Capacity:    120,034,123,776 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   7
ATA Standard is:  ATA/ATAPI-7 T13 1532D revision 1
Local Time is:    Thu Jan  3 23:33:04 2008 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 ( 645) seconds.
Offline data collection
capabilities:                    (0x51) SMART execute Offline immediate.
                                        No Auto Offline data collection support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        (  73) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   062    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   100   100   040    Pre-fail  Offline      -       0
  3 Spin_Up_Time            0x0007   253   100   033    Pre-fail  Always       -       1
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       474
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   100   100   040    Pre-fail  Offline      -       0
**  9 Power_On_Hours          0x0012   098   098   000    Old_age   Always       -       1269**
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       312
191 G-Sense_Error_Rate      0x000a   100   098   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       720912
**193 Load_Cycle_Count        0x0012   099   099   000    Old_age   Always       -       14751**
194 Temperature_Celsius     0x0002   161   100   000    Old_age   Always       -       34 (Lifetime Min/Max 15/49)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   253   000    Old_age   Always       -       0
223 Load_Retry_Count        0x000a   100   100   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%        47         -
# 2  Short offline       Completed without error       00%        46         -
# 3  Short offline       Completed without error       00%         3         -
# 4  Short offline       Completed without error       00%         2         -
# 5  Short offline       Completed without error       00%         2         -
# 6  Short offline       Completed without error       00%         1         -
# 7  Short offline       Completed without error       00%         1         -
# 8  Short offline       Completed without error       00%         1         -
# 9  Short offline       Completed without error       00%         0         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Co jest dla nas ważne, a mówi o żywotności dysku?

dane ze smartmontools:

**  9 Power_On_Hours          0x0012   098   098   000    Old_age   Always       -       1269
...
193 Load_Cycle_Count        0x0012   099   099   000    Old_age   Always       -       14751**

Liczymy sami:
Dane:

  • całkowita ilość parkowań głowicy = [193 Load_Cycle_Count]
  • całkowity czas pracy dysku = [9 Power_On_Hours]

Średnio liczba parkowania na godzinę = [193 Load_Cycle_Count] / [9 Power_On_Hours] = 14751/1269 = 11,6 parkowań na godzinę

Jeżeli twój wynik jest większy, możesz z ciekawości przeliczyć (dzieląc przez 60) ile to będzie na minutę.

Jak widać na powyższym, 14751 razy głowica dysku była już parkowana.

UWAGA !

Jeśli wynik jest większy niż 200 tys., powinieneś zacząć się niepokoić. Jeżeli natomiast przekracza 400 tys., masz prawo się zmartwić.

Swoją drogą ciekaw jestem jak wygląda to w Windows… Jeśli ktoś posiada takie informacje, może się nimi podzielić :)

Zobacz także: How_to_make_u­se_of_Harddis­k_Power_Manage­ment_features

How_to_reduce_po­wer_consumpti­on#Hard_Drives

Problem_with_har­d_drive_clicking

s_m_a_r_t_attri­bute_meaning.html

Istotne również są pliki:
/etc/laptop-mode/laptop-mode.conf
/etc/hdparm.conf


Poniższy tekst pochodzi z: http://forum.dzikie.net/index.php?…

Poświęćmy chwilę uwagi niedocenianemu przez wielu użytkowników systemowi monitorowania, analizowania i raportowania o błędach wykorzystywany w dyskach twardych. Technologia S.M.A.R.T (Self-Monitoring, Analysis, and Reporting Technology) po raz pierwszy pojawiła się w dyskach twardych zgodnych ze standardem ATA-3. System ten sam potrafi monitorować, na bieżąco oceniać stan techniczny dysku twardego i w razie jakiś problemów poinformować użytkownika o zbliżającej się awarii. Większość awarii dysków nie dzieje się nagle, lecz wszystko zaczyna się powoli, a koniec może w wielu wypadkach być przewidziany właśnie przez ten system. S.M.A.R.T rozwinął się z technologii firmy IBM zwanej PFA (Predictive Failure Analysis) oraz IntelliSafeTM pomysłu firmy Compaq. Awarie dysków można podzielić na dwa rodzaje: te które można przewidzieć i te których przewidzieć nie można. Awarie przewidywalne zazwyczaj rozwijają się powoli i można „zobaczyć“ pewne ich symptomy, do takich awarii należą głównie awarie mechaniczne. Na przykład można przewidzieć awarię łożysk dysku, gdyż z biegiem czasu, będzie wzrastał pobór prądu, będzie wydłużał się czas dostępu itd. Najtrudniej przewidzieć jest awarie elektroniki dysku, uszkodzenia takie jak spalenie się układów scalonych następują nagle, w większości przypadków nie da się tego przewidzieć. S.M.A.R.T podczas monitoringu uzyskuje wiele danych które następnie porównuje z określonymi wartościami normy producenta, jeśli uzyskane przez system dane mieszczą się w określonym przedziale to nic nie wskazuje na zbliżającą się awarie. Jeśli natomiast któryś z badanych parametrów odbiega od normy odpowiedni „alarm“ zapisywany jest w tak zwanym S.M.A.R.T status register skąd następnie może być odczytany przez odpowiedni software monitorujący.

Self-Monitoring

Podczas pracy dysku system S.M.A.R.T na bieżąco monitoruje istotne parametry, każdy z nich może przyjąć następujące stany:

  • Pre-failure warranty attribute (PW) – wskazuje warunek przed awaryjny, może uchronić od straty wielu danych
  • Online collection attribute (OC) – oznacza, że wartości są obliczane podczas pracy dysku
  • Performance attribute (PE) – oznacza pogorszenie spowodowane zużyciem lub wiekiem dysku
  • Error rate attribute (ER) – oznacza parametr czestości pomiaru błędów
  • Error count attribute (EC) – oznacza parametr ilości zmierzonych błędów
  • Self-preserving attribute (SP) – oznacza parametr który jest automatycznie ustawiany podczas testu S.M.A.R.T

Monitorowane parametry:

  • Raw Read Error Rate – częstotliwość pojawiania się błędów podczas odczytu RAW
  • Throughput Performance – średnia wydajność dysku
  • Spin Up Time – czas potrzebny do „rozkręcenia“ talerzy dysku
  • Start/Stop Count – ilość cykli start/stop
  • Reallocated Sector Count – ilość realokowanych sektorów
  • Read Channel Margin – rezerwa kanału podczas odczytu
  • Seek Error Rate – częstotliwość błędów podczas pozycjonowania
  • Seek Time Performance – średnia wydajność podczas pozycjonowania
  • Power-On Hours Count – liczba godzin pracy dysku
  • Spin-up Retry Count – liczba prób uruchomienia osi napędowej dysku
  • Calibration Retry Count – liczba prób kalibracji
  • Power Cycle Count – ilość skończonych operacji start/stop
  • Soft Read Error Rate – częstotliwość występowania błędów programowych podczas operacji odczytu
  • G-Sense Error Rate – częstotliwość występowania błędów spowodowanych wstrząsem
  • Power-Off Retract Cycle – ilość naprawionych cykli wyłączenia
  • Load/Unload Cycle Count – ilość cykli do tak zwanej „Landing Zone“
  • HDA Temperature – temperatury dysku (ogólna)
  • Hardware ECC Recovered – częstotliwość występowania „błędów w locie“
  • Reallocated Event Count – liczba remapowanych operacji
  • Current Pending Sector Count – liczba sektorów niestabilnych (oczekujących na remapowanie)
  • Off-line Scan Uncorrectable Count – ilość nie naprawionych błędów
  • UltraDMA CRC Error Rate – liczba błędów CRC podczas pracy w trybie Ultra DMA
  • Write Error Rate – liczba błędów zapisu
  • Soft Read Error Rate – liczba „off track errors“
  • Data Address Mark Errors – częstotliwość występowania błędów „Data Address Mark“
  • Run Out Cancel – częstotliwość występowania błędów ECC
  • Soft ECC Correction – ilość błędów ECC skorygowanych przez software
  • Thermal Asperity Rate – częstotliwość występowania „błędów termicznych“
  • Flying Height – wysokość głowicy ponad powierzchnie zapisu
  • Spin High Current – najwyższa wartość prądu potrzebna do „rozkręcenia“ talerzy dysku
  • Spin Buzz – ilość „buzz routines“ potrzebna do „rozkręcenia“ talerzy dysku
  • Offline Seek Performance – wydajność wyszukiwania podczas operacji offline
  • Disk Shift – przesunięcie dysku, jest możliwe podczas nagłego wstrząsu lub może być spowodowane nadmierną temperaturą
  • G-Sense Error Rate – błędy spowodowane na przykład upuszczeniem dysku
  • Loaded Hours – czas operacji dysku
  • Load/Unload Retry Count – ilość obciążeń spowodowanych operacjami odczytu, zapisu, pozycjonowania
  • Load Friction – obciążenie spowodowane tarciem mechanicznych części
  • Load/Unload Cycle Count – ilość cykli obciążenia
  • Load-in Time – całkowity czas obciążenia dla dysku
  • Torque Amplification Count – liczba prób rotacji dysku
  • Power-Off Retract Count – liczba naprawionych wyłączeń dysku
  • GMR Head Amplitude – amplituda drgań podczas pracy
  • Temperature – temperatura napędu
  • Head Flying Hours – czas w którym głowica jest pozycjonowana
  • Read Error Retry Rate – częstotliwość występowania błędów podczas odczytu

Analysing
Pracując, system S.M.A.R.T może wykonywać różnego rodzaju testy pomagające określić stan dysku twardego. Testy te możemy podzielić na dwie podstawowe grupy:

  • Testy przeprowadzane w trybie CAPTIVE (na czas trwania testu dysk zostaje wyłączony z użycia kontrolera)
  • Testy przeprowadzane w trybie IDLE (testy przeprowadzane są w czasie, gdy dysk nie jest zajęty innymi operacjami „zleconymi“ przez kontroler)

Rodzaje testów:

  • Immediate Offline Test (czas trwania poniżej pięciu minut), podstawowy test dysku, jest szybki i wykrywa najpoważniejsze problemy
  • Short Self Test (zwykle trwa poniżej dziesięciu minut), krótki test wykrywający większość problemów
  • Extended Self Test (trwa kilkadziesiąt minut) długi test wykrywa wszystkie problemy jakie podsystem S.M.A.R.T. danego dysku jest w stanie rozpoznać
  • Conveyance Self Test (od kilku do kilkunastu minut), ten test ma za zadanie wykryć uszkodzenia powstałe podczas transportu urządzenia (test nośnika magnetycznego)
  • Select – przeznaczony do testowania części dysku, dzięki niemu można wykonać test jednej partycji

Dyski ATA/IDE
W tym środowisku software interpretuje sygnały S.M.A.R.T i jeśli są one rozbieżne z wcześniej ustaloną normą informuje o tym użytkownika/system.

Dyski SCSI
W tym przypadku sygnały o błędach interpretowane są już na poziomie samego dysku, a użytkownik jedynie podejmuje decyzję co z danym „fantem“ zrobić.

Linki

5
Twoja ocena: Brak Średnio: 5 (6 głosów)