monitoring SMART HDD
smartmontools est un ensemble d'utilitaires qui utilisent le protocole SMART pour récupérer des informations sur les disques qui savent le parler (tous les disques récents).
Pour savoir si SMART est activé sur le disque /dev/sda
:
smartctl -i /dev/sda smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen Home page is http://smartmontools.sourceforge.net/ === START OF INFORMATION SECTION === Device Model: SAMSUNG HD103UJ Serial Number: ... Firmware Version: 1AA01108 User Capacity: 1 000 204 886 016 bytes Device is: In smartctl database [for details use: -P show] ATA Version is: 8 ATA Standard is: ATA-8-ACS revision 3b Local Time is: Tue Sep 1 16:33:17 2009 CEST ==> WARNING: May need -F samsung or -F samsung2 enabled; see manual for details. SMART support is: Available - device has SMART capability. SMART support is: Enabled
Pour activer le SMART :
smartctl -s on /dev/sda
Voir le status du disque (Health) :
smartctl -H /dev/sda === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED
Lancer un test rapide/approfondi sur le disque /dev/sda
smartctl --test=short /dev/sda smartctl --test=long /dev/sda
Pour arrêter le test il faut saisir smartctl -X /dev/sda
.
Pour consulter les résultats de ce test (il faut attendre 2 min qu'il se termine) :
smartctl -l selftest /dev/sda === START OF READ SMART DATA SECTION === SMART Self-test log structure revision number 0 Warning: ATA Specification requires self-test log structure revision number = 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Completed without error 00% 9661 - # 2 Short offline Aborted by host 90% 9661 -
Pour lister les erreurs sur un disque :
smartctl -l error /dev/sda === START OF READ SMART DATA SECTION === SMART Error Log Version: 1 No Errors Logged
Obtenir des informations sur le disque /dev/sda
smartctl -A /dev/sda === START OF READ SMART DATA SECTION === SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 100 100 051 Pre-fail Always - 0 3 Spin_Up_Time 0x0007 078 078 011 Pre-fail Always - 7400 4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 50 5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0 7 Seek_Error_Rate 0x000f 253 253 051 Pre-fail Always - 0 8 Seek_Time_Performance 0x0025 100 100 015 Pre-fail Offline - 10960 9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 9661 10 Spin_Retry_Count 0x0033 100 100 051 Pre-fail Always - 0 11 Calibration_Retry_Count 0x0012 100 100 000 Old_age Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 50 13 Read_Soft_Error_Rate 0x000e 100 100 000 Old_age Always - 0 183 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0 184 Unknown_Attribute 0x0033 100 100 099 Pre-fail Always - 0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 188 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 064 055 000 Old_age Always - 36 (Lifetime Min/Max 20/39) 194 Temperature_Celsius 0x0022 063 053 000 Old_age Always - 37 (Lifetime Min/Max 20/39) 195 Hardware_ECC_Recovered 0x001a 100 100 000 Old_age Always - 72079533 196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 100 100 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x000a 100 100 000 Old_age Always - 0 201 Soft_Read_Error_Rate 0x000a 100 100 000 Old_age Always - 0
Obtenir des informations détaillées sur le disque /dev/sda
:
smartctl -a /dev/sda
Pour assurer une surveillance H24 et envoyer une alerte par mail ou syslog, smartd est un démon qu'il faut lancer au démarrage du système. Pour cela, éditer /etc/default/smartmontools
et décommenter #start_smartd=yes
:
vi /etc/default/smartmontools # uncomment to start smartd on system startup start_smartd=yes
Pour juste lancer le démon :
/etc/init.d/smartmontools start
Voici les champs SMART à surveiller car ils indiquent un “niveau de fatigue” du disque dur, et vous permettront d'être proactif, c'est à dire de prévoir la panne prochaine d'un de vos disques, et donc de prendre les dispositions qui s'imposent.
Attention les disques (durs ou SSD) n'ont pas tous les mêmes champs SMART, qui varient en fonction du type de disque mais aussi de la marque !
ID | Nom | Description |
---|---|---|
05 | Reallocated Sectors Count | Indique le nombre de secteurs réalloués, qui augmente avec l'âge du disque et s'accompagne d'une baisse de performance |
0A | Spin Retry Count | Sous-tend un pb mécanique du HDD |
C4 | Reallocation Event Count | |
C5 | Current Pending Sector Count | |
C6 | Uncorrectable Sector Count | compteur d'erreur non corrigées |
C7 | UltraDMA CRC Error Count | compteur de reconnexion du disque dur ; peut venir d'un problème de câble (SATA) |