Festplattendiagnostik- und Überwachung – DebianforumWiki.pdf

29
 Festplattendiagnostik- und Überwachung Aus DebianforumWiki Wiki ‹ Andere Hardware ‹ Festplattendiagnostik- und Überwachung Getestet: Dieser Hinweis soll dir dabei helfen, zu entscheiden, ob dieser Artikel auf deinem System funktionieren wird oder nicht. Solltest du feststellen, dass dieser Artikel bei einer ungetestet V ersion funktioniert, kannst du das gerne hier korrigieren oder im Forum (http://debianforum.de/forum/viewforu m.php?f=36) anmerken. Dieser Artikel wurde für Debian Lenny 5.0 getestet. Dieser Artikel wurde für Debian Squeeze 6.0 getestet. Dieser Artikel wurde für Debian Wheezy 7.0 getestet. Im digitalen Zeitalter werden alle Informationen digital gespeichert. Nicht nur in Rechenzentren, sondern auch im privaten Bereich ist es heute mit erschwinglichen PCs üblich, Informationen zu erfassen, zu  bearbeiten und a bzuspeichern . Seit weit über 30 Ja hren dienen Fes tplattenlaufwerke (http://de.wikip edia.org /wiki/Festplatte) dabei als Speicher für sowie Daten als auch der nötigen Betriebssysteme und Programme. Die Festplatten unterliegen bis heute einer ständigen Weiterentwic klung. Immer mehr Daten auf engerem Raum mit schnelleren Zugriffszeiten, erhöhten Transfe rraten und verringertem Energiebed arf. Doch wie sieht es mit der Beständigkeit und Sicherheit der darauf liegenden Daten aus? Kein Gerät läuft ewig und bis zum Ende fehlerfrei. Deshalb haben sich Tech niken etabliert, die das fehlerfreie weiterarbeiten durch Redundanz ermöglichen, also trotz Ausfall einer Festplatte. Parallel dazu führt nichts an einem Backup, also dem regelmäßigen Kopieren eines Datenbestandes an andere Orte mit anderen Datenträgern, vorbei. Trotz dieser Methoden bieten vielerlei moderne Geräte und damit auch Festplatten Möglichkeiten, ihren momentanen Gesundheitsz ustand preis zu geben und durch ständige Überwachung sogar Prognosen über einen zeitlich nahen Ausfall zu erlauben. Unter dem Druck der wirtschaftlichen V ermarktbarkeit ist die T endenz zu frühzeitig ausfallenden Festplatten keine Seltenheit. Auch durch die technologische Komplexität ist eine fehlerfreie Funktionsgarantie für eine bestimmte Zeit unmöglich. In diesem Artikel wird beschrieben, wie man als Ursache bestimmter Symptome auf fehlerhafte Festplatten schließen kann, wie der Zustand einer Festplatte zu bestimmen und zu beurteilen ist und wie man durch die Einrichtung einer stetigen Überwachung vor einem womöglich bevorstehenden Ausfall gewarnt werden kann. Inhaltsverzeichnis 1 S.M.A.R.T. 2 Installation Fe st pl at te ndia gn os ti k- un d Überwac hu ng – Debia nf or umWiki ht tps: // wi ki .debia nf orum.d e/ Fest pl at te nd ia gn os tik- _u nd be rwachu ng 1 von 29 29.01.2015 21:19

Transcript of Festplattendiagnostik- und Überwachung – DebianforumWiki.pdf

  • Festplattendiagnostik- und berwachung

    Aus DebianforumWiki

    Wiki Andere Hardware Festplattendiagnostik- und berwachung

    Getestet: Dieser Hinweis soll dir dabei helfen, zu entscheiden, ob dieser Artikel auf deinemSystem funktionieren wird oder nicht. Solltest du feststellen, dass dieser Artikel bei einerungetestet Version funktioniert, kannst du das gerne hier korrigieren oder im Forum(http://debianforum.de/forum/viewforum.php?f=36) anmerken.

    Dieser Artikel wurde fr Debian Lenny 5.0 getestet.Dieser Artikel wurde fr Debian Squeeze 6.0 getestet.Dieser Artikel wurde fr Debian Wheezy 7.0 getestet.

    Im digitalen Zeitalter werden alle Informationen digital gespeichert. Nicht nur in Rechenzentren, sondernauch im privaten Bereich ist es heute mit erschwinglichen PCs blich, Informationen zu erfassen, zubearbeiten und abzuspeichern. Seit weit ber 30 Jahren dienen Festplattenlaufwerke (http://de.wikipedia.org/wiki/Festplatte) dabei als Speicher fr sowie Daten als auch der ntigen Betriebssysteme und Programme.Die Festplatten unterliegen bis heute einer stndigen Weiterentwicklung. Immer mehr Daten auf engeremRaum mit schnelleren Zugriffszeiten, erhhten Transferraten und verringertem Energiebedarf.

    Doch wie sieht es mit der Bestndigkeit und Sicherheit der darauf liegenden Daten aus? Kein Gert luftewig und bis zum Ende fehlerfrei. Deshalb haben sich Techniken etabliert, die das fehlerfreie weiterarbeitendurch Redundanz ermglichen, also trotz Ausfall einer Festplatte. Parallel dazu fhrt nichts an einemBackup, also dem regelmigen Kopieren eines Datenbestandes an andere Orte mit anderen Datentrgern,vorbei.

    Trotz dieser Methoden bieten vielerlei moderne Gerte und damit auch Festplatten Mglichkeiten, ihrenmomentanen Gesundheitszustand preis zu geben und durch stndige berwachung sogar Prognosen bereinen zeitlich nahen Ausfall zu erlauben. Unter dem Druck der wirtschaftlichen Vermarktbarkeit ist dieTendenz zu frhzeitig ausfallenden Festplatten keine Seltenheit. Auch durch die technologische Komplexittist eine fehlerfreie Funktionsgarantie fr eine bestimmte Zeit unmglich.

    In diesem Artikel wird beschrieben, wie man als Ursache bestimmter Symptome auf fehlerhafte Festplattenschlieen kann, wie der Zustand einer Festplatte zu bestimmen und zu beurteilen ist und wie man durch dieEinrichtung einer stetigen berwachung vor einem womglich bevorstehenden Ausfall gewarnt werdenkann.

    Inhaltsverzeichnis

    1 S.M.A.R.T.2 Installation

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    1 von 29 29.01.2015 21:19

  • 2.1 ber das Paket2.2 ber die Quellen

    3 Gesundheitszustand ermitteln3.1 Verfgbare Gerte auflisten3.2 Festplatten an USB oder hinter Hardware-RAID Controller3.3 Festplatteninformationen3.4 SMART aktivieren3.5 SMART Gesundheitsindikator3.6 SMART Fhigkeiten3.7 SMART Hersteller-Attribute3.8 Selbsttest initiieren

    3.8.1 Test im Vordergrund3.8.2 kurzer Test3.8.3 langer Test3.8.4 conveyance Test3.8.5 selektiver Test3.8.6 offline Test

    3.9 Fehler-Log3.10 Selbsttest-Log3.11 selektiv Selbsttest-Log3.12 Smartmontools Gerte-Datenbank aktualisieren

    4 SSDs und spezielles4.1 SSD4.2 SCT Temperatur4.3 RAID Schreib,- Lesezeitlimit4.4 Alle SMART-Informationen

    5 Kontinuierliche Festplattenberwachung

    5.1 Grundeinrichtung5.2 Konfiguration

    5.2.1 Festplattenauswahl5.2.2 Tipps5.2.3 Beispiele

    5.2.3.1 Beispiel 15.2.3.2 Beispiel 25.2.3.3 Beispiel 35.2.3.4 Beispiel 4

    5.2.4 Attributelog6 Kurzanleitung zur Fehlersuche und Reparatur

    6.1 Symptom6.2 Diagnose6.3 Reparatur

    7 Hilfe im Forum8 Links / Weiterfhrendes

    S.M.A.R.T.

    Wenn es um Festplattendiagnose geht, wird man um das Self-Monitoring, Analysis and Reporting

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    2 von 29 29.01.2015 21:19

  • Technology (http://de.wikipedia.org/wiki/Self-Monitoring,_Analysis_and_Reporting_Technology) (kurzSMART) nicht herum kommen. Es wurde 1996, also mit ATA-3 und SCSI-3, als Teil des Standardseingefhrt und mit einigen nderungen bis heute beibehalten. Es wird also von allen Festplatten/SSDs undFlashlaufwerken untersttzt, die ATA, SCSI oder SAS verstehen.

    SMART arbeitet unabhngig vom Betriebssystem in der Festplatte und hat einzig die Aufgabe derProtokollierung, greift also nicht in die Funktion und damit Leistungsbeeinflussend ein. Die gewonnenenInformationen knnen ber externe Software ausgelesen und analysiert werden. Das BIOS ist dazu nicht inder Lage. Dort untergebrachte Optionen beziehen sich nur auf das berprfen der SMARTSelbsteinschtzung der Festplatte.

    Da aufgefhrte Attribute und deren Grenzwerte ungenormt vom jeweiligen Hersteller definiert werden, istdie Aussagekraft nicht immer bertragbar und besonders hoch einzuschtzen. Jedoch sind Fehlerlog und diedurch SMART durchfhrbaren Selbsttests ein hilfreiches Mittel.

    Um den vollen Umfang der durch SMART bereitgestellten Diagnosemglichkeiten zu nutzen, wird hierhauptschlich der Umgang mit einem der leistungsfhigsten Werkzeuge beschrieben, die es dafr gibt. Eshandelt sich dabei um die fr viele Systeme verfgbaren Smartmontools (http://sourceforge.net/apps/trac/smartmontools/) .

    Installation

    ber das Paket

    Die smartmontools (https://packages.debian.org/smartmontools) gibt es seit Langem fertig in den DebianPaketarchiven. Die Installation ist also einfach ber APT zu erledigen. Beispielsweise mit aptitude:

    root@debian:~$ aptitude install smartmontools

    Im Paket enthalten sind:

    smartctlDas Kommandozeilenwerkzeug.

    smartdDer berwachungsdienst mit vielseitigen Warn- und Informationssammelmglichkeiten.

    Sowie Konfigurationsdateien, Init-Skripte und Manualdateien.

    In Debian verfgbare Versionen:

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    3 von 29 29.01.2015 21:19

  • Debian Standard Repo Backports

    Sarge5.32-3 (http://archive.debian.net/sarge/smartmontools)

    5.36-8 (http://archive.debian.net/sarge-backports/smartmontools)

    Etch5.36-8 (http://archive.debian.net/etch/smartmontools)

    5.38-2 (http://archive.debian.net/etch-backports/smartmontools)

    Lenny5.38-2 (http://archive.debian.net/lenny/smartmontools)

    5.39.1+svn3124-2 (http://archive.debian.net/lenny-backports/smartmontools)

    Squeeze5.39.1+svn3124-2(http://packages.debian.org/squeeze/smartmontools)

    5.41+svn3365-1 (http://packages.debian.org/squeeze-backports/smartmontools)

    Wheezy5.41+svn3365-1 (http://packages.debian.org/wheezy/smartmontools)

    ber die Quellen

    Durch neue Funktionalitten ist es manchmal ntig, dass die letzte Entwicklerversion bentigt wird, dienoch nicht in den Debian Archiven gelandet ist.

    Es werden die folgende Pakete bentigt:

    build-essential (https://packages.debian.org/build-essential) subversion (https://packages.debian.org/subversion) automake1.9 (https://packages.debian.org/automake1.9) libcap-ng-dev (https://packages.debian.org/libcap-ng-dev)

    Zum Code holen und Kompilieren:

    svn co https://smartmontools.svn.sourceforge.net/svnroot/smartmontools/trunk/smartmontools smartmontoolscd smartmontools./autogen.sh./configuremake

    Smartctl ist dann problemlos von dort ausfhrbar:

    root@debian:~$ ./smartctl

    Gesundheitszustand ermitteln

    Hinweis: Smartctl muss mit Rootrechten ausgefhrt werden, zudem braucht es kein Leerzeichenzwischen Option und dem folgenden Parameter: smartctl -lerror funktioniert ebenso wiesmartctl -l error.

    Verfgbare Gerte auflisten

    Wenn man sich einen berblick ber alle direkt zugreifbaren Festplatten machen mchte, ist smartctl mitder scan Option aufzurufen.

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    4 von 29 29.01.2015 21:19

  • --scanHiermit lassen sich alle gefundenen Festplatten auflisten.

    Beispielsweise gibt es solch eine Ausgabe:

    root@debian:~$ smartctl --scan/dev/sda -d scsi # /dev/sda, SCSI device/dev/sdb -d scsi # /dev/sdb, SCSI device/dev/sdc -d scsi # /dev/sdc, SCSI device/dev/sdd -d scsi # /dev/sdd, SCSI device/dev/sde -d scsi # /dev/sde, SCSI device

    Anmerkung: Bei EIDE, SATA, SCSI und SAS Festplatten ist die vorgeschlagene Vorgabe des Busses nichtnotwendig.

    Festplatten an USB oder hinter Hardware-RAID Controller

    Normalerweise sind Festplatten direkt an einer EIDE, SATA oder SCSI und SAS Schnittstelleunproblematisch und es wird automatisch der richtige Zugriffstyp gewhlt. Ist sie aber ber eine USB-ATA-Bridge an den USB angeschlossen oder liegt mit anderen hinter einem RAID Controller, sind spezielleZugriffstypen ntig, um sie erreichbar zu machen. Besonders fr USB liegt die Chance auf gut untersttzteUSB-ATA Bridges erst bei Gerten nach dem Baujahr 2008 hher.Ob und mit welchem der aufgefhrtenZugriffstypen die SMART Werte einer externen Festplatte ausgelesen werden knnen, ist auf derProjektseite hier (http://sourceforge.net/apps/trac/smartmontools/wiki/Supported_USB-Devices) aufgelistet.

    -d TYP, --device=TYPTYP ist ein Krzel fr verschiedene zur Auswahl stehenden Zugriffsmethoden. Hier sollen nur diegebruchlichsten aufgefhrt werden, andere sind der Manpage zu entnehmen.auto ist die oben beschriebene Standardeinstellung und bedarf keiner expliziten Angabe.

    ata ist fr jegliche ATA Gerte gedacht; weist smartctl an, keine SCSI Kommandos auszugeben.

    scsi fr alle Gerte am SCSI Bus, verhindert die Ausgabe von ATA Kommandos

    sat steht fr SCSI to ATA Translation (SAT). Es ist quasi ein ATA-Tunnel durch SCSI und vonBedeutung bei SATA Festplatten an einem SAS Bus oder fr die meisten der USB/ATA Bridges. Esgibt zwei Varianten dieses ATA pass through SCSI commands: Standardmig ist die 16 Byte langegewhlt, optional die 12 Byte lange -d sat,16 oder -d sat,12

    usbcypress Nutzt die spezielle, proprietre ATA pass through Variante, ATACB, des HerstellersCypress fr dessen USB Bridges.

    3ware,N Ein Beispiel fr die vielen verschiedenen RAID Controller ist fr den Hersteller 3Ware.Fr einen 3ware Serie 9000 Controller ist die erste Festplatte so zu erreichen:

    smartctl -a -d 3ware,0 /dev/twa0

    Demzufolge fr die zweite:

    smartctl -a -d 3ware,1 /dev/twa1

    Festplatteninformationen

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    5 von 29 29.01.2015 21:19

  • -i; --infoZeigt Modell,- Seriennummer, Firmwareversion den ATA Standard/Revision, die nutzbare Kapazitt(nur bei LBA-Fhigen Festplatten; wenn HPA aktiv, wird nur die sichtbare Kapazitt gezeigt). SeitVersion 5.41 (Wheezy) wird die Sektorgre und der WWN (world wide name) angezeigt, wennvorhanden.Ob die Festplatte SMART untersttzt und es aktiviert ist oder nicht. Wenn das Festplattenmodell inder Datenbank vorhanden ist, wird auch die Modellserie gezeigt.

    Ein Beispiel mit der Squeeze Version:

    === START OF INFORMATION SECTION ===Model Family: Western Digital Caviar Blue Serial ATADevice Model: WDC WD1600AABS-55PRA0Serial Number: WD-WMAP92144xxxLU WWN Device Id: 5 0014ee 0556b2f77Firmware Version: 05.06H05User Capacity: 160.041.885.696 bytes [160 GB]Sector Size: 512 bytes logical/physicalDevice is: In smartctl database [for details use: -P show]ATA Version is: 7ATA Standard is: Exact ATA specification draft version not indicatedLocal Time is: Tue Nov 22 03:11:08 2011 CETSMART support is: Available - device has SMART capability.SMART support is: Enabled

    -q noserialGibt man dies in Kombination mit dem Info (oder -a/--all) Kommando ein, dann wird dieSeriennummer nicht mit angezeigt. Ntzlich fr Ausgaben, die man ffentlich zugnglich machenmchte, jedoch ohne die eindeutige Seriennummer.

    -i -q noserial

    Anmerkung: Da hier alleine Informationen des ATA identify Kommandos angezeigt werden (wiebeispielsweise mit hdparm), ist dies der einzige smartctl Befehl, der auch ohne SMART-Fhigkeit desLaufwerks Informationen bringt.

    SMART aktivieren

    Oft ist SMART auf manchen Festplatten noch nicht aktiviert. Solang dies nicht geschehen ist, lassen sich dieDaten nicht auslesen.

    -s WERTMit on/off schaltet man SMART ein oder aus. Normalerweise bleibt diese Einstellung nach demnchsten Einschalten erhalten.

    -o WERTOn/off schaltet den automatischen offline Test ein oder aus. Diese Funktion veranlasst aller vierStunden einen offline scan.

    -S WERTOn/off aktiviert oder deaktiviert das automatische Speichern der SMART Hersteller-Attribute.

    Hat man eine Festplatte zum ersten mal vor sich oder SMART lsst sich nicht auslesen, dann kann es nichtschaden, alle drei Funktionen zu aktivieren:

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    6 von 29 29.01.2015 21:19

  • root@debian:~$ smartctl -son -Son -oon /dev/device

    SMART Gesundheitsindikator

    -HZeigt den Health-Indikator an. Hierbei handelt es sich um eine Selbsteinschtzung der Festplatteanhand aller online- und offline Tests und aller SMART Attribute. Wenn hier ein FAILED gezeigtwird, bedeutet dies entweder einen bereits bestehenden Defekt oder eine Vorhersage dessen fr dienchsten 24 Stunden. Im Normalfall wird ein PASSED gezeigt.Dies ist der Indikator, den z.B. das BIOS zu Rate zieht, um die Festplatte ber SMART zu beurteilen.

    Ein FAILED-Beispiel:

    === START OF READ SMART DATA SECTION ===SMART overall-health self-assessment test result: FAILED!Drive failure expected in less than 24 hours. SAVE ALL DATA.Failed Attributes:ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 3 Spin_Up_Time 0x0007 001 001 025 Pre-fail Always FAILING_NOW 42816

    Hinweis: Dieser Indikator ist zunehmend nicht sehr aussagefhig. Es kann sein, dass trotzfehlschlagender Selbsttests und anderer schwerwiegender Fehler hier ein PASSED gemeldetwird. Die Grnde knnten darin liegen, dass der Hersteller bei frhzeitigem Auslsen zu hoheRcklaufzahlen bewltigen msste, was Image- und wirtschaftlich schdigend wre.

    SMART Fhigkeiten

    -cZeigt die generischen SMART Fhigkeiten und wie sie implementiert sind.Offline data collection:

    Ob sie aktiviert ist und wie der letzte Status lautet.

    Self-test execution status:

    Ist eine wichtige Anzeige dafr, ob gerade ein Selbsttest luft, wie viel bisher gescannt wurde (in 10Prozent Schritten) und wie der Status des letzten Tests war.

    Total time to complete Offline data collection:

    Die bentigte Zeit fr einen offline-Test in Sekunden.

    Capabilities:

    Welche SMART Funktionen verfgbar sind. Zum Beispiel ob Selbsttest untersttzt werden und wennja, welche.

    SMART capabilities:

    Zeigt, ob SMART Daten (Attribute) vor dem Eintreten in einen Stromsparmodus gespeichert werden.

    Error logging capability:

    Die Fhigkeiten des internen Fehlerlogs.

    Die festen bentigten Zeiten fr alle mglichen Selbsttest.

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    7 von 29 29.01.2015 21:19

  • SCT capabilities:

    Ob und wie SCT (SMART command transfer) untersttzt wird.

    Eine Beispielausgabe:

    === START OF READ SMART DATA SECTION ===General SMART Values:Offline data collection status: (0x82) Offline data collection activity was completed without error. Auto Offline Data Collection: Enabled.Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run.Total time to complete Offline data collection: ( 3960) seconds.Offline data collectioncapabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported.SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer.Error logging capability: (0x01) Error logging supported. General Purpose Logging supported.Short self-test routine recommended polling time: ( 2) minutes.Extended self-test routinerecommended polling time: ( 54) minutes.Conveyance self-test routinerecommended polling time: ( 6) minutes.SCT capabilities: (0x103f) SCT Status supported. SCT Error Recovery Control supported. SCT Feature Control supported. SCT Data Table supported.

    SMART Hersteller-Attribute

    Im ATA-3 Entwurf wurden SMART-Parameter spezifiziert, jedoch vor der Standardverabschiedung wiederentfernt. Allerdings halten die Festplattenhersteller, auch SSDs betrifft das, an diesen Parametern fest.Dieser Umstand bringt mit sich, dass diese, wie oben schon angedeutet, offiziell nicht standardisiert sind undnicht bei allen Herstellern gleiches bedeuten. Die Zuordnung eines Attributes zu einer ID ist nur quasiStandard und variiert teilweise. Besonders bei SSDs wurden systembedingt viele Festplattenattribute durchneue ersetzt. Attribute bieten jedoch einige ntzliche Informationen ber den momentanen Zustand und dieBetriebsbedingungen wie zum Beispiel die Festplattentemperatur, die Zahl der Einschaltvorgnge oder diegesamte Betriebszeit. Attribute sind von 1 bis 253 durchnummeriert, haben ein ID und einen Namen. DieseZuordnung ist wie gesagt verbreitet, aber nicht zwingend immer identisch.

    -A; --attributesGibt eine Tabelle aller vorhandenen Attribute aus. Gefhrt von ID# und ATTRIBUTE_NAME. JedesAttribute wird als ein raw (unverarbeitet) Wert unter RAW_VALUE und als normalisierter unterVALUE gefhrt. Normalisiert wird ein raw Wert von der Festplattenfirmware selbst. Dabei wird derraw Wert auf einer Skala von 0 bis 100, 200 oder 255 umgerechnet. Ab dem voreingestelltenMaximum verringert sich der normalisierte Wert je nach Zustand. Erreicht oder unterschreitet er einefestgelegte Grenze unter THRESH, dann wird das entsprechende Attribut unter WHEN_FAILED alsFAILING_NOW gemeldet. Ist es unter TYPE als Pre-fail gelistet, ist ein bevorstehendenFestplattenausfall anzunehmen oder schon eingetreten. Verbesserte sich der Wert wieder, wird seinschlechtester Ausschlag unter WORST festgehalten und unter WHEN_FAILED mit In_the_pastgekennzeichnet. Ein einfaches - bescheinigt dem Attribut, weder in der Vergangenheit noch aktuell,

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    8 von 29 29.01.2015 21:19

  • fehlgeschlagen zu sein. Old_age in der TYPE Spalte kennzeichnet das Attribut als rein Alterungs-oder Verschleibestimmend/-abhngig. Die Spalte UPDATE gibt Auskunft darber, ob ein Attributstndig automatisch Always oder nur whrend eines offline Tests Offline aktualisiert wird.Letztendlich ist der raw-Wert der, welcher direkte Interpretationen zulsst. Denn bei manchenModellen ndert sich der Grenzwert THRESH dynamisch und einige normalisierte VALUE-Werte sindunvernderlich in der Firmware einprogrammiert.

    Zusammenfassend eine bersicht.

    Spalte Beschreibung

    ID# Die Identifikationsnummer des Attributes.

    ATTRIBUTE_NAME Der zur ID geordnete Name des Attributes.

    VALUE Aktueller, normalisierter Wert des raw Parameters. Je geringer, desto schlechter.

    WORST Der ber die gesamte Laufzeit schlechteste Wert.

    THRESH Der Grenzwert, welcher nicht erreicht oder unterschritten werden soll.

    TYPE

    Wenn VALUE unter den Grenzwert fllt, deutet ein hier als Pre-fail gefhrtesAttribut auf baldigen Festplattenausfall hin. Ein Old_age gekennzeichnetes, indiziertvom Charakter Alterung und Verschlei.

    UPDATEZeigt das Aktualisierungsverhalten. Ein Always-Attribut wird stndig aktualisiert,sobald SMART aktiv ist, ein Offline nur whrend eines Offline-Tests.

    WHEN_FAILEDFAILING_NOW bekundet ein aktuelles Unterschreiten des Grenzwertes,In_the_past in der Vergangenheit. Mit dem Bindestrich - ist alles ok.

    RAW_VALUE Der raw-Wert, ohne Normalisierung und Bewertung.

    Kommt man im Zweifel mit sehr gro erscheinenden raw-Werten unbekannter Attribute nicht klar, giltbesonders die Orientierung an den normalisierten Werten. Sind diese weit vom Grenzwert entfernt, ist allesin Ordnung.

    Beispiel:

    === START OF READ SMART DATA SECTION ===SMART Attributes Data Structure revision number: 16Vendor Specific SMART Attributes with Thresholds:ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 100 100 046 Pre-fail Always - 19494 2 Throughput_Performance 0x0005 100 100 030 Pre-fail Offline - 23855104 3 Spin_Up_Time 0x0003 100 100 025 Pre-fail Always - 1 4 Start_Stop_Count 0x0032 099 099 000 Old_age Always - 4236 5 Reallocated_Sector_Ct 0x0033 100 100 024 Pre-fail Always - 0 (2000, 0) 7 Seek_Error_Rate 0x000f 100 100 047 Pre-fail Always - 1908 8 Seek_Time_Performance 0x0005 100 100 019 Pre-fail Offline - 0 9 Power_On_Seconds 0x0032 087 087 000 Old_age Always - 6764h+14m+18s 10 Spin_Retry_Count 0x0013 100 100 020 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 1870192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 16193 Load_Cycle_Count 0x0032 088 088 000 Old_age Always - 123321194 Temperature_Celsius 0x0022 100 075 000 Old_age Always - 55 (Lifetime Min/Max 13/65)195 Hardware_ECC_Recovered 0x001a 100 100 000 Old_age Always - 14196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0 (0, 4357)197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0200 Multi_Zone_Error_Rate 0x000f 100 100 060 Pre-fail Always - 6074203 Run_Out_Cancel 0x0002 100 099 000 Old_age Always - 3728112155426

    Die Ausgabe zeigt eine 80 GB groe FUJITSU MHT2080AH Festplatte. Da kein einziger Sektor

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    9 von 29 29.01.2015 21:19

  • ausgelagert Reallocated_Sector_Ct, darauf wartet Current_Pending_Sector, als schlecht erkanntOffline_Uncorrectable wurde und sonst alle anderen Attribute im grnen Bereich sind, ist diese Festplattescheinbar kerngesund. Die genaue Bedeutung und Einschtzung der gelufigsten Attribute ist hierverstndlich erklrt (http://de.wikipedia.org/wiki/Self-Monitoring,_Analysis_and_Reporting_Technology#Auswertung) . Weitere Quellen findet man am Endedieses Artikels.

    -v ID,FORMAT[.BYTEORDER][,NAME], --vendorattribute=ID,FORMAT[.BYTEORDER][,NAME]Gibt das Attribut unter der gegebenen ID in anderem Format (FORMAT) und optional andererBytereihenfolge (BYTEORDER) bzw. mit anderem Namen (NAME) aus. ID ist die Nummer desAttributes, ein N glte fr alle Attribute. Mit dem Format lassen sich in Sekunden formatierteBetriebsstunden z.B. in Stunden ausgeben. Eine Liste der Mglichkeiten erhlt man mit -v help undaus der Manpage.

    Selbsttest initiieren

    Tests werden von der Festplatte selbst, also vom SMART-Firmwaremodul, durchgefhrt. Sie sind hilfreichdafr, Attribute zu aktualisieren oder die Plattenoberflche auf Fehler zu prfen. SMART stellt Tests unterdrei Kategorien bereit.

    OnlineDie Testkategorie beeinflusst die Leistung nicht und wird mit der schon genannten Option -s onaktiviert, also sobald SMART aktiv ist. Anders ausgedrckt stellt SMART selbst diesen online Testdar, also die stndige Aktualisierung aller Attribute mit dem Update-Typ Always.

    OfflineOffline Tests werden automatisch regelmig gestartet, wenn mit der bereits erwhnten Option -oon aktiviert. Einmalig lsst sich so ein Test mit -t offline starten. Normalerweise wird der Testbei Festplattenzugriffen angehalten und bei der nchsten idle-Phase fortgefhrt, so dass es keineBeeintrchtigungen geben drfte, die ein offline Test durchaus bedeuten wrde. Alle Attribute vomTyp Offline werden hiermit aktualisiert.

    Self-testHierunter reihen sich die richtigen Tests ein. Denn die ersten beiden Kategorien fallen mehr unter eineDatensammlung, um die On- und Offline Attribute zu aktualisieren. Ein Selbsttest wird unmittelbarnach der Kommandoeingabe gestartet und dauert eine definierte, vom Typ und der Festplatteabhngigen, Zeit. Die Ergebnisse dieser Selbsttests sind im Selbsttestlog ersichtlich. Die bentigteDauer der Tests short, long und conveyance sind den Angaben unter SMART Fhigkeiten zuentnehmen.

    -X, --abortDiese Kommando bricht jeden Selbsttest im nicht captive-Modus ab. Ein direkt gestarteterOffline-Test wird dadurch nur gestoppt, wenn folgendes untersttzt wird: "Abort Offline collectionupon new command"

    Test im Vordergrund

    -CDie captive Option funktioniert nur zusammen mit einem short, long, selective oder conveyanceTest. In diesem Modus wird der gegebene Test im Vordergrund ausgefhrt, was die Festplattekomplett blockiert.

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    10 von 29 29.01.2015 21:19

  • Warnung: Wegen der Blockade der Festplatte, fr die Dauer des Tests, wird empfohlen, davoralle betreffenden Dateisystem auszuhngen!

    kurzer Test

    -t shortStartet einen Selbsttest, dessen Dauer typisch deutlich unter 10 Minuten liegt. Dieser Test untersuchtdie elektrische und mechanische Leistung und den Lesedurchsatz des Datentrgers. Er kann imnormalen Betrieb abgesetzt werden, da er diesen nicht behindert. Das Ergebnis findet sich imSelbstetst-Log. Der Fortschritt ist mit -c in 10%-Schritten verfolgbar.

    langer Test

    -t longIst eine lange Version von obigem short test und kann wenige 10 Minuten bis mehrere Stundendauern. Hierbei wird die gesamte Plattenoberflche abgetastet.

    conveyance Test

    -t conveyanceDieser Test dauert meist wenige Minuten und hnelt dem short oder long Test. Mit diesem wirdversucht Schden festzustellen, die whrend eines Transportes oder anderweitig entstandenenmechanischen Belastungen aufgetreten sein knnen. Er wird nur von wenigen Festplatten untersttzt,darunter viele vom Hersteller Western Digital (WD).

    selektiver Test

    Bei groen Festplatten besteht das Problem sehr langer Zeiten, die fr einen kompletten Selbsttest bentigtwerden. Entweder ist die Laufzeit des Rechner krzer und der Test bricht beim Herunterfahren ab, oder manmchte gezielt nur einen bestimmten Bereich erneut testen, welcher zuvor fehlerhaft war. Genau fr solcheFlle ist der selektive Selbsttest gedacht.

    -t select,N-M, select,N+SIZEWeist SMART an, ausschlielich einen Bereich logischer Blockadressen (LBAs) zu testen. JederBereich wird span genannt und beginnt mit einem Start LBA (N) und endet mit einem letzten LBA(M), wobei N kleiner oder gleich M ist. So ein Bereich (span) lsst sich auch mit N+SIZE angeben,oder mit N-max, was von N bis zum Ende der Festplatte testet. Die -t Option, also ein span, kannbis zu fnf mal in einer Befehlszeile angegeben werden. Diese fnf spans knnen sich dabei teilweiseoder komplett berlappen. Die fnf zuletzt aufgerufenen spans merkt sich SMART. Das Ergebnis desselektiven Selbsttest steht im Selbsttest-Log und die gesetzten spans landen im Selective selftes-Log.

    Beispiele:smartctl -t select,1000-1020 /dev/sda

    smartctl -t select,1000+11 /dev/sda

    Beide Tests laufen ber den Bereich LBA 1000 zu 1020.

    smartctl -t select,10000000-max /dev/sda

    Beginnend von LBA 10000000 wird bis zum Ende der Festplatte getestet.

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    11 von 29 29.01.2015 21:19

  • smartctl -t select,0-10 -t select,5-15 -t select,10-20 -t select,15-30 /dev/sda

    Vier teilweise berlappende spans decken zusammen einen Bereich von 31 LBAs ab.

    -t select,redo[+SIZE]Wiederholt einen selektiven Selbsttest mit genau dem Bereich des zuvor ausgefhrten, es sei denn,dessen Gre wird mit +SIZE neu vorgegeben.

    Beispiele:smartctl -t select,10-20 /dev/hda

    smartctl -t select,redo /dev/hda

    smartctl -t select,redo+20 /dev/hda

    -t select,next[+SIZE]Startet einen selektiven Selbsttest, dessen span am Ende des zuvor ausgefhrten gestartet wird. Mit+SIZE kann dessen Gre vorgegeben werden. Wenn der vorige Selbsttest am Festplattenendebeendet wurde, beginnt der neue bei LBA 0, also am Anfang.

    Beispiele:smartctl -t select,0-999 /dev/hda

    smartctl -t select,next /dev/hda

    smartctl -t select,next+2000 /dev/hda

    Deckt quivalent die Bereiche 0-999, 1000-1999 und 2000-3999 ab.

    Es gibt noch weitere selektiv-Selbsttest bezogene Kommandos, die ausfhrlich in der Manualpagebeschrieben sind. Das sind: select,cont[+SIZE]; afterselect,on; afterselect,off; pending,N.

    offline Test

    -t offline

    Fhrt die oben beschriebene offline Datensammlung aus, welche bestimmte Attribute aktualisiertund gefundene Fehler in den Fehlerlog schreibt. Wenn unter SMART Fhigkeiten beschriebeOption -c ein "Suspend Offline collection upon new command" meldet, dann lsst sich dieserVorgang mit -c auch verfolgen. Wird hingegen "Abort Offline collection upon new command"aufgefhrt, dann sollte man das Absetzen der meisten SMART Kommandos danach vermeiden (auch-c), da dieser Test sonst abbricht.

    Fehler-Log

    Wenn die Festplatte error logging untersttzt, werden von SMART die letzten 5 Fehler in einem Loggehalten. In jedem Fehlereintrag wird die momentane Betriebsdauer und der Gertestatus (idle, standby,active) festgehalten. Fr bestimmte Fehler wird weiterhin der Inhalt des Error- und Status Registers und diebisherigen Einschaltzeit gezeigt.

    Die Abkrzungen dieser Fehler stehen fr:

    ABRT: Command ABoRTed AMNF: Address Mark Not Found CCTO: Command Completion Timed Out EOM: End Of Media ICRC: Interface Cyclic Redundancy Code (CRC) error IDNF: IDentity Not Found ILI: (packet command-set specific) MC: Media Changed MCR: Media Change Request NM: No Media

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    12 von 29 29.01.2015 21:19

  • obs: obsolete TK0NF: TracK 0 Not Found UNC: UNCorrectable Error in Data WP: Media is Write Protected

    War eines der Kommandos ein READ oder WRITE, dann wird der betreffende LBA ausgegeben. Durcheine SMART-Beschrnkung sind nur LBAs bis 137 GB korrekt ermittelbar.

    -l errorGibt den Inhalt des Fehlerlogs aus. Die Fehler haben eine fortlaufende Nummer beginnend bei 0. ImLog sind nur die letzten 5 aufgefhrt. Wenn Fehler vorhanden sind, wird immer eine kurze Erklrungund Registerliste vorangestellt.

    Hier ein Log Beispiel. Gezeigt wird nur der letzte Fehler:

    === START OF READ SMART DATA SECTION ===SMART Error Log Version: 1ATA Error Count: 274 (device log contains only the most recent five errors) CR = Command Register [HEX] FR = Features Register [HEX] SC = Sector Count Register [HEX] SN = Sector Number Register [HEX] CL = Cylinder Low Register [HEX] CH = Cylinder High Register [HEX] DH = Device/Head Register [HEX] DC = Device Command Register [HEX] ER = Error register [HEX] ST = Status register [HEX]Powered_Up_Time is measured from power on, and printed asDDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,SS=sec, and sss=millisec. It "wraps" after 49.710 days.

    Error 274 occurred at disk power-on lifetime: 112 hours (4 days + 16 hours) When the command that caused the error occurred, the device was active or idle.

    After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 84 51 00 03 30 25 40 Error: ICRC, ABRT at LBA = 0x00253003 = 2437123

    Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 04 00 30 25 40 00 00:04:47.660 READ DMA c8 00 04 00 30 25 40 00 00:04:47.659 READ DMA c8 00 04 00 30 05 40 00 00:04:47.659 READ DMA c8 00 04 a4 2a 05 40 00 00:04:54.743 READ DMA b0 d2 f1 00 4f c2 00 00 00:04:54.437 SMART ENABLE/DISABLE ATTRIBUTE AUTOSAVE

    Bei einer Betriebszeit der Festplatte von 112 Stunden kam es beim Lesen des LBA 2437123 zu einemAbbruch durch CRC Fehler. Diese erhhten auch den Zhler im Attributlog unterUDMA_CRC_Error_Count. Es stellte sich ein schlechtes SATA Kabel als Fehlerursache heraus, wasein sehr hufiges Problem darstellt.

    -l xerrorGibt einen erweiterten umfassenderen Fehlerlog auf Basis der mit ATA-6 eingebrachten 48 bit LBARegister zur Ausgabe, sofern verfgbar.

    Selbsttest-Log

    -l selftestZeigt die letzten bis zu 21 Sebsttestergebnisse. Enthalten ist der Typ des Tests (short, extended (frlong), selective, offline oder captive) und der endgltige Status. Schlug der Test fehl, wird derverbleibende Rest in Prozent und der erste fehlerhafte LBA gezeigt. Weiterhin wird auch hier die zum

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    13 von 29 29.01.2015 21:19

  • Test aktuelle Betriebszeit angegeben.

    Anmerkung: Bei SCSI ist diese Anzeige etwas anders aufgebaut, mehr dazu steht in der Manpage.Beispiel:

    SMART Self-test log structure revision number 1Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error# 1 Extended offline Completed without error 00% 11539 -# 2 Conveyance offline Completed without error 00% 9723 -# 3 Extended offline Completed without error 00% 8659 -# 4 Extended offline Completed without error 00% 5940 -# 5 Extended offline Completed without error 00% 2673 -# 6 Short captive Interrupted (host reset) 90% 1723 -# 7 Short offline Completed without error 00% 1697 -# 8 Extended offline Completed without error 00% 1427 -# 9 Extended offline Completed without error 00% 947 -#10 Short offline Completed without error 00% 481 -#11 Short offline Completed without error 00% 125 -

    -l xselftestGibt den erweiterten Selbsttestlog aus, ansonsten wird wird der normale gezeigt. Dieser untersttzt 48Bit LBA benutzt mehr als einen Sektor fr die Logs. Wie viele Log Sektoren benutzt werden ist vomHersteller abhngig.

    selektiv Selbsttest-Log

    -l selectiveEr zeigt maximal fnf spans mit ihren start- und end-LBAs und dem aktuellen Bearbeitungsstatus.

    Beispiel:

    === START OF READ SMART DATA SECTION ===SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 64 100063 Not_testing 2 12213545 12228000 Not_testing 3 12220000 12304999 Not_testing 4 212808000 214064889 Not_testing 5 311002356 312581807 Self_test_in_progress [50% left] (311798888-311864423)Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk.If Selective self-test is pending on power-up, resume after 0 minute delay.

    Gut zu erkennen sind fnf gleichzeitig aufgerufene, sich teils berlappende, spans und der Fortschrittdes Letzten.

    Smartmontools Gerte-Datenbank aktualisieren

    Smartcl und smartd nutzen eine Datenbank um dort Hersteller, Modelle und ModellspezifischeRAW-Konvertierungen fr die Anzeige auszulesen. Bis zur Version 5.40 wurde diese nur ber denausgelieferten Quellcode oder das Paket einer neuen Version aktualisiert. Ab dieser Version gibt es einupdate-Skript namens update-smart-drivedb unter /usr/sbin/. Die Datenbank selbst ist eine Header Dateiunter /usr/share/smartmontools/drivedb.h, welche mit dem Skript aktualisiert wird.

    Ab Debian Squeeze kann man diese als root aktualisieren:

    root@debian:~$ update-smart-drivedb

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    14 von 29 29.01.2015 21:19

  • SSDs und spezielles

    SSD

    SSDs funktionieren intern grundlegend anders als mechanische Festplatten. Da sie als Nachfolger an dieselben Schnittstellen wie EIDE, SATA, SCSI, SAS, PCIe angebunden sind und Protokolle wie ATA undSCSI sprechen, sowie ebenfalls einer Alterung, auch in Abhngigkeit von der Nutzung und Umgebung,unterliegen, untersttzen sie SMART. Bei den ersten auf dem Markt befindlichen Modellen konnte es durchFirmwarefehler zu Problemen mit einigen SMART Abfragen kommen. Die Smartmontools untersttzendiese offiziell also erst mit der Version 5.40. Spezielle SSD-Logs und -Indikatoren fr wenige Controllerlassen sich erst mit Version 5.42 auslesen (-ldevstat und -lssd). Neue Modelle und deren Attribute-Anzeigenaufbereitung sind nun mit der aktualisierbaren Laufwerksdatenbank drivesdb.h schnell korrektauslesbar.

    -l devstat[,PAGE]Gibt Werte und deren Beschreibung vom ATA Device Statistics log aus. Mit PAGE 0 erscheinteine Liste aller verfgbarer Seiten. Da diese SSD-spezifischen Gertestatistiken erst mit ATA-8 ACSeingefhrt wurden, gibt es bisher nur wenige Gerte mit diesen. Darunter Intel SSDs der Serie 320und 710. Es scheint ein Anlauf zu standardisierten SMART-Attribut-hnlichen Informationen zu sein.

    Im Sandard ACS -2, Dokument T13/2015-D Revision 1a ist eine Tabelle mglicher Statistik-Seitenabgebildet:

    Seite (hex) Beschreibung00h List of supported pages01h General Statistics02h Free Fall Statistics03h Rotating Media Statistics04h General Errors Statistics05h Temerature Statistics06h Transport Statistics07h Solid State Device Statistics08h ffh Reserved

    -l ssd

    Gibt die o.g. Seite 7 Solid State Device Statistics aus. Hat daher den selben Effekt wie -ldevstat,7.

    SCT Temperatur

    SCT - SMART Command Transport Protokoll ist eine Erweiterung zu SMART und Teil des ATAStandards. Mit SCT lassen sich zustzliche Seiten mit Informationen zu Temperaturprofilen,Laufwerkszugriffsstatistiken oder SATA Bus Link Fehlern anzeigen. ber die SMART Fhigkeiten (mit-c) werden dieverfgbaren SCT-Funktionen angezeigt.

    SCT capabilities: (0x103f) SCT Status supported. SCT Error Recovery Control supported. SCT Feature Control supported. SCT Data Table supported.

    Folgende smartctl Kommandos gibt es seit der Version 5.38 und damit Debian Lenny.

    -l scttempstsGibt die ber SCT ermittelte aktuelle und maximale Temperatur, sowie den Gertestatus aus.

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    15 von 29 29.01.2015 21:19

  • Beispiel von einer WD1600AABS:

    === START OF READ SMART DATA SECTION ===SCT Status Version: 2SCT Version (vendor specific): 256 (0x0100)SCT Support Level: 1Device State: SMART Off-line Data Collection executing in background (4)Current Temperature: 31 CelsiusPower Cycle Max Temperature: 32 CelsiusLifetime Max Temperature: 59 Celsius

    -l scttemphistZeigt das Temperatur-Messintervall, die empfohlenen min/max Temperaturen, die min/maxTemperatur-Grenzwerte, die Zahl der Eintrge im Log und das Log selbst. Smartctl krzt derbersichtlichkeit wegen Bereiche mit exakt den selben Werten und gibt an, wie viele das betrifft.

    Ein Beispiel mit obiger HDD:

    === START OF READ SMART DATA SECTION ===SCT Temperature History Version: 2Temperature Sampling Period: 1 minuteTemperature Logging Interval: 1 minuteMin/Max recommended Temperature: 5/60 CelsiusMin/Max Temperature Limit: -40/65 CelsiusTemperature History Size (Index): 128 (122)

    Index Estimated Time Temperature Celsius 123 2011-11-24 17:08 30 *********** ... ..( 18 skipped). .. *********** 14 2011-11-24 17:27 30 *********** 15 2011-11-24 17:28 31 ************ 16 2011-11-24 17:29 30 *********** 17 2011-11-24 17:30 31 ************ ... ..( 8 skipped). .. ************ 26 2011-11-24 17:39 31 ************ 27 2011-11-24 17:40 30 *********** 28 2011-11-24 17:41 30 *********** 29 2011-11-24 17:42 31 ************ 30 2011-11-24 17:43 30 *********** 31 2011-11-24 17:44 31 ************ 32 2011-11-24 17:45 30 *********** 33 2011-11-24 17:46 31 ************ ... ..( 5 skipped). .. ************ 39 2011-11-24 17:52 31 ************ 40 2011-11-24 17:53 30 *********** 41 2011-11-24 17:54 31 ************ ... ..( 7 skipped). .. ************ 49 2011-11-24 18:02 31 ************ 50 2011-11-24 18:03 30 *********** 51 2011-11-24 18:04 30 *********** 52 2011-11-24 18:05 31 ************ ... ..( 8 skipped). .. ************ 61 2011-11-24 18:14 31 ************ 62 2011-11-24 18:15 30 *********** 63 2011-11-24 18:16 31 ************ 64 2011-11-24 18:17 31 ************ 65 2011-11-24 18:18 30 *********** 66 2011-11-24 18:19 32 ************* 67 2011-11-24 18:20 31 ************ ... ..( 54 skipped). .. ************ 122 2011-11-24 19:15 31 ************

    -l scttempKombiniert die Ausgabe von scttempsts und scttemphist.

    -t scttempint,N[,p]Wurde seit Version 5.42 durch -l scttempint,N[,p] ersetzt!Setzt das SCT Temperatur-Messintervall auf N Minuten- Mit p bleibt der Wert auch ber

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    16 von 29 29.01.2015 21:19

  • Einschaltzyklen erhalten. Gleichzeitig wird dadurch die Temperaturtabelle gelscht.

    RAID Schreib,- Lesezeitlimit

    Oben beschriebenes SCT bietet ein SCT Error Recovery Control, was quivalent zu WD's TLER,Samsung's/Hitachi's CCTL und Seagate's ERC funktioniert.

    -l scterc[,READTIME,WRITETIME]Damit wird die Zeit fr lese- (READTIME) und Schreiboperationen (WRITETIME) limitiert. DieAngabe erfolgt in Dezisekunden. Fr normale RAID Konfigurationen werden 70,70 (7 Sekunden)empfohlen.

    smartctl -lscterc,70,70 /dev/sdcSCT Error Recovery Control set to: Read: 70 (7.0 seconds) Write: 70 (7.0 seconds)

    Alle SMART-Informationen

    Smartctl kann alle aufgefhrten Informationen der einzelnen Optionen mit einmal ausgeben.

    -a, --allFr ATA eine Zusammenfassung folgender Optionen: -H -i -c -A -l error -l selftest -l selective

    -x, --xallWie -a, nur mit zustzlichen nicht-SMART Informationen (SCT, directory Log usw.). quivalentzu: -H -i -c -A -f brief -l xerror,error -l selftest,selftest -l selective -l directory -l scttemp -l scterc -l

    sataphy

    Kontinuierliche Festplattenberwachung

    Nun ist es unzumutbar, regelmig smartctl manuell aufzurufen und nderungen bzw. Fehler auszumachen.Diese Aufgabe bernimmt der mitgelieferte Dienst smartd. Er lsst sich przise konfigurieren und bietetvielerlei Funktionen.

    Grundeinrichtung

    Damit der Dienst berhaupt automatisch gestartet wird, muss in der Datei /etc/default/smartmontoolsstart_smartd=yes auskommentiert, also das # entfernt, werden. Mit smartd_opts knnen smartdweitere Optionen bergeben werden. In der Datei ist --interval=1800 als Beispiel eingetragen. Das istStandardeinstellung und bewirkt, dass smartd aller 1800 Sekunden, also aller 30 Minuten, die konfiguriertenFestplatten abfragt - was einem check-Zyklus entspricht. Wenn die Konfigurationsdatei /etc/smartd.confeingerichtet ist, kann smartd ber folgendes Init-Skript manuell gestartet werden:

    root@debian:~$ /etc/init.d/smartmontools start

    Ansonsten startet dieser beim nchsten Systemstart automatisch.

    Konfiguration

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    17 von 29 29.01.2015 21:19

  • Die Konfigurationsmglichkeiten von smartd sind dermaen umfangreich, das auf eine kompletteErluterung hier nicht eingegangen wird. Neben den meisten von smartctl bekannten Optionen gibt eszustzliche welche fr spezifische Meldungen im Syslog, fr ereignisabhngige Meldungen per Mail oderdas Starten von externen Skripten sowie fr das zeitlich planbare Ausfhren von verschiedenen Selbsttests.Es wird hier nur auf wenige Besonderheiten und Beispiele eingegangen.

    Ein Ausschnitt aus der Konfigurationsdatei mit einer kurzen bersicht der wichtigsten Optionen:

    # HERE IS A LIST OF DIRECTIVES FOR THIS CONFIGURATION FILE.# PLEASE SEE THE smartd.conf MAN PAGE FOR DETAILS## -d TYPE Set the device type: ata, scsi, marvell, removable, 3ware,N, hpt,L/M/N# -T TYPE set the tolerance to one of: normal, permissive# -o VAL Enable/disable automatic offline tests (on/off)# -S VAL Enable/disable attribute autosave (on/off)# -n MODE No check. MODE is one of: never, sleep, standby, idle# -H Monitor SMART Health Status, report if failed# -l TYPE Monitor SMART log. Type is one of: error, selftest# -f Monitor for failure of any 'Usage' Attributes# -m ADD Send warning email to ADD for -H, -l error, -l selftest, and -f# -M TYPE Modify email warning behavior (see man page)# -s REGE Start self-test when type/date matches regular expression (see man page)# -p Report changes in 'Prefailure' Normalized Attributes# -u Report changes in 'Usage' Normalized Attributes# -t Equivalent to -p and -u Directives# -r ID Also report Raw values of Attribute ID with -p, -u or -t# -R ID Track changes in Attribute ID Raw value with -p, -u or -t# -i ID Ignore Attribute ID for -f Directive# -I ID Ignore Attribute ID for -p, -u or -t Directive# -C ID Report if Current Pending Sector count non-zero# -U ID Report if Offline Uncorrectable count non-zero# -W D,I,C Monitor Temperature D)ifference, I)nformal limit, C)ritical limit# -v N,ST Modifies labeling of Attribute N (see man page)# -a Default: equivalent to -H -f -t -l error -l selftest -C 197 -U 198# -F TYPE Use firmware bug workaround. Type is one of: none, samsung# -P TYPE Drive-specific presets: use, ignore, show, showall# # Comment: text after a hash sign is ignored# \ Line continuation character# Attribute ID is a decimal integer 1

  • /dev/sdc/dev/disk/by-ata-ST3160212SCE_5LSC7PMVDEVICESCAN

    Tipps

    Jede Anwendung von smartctl oder smartd auf eine schlafende Festplatte, mit geparkten Kpfen, wecktdiese unweigerlich auf. Mit smartd passiert das bei jedem Check, also standardmig aller 30 Minuten.

    -n POWERMODE[,N][,q]POWERMODE kann sein:never Das ist Standardeinstellung, sie bewirkt auf jeden Fall ein aufwecken.sleep Liest das Laufwerk aus, es sei denn, es ist im Sleep-Modus.standby Liest es nicht aus, wenn es entweder im Sleep- oder Standby Modus ist.idle - Liest es nicht aus, wenn es im Sleep, Standby oder Idle Modus ist.Die Zahl N gibt an, wie oft das Laufwerk also aufgrund des Gertestatus bergangen werden muss, bises geweckt, also ausgelesen wird. q verhindert selbst den entsprechenden Vermerkt im Syslog, dasseine Festplatte aufgrund der Einstellung bergangen wurde.

    Mchte man also verhindern, dass weder ein Aufwecken aus dem Festplatten-Standby noch einentsprechender Logeintrag geschrieben wird, dann muss das in der smartd.conf ergnzt werden:

    -n standby,q

    Beispiele

    Die Konfigurationsdatei ist weitgehend selbsterklrend. Deshalb hier nur einige Beispiele.

    Beispiel 1

    /dev/hda -a -I 194 -W 3,45,54 -R 5 -r 5 -n standby,10 -m user -s (O/../.././06|S/../../6/03|L/../(01|15)/./03)

    -aBeobachtet den Health-Indikator, aller Attribute bei Fehlschlagen und deren nderungen dernormalisierten Werte, Error- und Selftest Log und ob Current Pending Sector count sowie OfflineUncorrectable count grer als 0 sind.

    -I 194Ignoriert nderungen der normalisierten Temperaturwerte.

    -W 3,45,54Informiert, wenn die Temperatur sich um 3 C gendert hat, ber 45 C steigt und warnt bei 54 C als

    kritischem Wert.-r 5, -R 5

    Zeigt auch den Raw-Wert der Reallocated_Sector_Ct und meldet nderungen.-n standby,10

    Fragt die Festplatte 10 mal nicht ab, wenn sie sich im Standby befindet. Bei 30 Minuten * 10 = 300Minuten sind das 5 Stunden, die sie durch keinen smartd-Check geweckt wird.

    -m userSchickt eine Mail bei Fehlern an user@localhost. Bei Nichtangabe des Host wird localhost verwendet.

    s (O/../.././06|S/../../6/03|L/../(01|15)/./03)Fhrt einen direkten Offline-Test jeden Tag 6 Uhr; einen short-selftest jeden Samstag 3 Uhr und einen

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    19 von 29 29.01.2015 21:19

  • long-selftest jeden 1. und 15. des Monats 3 Uhr aus.

    Beispiel 2

    DEVICESCAN -a -I 194 -W 3,45,54 -R 5 -r 5 -u -n standby,24 -m ich -s (O/../.././(00|06|12|18)|L/../20/./05)

    Analog zu oben wird hier jede Festplatte mittels DEVICESCAN gleich behandelt. Ein direkter Offline-Testwird jeden Tag 0,- 6,- 12,- und 18 Uhr, ein long-selftest jeden 20. des Monats um 5 Uhr gestartet.

    Beispiel 3

    DEVICESCAN -a -I 194 -W 5,45,55 -r 5 -R 5 -n standby,24 -m root@localhost -M exec /root/bin/smartmail.sh \-s (O/../.././(06|18)|S/../../6/06|L/../20/./05)

    Das entscheidende hier ist das angegebene Skript /root/bin/smartmail.sh. Im Fehlerfall ruft smartd diesesSkript auf, anstatt eine Mail direkt zu versenden. Dieses Beispielskript erzeugt man mit:

    root@debian:~$ mkdir /root/smart /root/binroot@debian:~$ vim /root/bin/smartmail.shroot@debian:~$ chmod +x /root/bin/smartmail.sh

    und befllt es hiermit:

    #! /bin/bash1. # -m root@localhost -M exec /path/to/this/file2. # Save the email message (STDIN) to a file:3. cat > /root/smart/msg4. echo -e "\n===SMART DATA===\n" >>/root/smart/msg5. 6. # Append the output of smartctl -a to the message:7. /usr/sbin/smartctl -a -d $SMARTD_DEVICETYPE $SMARTD_DEVICE >> /root/smart/msg8. 9. # Now email the message to the user at address ADD. Solaris and10. # other OSes may need to use /bin/mailx below.11. /usr/bin/mail -s "$SMARTD_SUBJECT on $SMARTD_DEVICE" $SMARTD_ADDRESS 0x901FA01F9

    Hier verstecken sich drei 16 Bit Werte: 0x1F9 (505), 0x1FA (506) und 0x9 (9)

    #194 253403267104 ->0x3B00030020

    Bei der Temperatur sind es ebenfalls drei: 0x20 (32), 0x3 (3) und 0x3B (59) Die smartctl-Attributanzeigezur gleichen Zeit offenbart die Bedeutung:

    ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 3 Spin_Up_Time 0x0007 098 098 024 Pre-fail Always - 505 (Average 506)194 Temperature_Celsius 0x0002 187 187 000 Old_age Always - 32 (Min/Max 3/59)

    Seagate - Typische Werte einer Seagate Festplatte:

    2011-11-27 11:20:56;1;105;8895623;3;93;0;4;99;1317;5;100;0;7;69;8935041;9;87;12241;10;100;0;12;99;1157;187;100;0;189;100;0;190;71;505151517;194;29;17179869213;195;99;242732737;197;100;0;198;100;0;199;200;395;200;100;0;202;100;0;

    Bekanntlich sind die raw-Attribute 1 Raw_Read_Error_Rate, 7 Seek_Error_Rate und 195Hardware_ECC_Recovered sehr hoch. Interessant sind noch 190 Airflow_Temperature_Cel und 194Temperature_Celsius. Die ersten drei sind Hexadezimal besser zu bewerten. Es gibt den Ansatz die oberen16/24 Bit der Zahl der Fehler und die unteren 32 Bit die Zahl aller Ereignisse zuzuordnen.

    #1 8895623 ->0x87BC87

    Keine (0) Fehler bei 8895623 Lesevorgngen.

    #7 8935041 ->0x885681

    Hier also 0 seek-error bei 8935041 seeks.

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    22 von 29 29.01.2015 21:19

  • #195 242732737 ->0xE77CEC1

    Kein (0) Fehler bei 242732737 Vorgngen.

    #190 505151517 ->0x1E1C001D

    Es scheinen zwei 8 Bit und ein 16 Bit Wert zu sein: 0x1D (29), 0x1C (28) und 0x1E (30)

    #194 17179869213->0x40000001D

    Bei der Temperatur kann man von wenigstens einem 16 Bit Wert ausgehen. Die anderen ergeben sichmithilfe der smartctl-Ausgabe zu 0x1D (30), 0x0 (0), 0x0 (0), 0x4 (4) und eine weitere 0x0 (0).

    ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 105 099 006 Pre-fail Always - 8895623 7 Seek_Error_Rate 0x000f 069 060 030 Pre-fail Always - 8938087190 Airflow_Temperature_Cel 0x0022 071 044 045 Old_age Always In_the_past 29 (Min/Max 28/30)194 Temperature_Celsius 0x0022 030 056 000 Old_age Always - 30 (0 4 0 0 0)195 Hardware_ECC_Recovered 0x001a 099 053 000 Old_age Always - 242734324

    Seek_Error_Rate von smartctl umrechnen und anzeigen lassen: Aus einer Seek_Error_Rate = 12893012547wird:

    root@debian:~$ smartctl -A -v 7,raw24/raw32 /dev/sdaID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 7 Seek_Error_Rate 0x000f 064 055 030 Pre-fail Always - 3/8110723

    Ideen zur Berechnung der normalisierten Werte und deren Bedeutung findet man in diesem Beitrag desSeagate-Forums (http://forums.seagate.com/t5/Barracuda-XT-Barracuda-Barracuda/Seagate-s-Seek-Error-Rate-Raw-Read-Error-Rate-and-Hardware-ECC/td-p/122382) .

    Kurzanleitung zur Fehlersuche und Reparatur

    Wie sich ein Festplattendefekt auswirkt, hngt stark davon ab, welchem Typ er angehrt und fr welcheAufgabe die Festplatte wie eingesetzt wurde. Nicht lesbare Sektoren wirken sich in einem RAID anders aus,als auf der Systemplatte eines Desktop-PCs. Der hufigste Fehler bei Festplatten sind schlechte Sektoren,die ausgelagert werden und deren Zahl i.d.R. zunimmt. Bevor aber ein Sektor ausgelagert, durch einenNeuen ersetzt, wird, muss dieser von Auen beschrieben werden. Dabei geht immer der Inhalt des Altenverloren! Es gibt zwei Kategorien fr nicht lesbare Sektoren:

    behebbare

    unbehebbare

    Zu letzteren zhlen die eben beschriebenen, physikalisch defekten. Behebbare sind Sektoren, deren Inhaltoder Fehlerkorrekturinformationen (ECC) durch diverse Ursachen korrumpiert wurden und beim Lesendeswegen nicht mehr komplett rekostruiert werden knnen, also als UNCorractable gemarkt werden. Miteinem erneuten Schreibvorgang wird Sektorinhalt und Fehlerkorrektur wieder korrekt abgelegt.

    Zur Reparatur werden einige zustzliche Programme bentigt.

    e2fsprogs (https://packages.debian.org/e2fsprogs) fr badblocks hdparm (https://packages.debian.org/hdparm)

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    23 von 29 29.01.2015 21:19

  • Backupsoftware nach Belieben

    Hinweis: Ist nur eine Systemfestplatte verbaut und z.B. das Dateisystem muss verndert werden,dann sollte man eine Live-CD wie Grml (http://grml.org/) verwenden.

    Symptom

    Befindet sich ein schlechter, nicht lesbarer, Sektor ganz am Anfang der Festplatte, kann es sein, dass derBootloader oder die Partitionstabelle beschdigt ist und das pltzlich BIOS z.B. meldet, es sei kein Systemvorhanden. Nicht lesbare Sektoren knnen in freien, ungenutzten Bereichen zwischen oder auf demDateisystem oder in der Verwaltungsstruktur dessen liegen. Das Resultat wre Inkonsistenz, die entwederdurch einen Dateisystemcheck behebbar ist oder auch nicht. So etwas kann sich zum Systemstart, oderwhrend es luft, bemerkbar machen.

    Typische Symptome knnen Beispielsweise sein:

    das BIOS mchte auf einmal kein System mehr bootenbeim Systemstart meldet fsck widerholt Dateisystemfehler; der Arbeitsspeicher ist nachweislich okKopiervorgnge von- oder auf eine Festplatte brechen unter Verwendung verschiedener Programmemit I/O-Fehlern abDateizugriffe dauern lange oder Dateien werden FehlerhaftRAID Verwaltungssoftware oder dessen BIOS melden Fehler und nehmen eine Festplatte aus demVerbundsmartd oder andere Programme melden Fehler

    Diagnose

    Die erste Quelle, um der Ursache auf die Spur zu kommen sind die Meldungen des Kernels oder dessenModule im Syslog. Die Meldungen knnen hnlich denen sein:

    ata3.00: status: { DRDY ERR }ata3.00: error: { UNC }ata3.00: configured for UDMA/133ata3.01: configured for UDMA/133ata3: EH completeata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0ata3.00: BMDMA stat 0x65ata3.00: failed command: READ DMA EXTata3.00: cmd 25/00:70:08:e9:1c/00:03:71:00:00/e0 tag 0 dma 450560 inres 51/40:d0:a8:ea:1c/40:01:71:00:00/01 Emask 0x9 (media error)

    Von Bedeutung sind (media error) und UNC - UNCorrectable Error in Data. UNC zeigt deutlich an, esgibt wenigstens einen nicht lesbaren Sektor.

    Meldungen wie diese haben eine andere Ursache:

    ata1.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 ata1.01: BMDMA stat 0x4 ata1.01: failed command: READ DMA ata1.01: cmd c8/00:1e:bf:10:ad/00:00:00:00:00/f3 tag 0 dma 15360 in ata1.01: status: { DRDY ERR } ata1.01: error: { ICRC ABRT } ata1: soft resetting link

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    24 von 29 29.01.2015 21:19

  • Die ICRC ABRT bedeuten, dass Fehler bei der bertragung von der Festplatte zum ATA Controller stattfinden. Bei (E)IDE Laufwerken ist ein 80-poliges Kabel einem 40-poligen durch die bessere Schirmungvorzuziehen, wenn der Chipsatz die hheren UDMA-bertagungsmodi untersttzt. Bei SATA ist auf festenSitz der Stecker zu achten. Gute Kabel mit einschnappenden Arretierungen sind unbedingt einzubauen.

    Taucht also der Hinweis auf schlechte Sektoren im Syslog auf, so ist herauszufinden, welche Festplattebetroffen ist. Im SMART error-log zeigen sich die selben UNC-Fehler:

    Error 4 occurred at disk power-on lifetime: 145 hours (6 days + 1 hours) When the command that caused the error occurred, the device was active or idle.

    After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ca 58 9d e0 Error: UNC at LBA = 0x009d58ca = 10311882

    Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 20 00 01 ca 58 9d e0 00 00:38:41.325 READ SECTOR(S) 60 40 40 00 00 00 00 00 00:38:41.324 READ FPDMA QUEUED 60 20 20 00 00 00 00 00 00:37:50.397 READ FPDMA QUEUED 60 20 00 00 00 00 40 00 00:46:44.127 READ FPDMA QUEUED b0 d5 01 06 4f c2 00 00 00:46:19.819 SMART READ LOG

    Davon verursacht sollten die SMART Attribute Current_Pending_Sector und Offline_Uncorrectableraw-Werte grer 0 aufweisen. Reported_Uncorrect zhlt alle Vorgnge der unkorrekt-Meldungen.Beispielsweise:

    root@debian:~$ smartctl -A /dev/sddID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE187 Reported_Uncorrect 0x0032 098 098 000 Old_age Always - 2197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 1198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 1

    Reported_Uncorrect: Zwei mal wurde ein Sektor bisher als schlecht (unkorrekt) gemeldet. Aktuell betrifft eseinen Sektor, was diesen unter Current_Pending_Sector auch zum auslagern-bereit listet.

    Reallocated_Sector_Ct zeigt, ob und wie viele bereits ausgelagert wurden, Reallocated_Event_Count wieviele Auslagerungs-Vorgnge dafr ntig waren. Hier ein Extrembeispiel, bei dem nahezu alleReservesektoren aufgebraucht sind und der Grenzwert schon lngst unterschritten wurde - Alarm:

    ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 5 Reallocated_Sector_Ct 0x0033 002 002 036 Pre-fail Always FAILING_NOW 4015

    Nun sollte ein langer Lesetest angestoen werden:

    root@debian:~$ smartctl -tlong /dev/sde

    Den Status zeigt man sich am besten mit:

    root@debian:~$ smartctl -c /dev/sde | grep -A1 execution

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    25 von 29 29.01.2015 21:19

  • Self-test execution status: ( 249) Self-test routine in progress... 90% of test remaining.

    Bei Lesefehlern stoppt der Test und listet den ersten nicht lesbaren LBA im selftest log:

    SMART Self-test log structure revision number 1Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error# 1 Extended offline Completed: read failure 90% 145 10311882

    Fr einen Gesamtberblick ist nach all dem eine komplette smartctl-Ausgabe ntzlich, auch um diese beiFragen im Forum auf NoPaste (http://debianforum.de/forum/pastebin.php) laden zu knnen:

    root@debian:~$ smartctl -a -q noserial /dev/sdd >smart.txt

    Reparatur

    Warnung: Sptestens hier wird empfohlen ein Backup der Festplatte, Partition oder wichtigerDateien anzufertigen. Auch wenn enthaltene Dateisysteme durch Hardwarefehler defekt sind,bestehen noch Chancen die Daten zu retten. Fr Kopien defekter Festplatten wird aufVollstndiges Sichern einer ganzen Platte verwiesen.

    Fr den Fall, dass es bisher nur einen oder ein wenig mehr unkorrigierbare Sektoren gibt, knnen diese unterUmstnden ausgelagert werden, ohne die Festplatte komplett, und damit das Dateisystem, zu berschreiben.Wenn man die Nummer eines defekten LBAs wei, kann man bestimmen, in welcher Partition und dann inwelchem Dateisystemblock dieser sich befindet. Darauf basierend, welche Datei betroffen ist, denn derInhalt des LBAs geht verloren. Diese Vorgehensweise ist ausfhrlich im Bad block HOWTO(http://smartmontools.sourceforge.net/badblockhowto.html) fr die Dateisysteme ext2/ext3, reiserfs und einLVM2 beschrieben.

    Bei mehreren unkorrigierbaren Sektoren kann alternativ fsck ein ext2/3/4 Dateisystem mittels badblocks imnon-destructive read-write Modus schreiben. Dieser dauert allerdings sehr lange:

    root@debian:~$ e2fsck -vpcc /dev/sdd1

    Ist ein Backup angefertigt und die Festplatte aus eventuellem RAID und/oder LVM Verbund entfernt, sollteman badblocks direkt aufrufen. Dabei wird sie mehrmals komplett mit Testmustern beschrieben (vier malschreiben + lesen), was jegliche Partitionen und alle Daten lscht.

    root@debian:~$ badblocks -b 4096 -svwf -o /root/badblocks.txt /dev/sdx

    Bei Erfolg sollte es keine auf Auslagerung wartenden Sektoren mehr geben, dafr entsprechende mehrausgelagerte:

    ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 12197 Current_Pending_Sector 0x0032 200 196 000 Old_age Always - 0198 Offline_Uncorrectable 0x0030 200 196 000 Old_age Offline - 0

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    26 von 29 29.01.2015 21:19

  • Folgende Reparaturbeispiele knnen das Dateisystem zerstren, weil es ignoriert wird. Ansonsten genanntesBad block HOWTO zu Rate ziehen. In obigem Beispiel konnte LBA 10311882 nicht korrekt gelesen werden.Hdparm ab Lenny kann einzelne Sektoren lesen und schreiben.

    Anmerkung: Bisher nur mit einer Sektorgre (LBA) von 512 Byte mglich, was fr sehr neue Festplattenmit Advanced Format (AF) oder bei SSDs nicht optimal ist.

    root@debian:~$ hdparm --read-sector 10311882 /dev/sde

    /dev/sde:reading sector 10311882: FAILED: Input/output error

    Dieser Leseversuch taucht sogleich im Kerbel-Log auf:

    ata5.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0ata5.00: irq_stat 0x40000001ata5.00: failed command: READ SECTOR(S)ata5.00: cmd 20/00:01:ca:58:9d/00:00:00:00:00/e0 tag 0 pio 512 in res 51/40:00:ca:58:9d/00:00:00:00:00/e0 Emask 0x9 (media error)ata5.00: status: { DRDY ERR }ata5.00: error: { UNC }ata5.00: configured for UDMA/133ata5: EH complete

    Normalerweise verwendet man dafr dd, doch bietet sich in dieser Konstellation auch hdparm an.

    root@debian:~$ hdparm --yes-i-know-what-i-am-doing --write-sector 10311882 /dev/sde

    /dev/sde:re-writing sector 10311882: succeeded

    Ob es aktuell wirklich keine schlechten Sektoren mehr gibt, klrt ein weiterer Oberflchentest:

    root@debian:~$ smartctl -tlong /dev/sdeNum Test_Description Status Remaining LifeTime(hours) LBA_of_first_error# 1 Extended offline Completed: read failure 90% 146 10311885

    Im Beispiel gibt es gleich dahinter noch einen Lesefehler und der Test stoppt. Hdparm besttigt das. Wobeidie Lesefehler gleich bis zu Sektor 10311888 reichen, danach scheint es wieder ok.

    root@debian:~$ hdparm --read-sector 10311888 /dev/sde

    /dev/sde:reading sector 10311888: FAILED: Input/output error

    Die beiden Attribute Current_Pending_Sector und Offline_Uncorrectable haben sich dementsprechend um 4Sekoren erhht Reported_Uncorrect ist insgesamt auf 6 gestiegen:

    ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE187 Reported_Uncorrect 0x0032 094 094 000 Old_age Always - 6197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 4198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 4

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    27 von 29 29.01.2015 21:19

  • Nach dem Nullen der 4 Sektoren, erneut einen langen Selbsttest starten. Der luft endlich durch:

    Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error# 1 Extended offline Completed without error 00% 147 -

    Als Faustregel kann man sich merken, dass auf defekte und/oder ausgelagerte Sektoren bald mehr folgenwerden. Es gibt zwar Ausnahmen, die sind aber selten und schon gar nicht vorhersehbar.

    Hilfe im Forum

    Hast Du Fragen zur Handhabung oder mchtest Du konkrete Hilfe beim Beurteilen des SMART-Zustandeseiner Festplatte? Dazu einfach ein Thema im entsprechenden Unterforum erffnen. Optimalerweise sindmitzuteilen Informationen zum verwendeten System, zur Hardwarekonstellation (wenn bekannt) und wennmglich schon die komplette smartctl-Ausgabe.

    Handelt es sich um mehrere Festplatten, dann gilt es die betreffende(n) zu ermitteln. Auf dieser vorsorglichSMART aktivieren:

    root@debian:~$ smartctl -son /dev/sdX

    Dann die smartctl-Ausgabe auf NoPaste (http://debianforum.de/forum/pastebin.php) oder hnliche kopierenund im Beitrag zugnglich machen:

    root@debian:~$ smartctl -a /dev/sdX >smart-sdX.txt

    Die erzeugte Textdatei enthlt nun die Ausgabe.

    Links / Weiterfhrendes

    Diskussion 133075 (//debianforum.de/forum/viewtopic.php?t=133075) zum Artikel

    SMART:

    http://www.seagate.com/docs/pdf/whitepaper/enhanced_smart.pdf

    http://www.seagate.com/docs/pdf/whitepaper/Enhanced_DST_Tech_Paper.pdf

    http://www.seagate.com/docs/pdf/whitepaper/smart_u8.pdf

    http://www.wdc.com/en/library/legacy/EIDE/79-850122.pdf

    http://smartmontools.sourceforge.net/

    http://smartmontools.sourceforge.net/badblockhowto.html

    http://www.howtogeek.com/howto/37659/the-beginners-guide-to-linux-disk-utilities

    http://wiki.ubuntuusers.de/festplattenstatus

    http://ata.wiki.kernel.org/index.php/Libata_error_messages

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    28 von 29 29.01.2015 21:19

  • Sammlung aller Attribute:

    http://www.ariolic.com/activesmart/smart-attributes/

    http://www.siguardian.com/products/siguardian/on_line_help/s_m_a_r_t_attribute_meaning.html

    http://www.t13.org/Documents/UploadedDocuments/docs2005/e05148r0-ACS-SMARTAttributesAnnex.pdf

    http://sourceforge.net/apps/trac/smartmontools/wiki/TocDoc#SMARTAttributes

    http://de.wikipedia.org/wiki/Self-Monitoring,_Analysis_and_Reporting_Technology

    http://en.wikipedia.org/wiki/S.M.A.R.T.

    Interessante Foren-Diskussionen:

    mdadm Raid 5 resync badblocks (http://debianforum.de/forum/viewtopic.php?f=9&t=132332)

    Debian startet nicht mehr (http://debianforum.de/forum/viewtopic.php?f=13&t=129075)

    Gelegentliche ATA-Errors in syslog (http://debianforum.de/forum/viewtopic.php?f=13&t=119436)

    HDD-Fehler / erste beschriebene Datei nach Booten? (https://debianforum.de/forum/viewtopic.php?f=13&t=106551)

    SATA-Platte hat Schluckauf (http://debianforum.de/forum/viewtopic.php?f=13&t=98642)

    HDD/SATA Controller Exception? Was ist kaputt? (http://debianforum.de/forum/viewtopic.php?f=13&t=106348)

    wieder inconsistent filesystem structure (http://debianforum.de/forum/viewtopic.php?f=27&t=117186)

    smartd : Fatal or unknown error (http://debianforum.de/forum/viewtopic.php?f=13&t=103964)

    HD bootet langsam (http://debianforum.de/forum/viewtopic.php?f=12&t=42058)

    Von https://wiki.debianforum.de/wiki/?title=Festplattendiagnostik-_und_%C3%9Cberwachung&oldid=11947

    Kategorien: Andere Hardware Speichermedien Getestet

    Meine Werkzeuge

    Anmelden

    Diese Seite wurde zuletzt am 12. September 2014 um 10:01 Uhr gendert.

    Festplattendiagnostik- und berwachung DebianforumWiki https://wiki.debianforum.de/Festplattendiagnostik-_und_berwachung

    29 von 29 29.01.2015 21:19