Technologie voor zelfcontrole, analyse en rapportage
Self-Monitoring, Analysis, and Reporting Technology, oftewel S.M.A.R.T. is een systeem om harde schijven van computers in de gaten te houden om het risico van storingen te beperken. Het doet dit door de betrouwbaarheid van de harde schijven in de gaten te houden om te zien wanneer en waar een storing zou kunnen optreden.
Achtergrond
Storingen aan harde schijven vallen in twee categorieën uiteen:
- Voorspelbare storingen" treden over een langere periode op. Voorbeelden hiervan zijn mechanische slijtage of aantasting van het oppervlak van het opslagapparaat.
- Onvoorspelbare storingen treden plotseling op, op een onvoorziene manier. Voorbeelden hiervan zijn het falen van een elektronisch onderdeel, of een plotselinge mechanische storing, bijvoorbeeld door een slechte behandeling.
Voorspelbare storingen kunnen worden gedetecteerd door bepaalde bewakingsapparatuur. Dit is als een thermometer in een voertuig die de bestuurder kan waarschuwen om iets te doen voordat er ernstige schade ontstaat, bijvoorbeeld omdat de motor te heet is.
Ongeveer 60% van alle aandrijvingsfouten wordt veroorzaakt door falende mechanica. De meeste mechanische defecten zijn het gevolg van geleidelijke slijtage. Een uiteindelijk defect kan catastrofaal zijn. Voordat een volledig defect optreedt, zijn er meestal bepaalde tekenen dat er een defect op komst is. Deze kunnen zijn: verhoogde warmteafgifte, meer lawaai van de schijf, problemen met het lezen of schrijven van gegevens en een grote toename van het aantal beschadigde schijfsectoren.
Het doel van S.M.A.R.T. is een gebruiker of systeembeheerder te waarschuwen dat een schijf op het punt staat het te begeven. Op het moment van de waarschuwing is er meestal nog tijd om bepaalde dingen te doen om gegevensverlies te voorkomen, bijvoorbeeld het kopiëren van de gegevens naar een andere schijf. Ongeveer 30% van de storingen kan worden voorspeld door S.M.A.R.T. Werk bij Google aan meer dan 100.000 schijven heeft aangetoond dat de algemene voorspellende waarde van de S.M.A.R.T.-status als geheel gering is. De studie suggereert dat bepaalde subcategorieën van informatie die sommige S.M.A.R.T.-implementaties bijhouden wel correleren met daadwerkelijke uitvalpercentages. In de 60 dagen na de eerste scanfout op een schijf is de kans gemiddeld 39 keer groter dat de schijf het begeeft dan wanneer een dergelijke fout niet was opgetreden. Ook eerste fouten bij herallocaties, offline herallocaties en probational counts zijn sterk gecorreleerd met hogere faalkansen.
De pagina van PCTechGuide over S.M.A.R.T. merkte in 2003 op dat de technologie drie fasen had doorlopen:
" | In zijn oorspronkelijke vorm voorspelde SMART storingen door bepaalde online activiteiten van de harde schijf te controleren. Een latere versie verbeterde de voorspelling van storingen door een automatische off-line leesscan toe te voegen om extra activiteiten te controleren. De nieuwste SMART-technologie controleert niet alleen de activiteiten van de harde schijf, maar voegt daar storingspreventie aan toe door te proberen sectorfouten op te sporen en te herstellen. En terwijl eerdere versies van de technologie alleen de activiteit van de harde schijf controleerden voor gegevens die door het besturingssysteem werden opgehaald, test deze nieuwste SMART alle gegevens en alle sectoren van een schijf met behulp van "off-line gegevensverzameling" om de gezondheid van de schijf te bevestigen tijdens perioden van inactiviteit. | " |
Geschiedenis en voorgangers
De eerste bewakingstechnologie voor harde schijven werd in 1992 door IBM geïntroduceerd in hun IBM 9337 Disk Arrays voor AS/400-servers met IBM 0662 SCSI-2-schijven. Later werd deze technologie Predictive Failure Analysis (PFA) genoemd. De technologie meet verschillende belangrijke parameters voor de gezondheid van het apparaat en evalueert deze in de firmware van de schijf. De communicatie tussen de fysieke eenheid en de bewakingssoftware was beperkt tot een binair resultaat, namelijk "apparaat is in orde" of "schijf gaat waarschijnlijk binnenkort stuk".
Later werd een andere variant, IntelliSafe genaamd, ontwikkeld door computerfabrikant Compaq en schijfproducenten Seagate, Quantum en Conner. De schijfstations zouden de "gezondheidsparameters" van de schijf meten, en de waarden zouden worden doorgegeven aan het besturingssysteem en de software voor het bewaken van de gebruikersruimte. Elke leverancier van schijven kon zelf beslissen welke parameters voor bewaking in aanmerking kwamen en wat de drempelwaarden waren. De unificatie vond plaats op protocolniveau met de host.
Compaq legde hun implementatie begin 1995 voor aan het Small Form Committee voor standaardisatie. Het werd gesteund door IBM, door Compaq's ontwikkelingspartners Seagate, Quantum en Conner, en door Western Digital, die op dat moment nog geen systeem voor het voorspellen van storingen had. Het comité koos voor de aanpak van IntelliSafe, omdat die meer flexibiliteit bood. De resulterende gezamenlijk ontwikkelde standaard kreeg de naam S.M.A.R.T.
SMART Informatie
De technische documentatie voor SMART staat in de AT Attachment (ATA) standaard.
De meest elementaire informatie die SMART biedt is de SMART-status. Deze geeft slechts twee waarden: "drempel niet overschreden" en "drempel overschreden". Vaak worden deze weergegeven als respectievelijk "drive OK" of "drive fail". Een "threshold exceeded"-waarde is bedoeld om aan te geven dat er een relatief grote waarschijnlijkheid is dat de drive in de toekomst niet aan de specificaties zal kunnen voldoen - dat wil zeggen dat de drive "op het punt staat te falen". Het voorspelde falen kan catastrofaal zijn of iets zo subtiel als het onvermogen om naar bepaalde sectoren te schrijven, of misschien tragere prestaties dan het door de fabrikant opgegeven minimum.
De SMART-status geeft niet noodzakelijk de vroegere of huidige betrouwbaarheid van de schijf aan. Als een drive reeds catastrofaal heeft gefaald, kan de SMART-status ontoegankelijk zijn. Als een drive in het verleden problemen heeft gehad, maar de sensoren detecteren dergelijke problemen niet meer, kan de SMART-status, afhankelijk van de programmering van de fabrikant, suggereren dat de drive nu in orde is.
Het niet kunnen lezen van sommige sectoren is niet altijd een indicatie dat een schijf op het punt staat te falen. Eén manier waarop onleesbare sectoren kunnen ontstaan, zelfs als de schijf binnen de specificaties werkt, is door een plotselinge stroomstoring terwijl de schijf aan het schrijven is. Om dit probleem te voorkomen, schrijven moderne harde schijven altijd ten minste de huidige sector af zodra de stroom uitvalt (meestal met behulp van rotatie-energie van de schijf). Ook als de fysieke schijf op een bepaalde plaats beschadigd is, zodat een bepaalde sector onleesbaar is, kan de schijf in staat zijn om vrije ruimte te gebruiken om het slechte gebied te vervangen, zodat de sector kan worden overschreven.
Meer details over de gezondheid van de schijf kunnen worden verkregen door de SMART Attributen te onderzoeken. SMART Attributen werden opgenomen in sommige ontwerpen van de ATA-norm, maar werden verwijderd voordat de norm definitief werd. De betekenis en interpretatie van de attributen verschilt per fabrikant en wordt soms beschouwd als een handelsgeheim voor de ene of de andere fabrikant. De attributen worden hieronder verder besproken.
Schijven met SMART kunnen optioneel een aantal "logs" ondersteunen. Het foutenlogboek bevat informatie over de meest recente fouten die de schijf aan de hostcomputer heeft gemeld. Bestudering van dit log kan helpen bepalen of computerproblemen met de schijf te maken hebben of door iets anders worden veroorzaakt.
Een schijf die SMART ondersteunt kan optioneel een aantal zelftest- of onderhoudsroutines ondersteunen, en de resultaten van de tests worden bijgehouden in het zelftestlogboek. De zelftestroutines kunnen worden gebruikt om eventuele onleesbare sectoren op de schijf te detecteren, zodat deze kunnen worden hersteld vanaf back-upbronnen (bijvoorbeeld van andere schijven in een RAID). Dit helpt het risico van permanent verlies van gegevens te beperken.
Normen en uitvoering
Veel moederborden geven een waarschuwing wanneer een schijf bijna uitvalt. Hoewel dit bij de meeste grote fabrikanten van harde schijven een industriestandaard is, zijn er nog enkele problemen en veel eigen "geheime kennis" van individuele fabrikanten over hun specifieke aanpak.
Vanuit juridisch oogpunt verwijst de term "S.M.A.R.T." alleen naar een signaleringsmethode tussen de interne elektromechanische sensoren van de schijf en de hostcomputer. De fabrikant kan dus beweren dat een schijf S.M.A.R.T. ondersteunt, ook al bevat hij bijvoorbeeld geen temperatuursensor, waarvan de klant redelijkerwijs de aanwezigheid mag verwachten. In het meest extreme geval zou een fabrikant van schijven bovendien in theorie een schijf kunnen produceren met een sensor voor slechts één fysiek kenmerk, en het product dan legaal aanprijzen als "compatibel met S.M.A.R.T.".
Afhankelijk van het type interface dat wordt gebruikt, is het mogelijk dat sommige moederborden en bijbehorende software met S.M.A.R.T.-compatibele schijven niet communiceren. Er zijn bijvoorbeeld maar weinig externe schijven die via USB en Firewire zijn aangesloten en die via die interfaces correct S.M.A.R.T.-gegevens verzenden. Met zoveel manieren om een harde schijf aan te sluiten (SCSI, Fibre Channel, ATA, SATA, SAS, SSA, enzovoort) is het moeilijk te voorspellen of S.M.A.R.T.-rapporten correct zullen werken in een bepaald systeem.
Zelfs op harde schijven en interfaces die dit ondersteunen, wordt S.M.A.R.T.-informatie mogelijk niet correct gerapporteerd aan het besturingssysteem van de computer. Sommige schijfcontrollers kunnen alle schrijfbewerkingen op een secundaire "back-up" schijf in real time dupliceren. Deze functie staat bekend als "RAID mirroring". Veel programma's die zijn ontworpen om veranderingen in het gedrag van schijven te analyseren en S.M.A.R.T.-waarschuwingen aan de gebruiker door te geven, werken echter niet goed wanneer een computersysteem is geconfigureerd voor RAID-ondersteuning. In het algemeen komt dit doordat het RAID-subsysteem de computer onder normale operationele RAID-omstandigheden niet toestaat individuele fysieke schijven te "zien" (of er rechtstreeks toegang toe te hebben), maar alleen logische volumes kan openen.
Op het Windows-platform werken veel programma's die zijn ontworpen om S.M.A.R.T.-informatie te controleren en te rapporteren alleen onder een beheerdersaccount. Momenteel wordt S.M.A.R.T. individueel geïmplementeerd door fabrikanten, en terwijl sommige aspecten gestandaardiseerd zijn voor compatibiliteit, zijn andere dat niet.
ATA S.M.A.R.T. Attributen
Elke fabrikant van schijven definieert een reeks kenmerken en stelt drempelwaarden vast waarboven de kenmerken bij normale werking niet mogen worden gepasseerd. Elk kenmerk heeft een ruwe waarde, waarvan de betekenis volledig wordt bepaald door de fabrikant (maar die vaak overeenkomt met tellingen of een fysieke eenheid, zoals graden Celsius of seconden), en een genormaliseerde waarde, die varieert van 1 tot 253 (waarbij 1 staat voor het slechtste geval en 253 voor het beste). Afhankelijk van de fabrikant wordt vaak een waarde van 100 of 200 gekozen als "normale" waarde.
Fabrikanten die ten minste één S.M.A.R.T.-kenmerk in verschillende producten hebben ondersteund, zijn onder meer: Samsung, Seagate, IBM (Hitachi), Fujitsu, Maxtor, Toshiba, Western Digital en ExcelStor Technology.
Drempel overschrijdt voorwaarde
Threshold Exceeds Condition (TEC) is een veronderstelde datum waarop een kritisch statistisch kenmerk van de aandrijving zijn drempelwaarde zal bereiken. Wanneer de Drive Health-software een "Nearest T.E.C." meldt, moet dit worden beschouwd als een "Failure date".
De prognose van deze datum is gebaseerd op de factor "Snelheid van attribuutverandering"; hoeveel punten per maand de waarde afneemt/ toeneemt. Deze factor wordt automatisch berekend bij elke verandering van S.M.A.R.T.-attributen voor elk attribuut afzonderlijk. Merk op dat TEC-data geen garanties zijn; harde schijven kunnen en zullen veel langer meegaan of veel eerder defect raken dan de door een TEC opgegeven datum.