Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory...

44
1 Zuverlässigkeit und Fehlertoleranz Einführung und Begriffsklärung M. Schölzel

Transcript of Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory...

Page 1: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

1

Zuverlässigkeit und Fehlertoleranz

Einführung und Begriffsklärung

M. Schölzel

Page 2: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Begriffe

Zuverlässigkeit Verlässlichkeit

Wartbarkeit

Sicherheit Fehlertoleranz

Verfügbarkeit

Fehler

Störung Ausfall

Fehlervermeidung

Fehlerbeseitigung

Page 3: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Verlässlichkeit

Zusammenfassender Ausdruck für viele Eigenschaften, die die Verlässlichkeit beeinflussen: Zuverlässigkeit

− Funktionsfähigkeit − Verfügbarkeit − Wartbarkeit

Sicherheit und Vertraulichkeit

3

Die Verlässlichkeit (Dependability) beschreibt den Grad der Vertrauenswürdigkeit in ein System, der aus nachvollziehbaren Gründen in den bereitgestellten Dienst des Systems

gesetzt werden kann.

Adaptiert von Jean-Claude Laprie: Dependable Computing and Fault Tolerance: Concepts and Terminology, 15th Fault Tolerant Computing Symposium, pp. 2-11,1985.

Nach DIN 40041 und IEC 191

Page 4: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Was beeinflusst die Verlässlichkeit?

Verlässlichkeit

Attribute

Verbesserungsmethoden

Bedrohungen

Zuverlässigkeit (Reliability)

Sicherheit (Safety + Security)

Vertraulichkeit (Confidentiality)

Wartbarkeit (Maintainability)

Fehlerbeseitigung

Fehlervorhersage

Fehlervermeidung

Fehlertoleranz

Fehler (Fault)

Störung (Error)

Ausfall (Failure)

Verfügbarkeit (Availability)

Kontinuität der Funktion

Page 5: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Unterschiedliche Attribute der Verlässlichkeit

Verlässlichkeit

Attribute

Verbesserungsmethoden

Bedrohungen

Zuverlässigkeit (Reliability)

Sicherheit (Safety + Security)

Vertraulichkeit (Confidentiality)

Wartbarkeit (Maintainability)

Fehlerbeseitigung

Fehlervorhersage

Fehlervermeidung

Fehlertoleranz

Fehler (Fault)

Störung (Error)

Ausfall (Failure)

Verfügbarkeit (Availability)

Kontinuität der Funktion

Page 6: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

6

Zuverlässigkeit (Reliability)

Die Zuverlässigkeit eines Systems ist eine Funktion der Zeit, R(t), die definiert ist als die bedingte Wahrscheinlichkeit, dass das System korrekt in dem Zeitintervall [t0,t] gearbeitet

hat, vorausgesetzt, es hat zum Zeitpunkt t0 korrekt gearbeitet.

Dient der Charakterisierung von Systemen, für die ein kurzer Ausfall nicht tolerierbar oder eine Reparatur nicht möglich ist. Beispiele: Sicherheitskritische Regelsysteme wie Systeme in der Luft- und Raumfahrt.

Page 7: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

7

Verfügbarkeit (Availability)

Verfügbarkeit (Availability): Ist eine Funktion A(t) von der Zeit, die die Wahrscheinlichkeit angibt, dass ein System zum Zeitpunkt t korrekt seine Funktion

ausführt.

Zuverlässigkeit bezieht sich auf einen Zeitintervall, Verfügbarkeit auf einen Zeitpunkt. Dient der Charakterisierung von Systemen, für die ein kurzer Ausfall tolerierbar ist und das System nach einem Ausfall repariert werden kann. Beispiele: Internetdienste, z.B. Flugbuchungssysteme, Bankportale.

Anmerkung: Ein System kann eine hohe Verfügbarkeit haben und trotzdem oft ausfallen; dann muss die Reparaturdauer aber sehr kurz sein.

Page 8: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

8

Wartbarkeit (Maintainability)

Wartbarkeit (Maintainability): Ist eine Funktion M(t), die angibt, mit welcher Wahrscheinlichkeit ein defektes System in der Zeit t repariert werden kann.

Dabei umfasst der Reparaturprozess: die Zeit zum lokalisieren des Fehlers, die Zeit zum Austausch der Komponente oder die Rekonfiguration, die Zeit, um das reparierte System in Betriebsbereitschaft zu versetzen.

Page 9: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

9

Sicherheit (Safety)

Sicherheit (Safety): Ist die Wahrscheinlichkeit S(t), dass ein System, das zum Zeitpunkt t0 korrekt funktionierte im Zeitintervall [t0,t] seine Funktion korrekt ausgeführt hat oder bei einem Ausfall in einen Fail-Safe Zustand übergegangen ist. Im Fail-Safe Zustand ist

abgesichert, dass das ausgefallene Systems die Operation anderer Systeme nicht stört.

Beispiele für Fail-Safe Zustand: Motoreinspritzsteuerung: Konstanter Zeitpunkt und konstante Kraftstoffmenge, ESP: Ausschalten.

Page 10: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Negative Einflüsse

Verlässlichkeit

Attribute

Verbesserungsmethoden

Bedrohungen

Zuverlässigkeit (Reliability)

Sicherheit (Safety + Security)

Vertraulichkeit (Confidentiality)

Wartbarkeit (Maintainability)

Fehlerbeseitigung

Fehlervorhersage

Fehlervermeidung

Fehlertoleranz

Fehler (Fault)

Störung (Error)

Ausfall (Failure)

Verfügbarkeit (Availability)

Kontinuität der Funktion

Page 11: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Hierarchisch aufgebautes System

Top-Level-System besteht aus Sub-Systemen

Jedes Sub-System kann aus weiteren Sub-Systemen aufgebaut sein

11

Memory (Software)

Processor

Memory (Software)

Processor

Processor Memory

(Software)

HW HW HW

global bus

Inte

rfac

e In

terf

ace

Beispiel

Eingabe

Ausgabe

Page 12: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Ausfall (Failure)

Korrektes Verhalten ist nicht das spezifizierte Verhalten

Dadurch schließt die Definition ein: − Ausfälle auf Grund von Fehlern in der Spezifikation − Ausfälle auf Grund nicht spezifizierter Zustände

12

Als Ausfall wird eine Situation bezeichnet, in der das beobachtbare Verhalten des Top-Level-Systems vom korrekten Verhalten abweicht.

Page 13: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Störung/Fehlerzustand (Error)

Eine Störung muss keinen Ausfall verursachen

Erkannte Störung: Störung wurde entdeckt und im System angezeigt

Latente Störung: Störung ist vorhanden, wurde aber noch nicht erkannt

13

Als Störung in einem System wird der Ausfall wenigstens eines seiner echten Sub-Systeme bezeichnet.

Page 14: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Fehler/Fehlerursache (Fault)

Lässt externe Ursachen (Ursachen, die sich außerhalb der Systemgrenzen befinden) zu

14

Ein Fehler ist die nachgewiesene oder vermutete Ursache einer Störung.

Ein Fehler ist ein physikalischer Defekt, eine Unvollkommenheit oder eine Schwachstelle innerhalb einer Hardware- oder Softwarekomponente des Systems.

Ein Fehler ist die Repräsentation einer physischen Vorbedingung, die die Ursache für ein Fehlverhalten der Schaltung sein kann.

Liegt innerhalb des Systems

Zusätzlicher Aspekt der Modellierung eines Fehlers in einem Modell des Systems Aktiver Fehler: Erzeugt eine Störung Ruhender Fehler: Voraussetzung für eine Störung ist da, Störung ist aber noch nicht

aufgetreten

Page 15: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

15

Zusammenhang

Fehler Störung Ausfall

Fehler Störung Ausfall

Fehler Störung Ausfall

Hier

arch

ie

Page 16: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

16

Fehler im Entwurfs- und Fertigungsprozess

Entwurfs- und Fertigungsprozess Nutzung des Systems

System- spezifikation

System- entwurf

Implementierung Hardware

Fertigung Hardware

Implementierung Software

Test/Verifikation Hardware

Test/Verifikation Software

Produktions- test

Spezifikations- fehler

Entwurfs- fehler

Implementierungs- fehler

Test-/Verifikations- fehler

Fertigungs- fehler

Verwendung

Test Escapes

Beispiel: ungeeignetes

Bussystem

Beispiel: falscher

Vergleich im Programm

Beispiel: Ein Programmpfad

wurde nicht getestet

Beispiel: unterbrochene

Leitung

Beispiel: Ein Fehler wird

durch die Testmuster nicht

aktiviert

Beispiel

Page 17: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Klassifikation

Einordnung bzgl. der Eigenschaften von 8 elementaren Klassen

Damit bis zu 256 verschiedene Fehlerarten

Nicht alle sinnvoll…

17

Elementary class Property Description

Fau

lts

Phase of creation or

occurrence

Development faults Occur during system

development

Operational faults Occur during operational phase

Dimension

Hardware faults originate in or affect hardware

Software faults affect software (program and

data)

Persistence Permanent faults Presence is continuous in time

Temporary faults Presence is bounded in time

System boundaries

Internal faults Originate inside system

boundaries

External faults Originate outside system

boundaries

Phenomenological

cause

Natural faults Caused by natural phenomena

Human-Made faults Result from human actions

Intent (Absicht) Deliberate faults Result of a harmful decision

Non-Deliberate faults Introduced without awareness

Capability

(Fähigkeit)

Accidental faults Introduced inadvertently

(Ausversehen)

Incompetence faults Result from lack of professional

competence

Objective (Ziel)

Malicious faults Introduced with objective of

causing harm

Non-Malicious faults Introduced without malicious

objectives

?

?

Page 18: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Persistenz

Temporäre Fehler: Nur für ein bestimmtes Zeitintervall vorhanden Können in dieser Zeit Störungen verursachen Fehler Verschwinden danach wieder; Störungen können ohne

weiteres Zutun evtl. zu Ausfällen führen Weitere Unterteilung in:

− Transiente Fehler: Typischerweise durch externe Einflüsse verursacht − Intermittierende Fehler: Treten in unregelmäßigen Abständen immer

wieder auf; Ursache sind oft nicht erkannt Fertigungsfehler oder Alterungsfehler

Permanente Fehler: Bleiben für immer im System bestehen Erzeugte Störungen sind reproduzierbar (wichtig für Test)

18

Page 19: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Natürliche Fehler

Natürliche Fehler sind Hardwarefehler, die ohne menschliche Interaktion entstanden sind: Herstellungsfehler Interne Fehler; z.B. durch Verschleiß/Alterung Externe Fehler; z.B. durch Umwelteinflüsse

19

Page 20: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

31 sinnvolle Kombinationen

20 Aus: A. Avizienis et. al.: "Basic Concepts and Taxonomy of Dependable and Secure Systems Computing". IEEE Transactions on Dependable and Secure Computing, Vol.1 Issue 1, 2004.

Herstellungsfehler

Alterung

Zufällige Fehler

Page 21: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Ursachen für zufällige Fehler

Partikel: Alpha-Teilchen Protonen Neutronen Elektrische Ursachen Elektromagnetische Interferenz Störung der Stromversorgung Strahlung (Röntgenstrahlung, Gammastrahlung) Wirkung: Akkumulativ Unmittelbar (Single Event Effects)

21

Page 22: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Single Event Effect (SEE)

Single-Event-Upset (SEU): Invertierter Wert einer Speicherzelle nicht destruktiv Single-Event-Transient (SET): Wirkt auf kombinatorische Logik nicht destruktiv Single-Event-Latchup (SEL): Betrifft Transistoren kann diese zerstören

22

Page 23: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Ursachen für SEE

Hoch energetische Neutronen werden in der Atmosphäre durch hoch energetische kosmische Strahlung erzeugt Treten unterhalb von 15km Höhe auf ca. 20 Neutronen mit mehr als 10 MeV pro cm² und Stunde auf

Meereshöhe Alpha Partikel entstehen durch Zerfallsprozesse: z.B. im Blei, das für Lötkontakte verwendet wird Strahlung aus dem Weltraum: 93% Protonen 6 % Alpha Partikel 1% Andere elektrisch geladene Teilchen

23

Page 24: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Physikalischer Mechanismus

Direkte Ionisierung: Alpha-Partikel erzeugen Elektronen/Löcher-Paare im Halbleiter Indirekte Ionisierung: Neutronen oder Protonen erzeugen beim Eindringen in den Halbleiter u.a. Alpha-Partikel Wirkung von Alpha-Partikeln: Erzeugen durch Ionisierung Elektronen/Löcher-Paare Elektrisches Feld im Bauelement trennt die erzeugten Ladungen Ansammlung von Elektronen bildet eine Ladung, die z.B. Speicherzustände in DRAM- oder SRAM-

Zellen ändern kann (SEU)

24

Substrat (p+)

n+

+

+ +

+ +

+ +

+ +

- -

-

-

-

-

-

-

- -

+ +

Substrat (p+)

n+

+

+ +

+ +

+ +

+ +

- -

- -

-

-

-

- -

-

+

+

Minoritätsträger aus der Verarmungsregion sammeln sich am

Knoten

Page 25: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

SEU in DRAM-Zelle

25

Word Line

Bit Line

Entladung der Speicherzelle möglich

Erzeugte Ladungsträger

Speicherzelle

Page 26: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Single Event Transient

Ladung erzeugt am Ausgang eines Logikgatters kurzzeitig einen falschen Wert Unproblematisch in sequentiellen Schaltungen, wenn der falsche Wert nicht in einem Register gespeichert wird: Zeitliche Maskierung

Logische Maskierung

26

FF ³1 D

clk

D

clk

falscher Wert wird

gespeichert

unkritisch

& ³1

0 FF

D

clk

1

Page 27: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Single Event Latchup

Hochenergetischer Partikel erzeugt freie Ladungsträger, in der Basis der parasitären pnp- bzw. npn-Transistoren.

Beide Transistoren werden leitend und führen zu einem Kurzschluss zwischen USS und UDD

Hoher Stromfluss erzeugt lokal Hitze, die die Schaltung dauerhaft zerstören kann

Spannungsversorgung muss rechtzeitig unterbrochen werden, um Funktionalität wieder herzustellen

27

Partikel

- - - - -

Page 28: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Akkumulative Wirkung

Ladungsträger sammeln sich in Oxidschicht zwischen Kanal und Gate

Die Folgen sind: − Schaltverhalten des Transistors ändert sich

(schaltet schneller an, später aus) − Verzögerungen beim Ausschalten

28

++++++++

Kanal

Gate Gate Oxid

Page 29: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Alterungserscheinungen

Degradierung: Negative Bias Temperature Instability (NBTI) Positive Bias Temperature Instability (PBTI) Hot Carrier Injection (HCI)

Destruktiv: Time Dependent Dielectric Breakdown (TDDB) Electromigration (EM)

29

Page 30: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

NBTI

Betrifft Gate-Oxid von PMOS Feldeffekttransistoren bei negativer Vorspannung des Gates (Stress)

Dadurch: Löcher wandern an die Grenze zwischen Kanal und Gate-Oxid.

Dort lösen sie die Bindung von Wasserstoff- und Siliziumatomen

Wasserstoffatome wandern in das Gate-Oxid und verursachen dort eine positive Ladung

Schwellspannung des Transistors ändert sich

Effekt ist teilweise reversibel

30

Vth

Zeit

Stre

ss

Ruhe

Ruhe

Ruhe

Stre

ss

Stre

ss

Si Si Si Si Si

H H H

Si Si Si Si Si

O O O O O

H+

Kanal

Gate-Oxide

Page 31: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

HCI

Betrifft NMOS Feldeffekttransistoren

Elektronen im Kanal werden stark durch elektrisches Feld beschleunigt

Durch Zusammenstöße mit gebundenen Elektronen werden Elektron/Loch-Paare erzeugt

Ladungsträger dringt in das Gate-Oxid ein

Ladungsträger sammeln sich im Gate-Oxid und verändern die Schwellspannung

Keine Regenerierung beobachtet

31

Si Si Si Si Si

H H H

Si Si Si Si Si

O O O O O

Kanal

Gate-Oxide

-

-

-

Page 32: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

TDDB Betrifft Gate-Oxid in Feldeffekttransistoren

Dünnes Gate Oxid (ca. 2 nm) ist hohen elektrischen Feldstärken ausgesetzt

Dadurch können Elektronen durch das Gate-Oxid tunneln und erzeugen weitere Störstellen (Traps)

Störstellen verringern den Widerstand und bilden eine leitende Verbindung zwischen Gate und Kanal

Transistor kann nicht mehr über Gate gesteuert werden

32

Gate

Kanal

Page 33: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

EM

Betrifft Leitungen und Verbindungen

Transport von Metallatomen durch starke elektrische Felder

Abriss einer Verbindung möglich

Ablagerung von transportiertem Metall kann Kurzschluss verursachen

33

Page 34: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Fertigungsfehler (1)

Verunreinigungen des Wafers Fehlende Kontakte oder Kurzschlüsse bei der Metallisierung

34

Page 35: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Fertigungsfehler (2)

Störstellen in Oxidschichten (Isolation Kanal/Gate) führen zu Kurzschlüssen oder vorzeitigem TDDB

Lithographieprobleme erzeugen Geometrieprobleme

Stochastische Effekte bei der Dotierung: − bei 40 nm Strukturgröße ca. 100 dotierte Atome im Kanal eines

Transistors − geringe Schwankungen führen bereits zu Veränderungen der

Schwellspannung − es entstehen Verzögerungsfehler

35

Page 36: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Aktuelle Problematik in Nano-Scaled CMOS

Random effects causing permanent faults: Random Dopant Fluctuations Line Edge Roughness Line Width Roughness Gate oxide variability and defects Systematic Faults: Design Flaws ...

Aging causes performance degradation and permanent faults: NBTI, PBTI, HCI, Gate Oxide Break Down, Metal Migration Temporal Effects causing permanent faults: Single Event Effects (Latch-Ups) Temporal Effects causing temporary faults Electromagnetic Interference Single Event Effects (SEU, SET, …)

Manufacturing-Phase Operational-Phase

Time

Failu

re ra

te

Infant mortality moves into

operational phase Aging

reduces life time

Reduced margins and temporal effects increase failure rate during useful

operational phase

Infant Mortality

Phase Useful Operational Phase

Wear Out Phase

Page 37: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Zusammenfassung

Große Vielfalt an physikalischen Effekten die physikalische Fehler erzeugen

Probleme: − Anwendung einer speziellen Methode zur Behandlung eines möglichen

Fehlers erfordert zu hohen Aufwand − Korrekte Modellierung aller möglichen realen Fehler nicht möglich

Daher: − Abstraktion von Fehlern durch Reduktion auf einige wesentliche

Eigenschaften − Entwicklung von Methoden zur Behandlung von Fehlern mit diesen

Eigenschaften

37

Page 38: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Was beeinflusst die Verlässlichkeit positiv?

Verlässlichkeit

Attribute

Verbesserungsmethoden

Bedrohungen

Zuverlässigkeit (Reliability)

Sicherheit (Safety + Security)

Vertraulichkeit (Confidentiality)

Wartbarkeit (Maintainability)

Fehlerbeseitigung

Fehlervorhersage

Fehlervermeidung

Fehlertoleranz

Fehler (Fault)

Störung (Error)

Ausfall (Failure)

Verfügbarkeit (Availability)

Kontinuität der Funktion

Page 39: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

39

Fehlervermeidung im Entwurfsprozess

Entwurfs- und Fertigungsprozess Nutzung des Systems

System- spezifikation

System- entwurf

Implementierung Hardware

Fertigung Hardware

Implementierung Software

Test/Verifikation Hardware

Test/Verifikation Software

Produktions- test

Spezifikations- fehler

Entwurfs- fehler

Implementierungs- fehler

Test-/Verifikations- fehler

Fertigungs- fehler

Verwendung

Test Escapes Bedienungsfehler, transiente Fehler,

Stress, Alterung Die Fehlervermeidung beschäftigt sich mit der Thematik, wie Fehler bereits beim Bau des Systems vermieden werden

können.

Beispiele: Spezifikationsreviews Regeln für den Entwurf eines Systems erstellen (z.B. ISO26262 im Automotivbereich, DO 178 für Avionic) Zwei Programmierer Reinraumregeln Wiederverwendung

Page 40: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

40

Fehlerbeseitigung im Entwurfsprozess

Entwurfs- und Fertigungsprozess Nutzung des Systems

System- spezifikation

System- entwurf

Implementierung Hardware

Fertigung Hardware

Implementierung Software

Test/Verifikation Hardware

Test/Verifikation Software

Produktions- test

Spezifikations- fehler

Entwurfs- fehler

Implementierungs- fehler

Test-/Verifikations- fehler

Fertigungs- fehler

Verwendung

Test Escapes Bedienungsfehler, transiente Fehler,

Stress, Alterung

Durch Fehlerbeseitigung wird versucht Störungen zu entdecken und zu beseitigen.

Beispiele: Simulation zur Beseitigung von Spezifikations- und Entwurfsfehlern. Testen und/oder Verifikation der Software und/oder Hardware zur Beseitigung von Implementierungsfehlern.

Page 41: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

41

Fehlertoleranz

Entwurfs- und Fertigungsprozess Nutzung des Systems

System- spezifikation

System- entwurf

Implementierung Hardware

Fertigung Hardware

Implementierung Software

Test/Verifikation Hardware

Test/Verifikation Software

Produktions- test

Spezifikations- fehler

Entwurfs- fehler

Implementierungs- fehler

Test-/Verifikations- fehler

Fertigungs- fehler

Verwendung

Test Escapes Bedienungsfehler, transiente Fehler,

Stress, Alterung

Fehlertoleranz bezeichnet die Eigenschaft eines Systems die ihm zugedachte Aufgabe auch dann weiterhin korrekt zu erfüllen, wenn Fehler vorliegen. Ein solches System wird dann auch fehlertolerantes

System genannt.

Beispiele: Rekonfiguration: Erkennung, Lokalisierung und Eliminierung einer defekten Komponente. Fehlermaskierung (z.B. TMR, Codes).

Page 42: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

42

Fehlervorhersage

Entwurfs- und Fertigungsprozess Nutzung des Systems

System- spezifikation

System- entwurf

Implementierung Hardware

Fertigung Hardware

Implementierung Software

Test/Verifikation Hardware

Test/Verifikation Software

Produktions- test

Spezifikations- fehler

Entwurfs- fehler

Implementierungs- fehler

Test-/Verifikations- fehler

Fertigungs- fehler

Verwendung

Test Escapes Bedienungsfehler, transiente Fehler,

Stress, Alterung

Fehlervorhersage: Anwenden empirischer und statistischer Mittel zur Vorhersage des Auftretens von Fehlern und deren Auswirkung. Quantifizierung durch Maße.

Page 43: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

Zusammenfassung

Fehler im Entwurfsprozess sind unvermeidbar: Maßnahmen zur Vermeidung Maßnahmen zur Erkennung und Beseitigung

Trotzdem: Ruhende Fehler verbleiben im System und werden im Feld

aktiv Weitere Fehler entstehen im Feld Lösung: Fehlertoleranz

43

Page 44: Zuverlässigkeit und Fehlertoleranz - uni-potsdam.de · Memory (Software) Processor Memory (Software) Processor . Processor . Memory (Software) HW HW HW . global bus Interface. Interface.

44

Beispiel Spezifikationsfehler

Quelle:

Zurück