Zuverlässigkeit und Fehlertoleranz - uni- · PDF file3 Die Zuverlässigkeit eines...

Click here to load reader

  • date post

    31-Aug-2019
  • Category

    Documents

  • view

    1
  • download

    0

Embed Size (px)

Transcript of Zuverlässigkeit und Fehlertoleranz - uni- · PDF file3 Die Zuverlässigkeit eines...

  • 1

    Zuverlssigkeit und Fehlertoleranz

    Zuverlssigkeitsmodellierung

    //upload.wikimedia.org/wikipedia/commons/b/b9/Universit%C3%A4t_Potsdam_logo.svg
  • Einordnung

    Verlsslichkeit

    Attribute

    Verbesserungsmethoden

    Bedrohungen

    Zuverlssigkeit (Reliability)

    Sicherheit (Safety + Security)

    Vertraulichkeit (Confidentiality)

    Wartbarkeit (Maintainability)

    Fehlerbeseitigung

    Fehlervorhersage

    Fehlervermeidung

    Fehlertoleranz

    Fehler (Fault)

    Strung (Error)

    Ausfall (Failure)

    Verfgbarkeit (Availability)

    Kontinuitt der Funktion

    //upload.wikimedia.org/wikipedia/commons/b/b9/Universit%C3%A4t_Potsdam_logo.svg
  • Zuverlssigkeit (Reliability)

    Empirische Ermittlung: N Systeme sind fehlerfrei bei t0 = 0

    C(t) Anzahl funktionierender Systeme zum

    Zeitpunkt t

    F(t) Anzahl fehlerhafter Systeme zum Zeitpunkt t

    N = C(t) + F(t) mit F(0) = 0 Gesamtanzahl der Systeme

    Es gilt:

    3

    Die Zuverlssigkeit eines Systems ist eine Funktion der Zeit, R(t), mit R: , die definiert ist als die bedingte Wahrscheinlichkeit, dass das System korrekt in dem

    Zeitintervall [0,t] gearbeitet hat, vorausgesetzt, es hat zum Zeitpunkt 0 korrekt gearbeitet.

    ( ) ( )( )

    C t N F tR t

    N N Zeit t

    C(t)

    1.0

    00

    .00

    0

    t1 9

    99

    .90

    0

    t2

    99

    9.8

    00

    t3

    99

    9.7

    00

    t4

    99

    9.6

    00

    t100

    99

    0.0

    00

    N

    t5 t0 (1)

    //upload.wikimedia.org/wikipedia/commons/b/b9/Universit%C3%A4t_Potsdam_logo.svg
  • Mittlere Zeit bis zu einem Fehler (MTTF)

    Empirische Ermittlung: N Gesamtanzahl der betrachteten Systeme

    ti Zeit bis zum Ausfall von System i

    TRTN Total Run Time aller Systeme

    4

    MTTF ist die erwartete mittlere Zeit bis zum Ausfall eines Systems.

    1

    :N

    N ii

    TRT t1

    :N

    N iN

    i

    TRT tMTTF

    N N(2) (3)

    //upload.wikimedia.org/wikipedia/commons/b/b9/Universit%C3%A4t_Potsdam_logo.svg
  • (4)

    Zusammenhang R(t) und MTTF (1)

    Annahme: t0 = 0

    Ausfallzeitpunkte t1,,tN sind aufsteigend sortiert; d.h.: ti < ti+1

    Anzahl korrekt funktionierender Systeme im Zeitintervall [ti,ti+1) ist C(ti)

    Gesamtlaufzeit der funktionierenden Systeme im Zeitintervall [ti,ti+1) ist (ti+1 ti) C(ti)

    TRTN kann damit auch definiert werden durch Summieren der Gesamtlaufzeiten in allen Zeitintervallen:

    5

    1

    10

    : ( ) ( )N

    N i i ii

    TRT t t C t

    //upload.wikimedia.org/wikipedia/commons/b/b9/Universit%C3%A4t_Potsdam_logo.svg
  • Umstellen von Formel (1) ergibt:

    Einsetzen von (5) in Formel (4) ergibt:

    Einsetzen von (6) in Formel (3):

    Fr sehr kleine Zeitintervalle (ti+1 ti) und N folgt:

    (5)

    Zusammenhang R(t) und MTTF (2)

    6

    1 1

    1 11 1

    : ( ) ( ) ( ) ( )N N

    N i i i i i ii i

    TRT t t R t N N t t R t

    ( )( ) ( ) ( )

    C tR t C t R t N

    N

    1

    11

    : ( ) ( )N

    NN i i i

    i

    TRTMTTF t t R t

    N

    0

    : ( )MTTF R t dt

    (6)

    (7)

    (8)

    //upload.wikimedia.org/wikipedia/commons/b/b9/Universit%C3%A4t_Potsdam_logo.svg
  • Beispiel

    7

    0

    0,1

    0,2

    0,3

    0,4

    0,5

    0,6

    0,7

    0,8

    0,9

    1

    0 1 2 3 4 5 6 7 8 9

    10

    11

    12

    13

    14

    15

    16

    17

    18

    19

    20

    21

    22

    Rel

    iabi

    lity

    R(t

    )

    Time t

    RA(t)

    RB(t)

    System A System B

    Zuverlssigkeit

    MTTF

    0.1( ) tAR t e 2 0.1 3 0.1( ) 3 2t t

    BR t e e

    0.1

    0

    10tA

    MTTF e dt 2 0.1 3 0.1

    0

    3 2 8,3t tB

    MTTF e e dt

    //upload.wikimedia.org/wikipedia/commons/b/b9/Universit%C3%A4t_Potsdam_logo.svg
  • Reliability Improvement Factor (RIF)

    RIF wird bestimmt fr eine fest vorgegebene Missionszeit T

    Verglichen werden zwei Systeme A und B RA(T) ist Zuverlssigkeit des Systems A zum Zeitpunkt T

    RB(T) ist Zuverlssigkeit des Systems B zum Zeitpunkt T

    RIF > 1, dann ist System B zum Zeitpunkt T zuverlssiger als System A

    8

    1 ( )

    1 ( )A

    B

    R TRIF

    R T

    0

    0,1

    0,2

    0,3

    0,4

    0,5

    0,6

    0,7

    0,8

    0,9

    1

    0 1 2 3 4 5 6 7 8 9 1 0

    1 1

    1 2

    1 3

    1 4

    1 5

    1 6

    1 7

    1 8

    1 9

    2 0

    2 1

    2 2

    R e l i a b i l i t y R ( t )

    Time t

    T

    RA(T)

    RB(T)

    //upload.wikimedia.org/wikipedia/commons/b/b9/Universit%C3%A4t_Potsdam_logo.svg
  • Mission Time Improvement Factor

    MTIF wird bestimmt fr eine fest vorgegebene Zuverlssigkeit R

    Verglichen werden zwei Systeme A und B bzgl. der Zeit zu der sie die

    Zuverlssigkeit R besitzen TA ist Zeitpunkt mit RA(TA) = R TB ist Zeitpunkt mit RB(TB) = R

    MTIF > 1, dann sinkt Zuverlssigkeit von B spter auf den Wert R ab, als die

    Zuverlssigkeit von A

    9

    B

    A

    TMTIF

    T

    0

    0,1

    0,2

    0,3

    0,4

    0,5

    0,6

    0,7

    0,8

    0,9

    1

    0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

    Rel

    iabi

    lity

    R(t

    )

    Time t

    RA(t)

    RB(t)

    R

    TA TB

    //upload.wikimedia.org/wikipedia/commons/b/b9/Universit%C3%A4t_Potsdam_logo.svg
  • Fehlerrate z(t)

    Bisher: Zuverlssigkeit auf Basis empirischer Beobachtung definiert

    Jetzt: Modellierung der Zuverlssigkeit mittels Fehlerrate

    Bekannt:

    nderung der Anzahl fehlerhafter Systeme:

    In Relation zur Anzahl funktionierender Systeme:

    10

    ( ) ( ) ( ) ( )( ) 1

    C t N F t N F t F tR t

    N N N N N

    0

    ( ) ( ) ( )limh

    dF t F t h F t

    dt h

    1 ( )( )

    ( )

    dF tz t

    C t dtZeit

    C(t)

    1.0

    00

    .00

    0

    t1

    99

    9.9

    00

    t2 9

    99

    .80

    0

    t3 9

    99

    .70

    0

    t4

    99

    9.6

    00

    t100

    99

    0.0

    00

    Anzahl der Systeme, die im Zeitintervall [ti, ti+1) ausgefallen

    sind.

    t5 t6 t0

    //upload.wikimedia.org/wikipedia/commons/b/b9/Universit%C3%A4t_Potsdam_logo.svg
  • Zusammenhang Zuverlssigkeit und Fehlerrate

    Differenzieren beider Seiten von

    ergibt:

    Ersetzen von dF(t)/dt in Funktion z(t) ergibt

    Allgemeine Lsung der entstehenden Differenzialgleichung fr R(0) = 1 ergibt:

    11

    ( ) ( ) ( ) ( )( ) 1

    C t N F t N F t F tR t

    N N N N N

    ( )1

    ( ) 1 ( )

    F td

    NdR t dF t

    dt dt N dt

    ( ) ( )dR t dF t

    Ndt dt

    ( )( )

    ( )

    N dR tz t

    C t dt

    1

    ( ) ( )

    N

    R t C t

    1 ( )( )

    ( ) ( )

    dR tz t

    R t d t

    ( )( ) ( )

    ( )

    dR tR t z t

    d t( )

    ( )z t dt

    R t e

    1 ( )( )

    ( )

    dF tz t

    C t dt

    //upload.wikimedia.org/wikipedia/commons/b/b9/Universit%C3%A4t_Potsdam_logo.svg
  • Zuverlssigkeit fr typische Fehlerraten

    Konstante Fehlerrate (Ausfallzeiten haben eine Exponentialverteilung):

    Steigende ( > 1)/fallende Fehlerrate ( < 1) (mit Weibull-Verteilung):

    12

    ( ) tR t e

    1MTTF

    ( ) tR t e

    ( )z t t

    ( ) , wobei z t

    1

    11

    0

    ( ), wobei ( ) : x yMTTF x y e dy

    //upload.wikimedia.org/wikipedia/commons/b/b9/Universit%C3%A4t_Potsdam_logo.svg
  • Beispiel

    //upload.wikimedia.org/wikipedia/commons/b/b9/Universit%C3%A4t_Potsdam_logo.svg
  • Modellierung der Fehlerrate

    bliche Einheit der Ausfallrate ist FIT (Failure in Time): 1 FIT = 1 Ausfall in 109 Betriebsstunden

    Bestimmung der Ausfallrate mit dem Arrhenius-Modell (Modell fr die chemische Reaktionsrate):

    mit T ist Temperatur in Kelvin k = 8,6 x 10-5

    Ea = 0,8 eV fr Oxide/Dielectric Breakdown Ea = 0,5 0,7 eV fr Elektromigration Ea = -0,2 eV fr Hot-carrier Degradation

    nicht alle Fehler lassen sich so modellieren: Fertigungsfehler, transiente

    Fehler

    1 AE

    kTc eMTTF

    //upload.wikimedia.org/wikipedia/commons/b/b9/Universit%C3%A4t_Potsdam_logo.svg
  • Anwendung der Arrehnius-Gleichung

    Beschleunigte Alterungsexperimente zur Bestimmung der Lebensdauer

    Empirisch wird bei erhhter Temperatur ein Alterungsexperiment durchgefhrt

    Beispiel Beobachtung von 8 Ausfllen bei 900 Chips ber 1000 Stunden bei T1 =

    100C = 373,15 K

    Ausfallrate 1: 8/(900 * 1000) = 8,9 x 10-6

    Bei T2 = 30 C = 303,15 K gilt dann fr k = 8,6 x 10-5 und Ea = 1 eV

    Damit ist Ausfallrate 2 = 8,9 x 10-6 / 1333 = 6,67 x 10-9 = 6,67 FIT

    1

    2

    1

    2

    A

    A

    E

    kT

    E

    kT

    c e

    c e

    1 21

    2

    1333A AE E

    kT kTe

    //upload.wikimedia.org/wikipedia/commons/b/b9/Universit%C3%A4t_Potsdam_logo.svg
  • Bestimmung der Zuverlssigkeit fehlertoleranter Systeme

    Annahme: Fehlertolerantes System s ist aus mehreren Komponenten c1,,ck aufgebaut

    Fr jede Komponente ci ist Zuverlssigkeit Rci(t) bekannt

    Ziel: Bestimmung der Zuverlssigkeit Rs(t)

    Bestimmung durch Kombinatorische Modelle: (Systemzustnde nur implizit vorhanden)

    Zustandsbasierte Modelle: Modellieren Gesamtzustand des Systems explizit und