Recovery-Oriented Computing

Click here to load reader

download Recovery-Oriented Computing

of 30

  • date post

    03-Jan-2016
  • Category

    Documents

  • view

    35
  • download

    0

Embed Size (px)

description

Recovery-Oriented Computing. Aspekte und Werkzeuge der Datenbankadministration und deren Automatisierung. Mario Eckhardt. Einleitung Motivation Ziele des Recovery-Oriented Computing Peres` Gesetz Techniken des Recovery-Oriented Computing Redundanz und Isolation Rekursive Neustarts - PowerPoint PPT Presentation

Transcript of Recovery-Oriented Computing

  • Recovery-OrientedComputingMario EckhardtAspekte und Werkzeuge der Datenbankadministration und deren Automatisierung

  • EinleitungMotivationZiele des Recovery-Oriented ComputingPeres` GesetzTechniken des Recovery-Oriented ComputingRedundanz und Isolation Rekursive Neustarts Selbsttest und Verifikation im laufenden Betrieb Untersttzung zur ProblemdiagnoseReversible SystemeROC in Forschungs- und AnwendungssystemenROC-Techniken in DBMSMercury Satellitensystem PinpointROC-1: ROC auf HardwareebeneUndofhiges E-mail-SystemZusammenfassung

  • EinleitungMotivationZiele des Recovery-Oriented ComputingPeres` GesetzTechniken des Recovery-Oriented ComputingRedundanz und Isolation Rekursive Neustarts Selbsttest und Verifikation im laufenden Betrieb Untersttzung zur ProblemdiagnoseReversible SystemeROC in Forschungs- und AnwendungssystemenROC-Techniken in DBMSMercury Satellitensystem PinpointROC-1: ROC auf HardwareebeneUndofhiges E-mail-SystemZusammenfassung

  • Motivation Downtime Kosten (pro Stunde)Brokerage operations$6,450,000 Credit card authorization$2,600,000 Ebay$225,000 Amazon.com$180,000 Package shipping services$150,000 Home shopping channel$113,000 Catalog sales center$90,000 Airline reservation center$89,000 Quellen: T. Sweeney. No Time for DOWNTIME IT Managers feel the heat to prevent outages that can cost millions of dollars. Internet Week, n. 807, 3 April 2000Kembel, R. Fibre Channel: A Comprehensive Introduction, p.8, 2000.

  • MotivationMTTF______MTBFMTTF____________MTTF + MTTRMTTFMTTRMTBFMTBF: Mean Time between Failure MTTF: Mean Time to Failure MTTR: Mean Time to Repair ==VerfgbarkeitFehlerFehlerVerfgbarDowntime?> 99.999%

  • Fehler sind unvermeidbarWachsende Komplexitt und zunehmende Verknpfungen in modernen SystemenZeitdruck durch rasche Innovationen, kurze Entwicklungs- und TestzeitenZwang zur KostenreduktionSkaleneffektIrren ist menschlich

  • Ironie der AutomationAutomation kein Gegenmittel bei menschlichen FehlernAnforderung an Fehlerfreiheit vom Operator zum Programmierer verschobenAutomatisierte Systeme vermeiden Interaktion mit OperatorWeiterhin manuelle Bearbeitung komplexer, seltener AufgabenOperator berfordert, wegen fehlender Praxis im komplexen System

  • Ziele des ROCMTTF______MTBFMTTF____________MTTF + MTTR==VerfgbarkeitMTTRVerfgbarkeit steigern durch Verkrzung der durchschnittlichen Reparaturdauer

    Total Costs of Ownership (Kosten fr Anschaffung und laufenden Betrieb) verringern

  • If a problem has no solution, it may not be a problem, but a fact, not to be solved, but to be coped with over time

    Shimon Peres

  • Konsequenz aus Peres` GesetzFehler als Fakten akzeptierenMentalitt fr Fehlerbehebung statt FehlervermeidungEntwicklung von Techniken zur schnelleren Fehlererkennung und -behebung, um Fehlern gewachsen zu sein

    If a problem has no solution, it may not be a problem, but a fact, not to be solved, but to be coped with over time

  • EinleitungMotivationZiele des Recovery-Oriented ComputingPeres` GesetzTechniken des Recovery-Oriented ComputingRedundanz und Isolation Rekursive Neustarts Selbsttest und Verifikation im laufenden Betrieb Untersttzung zur ProblemdiagnoseReversible SystemeROC in Forschungs- und AnwendungssystemenROC-Techniken in DBMSMercury Satellitensystem PinpointROC-1: ROC auf HardwareebeneUndofhiges E-mail-SystemZusammenfassung

  • Redundanz und IsolationRedundanzZustzliche Software- und Hardwarekomponenten, sowie zustzliche Verbindungen zwischen den KomponentenDatenkopienVermeidung eines single point of failure

  • Redundanz und IsolationIsolationPartitionierung im System, mehrere Komponenten bilden Partition Partitionen beeinflussen sich nicht untereinanderFehler auf Partition begrenzen, Verbreitung verhindernInkrementeller Systemupgrade, Komponentenaustausch ohne System herunterzufahren, Trainings- und Testsystem auf eigener Partition

  • Rekursive NeustartsVorteile von Neustarts:Behebung von HeisenbugsRckfhrung in bekannten und ausgiebig getesteten Zustand Vorteile von Neustarts auf mehreren Ebenen (Rekursive Neustarts), feine Partitionierung vorausgesetzt:Erhhte FehlertoleranzVerringerung der MTTR des SystemsZwei Anstze:Wiederbelebung: Neustart fehlerhafter KomponentenVerjngung: prophylaktischer Neustart funktionierender Komponenten

  • Selbsttest und Verifikation im laufenden Betrieb Erkennen latenter Soft- und HardwarefehlerTest der Fehlerbehandlungs- und RecoveryprozedurenTest der konkreten Zusammenstellung von Anwendungen, Betriebssystem, Treibern und Hardware beim Benutzer vor Ort Fehlerinjektion zur Operatorschulung

  • Untersttzung zur ProblemdiagnoseFehler nicht verbergenInterfaces fr Fehlerberichte an allen Komponenten Fehlerinformationen im ganzen System bekannt machenLogging von FehlernFrherkennung von FehlernUntersttzung der Fehleranalyse ex post

  • Reversible SystemeUmsetzung des Undo-Konzepts auf SystemebeneUntersttzung menschlichen Vorgehens bei FehlerbehebungTrial & ErrorRetroaktive Reparatur (3R Undo)

  • 3R Undo: Rewind, Repair, ReplayRewindSystemzustand (Benutzer-, Anwendungs- und Betriebssystemdaten) auf frheren Zeitpunkt zurcksetzenRepairnderungen am System durch den Operator oder Unterlassen einer AktionReplayUndo-System fhrt alle Endbenutzer-Interaktionen, im bersprungenen Zeitraum, nochmals aus

  • 3R Undo: Rewind, Repair, ReplayTrackingErfassung der Intention bei Benutzerinteraktionen, kein Tracking der Reparaturschritte ber verbenbasierte ProtokolleExterne InkonsistenzenKompensationUndo ber Systemgrenzen ausdehnenIgnorierenFeingliederung des UndoVerschiedene ZeitlinienAbhngigkeiten zwischen zu trackenden Daten (shared state)

  • 3R Undo SystemarchitekturUndo ProxyUserUndo ManagerControl UITimeline LogTime-travel StorageService Application user state application OSverbscontrolVerben-FlussVerbenfluss beim Replay

  • Aktueller Forschungs- und EntwicklungsstandPrototypen auf Soft- und HardwareebeneViele Anstze mit Teilen der ROC-Philosophie bereits existentWeitere anwendungsbezogene Forschung ntigErfolg von recovery-oriented Soft- und Hardware auf dem Markt bleibt abzuwarten

  • EinleitungMotivationZiele des Recovery-Oriented ComputingPeres` GesetzTechniken des Recovery-Oriented ComputingRedundanz und Isolation Rekursive Neustarts Selbsttest und Verifikation im laufenden Betrieb Untersttzung zur ProblemdiagnoseReversible SystemeROC in Forschungs- und AnwendungssystemenROC-Techniken in DBMSMercury Satellitensystem PinpointROC-1: ROC auf HardwareebeneUndofhiges E-mail-SystemZusammenfassung

  • ROC-Techniken in DBMSTransaktionen mit ACID-EigenschaftenLoggingSicherungspunkteBackups

  • Mercury SatellitensystemBodenstation der Universitt von Stanford zur Kommunikation mit Forschungssatelliten COTS-Technologie (commercial off-the-shelf), Programmiersprache Java, jede Komponente luft in eigener Java Virtual MachineArchitektur:

    fedrcomsesstrrtumbusRECFDCommunication (TCP/IP)Fehlererkennung(liveness pings)Neustarts

  • PinpointAnwendungsbereich: groe komplexe dynamische SystemeZwei automatisierte PhasenLive TracingData Clustering

  • ROC-1: ROC auf HardwareebeneHoch verfgbares Clustersystem fr Internet Server AnwendungenAufbau:64 Knoten (bricks)Pentium-II-Mobile-Prozessor (266MHz)18 GB Festplatte256 MB fehler korrigierendes DRAM4 redundante 100 Mb/s-Netzwerkkarten18MHz-Motorola-Diagnoseprozessor16 First-Level-Switches2 Gigabit-Switches

  • ROC-1: ROC auf HardwareebeneHheres Prozessor/Festplatte-VerhltnisDiagnose SubsystemAngewandte ROC-Techniken:Redundanz und IsolationSelbsttest und Verifikation im laufenden Betrieb Untersttzung zur ProblemdiagnoseDesign fr Interaktion mit Mensch

  • Undo-fhiges E-mail-SystemPrototyp der Universitt von BerkeleySMTP und erweitertes IMAP-ProtokollOverheadGeringfgig lngere SessionsZustzlicher SpeicherbedarfPerformanceRewind: etwa 590 Sekunden fr System mit 10000 BenutzernReplay: 8,8 Verben pro Sekunde

  • EinleitungMotivationZiele des Recovery-Oriented ComputingPeres` GesetzTechniken des Recovery-Oriented ComputingRedundanz und Isolation Rekursive Neustarts Selbsttest und Verifikation im laufenden Betrieb Untersttzung zur ProblemdiagnoseReversible SystemeROC in Forschungs- und AnwendungssystemenROC-Techniken in DBMSMercury Satellitensystem PinpointROC-1: ROC auf HardwareebeneUndofhiges E-mail-SystemZusammenfassung

  • ZusammenfassungIntegration des Menschen in den Recovery-Prozess?ROC als neuer Grundsatz fr die Entwicklung von Anwendungssystemen?Schnelle Reparatur (k)ein Freibrief fr fehlerhafte Software?