Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von...

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation

vonvon

Manuel Trittel

Informatik

HAW Hamburg

Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008

Einführung

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning

Einführung• Thema• Gesamtsystem der Anwendung• Themeneinordnung• Rahmenbedingungen

Reinforcement Learning• Definition Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

• Definition• Begriffe• Algorithmen

Methodisches Vorgehen

Risiken

Ausblick

Thema

Einsatz von Reinforcement Learningin der Modellfahrzeugnavigation

Konkreter Anwendungsfall:

Einführung

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. LearningKonkreter Anwendungsfall:

Ø Geschwindigkeitsregelung

Ø Geschwindigkeitsmaximierung= Zeitminimierung

Ø Einhaltung einer maximalen Zentripetalkraft

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Einführung

GesamtsystemGliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning

Videosequenz

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Themeneinordnung

Aktuelle FAUST-Themen in der Modellfahrzeugnavigation:

Ø Fahrspurerkennung (TFALDA)

Ø Steuerung

Einführung

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning

Ø Kartografie

Ø Ausweichen

Ø Einparken

Ø Überholen

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Rahmenbedingungen

Ø Vorhandene Regelungsalgorithmen

Ø Messung der ZentripetalkraftØ BeschleunigungssensorenØ Gyroskop

Einführung

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. LearningReinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Reinforcement Learning

Definition

Ø Lernsituationen beim Maschinellen LernenØ Überwachtes Lernen (supervised learning)Ø Unüberwachtes Lernen (unsupervised learning)Ø Bestärkendes Lernen (reinforcement learning)

Ø Trial-and-Error Prinzip

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. LearningØ Trial-and-Error Prinzip

Agent

Sensorik Aktorik

Umwelt

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Inhal - Gliederung

Begriffe

o s State Zustando a Action Aktiono r Reward Belohnung

o π Policy Strategie


Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learningo π Policy Strategie

o Optimale Strategie Maximale Gesamt-Belohnung

oMarkov Decision Process (MDP)Grundlegende Theorie.Diskrete Zustandsraster mit Wahrscheinlichkeiten für Zustandsübergänge und Aktionen

oMarkov-EigenschaftWahrscheinlichkeitsverteilung eines Zustandsunabhängig von bisheriger Historie des Systems

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Inhalt - Gliederung

Algorithmen

Ø Temporal Difference Learning (TD-Learning)• Lernen ausschließlich durch Erfahrung (Monte Carlo Methode)• Anpassung der Bewertungen auf Basis vorheriger Werte (Dyn. Progr.)


25 50 25

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning

S Z10025 50

5025

25

100

50

25

25Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Inhalt - Gliederung

Exploration vs. Exploitation

Ø Was tun bei unbekannter UmweltØ Explore (dt. „erkunden“)

• Neue Wege ausprobieren

Ø Exploit (dt. „ausbeuten“)• Bisher Gelerntes optimal ausnutzen


Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning• Bisher Gelerntes optimal ausnutzen

Ø Ansatz: ε – Greedy Suche• Mit Wahrscheinlichkeit ε zufällige Aktion wählen• Mit Wahrscheinlichkeit 1-ε beste gelernte Aktion• ε kontinuierlich verringern

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Inhalt - Gliederung

TD-Learning Verfahren

Ø Q-Learning• Off-Policy-Verfahren• Aktionsauswahl unabh. von zu optimierender Strategie

Ø SARSA


Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. LearningØ SARSA• On-Policy-Verfahren• Zu optimierende Strategie auch zur Aktionsauswahl • Namensbildung aus st , ar , rt+1 , st+1 , at+1

• Lernraten• Einfluss neuer Erfahrungen beim Update der Policy

• Diskontierung• Einbeziehung möglicher zukünftiger Rewards• „Weitsichtigkeit“ des Agenten

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick


Ø Fahrzeug legt eine beliebige Strecke zurückGliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning

Ø Sensordaten bei konstanter Geschwindigkeit aufnehmen

langsam

Zeit

Kraft

schnell

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Ø Festlegung einer maximalen Zentripetalkraft


Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning

Zeit

Kraft

v1

Ø Ausgleich kritischer Peaks

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Zeit

Kraft

v1v1-xv1


Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning

Zeit

Kraft

Reduktion der Beschleunigungskraft

Mehrverbrauchan Zeit

Ø Funktionsapproximation mit Hilfe von• Radialen Basisfunktionen (RBF)• Kubischen Splines (KS)

Ø Fahrzeug bremst ab• Zentripetalkraft sinkt• Benötigte Zeit steigt

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick


Umsetzung in der Praxis

Ø Analyse der Eignung von RBF und KS

Ø Erstellen einer Simulation

Ø Portierung auf das Modellfahrzeug

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. LearningØ Portierung auf das Modellfahrzeug Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Risiken

Mögliche Problempunkte

Ø Abweichungen Raum-Zeit Korrelation• Wo befinde ich mich auf dem Kurs?• Korrekte Anpassung im Zeitbereich bei Ausgleich der Peaks

Ø Qualität der Sensordaten• Noch nie getestet (Einbau ins Fahrzeug folgt)

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning• Noch nie getestet (Einbau ins Fahrzeug folgt)

Ø Bestimmung der maximalen Zentripetalkräfte abhängig von• Bodenbeschaffenheit• Bodenhaftung (Reifenqualität)

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Ausblick

Weitere Anwendungsfälle

Ø Vom Kleinen zum Großen

Ø Selbst Erlernen der maximalen Zentripetalkraft

Ø Lenkwinkelregelung für optimale Kurvendurchfahrt

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. LearningReinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Vielen Dank für die Aufmerksamkeit!Vielen Dank für die Aufmerksamkeit!

Fragen?

Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von...

Documents

Transcript of Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von...