Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von...

18
Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008

Transcript of Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von...

Page 1: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation

vonvon

Manuel Trittel

Informatik

HAW Hamburg

Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008

Page 2: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Einführung

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning

Einführung• Thema• Gesamtsystem der Anwendung• Themeneinordnung• Rahmenbedingungen

Reinforcement Learning• Definition Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

• Definition• Begriffe• Algorithmen

Methodisches Vorgehen

Risiken

Ausblick

Page 3: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Thema

Einsatz von Reinforcement Learningin der Modellfahrzeugnavigation

Konkreter Anwendungsfall:

Einführung

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. LearningKonkreter Anwendungsfall:

Ø Geschwindigkeitsregelung

Ø Geschwindigkeitsmaximierung= Zeitminimierung

Ø Einhaltung einer maximalen Zentripetalkraft

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 4: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Einführung

GesamtsystemGliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning

Videosequenz

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 5: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Themeneinordnung

Aktuelle FAUST-Themen in der Modellfahrzeugnavigation:

Ø Fahrspurerkennung (TFALDA)

Ø Steuerung

Einführung

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning

Ø Kartografie

Ø Ausweichen

Ø Einparken

Ø Überholen

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 6: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Rahmenbedingungen

Ø Vorhandene Regelungsalgorithmen

Ø Messung der ZentripetalkraftØ BeschleunigungssensorenØ Gyroskop

Einführung

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. LearningReinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 7: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Reinforcement Learning

Definition

Ø Lernsituationen beim Maschinellen LernenØ Überwachtes Lernen (supervised learning)Ø Unüberwachtes Lernen (unsupervised learning)Ø Bestärkendes Lernen (reinforcement learning)

Ø Trial-and-Error Prinzip

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. LearningØ Trial-and-Error Prinzip

Agent

Sensorik Aktorik

Umwelt

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 8: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Inhal - Gliederung

Begriffe

o s State Zustando a Action Aktiono r Reward Belohnung

o π Policy Strategie

Reinforcement Learning

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learningo π Policy Strategie

o Optimale Strategie Maximale Gesamt-Belohnung

oMarkov Decision Process (MDP)Grundlegende Theorie.Diskrete Zustandsraster mit Wahrscheinlichkeiten für Zustandsübergänge und Aktionen

oMarkov-EigenschaftWahrscheinlichkeitsverteilung eines Zustandsunabhängig von bisheriger Historie des Systems

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 9: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Inhalt - Gliederung

Algorithmen

Ø Temporal Difference Learning (TD-Learning)• Lernen ausschließlich durch Erfahrung (Monte Carlo Methode)• Anpassung der Bewertungen auf Basis vorheriger Werte (Dyn. Progr.)

Reinforcement Learning

25 50 25

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning

S Z10025 50

5025

25

100

50

25

25Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 10: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Inhalt - Gliederung

Exploration vs. Exploitation

Ø Was tun bei unbekannter UmweltØ Explore (dt. „erkunden“)

• Neue Wege ausprobieren

Ø Exploit (dt. „ausbeuten“)• Bisher Gelerntes optimal ausnutzen

Reinforcement Learning

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning• Bisher Gelerntes optimal ausnutzen

Ø Ansatz: ε – Greedy Suche• Mit Wahrscheinlichkeit ε zufällige Aktion wählen• Mit Wahrscheinlichkeit 1-ε beste gelernte Aktion• ε kontinuierlich verringern

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 11: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Inhalt - Gliederung

TD-Learning Verfahren

Ø Q-Learning• Off-Policy-Verfahren• Aktionsauswahl unabh. von zu optimierender Strategie

Ø SARSA

Reinforcement Learning

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. LearningØ SARSA• On-Policy-Verfahren• Zu optimierende Strategie auch zur Aktionsauswahl • Namensbildung aus st , ar , rt+1 , st+1 , at+1

• Lernraten• Einfluss neuer Erfahrungen beim Update der Policy

• Diskontierung• Einbeziehung möglicher zukünftiger Rewards• „Weitsichtigkeit“ des Agenten

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 12: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Methodisches Vorgehen

Ø Fahrzeug legt eine beliebige Strecke zurückGliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning

Ø Sensordaten bei konstanter Geschwindigkeit aufnehmen

langsam

Zeit

Kraft

schnell

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 13: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Ø Festlegung einer maximalen Zentripetalkraft

Methodisches Vorgehen

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning

Zeit

Kraft

v1

Ø Ausgleich kritischer Peaks

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Zeit

Kraft

v1v1-xv1

Page 14: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Methodisches Vorgehen

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning

Zeit

Kraft

Reduktion der Beschleunigungskraft

Mehrverbrauchan Zeit

Ø Funktionsapproximation mit Hilfe von• Radialen Basisfunktionen (RBF)• Kubischen Splines (KS)

Ø Fahrzeug bremst ab• Zentripetalkraft sinkt• Benötigte Zeit steigt

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 15: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Methodisches Vorgehen

Umsetzung in der Praxis

Ø Analyse der Eignung von RBF und KS

Ø Erstellen einer Simulation

Ø Portierung auf das Modellfahrzeug

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. LearningØ Portierung auf das Modellfahrzeug Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 16: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Risiken

Mögliche Problempunkte

Ø Abweichungen Raum-Zeit Korrelation• Wo befinde ich mich auf dem Kurs?• Korrekte Anpassung im Zeitbereich bei Ausgleich der Peaks

Ø Qualität der Sensordaten• Noch nie getestet (Einbau ins Fahrzeug folgt)

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning• Noch nie getestet (Einbau ins Fahrzeug folgt)

Ø Bestimmung der maximalen Zentripetalkräfte abhängig von• Bodenbeschaffenheit• Bodenhaftung (Reifenqualität)

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 17: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Ausblick

Weitere Anwendungsfälle

Ø Vom Kleinen zum Großen

Ø Selbst Erlernen der maximalen Zentripetalkraft

Ø Lenkwinkelregelung für optimale Kurvendurchfahrt

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. LearningReinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 18: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Vielen Dank für die Aufmerksamkeit!Vielen Dank für die Aufmerksamkeit!

Fragen?