INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR...

19
1 Tobias Schindler 04.07.2019 INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME Reinforcement Learning Tobias Schindler Technische Hochschule Nürnberg

Transcript of INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR...

Page 1: INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME Reinforcement Learning Tobias Schindler Technische Hochschule

1Tobias Schindler04.07.2019

INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME

Reinforcement Learning

Tobias SchindlerTechnische Hochschule Nürnberg

Page 2: INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME Reinforcement Learning Tobias Schindler Technische Hochschule

2Tobias Schindler04.07.2019

Gliederung

• Künstliche Intelligenz

• Grundlagen: Reinforcement Learning

• Einsatzmöglichkeiten

• Fallstudie: Kompensation Drehzahlrippel

• Fazit

Page 3: INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME Reinforcement Learning Tobias Schindler Technische Hochschule

3Tobias Schindler04.07.2019

Künstliche Intelligenz

• Künstliche Intelligenz (KI) als Schlagwort omnipräsent

• Definition KI-Strategie:

• „Eine einzige allgemeingültige bzw. von allen Akteuren konsistent genutzte Definition von Künstlicher Intelligenz (KI) gibt es nicht.“

• „Die „schwache“ KI ist fokussiert auf die Lösung konkreter Anwendungsprobleme auf Basis der Methoden aus der Mathematik und Informatik, wobei die entwickelten Systeme zur Selbstoptimierung fähig sind.“

• „Deduktionssysteme“

• „Wissensbasierte Systeme“

• „Maschinelles Lernen“

[https://www.ki-strategie-deutschland.de/home.html]

Page 4: INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME Reinforcement Learning Tobias Schindler Technische Hochschule

4Tobias Schindler04.07.2019

Künstliche Intelligenz

• Literatur: Standardwerk „ Artificial Intelligence – A Modern Approach”

• “The main unifying theme is the idea of an intelligent agent.”

• “We define AI as the study of agents that receive percepts from the environment and perform actions.”

• “Each such agent implements a function that maps percept sequences to actions […]”

Entscheidungsfindung: Welche Aktion in welchem Zustand?

[Artificial Intelligence – A Modern Approach, 3. Edition, Stuart J. Russel, Peter Norvig]

Page 5: INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME Reinforcement Learning Tobias Schindler Technische Hochschule

5Tobias Schindler04.07.2019

GrundlagenReinforcement Learning

• Software-Agent interagiert mit Umgebung

• Agent wählt eine Aktion

• Bewertet anhand einer „Belohnung“ („Reward“) die Aktion

• Passt zukünftige Aktionen an

Erlernt eine möglichst ideale Handlungsstrategie („Policy“)

Aktionen müssen in der Umgebung „ausprobiert“ werden

[Reinforcement Learning: An Introduction, Richard S. Sutton, Andrew Barto]

Page 6: INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME Reinforcement Learning Tobias Schindler Technische Hochschule

6Tobias Schindler04.07.2019

GrundlagenEinordnung im Themenfeld KI

Künstliche Intelligenz

Wissensbasierte SystemeDeduktionssysteme

Maschinelles Lernen

Supervised Learning

ValueFunction

Policy Optimization

Q-Learning

SARSA

DQN

TRPO

Policy Gradient

Reinforcement Learning

Unsupervised Learning

Page 7: INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME Reinforcement Learning Tobias Schindler Technische Hochschule

7Tobias Schindler04.07.2019

GrundlagenDeep Reinforcement Learning

• Playing Atari with Deep Reinforcement Learning [Mnih et al., 2013, 2015]

• Deep Q-Networks (DQN)

• Erneute Popularisierung von Reinforcement Learning

• Kernideen:

• Value Function als Convoluted Neural Network (CNN) approximiert

• Target Network

• Experience Replay

Page 8: INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME Reinforcement Learning Tobias Schindler Technische Hochschule

8Tobias Schindler04.07.2019

GrundlagenKlassische Algorithmen

• Klassische Varianten der Algorithmen zur Verständnisbildung

• „Deep“: Mehr Komplexität, mehr Dimensionen

• DQN: Zahlreiche Maßnahmen Welche wirkt wie?

• A Deeper Look at Experience Replay [Zhang, Sutton, 2018]:

• Experience Replay: Speichert Aktionen, Zustände und Rewards

• Lernt durch zufällige Auswahl der gespeicherten Daten

• Untersucht Experience Replay u. a. durch tabellenbasiertes Q-Learning

Page 9: INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME Reinforcement Learning Tobias Schindler Technische Hochschule

9Tobias Schindler04.07.2019

GrundlagenQ-Learning

• Zustände S und Aktionen A

• Q-Function Q(S,A) als Tabelle dargestellt („Quality“)

• Abhängig von 3 Hyperparametern

• Explorationsstrategie: 𝜖𝜖 − 𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔

Mit Wahrscheinlichkeit 𝜖𝜖 wird eine zufällige Aktion gewählt

[Reinforcement Learning: An Introduction, Richard S. Sutton, Andrew Barto]

Page 10: INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME Reinforcement Learning Tobias Schindler Technische Hochschule

10Tobias Schindler04.07.2019

GrundlagenCharakteristiken

• Lernen aus Trial & Error

Agent muss unbekannten Zustands- und Aktionsraum erkunden

Suboptimale Handlungen zur Erkundung nötig

Exploration und Exploitation

• Verzögerte Belohnung

Welche Aktion generiert die Belohnung?

Page 11: INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME Reinforcement Learning Tobias Schindler Technische Hochschule

11Tobias Schindler04.07.2019

Einsatzmöglichkeiten

Industrielle Anwendungen:

• „Im Rechenzentrum“

• Keine Echtzeitanforderungen

• Hohe Rechenleistung

• „Im Feld“

• Zielplattform: Embedded-Berechnungsplattform

• Harte Echtzeit (z. B. Ausführungszeit 100 𝜇𝜇𝜇𝜇, 10 𝑚𝑚𝜇𝜇) nötig

• Geringe Rechenleistung

Steuerung und Regelung von Systemen (Antriebe, LE)

„Edge-KI“, „Echtzeit-KI“, „embedded KI“

Page 12: INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME Reinforcement Learning Tobias Schindler Technische Hochschule

12Tobias Schindler04.07.2019

EinsatzmöglichkeitenHardware

• Implementierung auf Umrichter

• Eigenentwicklung Institut ELSYS

• Mikrocontroller TI C2000

• Modellbasierte Entwicklung

• Codegenerierung aus Matlab/Simulink

Page 13: INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME Reinforcement Learning Tobias Schindler Technische Hochschule

13Tobias Schindler04.07.2019

EinsatzmöglichkeitenHardware - SoC

• Nutzung System-on-a-Chip

• Mehrere Prozessoren

• FPGA

• Rapid Prototyping

Miniaturisierung Xilinx Zynq 7020

Xilinx Zynq UltraScale+ MPSoC

Page 14: INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME Reinforcement Learning Tobias Schindler Technische Hochschule

14Tobias Schindler04.07.2019

Fallstudie: Kompensation Drehzahlrippel

• PMSM + Last mit statischer Unwucht

Drehzahlrippel

• Implementierung auf Mikrocontroller

• Tabellenbasiertes Q-Learning erlernt Störgrößenaufschaltung

Page 15: INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME Reinforcement Learning Tobias Schindler Technische Hochschule

15Tobias Schindler04.07.2019

Kompensation DrehzahlrippelSystem

Page 16: INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME Reinforcement Learning Tobias Schindler Technische Hochschule

16Tobias Schindler04.07.2019

Kompensation DrehzahlrippelErgebnis

• Zeitlicher Verlauf des RMS(Drehzahlfehler)

• Verschiedene Startwerte des Zufallszahlengenerators

Page 17: INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME Reinforcement Learning Tobias Schindler Technische Hochschule

17Tobias Schindler04.07.2019

Kompensation DrehzahlrippelAbhängigkeit Zufallsgenerator

• Abhängigkeit des Ergebnisses vom Startwert des Zufallsgenerators

• Exploration: 𝜖𝜖 − 𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔

• Mit Wahrscheinlichkeit 𝜖𝜖 wird eine zufällige Aktion ausgeführt

• Zufallszahlen vom Mikrocontroller generiert

• Zufallsgenerator benötigt Startwert (Seed)

• Bisher ausgeklammert: Hyperparameter (𝜖𝜖, 𝛼𝛼, 𝛾𝛾)

• Optimierung der Hyperparameter nicht mit einzelner Seed

Page 18: INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME Reinforcement Learning Tobias Schindler Technische Hochschule

18Tobias Schindler04.07.2019

Fazit

• Nutzung von Reinforcement Learning für Steuerung und Regelung

• „Klassische“ Varianten auf Mikrocontroller implementierbar

• Zufallszahlengenerator (Seed) spielt eine große Rolle

• Robuste Verfahren nötig

• Ausblick:

• Implementierung von DQN auf SoC

• Regelung von Antrieben durch DQN

Steigerung der Dynamik

Steigerung der Energieeffizienz

Page 19: INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME Reinforcement Learning Tobias Schindler Technische Hochschule

19Tobias Schindler04.07.2019

Vielen Dank für Ihre Aufmerksamkeit!

Tobias Schindler

Institut ELSYSTel.: 0911-5880-3134www.th-nuernberg.de/elsys