INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR...
Transcript of INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR...
1Tobias Schindler04.07.2019
INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME
Reinforcement Learning
Tobias SchindlerTechnische Hochschule Nürnberg
2Tobias Schindler04.07.2019
Gliederung
• Künstliche Intelligenz
• Grundlagen: Reinforcement Learning
• Einsatzmöglichkeiten
• Fallstudie: Kompensation Drehzahlrippel
• Fazit
3Tobias Schindler04.07.2019
Künstliche Intelligenz
• Künstliche Intelligenz (KI) als Schlagwort omnipräsent
• Definition KI-Strategie:
• „Eine einzige allgemeingültige bzw. von allen Akteuren konsistent genutzte Definition von Künstlicher Intelligenz (KI) gibt es nicht.“
• „Die „schwache“ KI ist fokussiert auf die Lösung konkreter Anwendungsprobleme auf Basis der Methoden aus der Mathematik und Informatik, wobei die entwickelten Systeme zur Selbstoptimierung fähig sind.“
• „Deduktionssysteme“
• „Wissensbasierte Systeme“
• „Maschinelles Lernen“
[https://www.ki-strategie-deutschland.de/home.html]
4Tobias Schindler04.07.2019
Künstliche Intelligenz
• Literatur: Standardwerk „ Artificial Intelligence – A Modern Approach”
• “The main unifying theme is the idea of an intelligent agent.”
• “We define AI as the study of agents that receive percepts from the environment and perform actions.”
• “Each such agent implements a function that maps percept sequences to actions […]”
Entscheidungsfindung: Welche Aktion in welchem Zustand?
[Artificial Intelligence – A Modern Approach, 3. Edition, Stuart J. Russel, Peter Norvig]
5Tobias Schindler04.07.2019
GrundlagenReinforcement Learning
• Software-Agent interagiert mit Umgebung
• Agent wählt eine Aktion
• Bewertet anhand einer „Belohnung“ („Reward“) die Aktion
• Passt zukünftige Aktionen an
Erlernt eine möglichst ideale Handlungsstrategie („Policy“)
Aktionen müssen in der Umgebung „ausprobiert“ werden
[Reinforcement Learning: An Introduction, Richard S. Sutton, Andrew Barto]
6Tobias Schindler04.07.2019
GrundlagenEinordnung im Themenfeld KI
Künstliche Intelligenz
Wissensbasierte SystemeDeduktionssysteme
Maschinelles Lernen
Supervised Learning
ValueFunction
Policy Optimization
Q-Learning
SARSA
DQN
TRPO
Policy Gradient
Reinforcement Learning
Unsupervised Learning
7Tobias Schindler04.07.2019
GrundlagenDeep Reinforcement Learning
• Playing Atari with Deep Reinforcement Learning [Mnih et al., 2013, 2015]
• Deep Q-Networks (DQN)
• Erneute Popularisierung von Reinforcement Learning
• Kernideen:
• Value Function als Convoluted Neural Network (CNN) approximiert
• Target Network
• Experience Replay
8Tobias Schindler04.07.2019
GrundlagenKlassische Algorithmen
• Klassische Varianten der Algorithmen zur Verständnisbildung
• „Deep“: Mehr Komplexität, mehr Dimensionen
• DQN: Zahlreiche Maßnahmen Welche wirkt wie?
• A Deeper Look at Experience Replay [Zhang, Sutton, 2018]:
• Experience Replay: Speichert Aktionen, Zustände und Rewards
• Lernt durch zufällige Auswahl der gespeicherten Daten
• Untersucht Experience Replay u. a. durch tabellenbasiertes Q-Learning
9Tobias Schindler04.07.2019
GrundlagenQ-Learning
• Zustände S und Aktionen A
• Q-Function Q(S,A) als Tabelle dargestellt („Quality“)
• Abhängig von 3 Hyperparametern
• Explorationsstrategie: 𝜖𝜖 − 𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔
Mit Wahrscheinlichkeit 𝜖𝜖 wird eine zufällige Aktion gewählt
[Reinforcement Learning: An Introduction, Richard S. Sutton, Andrew Barto]
10Tobias Schindler04.07.2019
GrundlagenCharakteristiken
• Lernen aus Trial & Error
Agent muss unbekannten Zustands- und Aktionsraum erkunden
Suboptimale Handlungen zur Erkundung nötig
Exploration und Exploitation
• Verzögerte Belohnung
Welche Aktion generiert die Belohnung?
11Tobias Schindler04.07.2019
Einsatzmöglichkeiten
Industrielle Anwendungen:
• „Im Rechenzentrum“
• Keine Echtzeitanforderungen
• Hohe Rechenleistung
• „Im Feld“
• Zielplattform: Embedded-Berechnungsplattform
• Harte Echtzeit (z. B. Ausführungszeit 100 𝜇𝜇𝜇𝜇, 10 𝑚𝑚𝜇𝜇) nötig
• Geringe Rechenleistung
Steuerung und Regelung von Systemen (Antriebe, LE)
„Edge-KI“, „Echtzeit-KI“, „embedded KI“
12Tobias Schindler04.07.2019
EinsatzmöglichkeitenHardware
• Implementierung auf Umrichter
• Eigenentwicklung Institut ELSYS
• Mikrocontroller TI C2000
• Modellbasierte Entwicklung
• Codegenerierung aus Matlab/Simulink
13Tobias Schindler04.07.2019
EinsatzmöglichkeitenHardware - SoC
• Nutzung System-on-a-Chip
• Mehrere Prozessoren
• FPGA
• Rapid Prototyping
Miniaturisierung Xilinx Zynq 7020
Xilinx Zynq UltraScale+ MPSoC
14Tobias Schindler04.07.2019
Fallstudie: Kompensation Drehzahlrippel
• PMSM + Last mit statischer Unwucht
Drehzahlrippel
• Implementierung auf Mikrocontroller
• Tabellenbasiertes Q-Learning erlernt Störgrößenaufschaltung
15Tobias Schindler04.07.2019
Kompensation DrehzahlrippelSystem
16Tobias Schindler04.07.2019
Kompensation DrehzahlrippelErgebnis
• Zeitlicher Verlauf des RMS(Drehzahlfehler)
• Verschiedene Startwerte des Zufallszahlengenerators
17Tobias Schindler04.07.2019
Kompensation DrehzahlrippelAbhängigkeit Zufallsgenerator
• Abhängigkeit des Ergebnisses vom Startwert des Zufallsgenerators
• Exploration: 𝜖𝜖 − 𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔
• Mit Wahrscheinlichkeit 𝜖𝜖 wird eine zufällige Aktion ausgeführt
• Zufallszahlen vom Mikrocontroller generiert
• Zufallsgenerator benötigt Startwert (Seed)
• Bisher ausgeklammert: Hyperparameter (𝜖𝜖, 𝛼𝛼, 𝛾𝛾)
• Optimierung der Hyperparameter nicht mit einzelner Seed
18Tobias Schindler04.07.2019
Fazit
• Nutzung von Reinforcement Learning für Steuerung und Regelung
• „Klassische“ Varianten auf Mikrocontroller implementierbar
• Zufallszahlengenerator (Seed) spielt eine große Rolle
• Robuste Verfahren nötig
• Ausblick:
• Implementierung von DQN auf SoC
• Regelung von Antrieben durch DQN
Steigerung der Dynamik
Steigerung der Energieeffizienz
19Tobias Schindler04.07.2019
Vielen Dank für Ihre Aufmerksamkeit!
Tobias Schindler
Institut ELSYSTel.: 0911-5880-3134www.th-nuernberg.de/elsys