INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR...

1Tobias Schindler04.07.2019

INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME

Reinforcement Learning

Tobias SchindlerTechnische Hochschule Nürnberg


Gliederung

• Künstliche Intelligenz

• Grundlagen: Reinforcement Learning

• Einsatzmöglichkeiten

• Fallstudie: Kompensation Drehzahlrippel

• Fazit


Künstliche Intelligenz

• Künstliche Intelligenz (KI) als Schlagwort omnipräsent

• Definition KI-Strategie:

• „Eine einzige allgemeingültige bzw. von allen Akteuren konsistent genutzte Definition von Künstlicher Intelligenz (KI) gibt es nicht.“

• „Die „schwache“ KI ist fokussiert auf die Lösung konkreter Anwendungsprobleme auf Basis der Methoden aus der Mathematik und Informatik, wobei die entwickelten Systeme zur Selbstoptimierung fähig sind.“

• „Deduktionssysteme“

• „Wissensbasierte Systeme“

• „Maschinelles Lernen“

[https://www.ki-strategie-deutschland.de/home.html]

https://www.ki-strategie-deutschland.de/home.html



• Literatur: Standardwerk „ Artificial Intelligence – A Modern Approach”

• “The main unifying theme is the idea of an intelligent agent.”

• “We define AI as the study of agents that receive percepts from the environment and perform actions.”

• “Each such agent implements a function that maps percept sequences to actions […]”

Entscheidungsfindung: Welche Aktion in welchem Zustand?

[Artificial Intelligence – A Modern Approach, 3. Edition, Stuart J. Russel, Peter Norvig]


GrundlagenReinforcement Learning

• Software-Agent interagiert mit Umgebung

• Agent wählt eine Aktion

• Bewertet anhand einer „Belohnung“ („Reward“) die Aktion

• Passt zukünftige Aktionen an

Erlernt eine möglichst ideale Handlungsstrategie („Policy“)

Aktionen müssen in der Umgebung „ausprobiert“ werden

[Reinforcement Learning: An Introduction, Richard S. Sutton, Andrew Barto]


GrundlagenEinordnung im Themenfeld KI


Wissensbasierte SystemeDeduktionssysteme

Maschinelles Lernen

Supervised Learning

ValueFunction

Policy Optimization

Q-Learning

SARSA

DQN

TRPO

Policy Gradient

Reinforcement Learning

Unsupervised Learning


GrundlagenDeep Reinforcement Learning

• Playing Atari with Deep Reinforcement Learning [Mnih et al., 2013, 2015]

• Deep Q-Networks (DQN)

• Erneute Popularisierung von Reinforcement Learning

• Kernideen:

• Value Function als Convoluted Neural Network (CNN) approximiert

• Target Network

• Experience Replay


GrundlagenKlassische Algorithmen

• Klassische Varianten der Algorithmen zur Verständnisbildung

• „Deep“: Mehr Komplexität, mehr Dimensionen

• DQN: Zahlreiche Maßnahmen Welche wirkt wie?

• A Deeper Look at Experience Replay [Zhang, Sutton, 2018]:

• Experience Replay: Speichert Aktionen, Zustände und Rewards

• Lernt durch zufällige Auswahl der gespeicherten Daten

• Untersucht Experience Replay u. a. durch tabellenbasiertes Q-Learning


GrundlagenQ-Learning

• Zustände S und Aktionen A

• Q-Function Q(S,A) als Tabelle dargestellt („Quality“)

• Abhängig von 3 Hyperparametern

• Explorationsstrategie: 𝜖𝜖 − 𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔

Mit Wahrscheinlichkeit 𝜖𝜖 wird eine zufällige Aktion gewählt

[Reinforcement Learning: An Introduction, Richard S. Sutton, Andrew Barto]


GrundlagenCharakteristiken

• Lernen aus Trial & Error

Agent muss unbekannten Zustands- und Aktionsraum erkunden

Suboptimale Handlungen zur Erkundung nötig

Exploration und Exploitation

• Verzögerte Belohnung

Welche Aktion generiert die Belohnung?


Einsatzmöglichkeiten

Industrielle Anwendungen:

• „Im Rechenzentrum“

• Keine Echtzeitanforderungen

• Hohe Rechenleistung

• „Im Feld“

• Zielplattform: Embedded-Berechnungsplattform

• Harte Echtzeit (z. B. Ausführungszeit 100 𝜇𝜇𝜇𝜇, 10 𝑚𝑚𝜇𝜇) nötig

• Geringe Rechenleistung

Steuerung und Regelung von Systemen (Antriebe, LE)

„Edge-KI“, „Echtzeit-KI“, „embedded KI“


EinsatzmöglichkeitenHardware

• Implementierung auf Umrichter

• Eigenentwicklung Institut ELSYS

• Mikrocontroller TI C2000

• Modellbasierte Entwicklung

• Codegenerierung aus Matlab/Simulink


EinsatzmöglichkeitenHardware - SoC

• Nutzung System-on-a-Chip

• Mehrere Prozessoren

• FPGA

• Rapid Prototyping

Miniaturisierung Xilinx Zynq 7020

Xilinx Zynq UltraScale+ MPSoC


Fallstudie: Kompensation Drehzahlrippel

• PMSM + Last mit statischer Unwucht

Drehzahlrippel

• Implementierung auf Mikrocontroller

• Tabellenbasiertes Q-Learning erlernt Störgrößenaufschaltung


Kompensation DrehzahlrippelSystem


Kompensation DrehzahlrippelErgebnis

• Zeitlicher Verlauf des RMS(Drehzahlfehler)

• Verschiedene Startwerte des Zufallszahlengenerators


Kompensation DrehzahlrippelAbhängigkeit Zufallsgenerator

• Abhängigkeit des Ergebnisses vom Startwert des Zufallsgenerators

• Exploration: 𝜖𝜖 − 𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔

• Mit Wahrscheinlichkeit 𝜖𝜖 wird eine zufällige Aktion ausgeführt

• Zufallszahlen vom Mikrocontroller generiert

• Zufallsgenerator benötigt Startwert (Seed)

• Bisher ausgeklammert: Hyperparameter (𝜖𝜖, 𝛼𝛼, 𝛾𝛾)

• Optimierung der Hyperparameter nicht mit einzelner Seed


Fazit

• Nutzung von Reinforcement Learning für Steuerung und Regelung

• „Klassische“ Varianten auf Mikrocontroller implementierbar

• Zufallszahlengenerator (Seed) spielt eine große Rolle

• Robuste Verfahren nötig

• Ausblick:

• Implementierung von DQN auf SoC

• Regelung von Antrieben durch DQN

Steigerung der Dynamik

Steigerung der Energieeffizienz


Vielen Dank für Ihre Aufmerksamkeit!

Tobias Schindler

Institut ELSYSTel.: 0911-5880-3134www.th-nuernberg.de/elsys

INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR...

Documents

Transcript of INSTITUT FÜR LEISTUNGSELEKTRONISCHE SYSTEME · 04.07.2019 Tobias Schindler 1 INSTITUT FÜR...