Post on 20-Sep-2019
Datenbasierte Regelung mit Garantien
Thomas Beckers Sandra Hirche
Lehrstuhl für Informationstechnische RegelungTechnische Universität München
53. Regelungstechnisches Kolloquium, 21.02.2019
www.itr.ei.tum.de
http://www.itr.ei.tum.de
Motivation
Regler Regelstreckeu
Messung
r e y
−
ym
?
HerausforderungAuslegung des Reglers erfordert ein präzises Modell der Regelstrecke
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 2
Motivation
Wie modellieren wir eine Regelstrecke?
y
x
M F➝
θ
l
m
Invertiertes Pendel
z.B. mit Lagrange-Formalismus:
(M +m)ẍ−mlθ̈ cos θ +mlθ̇ sin θ = Flθ̈ − g sin θ = ẍ cos θ
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 3
Motivation
[Soft robotics]
[Kuka] [Bitcraze]
Parametrische Modellierung sehr zeitaufwendig oder unzureichend
⇒ Datenbasierte Regelung
mit Garantien
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 4
Motivation
[Soft robotics] [Kuka]
[Bitcraze]
Parametrische Modellierung sehr zeitaufwendig oder unzureichend
⇒ Datenbasierte Regelung
mit Garantien
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 4
Motivation
[Soft robotics] [Kuka] [Bitcraze]
Parametrische Modellierung sehr zeitaufwendig oder unzureichend
⇒ Datenbasierte Regelung
mit Garantien
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 4
Motivation
[Soft robotics] [Kuka] [Bitcraze]
Parametrische Modellierung sehr zeitaufwendig oder unzureichend
⇒ Datenbasierte Regelung
mit Garantien
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 4
Motivation
[Soft robotics] [Kuka] [Bitcraze]
Parametrische Modellierung sehr zeitaufwendig oder unzureichend
⇒ Datenbasierte Regelung
mit Garantien
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 4
Motivation
[Soft robotics] [Kuka] [Bitcraze]
Parametrische Modellierung sehr zeitaufwendig oder unzureichend
⇒ Datenbasierte Regelung mit Garantien
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 4
Parametrische Modelle
Eingang x
Ausga
ngy
y = f(x,θ)
Eingang x und Ausgang yModell fParameter θ
Feste Anzahl von Parametern θ, Prädiktion unabhängig von Datensatz
Modellkomplexität ist begrenzt durch die Anzahl der Parameter
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 5
Parametrische Modelle
Eingang x
Ausga
ngy
y = f(x,θ)
Eingang x und Ausgang yModell fParameter θ
Feste Anzahl von Parametern θ, Prädiktion unabhängig von Datensatz
Modellkomplexität ist begrenzt durch die Anzahl der Parameter
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 5
Parametrische Modelle
Eingang x
Ausga
ngy
y = f(x,θ)
Eingang x und Ausgang yModell fParameter θ
Linear: y = ax+ b
Feste Anzahl von Parametern θ, Prädiktion unabhängig von Datensatz
Modellkomplexität ist begrenzt durch die Anzahl der Parameter
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 5
Parametrische Modelle
Eingang x
Ausga
ngy
y = f(x,θ)
Eingang x und Ausgang yModell fParameter θ
Quadratisch: y = ax2 + bx+ c
Feste Anzahl von Parametern θ, Prädiktion unabhängig von Datensatz
Modellkomplexität ist begrenzt durch die Anzahl der Parameter
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 5
Parametrische Modelle
Eingang x
Ausga
ngy
y = f(x,θ)
Eingang x und Ausgang yModell fParameter θ
Welches Modell ist korrekt?
Feste Anzahl von Parametern θ, Prädiktion unabhängig von Datensatz
Modellkomplexität ist begrenzt durch die Anzahl der Parameter
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 5
Parametrische Modelle
Eingang x
Ausga
ngy
y = f(x,θ)
Eingang x und Ausgang yModell fParameter θ
Welches Modell ist korrekt?
Feste Anzahl von Parametern θ, Prädiktion unabhängig von Datensatz
Modellkomplexität ist begrenzt durch die Anzahl der Parameter
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 5
Parametrische Modelle
Eingang x
Ausga
ngy
y = f(x,θ)
Eingang x und Ausgang yModell fParameter θ
Welches Modell ist korrekt?
Feste Anzahl von Parametern θ, Prädiktion unabhängig von Datensatz
Modellkomplexität ist begrenzt durch die Anzahl der Parameter
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 5
Datenbasierte Modelle
Eingang x
Ausga
ngy
Eigenschaften:� Wächst mit Anzahl der Datenpunkte N� Abhängig vom Datensatz D = {X,Y }
f =
N∑j=0
wjk(x,Xj)
� Modellkomplexität nicht begrenzt
Flexible Modellierung aber häufig mangelhafte Interpretierbarkeit
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 6
Datenbasierte Modelle
Eingang x
Ausga
ngy
Eigenschaften:� Wächst mit Anzahl der Datenpunkte N� Abhängig vom Datensatz D = {X,Y }
f =
N∑j=0
wjk(x,Xj)
� Modellkomplexität nicht begrenzt
Flexible Modellierung aber häufig mangelhafte Interpretierbarkeit
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 6
Datenbasierte Modelle
Eingang x
Ausga
ngy
Eigenschaften:� Wächst mit Anzahl der Datenpunkte N� Abhängig vom Datensatz D = {X,Y }
f =
N∑j=0
wjk(x,Xj)
� Modellkomplexität nicht begrenzt
Flexible Modellierung aber häufig mangelhafte Interpretierbarkeit
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 6
Datenbasierte Modelle
Eingang x
Ausga
ngy
Eigenschaften:� Wächst mit Anzahl der Datenpunkte N� Abhängig vom Datensatz D = {X,Y }
f =
N∑j=0
wjk(x,Xj)
� Modellkomplexität nicht begrenzt
Flexible Modellierung aber häufig mangelhafte Interpretierbarkeit
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 6
Datenbasierte Modelle
Eingang x
Ausga
ngy
Eigenschaften:� Wächst mit Anzahl der Datenpunkte N� Abhängig vom Datensatz D = {X,Y }
f =
N∑j=0
wjk(x,Xj)
� Modellkomplexität nicht begrenzt
Flexible Modellierung aber häufig mangelhafte Interpretierbarkeit
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 6
Datenbasierte Modelle
Eingang x
Ausga
ngy
Eigenschaften:� Wächst mit Anzahl der Datenpunkte N� Abhängig vom Datensatz D = {X,Y }
f =
N∑j=0
wjk(x,Xj)
� Modellkomplexität nicht begrenzt
Flexible Modellierung aber häufig mangelhafte Interpretierbarkeit
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 6
Datenbasierte Modelle
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 6
Datenbasierte Modelle
Eingang x
Ausga
ngy
Eigenschaften:� Wächst mit Anzahl der Datenpunkte N� Abhängig vom Datensatz D = {X,Y }
f =
N∑j=0
wjk(x,Xj)
� Modellkomplexität nicht begrenzt
Flexible Modellierung aber häufig mangelhafte Interpretierbarkeit
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 6
Agenda
Regelstrecke DatenbasiertesModell
ReglerDaten Prädiktion
Forschungsfragen:
� Eigenschaften von datenbasierten Modellen� Integration von Vorwissen� Garantien für datenbasierte Regelung
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 7
Agenda
Regelstrecke DatenbasiertesModell
ReglerDaten Prädiktion
Forschungsfragen:� Eigenschaften von datenbasierten Modellen
� Integration von Vorwissen� Garantien für datenbasierte Regelung
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 7
Agenda
Regelstrecke DatenbasiertesModell
ReglerDaten Prädiktion
Forschungsfragen:� Eigenschaften von datenbasierten Modellen� Integration von Vorwissen
� Garantien für datenbasierte Regelung
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 7
Agenda
Regelstrecke DatenbasiertesModell
ReglerDaten Prädiktion
Forschungsfragen:� Eigenschaften von datenbasierten Modellen� Integration von Vorwissen� Garantien für datenbasierte Regelung
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 7
Gauß-Prozess
Idee:� Gauß Prior über Funktionenraum� Verbesserung durch Datenpunkte
Vorzüge:� Vollständig probabilistisch� Robust gegen Rauschen� Beschreibung der Unsicherheit� Einbringen von Vorwissen
Prädiktion mit Wissen über die Modellunsicherheit
C.E. Rasmussen, Gaussian Processes for Machine Learning. 2006Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 8
Gauß-Prozess
Idee:� Gauß Prior über Funktionenraum� Verbesserung durch Datenpunkte
Vorzüge:� Vollständig probabilistisch� Robust gegen Rauschen� Beschreibung der Unsicherheit� Einbringen von Vorwissen
Prädiktion mit Wissen über die Modellunsicherheit
C.E. Rasmussen, Gaussian Processes for Machine Learning. 2006Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 8
Gauß-Prozess
Idee:� Gauß Prior über Funktionenraum� Verbesserung durch Datenpunkte
Vorzüge:� Vollständig probabilistisch� Robust gegen Rauschen� Beschreibung der Unsicherheit� Einbringen von Vorwissen
Prädiktion mit Wissen über die Modellunsicherheit
C.E. Rasmussen, Gaussian Processes for Machine Learning. 2006Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 8
Gauß-Prozess
Idee:� Gauß Prior über Funktionenraum� Verbesserung durch Datenpunkte
Vorzüge:� Vollständig probabilistisch� Robust gegen Rauschen� Beschreibung der Unsicherheit� Einbringen von Vorwissen
Prädiktion mit Wissen über die Modellunsicherheit
C.E. Rasmussen, Gaussian Processes for Machine Learning. 2006Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 8
Gauß-Prozess
Idee:� Gauß Prior über Funktionenraum� Verbesserung durch Datenpunkte
Vorzüge:� Vollständig probabilistisch� Robust gegen Rauschen� Beschreibung der Unsicherheit� Einbringen von Vorwissen
Prädiktion mit Wissen über die Modellunsicherheit
C.E. Rasmussen, Gaussian Processes for Machine Learning. 2006Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 8
Gauß-Prozess
Idee:� Gauß Prior über Funktionenraum� Verbesserung durch Datenpunkte
Vorzüge:� Vollständig probabilistisch� Robust gegen Rauschen� Beschreibung der Unsicherheit� Einbringen von Vorwissen
Prädiktion mit Wissen über die Modellunsicherheit
C.E. Rasmussen, Gaussian Processes for Machine Learning. 2006Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 8
Gauß-Prozess
Idee:� Gauß Prior über Funktionenraum� Verbesserung durch Datenpunkte
Vorzüge:� Vollständig probabilistisch� Robust gegen Rauschen� Beschreibung der Unsicherheit� Einbringen von Vorwissen
Prädiktion mit Wissen über die Modellunsicherheit
C.E. Rasmussen, Gaussian Processes for Machine Learning. 2006Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 8
Gauß-Prozess
Idee:� Gauß Prior über Funktionenraum� Verbesserung durch Datenpunkte
Vorzüge:� Vollständig probabilistisch� Robust gegen Rauschen� Beschreibung der Unsicherheit� Einbringen von Vorwissen
Prädiktion mit Wissen über die Modellunsicherheit
C.E. Rasmussen, Gaussian Processes for Machine Learning. 2006Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 8
Datenbasierte Regelung
Regler Regelstrecke
GP Modell
u
Messung
r e y
−
ym
Performanz verbessern und Stabilität garantieren
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 9
Datenbasierte Regelung
Regler Regelstrecke
GP Modell
u
Messung
r e y
−
ym
Performanz verbessern und Stabilität garantieren
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 9
Beispiel: Lagrangesche Mechanik
d
dt
(∂L∂q̇
)− ∂L
∂q︸ ︷︷ ︸ = u︸ ︷︷ ︸
+ f︸ ︷︷ ︸
generalisierte Koordinaten q ∈ Rn, Lagrange Funktion L : Rn × Rn → R
Äquivalente FormH(q)q̈ + C(q, q̇)q̇ + g(q)− f(q̈, q̇, q) = u(t)
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 10
Beispiel: Lagrangesche Mechanik
d
dt
(∂L∂q̇
)− ∂L
∂q︸ ︷︷ ︸ = u︸ ︷︷ ︸ + f︸ ︷︷ ︸
generalisierte Koordinaten q ∈ Rn, Lagrange Funktion L : Rn × Rn → R
Äquivalente FormH(q)q̈ + C(q, q̇)q̇ + g(q)− f(q̈, q̇, q) = u(t)
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 10
Beispiel: Lagrangesche Mechanik
d
dt
(∂L∂q̇
)− ∂L
∂q︸ ︷︷ ︸ = u︸ ︷︷ ︸ + f︸ ︷︷ ︸
generalisierte Koordinaten q ∈ Rn, Lagrange Funktion L : Rn × Rn → R
Äquivalente FormH(q)q̈ + C(q, q̇)q̇ + g(q)− f(q̈, q̇, q) = u(t)
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 10
Klassischer Ansatz
Computed-torque control: u(t) = Ĥ(q)q̈d + Ĉ(q, q̇)q̇d + ĝ(q)︸ ︷︷ ︸parametrisches Modell
− Kdė−Kpe︸ ︷︷ ︸Feedback Regler
� Mit Ĥ = H, Ĉ = C, ĝ = g und f = 0 ⇒ Asymptotisch stabil� Ansonsten: Erhöhung von Kd,Kp, um den Regelfehler zu minimieren
Nachteile� Stabilität nicht mehr garantiert� Starke Verstärkung von Rauschen ⇒ Sättigung der Aktuatoren� Steife Struktur durch große Verstärkung in der Rückkopplung
Weitere Ansätze� Adaptive Regelung [Slotine+ 1987]� Datenbasierte Verfahren [Nguyen-Tuong+ 2010; Alberto+ 2014]� Stabilitätsgarantien [Chowdhary+ 2015; Berkenkamp+ 2016]
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 11
Klassischer Ansatz
Computed-torque control: u(t) = Ĥ(q)q̈d + Ĉ(q, q̇)q̇d + ĝ(q)︸ ︷︷ ︸parametrisches Modell
− Kdė−Kpe︸ ︷︷ ︸Feedback Regler
� Mit Ĥ = H, Ĉ = C, ĝ = g und f = 0 ⇒ Asymptotisch stabil� Ansonsten: Erhöhung von Kd,Kp, um den Regelfehler zu minimieren
Nachteile� Stabilität nicht mehr garantiert� Starke Verstärkung von Rauschen ⇒ Sättigung der Aktuatoren� Steife Struktur durch große Verstärkung in der Rückkopplung
Weitere Ansätze� Adaptive Regelung [Slotine+ 1987]� Datenbasierte Verfahren [Nguyen-Tuong+ 2010; Alberto+ 2014]� Stabilitätsgarantien [Chowdhary+ 2015; Berkenkamp+ 2016]
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 11
Klassischer Ansatz
Computed-torque control: u(t) = Ĥ(q)q̈d + Ĉ(q, q̇)q̇d + ĝ(q)︸ ︷︷ ︸parametrisches Modell
− Kdė−Kpe︸ ︷︷ ︸Feedback Regler
� Mit Ĥ = H, Ĉ = C, ĝ = g und f = 0 ⇒ Asymptotisch stabil� Ansonsten: Erhöhung von Kd,Kp, um den Regelfehler zu minimieren
Nachteile� Stabilität nicht mehr garantiert� Starke Verstärkung von Rauschen ⇒ Sättigung der Aktuatoren� Steife Struktur durch große Verstärkung in der Rückkopplung
Weitere Ansätze� Adaptive Regelung [Slotine+ 1987]� Datenbasierte Verfahren [Nguyen-Tuong+ 2010; Alberto+ 2014]� Stabilitätsgarantien [Chowdhary+ 2015; Berkenkamp+ 2016]
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 11
Datenbasierte Regelung
1. Schritt: Lernen der Dynamik
2. Schritt: Regler mit GP Modell
Regelstrecke
GP Modell
Regler Regelstrecke
GP Modell
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 12
Datenbasierte Regelung
1. Schritt: Lernen der Dynamik 2. Schritt: Regler mit GP Modell
Regelstrecke
GP Modell
Regler Regelstrecke
GP Modell
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 12
Sammeln von Trainingsdaten
Regler Regelstrecke Ĥ(q)q̈ + Ĉ(q, q̇)q̇ + ĝ(q)uq̈, q̇, q
û
{q̈{i}, q̇{i}, q{i}}mi=1
{τ̃ {i}}mi=1-
Kombinierter AnsatzParametrisches Modell kann Vorwissen über die Regelstrecke einbringen
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 13
Sammeln von Trainingsdaten
Regler Regelstrecke Ĥ(q)q̈ + Ĉ(q, q̇)q̇ + ĝ(q)uq̈, q̇, q
û
{q̈{i}, q̇{i}, q{i}}mi=1
{τ̃ {i}}mi=1-
Kombinierter AnsatzParametrisches Modell kann Vorwissen über die Regelstrecke einbringen
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 13
Sammeln von Trainingsdaten
Regler Regelstrecke Ĥ(q)q̈ + Ĉ(q, q̇)q̇ + ĝ(q)uq̈, q̇, q
û
{q̈{i}, q̇{i}, q{i}}mi=1
{τ̃ {i}}mi=1-
Kombinierter AnsatzParametrisches Modell kann Vorwissen über die Regelstrecke einbringen
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 13
Sammeln von Trainingsdaten
Regler Regelstrecke Ĥ(q)q̈ + Ĉ(q, q̇)q̇ + ĝ(q)uq̈, q̇, q
û
{q̈{i}, q̇{i}, q{i}}mi=1
{τ̃ {i}}mi=1-
Kombinierter AnsatzParametrisches Modell kann Vorwissen über die Regelstrecke einbringen
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 13
Training des GP Modells
µ(x|D) =N∑j=0
wjk(x,Xj)
Kernel k:
� Matern, stetig� Matern, differenzierbar� Squared Exponential
Kernel bestimmt Eigenschaften des Modells
T. Beckers and S. Hirche. Stability of Gaussian Process State Space Models. ECC, 2016Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 14
Training des GP Modells
µ(x|D) =N∑j=0
wjk(x,Xj)
Kernel k:� Matern, stetig
� Matern, differenzierbar� Squared Exponential
Kernel bestimmt Eigenschaften des Modells
T. Beckers and S. Hirche. Stability of Gaussian Process State Space Models. ECC, 2016Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 14
Training des GP Modells
µ(x|D) =N∑j=0
wjk(x,Xj)
Kernel k:� Matern, stetig� Matern, differenzierbar
� Squared Exponential
Kernel bestimmt Eigenschaften des Modells
T. Beckers and S. Hirche. Stability of Gaussian Process State Space Models. ECC, 2016Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 14
Training des GP Modells
µ(x|D) =N∑j=0
wjk(x,Xj)
Kernel k:� Matern, stetig� Matern, differenzierbar� Squared Exponential
Kernel bestimmt Eigenschaften des Modells
T. Beckers and S. Hirche. Stability of Gaussian Process State Space Models. ECC, 2016Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 14
Training des GP Modells
µ(x|D) =N∑j=0
wjk(x,Xj)
Kernel k:� Matern, stetig� Matern, differenzierbar� Squared Exponential
Kernel bestimmt Eigenschaften des Modells
T. Beckers and S. Hirche. Stability of Gaussian Process State Space Models. ECC, 2016Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 14
Beispiel
0 2 4 6 8 10 12 14
Zeit [s]
Zustand
SystemGP Modell
Kernel erzeugt nur beschränkte Trajektorien
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 15
Beispiel
0 0.5 1 1.5 2 2.5 3
Zeit [s]
Zustand
SystemGP Modell
Kernel erzeugt nur beschränkte Trajektorien
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 15
Eigenschaften durch Kernel
Beschränkte Trajektorien
Anzahl der Ruhelagen
Verteilung der Ruhelage
T. Beckers and S. Hirche. Equilibrium Distributions and Stability Analysis of Gaussian Process State Space Models. CDC, 2016Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 16
Eigenschaften durch Kernel
Beschränkte Trajektorien
Anzahl der Ruhelagen
Verteilung der Ruhelage
T. Beckers and S. Hirche. Equilibrium Distributions and Stability Analysis of Gaussian Process State Space Models. CDC, 2016Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 16
Eigenschaften durch Kernel
Beschränkte Trajektorien
Anzahl der Ruhelagen
Verteilung der Ruhelage
T. Beckers and S. Hirche. Equilibrium Distributions and Stability Analysis of Gaussian Process State Space Models. CDC, 2016Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 16
Datenbasierte Regelung
1. Schritt: Lernen der Dynamik 2. Schritt: Regler mit GP Modell
Regelstrecke
GP Modell
Regler Regelstrecke
GP Modell
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 17
Computed torque mit GP Modell
PD-Regler
GP Modell
Computed torqueĤ(q)q̈d + Ĉ(q, q̇)q̇d + ĝ(q)
Regelstrecke
µ
q̈d, q̇d, qd
u
Regelgesetz
u(t) = Ĥq̈d + Ĉq̇d + ĝ︸ ︷︷ ︸Computed torque
−Kdė−Kpe︸ ︷︷ ︸PD-Regler
T. Beckers, et al. Stable Gaussian Process based Tracking Control of Lagrangian Systems. CDC, 2017Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 18
Computed torque mit GP Modell
PD-Regler
GP Modell
Computed torqueĤ(q)q̈d + Ĉ(q, q̇)q̇d + ĝ(q)
Regelstreckeµ
q̈d, q̇d, qd
u
Regelgesetz
u(t) = Ĥq̈d + Ĉq̇d + ĝ︸ ︷︷ ︸Computed torque
+ µ(τ̃ |D)︸ ︷︷ ︸GP Modell
−Kdė−Kpe︸ ︷︷ ︸PD-Regler
T. Beckers, et al. Stable Gaussian Process based Tracking Control of Lagrangian Systems. CDC, 2017Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 18
Computed torque mit GP Modell
PD-Regler
GP Modell
Computed torqueĤ(q)q̈d + Ĉ(q, q̇)q̇d + ĝ(q)
Regelstreckeµ
q̈d, q̇d, qd
u
Regelgesetz
u(t) = Ĥq̈d + Ĉq̇d + ĝ︸ ︷︷ ︸Computed torque
+ µ(τ̃ |D)︸ ︷︷ ︸GP Modell
−Kdė−Kpe︸ ︷︷ ︸PD-Regler
T. Beckers, et al. Stable Gaussian Process based Tracking Control of Lagrangian Systems. CDC, 2017Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 18
Experiment
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 19
Charakteristik
Soll-Trajektorie, Trainingspunkte, Computed torque, Datenbasierte Regelung
-1 -0.5 0 0.5 1
-1
-0.5
0
0.5
1
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 20
Computed torque mit GP Modell
PD-Regler
GP model
Computed torqueĤ(q)q̈d + Ĉ(q, q̇)q̇d + ĝ(q)
Regelstrecke
q̈d, q̇d, qd
Varianz Σ
µ u
Regelgesetz
u(t) = Ĥq̈d + Ĉq̇d + ĝ + µ(τ̃ |D)−Kdė−Kpe
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 21
Computed torque mit GP Modell
PD-Regler
GP model
Computed torqueĤ(q)q̈d + Ĉ(q, q̇)q̇d + ĝ(q)
Regelstrecke
q̈d, q̇d, qd
Varianz Σµ u
Regelgesetz
u(t) = Ĥq̈d + Ĉq̇d + ĝ + µ(τ̃ |D)−Kd(Σd(τ̃ |D)
)ė−Kp
(Σp(τ̃ |D)
)e
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 21
Simulation
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 22
Datenbasierte Regelung mit adaptiver Verstärkung
Soll-Trajektorie, Statische Verstärkung, Adaptive Verstärkung
-1 -0.5 0 0.5 1
-1
-0.5
0
0.5
1
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 23
Stabilitätsanalyse
u(t) = Ĥq̈d + Ĉq̇d + ĝ + µ(τ̃ |D)−Kd(Σd(τ̃ |D)
)ė−Kp
(Σp(τ̃ |D)
)e
Annahmen� Die Rückkopplungsmatrizen Kd und Kp sind symmetrisch und positiv definit� Der Kernel kann τ̃ repräsentieren (Beschränkte RKHS-Norm)
Lyapunov Funktion:
V (ė, e) =1
2ė⊤Ĥ(q)ė+
∫ e0
z⊤Kp(Σp)dz + εe⊤Ĥ(q)ė
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 24
Stabilitätsanalyse
u(t) = Ĥq̈d + Ĉq̇d + ĝ + µ(τ̃ |D)−Kd(Σd(τ̃ |D)
)ė−Kp
(Σp(τ̃ |D)
)e
Annahmen� Die Rückkopplungsmatrizen Kd und Kp sind symmetrisch und positiv definit� Der Kernel kann τ̃ repräsentieren (Beschränkte RKHS-Norm)
Lyapunov Funktion:
V (ė, e) =1
2ė⊤Ĥ(q)ė+
∫ e0
z⊤Kp(Σp)dz + εe⊤Ĥ(q)ė
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 24
Stabilitätsanalyse
u(t) = Ĥq̈d + Ĉq̇d + ĝ + µ(τ̃ |D)−Kd(Σd(τ̃ |D)
)ė−Kp
(Σp(τ̃ |D)
)e
Annahmen� Die Rückkopplungsmatrizen Kd und Kp sind symmetrisch und positiv definit� Der Kernel kann τ̃ repräsentieren (Beschränkte RKHS-Norm)
Lyapunov Funktion:
V (ė, e) =1
2ė⊤Ĥ(q)ė+
∫ e0
z⊤Kp(Σp)dz + εe⊤Ĥ(q)ė
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 24
Fehlerdynamik
V̇ =
[ėe
]⊤ [ −Kd(Σd) + εĤ ε2(−K⊤d (Σd) + Ĉ)ε2(−Kd(Σd) + Ĉ
⊤) −εKp(Σp)
]︸ ︷︷ ︸
A
[ėe
]
+[ė⊤ εe⊤
] [µ(τ̃ |D)− τ (q̈, q̇, q)µ(τ̃ |D)− τ (q̈, q̇, q)
]︸ ︷︷ ︸
b
� Matrix A ist immer negativ definit
� Der Regelfehler ist abhängig von dem Modellfehler b
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 25
Fehlerdynamik
V̇ =
[ėe
]⊤ [ −Kd(Σd) + εĤ ε2(−K⊤d (Σd) + Ĉ)ε2(−Kd(Σd) + Ĉ
⊤) −εKp(Σp)
]︸ ︷︷ ︸
A
[ėe
]
+[ė⊤ εe⊤
] [µ(τ̃ |D)− τ (q̈, q̇, q)µ(τ̃ |D)− τ (q̈, q̇, q)
]︸ ︷︷ ︸
b
� Matrix A ist immer negativ definit� Der Regelfehler ist abhängig von dem Modellfehler b
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 25
Resultat
Beschränkter Regelfehler
Die datenbasierte Regelung garantiert für∥∥ė⊤(t0), e⊤(t0)∥∥ < δ, dass
P
{∥∥∥∥ė(t)e(t)∥∥∥∥ ≤ r,∀t ≥ t0 + T (δ)} ≥ ρ mit t0, T (δ), δ, r ∈ R>0
e
ė
δ r Mehr Trainingsdaten
e
ė
δ r
T. Beckers, D. Kulić, S. Hirche. Stable Gaussian Process based Tracking Control of Euler-Lagrange Systems. Automatica (in print), 2019Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 26
Resultat
Beschränkter Regelfehler
Die datenbasierte Regelung garantiert für∥∥ė⊤(t0), e⊤(t0)∥∥ < δ, dass
P
{∥∥∥∥ė(t)e(t)∥∥∥∥ ≤ r,∀t ≥ t0 + T (δ)} ≥ ρ mit t0, T (δ), δ, r ∈ R>0
e
ė
δ r Mehr Trainingsdaten
e
ė
δ r
T. Beckers, D. Kulić, S. Hirche. Stable Gaussian Process based Tracking Control of Euler-Lagrange Systems. Automatica (in print), 2019Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 26
Fazit
Regelstrecke DatenbasiertesModell
Regler
GP Modell
Daten Prädiktion
humocon
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 27
Fazit
Regelstrecke DatenbasiertesModell
Regler
GP Modell
Daten Prädiktion
humocon
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 27
Fazit
Regelstrecke DatenbasiertesModell
Regler
GP Modell
Daten Prädiktion
humocon
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 27
Fazit
Regelstrecke DatenbasiertesModell
Regler
GP Modell
Daten Prädiktion
humocon
Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 27
ReferencesNicolas Torres Alberto, Michael Mistry and Freek Stulp. Computed torque control with variable gains through Gaussian process.In: International Conference on Humanoid Robots (Humanoids). IEEE. 2014, pp. 212–217.
T. Beckers and S. Hirche. Equilibrium distributions and stability analysis of Gaussian Process State Space Models.In: Proceedings of the 55th Conference on Decision and Control (CDC). Las Vegas, USA, 2016.
T. Beckers and S. Hirche. Stability of Gaussian Process State Space Models. In: Proceedings of the European Control Conference (ECC).Aalborg, Denmark, 2016.
T. Beckers, D. Kulić and S. Hirche. Stable Gaussian Process based Tracking Control of Euler-Lagrange Systems.In: Automatica (in print) (2019).
T. Beckers, J. Umlauft and S. Hirche. Stable Model-based Control with Gaussian Process Regression for Robot Manipulators.In: Proceedings of the 20th IFAC World Congress. Toulouse, France, 2017.
F. Berkenkamp, R. Moriconi, A.P. Schoellig and A. Krause.Safe Learning of Regions of Attraction for Uncertain, Nonlinear Systems with Gaussian Processes.In: Proceedings of the Conference on Decision and Control. 2016.
G. Chowdhary, H. A. Kingravi, J. P. How and P. A. Vela. Bayesian Nonparametric Adaptive Control Using Gaussian Processes.In: IEEE Transactions on Neural Networks and Learning Systems 26.3 (Mar. 2015), pp. 537–550. ISSN: 2162-237X.DOI: 10.1109/TNNLS.2014.2319052.
Duy Nguyen-Tuong and Jan Peters. Using model knowledge for learning inverse dynamics.In: Proc. of the International Conference on Robotics and Automation. 2010, pp. 2677–2682.
Jean-Jacques E Slotine and Weiping Li. On the adaptive control of robot manipulators.In: The international journal of robotics research 6.3 (1987), pp. 49–59.
Jonas Umlauft, Thomas Beckers, Melanie Kimmel and Sandra Hirche. Feedback Linearization using Gaussian Processes.In: Conference on Decision and Control (CDC). IEEE, Dec. 2017.
28
\href{http://arxiv.org/abs/1603.04915}{arXiv:1603.04915 [cs.SY]}https://doi.org/10.1109/TNNLS.2014.2319052
Simulation mit Rauschen
0 1 2 3 4 5 6-0.1
-0.05
0
0.05
Regelfehler
GeschwindigkeitPosition
0 1 2 3 4 5 6Zeit
-20
0
20
Stellgröße
Stark verrauschte Zustände und Stellgröße
29
Verbesserte Rauschunterdrückung
0 1 2 3 4 5 6-0.1
-0.05
0
0.05
Reg
elfe
hler
Computed torqueDatenbasierte
0 1 2 3 4 5 6Zeit
-20
0
20
Stel
lgrö
ßeRegelung
30
EinführungTraining & VorwissenDatenbasierte RegelungStabilität
fd@rm@1: fd@rm@0: