Datenbasierte Regelung mit Garantien · Motivation Regler Regelstrecke u Messung r e y ym?...

84
Datenbasierte Regelung mit Garantien Thomas Beckers Sandra Hirche Lehrstuhl für Informationstechnische Regelung Technische Universität München 53. Regelungstechnisches Kolloquium, 21.02.2019 www.itr.ei.tum.de

Transcript of Datenbasierte Regelung mit Garantien · Motivation Regler Regelstrecke u Messung r e y ym?...

  • Datenbasierte Regelung mit Garantien

    Thomas Beckers Sandra Hirche

    Lehrstuhl für Informationstechnische RegelungTechnische Universität München

    53. Regelungstechnisches Kolloquium, 21.02.2019

    www.itr.ei.tum.de

    http://www.itr.ei.tum.de

  • Motivation

    Regler Regelstreckeu

    Messung

    r e y

    ym

    ?

    HerausforderungAuslegung des Reglers erfordert ein präzises Modell der Regelstrecke

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 2

  • Motivation

    Wie modellieren wir eine Regelstrecke?

    y

    x

    M F➝

    θ

    l

    m

    Invertiertes Pendel

    z.B. mit Lagrange-Formalismus:

    (M +m)ẍ−mlθ̈ cos θ +mlθ̇ sin θ = Flθ̈ − g sin θ = ẍ cos θ

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 3

  • Motivation

    [Soft robotics]

    [Kuka] [Bitcraze]

    Parametrische Modellierung sehr zeitaufwendig oder unzureichend

    ⇒ Datenbasierte Regelung

    mit Garantien

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 4

  • Motivation

    [Soft robotics] [Kuka]

    [Bitcraze]

    Parametrische Modellierung sehr zeitaufwendig oder unzureichend

    ⇒ Datenbasierte Regelung

    mit Garantien

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 4

  • Motivation

    [Soft robotics] [Kuka] [Bitcraze]

    Parametrische Modellierung sehr zeitaufwendig oder unzureichend

    ⇒ Datenbasierte Regelung

    mit Garantien

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 4

  • Motivation

    [Soft robotics] [Kuka] [Bitcraze]

    Parametrische Modellierung sehr zeitaufwendig oder unzureichend

    ⇒ Datenbasierte Regelung

    mit Garantien

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 4

  • Motivation

    [Soft robotics] [Kuka] [Bitcraze]

    Parametrische Modellierung sehr zeitaufwendig oder unzureichend

    ⇒ Datenbasierte Regelung

    mit Garantien

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 4

  • Motivation

    [Soft robotics] [Kuka] [Bitcraze]

    Parametrische Modellierung sehr zeitaufwendig oder unzureichend

    ⇒ Datenbasierte Regelung mit Garantien

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 4

  • Parametrische Modelle

    Eingang x

    Ausga

    ngy

    y = f(x,θ)

    Eingang x und Ausgang yModell fParameter θ

    Feste Anzahl von Parametern θ, Prädiktion unabhängig von Datensatz

    Modellkomplexität ist begrenzt durch die Anzahl der Parameter

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 5

  • Parametrische Modelle

    Eingang x

    Ausga

    ngy

    y = f(x,θ)

    Eingang x und Ausgang yModell fParameter θ

    Feste Anzahl von Parametern θ, Prädiktion unabhängig von Datensatz

    Modellkomplexität ist begrenzt durch die Anzahl der Parameter

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 5

  • Parametrische Modelle

    Eingang x

    Ausga

    ngy

    y = f(x,θ)

    Eingang x und Ausgang yModell fParameter θ

    Linear: y = ax+ b

    Feste Anzahl von Parametern θ, Prädiktion unabhängig von Datensatz

    Modellkomplexität ist begrenzt durch die Anzahl der Parameter

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 5

  • Parametrische Modelle

    Eingang x

    Ausga

    ngy

    y = f(x,θ)

    Eingang x und Ausgang yModell fParameter θ

    Quadratisch: y = ax2 + bx+ c

    Feste Anzahl von Parametern θ, Prädiktion unabhängig von Datensatz

    Modellkomplexität ist begrenzt durch die Anzahl der Parameter

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 5

  • Parametrische Modelle

    Eingang x

    Ausga

    ngy

    y = f(x,θ)

    Eingang x und Ausgang yModell fParameter θ

    Welches Modell ist korrekt?

    Feste Anzahl von Parametern θ, Prädiktion unabhängig von Datensatz

    Modellkomplexität ist begrenzt durch die Anzahl der Parameter

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 5

  • Parametrische Modelle

    Eingang x

    Ausga

    ngy

    y = f(x,θ)

    Eingang x und Ausgang yModell fParameter θ

    Welches Modell ist korrekt?

    Feste Anzahl von Parametern θ, Prädiktion unabhängig von Datensatz

    Modellkomplexität ist begrenzt durch die Anzahl der Parameter

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 5

  • Parametrische Modelle

    Eingang x

    Ausga

    ngy

    y = f(x,θ)

    Eingang x und Ausgang yModell fParameter θ

    Welches Modell ist korrekt?

    Feste Anzahl von Parametern θ, Prädiktion unabhängig von Datensatz

    Modellkomplexität ist begrenzt durch die Anzahl der Parameter

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 5

  • Datenbasierte Modelle

    Eingang x

    Ausga

    ngy

    Eigenschaften:� Wächst mit Anzahl der Datenpunkte N� Abhängig vom Datensatz D = {X,Y }

    f =

    N∑j=0

    wjk(x,Xj)

    � Modellkomplexität nicht begrenzt

    Flexible Modellierung aber häufig mangelhafte Interpretierbarkeit

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 6

  • Datenbasierte Modelle

    Eingang x

    Ausga

    ngy

    Eigenschaften:� Wächst mit Anzahl der Datenpunkte N� Abhängig vom Datensatz D = {X,Y }

    f =

    N∑j=0

    wjk(x,Xj)

    � Modellkomplexität nicht begrenzt

    Flexible Modellierung aber häufig mangelhafte Interpretierbarkeit

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 6

  • Datenbasierte Modelle

    Eingang x

    Ausga

    ngy

    Eigenschaften:� Wächst mit Anzahl der Datenpunkte N� Abhängig vom Datensatz D = {X,Y }

    f =

    N∑j=0

    wjk(x,Xj)

    � Modellkomplexität nicht begrenzt

    Flexible Modellierung aber häufig mangelhafte Interpretierbarkeit

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 6

  • Datenbasierte Modelle

    Eingang x

    Ausga

    ngy

    Eigenschaften:� Wächst mit Anzahl der Datenpunkte N� Abhängig vom Datensatz D = {X,Y }

    f =

    N∑j=0

    wjk(x,Xj)

    � Modellkomplexität nicht begrenzt

    Flexible Modellierung aber häufig mangelhafte Interpretierbarkeit

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 6

  • Datenbasierte Modelle

    Eingang x

    Ausga

    ngy

    Eigenschaften:� Wächst mit Anzahl der Datenpunkte N� Abhängig vom Datensatz D = {X,Y }

    f =

    N∑j=0

    wjk(x,Xj)

    � Modellkomplexität nicht begrenzt

    Flexible Modellierung aber häufig mangelhafte Interpretierbarkeit

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 6

  • Datenbasierte Modelle

    Eingang x

    Ausga

    ngy

    Eigenschaften:� Wächst mit Anzahl der Datenpunkte N� Abhängig vom Datensatz D = {X,Y }

    f =

    N∑j=0

    wjk(x,Xj)

    � Modellkomplexität nicht begrenzt

    Flexible Modellierung aber häufig mangelhafte Interpretierbarkeit

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 6

  • Datenbasierte Modelle

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 6

  • Datenbasierte Modelle

    Eingang x

    Ausga

    ngy

    Eigenschaften:� Wächst mit Anzahl der Datenpunkte N� Abhängig vom Datensatz D = {X,Y }

    f =

    N∑j=0

    wjk(x,Xj)

    � Modellkomplexität nicht begrenzt

    Flexible Modellierung aber häufig mangelhafte Interpretierbarkeit

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 6

  • Agenda

    Regelstrecke DatenbasiertesModell

    ReglerDaten Prädiktion

    Forschungsfragen:

    � Eigenschaften von datenbasierten Modellen� Integration von Vorwissen� Garantien für datenbasierte Regelung

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 7

  • Agenda

    Regelstrecke DatenbasiertesModell

    ReglerDaten Prädiktion

    Forschungsfragen:� Eigenschaften von datenbasierten Modellen

    � Integration von Vorwissen� Garantien für datenbasierte Regelung

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 7

  • Agenda

    Regelstrecke DatenbasiertesModell

    ReglerDaten Prädiktion

    Forschungsfragen:� Eigenschaften von datenbasierten Modellen� Integration von Vorwissen

    � Garantien für datenbasierte Regelung

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 7

  • Agenda

    Regelstrecke DatenbasiertesModell

    ReglerDaten Prädiktion

    Forschungsfragen:� Eigenschaften von datenbasierten Modellen� Integration von Vorwissen� Garantien für datenbasierte Regelung

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 7

  • Gauß-Prozess

    Idee:� Gauß Prior über Funktionenraum� Verbesserung durch Datenpunkte

    Vorzüge:� Vollständig probabilistisch� Robust gegen Rauschen� Beschreibung der Unsicherheit� Einbringen von Vorwissen

    Prädiktion mit Wissen über die Modellunsicherheit

    C.E. Rasmussen, Gaussian Processes for Machine Learning. 2006Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 8

  • Gauß-Prozess

    Idee:� Gauß Prior über Funktionenraum� Verbesserung durch Datenpunkte

    Vorzüge:� Vollständig probabilistisch� Robust gegen Rauschen� Beschreibung der Unsicherheit� Einbringen von Vorwissen

    Prädiktion mit Wissen über die Modellunsicherheit

    C.E. Rasmussen, Gaussian Processes for Machine Learning. 2006Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 8

  • Gauß-Prozess

    Idee:� Gauß Prior über Funktionenraum� Verbesserung durch Datenpunkte

    Vorzüge:� Vollständig probabilistisch� Robust gegen Rauschen� Beschreibung der Unsicherheit� Einbringen von Vorwissen

    Prädiktion mit Wissen über die Modellunsicherheit

    C.E. Rasmussen, Gaussian Processes for Machine Learning. 2006Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 8

  • Gauß-Prozess

    Idee:� Gauß Prior über Funktionenraum� Verbesserung durch Datenpunkte

    Vorzüge:� Vollständig probabilistisch� Robust gegen Rauschen� Beschreibung der Unsicherheit� Einbringen von Vorwissen

    Prädiktion mit Wissen über die Modellunsicherheit

    C.E. Rasmussen, Gaussian Processes for Machine Learning. 2006Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 8

  • Gauß-Prozess

    Idee:� Gauß Prior über Funktionenraum� Verbesserung durch Datenpunkte

    Vorzüge:� Vollständig probabilistisch� Robust gegen Rauschen� Beschreibung der Unsicherheit� Einbringen von Vorwissen

    Prädiktion mit Wissen über die Modellunsicherheit

    C.E. Rasmussen, Gaussian Processes for Machine Learning. 2006Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 8

  • Gauß-Prozess

    Idee:� Gauß Prior über Funktionenraum� Verbesserung durch Datenpunkte

    Vorzüge:� Vollständig probabilistisch� Robust gegen Rauschen� Beschreibung der Unsicherheit� Einbringen von Vorwissen

    Prädiktion mit Wissen über die Modellunsicherheit

    C.E. Rasmussen, Gaussian Processes for Machine Learning. 2006Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 8

  • Gauß-Prozess

    Idee:� Gauß Prior über Funktionenraum� Verbesserung durch Datenpunkte

    Vorzüge:� Vollständig probabilistisch� Robust gegen Rauschen� Beschreibung der Unsicherheit� Einbringen von Vorwissen

    Prädiktion mit Wissen über die Modellunsicherheit

    C.E. Rasmussen, Gaussian Processes for Machine Learning. 2006Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 8

  • Gauß-Prozess

    Idee:� Gauß Prior über Funktionenraum� Verbesserung durch Datenpunkte

    Vorzüge:� Vollständig probabilistisch� Robust gegen Rauschen� Beschreibung der Unsicherheit� Einbringen von Vorwissen

    Prädiktion mit Wissen über die Modellunsicherheit

    C.E. Rasmussen, Gaussian Processes for Machine Learning. 2006Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 8

  • Datenbasierte Regelung

    Regler Regelstrecke

    GP Modell

    u

    Messung

    r e y

    ym

    Performanz verbessern und Stabilität garantieren

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 9

  • Datenbasierte Regelung

    Regler Regelstrecke

    GP Modell

    u

    Messung

    r e y

    ym

    Performanz verbessern und Stabilität garantieren

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 9

  • Beispiel: Lagrangesche Mechanik

    d

    dt

    (∂L∂q̇

    )− ∂L

    ∂q︸ ︷︷ ︸ = u︸ ︷︷ ︸

    + f︸ ︷︷ ︸

    generalisierte Koordinaten q ∈ Rn, Lagrange Funktion L : Rn × Rn → R

    Äquivalente FormH(q)q̈ + C(q, q̇)q̇ + g(q)− f(q̈, q̇, q) = u(t)

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 10

  • Beispiel: Lagrangesche Mechanik

    d

    dt

    (∂L∂q̇

    )− ∂L

    ∂q︸ ︷︷ ︸ = u︸ ︷︷ ︸ + f︸ ︷︷ ︸

    generalisierte Koordinaten q ∈ Rn, Lagrange Funktion L : Rn × Rn → R

    Äquivalente FormH(q)q̈ + C(q, q̇)q̇ + g(q)− f(q̈, q̇, q) = u(t)

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 10

  • Beispiel: Lagrangesche Mechanik

    d

    dt

    (∂L∂q̇

    )− ∂L

    ∂q︸ ︷︷ ︸ = u︸ ︷︷ ︸ + f︸ ︷︷ ︸

    generalisierte Koordinaten q ∈ Rn, Lagrange Funktion L : Rn × Rn → R

    Äquivalente FormH(q)q̈ + C(q, q̇)q̇ + g(q)− f(q̈, q̇, q) = u(t)

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 10

  • Klassischer Ansatz

    Computed-torque control: u(t) = Ĥ(q)q̈d + Ĉ(q, q̇)q̇d + ĝ(q)︸ ︷︷ ︸parametrisches Modell

    − Kdė−Kpe︸ ︷︷ ︸Feedback Regler

    � Mit Ĥ = H, Ĉ = C, ĝ = g und f = 0 ⇒ Asymptotisch stabil� Ansonsten: Erhöhung von Kd,Kp, um den Regelfehler zu minimieren

    Nachteile� Stabilität nicht mehr garantiert� Starke Verstärkung von Rauschen ⇒ Sättigung der Aktuatoren� Steife Struktur durch große Verstärkung in der Rückkopplung

    Weitere Ansätze� Adaptive Regelung [Slotine+ 1987]� Datenbasierte Verfahren [Nguyen-Tuong+ 2010; Alberto+ 2014]� Stabilitätsgarantien [Chowdhary+ 2015; Berkenkamp+ 2016]

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 11

  • Klassischer Ansatz

    Computed-torque control: u(t) = Ĥ(q)q̈d + Ĉ(q, q̇)q̇d + ĝ(q)︸ ︷︷ ︸parametrisches Modell

    − Kdė−Kpe︸ ︷︷ ︸Feedback Regler

    � Mit Ĥ = H, Ĉ = C, ĝ = g und f = 0 ⇒ Asymptotisch stabil� Ansonsten: Erhöhung von Kd,Kp, um den Regelfehler zu minimieren

    Nachteile� Stabilität nicht mehr garantiert� Starke Verstärkung von Rauschen ⇒ Sättigung der Aktuatoren� Steife Struktur durch große Verstärkung in der Rückkopplung

    Weitere Ansätze� Adaptive Regelung [Slotine+ 1987]� Datenbasierte Verfahren [Nguyen-Tuong+ 2010; Alberto+ 2014]� Stabilitätsgarantien [Chowdhary+ 2015; Berkenkamp+ 2016]

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 11

  • Klassischer Ansatz

    Computed-torque control: u(t) = Ĥ(q)q̈d + Ĉ(q, q̇)q̇d + ĝ(q)︸ ︷︷ ︸parametrisches Modell

    − Kdė−Kpe︸ ︷︷ ︸Feedback Regler

    � Mit Ĥ = H, Ĉ = C, ĝ = g und f = 0 ⇒ Asymptotisch stabil� Ansonsten: Erhöhung von Kd,Kp, um den Regelfehler zu minimieren

    Nachteile� Stabilität nicht mehr garantiert� Starke Verstärkung von Rauschen ⇒ Sättigung der Aktuatoren� Steife Struktur durch große Verstärkung in der Rückkopplung

    Weitere Ansätze� Adaptive Regelung [Slotine+ 1987]� Datenbasierte Verfahren [Nguyen-Tuong+ 2010; Alberto+ 2014]� Stabilitätsgarantien [Chowdhary+ 2015; Berkenkamp+ 2016]

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 11

  • Datenbasierte Regelung

    1. Schritt: Lernen der Dynamik

    2. Schritt: Regler mit GP Modell

    Regelstrecke

    GP Modell

    Regler Regelstrecke

    GP Modell

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 12

  • Datenbasierte Regelung

    1. Schritt: Lernen der Dynamik 2. Schritt: Regler mit GP Modell

    Regelstrecke

    GP Modell

    Regler Regelstrecke

    GP Modell

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 12

  • Sammeln von Trainingsdaten

    Regler Regelstrecke Ĥ(q)q̈ + Ĉ(q, q̇)q̇ + ĝ(q)uq̈, q̇, q

    {q̈{i}, q̇{i}, q{i}}mi=1

    {τ̃ {i}}mi=1-

    Kombinierter AnsatzParametrisches Modell kann Vorwissen über die Regelstrecke einbringen

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 13

  • Sammeln von Trainingsdaten

    Regler Regelstrecke Ĥ(q)q̈ + Ĉ(q, q̇)q̇ + ĝ(q)uq̈, q̇, q

    {q̈{i}, q̇{i}, q{i}}mi=1

    {τ̃ {i}}mi=1-

    Kombinierter AnsatzParametrisches Modell kann Vorwissen über die Regelstrecke einbringen

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 13

  • Sammeln von Trainingsdaten

    Regler Regelstrecke Ĥ(q)q̈ + Ĉ(q, q̇)q̇ + ĝ(q)uq̈, q̇, q

    {q̈{i}, q̇{i}, q{i}}mi=1

    {τ̃ {i}}mi=1-

    Kombinierter AnsatzParametrisches Modell kann Vorwissen über die Regelstrecke einbringen

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 13

  • Sammeln von Trainingsdaten

    Regler Regelstrecke Ĥ(q)q̈ + Ĉ(q, q̇)q̇ + ĝ(q)uq̈, q̇, q

    {q̈{i}, q̇{i}, q{i}}mi=1

    {τ̃ {i}}mi=1-

    Kombinierter AnsatzParametrisches Modell kann Vorwissen über die Regelstrecke einbringen

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 13

  • Training des GP Modells

    µ(x|D) =N∑j=0

    wjk(x,Xj)

    Kernel k:

    � Matern, stetig� Matern, differenzierbar� Squared Exponential

    Kernel bestimmt Eigenschaften des Modells

    T. Beckers and S. Hirche. Stability of Gaussian Process State Space Models. ECC, 2016Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 14

  • Training des GP Modells

    µ(x|D) =N∑j=0

    wjk(x,Xj)

    Kernel k:� Matern, stetig

    � Matern, differenzierbar� Squared Exponential

    Kernel bestimmt Eigenschaften des Modells

    T. Beckers and S. Hirche. Stability of Gaussian Process State Space Models. ECC, 2016Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 14

  • Training des GP Modells

    µ(x|D) =N∑j=0

    wjk(x,Xj)

    Kernel k:� Matern, stetig� Matern, differenzierbar

    � Squared Exponential

    Kernel bestimmt Eigenschaften des Modells

    T. Beckers and S. Hirche. Stability of Gaussian Process State Space Models. ECC, 2016Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 14

  • Training des GP Modells

    µ(x|D) =N∑j=0

    wjk(x,Xj)

    Kernel k:� Matern, stetig� Matern, differenzierbar� Squared Exponential

    Kernel bestimmt Eigenschaften des Modells

    T. Beckers and S. Hirche. Stability of Gaussian Process State Space Models. ECC, 2016Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 14

  • Training des GP Modells

    µ(x|D) =N∑j=0

    wjk(x,Xj)

    Kernel k:� Matern, stetig� Matern, differenzierbar� Squared Exponential

    Kernel bestimmt Eigenschaften des Modells

    T. Beckers and S. Hirche. Stability of Gaussian Process State Space Models. ECC, 2016Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 14

  • Beispiel

    0 2 4 6 8 10 12 14

    Zeit [s]

    Zustand

    SystemGP Modell

    Kernel erzeugt nur beschränkte Trajektorien

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 15

  • Beispiel

    0 0.5 1 1.5 2 2.5 3

    Zeit [s]

    Zustand

    SystemGP Modell

    Kernel erzeugt nur beschränkte Trajektorien

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 15

  • Eigenschaften durch Kernel

    Beschränkte Trajektorien

    Anzahl der Ruhelagen

    Verteilung der Ruhelage

    T. Beckers and S. Hirche. Equilibrium Distributions and Stability Analysis of Gaussian Process State Space Models. CDC, 2016Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 16

  • Eigenschaften durch Kernel

    Beschränkte Trajektorien

    Anzahl der Ruhelagen

    Verteilung der Ruhelage

    T. Beckers and S. Hirche. Equilibrium Distributions and Stability Analysis of Gaussian Process State Space Models. CDC, 2016Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 16

  • Eigenschaften durch Kernel

    Beschränkte Trajektorien

    Anzahl der Ruhelagen

    Verteilung der Ruhelage

    T. Beckers and S. Hirche. Equilibrium Distributions and Stability Analysis of Gaussian Process State Space Models. CDC, 2016Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 16

  • Datenbasierte Regelung

    1. Schritt: Lernen der Dynamik 2. Schritt: Regler mit GP Modell

    Regelstrecke

    GP Modell

    Regler Regelstrecke

    GP Modell

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 17

  • Computed torque mit GP Modell

    PD-Regler

    GP Modell

    Computed torqueĤ(q)q̈d + Ĉ(q, q̇)q̇d + ĝ(q)

    Regelstrecke

    µ

    q̈d, q̇d, qd

    u

    Regelgesetz

    u(t) = Ĥq̈d + Ĉq̇d + ĝ︸ ︷︷ ︸Computed torque

    −Kdė−Kpe︸ ︷︷ ︸PD-Regler

    T. Beckers, et al. Stable Gaussian Process based Tracking Control of Lagrangian Systems. CDC, 2017Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 18

  • Computed torque mit GP Modell

    PD-Regler

    GP Modell

    Computed torqueĤ(q)q̈d + Ĉ(q, q̇)q̇d + ĝ(q)

    Regelstreckeµ

    q̈d, q̇d, qd

    u

    Regelgesetz

    u(t) = Ĥq̈d + Ĉq̇d + ĝ︸ ︷︷ ︸Computed torque

    + µ(τ̃ |D)︸ ︷︷ ︸GP Modell

    −Kdė−Kpe︸ ︷︷ ︸PD-Regler

    T. Beckers, et al. Stable Gaussian Process based Tracking Control of Lagrangian Systems. CDC, 2017Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 18

  • Computed torque mit GP Modell

    PD-Regler

    GP Modell

    Computed torqueĤ(q)q̈d + Ĉ(q, q̇)q̇d + ĝ(q)

    Regelstreckeµ

    q̈d, q̇d, qd

    u

    Regelgesetz

    u(t) = Ĥq̈d + Ĉq̇d + ĝ︸ ︷︷ ︸Computed torque

    + µ(τ̃ |D)︸ ︷︷ ︸GP Modell

    −Kdė−Kpe︸ ︷︷ ︸PD-Regler

    T. Beckers, et al. Stable Gaussian Process based Tracking Control of Lagrangian Systems. CDC, 2017Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 18

  • Experiment

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 19

  • Charakteristik

    Soll-Trajektorie, Trainingspunkte, Computed torque, Datenbasierte Regelung

    -1 -0.5 0 0.5 1

    -1

    -0.5

    0

    0.5

    1

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 20

  • Computed torque mit GP Modell

    PD-Regler

    GP model

    Computed torqueĤ(q)q̈d + Ĉ(q, q̇)q̇d + ĝ(q)

    Regelstrecke

    q̈d, q̇d, qd

    Varianz Σ

    µ u

    Regelgesetz

    u(t) = Ĥq̈d + Ĉq̇d + ĝ + µ(τ̃ |D)−Kdė−Kpe

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 21

  • Computed torque mit GP Modell

    PD-Regler

    GP model

    Computed torqueĤ(q)q̈d + Ĉ(q, q̇)q̇d + ĝ(q)

    Regelstrecke

    q̈d, q̇d, qd

    Varianz Σµ u

    Regelgesetz

    u(t) = Ĥq̈d + Ĉq̇d + ĝ + µ(τ̃ |D)−Kd(Σd(τ̃ |D)

    )ė−Kp

    (Σp(τ̃ |D)

    )e

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 21

  • Simulation

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 22

  • Datenbasierte Regelung mit adaptiver Verstärkung

    Soll-Trajektorie, Statische Verstärkung, Adaptive Verstärkung

    -1 -0.5 0 0.5 1

    -1

    -0.5

    0

    0.5

    1

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 23

  • Stabilitätsanalyse

    u(t) = Ĥq̈d + Ĉq̇d + ĝ + µ(τ̃ |D)−Kd(Σd(τ̃ |D)

    )ė−Kp

    (Σp(τ̃ |D)

    )e

    Annahmen� Die Rückkopplungsmatrizen Kd und Kp sind symmetrisch und positiv definit� Der Kernel kann τ̃ repräsentieren (Beschränkte RKHS-Norm)

    Lyapunov Funktion:

    V (ė, e) =1

    2ė⊤Ĥ(q)ė+

    ∫ e0

    z⊤Kp(Σp)dz + εe⊤Ĥ(q)ė

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 24

  • Stabilitätsanalyse

    u(t) = Ĥq̈d + Ĉq̇d + ĝ + µ(τ̃ |D)−Kd(Σd(τ̃ |D)

    )ė−Kp

    (Σp(τ̃ |D)

    )e

    Annahmen� Die Rückkopplungsmatrizen Kd und Kp sind symmetrisch und positiv definit� Der Kernel kann τ̃ repräsentieren (Beschränkte RKHS-Norm)

    Lyapunov Funktion:

    V (ė, e) =1

    2ė⊤Ĥ(q)ė+

    ∫ e0

    z⊤Kp(Σp)dz + εe⊤Ĥ(q)ė

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 24

  • Stabilitätsanalyse

    u(t) = Ĥq̈d + Ĉq̇d + ĝ + µ(τ̃ |D)−Kd(Σd(τ̃ |D)

    )ė−Kp

    (Σp(τ̃ |D)

    )e

    Annahmen� Die Rückkopplungsmatrizen Kd und Kp sind symmetrisch und positiv definit� Der Kernel kann τ̃ repräsentieren (Beschränkte RKHS-Norm)

    Lyapunov Funktion:

    V (ė, e) =1

    2ė⊤Ĥ(q)ė+

    ∫ e0

    z⊤Kp(Σp)dz + εe⊤Ĥ(q)ė

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 24

  • Fehlerdynamik

    V̇ =

    [ėe

    ]⊤ [ −Kd(Σd) + εĤ ε2(−K⊤d (Σd) + Ĉ)ε2(−Kd(Σd) + Ĉ

    ⊤) −εKp(Σp)

    ]︸ ︷︷ ︸

    A

    [ėe

    ]

    +[ė⊤ εe⊤

    ] [µ(τ̃ |D)− τ (q̈, q̇, q)µ(τ̃ |D)− τ (q̈, q̇, q)

    ]︸ ︷︷ ︸

    b

    � Matrix A ist immer negativ definit

    � Der Regelfehler ist abhängig von dem Modellfehler b

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 25

  • Fehlerdynamik

    V̇ =

    [ėe

    ]⊤ [ −Kd(Σd) + εĤ ε2(−K⊤d (Σd) + Ĉ)ε2(−Kd(Σd) + Ĉ

    ⊤) −εKp(Σp)

    ]︸ ︷︷ ︸

    A

    [ėe

    ]

    +[ė⊤ εe⊤

    ] [µ(τ̃ |D)− τ (q̈, q̇, q)µ(τ̃ |D)− τ (q̈, q̇, q)

    ]︸ ︷︷ ︸

    b

    � Matrix A ist immer negativ definit� Der Regelfehler ist abhängig von dem Modellfehler b

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 25

  • Resultat

    Beschränkter Regelfehler

    Die datenbasierte Regelung garantiert für∥∥ė⊤(t0), e⊤(t0)∥∥ < δ, dass

    P

    {∥∥∥∥ė(t)e(t)∥∥∥∥ ≤ r,∀t ≥ t0 + T (δ)} ≥ ρ mit t0, T (δ), δ, r ∈ R>0

    e

    δ r Mehr Trainingsdaten

    e

    δ r

    T. Beckers, D. Kulić, S. Hirche. Stable Gaussian Process based Tracking Control of Euler-Lagrange Systems. Automatica (in print), 2019Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 26

  • Resultat

    Beschränkter Regelfehler

    Die datenbasierte Regelung garantiert für∥∥ė⊤(t0), e⊤(t0)∥∥ < δ, dass

    P

    {∥∥∥∥ė(t)e(t)∥∥∥∥ ≤ r,∀t ≥ t0 + T (δ)} ≥ ρ mit t0, T (δ), δ, r ∈ R>0

    e

    δ r Mehr Trainingsdaten

    e

    δ r

    T. Beckers, D. Kulić, S. Hirche. Stable Gaussian Process based Tracking Control of Euler-Lagrange Systems. Automatica (in print), 2019Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 26

  • Fazit

    Regelstrecke DatenbasiertesModell

    Regler

    GP Modell

    Daten Prädiktion

    humocon

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 27

  • Fazit

    Regelstrecke DatenbasiertesModell

    Regler

    GP Modell

    Daten Prädiktion

    humocon

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 27

  • Fazit

    Regelstrecke DatenbasiertesModell

    Regler

    GP Modell

    Daten Prädiktion

    humocon

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 27

  • Fazit

    Regelstrecke DatenbasiertesModell

    Regler

    GP Modell

    Daten Prädiktion

    humocon

    Einführung Training & Vorwissen Datenbasierte Regelung Stabilität 27

  • ReferencesNicolas Torres Alberto, Michael Mistry and Freek Stulp. Computed torque control with variable gains through Gaussian process.In: International Conference on Humanoid Robots (Humanoids). IEEE. 2014, pp. 212–217.

    T. Beckers and S. Hirche. Equilibrium distributions and stability analysis of Gaussian Process State Space Models.In: Proceedings of the 55th Conference on Decision and Control (CDC). Las Vegas, USA, 2016.

    T. Beckers and S. Hirche. Stability of Gaussian Process State Space Models. In: Proceedings of the European Control Conference (ECC).Aalborg, Denmark, 2016.

    T. Beckers, D. Kulić and S. Hirche. Stable Gaussian Process based Tracking Control of Euler-Lagrange Systems.In: Automatica (in print) (2019).

    T. Beckers, J. Umlauft and S. Hirche. Stable Model-based Control with Gaussian Process Regression for Robot Manipulators.In: Proceedings of the 20th IFAC World Congress. Toulouse, France, 2017.

    F. Berkenkamp, R. Moriconi, A.P. Schoellig and A. Krause.Safe Learning of Regions of Attraction for Uncertain, Nonlinear Systems with Gaussian Processes.In: Proceedings of the Conference on Decision and Control. 2016.

    G. Chowdhary, H. A. Kingravi, J. P. How and P. A. Vela. Bayesian Nonparametric Adaptive Control Using Gaussian Processes.In: IEEE Transactions on Neural Networks and Learning Systems 26.3 (Mar. 2015), pp. 537–550. ISSN: 2162-237X.DOI: 10.1109/TNNLS.2014.2319052.

    Duy Nguyen-Tuong and Jan Peters. Using model knowledge for learning inverse dynamics.In: Proc. of the International Conference on Robotics and Automation. 2010, pp. 2677–2682.

    Jean-Jacques E Slotine and Weiping Li. On the adaptive control of robot manipulators.In: The international journal of robotics research 6.3 (1987), pp. 49–59.

    Jonas Umlauft, Thomas Beckers, Melanie Kimmel and Sandra Hirche. Feedback Linearization using Gaussian Processes.In: Conference on Decision and Control (CDC). IEEE, Dec. 2017.

    28

    \href{http://arxiv.org/abs/1603.04915}{arXiv:1603.04915 [cs.SY]}https://doi.org/10.1109/TNNLS.2014.2319052

  • Simulation mit Rauschen

    0 1 2 3 4 5 6-0.1

    -0.05

    0

    0.05

    Regelfehler

    GeschwindigkeitPosition

    0 1 2 3 4 5 6Zeit

    -20

    0

    20

    Stellgröße

    Stark verrauschte Zustände und Stellgröße

    29

  • Verbesserte Rauschunterdrückung

    0 1 2 3 4 5 6-0.1

    -0.05

    0

    0.05

    Reg

    elfe

    hler

    Computed torqueDatenbasierte

    0 1 2 3 4 5 6Zeit

    -20

    0

    20

    Stel

    lgrö

    ßeRegelung

    30

    EinführungTraining & VorwissenDatenbasierte RegelungStabilität

    fd@rm@1: fd@rm@0: