Viskosit¨atsl¨osungen von Hamilton–Jacobi–Bellman...

Post on 21-Aug-2019

226 views 0 download

Transcript of Viskosit¨atsl¨osungen von Hamilton–Jacobi–Bellman...

Viskositatslosungen vonHamilton–Jacobi–Bellman Gleichungen

— eine Einfuhrung

Lars Grune

Seminar “Numerische Dynamik von Kontrollsystemen”

Wintersemester ’04/05

Viskositatslosungen

• Anfang der 1980er Jahre von Michael G. Crandall

und Pierre–Louis Lions eingefuhrt

• Verallgemeinerter Losungsbegriff fur partielle Differential-

gleichungen, die keine differenzierbaren Losungen besitzen

• Motivation: Hamilton–Jacobi–Bellman Gleichungen aus der

optimalen Steuerung

• In diesem Vortrag geben wir eine Einfuhrung am Beispiel des

diskontierten optimalen Steuerungsproblems

Diskontierte optimale Steuerung

Bestimme die optimale Wertefunktion v(x) = supu∈U J(x, u) fur

J(x, u) :=∫ ∞

0e−δtg(Φ(t, x, u), u(t)) dt,

δ > 0 und Φ(t, x, u) Losung des Kontrollsystems

x(t) = f(x(t), u(t))

mit Anfangswert Φ(0, x, u) = x ∈ Rd und Kontrollfunktion

u ∈ U = {u : R → U |messbar}, U ⊂ Rl kompakt

Das Bellman‘sche Optimalitatsprinzip

Fur alle T > 0 gilt

v(x) = supu∈U

{∫ T

0e−δtg(Φ(t, x, u), u(t)) dt + e−δTv(Φ(T, x, u))

}.

• hierdurch ist v eindeutig bestimmt (Kontraktionsargument)

• ist Ausgangspunkt fur numerische Approximation

(dynamische Programmierung)

• liefert die Basis fur die Hamilton–Jacobi–Bellman Gleichung

Die Hamilton–Jacobi–Bellman Gleichung

Wenn v in x ∈ Rd differenzierbar ist, so gilt die Hamilton–Jacobi–

Bellman (HJB) Gleichung

δv(x) + infu∈U

{−Dv(x) · f(x, u)− g(x, u)} = 0

Die Hamilton–Jacobi–Bellmanas Gleichung

Beweisskizze: Aus dem Optimalitatsprinzip erhalt man

infu∈U

{v(x)− e−δTv(Φ(T, x, u))

T−

1

T

∫ T

0e−δtg(Φ(t, x, u), u(t)) dt

}= 0.︸ ︷︷ ︸

→ δv(x)−Dv(x) · f(x, u)︸ ︷︷ ︸

→ g(x, u)

fur T → 0

⇒ δv(x) + infu∈U

{−Dv(x) · f(x, u)− g(x, u)} = 0

(HJB) = infinitesimale Version des Optimalitatsprinzips

Die Hamilton–Jacobi–Bellman Gleichung

δv(x) + infu∈U

{−Dv(x) · f(x, u)− g(x, u)} = 0

Wir schreiben diese partielle Differentialgleichung kurz als

δv(x) + H(x, Dv(x)) = 0

mit

H(x, p) := infu∈U

{−p · f(x, u)− g(x, u)}

Problem: Im Allgemeinen sind optimale Wertefunktionen

nicht differenzierbar

Beispiel

Optimales Investment Problem

[Haunschmied/Kort/Hartl/Feichtinger 2003]

K = I − σK

I = u

Ziel: maximiere den diskontierten Cashflow∫ ∞

0e−δtg(k(t), I(t), u(t))dt,

mit

g(k, I, u) = k1√

K −K

1 + k2K4+ c1I +

c22

I2 −α

2u2

Optimale Wertefunktion

0 1 2 3 4 5 60

0.20.4

0.60.81

1.21.4

1.6

0.50.60.70.80.9

11.11.21.3

Verallgemeinerte Losungen

Ziel: Definiere Losungen der Gleichung (HJB)

δv(x) + H(x, Dv(x)) = 0

fur nicht differenzierbare v

Erste Idee: verlange die Erfullung von (HJB) nur fur solche

x ∈ Rd, in denen Dv(x) existiert die optimale Wertefunktion

erfullt (HJB)

Problem: es gibt i.A. noch viele weitere Funktionen, die (HJB)

in diesem Sinne erfullen keine Eindeutigkeit der Losung

Verallgemeinerte Losungen

Ziel: Definiere Losungen der Gleichung (HJB)

δv(x) + H(x, Dv(x)) = 0

fur nicht differenzierbare v

Zweite Idee: verlange die Erfullung von (HJB) nur fur solche

x ∈ Rd, in denen Dv(x) existiert

und

modifiziere (HJB) geeignet fur die sonstigen x

Super– und Subdifferential

Erinnerung: w : Rd → R heißt differenzierbar in x ∈ Rd, wenn

Dw(x) := p ∈ Rd existiert, so dass gilt

limy→x

w(y)− w(x)− p · (y − x)

‖y − x‖= 0

Def.: Das Superdifferential von w in x ∈ Rd ist definiert durch

D+w(x) :=

{p ∈ Rd

∣∣∣∣∣lim infy→x

w(y)− w(x)− p · (y − x)

‖y − x‖≥ 0

}

Das Subdifferential von w in x ∈ Rd ist definiert durch

D−w(x) :=

{p ∈ Rd

∣∣∣∣∣lim supy→x

w(y)− w(x)− p · (y − x)

‖y − x‖≤ 0

}

Super– und Subdifferential

w

x

w

x

Elemente des Super– und Subdifferentials

Beobachtung: falls w in x differenzierbar ist, gilt

D+w(x) = D−w(x) = {Dw(x)}

Viskositatslosungen, Definition 1

Eine stetige Funktion w : Rd → R heißt Viskositatslosung von

(HJB), falls gilt:

δw(x) + H(x, p) ≤ 0 fur alle x ∈ Rd und alle p ∈ D+w(x)

und δw(x) + H(x, p) ≥ 0 fur alle x ∈ Rd und alle p ∈ D−w(x)

w heißt Viskositats–Unterlosung, wenn die erste Bedingung gilt

w heißt Viskositats–Oberlosung, wenn die zweite Bedingung gilt

Viskositatslosungen und klassische Losungen

Satz: Eine differenzierbare Funktion w : Rd → R ist genau dann

eine klassische Losung von (HJB) wenn sie eine Viskositatslosung

ist

Beweisskizze: Im differenzierbaren Fall gilt

D+w(x) = D−w(x) = {Dw(x)}

und damit

δw(x) + H(x, Dw(x)) = 0 ⇔{

δw(x) + H(x, p) ≥ 0 ∀p ∈ D−w(x)δw(x) + H(x, p) ≤ 0 ∀p ∈ D+w(x)

Viskositatslosungen, aquivalente Definition

Dies ist recht anschauliche Verallgemeinerung des klassischen

Losungsbegriffe. Besser geeignet fur Beweise ist aber eine aqui-

valente Definition, die auf der folgenden Beobachtung beruht:

Sei w : Rd → R stetig, x ∈ Rd und p ∈ Rd. Dann sind aquivalent:

(i) p ∈ D+w(x) [bzw. p ∈ D−w(x)].

(ii) Es existiert ein ϕ ∈ C1(Rd, R) mit Dϕ(x) = p, so dass w − ϕ

ein (nicht notwendigerweise striktes) lokales Maximum

[bzw. Minimum] in x annimmt.

Viskositatslosungen, Definition 2

Eine stetige Funktion w : Rd → R heißt Viskositatslosung von

(HJB), wenn fur alle Testfunktionen ϕ ∈ C1(Rd, R) gilt:

w − ϕ nimmt in x ∈ Rd ein lokales Maximum an

⇒ δw(x) + H(x, Dϕ(x)) ≤ 0

w − ϕ nimmt in x ∈ Rd ein lokales Minimum an

⇒ δw(x) + H(x, Dϕ(x)) ≥ 0.

w heißt Viskositats–Unterlosung, wenn die erste Bedingung gilt

w heißt Viskositats–Oberlosung, wenn die zweite Bedingung gilt

Der Name “Viskositatslosungen”

Die HJB Gleichung kann approximiert werden durch

δvε(x) + H(x, Dvε(x))− ε∆vε(x) = 0,

mit dem Laplace–Operator ∆v = TrD2v =d∑

i=1

∂2

∂x2iv

Diese (gleichmaßig elliptische) PDGL hat eine klassische Losung

vε ∈ C2(Rd, R) fur die vε → v fur ε → 0 gilt

“ε∆vε(x)” wird in der Physik Viskositat genannt, die Approxi-

mation vε → v heißt Methode der verschwindenden Viskositat

Dies ist der Grund fur den Namen Viskositatslosung

Existenzsatz

Satz: Die optimale Wertefunktion v des diskontierten optimalen

Steuerungsproblems ist eine Viskositatslosung von (HJB).

Beweisskizze: Wir mussen zeigen, dass v sowohl Viskositats–

Unterlosung als auch –Oberlosung ist.

Wir skizzieren die Oberlosungseigenschaft, fur die Unterlosung

argumentiert man ahnlich.

Beweisskizze des Existenzsatzes

Wir wahlen ϕ ∈ C1(Rd, R), so dass w−ϕ in x ein lokales Minimum

besitzt. O.B.d.A. konnen wir v(x) = ϕ(x) annehmen, womit fur

y nahe x die Ungleichung v(y) ≥ ϕ(y) folgt.

Aus dem Optimalitatsprinzip folgt dann fur hinreichend kleine

T > 0

ϕ(x) = v(x) = supu∈U

T∫0

e−δtg(Φ(t, x, u), u(t))dt + e−δTv(Φ(T, x, u))

≥ supu∈U

T∫0

e−δtg(Φ(t, x, u), u(t))dt + e−δTϕ(Φ(T, x, u))

Beweisskizze des Existenzsatzes

Umstellen der Terme liefert

infu∈U

{ϕ(x)− e−δTϕ(Φ(T, x, u))

T−

1

T

∫ T

0e−δtg(Φ(t, x, u), u(t)) dt

}≥ 0.

Grenzubergang T → 0 ergibt dann

δϕ(x) + infu∈U

{−Dϕ(x) · f(x, u)− g(x, u)} ≥ 0,

was wegen v(x) = ϕ(x) gerade die Oberlosungseigenschaft

δv(x) + H(x, Dϕ(x)) ≥ 0

ist.

Existenzsatz

Dies zeigt, dass die optimale Wertefunktion tatsachich eine Vis-

kositatslosung von (HJB) ist

Insbesondere wissen wir damit, dass eine Viskositatslosung von

(HJB) existiert

Allerdings konnten weitere Viskositatslosungen existieren, die mit

unserem optimalen Steuerungsproblem nichts zu tun haben. Um

dies auszuschließen, benotigen wir ein Eindeutigkeitsresultat

In der Theorie der Viskositatslosungen wird ein solches Resul-

tat typischerweise als soganntes “Vergleichsprinzip” formuliert,

in dem Unter– und Oberlosungen verglichen werden.

Vergleichsprinzip

Satz: Es seien f und g beschrankt und Lipschitz stetig in x glm.

in u. Weiterhin sei v1 eine stetige und beschrankte Viskositats–

Unterlosung von (HJB) und v2 eine stetige und beschrankte Vis-

kositats–Oberlosung von (HJB). Dann gilt

v1(x) ≤ v2(x) fur alle x ∈ Rd.

Korollar: Die optimale Wertefunktion v ist die eindeutige stetige

und beschrankte Viskositatslosung von (HJB).

Beweis des Korollars: Jede Viskositatslosung ist per Definition

Ober– und Unterlosung. Fur jede weitere Losung v gilt also nach

dem Vergleichsprinzip v ≤ v und v ≤ v und damit Gleichheit.

Beweisskizze des Vergleichsprinzip

Zu zeigen: supx∈Rd v1(x)− v2(x) ≤ 0

Ansatz “Verdopplung der Variablen”: Fur festes η > 0 und varia-

bles ε > 0 konstruiere Ψε(x, y) = v1(x)− v2(y)− Fε(x, y) mit

(i) supx∈Rd v1(x)− v2(x) ≤ supx,y∈Rd Ψε(x, y) + η

(ii) das Supremum uber Ψε ist ein Maximum, das im Punkt (xε, yε)

angenommen wird die Funktionen

ϕ1(x) := v1(x)−Ψε(x, yε), ϕ2(y) := v2(y) + Ψε(xε, y)

sind Vergleichsfunktionen fur v1 bzw. v2 in x = xε bzw. y = yε

δv1(xε)+H(xε, Dϕ1(xε)) ≤ 0, δv2(yε)+H(yε, Dϕ1(yε)) ≥ 0

(iii) aus diesen Ungleichungen folgt lim supε→0 Ψε(xε, yε) ≤ η

Beweisskizze des Vergleichsprinzip

Dies funktioniert mit

Ψε(x, y) = v1(x)− v2(y)−‖x− y‖2

2ε− β(h(x) + h(y))

mit

h ∈ C1(Rd, R), h(x) →∞ fur ‖x‖ → ∞.

Fur hinreichend kleines β erhalten wir

(i) supx∈Rd v1(x)− v2(x) ≤ supx,y∈Rd Ψε(x, y) + η

Beweisskizze des Vergleichsprinzip

Ψε(x, y) = v1(x)− v2(y)−‖x− y‖2

2ε− β(h(x) + h(y))

Wegen der unbeschrankten Negativitat von −β(h(x) + h(y)) nimmt

Ψε sein Maximum in einem Punkt (xε, yε) an, also gilt (ii).

Die Maximalstelle (xε, yε) liegt dabei in einer unabhangig von ε

beschrankten Menge (dafur sorgt −β(h(x) + h(y)))

Wegen des Terms ‖x− y‖2/(2ε) gilt damit

‖xε − yε‖ ≤√

Cε und limε→0

‖x− y‖2

2ε= 0

Beweisskizze des Vergleichsprinzip

Mit diesen Ungleichungen und den Vergleichsfunktionen

ϕ1(x) := v1(x)−Ψε(x, yε), ϕ2(y) := v2(y) + Ψε(xε, y)

erhalt man aus den Viskositatslosungs–Ungleichungen

δv1(xε) + H(xε, Dϕ1(xε)) ≤ 0, δv2(yε) + H(yε, Dϕ1(yε)) ≥ 0

fur hinreichend kleines β > 0 die gewunschte Eigenschaft (iii)

lim supε→0 Ψε(xε, yε) ≤ η

⇒ supx∈Rd

v1(x)− v2(x) ≤ 2η ⇒ Behauptung, da η > 0 beliebig

Stochastische optimale Steuerung

Bestimme die optimale Wertefunktion v(x) = supu∈U J(x, u) fur

J(x, u) := E

[∫ ∞

0e−δtg(X(t, x, u), u(t)) dt

],

δ > 0 und X(t, x, u) Losung des stochastischen Kontrollsystems

dX(t) = a(X(t), u(t))dt + b(X(t), u(t))dWt

mit X(0, x, u) = x ∈ Rd, Wt = m–dim. Wiener Prozess und

u ∈ U = {u : R → U |messbarer stoch. Prozess}, U ⊂ Rl kompakt

Das Bellman‘sche Optimalitatsprinzip

Fur alle T > 0 gilt

v(x) = supu∈U

E

[∫ T

0e−δtg(X(t, x, u), u(t)) dt + e−δTv(X(T, x, u))

].

Dieses Prinzip ist vollig analog zum deterministischen Fall, es

kommt lediglich der Erwartungswert hinzu

Die daraus resultierende Hamilton–Jacobi–Bellman Gleichung sieht

allerdings anders aus

Die Hamilton–Jacobi–Bellmanas Gleichung

Herleitung: Aus dem Optimalitatsprinzip erhalt man

infu∈U

E

[v(x)− e−δTv(X(T, x, u))

T−

1

T

∫ T

0e−δtg(X(t, x, u), u(t)) dt

]= 0.︸ ︷︷ ︸

→δv(x)−Dv(x)·a(x,u)−12Tr(b(x,u)b(x,u)T D2v(x))

︸ ︷︷ ︸→ g(x, u)

fur T → 0, da bei der Ableitung entlang X das Ito–Lemma

berucksichtigt werden muss

⇒ δv(x)+infu∈U{−12Tr(b(x,u)b(x,u)T D2v(x))−Dv(x)·a(x,u)−g(x,u)}=0

Die Hamilton–Jacobi–Bellman Gleichung

δv(x)+infu∈U{−12Tr(b(x,u)b(x,u)T D2v(x))−Dv(x)·a(x,u)−g(x,u)}=0

Wir schreiben diese partielle Differentialgleichung kurz als

δv(x) + H(x, Dv(x), D2v(x)) = 0

mit

H(x, p, Q) := infu∈U

{−1

2Tr(b(x, u)b(x, u)TQ)− p · a(x, u)− g(x, u)}

Viskositatslosungen

Das Viskositatslosungsdefinition mittels Testfunktionen lasst sich

leicht auf (sHJB) verallgemeinern:

Eine stetige Funktion w : Rd → R heißt Viskositatslosung von

(sHJB), wenn fur alle Testfunktionen ϕ ∈ C2(Rd, R) gilt:

w − ϕ nimmt in x ∈ Rd ein lokales Maximum an

⇒ δw(x) + H(x, Dϕ(x), D2ϕ(x)) ≤ 0

w − ϕ nimmt in x ∈ Rd ein lokales Minimum an

⇒ δw(x) + H(x, Dϕ(x), D2ϕ(x)) ≥ 0.

Existenz– und Eindeutigkeit wie im deterministischen Fall

Anwendungen

Abgesehen von ihrer mathematischen Eleganz, hat die Visko-

sitatslosungstheorie eine ganze Reihe praktischer Anwendungen:

• Verifikation optimaler Wertefunktionen

• Großerer Vorrat an mathematischen Techniken zur Analyse

optimaler Steuerungsprobleme, aber auch umgekehrt zur

Analyse partieller Differentialgleichungen

• Analyse und Konstruktion numerischer Schemata

Literatur

M. Bardi and I. Capuzzo Dolcetta, Optimal Control and Viscosity Solutionsof Hamilton-Jacobi-Bellman equations, Birkhauser, Boston, 1997.Sehr ausfuhrliche Monographie uber deterministische Probleme

W. H. Fleming and M. H. Soner, Controlled Markov processes and viscositysolutions, Springer–Verlag, New York, 1993.Monographie uber stochastische Probleme, mit einer ausfuhrlichen Einfuhrungin deterministische Probleme

M. G. Crandall, H. Ishii, and P.-L. Lions, User’s guide to viscosity solutionsof second order partial differential equations, Bull. Amer. Math. Soc. (N.S.),27 (1992), pp. 1–67.Uberblicksartikel uber stochastische HJB Gleichungen

M. G. Crandall and P.-L. Lions, Viscosity solutions of Hamilton–Jacobi equa-tions, Trans. Amer. Math. Soc., 277 (1983), pp. 1–42.Die ursprungliche Arbeit, in der Viskositatslosungen eingefuhrt wurden.