HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De...

133
Nichtlineare Optimierung HP Butzmann Vorlesung im HWS 10

Transcript of HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De...

Page 1: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Nichtlineare Optimierung

HP Butzmann

Vorlesung im HWS 10

Page 2: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Inhaltsverzeichnis

1 Einfuhrung 2

2 Verfahren (1) 6

3 Konvexe Mengen 26

4 Konvexe Abbildungen 39

5 Differenzierbare Minimierungsprobleme 49

6 Konvexe Optimierung 69

7 Quadratische Minimierungsprobleme 77

8 SQP-Verfahren 123

Literatur 130

1

Page 3: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Kapitel 1

Einfuhrung

Definition 1.1 Es seien D ⊆ Rn, f : D → R eine Abbildung und K ⊆ D. Derformale Ausdruck

min f(x)bez. x ∈ K

heißt Minimierungsproblem (MP). Ein Punkt x∗ ∈ K heißt Losung von(MP), wenn gilt:

f(x∗) ≤ f(x) fur alle x ∈ K .

Also ist x∗ ∈ K genau dann Losung von (MP), wenn gilt f(x∗) = min f(K).

Man nennt K den zulassigen Bereich, die Punkte aus K zulassige Punkteund f die Zielfunktion.

Bemerkung 1.2 Es seien K ⊆ D ⊆ Rn und f : D → R eine Abbildung. Weitersei

g : D −→ R

definiert durch g(x) = −f(x). Dann existiert max f(K) genau dann, wenn min g(K)existiert und es gilt fur alle x∗ ∈ K:

f(x∗) = max f(K) ⇐⇒ g(x∗) = min g(K) .

Also kann man jedes Maximierungsproblem ohne Muhe auf ein Minimierungspro-blem zuruckfuhren.

Beispiele 1.3

(i) Es seien A eine reelle Matrix mit p Zeilen und n Spalten, b ∈ Rp und c ∈ Rn.Man setze

K = {x ∈ Rn : Ax ≤ b}

und definiere f : Rn → R durch

f(x) = ctx

2

Page 4: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Dann heißt das MPmin f(x)bez. x ∈ K

linear. Man schreibt dafur ublicherweise

min ctxbez. Ax ≤ b

und nennt das MP ein lineares Programm. Die Theorie linearer Programme istsehr gut entwickelt, zur praktischen Losung setzt man meistens das Simplex-Verfahren ein. Allerdings betrachtet man mittlerweile sogenannte “Innere-Punkte-Methoden” als echte Alternative dazu.

(ii) Ein neuer Flugplatz mit den Ortskoordinaten x∗ ∈ R2 soll so gelegt werden,dass einerseits eine gewichtete Summe der Entfernungen zu r Nachbarflugplatzenmit den Ortskoordinaten x0, . . . , xr moglichst klein wird, andererseits s Gebie-te, hier durch Kreissscheiben mit den Mittelpunkten y1, . . . , ys und den Radienr1, . . . , rs beschrieben, nicht beruhrt werden. Zur Losung dieses Problems seien

K = {x ∈ Rn : ‖x− yi‖ ≥ ri fur i = 1, . . . , s}

sowie f : K → R definiert durch

f(x) =r∑i=1

γi‖x− xi‖ ,

dann ist das MPmin f(x)bez. x ∈ K

zu losen.

(iii) Es seien [a, b] ein reelles Intervall, a = x0 < x0 · · · < xk = b eine Zerlegungvon [a, b] sowie t0, . . . , tk reelle Zahlen. Schließlich sei G ein n-dimensionaler Vek-torraum von Abbildungen von [a, b] nach R. Dann ist eine Abbildung g∗ ∈ G sogesucht, dass g∗ die Stutzpunkte (x0, t0), . . . (xk, tk) im Sinne der Methode derkleinsten Quadrate am besten approximiert. Also soll gelten:

k∑i=0

(g∗(xi)− ti)2 ≤k∑i=0

(g(xi)− ti)2 fur alle g ∈ G

Zur Losung dieses Problems sei {g1, . . . , gn} eine Basis von G. Man definieref : Rn → R durch

f(α1, . . . , αn) =k∑i=0

(n∑j=1

αjgj(xi)− ti)2

3

Page 5: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Dann ist das MPmin f(α)bez. α ∈ Rn

zu losen.

Bezeichnungsweisen 1.4

(i) Es ist in der Optimierung ublich, die Elemente des Rn als Spaltenvekto-ren aufzufassen. Abweichend von dieser Konvention werden die Argumente vonAbbildungen aus dem Rn als Zeilenvektoren geschrieben. Wenn also D ⊆ Rn

gilt und f : D → Rp eine Abbildung ist, schreibt man f(u1, . . . , un) fur alle(u1, . . . , un)t ∈ D.

Ich werde mich an diese Konvention (jedenfalls meistens) halten.

Falls nicht anders bemerkt, tragt der Rn die euklidische Norm, die mit ‖ · ‖bezeichnet wird.

Fur alle (u1, . . . , un)t, (v1, . . . , vn)t ∈ Rn definiere man

(u1, . . . , un)t ≤ (v1, . . . , vn)t ⇐⇒ ui ≤ vi fur alle i .

(ii) Es sei f : D → Rp eine Abbildung, dann bezeichnen f1, . . . , fp die Kompo-nentenabbildungen von f , d.h. es gilt

f(x) = (f1(x), . . . , fp(x))t fur alle x ∈ D .

(iii) Es sei f : D → R eine partiell differenzierbare Abbildung. Dann bezeichnet

Dif =∂fj∂xi

die i.-te partielle Ableitung von f .

(iv) Es sei f : D → Rp eine partiell differenzierbare Abbildung. Dann heißt dieMatrix mit p Zeilen und n Spalten

Df(x) = (Difj(x))j,i

die Jakobi-Matrix von f an der Stelle x ∈ D. Man setzt

∇f(x) = Df(x)t .

Im Fall p = 1 heißt ∇f(x) = (D1f(x), . . . , Dnf(x))t der Gradient von f in xund es gilt offenbar fur alle p und alle x:

∇f(x) = (∇f1(x), . . . ,∇fp(x)) .

(iv) Es sei f : D → R eine zweimal partiell differenzierbare Abbildung. Dannheißt

Hf(x) = (Di,jf(x))

die Hesse-Matrix von f in x. Man setzt auch ∇2f(x) = Hf(x)t.

4

Page 6: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Bekanntlich ist die Hesse-Matrix einer zweimal stetig differenzierbaren Abbildungin jedem Punkt symmetrisch.

Erinnerung 1.5 Es sei D ⊆ Rn offen.

(i) Es sei f : D → Rp eine differenzierbare Abbildung und x0 ∈ D. Dann gibt eseine Abbildung R : D → Rp so dass gelten:

(a) f(x) = f(x0) +Df(x0)(x− x0) +R(x)

= f(x0) +∇f(x0)t(x− x0) +R(x)

(b) limx→x0

1

‖x− x0‖R(x) = 0.

(ii) Es sei f : D → R eine zweimal stetig differenzierbare Abbildung. Dann gibtes eine Abbildung R : D → R so dass gelten:

(a) f(x) = f(x0) +Df(x0)(x− x0) + 12(x− x0)tHf(x0)(x− x0) +R(x)

= f(x0) +∇f(x0)t(x− x0) + 1

2(x− x0)tHf(x0)(x− x0) +R(x)

(b) limx→x0

1

‖x− x0‖2R(x) = 0.

Proposition 1.6 Es seien D ⊆ Rn offen, f : D → R differenzierbar, x0 ∈ Dund a ∈ Rn. Man wahle ein ε > 0 so dass gilt x0 + αa ∈ D fur alle α ∈ (−ε, ε).Dann ist die Abbildung ϕ : (−ε, ε)→ R definiert durch

ϕ(α) = f(x0 + αa)

differenzierbar und es gilt

ϕ′(α) = Df(x0 + αa)a = ∇f(x0 + αa)ta fur alle α ∈ (−ε, ε)

Beweis Man definiere γ : (−ε, ε) → Rn durch γ(α) = x0 + αa. Dann ist γdifferenzierbar und es gilt Dγ(α) = a fur alle α. Weiterhin gilt ϕ = f ◦ γ. Alsoist ϕ differenzierbar und es gilt nach der Kettenregel fur alle α ∈ (−ε, ε)

ϕ′(α) = Df(γ(α))Dγ(α) = Df(x0 + αa)a �

5

Page 7: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Kapitel 2

Verfahren (1)

VEREINBARUNG

In diesem Kapitel seien, falls nicht anders bemerkt, f : Rn → R eine stetigdifferenzierbare Abbildung. Betrachtet wird das MP

min f(x)bez. x ∈ Rn

Bemerkung 2.1 Es seien D ⊆ Rn offen und f : D → R eine differenzierbareAbbildung. Wenn x∗ ∈ D das MP

min f(x)bez. x ∈ D

lost, gilt ∇f(x∗) = 0. So ein Punkt heißt auch stationarer Punkt des MPs unddie Verfahren dieses Kapitels suchen einen stationaren Punkt.

Definition 2.2 Es seien D ⊆ Rn offen und f : D → R eine Abbildung.

(i) Es sei x0 ∈ D. Ein Vektor d ∈ Rn heißt Abstiegsrichtung von f in x0, wennes ein ε > 0 so gibt, dass gilt x0 + αd ∈ D fur alle 0 ≤ α ≤ ε und

f(x0 + αd) < f(x0) fur alle 0 < α ≤ ε .

(ii) Es seien K ⊆ D und x0 ∈ K. Ein Vektor d ∈ Rn, d 6= 0 heißt zulassigeRichtung in x0 bzgl. K, wenn es ein ε > 0 so gibt, dass gilt

x0 + αd ∈ K fur alle 0 < α ≤ ε .

Proposition 2.3 Es seien D ⊆ Rn offen, f : D → R stetig differenzierbar undx0 ∈ Rn sowie d ∈ Rn. Dann gelten:

(i) Es gelte ∇f(x0)td < 0. Dann ist d eine Abstiegsrichtung von f in x0.

(ii) Es sei d eine Abstiegsrichtung. Dann gilt ∇f(x0)td ≤ 0.

6

Page 8: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beweis Man wahle ein r > 0 mit x0 + αd ∈ D fur alle |α| < r und definiereϕ : (−r, r) −→ R durch

ϕ(α) = f(x0 + αd) .

Dann gilt nach 1.6 fur alle α:

ϕ′(α) = ∇f(x0 + αd)td ,

also folgtϕ′(0) = (∇f(x0))

td .

(i) Wenn ϕ′(0) = (∇f(x0))td < 0 gilt, ist ϕ in einer Umgebung von 0 streng

monoton fallend, also gibt es ein 0 < ε ≤ r so dass gilt

f(x0) = ϕ(0) > ϕ(α) = f(x0 + αd) fur alle 0 < α ≤ ε .

(ii) Wenn d eine Abstiegsrichtung ist, gibt es ein ε > 0 so dass gilt ϕ(α) < ϕ(0)fur alle 0 < α < ε und fur diese α folgt

ϕ(α)− ϕ(0)

α− 0≤ 0

und daher (∇f(x0))td = ϕ′(0) ≤ 0. �

Bemerkung 2.4 (Abstiegsverfahren) Vorgegeben sei das MP

min f(x)bez. x ∈ K

Die Grundstruktur eines Abstiegsverfahrens zur Bestimmung eines stationarenPunktes des MPs ist wie folgt:

(S1) Man wahle x0 ∈ K beliebig.

(S2) Es seien x0, . . . , xk bestimmt. Wenn xk ein stationarer Punkt ist, bricht mandas Verfahren ab. Wenn xk kein stationarer Punkt des MPs ist, sucht man einezulassige Abstiegsrichtung dk.

(S3) Man wahle ein αk > 0 so dass gilt f(xk + αkdk) < f(xk) und setze

xk+1 = xk + αkxk .

Unter geeigneten Voraussetzungen kann man beweisen, dass die Folge (xk) Haufungs-punkte besitzt und dass die Haufungspunkte stationare Punkte des MPs sind.

In (S3) benutzt man oft die folgende Variante:

Es seiI := {t : xk + tdk ∈ K} ,

7

Page 9: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

dann sucht man ein Minimum der Abbildung ϕ : I −→ R definiert durch

ϕ(α) = f(xk + αdk)

auf I oder einer geeigneten Teilmenge von I.Bei einem Abstiegsverfahren bietet es sich an, als Abstiegsrichung (also dk) dieRichtung “mit dem steilsten Abstieg” zu wahlen. Dazu muss man die “Steilheit”sd einer Abstiegsrichtung d definieren. Eine nahliegende Moglichkeit ist die fol-gende:

sd = limα→0+

f(x+ αd)− f(x)

‖αd‖Aber diesen Limes kann man ohne Muhe ausrechnen: Definiert man wieder ϕdurch ϕ(α) = f(x+ αd), dann gilt

f(x+ αd)− f(x)

α=ϕ(α)− ϕ(0)

α→ ϕ′(0) = ∇f(x)td

und daher

sd =1

‖d‖limα→0+

f(x+ αd)− f(x)

α=

1

‖d‖∇f(x)td

Lemma 2.5 Es seien x0 ∈ D und ∇f(x0) 6= 0. Dann ist d0 = −∇f(x0) einezulassige Abstiegsrichtung, in der Tat ist es die Richtung des steilsten Abstiegs inx0, d.h. es gilt

1

‖d0‖∇f(x0)

td0 ≤1

‖d‖∇f(x0)

td fur alle d 6= 0

Beweis Es gilt

1

‖d0‖∇f(x0)

td0 = − 1

‖∇f(x0)‖∇f(x0)

t∇f(x0)

= − 1

‖∇f(x0)‖‖∇f(x0)‖2

= −‖∇f(x0)‖ < 0

Also ist d0 nach 2.3 eine Abstiegsrichtung. Weiter gilt nach der Cauchy-Schwarz’schenUngleichung gilt fur alle d ∈ Rn:

| 1

‖d‖∇f(x0)

td| ≤ 1

‖d‖‖∇f(x0)‖ ‖d‖ = ‖∇f(x0)‖

und daher

1

‖d0‖∇f(x0)

td0 = −‖∇f(x0)‖ ≤1

‖d‖∇f(x0)

td �

8

Page 10: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Verfahren 2.6 (Gradientenverfahren, Methode des steilsten Abstiegs)

Es sei f : Rn → R eine stetig differenzierbare Abbildung. Man betrachte denAlgorithmus:

(S1) Man wahle ein x0 ∈ Rn.

(S2) x0, . . . , xk seien bestimmt. Wenn xk stationar ist, bricht man ab. Wenn xknicht stationar ist, seien dk = −∇f(xk) und αk eine Losung des MPs

min f(xk + αdk)bez. α ∈ [0,∞)

(S3) Man setzexk+1 = xk + αkdk

Proposition 2.7 Es sei f : Rn → R eine stetig differenzierbare Abbildung. Wenndas Gradientenverfahren wohldefiniert ist und nicht abbricht, ist jeder Haufungs-punkt der Folge ein stationarer Punkt des MPs

min f(x)bez. x ∈ Rn

Beweis Ich nehme an, dass das Verfahren nicht abbricht. Nach 2.5 ist dk fur allek eine Abstiegsrichtung, also ist (f(xk)) eine streng monoton fallende Folge. Essei (xkj) eine Teilfolge, die gegen ein x∗ konvergiert. Dann konvergiert (f(xkj))gegen f(x∗). Da (f(xk)) monoton ist, konvergiert (f(xk)) gegen f(x∗). Fur alle kund α ≥ 0 gilt nun:

f(xk+1) ≤ f(xk + αdk)

und es folgt fur alle j:f(xkj+1) ≤ f(xkj + αdkj) .

Da f stetig differenzierbar ist, konvergiert (dkj) = (−∇f(xkj)) gegen d0 :=−∇f(x∗) und es folgt

f(x∗) ≤ f(x∗ + αd0) fur alle α > 0 .

Also ist d0 keine Abstiegsrichtung und aus 2.3 folgt

−‖∇f(x∗)‖2 = ∇f(x∗)td0 ≥ 0 ,

und daher ist x∗ ein stationarer Punkt. �

Korollar 2.8 Es sei x0 ∈ Rn und die Menge

K := {x ∈ Rn : f(x) ≤ f(x0)}

sei beschrankt. Wenn das Gradientenverfahren nicht abbricht, bleibt es in K undist daher beschrankt. Jeder Haufungspunkt ist ein stationarer Punkt.

9

Page 11: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beweis Ich nehme an, dass das Verfahren nicht abbricht.

Ich zeige induktiv, dass xk fur alle k ∈ N0 wohldefiniert ist und in K liegt.

Dies ist offenbar fur x0 der Fall, es gelte fur x0, . . . , xk. Dann gilt

f(x0) ≥ f(x0) ≥ · · · ≥ f(xk)

Man setze dk = −∇f(xk) 6= 0. Sei

I := {α ≥ 0 : xk + αdk ∈ K} ,

dann ist I nicht-leer, abgeschlossen und beschrankt, also kompakt. Man wahleein αk ∈ I so dass gilt

f(xk + αkdk) ≤ f(xk + αdk) fur alle α ∈ I .

Weiter gilt xk + αdk /∈ K fur alle α /∈ I und daher fur diese α:

f(xk + αdk) ≥ f(x0) ≥ f(xk) ≥ f(xk + αkdk) .

Es folgtf(xk + αkdk) ≤ f(xk + αdk) fur alle α ≥ 0 .

also lost αk das MP

min f(xk + αdk)bez. α ∈ [0,∞)

und es gilt xk+1 = xk + αkdk ∈ K. �

Bemerkung 2.9 Das Gradientenverfahren konvergiert oft in der Nahe eines sta-tionaren Punktes nicht sehr schnell, es tritt der Fall ein, dass man einen “Zick-Zack-Weg” erhalt. Um “Zick-Zack-Wege zu vermeiden, kann man das Verfahrenentweder modifizieren oder nur benutzen, um in die Nahe eines stationaren Punk-tes zu kommen und dann ein anderes Verfahren zu benutzen.

In (S2) des Gradientenverfahrens muss man eine Abbildung, die auf [0,∞) de-finiert ist, minimieren. Das kann sehr aufwendig sein, insbesondere, wenn manbedenkt, dass eine exakte Losung dieses Teilproblems ja in der Regel garnichtnotwendig ist. Daher gibt es eine Reihe von Verfahren, die an dieser Stelle andersvorgehen. Ich werde die sogenannte Armijo-Regel vorstellen. Die Grundgedan-ken sind dabei die folgenden:

(1) Beim Gradientenverfahren ist die Wahl deswegen auf die neue Suchrichtungdk = −∇f(xk) gefallen, weil sie in xk den steilsten Abstieg hat. Nun ist dieseInformation lokal, so dass es zweifelhaft ist, ob ein Minimum in dieser Suchrich-tung “sehr weit draußen” nutzlich ist. Also ist denkbar, dass man z.B. nur in{xk + αdk : 0 ≤ α ≤ 1} sucht und dann einen neuen Test macht.

10

Page 12: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

(2) Mit der Wahl der Richtung verbindet man die Hoffnung auf eine gewisseAbstiegsgeschwindigkeit. Nun gilt nach 1.5:

f(xk + αdk)− f(xk) = ∇f(xk)t(αdk) +R(αdk) = α∇f(xk)

tdk +R(αdk)

Nun konvergiert R(αdk) sehr schnell gegen 0, also hat man

f(xk + αdk)− f(xk) ∼ α∇f(xk)tdk = −α‖∇f(xk)‖2

Also sollte der Abstieg in dieser Großenordnung liegen. Wenn dies nicht der Fallist, gibt man diese Suchrichtung auf. Bei der Armijo-Regel wahlt man ein σ ∈(0, 1) und betrachtet die Menge

{α ≥ 0 : f(xk + αdk)− f(xk) ≤ σα∇f(xk)tdk}

(3) Nun ist die Minimierungsaufgabe nach (2) ziemlich kompliziert geworden.Daher begnugt man sich damit, nur wenige Punkte zu testen: Man wahlt einβ ∈ (0, 1) und betrachtet die Punkte

xk + βjdk : j ∈ N0

Auch in dieser Menge sucht man nicht den minimalen Funktionswert, sondernden großten Punkt, der der Bedingung aus (2) genugt:

αk = max{βj : f(xk + βjdk)− f(xk) ≤ σβj∇f(xk)tdk} .

Diese Regelung hat den Vorteil, dass man nur das kleinste j finden muss, fur dasgilt

f(xk + βjdk) ≤ f(xk) + σβj∇f(xk)tdk

und das tut man naturlich, indem man nacheinander j = 0, 1, . . . setzt.

Verfahren 2.10 (Modifiziertes Gradientenverfahren) Es sei f : Rn → R einedifferenzierbare Abbildung. Man betrachte den Algorithmus:

(S1) Man wahle ein x0 ∈ Rn und σ, β ∈ (0, 1).

(S2) x0, . . . , xk seien bestimmt. Wenn xk stationar ist, bricht man ab. Wenn xknicht stationar ist, seien dk = −∇f(xk) und

αk := max{βj : f(xk + βjdk) ≤ f(xk) + σβj∇f(xk)tdk}

(S3) Man setzexk+1 = xk + αkdk .

Zum Beweis der wesentlichen Eigenschaften des modifizierten Gradientenverfah-rens brauche ich noch ein techisches Lemma:

11

Page 13: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Lemma 2.11 Es seien f : Rn → R stetig differenzierbar, x0, d0 ∈ Rn und (xk)bzw. (dk) Folgen in Rn, die gegen x0 bzw. d0 konvergieren. Schließlich sei (αk)eine Nullfolge in R \ {0}. Dann gilt

f(xk + αkdk)− f(xk)

αk−→ ∇f(x0)

td0

Beweis Definiert man fur alle k die Abbildung ϕk : R→ R durch

ϕk(α) = f(xk + αdk)

dann ist ϕ stetig differenzierbar und es gilt

ϕ′k(α) = ∇f(xk + αdk)tdk

Nach dem Mittelwertsatz gibt es ein |λk| ≤ |αk| so dass gilt

f(xk + αkdk)− f(xk)

αk=ϕk(αk)− ϕ(0)

αk= ϕ′k(λk) = ∇f(xk + λkdk)

tdk

Da f stetig diffbar ist, folgt die Behauptung. �

Proposition 2.12 Es sei f : Rn → R eine stetig differenzierbare Abbildung.Dann ist das modifizierte Gradientenverfahren wohldefiniert. Wenn es nicht ab-bricht, ist jeder Haufungspunkt der Folge ein stationarer Punkt von f .

Beweis Es seien x0, . . . , xk definiert. Wenn xk nicht stationar ist, gilt

f(xk + αdk)− f(xk)

α−→α→0 ∇f(xk)

tdk = −‖∇f(xk)‖2 < −σ‖∇f(xk)‖2

= σ∇f(xk)tdk

Also gibt es ein ε > 0 so dass gilt

f(xk + αdk)− f(xk)

α< σ∇f(xk)

tdk fur alle |α| ≤ ε

Da (βj) gegen 0 konvergiert, gibt es ein j so dass gilt

f(xk + βjdk)− f(xk)

βj< σ∇f(xk)

tdk

Also ist das Verfahren wohldefiniert.

Es sei (xk) die Folge und x∗ ein Haufungspunkt sowie (xk)k∈I eine Teilfolge, diegegen x∗ konvergiert. Dann konvergiert (f(xk))k∈I gegen f(x∗). Da (f(xk))k∈N eine

12

Page 14: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

monotone Folge ist, konvergiert dann aber (f(xk))k∈N gegen f(x∗). Insbesonderekonvergiert dann (f(xk)−f(xk+1)) gegen 0. Nach Konstruktion gilt fur alle k ∈ I:

f(xk+1) = f(xk + αkdk) ≤ f(xk) + σαk∇f(xk)tdk

und daherσαk‖∇f(xk)‖2 ≤ f(xk)− f(xk+1)

Angenommen, es gilt ∇f(x∗) 6= 0, dann konvergiert (αk)k∈I gegen 0. Es gelteαk = βjk , dann folgt jk ≥ 1 fur alle k ∈ I, k ≥ k0 und daraus

f(xk + βjk−1dk) > f(xk) + σβjk−1∇f(xk)tdk

alsof(xk + βjk−1dk)− f(xk)

βjk−1> σ∇f(xk)

tdk

Da (αk)k∈I gegen 0 konvergiert, konvergiert (jk)k∈I gegen ∞ und daher (βjk−1)gegen 0. Es folgt aus 2.11:

−∇f(x∗)t∇f(x∗) ≥ −σ‖∇f(x∗)‖2

und daraus(1− σ)‖∇f(x∗)‖2 ≤ 0

also ∇f(x∗) = 0 im Widerspruch zur Annahme. �

Die Suche nach einem stationaren Punkt ist ja gerade die Suche nach einer Null-stelle der Gradientenabbildung ∇f . Nullstellen einer reellwertigen, auf einemIntervall definierten Abbildung f kann man oft sehr effektiv mit dem Newton-Verfahren finden. Dieses Verfahren hat ein mehrdimensionales Analogon, das hierzum Einsatz kommen wird, allerdings erfordert der Konvergenzbeweis einige Vor-bereitungen.

Erinnerung 2.13 Es sei M(p, n) die Menge aller reellwertigen Matrizen mit pZeilen und n Spalten. Dann ist die Abbildung ‖ · ‖ : M(p, n)→ R definiert durch

‖A‖ = max{‖Ax‖ : ‖x‖ ≤ 1}

eine Norm auf M(p, n). Sie heißt auch die euklidische oder Spektralnorm.Weiterhin gilt fur alle A ∈M(p, n) und B ∈ (n, q) :

(i) ‖Ax‖ ≤ ‖A‖ ‖x‖ fur alle x ∈ Rn

(ii) ‖AB‖ ≤ ‖A‖ ‖B‖

(iii) max{|ai,j| : i, j} ≤ ‖A‖ ≤ n√pmax{|ai,j| : i, j}

13

Page 15: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Insbesondere 2.13(i) wird im Folgenden sehr oft, und in der Regel ohne expliziteReferenz, benutzt.

Bemerkung 2.14 Die Elemente aus M(p, n) kann man in naturlicher Weise alsElemente aus Rpn auffassen Nach 2.13 konvergiert eine Folge (Ak) in M(p, n)bezuglich der (Matrizen-)Norm genau dann gegen eine Matrix A, wenn sie kom-ponentenweise konvergiert. Betrachtet man also die Matrizen aus M(p, n) alsElemente des Rpn, so induziert die Matrixnorm gerade die konvergenten Folgen,die im Rnp konvergieren.

Weiterhin sind sind die Begriffe Stetigkeit und Differenzierbarkeit von Abbildun-gen aus M(p, n) nach M(p′, n′) oder nach Rq in diesem Sinn definiert.

Proposition 2.15

(i) Die Normabbildung‖ · ‖ : M(k, n) −→ R

ist stetig.

(ii) Die Determinantenabbildung

det : M(n, n) −→ R

ist stetig.

(iii) Es sei M(n, n)∗ die Menge aller regularen n × n-Matrizen. Dann ist dieAbbildung

M(n, n)∗ −→M(n, n)∗

A 7→ A−1

stetig.

Beweis

(i) Allgemein gilt: Wenn (E, ‖ ·‖ ein normierter Raum ist, ist ‖ ·‖ : E → R stetig:Eine leichte Uberlegung zeigt, dass fur alle x, y ∈ E gilt:

| ‖x‖ − ‖y‖ | ≤ ‖x− y‖

also folgt fur alle x, x0 ∈ E:

| ‖x‖ − ‖x0‖ ‖ ≤ ‖x− x0‖

und daher ist ‖ · ‖ stetig.

(ii) Nach einem Ergebnis der Linearen Algebra gilt:

det(ai,j) =∑π∈Sn

sgn(π)a1,π(1) · · · an,π(n)

14

Page 16: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

(iii) Fur eine Matrix A = (ai,j) sei Ai,j die Matrix, die man erhalt, wenn man inA die i.-te Zeile und j.-te Spalte streicht. Dann gilt, ebenfall nach einem Ergebnisder Linearen Algebra, fur jede regulare Matrix A:

A−1 =1

det(A)((−1)i+j det(Aj,i))i,j

Lemma 2.16

(i) Fur alle x, y ∈ Rn gilt |xty| ≤ ‖x‖ ‖y‖.(ii) Fur alle A ∈M(n, n) und alle x, y ∈ Rn gilt

|xtAy| ≤ ‖A‖ ‖x‖ ‖y‖ .

Beweis (i) Es sei < ·, · > das euklidische Skalarprodukt auf Rn. Dann folgt ausder Ungleichung von Cauchy-Schwarz:

|xty| = | < x, y > | ≤ ‖x‖ ‖y‖ .

(ii) Es gilt|xtAy| = |xt(Ay)| ≤ ‖x‖ ‖Ay‖ ≤ ‖x‖ ‖A‖ ‖y‖ . �

Proposition 2.17 Es seien D ⊆ Rn offen, f : D → R stetig differenzierbar undx0, x2 ∈ D so gewahlt, dass fur die Verbindungsgerade

[x0, x2] := {x0 + t(x2 − x0) : 0 ≤ t ≤ 1}

gilt [x0, x2] ⊆ D. Dann gibt es ein ξ ∈ (0, 1) so dass gilt

f(x2)− f(x0) = Df(x0 + ξ(x2−x0))(x2−x0) = ∇f(ξ)(x0 + ξ(x2−x0))t(x2−x0)

Speziell gilt

|f(x2)− f(x0)| ≤ ‖x2 − x0‖max{‖Df(x)‖ : x ∈ [x0, x2]}

= ‖x2 − x0‖max{‖∇f(x)‖ : x ∈ [x0, x2]}

Beweis Man definiere ϕ : [0, 1]→ R durch

ϕ(t) = f(x0 + t(x2 − x0)) ,

dann ist ϕ stetig differenzierbar und es gilt

ϕ′(t) = Df(x0 + t(x2 − x0))(x2 − x0)

Nach dem reellen Mittelwertsatz gibt es ein ξ ∈ (0, 1) so dass gilt

f(x2)− f(x0) = ϕ(1)− ϕ(0) = ϕ′(ξ)(1− 0) = Df(x0 + ξ(x2 − x0))(x2 − x0)

15

Page 17: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Es folgt

|f(x2)− f(x0)| = |ϕ(1)− ϕ(0)| = |ϕ′(ξ)(1− 0)| = |Df(x0 + ξ(x2 − x0))(x2 − x0)|

≤ ‖Df(x0+ξ(x2−x0))‖ ‖(x2−x0)‖ ≤ sup{‖Df(x)‖ : x ∈ [x0, x2]}‖(x2−x0)‖}Da Df und ‖ · ‖ stetige Abbildungen sind, ist die Abbildung

[x0, x2]→ R x 7→ ‖Df(x)‖

stetig, und da [x0, x2] kompakt ist, nimmt diese Abbildung ein Maximum an. �

Satz 2.18 (Mittelwertsatz) Es seien D ⊆ Rn offen, f : D → Rp stetig differen-zierbar und x0, x2 ∈ D so gewahlt, dass [x0, x2] ⊆ D gilt. Dann folgt

‖f(x2)− f(x0)‖ ≤ ‖x2 − x0‖max{‖Df(x)‖ : x ∈ [x0, x2]}

Beweis Man wahle ein a ∈ Rp und definiere g : D → R durch

g(x) = f(x)ta =∑

fi(x)ai

Dann ist g differenzierbar und es gilt

Dg(x) =∑

Dfi(x)ai = Df(x)a

Aus 2.17 folgt dann:

|(f(x2)− f(x0))ta| = |g(x2)− g(x0)|≤ ‖x2 − x0‖max{‖Dg(x)‖ : x ∈ [x0, x2]}= ‖x2 − x0‖max{‖Df(x)a‖ : x ∈ [x0, x2]}≤ ‖x2 − x0‖max{‖Df(x)‖ ‖a‖ : x ∈ [x0, x2]}= ‖x2 − x0‖ ‖a‖max{‖Df(x)‖ : x ∈ [x0, x2]}

Setzt man nun a = f(x0)− f(x2), erhalt man

‖f(x2)− f(x0)‖2 = ‖(f(x2)− f(x0))t(f(x2)− f(x0))‖

≤ ‖x2 − x0‖ ‖f(x2)− f(x0)‖max{‖Df(x)‖ : x ∈ [x0, x2]}und daraus die Behauptung. �

Korollar 2.19 Es seien D ⊆ Rn offen, x0, x2 ∈ D und es gelte [x0, x2] ⊆ D.

(i) Es sei und f : D → Rp stetig differenzierbar. Dann gilt

‖f(x2)− f(x0)−Df(x0)(x2 − x0)‖≤ ‖x2 − x0‖max{‖Df(x)−Df(x0)‖ : x ∈ [x0, x2]}|

(ii) Es sei f : D :−→ R zweimal stetig differenzierbar. Dann gilt

|f(x2)− f(x0)−∇f(x0)t(x2 − x0)− 1

2(x2 − x0)tHf(x0)(x2 − x0)|

≤ 12‖x2 − x0‖2 max{‖Hf(x)−Hf(x0)‖ : x ∈ [x0, x2]}

16

Page 18: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beweis

(i) Man definiere g : D → Rp durch g(x) = f(x) − Df(x0)x, dann ist g stetigdifferenzierbar und es gilt Dg(x) = Df(x)−Df(x0). Also folgt aus dem Mittel-wertsatz:

‖f(x2)− f(x0)−Df(x0)(x2 − x0)‖ = ‖g(x2)− g(x0)‖≤ ‖x2 − x0‖max{‖Dg(y)‖ : y ∈ [x0, x2]}= ‖x2 − x0‖max{‖Df(y)−Df(x0)‖ : y ∈ [x0, x2]}

(ii) Man definiere ϕ : [0, 1]→ R durch

ϕ(t) = f(x0 + t(x2 − x0))

dann ist ϕ zweimal stetig differenzierbar und es gilt

ϕ′(t) = ∇f(x0 + t(x2 − x0))t(x2 − x0)

undϕ′′(t) = (x2 − x0)tHf(x0 + t(x2 − x0))(x2 − x0)

Nach dem Satz von Taylor gibt es ein ξ ∈ (0, 1) so dass gilt

ϕ(1) = ϕ(0) + ϕ′(0)(1− 0) +1

2ϕ′′(ξ)(1− 0)2

und daher

f(x2) = f(x0) +∇f(x0)t(x2 − x0) +

1

2(x2 − x0)tHf(x0 + ξ(x2 − x0))(x2 − x0)

Es folgt:

|f(x2)− f(x0)−∇f(x0)t(x2 − x0)− 1

2(x2 − x0)tHf(x0)(x2 − x0)|

= 12|(x2 − x0)t(Hf(x0 + ξ(x2 − x0))−Hf(x0))(x2 − x0)|

≤ 12‖Hf(x0 + ξ(x2 − x0))−Hf(x0)‖ ‖x2 − x0‖2

≤ 12‖x2 − x0‖2 max{‖Hf(x)−Hf(x0)‖ : x ∈ [x0, x2]} �

2.19 ist offenbar eine Verscharfung von 1.5 und beschreibt den Fehler, den manmacht, wenn man eine Funktion durch ihre lineare oder quadratische Approxi-mation ersetzt.

Zur Motivation des Newton-Verfahrens betrachte man eine stetig differenzierbareAbbildung f : Rn → Rn. Gesucht ist eine Nullstelle von f . Dazu sei xk ∈ Rn eineNaherung. dann gilt fur alle x ∈ Rn.

f(x) = f(xk) +Df(xk)(x− xk) +R(x)

17

Page 19: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Um eine neue Naherung fur die Nullstelle zu bekommen, ersetzt man f durch dielineare Approximation f(xk) + Df(xk)(x − xk) und sucht davon eine Nullstelle.Dies ergibt als Bedingung fur eine neue Naherung:

f(xk) +Df(xk)(x− xk) = 0

und dies impliziertxk+1 = xk −Df(xk)

−1f(xk)

und dies ist gerade die Newton-Iteration.

Definition 2.20 Es seien D ⊆ Rn offen, f : D → Rn eine stetig differenzierbareAbbildung und x0 ∈ D. Wenn die induktiv durch

xk+1 = xk −Df(xk)−1f(xk)

definierte Folge wohldefiniert ist, heißt sie Newton-Folge oder Newton-Iterationfur f mit dem Startwert x0.

Der angekundigte Konvergenzsatz fur das (n-dimensionale) Newton-Verfahrenlautet nun:

Satz 2.21 Es seien D ⊆ Rn offen, f : D → Rn eine stetig differenzierbare Ab-bildung und x∗ ∈ D eine Nullstelle von f , fur die Df(x∗) regular ist. Es gebe einr0 > 0 so dass B(x∗, r0] ⊆ D gilt und dass Df in B(x∗, r0] einer Lipschitzbedin-gung genugt. Dann gibt es ein r > 0, so dass die Newton-Folge mit dem Startwertx0 fur alle x0 ∈ B(x∗, r] wohldefiniert ist und gegen x∗ konvergiert. In der Tatkonvergiert die Folge quadratisch, d.h. es gibt ein c > 0 so dass gilt:

‖xk+1 − x∗‖ ≤ c‖xk − x∗‖2 fur alle k ∈ N

Beweis

(a) Da Df in B(x∗, r0] einer Lipschitzbedingung genugt, gibt es ein L > 0 so dassgilt:

‖Df(x)−Df(y)‖ ≤ L‖x− y‖ fur alle x, y ∈ B(x∗, r0] .

b) Da die Abbildungx 7→ det(Df(x))

stetig ist, gibt es ein s > 0 so dass gilt

det(Df(x)) 6= 0 fur alle x ∈ B(x∗, s] ,

also ist Df(x) fur alle x ∈ B(x∗, s] regular. OBdA gelte s ≤ r0.

c) Da die Abbildung von B(x∗, s] nach R

x→ ‖Df(x)−1‖

18

Page 20: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

stetig ist, ist sie beschrankt, also gibt es ein M > 0 so dass gilt:

‖Df(x)−1‖ ≤M fur alle x ∈ B(x∗, s] .

Es gilt fur alle k mit xk ∈ B(x∗, s]:

xk+1 = xk −Df(xk)−1f(xk) ,

es folgt:

xk+1 − x∗ = xk − x∗ −Df(xk)−1f(xk)

= Df(xk)−1(−f(xk)−Df(xk)(x

∗ − xk))

= Df(xk)−1(f(x∗)− f(xk)−Df(xk)(x

∗ − xk))

und daraus:

‖xk+1 − x∗‖ = ‖Df(xk)−1(f(x∗)− f(xk)−Df(xk)(x

∗ − xk))‖

≤ ‖Df(xk)−1‖ ‖f(x∗)− f(xk)−Df(xk)(x

∗ − xk)‖

≤ M‖x∗ − xk‖ maxy∈[x∗,xk]

‖Df(y)−Df(xk)‖

≤ M‖x∗ − xk‖ maxy∈[x∗,xk]

L‖y − xk‖

≤ LM‖x∗ − xk‖2

Man wahle nun r ≤ s so, dass gilt LMr ≤ 1/2, dann folgt fur alle k mit xk ∈B(x∗, r]:

‖xk+1 − x∗‖ ≤1

2‖xk − x∗‖ ≤ r ,

also folgt mit vollstandiger Induktion, dass xk ∈ B(x∗, r] fur alle k gilt, wennx0 ∈ B(x∗, r] gilt. Weiterhin konvergiert die Folge gegen x∗ und es gilt

‖xk+1 − x∗‖ ≤ LM‖xk − x∗‖2 . �

Lemma 2.22 Es seien f : D → Rp stetig differenzierbar, x0 ∈ D und r > 0 sogewahlt, dass B(x0, r] ⊆ D gilt. Dann genugt f in B(x0, r] einer Lipschitzbedin-gung.

Beweis Da Df und ‖ · ‖ stetig sind, ist die Abbildung ‖∆ · ‖ stetig und nimmtdaher auf der kompakten Menge B(x0, r] ihrm Maximum an. Also gilt mit L =max{‖Df(z)‖ : z ∈ B}: nach dem Mittelwertsatz (2.17) fur alle x, y ∈ B :=B(x0, r]:

‖f(x)− f(y)‖ ≤ ‖x− y‖max{‖Df(z)‖ : z ∈ B} = L‖x− y‖

19

Page 21: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Korollar 2.23 Es seien D ⊆ Rn offen, f : D → Rn zweimal stetig differenzierbarund x∗ ∈ D eine Nullstelle von f so das Df(x∗) regular ist. Dann gibt es ein r > 0so dass das Newton-Verfahren fur jeden Startwert x0 ∈ B(x∗, r] quadratisch gegenx∗ konvergiert.

Beweis Da f zweimal stetig differenzierbar ist, Df : D → Rn stetig differenzier-bar. Die Behauptung folgt dann aus 2.21 und 2.22. �

Bemerkung 2.24 Um beim Newton-Verfahren xk+1 aus xk zu bestimmen, mussman Df(xk) nicht invertieren, denn dk = xk+1 − xk ist die Losung des linearenGleichungssystems

Df(xk)X = −f(xk) .

Dennoch ist die Losung dieses Gleichungssystems der aufwendigste Schritt desNewton-Verfahrens und es gibt eine Reihe von Varianten, die diesen Schritt ver-einfachen, dann aber nicht mehr so schnell konvergieren.

Satz 2.25 Es seien D ⊆ Rn offen und f : D → R eine dreimal stetig differen-zierbare Abbildung. Weiterhin seien x∗ ∈ D so gewahlt, dass ∇f(x∗) = 0 gilt unddass Hf(x∗) regular ist. Dann gibt es ein r > 0 so dass die Iteration

xk+1 = xk −Hf(xk)−1∇f(xk)

fur alle x0 ∈ B(x∗, r] quadratisch gegen x∗ konvergiert.

Beweis Man wende 2.23 auf ∇f an. �

20

Page 22: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Das Newton-Verfahren konvergiert nur lokal und dann auch nur gegen einen sta-tionaren Punkt. Nun ist aber auch ein Punkt, der das Maximumproblem lost,ein stationarer Punkt. Man sucht nun Verfahren, die diese beiden Nachteile ver-meiden, aber die schnelle Konvergenz des Newton-Verfahrens in einer Umgebungeiner Losung ausnutzen. Im folgenden wird so ein Verfahren beschrieben undstudiert.

Verfahren 2.26 (Globalisiertes Newton-Verfahren) Es sei f : Rn → R einezweimal stetig differenzierbare Abbildung. Man wahle ρ > 0, p > 2, β ∈ (0, 1)sowie σ ∈ (0, 1/2) und betrachte den folgenden Algorithmus:

(S1) Man wahle x0 ∈ Rn beliebig.

(S2) x0, . . . , xk seien konstruiert. Wenn xk stationar ist, bricht das Verfahren ab.Andernfalls wahle man ein dk ∈ Rn so dass gilt

Hf(xk)dk = −∇f(xk)

Falls dies nicht moglich ist oder wenn nicht gilt

∇f(xk)tdk ≤ −ρ‖dk‖p

setze man dk = −∇f(xk)

(S3) Man setze

αk := max{βj : f(xk + βjdk) ≤ f(xk) + σβj∇f(xk)tdk}

(S4) Man setzexk+1 = xk + αkdk

Wenn also das Newton-Verfahren nicht durchfuhrbar ist oder keine befriedigendeAbstiegseigenschaft hat, wechselt man auf einen Schritt des modifizierten Gradi-entenverfahrens. In der Tat garantiert der Algorithmus, dass dk in jedem Schritteine Abstiegsrichtung ist.

Bemerkung 2.27

(i) Es seien D ⊆ Rn offen, f : D → R zweimal stetig differerenzierbar undx∗ ∈ D eine Nullstelle von f so dass Df(x∗) regular ist. Dann gibt es ein r > 0so dass fur alle x ∈ B(x∗, r] die Newton-Iteration x′ definiert ist und dass gilt‖x∗ − x′‖ ≤ ‖x∗ − x‖.(ii) Es sei f : Rn → R eine stetig differenzierbare Abbildung. Wenn das modifi-zierte Gradientenverfahren nicht abbricht, ist jeder Haufungspunkt x∗ der Folgenach 2.12 ein stationarer Punkt von f . Eine Analyse des Beweises zeigt, dass x∗

auch dann ein stationarer Punkt ist, wenn man dk und αk fur alle k /∈ I nur sowahlt, dass f(xk + αkdk) ≤ f(xk) gilt.

21

Page 23: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Proposition 2.28 Es sei f : Rn → R eine zweimal stetig differenzierbare Abbil-dung. Dann ist das globalisierte Newton-Verfahren wohldefiniert. Wenn es nichtabbricht, ist jeder Haufungspunkt ein stationarer Punkt von f .

Beweis Ich zeige zunachst, dass das Verfahren wohldefiniert ist. Dazu ist zuzeigen, dass (S3) in jedem Fall durchfuhrbar ist. Also seien x0, . . . , xk definiertund ∇f(xk) 6= 0. Falls xk+1 wie im modifizierten Gradientenverfahren definiertist, ist ist (S3) offenbar durchfuhrbar. Andernfalls gilt dk 6= 0 und daher

∇f(xk)tdk < −ρ‖dk‖p < 0

Also ist dk eine Abstiegsrichtung. Es folgt:

f(xk + tdk)− f(xk)

t−→t→0 ∇f(xk)

tdk < 0

Dies impliziert ∇f(xk)tdk < σ∇f(xk)

tdk, also gibt es ein ε > 0 so dass gilt

f(xk + tdk)− f(xk)

t< σ∇f(xk)

tdk fur alle 0 < t ≤ ε

Sei j so gewahlt, dass gilt βj ≤ ε, dann gilt offenbar

f(xk + βjdk) < f(xk) + σβj∇f(xk)tdk

Ich nehme an, dass das Verfahren nicht abbricht. Es seien x∗ ein Haufungspunktdes Verfahrens und (xk)k∈I eine Folge, die gegen x∗ konvergiert. Wenn xk+1 un-endlich oft durch einen Gradientenschritt erzeugt wird, folgt die Behauptung aus2.27. Also kann man oBdA annehmen, dass xk+1 fur alle k ∈ I durch einen“Newton-Schritt” erzeugt wird.

Annahme ∇f(x∗) 6= 0

Ich zeige als Erstes:

Behauptung Es gibt c1, c2 > 0 so, dass gilt

(1) c1 ≤ ‖dk‖ ≤ c2 fur alle k ∈ IBeweis Fur alle k ∈ I gilt

‖∇f(xk)‖ = ‖Hf(xk)dk‖ ≤ ‖Hf(xk)‖ ‖dk‖

Angenommen, es gibt eine Teilfolge (dk)k∈J von (dk)k∈I , die gegen 0 konvergiert.Da (Hf(xk))k∈I gegen Hf(x∗) konvergiert, konvergiert dann (∇f(xk))k∈J gegen0, im Widerspruch zu ∇f(x∗) 6= 0. Also gibt es ein k0 und ein c > 0 so dass giltc ≤ ‖dk‖ fur alle k ∈ I, k ≥ k0 und man kann

c1 = min({‖dk‖ : k ∈ I, k < k0} ∪ {c})

22

Page 24: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

setzen. Andererseits folgt aus ∇f(xk)tdk ≤ −ρ‖dk‖p fur alle d ∈ I, dass gilt

ρ‖dk‖p ≤ |∇f(xk)tdk| ≤ ‖∇f(xk)‖ ‖dk‖

und darausρ‖dk‖p−1 ≤ ‖∇f(xk)‖

Da (∇f(xk))k∈I gegen∇f(x∗) konvergiert, ist die Folge beschrankt Wegen p−1 >1 ist auch die Folge (‖dk‖)k∈I beschrankt, und es gibt ein c2 so dass gilt

‖dk‖ ≤ c2 fur alle k ∈ I .

Da (xk)k∈I gegen x∗ konvergiert und (f(xk)) monoton fallt, konvergiert (f(xk))k∈Ngegen f(x∗). Aus

f(xk+1)− f(xk) ≤ σαk∇f(xk)tdk fur alle k ∈ I

folgt :

(2) (αk∇f(xk)tdk)k∈I −→ 0

Ich zeige als Nachstes, dass gilt:

Behauptung Es gibt ein ε > 0 so dass gilt |αk| ≥ ε fur alle k ∈ I.

Beweis Angenommen, es gibt eine Teilfolge (αk)k∈J von (αk)k∈I , die gegen 0konvergiert. Es gelte αk = βjk , dann konvergiert jk gegen ∞ und es folgt fur allek ∈ J nach Wahl von αk:

f(xk + βjk−1dk) ≥ f(xk) + σβjk−1∇f(xk)tdk

Man erhalt:f(xk + βjk−1dk)− f(xk)

βjk−1≥ σ∇f(xk)

tdk

Da (dk) nach (1) beschrankt ist, kann man oBdA annehmen, dass (dk) gegen eind∗ konvergiert. Man erhalt:

∇f(x∗)td∗ ≥ σ∇f(x∗)td∗

und daraus (1− σ)∇f(x∗)td∗ ≥ 0, also ∇f(x∗)td∗ ≥ 0. Andererseits folgt aus

∇f(xk)tdk ≤ −ρ‖dk‖p fur alle k ∈ I ,

dass ∇f(x∗)td∗ ≤ −ρ‖d∗‖p < −ρcp1 < 0 gilt. W.!

Also gilt |αk| ≥ ε fur alle k ∈ I und aus (2) folgt, dass (∇f(xk)tdk)k∈I gegen 0 kon-

vergiert. Dies impliziert∇f(x∗)td∗ = 0, erneut im Widerspruch zu∇f(x∗)td∗ < 0.Also ist die Annahme ∇f(x∗) 6= 0 falsch und es folgt die Behauptung des Satzes.

23

Page 25: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Im Folgenden will ich zeigen: Wenn x∗ ein Haufungspunkt des globalisiertenNewton-Verfahrens ist und Hf(x∗) positiv definit ist, geht das Verfahren in dasNewton-Verfahren uber und konvergiert quadratisch gegen x∗. Dazu reicht es zuzeigen, dass dk in (S2) nach der ersten Bedingung gewahlt wird, wenn k ≥ k0 giltund dass αk = 1 fur diese k gilt.

Proposition 2.29 Es seien f : Rn → R zweimal stetig differenzierbar, x∗ ∈ Rn

und Hf(x∗) sei positiv definit. Dann gibt es ein r > 0 und ein c > 0 so dass gilt

htHf(x)h ≥ c‖h‖2 fur alle x ∈ B(x∗, r] und alle h ∈ Rn

Beweis Angenommen, die Behauptung ist falsch, dann gibt es zu jedem k ∈ Nein xk ∈ B(x∗, 1/k) und ein hk ∈ Rn so dass gilt

htkHf(xk)hk <1

k‖hk‖2

Indem man 1‖hk‖

hk betrachtet, kann man oBdA annehmen, dass ‖hk‖ = 1 fur alle

k ∈ N gilt. Dann gibt es eine Teilfolge (hkj), die gegen ein h0 ∈ Rn konvergiert.Offenbar gilt ‖h0‖ = 1. Aus

htkHf(xk)hk < 1/k‖hk‖2 fur alle k ∈ N

folgt ht0Hf(x∗)h0 = 0 im Widerspruch zur positiven Definitheit von Hf(x∗). �

Lemma 2.30 Es seien f : Rn → R zweimal stetig differenzierbar, x∗ ∈ Rn einstationarer Punkt von f und Hf(x∗) sei positiv definit. Weiterhin seien ρ > 0,p > 2 und 0 < σ < 1/2. Dann gibt es ein r > 0 so dass Hf(x) fur alle x ∈ B(x∗, r]regular ist und dass fur dx = −Hf(x)−1∇f(x) gilt

∇f(x)tdx ≤ −ρ‖dx‖p

sowief(x+ dx) ≤ f(x) + σ∇f(x)tdx

Beweis Nach 2.29 gibt es ein r1 > 0 und ein c > 0 so dass gilt

dtHf(x)d ≥ c‖d‖2 fur alle x ∈ B(x∗, r1] und alle d ∈ Rn

Also ist insbesondere Hf(x) fur alle x ∈ B(x∗, r1] positiv definit und daher re-gular. Nun gilt fur diese x:

∇f(x)tdx = −dtxHf(x)dx ≤ −c‖dx‖2 = −ρ‖dx‖pc

‖dx‖p−2ρWeiterhin gilt

dx = Hf(x)−1∇f(x) −→x→x∗ Hf(x∗)−1∇f(x∗) = 0

24

Page 26: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Wegen p > 2 folgt daraus‖dx‖p−2 −→x→x∗ 0

und daher gibt es ein r2 ≤ r1 so dass gilt

‖dx‖p−2 ≤ c/ρ fur alle x ∈ B(x∗, r2]

Es folgt dann fur diese x:

∇f(x)tdx ≤ −ρ‖dx‖pc

‖dx‖p−2ρ≤ −ρ‖dx‖p

Weiterhin gilt

f(x+ dx)− f(x)− σ∇f(x)tdx

= f(x+ dx)− f(x)−∇f(x)tdx + (1− σ)∇f(x)tdx

= f(x+ dx)− f(x)−∇f(x)tdx − (1− σ)dtxHf(x)dx

= f(x+ dx)− f(x)−∇f(x)tdx − 12dtxHf(x)dx

−(1/2− σ)dtxHf(x)dx

Nach 2.29 gibt es ein r3 ≤ r2 und ein c > 0 so dass gilt

dtHf(x)d ≥ c‖d‖2 fur alle x ∈ B(x∗, r3] und alle d

Andererseits gilt nach 2.19 fur alle x und d:

|f(x+d)−f(x)−∇f(x)t−1

2dtHf(x)d| ≤ ‖d‖2 max{‖Hf(x)−Hf(y)‖ : y ∈ [x, x+d]}

Also gibt es ein r ≤ r3 so dass fur alle x ∈ B(x∗, r] gilt:

|f(x+dx)−f(x)−∇f(x)tdx−1

2dtxHf(x)dx| ≤ ‖dx‖2(

1

2−σ)c ≤ (

1

2−σ)dtxHf(x)dx

und es folgt die Behauptung. �

Satz 2.31 Es sei f : Rn → R eine zweimal stetig differenzierbare Abbildung und(xk) eine Folge, die nach dem Algorithmus des globalisierten Newton-Verfahrenserzeugt worden ist. Es sei x∗ ein Haufungspunkt der Folge und Hf(x∗) sei posi-tiv definit. Dann besitzt f in x∗ ein (striktes) lokales Minimum, die Folge (xk)konvergiert gegen x∗ und es gibt ein j0 so dass die Iteration fur alle j ≥ j0 dieNewton-Iteration ist.

Beweis Nach 2.28 ist x∗ ein stationarer Punkt. Da Hf(x∗) positiv definit ist,besitzt f in x∗ ein (isoliertes) lokales Minimum. Nach 2.30 gibt es ein r > 0 sodass xk+1 fur alle xk ∈ B(x∗, r] nach dem Newton-Verfahren bestimmt wird. Da(xk)k∈I gegen x∗ konvergiert, gibt es ein k0 ∈ I so dass xk0 ∈ B(x∗, r] liegt. Nach2.27 kann man oBdA annehmen, dass das Newton-Verfahren fur alle k ≥ k0 inB(x∗, r] liegt und daher wird xk+1 fur alle k ≥ k0 nach dem Newton-Verfahrenbestimmt. �

25

Page 27: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Kapitel 3

Konvexe Mengen

Bei konvexen Minimierungsproblemen sind der zulassige Bereich und die Ziel-funktion konvex. In diesem Fall gibt es eine Reihe wesentlicher Vereinfachungen:Jede lokale Losung so eines MPs ist eine Losung (4.6). Wenn die Zielfunktiondifferenzierbar ist, sind die stationaren Punkte (in geeigneter Weise definiert)genau die Losungen des MPs (4.12). Jeder Kuhn-Tucker-Punkt ist eine Losung(6.3), und die Umkehrung gilt unter der leicht zu verifizierenden Slater-Bedingung(6.7). Man beachte auch das letzte Zitat am Ende des Manuskripts. Allerdingssind einige dieser Resultate sehr tief und brauchen eine aufwendige Vorbereitung,so zum Beispiel den Trennungssatz, der in (3.25) bewiesen wird.

Bemerkung 3.1 Es seien E ein reeller Vektorraum und a, b ∈ E. Dann gilt:

{αa+ (1− α)b : 0 ≤ α ≤ 1} = {b+ α(a− b) : 0 ≤ α ≤ 1}

= {βb+(1−β)a : 0 ≤ β ≤ 1} = {a+β(b−a) : 0 ≤ β ≤ 1}

Diese Menge heißt die Verbindungsstrecke zwischen a und b und wird mit [a, b]bezeichnet. Offenbar gilt [a, b] = [b, a]. (Beachten Sie, dass dies naturlich furn = 1 nicht gilt. Aber das kommt so selten vor, dass ich diese Inkonsistenz inKauf nehme.)

Definition 3.2 Es sei E ein reller Vektorraum. Eine Menge A ⊆ E heißt kon-vex, wenn gilt:

αa+ (1− α)b ∈ A fur alle a, b ∈ A und alle α ∈ R, 0 ≤ α ≤ 1

wenn also die Verbindungsstrecke zweier Punkte aus A wieder in A liegt.

Beispiele 3.3

(i) Es sei E ein normierter Raum. Dann sind fur alle x0 ∈ E und alle r > 0 dieMengen

B(x0, r) := {x ∈ E : ‖x− x0‖ < r}

26

Page 28: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

undB(x0, r] := {x ∈ E : ‖x− x0‖ ≤ r}

konvexe Mengen.

(ii) Es seien E ein reeller Vektorraum und ϕ : E → R eine lineare Abbildungsowie b ∈ R. Dann sind die Mengen

{x ∈ E : ϕ(x) ≥ b} und {x ∈ E : ϕ(x) = b}

konvex. Speziell sind fur alle A ∈M(p, n) und b ∈ Rp die Mengen

{x ∈ Rn : Ax ≥ b} und {x ∈ Rn : Ax = b}

konvex.

(iii) Eine Menge A ⊆ R ist genau dann konvex, wenn sie ein Intervall ist.

Beweis Alle Beweise sind Routine, ich zeige daher nur einen Teil von (i):

Es seien a, b ∈ B(x0, r) und 0 ≤ α ≤ 1. Dann gilt:

‖αa+ (1− α)b− x0‖ = ‖α(a− x0) + (1− α)(b− x0)‖≤ ‖α(a− x0)‖+ ‖(1− α)(b− x0)‖= α‖a− x0‖+ (1− α)‖b− x0‖< (α + (1− α))r = r

Also ist B(x0, r) konvex. �

Proposition 3.4 Es seien E ein reeller Vektorraum und A,B ⊆ E konvexeMengen und α ∈ R. Dann gelten:

(i) A+B := {a+ b : a ∈ A , b ∈ B} ist eine konvexe Menge.

(ii) αA := {αa : a ∈ A} ist eine konvexe Menge.

(iii) Es sei (Ai)i∈I eine Familie konvexer Mengen. Dann ist⋂i∈I Ai eine konvexe

Menge.

Wenn E ein normierter Raum ist, gilt weiterhin:

(iv) A ist eine konvexe Menge.

Beweis (i) - (iii) sind Routine.

(iv): Es seien a, b ∈ A und 0 ≤ α ≤ 1. Dann gibt es Folgen (ai) und (bi) in A,die gegen a bzw. b konvergieren. Es folgt αai + (1 − α)bi ∈ A fur alle i und da(αai + (1− α)bi) gegen αa+ (1− α)b konvergiert, folgt αa+ (1− α)b ∈ A. �

Proposition 3.5 Es sei E ein reller Vektorraum. Eine Menge A ⊆ E ist genaudann konvex, wenn fur alle a1, . . . , ak ∈ A und alle α1, . . . , αk ≥ 0 mit

∑ki=1 αi =

1 gilt∑k

i=1 αiai ∈ A.

27

Page 29: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beweis Offenbar ist A konvex, wenn alle Elemente dieser Form zu A gehoren (ImFall k = 2 gilt α2 = 1 − α1.) Also sei A konvex, dann zeige ich durch Induktionnach k, dass alle Elemente dieser Form zu A gehoren. Der Fall k = 1 ist klar, dieBehauptung gelte fur k. Es sei

a =k+1∑i=1

αiai ,

dann kann man oBdA annehmen, dass αi > 0 fur alle i gilt. Man setze

α =k∑i=1

αi > 0

dann gilt αk+1 = 1− α und aus der Induktionsannahme folgt:

c :=1

α

k∑i=1

αiai =k∑i=1

αiαai ∈ A .

Die Konvexitat von A impliziert dann:

a = αc+ (1− α)ak+1 ∈ A . �

Definition 3.6 Es seien E reeller Vektorraum Raum und A ⊆ E. Dann heißt

co(A) =⋂{C ⊆ Rn : A ⊆ C , C konvex}

die konvexe Hulle von A.

Nach 3.4 ist co(A) konvex.

Proposition 3.7 Es seien E ein reeller Vektorraum und A ⊆ E. Dann gilt:

co(A) = {k∑i=1

αiai : k ∈ N, ai ∈ A, αi ≥ 0,k∑i=1

αi = 1} .

Beweis Es sei B die Menge auf der rechten Seite. Man sieht leicht, dass Bkonvex ist. Wenn nun C ⊇ A eine konvexe Menge ist, gilt

∑ki=1 αiai ∈ C fur

alle k ∈ N, ai ∈ C, αi ≥ 0,∑k

i=1 αi = 1 nach 3.5 und daher erst recht furalle ai ∈ A . Also folgt B ⊆ C fur jede konvexe Menge C ⊇ A und daraus dieBehauptung.

Bemerkung 3.8 Elemente der Form∑k

i=1 αiai fur die gilt α1, . . . , αk ≥ 0 und∑ki=1 αi = 1 nennt man Konvexkombination der Elemente a1, . . . , ak. Nach

3.7 besteht die konvexe Hulle einer Menge A also aus allen Konvexkombinationenvon Elementen aus A.

28

Page 30: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beispiele 3.9

(i) Naturlich gilt co(A) = A genau dann, wenn A konvex ist.

(ii) Es seien E ein reelleer Vektorraum und a, b ∈ E. Dann gilt

co({a, b}) = {αa+ (1− α)b : 0 ≤ α ≤ 1} = [a, b] = [b, a]

d.h. co({a, b}) ist die Strecke zwischen b und a.

(iii) Es seien r, s > 0 und A = {(0, 0), (r, 0), (0, s)} ⊆ R2. Dann gilt

co(A) = {(u, v)t ∈ R2 : u, v ≥ 0 , v ≤ u− s

ru}

Also ist die konvexe Hulle von A das Dreieck (mit Inhalt), mit den Ecken (0, 0), (r, 0)und (0, s).

Lemma 3.10 Es seien a1, . . . , ak linear abhangige Vektoren in Rn und α1, . . . , αk ≥0. Dann gibt es β1, . . . , βk ≥ 0 so dass gilt βj = 0 fur ein j und

k∑i=1

αiai =k∑i=1

βiai

Beweis Sei x =∑k

i=1 αiai. Es gibt (γ1, . . . , γk) 6= (0, . . . , 0) so dass gilt∑k

i=1 γiai =0 . OBdA gebe es ein r mit γr > 0. Es gilt fur alle δ ≥ 0:

x =∑

(αi − δγi)ai

Setzt man βi = αi − δγi fur alle i, dann gilt βi ≥ 0 fur alle i genau dann, wenngilt

δγi ≤ αi fur alle γi > 0 ,

alsoδ ≤ αi

γifur alle γi > 0 .

Seiδ = min{αi

γi: γi > 0} ,

dann genugen β1, . . . , βk der Bedingung des Lemmas. �

Der Satz von Caratheodory hat zwei schone Anwendungen, die ich zeigen will,obwohl sie in dieser Vorlesung nicht gebraucht werden:

Satz 3.11 (Caratheodory) Es seien A ⊆ Rn und x ∈ co(A). Dann kann man xals Konvexkombination von hochstens n+ 1 Elementen aus A darstellen.

29

Page 31: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beweis Es sei x ∈ co(A), dann gibt es a1, . . . , ak ∈ A und α1, . . . , αk ≥ 0 mit∑ki=1 αi = 1 so dass gilt

x =k∑i=1

αiai

Man wahle ein minimales k mit dieser Eigenschaft. Angenommen, k ≥ n + 2.Dann sind die Vektoren (

a11

), . . . ,

(ak1

)linear abhangig und es gilt:(

x1

)=

k∑i=1

αi

(ai1

).

Nach 3.10 gibt es β1, . . . , βk ≥ mit βj = 0 fur ein j so dass gilt(x1

)=

k∑i=1

βi

(ai1

).

Es folgt x =∑

i 6=j βiai und∑

i 6=j βi = 1. Also ist k nicht minimal. Widerspruch!�

Korollar 3.12 Es sei K ⊆ Rn kompakt. Dann ist co(K) kompakt.

Beweis Es sei

L = {α ∈ Rn+1 : 0 ≤ α ≤ 1 ,n+1∑i=1

ai = 1} ×Kn+1 ,

dann ist L kompakt. Man definiere die stetige Abbildung ϕ : L → Rn durchϕ(α1, . . . , αn+1, a1, . . . , an+1) =

∑n+1i=1 αiai. Dann gilt ϕ(L) = co(K) nach dem

Satz von Caratheodory und als stetiges Bild einer kompakten Menge ist co(K)kompakt. �

Proposition 3.13 Es sei a1, . . . , ak ∈ Rn. Dann ist

A = {k∑i=1

αiai : αi ≥ 0}

eine konvexe, abgeschlossene Menge.

30

Page 32: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beweis Offenbar ist A konvex. Ich zeige die Abgeschlossenheit von A zunachstfur den Fall, dass a1, . . . , ak linear unabhangig sind:

Man erganze a1, . . . , ak zu einer Basis a1, . . . , an des Rn. Es gibt eine lineare, alsostetige Abbildung ϕ : Rn → Rn so dass gilt ϕ(ai) = ei fur alle i. Weiterhin sei

L = {α ∈ Rn : α ≥ 0 , αk+1 = · · · = αn = 0} ,

dann ist L abgeschlossen und daher auch ϕ−1(L) als Urbild unter einer stetigenAbbildung. Nun sei x ∈ ϕ−1(L). Es gibt αi, so dass gilt x =

∑αiai. Es folgt:

x ∈ ϕ−1(L) ⇔ ϕ(x) ∈ L⇔

∑αiϕ(ai) ∈ L

⇔∑αiei ∈ L

⇔ (α1, . . . , αn)t ∈ L⇔ α1, · · · , αk ≥ 0 , αk+1 = · · · = αn = 0

⇔ x ∈ A .

Also folgt A = ϕ−1(L) und A ist in diesem Fall abgeschlossen.

Ich zeige nun die Behauptung der Proposition durch vollstandige Induktion nachk. Im Fall k = 1 gilt a1 = 0 und daher A = {0} oder a1 6= 0 und in diesem Fallist a1 linear unabhangig. Die Behauptung gelte also fur k − 1. Es ist zu zeigen,dass

A = {k∑i=1

αiai : αi ≥ 0}

abgeschlossen ist.

Falls a1, . . . , ak linear unabhangig sind, ist die Behauptung schon bewiesen. An-dernfalls setze man fur 1 ≤ j ≤ k

Aj = {k∑i=1

αiai : αi ≥ 0 , αj = 0} ,

dann sind alle Aj nach Induktionsannahme abgeschlossen und es reicht zu zeigen,dass A = A1 ∪ . . . ∪ Ak gilt. :

Es sei x ∈ A, x =∑αiai mit αi ≥ 0. Dann gibt es nach 3.10 β1, . . . , βk ≥ 0 mit

βj = 0 fur ein j so dass gilt x =∑βiai, d.h. es gilt x ∈ Aj. �

Nach diesen vorbereitenden Bemerkungen uber konvexe Mengen komme ich nunwieder zur Optimierung. Es seien K ⊆ D ⊆ Rn. Wenn f : D → R eine differen-zierbare Abbildung ist, und x∗ ∈ K das MP

min f(x)bez. x ∈ K

31

Page 33: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

lost, dann gilt ∇f(x∗) = 0, wenn x∗ ein innerer Punkt von K ist. So ein Punktheißt dann stationar. Wenn nun K konvex ist, kann man eine Abschwachungdieser Aussage beweisen. Unglucklicherweise heißt so ein Punkt auch stationar:

Definition 3.14 Es seien D ⊆ Rn offen, K ⊆ D und f : D → R eine differen-zierbare Abbildung. Vorgegeben sei das MP

min f(x)bez. x ∈ K

Ein Punkt x∗ ∈ K heißt stationarer Punkt des MPs, wenn gilt

∇f(x∗)t(x− x∗) ≥ 0 fur alle x ∈ K

Bemerkung 3.15 Es sei x∗ ∈ K ein innerer Punkt, der im Sinn der vorherigenDefinition stationar ist. Dann gilt

∇f(x∗)t(x− x∗) ≥ 0 fur alle x ∈ K

Sei nun d ∈ Rn beliebig, dann gibt es ein α 6= 0 so dass gilt x = x∗±αd ∈ K. Esfolgt

±α∇f(x∗)td = ∇f(x∗)t(x− x∗) ≥ 0

und daraus ∇f(x∗)td = 0. Da dies fur alle d ∈ Rn gilt, folgt ∇f(x∗) = 0 und x∗

ist ein stationarer Punkt des MPs im ursprunglichen Sinn.

Proposition 3.16 Es seien D ⊆ Rn offen, f : D → R differenzierbar und K ⊆D konvex. Es sei x∗ ∈ K eine lokale Losung des MPs

min f(x)bez. x ∈ K

d.h. es gebe ein r > 0 so dass x∗ Losung des MPs

min f(x)bez. x ∈ K ∩B(x∗, r]

ist. Dann ist x∗ ein stationarer Punkt des MPs.

Beweis Es sei x ∈ K beliebig. Da K konvex ist, gilt

x∗ + α(x− x∗) = αx+ (1− α)x∗ ∈ K fur alle 0 ≤ α ≤ 1

Da x∗ eine lokale Losung des MPs ist, gibt es ein ε > 0 so dass gilt

f(x∗) ≤ f(x∗ + α(x− x∗)) fur alle 0 ≤ α ≤ ε

32

Page 34: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Es folgt fur alle α ∈ (0, ε]:

0 ≤ f(x∗ + α(x− x∗))− f(x∗)

α−→α→0 ∇f(x∗)t(x− x∗) �

Ich komme nun zu einem der wichtigsten Hilfsmittel der Theorie konvexer Mi-nimalprobleme, den Trennungssatzen. Trennungssatze spielen in der Funktional-analysis eine wichtige Rolle, allerdings beruhen ihre Beweise schon fur normierteRaume auf dem Satz von Hahn-Banach. Um diesen zu vermeiden, werde ich michim folgenden auf den endlich-dimensionalen Fall beschranken. Ich weise aber dar-auf hin, dass die Sattze 3.21 und 3.26 in jedem normierten Raum oder allgemeinerin jedem lokalkonvexen topologischen Vektorraum gelten, wahrend 3.25 im we-sentlichen nur in Rn richtig ist.

Definition 3.17 Es seien A,B ⊆ Rn. Man sagt, dass man die Mengen A undB trennen kann, wenn es ein c ∈ Rn \ {0} und ein γ ∈ R so gibt, dass gilt:

ctx ≤ γ ≤ cty fur alle x ∈ A und alle y ∈ B

Man sagt, dass man die Mengen A und B strikt trennen kann, wenn es einc ∈ Rn \ {0} und ein γ ∈ R so gibt, dass gilt:

ctx < γ < cty fur alle x ∈ A und alle y ∈ B

Man sagt dann auch, dass c die beiden Mengen (strikt) trennt.

Die Menge {x ∈ Rn : ctx = γ} nennt man auch Hyperebene, im Fall n = 2 istsie eine Gerade, im Fall n = 3 eine Ebene. Die Tatsache, dass man zwei Mengen(strikt) trennen kann bedeutet dann geometrisch, dass es eine Hyperebene gibt, sodass die beiden Mengen “auf verschiedenen Seiten” der Hyperebene liegen (wobeisie im strikten Fall die Hyperebene nicht schneiden).

Lemma 3.18 Es seien K ⊆ Rn eine abgeschlossene, konvexe Menge und 0 /∈ K.Dann gibt es ein c ∈ Rn \ {0}, und ein γ > 0 so dass gilt

ctx ≥ γ > 0 fur alle x ∈ K .

Beweis Falls K = ∅ gilt, ist nichts zu zeigen, sei also K 6= ∅. Man definieref : Rn → R durch f(x) = ‖x‖2 = xtx, dann ist f stetig differenzierbar und esgilt ∇f(x) = 2x fur alle x ∈ Rn.

Man wahle ein r > 0 so dass gilt K ∩B(0, r] 6= ∅. Dann ist K ∩B(x0, r] kompaktund daher nimmt f auf K ∩B(x0, r] sein Minimum an. Also ist das MP

min f(x)bez. x ∈ K ∩B(0, r]

33

Page 35: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

losbar. Sei x∗ ∈ K eine Losung. Dann ist x∗ offenbar auch eine Losung des MPs

min f(x)bez. x ∈ K

Da K konvex ist, ist x∗ nach 3.16 ein stationarer Punkt, also folgt:

∇f(x∗)t(x− x∗) ≥ 0 fur alle x ∈ K .

Da 0 /∈ K gilt, ist ∇f(x∗) = 2x∗ 6= 0 und es gilt mit c = ∇f(x∗) = 2x∗ sowieγ = ‖x∗‖2 :

ctx ≥ ctx∗ = 2(x∗)tx∗ = 2‖x∗‖2 = 2γ > 0 fur alle x ∈ K . �

Lemma 3.19 Es seien A,B ⊆ Rn, A abgeschlossen und B kompakt. Dann istB − A abgeschlossen.

Beweis Es sei (yj − xj) eine Folge in B −A, die gegen ein z0 konvergiert. Da Bkompakt ist, gibt es eine Teilfolge (yjk), die gegen ein y0 ∈ B konvergiert. Dannkonvergiert (xjk) = (yjk − (yjk − xjk)) gegen y0− z0 Da A abgeschlossen ist, folgty0 − z0 ∈ A und daraus z0 = y0 − (y0 − z0) ∈ B − A . �

Beispiel 3.20 Es seien

B = {(u, v)t ∈ R2 : u > 0 , 1/u ≤ v}

undA = {(w, 0)t ∈ R2 : w ∈ R} .

Dann sind A und B konvexe, abgeschlossenen Mengen, aber B − A ist nichtabgeschlossen.

Weiterhin sind A und B konvexe, abgeschlossene, disjunkte Mengen, die mannicht strikt trennen kann.

Satz 3.21 Es seien A,B ⊆ Rn disjunkte, nicht-leere, konvexe Mengen, A abge-schlossen, B kompakt. Dann gibt es ein c ∈ Rn \ {0}, ein γ ∈ R und ein ε > 0 sodass gilt:

ctx ≤ γ < γ + ε ≤ cty fur alle x ∈ A und alle y ∈ B .

Insbesondere kann man A und B strikt trennen.

34

Page 36: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beweis B−A ist nach 3.4 konvex, nach 3.19 abgeschlossen und es gilt 0 /∈ B−A,da die Mengen disjunkt sind. Nach 3.18 gibt es ein c ∈ Rn und ein ε so dass gilt:

ct(y − x) ≥ ε > 0 fur alle x ∈ A , y ∈ B .

Es folgtctx+ ε ≤ cty fur alle x ∈ A , y ∈ B .

Also ist ctA nach oben und ctB nach unten beschrankt und es gilt:

sup{ctx : x ∈ A}+ ε ≤ inf{cty : y ∈ B} .

Die Behauptung folgt jetzt z.B. mit γ = sup{ctx : x ∈ A}. Weiterhin gilt

ctx < γ + ε/2 < cty fur alle x ∈ A, y ∈ B

also kann man A und B strikt trennen. �

Zum Beweis des allgemeinen Trennungssatzes muss man nun noch ein wenig ar-beiten. Es gibt viele Wege dahin. Der hier vorgestellte Weg benutzt die sogenannte“Heine-Borel-Eigenschaft” kompakter Mengen:

Satz 3.22 Es seien K ⊆ Rn eine kompakte Menge und C eine Menge offenerTeilmengen von Rn, die K uberdeckt, d.h. es gelte

K ⊆⋃C =

⋃{U : U ∈ C}

Dann gibt es eine endliche Teiluberdeckung von K, d.h. es gibt U1, . . . , Uk ∈ C sodass gilt

K ⊆ U1 ∪ . . . ∪ Uk

Beweis Ich beweise zunachst den Fall, dass C abzahlbar ist, d.h. es gilt C ={Un : n ∈ N}. Angenommen, das ist falsch, dann wahle man zu jedem k ∈ Nein xk ∈ K \ (U1 ∪ . . . ∪ Uk). Da K kompakt ist, besitzt die Folge (xk) einenHaufungspunkt x0 ∈ K. Dann gibt es ein k0 so dass gilt x0 ∈ Uk0 . Da Uk0 offenist, gibt es unendlich viele k so dass gilt xk ∈ Uk0 , im Widerspruch zu xk /∈ Uk0fur alle k ≥ k0.

Im allgemeinen Fall gibt es zu jedem x ∈ K ein Ux ∈ C so dass gilt x ∈ Ux. DaUx offen ist, gibt es ein rx ∈ Q, rx > 0 so dass gilt

x ∈ B(x, 2rx) ⊆ Ux

Man wahle ein qx ∈ B(x, rx) ∩Qn, dann gilt

x ∈ B(qx, rx) ⊆ B(x, 2rx) ⊆ Ux

35

Page 37: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Also gilt

K ⊆⋃x∈K

B(qx, rx)

Da die Menge {B(qx, rx) : x ∈ K} abzahlbar ist, gibt es nach dem Bewiesenenx1, . . . , xk ∈ K so dass gilt K ⊆ B(qx1 , rx1) ∪ . . . ∪ B(qxk , rxk). Es folgt K ⊆Ux1 ∪ . . . ∪ Uxk . �

Korollar 3.23 Es sei A eine nicht-leere Familie abgeschlossener Teilmengen vonRn und K ⊆ Rn kompakt. Es gelte

A1 ∩ . . . ∩ An ∩K 6= ∅ fur alle A1, . . . , An ∈ A

(man sagt, A hat die endliche Durchschnittseigenschaft EDE in K), dann gilt⋂{A ∈ A} ∩K 6= ∅ ,

d.h. es gibt ein x ∈ K so dass gilt x ∈ A fur alle A ∈ A.

Beweis Angenommen, die Behauptung ist falsch, dann gilt K ⊆ Rn \⋂{A : A ∈

A}. Man setzeC = {Rn \ A : A ∈ A}

dann ist C eine Menge offener Teilmengen von Rn und es gilt nach de Morgan:⋃{U : U ∈ C} =

⋃{Rn \ A : A ∈ A} = Rn \

⋂{A : A ∈ A} ⊇ K

Nach 3.22 gibt es A1, . . . , Ak ∈ C so dass gilt

K ⊆ (Rn \ A1) ∪ . . . ∪ (Rn \ Ak)

und es folgtK ∩ A1 ∩ . . . ∩ Ak = ∅

im Widerspruch zur Voraussetzung. �

Lemma 3.24 Es seien A ⊆ Rn eine konvexe Menge und 0 /∈ A. Dann gibt eseine Hyperebene, die {0} und A trennt.

Beweis Man setze K = {d ∈ Rn : ‖d‖ = 1}, dann ist K kompakt. Fur alle x ∈ Asei

Ax = {d ∈ Rn : ‖d‖ = 1 , dtx ≥ 0} .Es reicht zu zeigen, dass {Ax : x ∈ K} EDE in K besitzt, die Behauptung folgtdann aus 3.23. Also seien x1, . . . xk ∈ A, dann gilt B := co({x1, . . . , xk}) ⊆ A unddaher 0 /∈ B. Nach 3.12 ist B kompakt, also abgeschlossen und nach 3.21 gibt esein d 6= 0 und γ so dass gilt

0 = dt0 ≤ γ ≤ dty fur alle y ∈ B .

Es folgt 1‖d‖d ∈ Ax1 ∩ . . . ∩ Axk ∩K. �

36

Page 38: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beachten Sie, dass der Beweis dieses harmlos aussehenden Lemmas, das das Herzdes nachfolgenden Trennungssatzes ist, die beiden nicht-trivialen Ergebnisse 3.21und 3.23 benutzt, also in keiner Weise trivial ist. Andererseits ist es nur einSpezialfall dieses Trennungssatzes, so dass es nach meiner Philosophie nicht selbst“Satz” genannt werden sollte.

Satz 3.25 Es seien A,B ⊆ Rn konvexe, nicht-leere, disjunkte Mengen. Dannkann man A und B trennen.

Beweis Die Menge B − A ist konvex und es gilt 0 /∈ B − A. Nach 3.24 gibt esein c 6= 0 so dass gilt 0 ≤ ct(y − x) fur alle x ∈ A, y ∈ B. Es folgt

ctx ≤ cty fur alle x ∈ A, y ∈ B

Dies impliziertsup{ctx : x ∈ A} ≤ inf{cty : y ∈ B}

und man kann jedes γ ∈ [sup{ctx : x ∈ A}, inf{cty : y ∈ B}] wahlen. �

Korollar 3.26 Es seien A,B ⊆ Rn nicht-leere konvexe, disjunkte Mengen undA offen. Dann gibt es ein c ∈ Rn und ein γ ∈ R so dass gilt:

ctx < γ ≤ cty fur alle x ∈ A , y ∈ B

Beweis Nach 3.25 gibt es ein c 6= 0 so dass gilt

ctx ≤ cty fur alle x ∈ A, y ∈ B

Sei x ∈ A. Da A offen ist, folgt x+ εc ∈ A fur ein ε > 0 und es folgt

γ ≥ ct(x+ εc) = ctx+ ε‖c‖2 > ctx �

Das folgende Lemma von Farkas geht an zentraler Stelle beim Beweis der Existenzvon Lagrange-Multiplikatoren ein:

Satz 3.27 (Lemma von Farkas) Es seien a1, . . . , ak, b ∈ Rn. Dann sind aquiva-lent:

(i) Es gibt λ1, . . . , λk ≥ 0 so dass gilt

b = λ1a1 + · · ·+ λkak .

(ii) Fur alle x ∈ Rn folgt aus atix ≤ 0 fur i = 1, . . . , k stets btx ≤ 0 .

37

Page 39: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beweis “(i) ⇒ (ii)” Es gelte atix ≤ 0 fur i = 1, . . . , k und es gebe λ1, . . . , λk ≥ 0so dass gilt:

b = λ1a1 + · · ·+ λkak ,

dann folgt fur alle x ∈ Rn:

btx = λ1at1x+ · · ·+ λka

tkx ≤ 0 .

“(ii) ⇒ (i)” Es seiA = {λ1a1 + · · ·+ λkak : λi ≥ 0} ,

dann ist zu zeigen, dass b ∈ A gilt. Angenommen, b /∈ A. Da A nach 3.13 ab-geschlossen und konvex ist, gibt es nach 3.21 ein c ∈ Rn und ein γ ∈ R so dassgilt:

cta ≤ γ < ctb fur alle a ∈ A .

Wegen 0 ∈ A gilt γ ≥ 0. Sei a ∈ A, dann folgt ka ∈ A fur alle k ∈ N und daraus

kcta = ct(ka) ≤ γ fur alle k ∈ N .

Es folgt cta ≤ 0 fur alle a ∈ A, speziell also ctai ≤ 0 fur alle i, und ctb > 0 imWiderspruch zu (i). �

Bemerkung 3.28 Fur die nicht-triviale Richtung (ii) ⇒ (i) von 3.27 gibt eseinen schonen Beweis, der die Dualitatstheorie der linearen Optimierung benutzt:

Man setze A = (a1, . . . , ar)t, dann gilt:

Aus Atx ≥ 0 folgt stets btx ≥ 0.

Also hat das lineare MPmin btxbez. Atx ≥ 0

die Losung x∗ = 0. Daher ist auch das duale Programm losbar. Dieses hat dieForm:

max 0tybez. Au = b

u ≥ 0

Also gibt es ein u ≥ 0 mit Au = b und es folgt

b = u1a1 + · · ·+ urar .

38

Page 40: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Kapitel 4

Konvexe Abbildungen

Definition 4.1 Es sei K ⊆ Rn.

(i) Eine Abbildung f : K → Rp heißt konvex, wenn K konvex ist und weiterhingilt:

f(αx+ (1− α)y) ≤ αf(x) + (1− α)f(y)

fur alle x, y ∈ K und alle α ∈ [0, 1]

(ii) Eine Abbildung f : K → R heißt streng konvex, wenn K konvex ist undaußerdem gilt:

f(αx+ (1− α)y) < αf(x) + (1− α)f(y)

fur alle x, y ∈ K, x 6= y und alle α ∈ (0, 1)

Bemerkung 4.2 Es sei K ⊆ Rn konvex.

(i) Es sei I ⊆ R ein Intervall. Eine Abbildung f : I → R ist genau dann konvex,wenn fur alle x, y ∈ I die Verbindungsgerade zwischen den Punkten (x, f(x)) und(y, f(y)) nicht unterhalb des Graphen von f liegt.

(ii) Eine Abbildung f : K → Rp ist genau dann konvex, wenn alle fi konvex sind.

(iii) Es sei K ⊆ Rn. Eine Abbildung f : K → Rp ist genau dann konvex, wenn

Epi(f) = {(x, r) ∈ K × Rp : f(x) ≤ r}

konvex ist. Man nennt Epi(f) den Epigraphen von f .

Beweis Das ist eine Ubungsaufgabe. �

Ich werde in 4.13 ein sehr einfaches Kriterium fur die (strenge) Konvexitat einerdifferenzierbaren Abbildung beweisen, das man in der Regel anwenden kann, undbeschranke mich daher auf zwei einfache Beispiele:

39

Page 41: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beispiele 4.3

(i) | · | : R → R ist konvex, aber nicht streng konvex. Allgemeiner ist jede Norm‖ · ‖ : Rn → R konvex, aber nicht streng konvex.

(ii) Eine Abbildung f : Rn → Rp heißt affin, wenn es eine Matrix A ∈ M(p, n)und ein d ∈ Rp so gibt, dass gilt

f(x) = Ax+ d fur alle x ∈ Rn

Jede affine Abbildung f : Rn → Rp ist konvex, fur p = 1 ist sie nicht strengkonvex.

Beweis

(i) Fur alle x, y ∈ Rn und alle α ∈ (0, 1) gilt:

‖αx+ (1− α)y‖ ≤ ‖αx‖+ ‖(1− α)y‖ = α‖x‖+ (1− α)‖y‖ ,

also ist ‖ · ‖ konvex. Fur λ ≥ 0 und y = λx gilt:

‖αx+ (1− α)y‖ = ‖αx+ λ(1− α)x‖= |(α + λ(1− α))| ‖x‖= (α + λ(1− α))‖x‖= α‖x‖+ (1− α)‖y‖ ,

also ist f nicht streng konvex.

(ii) Fur alle x, y ∈ Rn und alle α ∈ R gilt:

f(αx+ (1− α)y) = A(αx+ (1− α)y) + d

= αAx+ (1− α)Ay + αd+ (1− α)d

= αf(x) + (1− α)f(y)�

Lemma 4.4 Es seien K ⊆ Rn konvex und f : K → R eine Abbildung. Danngelten:

(i) f ist genau dann konvex, wenn gilt:

f(x+ α(y − x)) ≤ f(x) + α(f(y)− f(x))

fur alle x, y ∈ K und alle α ∈ [0, 1] .

f ist genau dann streng konvex, wenn gilt:

f(x+ α(y − x)) < f(x) + α(f(y)− f(x))

fur alle x, y ∈ K, x 6= y und alle α ∈ (0, 1) .

(ii) f ist genau dann konvex, wenn fur alle x1, . . . , xk ∈ K und alle α1, . . . , αk ≥ 0mit α1 + · · ·+ αk = 1 gilt:

f(α1x1 + · · ·+ αkxk) ≤ α1f(x1) + · · ·+ αkf(xk) .

40

Page 42: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beweis Der Beweis von (i) und (ii) folgt unmittelbar aus der Tatsache, dass

x+ α(y − x) = αy + (1− α)x

gilt.

(iii) Offenbar impliziert die Bedingung die Konvexitat. Es seien f konvex, x0, . . . , xkElemente aus K und α1, . . . , αk ∈ [0, 1] ,

∑αi = 1. Dann gilt (xi, f(xi)) ∈ Epi(f)

fur alle i. Da f konvex ist, ist Epi(f) nach 4.2 konvex und es folgt

(∑

αixi,∑

αif(xi)) =∑

αi(xi, f(xi)) ∈ Epi(f)

nach 3.5 und daraus die Behauptung. �

Lemma 4.5 Es seien K ⊆ Rn konvex und f, g : K → Rp konvexe Abbildungensowie α ≥ 0. Dann sind f + g und αf konvexe Abbildungen.

Beweis Der Beweis ist trivial. �

Satz 4.6 Es sei f : K → R eine konvexe Abbildung und x∗ ∈ K eine lokaleLosung des MPs

min f(x)bez. x ∈ K

Dann ist x∗ eine Losung des MPs. Wenn f streng konvex ist, ist x∗ die einzigeLosung des MPs.

Beweis Es sei x ∈ K beliebig. Dann gibt es ein ε ∈ (0, 1) so dass fur alle0 < α ≤ ε gilt f(x∗) ≤ f(x∗ + α(x− x∗)). Es folgt:

f(x∗) ≤ f(x∗ + α(x− x∗)) ≤ f(x∗) + α(f(x)− f(x∗))

und daraus f(x) ≥ f(x∗).

Wenn f streng konvex ist, ist die erste Ungleichung strikt und es folgt die Be-hauptung. �

4.6 ist einer der Grunde fur die Wichtigkeit konvexer Abbildungen in der Op-timierung. Wie schon mehrmals betont, liefern Verfahren zur Bestimmung vonLosungen von Minimalproblemen in der Regel nur lokale Losungen. Wenn nundas Problem konvex ist, ist jede lokale Losung automatisch eine Losung.

Erinnerung 4.7 Eine symmetrische Matrix A ∈ M(n, n) heißt positiv semi-definit, wenn gilt

xtAx ≥ 0 fur alle x ∈ Rn

A heißt positiv definit, wenn gilt

xtAx > 0 fur alle x ∈ Rn, x 6= 0

41

Page 43: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Da jede symmetrische Matrix A diagonalisierbar ist, sieht man leicht, dass Agenau dann positiv definit bzw. semidefinit ist, wenn alle Eigenwerte positiv bzw.nicht-negativ sind.

Bekanntlich ist die Hesse-Matrix einer zweimal stetig differenzierbaren Abbildungin jedem Punkt symmetrisch.

Bemerkung 4.8 Es sei A ∈M(n, n) symmetrisch, dann gilt fur alle x, y ∈ Rn:

(x+ y)tA(x+ y) = xtAx+ 2xtAy + ytAy .

Beweis Es gilt

(x+ y)tA(x+ y) = xtAx+ xtAy + ytAx+ ytAy

und die Behauptung folgt aus

ytAx = (ytAx)t = xtAty = xtAy . �

Mit Hilfe von positiv (semi-)definiten Matrizen erhalt man eine wichtige Klasse(streng) konvexer Abbildungen:

Proposition 4.9 Es sei A ∈M(n, n) eine symmetrische Matrix. Man definiere

f : Rn −→ R

definiert durchf(x) = xtAx

Dann gelten:

(i) f ist genau dann konvex, wenn A positiv semi-definit ist.

(ii) f ist genau dann streng konvex, wenn A positiv definit ist.

Beweis

(ii) Es sei A positiv definit, dann gilt fur alle x, y ∈ Rn, x 6= y und alle 0 < α < 1:

f(x+ α(y − x)) = xtAx+ 2αxtA(y − x) + α2(y − x)tA(y − x)

< f(x) + 2αxtA(y − x) + α(y − x)tA(y − x)

= f(x) + 2αxtA(y − x) + αytA(y − x)− αxtA(y − x)

= f(x) + αxtA(y − x) + αytA(y − x)

= f(x)− αxtAx+ αytAy

= f(x) + α(f(y)− f(x))

42

Page 44: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Wenn A nicht positiv definit ist, gibt es ein x 6= 0 mit xtAx ≤ 0 und es folgt furalle α ∈ (0, 1):

f(αx+ (1− α)0) = f(αx) = α2xtAx ≥ αxtAx = αf(x) + (1− α)f(0)

und f ist streng nicht konvex.

(ii) beweist man wie (i) mit den entprechenden Modifikationen. �

Beispiel 4.10 Die Abbildung f : Rn → R definiert durch f(x) = xtx = ‖x‖2 iststreng konvex.

Proposition 4.11 Es seien K ⊆ Rn konvex, D ⊇ K offen und f : D → Rdifferenzierbar. Dann gelten:

(i) f ist genau dann konvex auf K, d.h. f |K ist konvex, wenn gilt:

f(x) +∇f(x)t(y − x) ≤ f(y) fur alle x, y ∈ K .

(ii) f ist genau dann streng konvex auf K, gilt:

f(x) +∇f(x)t(y − x) < f(y) fur alle x, y ∈ K, x 6= y .

Beweis

(i) Die Behauptung gelte und es seien x, y ∈ K, 0 ≤ α ≤ 1. Man setze z =αx+ (1− α)y, dann gilt:

f(z) +∇f(z)t(x− z) ≤ f(x)

f(z) +∇f(z)t(y − z) ≤ f(y)

und es folgt:

αf(z)+α∇f(z)t(x−z)+(1−α)f(z)+(1−α)∇f(z)t(y−z) ≤ αf(x)+(1−α)f(y)

Nun giltα(x− z) + (1− α)(y − z) = αx+ (1− α)y − z = 0 ,

und daher

α∇f(z)t(x− z) + (1− α)∇f(z)t(y − z) = ∇f(z)t(α(x− z) + (1− α)(y − z))

= 0 ,

also ist f konvex.

Umgekehrt sei f konvex, dann gilt fur alle x, y ∈ K, x 6= y, 0 < α ≤ 1:

f(x+ α(y − x)) ≤ f(x) + α(f(y)− f(x))

43

Page 45: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

und es folgtf(x+ α(y − x))− f(x)

α≤ f(y)− f(x)

Nun gilt

limα→0

f(x+ α(y − x)− f(x)

α= ∇f(x)t(y − x)

und es folgt∇f(x)t(y − x) ≤ f(y)− f(x)

(ii) Eine leichte Modifikation des Beweises von (i) zeigt, dass f streng konvex ist,wenn die Bedingung erfullt ist. Umgekehrt sei f streng konvex. Angenommen, esgibt x, y ∈ K, x 6= y so dass gilt

f(y) = f(x) +∇f(x)t(y − x) ,

dann folgt fur alle 0 < α < 1

f(x) + α(f(y)− f(x)) > f(x+ α(y − x))

≥ f(x) +∇f(x)t(α(y − x))

= f(x) + α(f(y)− f(x))

und daraus ein Widerspruch. �

Die Abbildungy 7→ f(x) +∇f(x)t(y − x)

ist die Tangente von f in x, also besagt 4.11 gerade, dass eine Abbildung genaudann konvex ist, wenn Sie stets oberhalb jeder Tangente verlauft. Analoges giltfur strenge Konvexitat.

Satz 4.12 Es seien K ⊆ Rn konvex, D ⊇ K offen sowie f : D → R differenzier-bar und konvex auf K. Ein Punkt x∗ ∈ K ist genau dann Losung des MPs

min f(x)bez. x ∈ K

wenn x∗ ein stationarer Punkt des MPs ist.

Beweis Wenn x∗ eine Losung des MPs ist, folgt die Behauptung aus 3.16.

Also sei x∗ ein stationarer Punkt, dann folgt fur alle y ∈ K:

f(y) ≥ f(x∗) +∇f(x∗)(y − x∗) ≥ f(x∗) . �

Auch 4.12 scheint wegen des schnellen Beweises eine harmlose Angelegenheit zusein, aber es ist naturlich ein weitere ganz wichtige Eigenschaft konvexer MPe:Die Losungen sind genau die stationaren Punkte.xxx

44

Page 46: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Proposition 4.13 Es seien K ⊆ Rn konvex, D ⊇ K offen und f : D → Rzweimal stetig differenzierbar. Dann gelten:

(i) Wenn Hf(x) fur alle x ∈ K positiv semidefinit ist, ist f in K konvex.

(ii) Wenn Hf(x) fur alle x ∈ K positiv definit ist, ist f in K streng konvex.

Beweis Man wahle x, y ∈ K und definiere ϕ : [0, 1] −→ R durch

ϕ(α) = f(x+ α(y − x))

Dann ist ϕ zweimal stetig differenzierbar und es gilt

ϕ′(α) = ∇f(x+ α(y − x))t(y − x)

ϕ′′(α) = (y − x)tHf(x+ α(y − x))(y − x)

Nach dem Satz von Taylor gibt es ein ξ ∈ (0, 1) so dass gilt

ϕ(1) = ϕ(0) + ϕ′(0) +1

2ϕ′′(ξ)

und es folgt

f(y) = f(x) +∇f(x)t(y − x) +1

2(y − x)tHf(x+ ξ(y − x))(y − x)

Die Behauptung folgt jetzt aus 4.11. �

Korollar 4.14 Es sei I ⊆ R ein Intervall. Eine zweimal stetig differenzierbareAbbildung f : I → R ist konvex, wenn f ′′(x) ≥ 0 fur alle x ∈ I gilt und strengkonvex wenn f ′′(x) > 0 fur alle x ∈ I gilt.

Beispiel 4.15 Die Abbildungen x 7→ x2 und exp sind streng konvex. Weiterhinist die Abbildung f : (0,∞) → R definiert durch f(x) = 1/x streng konvex unddaher ist

Epi(f) = {(u, v) ∈ R2 : f(u) ≤ v} = {(u, v) ∈ R2 : u > 0, 1/u ≤ v}

konvex.

Bemerkung 4.16 In 4.13(i) gilt die Umkehrung, wenn K einen inneren Punktbesitzt, die Umkehrung in (ii) gilt nicht, wie die Abbildung f : R → R definiertdurch f(x) = x4 zeigt.

Eine der moglichen Iterationen zur Losung des MPs

min f(x)bez. x ∈ K

45

Page 47: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

besteht darin, dass man f durch das Taylor-Polynom zweiten Grades T2 ersetzt:Wenn also xk bestimmt ist, betrachtet man

T2(x) = f(xk) +∇f(xk)t(x− xk) +

1

2(x− xk)tHf(xk)(x− xk)

Wenn nun Hf(xk) positiv semidefinit ist, ist T2 konvex und man kann dann Ver-fahren der konvexen Optimierung einsetzen.

Ich beschließe dieses Kapitel mit zwei interessanten Eigenschaften konvexer Funk-tionen auf offenen Mengen: Sie sind automatisch stetig, und wenn sie differenzier-bar sind, sind sie stetig differenzierbar:

Proposition 4.17 Es seien K ⊆ Rn konvex und offen sowie f : K → Rp konvex.Dann ist f stetig.

Beweis Es reicht, den Fall p = 1 zu betrachten. Es sei x0 ∈ K. Man setzeK0 = K − x0 und definiere g : K0 → R durch

g(x) = f(x+ x0)− f(x0)

dann ist g konvex und es gilt 0 ∈ K0 sowie g(0) = 0. Wenn ich nun zeigen kann,dass g in 0 stetig ist, ist f in x0 stetig und daher nehme ich im folgenden an, dassgilt:

0 ∈ K und f(0) = 0

Ich zeige nun zunachst:

Behauptung Es gibt ein r > 0 so dass f |B(0, r] nach oben beschrankt ist.

Beweis Da K offen ist, gibt es ein s > 0 so dass gilt

B := {x ∈ Rn :∑|xi| ≤ s} ⊆ K

SeiA = {αei : |α| = s}

dann ist A endlich und es gilt co(A) = B. Zu jedem x ∈ B gibt es x0, . . . xk ∈ Aund α1, . . . , αk ≥ 0 mit

∑αi = 1 so dass gilt x =

∑αixi. Es folgt

f(x) = f(∑

αixi) ≤∑

αif(xi) ≤ max{f(x) : x ∈ A}∑

αi = max{f(x) : x ∈ A}

Wahlt man nun ein r > 0 mit B(0, r] ⊆ B, dann gibt es ein C > 0 so dass gilt

f(x) ≤ C fur alle x ∈ B(0, r]

Fur x ∈ B(0, r], x 6= 0 setze man x0 =r

‖x‖x ∈ B(0, r], dann gilt x =

‖x‖r

x0

und es folgt:

46

Page 48: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

f(x) = f

(‖x‖rx0 + (1− ‖x‖

r) 0

)≤ ‖x‖

rf(x0) + (1− ‖x‖

r)f(0) ≤ C

r‖x‖

Weiterhin gilt fur alle x ∈ B(0, r]:

0 = f(0) = f((1/2)x+ (−1/2)x) ≤ (1/2)f(x) + (1/2)f(−x)

und es folgt:

−f(x) ≤ f(−x) ≤ C

r‖ − x‖ =

C

r‖x‖

Insgesamt erhalt man

|f(x)| ≤ C

r‖x‖ fur alle x ∈ B(0, r]

und es folgt die Behauptung. �

Beispiel 4.18 Die Abbildung f : [0, 1] −→ R definiert durch

f(x) =

{1 x = 00 x > 0

ist konvex aber unstetig. Also kann man in 4.17 die Voraussetzung, dass K offenist, nicht weglassen.

Proposition 4.19 Es seien K ⊆ Rn konvex, offen und f : K → Rp eine diffe-renzierbare, konvexe Abbildung. Dann ist f stetig differenzierbar.

Beweis OBdA gelte p = 1. Sei x0 ∈ K, dann setze man K0 = K − x0 undbetrachte die Abbildung

g : K − x0 −→ R

definiert durchg(x) = f(x0 + x)−∇f(x0)

tx− f(x0)

Dann ist g konvex und gilt 0 ∈ K0, g(0) = 0 sowie ∇g(0) = 0. Also kann manoBdA annehmen, dass 0 ∈ K und f(0) = 0 sowie ∇f(0) = 0 gelten.

Da f konvex ist, gilt fur alle x ∈ K:

f(x) ≥ f(0) +∇f(0)t(x− 0) = 0

also gilt f(x) ≥ 0 fur alle x ∈ K.

Da f differenzierbar ist, gilt

f(0 + h) = f(0) +∇f(0)t(h− 0) +R(h)

47

Page 49: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

und limh→0

R(h)

‖h‖= 0, also folgt lim

h→0

f(h)

‖h‖= 0 . Daher gibt es zu vorgegebenem ε > 0

ein δ > 0 so dass gilt

|f(h)|‖h‖

≤ ε fur alle 0 < ‖h‖ ≤ δ

Seien ‖x‖ < δ/2 und y 6= 0. Dann gibt es ein α > 0 mit ‖x + αy‖ = δ. Da fkonvex ist, gilt

f(x+ αy) ≥ f(x) +∇f(x)t(αy) ≥ α∇f(x)ty

und daher∇f(x)ty ≤ (1/α)f(x+ αy)

Weiterhin giltδ = ‖x+ αy‖ ≤ ‖x‖+ α‖y‖ ≤ δ/2 + α‖y‖

und es folgt2α‖y‖ ≥ δ = ‖x+ αy‖

Man erhalt:

∇f(x)ty ≤ 2‖y‖f(x+ αy)

‖x+ αy‖≤ 2‖y‖ε

Setzt man nun y = ∇f(x), dann folgt

‖∇f(x)‖2 ≤ 2‖∇f(x)‖ε fur alle ‖x‖ ≤ δ/2

also‖∇f(x)‖ ≤ 2ε fur alle ‖x‖ ≤ δ/2

und daraus die Behauptung. �

48

Page 50: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Kapitel 5

DifferenzierbareMinimierungsprobleme

Erinnerung 5.1

(i) Es seien K ⊆ Rn kompakt und f : K → R eine stetige Abbildung. Dann hatdas MP

min f(x)bez. x ∈ K

eine Losung.

Es seien D ⊆ Rn offen, K ⊆ D und f : D → R eine zweimal stetig differenzierbareAbbildung. Dann gelten weiterhin:

(ii) Es sei x∗ eine lokale Losung des MPs

min f(x)bez. x ∈ K

Wenn x∗ ein innerer Punkt von K ist (d.h. es gibt eine r > 0 mit B(x∗, r) ⊆ K),gilt ∇f(x∗) = 0 und Hf(x∗) ist positiv semidefinit.

(iii) Es sei x∗ ∈ K. Es gelte:

(a) ∇f(x∗) = 0

(b) Hf(x∗) ist positiv definit

Dann ist x∗ eine lokale Losung des MPs

min f(x)bez. x ∈ D

und damit auch des MPsmin f(x)bez. x ∈ K

49

Page 51: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Bezeichnungsweisen 5.2 Es seien D ⊆ Rn und f : D → R, g : D → Rp sowieh : D → Rq Abbildungen. Man setze

K(g, h) = {x ∈ D : g(x) ≤ 0 , h(x) = 0}

Dann schreibt man fur das MP

min f(x)bez. x ∈ K(g, h)

suggestivermin f(x)bez. g(x) ≤ 0

h(x) = 0

Weiterhin sei x0 ∈ Rn ein zulassiger Punkt. Dann setzt man

I(x0) = {i ∈ {1, . . . , p} : gi(x0) = 0}

Man sagt, dass die Ungleichung gi(x) ≤ 0 in x0 aktiv ist, wenn i ∈ I(x0), d.h.gi(x0) = 0 gilt.

VEREINBARUNG

Falls nicht anders bemerkt, seien im Rest dieses Kapitels D ⊆ Rn offen, K ⊆ Dund

f : D → Rg : D → Rp

h : D → Rq

stetig differenzierbare Abbildungen. Es wird das MP

min f(x)bez. g(x) ≤ 0

h(x) = 0

betrachtet.

Lemma 5.3 Es sei x∗ ∈ D ein zulassiger Punkt des MPs

(MP1)min f(x)bez. g(x) ≤ 0

h(x) = 0

x∗ ist genau dann eine lokale Losung von (MP1), wenn x∗ eine lokale Losung desMPs

(MP2)min f(x)bez. gi(x) ≤ 0 fur alle i ∈ I(x∗)

h(x) = 0

ist.

50

Page 52: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beweis Wenn x∗ eine lokale Losung von (MP2) ist, ist x∗ offenbar auch einelokale Losung von (MP1). Sei also x∗ eine lokale Losung von (MP1), dann gibtes ein ε > 0 so dass gilt f(x∗) ≤ f(x) fur alle x ∈ K(f, g) ∩ B(x∗, ε). Sei nunx ∈ D so gewahlt dass gilt gi(x) ≤ 0 fur alle i ∈ I(x0) und h(x) = 0. Weiter seii /∈ I(x0), dann gilt gi(x

∗) < 0, da x∗ zulassig ist. Da gi stetig ist, gibt es einεi > 0 so dass gilt gi(x) ≤ 0 fur alle x ∈ B(x∗, εi). Dann gilt aber f(x∗) ≤ f(x)fur alle x ∈ B(x∗, ε) ∩

⋂{B(x∗, εi) : i /∈ I(x0)}.

Bemerkung 5.4 Wenn x∗ eine lokale Losung von (MP1) ist, ist x∗ auch einelokale Losung von (MP2) und daher eine lokale Losung des MPs

(MP3)min f(x)bez. gi(x) = 0 fur alle i ∈ I(x∗)

h(x) = 0

Wenn nun (∇gi(x∗)i∈I(x0),∇h(x∗)) linear unabhangig sind, gibt es LangrangeMultiplikatoren (λi)i∈I(x0) und (µj) so dass gilt

∇f(x∗) +∑i∈I(x0)

λi∇gi(x∗) +∑

µj∇hj(x∗) = 0

Setzt man noch λi = 0 fur alle i /∈ I(x0), dann erhalt man

∇f(x∗) +∑λi∇gi(x∗) +

∑µj∇hj(x∗) = 0

λigi(x∗) = 0 fur alle i.

Es bleibt die Frage, welche Verbesserungen man aus der Tatsache bekommenkann, dass x∗ sogar (MP1) lost, und ob man die Voraussetzung der linearenUnabhangigkeit der Gradienten nicht abschwachen kann. Dies ist moglich, zudiesem Zweck muss man die “Geometrie” des zulassigen Bereichs naher studieren.

Definition 5.5 Es seien K ⊆ Rn und x0 ∈ K. Ein Vektor d ∈ K heißt tangen-tial an K in x0, wenn es eine Folge (αk) in [0,∞) und eine Folge (xk) ∈ K gibt,so dass gelten:

limk→∞

xk = x0 und d = limk→∞

αk(xk − x0)

Die Menge aller tangentialen Vektoren in x0 wird mit TK(x0) oder in der Regelmit T (x0) bezeichnet, sie heißt auch der Tangentialkegel von x0.

Beispiele 5.6

(i) Es seien K ⊆ Rn und x0 ein innerer Punkt von K, dann gilt T (x0) = Rn.

(ii) Es seiK = {(u, v)t ∈ R2 : u ≥ 1 , v ≥ 1}

51

Page 53: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

dann gilt fur x0 = (u0, v0)t ∈ K:

T (x0) =

R2 : u0 > 1, v0 > 1

{(u, v)t : u ≥ 0} : u0 = 1, v0 > 1

{(u, v)t : v ≥ 0} : u0 > 1, v0 = 1

{(u, v)t : u, v ≥ 0} : u0 = 1, v0 = 1

(iii) Man definiere wieder g : R2 → R3 durch

g(u, v) = (v − (1− u)3,−u,−v)t

und setzeK = {x ∈ R2 : g(x) ≤ 0}

dann gilt fur e1 = (1, 0)t:

TK(e1) = {(u, 0)t : u ≤ 0}

Beweis

(i) Es sei d ∈ Rn, dann gilt xk = x0 + 1kd ∈ K fur alle i ≥ i0 und es folgt

k(xk − x0) = d→ d

(ii) Ubungsaufgabe

(iii) K hat die Form:

52

Page 54: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Es sei d = (δ1, δ2) ∈ T (e1), dann gibt es Folgen (αk) in (0,∞) und ((uk, vk)t) in

K so dass gilt:

(uk, vk)→ (1, 0) und αk((uk, vk)− (1, 0)) −→ (δ1, δ2)

Es folgt:αk(uk − 1)→ δ1 und αkvk → δ2

Wegen αk(uk − 1) ≤ 0 folgt δ1 ≤ 0 und aus 0 ≤ vk ≤ (1− uk)3 folgt:

0 ≤ αkvk ≤ αk(1− uk)3 = αk(1− uk)(1− uk)2 → −δ1 · 0 = 0

und daraus δ2 = 0. Also folgt d = (δ, 0)t mit δ ≤ 0.

Sei umgekehrt δ ≤ 0, dann setze man xk = (1 − 1/k, 0)t, und αk = −kδ, danngilt:

αk(xk − (1, 0)) = −kα(−1/k, 0)t → (δ, 0)t

Bemerkung 5.7 Es seien K ⊆ Rn und x0 ∈ K. Weiterhin sei d 6= 0 ein tan-gentialer Vektor an K in x0. Dann gilt fur eine Folge (xk) in K, die gegen x0konvergiert und eine Folge (αi) in [0,∞):

αk(xk − x0)→ d

Es folgtαk‖xk − x0‖ → ‖d‖

Weiterhin gilt xk 6= x0 fur alle k ≥ k0 und es folgt fur diese k:

1

‖xk − x0‖(xk − x0) =

1

αk‖xk − x0‖αk(xk − x0)→

1

‖d‖d

Also gibt es zu jedem tangentialen Vektor d 6= 0 eine Folge (xk) in K \ {x0} so

dass ( ‖d‖‖xk−x0‖

(xk − x0)) gegen d konvergiert.

Wenn umgekehrt (xk) eine Folge in K ist, ist ( 1‖xk−x0‖

(xk− x0)) eine beschrankteFolge in Rn, und jeder Haufungspunkt ist d ein tangentialer Vektor.

Proposition 5.8 Es seien K ⊆ Rn und x0 ∈ K. Dann ist T (x0) ein abgeschlos-sener Kegel.

(Eine Menge K ⊆ Rn heißt Kegel, wenn αx ∈ K fur alle α ∈ [0,∞) und x ∈ Kgilt.)

Beweis Offenbar ist T (x0) ein Kegel. Sei (dk) eine Folge in T (x0), die ge-gen ein d ∈ Rn konvergiert. OBdA gelte ‖dk − d‖ < 1/k fur alle k. Wegend ∈ T (x0) gibt es ein xk ∈ K und ein αk ≥ 0 so dass gilt ‖xk − x0‖ < 1/k und‖αk(xk−x0)−dk‖ < 1/k. Es folgt ‖αk(xk−x0)−d‖ < 2

kund daraus d ∈ T (x0). �

Das folgende Ergebnis zeigt die Bedeutung des Tangentialkegels:

53

Page 55: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Proposition 5.9 Vorgelegt sei das MP

min f(x)bez. x ∈ K

Wenn x∗ ∈ K eine lokale Losung des MPs ist, dann gilt

∇f(x∗)td ≥ 0 fur alle d ∈ T (x∗)

Beweis Es sei d ∈ T (x∗), dann gibt es eine Folge (xk) in K, die gegen x0konvergiert, so dass gilt

‖d‖‖xk − x∗‖

(xk − x∗)→ d

Nun gilt fur alle i :

0 ≤ f(xk)− f(x∗) = ∇f(x∗)t(xk − x∗) +R(xk)

mit limx→x∗R(x)‖x−x∗‖ = 0. Es folgt:

0 ≤ ∇f(x∗)t‖d‖

‖xk − x∗‖(xk − x∗) +

‖d‖‖xk − x∗‖

R(xi)

und daraus die Behauptung. �

5.9 besagt also, dass es in T (x∗) keine Abstiegsrichtungen von f gibt, wenn x∗

das MP lost.

Proposition 5.10 Es seien g : Rn → Rp und h : Rn → Rq affine Abbildungen,dann gibt es a1, . . . , ap, b1, . . . , bq ∈ Rn und ci, dj ∈ R so dass fur 1 ≤ i ≤ p und1 ≤ j ≤ q gilt:

gi(x) = atix+ ci , hj(x) = btjx+ dj

Dann gilt fur alle x0 ∈ K(g, h):

T (x0) = {d ∈ Rn : atid ≤ 0 fur alle i ∈ I(x0), btjd = 0 fur alle j}

Beweis Es sei d ∈ T (x0), dann gibt es Folgen (xk) in K und (αk) in [0,∞) sodass gilt

xk → x0 und αk(xk − x0)→ d

Fur alle i gilt dannαka

ti(xk − x0)→ atid

Weiterhin gilt fur alle i ∈ I(x0):

ati(xk − x0) = (atixk + ci)− (atix0 + ci) = gi(xk)− gi(x0) = gi(xk) ≤ 0

54

Page 56: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Es folgt fur alle i ∈ I(x0):ati(xk − x0) ≤ 0

und daraus atid ≤ 0. Analog zeigt man, dass btjd = 0 fur alle j gilt.

Nun gelte atid ≤ 0 fur alle i ∈ I(x0) und btjd = 0 fur alle j fur ein d ∈ Rn. Furalle ε > 0 und alle i ∈ I(x0) erhalt man:

gi(x0 + εd) = ati(x0 + εd) + ci = atix0 + ci + εatid = g(x0) + εatid ≤ 0

und analog hj(x0 + εd) = 0 fur alle j. Nun sei i /∈ I(x0), dann gilt gi(x0) < 0. Dagi stetig ist, gibt es ein εi > 0 so dass gilt gi(x0) ≤ 0 fur alle x ∈ B(x0, εi). Alsogibt es ein ε0 > 0 so dass gilt

gi(x) ≤ 0 fur alle i /∈ I(x0) und alle x ∈ B(x0, ε0)

Also gilt x0 + 1kd ∈ K fur alle k ≥ k0 und es folgt die Behauptung. �

Die Berechnung von TK(g,h)(x0) ist oft sehr schwierig. Wenn nun g und h diffe-renzierbar sind, betrachtet man den Tangentialkegel, den man erhalt, wenn mang und h durch die “affinen Approximationen” ersetzt. Diese sind definiert durch:

ϕg(x) = g(x0) +∇g(x0)t(x− x0)

undϕh(x) = h(x0) +∇h(x0)

t(x− x0)Die Tangentialkegel dieser Abbildungen habe ich gerade berechnet und mankommt zu der folgenden

Definition 5.11 Es seien D ⊆ Rn offen und g : D → Rp und h : D → Rq

differenzierbare Abbildungen, dann definiert man fur alle x0 ∈ K(g, h) :

Z(g,h)(x0) = {d ∈ Rn : ∇gi(x0)td ≤ 0 fur alle i ∈ I(x0), ∇hj(x0)td = 0 fur alle j}

In der Regel schreibt man Z(x0) fur Z(g,h)(x0).

Man nennt Z(g,h)(x0) auch den linearisierten oder linearisierenden Tangen-tialkegel, eine Bezeichnung, die nicht sehr glucklich ist, weil ja nicht der Kegel,sondern die Abbildungen linearisiert worden sind. Ich werde in 5.13 zeigen, dassZ(g,h)(x0) in der Tat nicht nur von der Menge K(g, h), sondern von g und habhangt.

Proposition 5.12 Es seien g : D → Rp und h : D → Rq differenzierbare Abbil-dungen, dann gilt fur alle x0 ∈ K:

T (x0) ⊆ Z(x0)

oder, genauer TK(g,h)(x0) ⊆ Z(g,h)(x0).

55

Page 57: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beweis Es sei d ∈ T (x0), d 6= 0, dann gibt es eine Folge (xk) in K, die gegen x0konvergiert, so dass ( ‖d‖

‖xk−x0‖(xk − x0)) gegen d konvergiert. Sei i ∈ I(x0). Da gi

in x0 differenzierbar ist, gilt fur alle i und alle x ∈ D:

gi(x) = gi(x0) +∇g(x0)t(x− x0) +R(x) = ∇g(x0)

t(x− x0) +R(x)

mit

limx→x0

1

‖x− x0‖R(x) = 0

Es folgt fur alle i:

0 ≥ gi(x) = ∇g(x0)t(xk − x0) +R(xk)

und daraus

0 ≥ ∇g(x0)t ‖d‖‖xk − x0‖

(xk − x0) +‖d‖

‖xk − x0‖R(xk)

und schließlich0 ≥ ∇g(x0)

td

Den 2. Teil beweist man analog. �

Beispiel 5.13

(i) Das folgende Beispiel zeigt, dass i.a. T (x) 6= Z(x) gilt:

Man definiere wieder g : R2 → R3 durch

g(u, v) = (v − (1− u)3,−u,−v)t

Dann gilt T (e1) = {(u, 0)t : u ≤ 0} nach 5.6.

Es giltg1(e1) = 0 , g2(e1) = −1 , g3(e1) = 0

also I(e1) = {1, 3}. Weiterhin gilt fur alle (u, v):

∇g1(u, v) = (3(1− u)2, 1)t , ∇g3(u, v) = (0,−1)t

und daher∇g1(e1) = e2 , ∇g3(e1) = −e2

alsoZ(e1) = {(u, v)t : ∇g1(e1)t(u, v)t ≤ 0 , ∇g3(e1)t(u, v)t ≤ 0}

= {(u, v)t : et2(u, v)t ≤ 0 , −et2(u, v)t ≤ 0}= {(u, v) : v = 0}= {(u, 0) : u ∈ R}6= T (e1)

56

Page 58: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

(ii) Man definiere nun g : R2 → R4 durch

g(u, v) = (g1(u, v), g2(u, v), g3(u, v), u− 1)t

dann gilt{(u, v) : g(u, v) ≤ 0} = {(u, v) : g(u, v) ≤ 0}

Weiterhin gilt g4(e1) = 0 und daher 4 ∈ I(e1) sowie ∇g4(u, v) = e1. Also folgtmit (i):

Z(e1) = {(u, v)t : v ≤ 0 , −v ≤ 0 , (u, v)tet1 ≤ 0} = T (e1)

also hangt Z(g,h)(x0) nicht nur von K(g, h) ab, sondern auch von g und h selbst.

Fur die linearisierte Form von g1 gilt:

ϕg1(u, v) = g1(e1) +∇g1(e1)t(u− 1, v)t = et2(u− 1, v)t = v

also gilt fur die linearisierte Form von g:

ϕg(u, v) = (v,−u,−v)

und es folgt:ϕg(u, v) ≤ 0 ⇐⇒ u ≥ 0, v = 0

Damit ist bei der Linearisierung die Bedingung u ≤ 1 weggefallen. Dies hat zurFolge, dass Z(e1) im ersten Fall großer ist als T (e1). Da diese Bedingung imzweiten Fall explizit aufgenommen wird, erhalt man hier die Gleichheit.

Der folgende Satz wird zeigen, dass die Bedingung T (x0) = Z(x0) weitreichendeKonsequenzen hat. Daher hat diese Bedingung einen eigenen Namen:

Definition 5.14 Es seien D ⊆ Rn offen und g : D → Rp sowie h : K → Rq

differenzierbare Abbildungen. Schließlich sei f : K(g, h)→ R eine Abbildung. Einzulassiger Punkt x0 des MPs

min f(x)bez. g(x) ≤ 0

h(x) = 0

genugt der Regularitatsbedingung von Abadie (engl.: Abadie constraint qua-lification, Abadie CQ), wenn gilt

TK(g,h)(x0) = Z(g,h)(x0)

Damit bin ich in der Lage, einen der fundamentalen Satze der Theorie zu formu-lieren und beweisen:

57

Page 59: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Satz 5.15 Es seien D ⊆ Rn offen und f : D → R, g : D → Rp, h : D → Rq

differenzierbare Abbildungen. Es sei x∗ eine Losung des MPs

min f(x)bez. g(x) ≤ 0

h(x) = 0

Wenn x∗ der Regularitatsbedingung von Abadie genugt, gibt es λ1, . . . , λp ≥ 0 undµ1, . . . µq ∈ R so dass gelten:

(1) ∇f(x∗) +

p∑i=1

λi∇gi(x∗) +

q∑j=1

µj∇hj(x∗) = 0

(2) λigi(x∗) = 0 fur alle i .

Beweis OBdA sei I(x∗) = {1, . . . , r}. Ich will das Lemma von Farkas (3.27) auf

∇g1(x∗), . . . ,∇gr(x∗),∇h1(x∗), . . . ,∇hq(x∗),−∇h1(x∗), . . . ,−∇hq(x∗)

und −∇f(x∗) anwenden: Es gelte fur ein x ∈ Rn

∇gi(x∗)tx ≤ 0 i = 1, . . . , r∇hj(x∗)tx ≤ 0 j = 1, . . . , q−∇hj(x∗)tx ≤ 0 j = 1, . . . , q

dann gilt x ∈ Z(x∗). Aus der Voraussetzung folgt dann x ∈ T (x∗) und daraus∇f(x∗)tx ≥ 0 nach 5.9, also −∇f(x∗)tx ≤ 0. Nach dem Lemma von Farkas (3.27)gibt es Zahlen λ1, . . . , λr, σ1, . . . σq, τ1, . . . , τq ≥ 0 so dass gilt:

−∇f(x∗) =r∑i=1

λi∇gi(x∗) +∑

σj∇hj(x∗) +∑

τj∇hj(x∗)

Setzt man nun µj = σj − τj fur alle j und λi = 0 fur alle i /∈ I(x∗), dann folgt dieBehauptung. �

Die Bedingungen (1) und (2) heißen Kuhn-Tucker-Bedingungen (oder kurzKT-Bedingungen) und ein zulassiger Punkt x∗, der ihnen genugt, heißt auchKuhn-Tucker-Punkt (KTP).

Man nennt die (λi) und (µj) aus 5.15 wieder Langrange-Multiplikatoren. Furjede Ungleichung gi(x) ≤ 0 ist also der zugehorige Lagrange-Multiplikator ≥ 0und wenn er 6= 0 ist, ist gi(x

∗) = 0.

Beispiel 5.16 Man definiere f : R2 → R und g : R2 → R3 fur alle (u, v) ∈ R2

durch:

f(u, v) = −u , g1(u, v) = v − (1− u)3 , g2(u, v) = −u , g3(u, v) = −v

58

Page 60: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

und betrachte das MPmin f(x)bez. g(x) ≤ 0

Der zulassige Bereich hat ja die Form:

und offenbar ist x∗ = (1, 0)t die Losung des MPs.

Es gilt fur alle (u, v)t ∈ R2:

∇g1(u, v) = (3(1− u2), 1)t , ∇g2(u, v) = (−1, 0)t , ∇g3(u, v) = (0,−1)t

Fur λ1, λ2, λ3 ∈ R gelte

∇f(x∗) + λ1∇g1(x∗) + λ2∇g2(x∗) + λ2∇g3(x∗) = 0

dann folgt (−1

0

)+ λ1

(01

)+ λ2

(−1

0

)+ λ3

(0−1

)=

(00

)und daraus

−1− λ2 = 0λ1 − λ3 = 0

also folgt λ2 = −1 < 0. Man kann daher im allgemeinen nicht erwarten, dass alleLagrange-Multiplikatoren nicht-negativ sind.

Definiert man zusatzlich g4 : R→ R durch g4(u, v) = u− 1, ist das MP dasselbe,wird also von x∗ gelost. Weiterhin gilt ∇g4(x∗) = (1, 0)t und es folgt

∇f(x∗) + 1 · ∇g4(x∗) = 0

so dass es in der Tat λi ≥ 0 gibt mit ∇f(x∗) +∑λi∇gi(x∗) = 0 .

59

Page 61: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Da der Satz 5.15 von fundamentaler Bedeutung ist, ist die Frage, wann die Regu-laritatsbedingung von Abadie erfullt ist, von großer Bedeutung. Vor allen Dingenist es sehr wichtig, einfache hinreichende Bedingungen dafur zu finden. Davongibt es ziemlich viele, ich gebe einige davon an, wobei die letzte wohl die wich-tigste ist. Da diese oft leicht verifizierbar ist, warte ich mit Beispielen, bis ichdiese bewiesen habe.

Bemerkung 5.17 Es sei I ⊆ R ein (nicht notwendigerweise offenes) Intervall.Eine Abbildung f : I → Rn heißt differenzierbar in x0 ∈ I, wenn alle Kompo-nentenabbildungen in x0 differenzierbar sind. Man setzt in diesem Fall

f ′(x0) = (f ′1(x0), . . . , f′n(x0))

t

Offenbar fallt diese Definition mit der ublichen Definition zusammen, wenn Ioffen ist und es gilt in diesem Fall

f ′(x0) = Df(x0)

Weiterhin gilt naturlich

f ′(x0) = limx→x0

f(x)− f(x0)

x− x0

Lemma 5.18 Es seien ε > 0 und χ : [0, ε)→ K eine differenzierbare Abbildung.Dann gilt χ′(0) ∈ T (χ(0)).

Beweis Es sei (αk) eine Nullfolge in (0, ε) Fur alle k ∈ N setze man xk = χ(αk),dann gilt

1

αk(xk − χ(0)) =

χ(αk)− χ(0)

αk−→ χ′(0) �

Proposition 5.19 Es sei x0 ∈ K(g, h) und es gebe zu jedem d ∈ Z(x0) einedifferenzierbare Abbildung χ : [0, ε) → K(g, h) so dass gelten χ(0) = x0 undχ′(0) = d. Dann gilt T (x0) = Z(x0).

Beweis 5.12 und 5.18. �

Man nennt die Bedingung aus 5.19 auch die Kuhn-Tucker-Restriktionsqualifi-kation (Kuhn-Tucker-constraint-qualification (KTCQ)). Diese Bedingung ist of-fenbar auch nicht besonders handlich, daher sucht man Bedingungen, die dieExistenz der Abbildung χ garantieren. Hier geht nun der Satz uber impliziteFunktionen in seiner allgemeinen Form ein, den ich daher zunachst noch einmalformuliere:

60

Page 62: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Satz uber implizite Funktionen Es seien W ⊆ Rp×Rq offen, F : W → Rq einestetig differenzierbare Abbildung und (x0, y0) ∈ W . Weiterhin gelte F (x0, y0) = 0und DyF (x0, y0) sei regular. Dann gibt es offene Mengen U ⊆ Rp und V ⊆ Rq

mit (x0, y0) ∈ U × V ⊆ W und eine stetig differenzierbare Abbildung g : U → Rq

mit g(U) ⊆ V so dass gelten

(i) F (x, g(x)) = 0 fur alle x ∈ U

(ii) g(x0) = y0

(iii) Dg(x) = −DyF (x, g(x))−1DxF (x, g(x)) fur alle x ∈ U

Proposition 5.20 Es seien D ⊆ Rn offen und h : D → Rq eine stetig differen-zierbare Abbildung sowie x0 ∈ D und d ∈ Rn. Es gelte:

(i) h(x0) = 0 .

(ii) Die Vektoren ∇h1(x0), . . . ,∇hq(x0) sind linear unabhangig.

(iii) ∇hj(x0)td = 0 fur alle j.

Dann gibt es ein ε > 0 und eine stetig differenzierbare Abbidung χ : [0, ε) → Rn

so dass gelten:

(i) h(χ(t)) = 0 fur alle t

(ii) χ(0) = x0, χ′(0) = d .

Beweis Die MatrixA = (∇h1(x0), . . . ,∇hq(x0))

hat maximalen Rang, man wahle eine Matrix B = (b1, . . . , bm) so dass (A,B)regular ist. Weiterhin definiere man F : R×D → Rn durch

F (α, x) =

(h(x)

Bt(x− x0)

)− α

(At

Bt

)d

Dann ist F stetig differenzierbar. Weiterhin gilt F (0, x0) = 0 und

DxF (0, x0) =

(At

Bt

)

sowie

DαF (0, x0) = −

(At

Bt

)d

61

Page 63: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

also ist DxF (0, x0) regular. Nach dem Satz uber implizite Funktionen gibt es einε > 0 und eine stetig differenzierbare Abbildung χ : (−ε, ε)→ Rn so dass fur alleα ∈ (−ε, ε) gelten (α, χ(α)) ∈ D, F (α, χ(α)) = 0, χ(0) = x0 und

Dχ(α) = −(DxF (α, χ(α)))−1DαF (α, χ(α))

alsoχ′(0) = Dχ(0) = −(DxF (0, χ(0)))−1DαF (0, χ(0)) = d

Aus ∇hj(x0)td = 0 fur alle j folgt, dass Atd = 0 gilt. Man erhalt fur alle t:

0 = F (α, χ(α)) =

(h(χ(α))

Bt(χ(α)− x0)

)−α

(At

Bt

)d =

(h(χ(α))

Bt(χ(α)− x0)

)−

(0

αBtd

)

und daraush(χ(α)) = 0 fur alle α �

Proposition 5.21 Es sei x0 ein zulassiger Punkt des MPs

min f(x)bez. g(x) ≤ 0

h(x) = 0

Es gelten:

(i) Die Vektoren ∇h1(x0), . . . ,∇hq(x0) sind linear unabhangig.

(ii) Es gibt einen Vektor d0 ∈ Rn so dass gelten

∇gi(x0)td0 < 0, i ∈ I(x0) und ∇hj(x0)td0 = 0, j = 1, . . . , q .

Dann gilt T (x0) = Z(x0).

Beweis Es sei d ∈ Z(x0), dann gilt ∇hi(x0)td = 0 fur alle i. Man wahle k ∈ Nfest und setze dk = d+ 1

kd0. Dann gilt ∇hj(x0)tdk = 0 fur alle j. Nach 5.20 gibt es

ein ε > 0 und eine stetig differenzierbare Abbildung χ : [0, ε)→ Rn so dass geltenh(χ(α)) = 0, χ(0) = x0 und χ′(0) = dk. Weiterhin gilt gi(χ(0)) = gi(x0) ≤ 0 und

(gi ◦ χ)′(α) = ∇gi(χ(α))tχ′(α) fur alle α

Es folgt fur alle i ∈ I(x0):

(gi ◦ χ)′(0) = ∇gi(x0)tdk = ∇gi(x0)td+1

k∇gi(x0)td0 < 0

62

Page 64: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Also gibt es ein εi > 0, εi ≤ ε so dass fur alle i ∈ I(x0) gilt

gi(χ(α)) ≤ 0 fur alle 0 ≤ α ≤ εi

Fur alle i /∈ I(x0) gilt gi(x0) < 0 und daher gibt es ein εi > 0 so dass gilt

g(χ(α)) ≤ 0 fur alle 0 ≤ α ≤ εi

Sei ε0 = min εi, dann gilt χ(α) ∈ K(g, h) fur alle 0 ≤ α ≤ ε0, Nach 5.18 giltdk ∈ T (x0) fur alle k. Da (dk) gegen d konvergiert, folgt d ∈ T (x0) nach 5.8. �

Man nennt die Bedingung aus 5.21 die Mangasarian-Fromovitz-Bedingung(Mangasarian-Fromovitz-constraint-qualification, MFCQ). Die am haufigs-ten benutzte Bedingung hat ebenfalls einen Namen, den ich explizit definierenwill:

Definition 5.22 Vorgegeben sei das MP

min f(x)bez. g(x) ≤ 0

h(x) = 0

Man sagt, ein zulassiger Punkt x0 ∈ D genugt der Regularitatsbedingungder linearen Unabhangigkeit (linear independence constraint qualification,LICQ), wenn die Vektoren

(∇gi(x0))i∈I(x0), (∇hi(x0))i=1,...,q

linear unabhangig sind. Ich werde so einen Punkt kurz regular bezuglich des MPsnennen.

Proposition 5.23 Es sei x0 ein zulassiger Punkt des MPs

min f(x)bez. g(x) ≤ 0

h(x) = 0

Die Vektoren∇gi(x0) : i ∈ I(x0), ∇hj(x0) : j = 1, . . . , q

seien linear unabhang. Dann gibt es eine Vektor d0 ∈ Rn so dass gilt:

∇gi(x0)td0 < 0, i ∈ I(x0) und ∇hi(x0)td0 = 0, i = 1, . . . , q

63

Page 65: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beweis Da die Vektoren linear unabhangig sind, gibt es eine lineare Abbildungϕ : Rn → R so dass gelten

ϕ(∇gi(x0)) = −1, i ∈ I(x0) und ϕ(∇hi(x0)) = 0, i = 1, . . . , q

Man wahle d0 so dass gilt dt0x = ϕ(x) fur alle x ∈ Rn. �

Also gilt

LICQ =⇒ MFCQ =⇒ KTCQ =⇒ Abadie CQ⇐⇒ T (x0) = Z(x0)

Aus 5.15 folgt dann unmittelbar:

Satz 5.24 Es seien D ⊆ Rn offen und f : D → R, g : D → Rp, h : D → Rq stetigdifferenzierbare Abbildungen. Dann ist jede regulare Losung des MPs

min f(x)bez. g(x) ≤ 0

h(x) = 0

ein KTP.

Beispiel 5.25 Vorgegeben sei das Maximierungsproblem

max u+ vbez. v ≤ (1− u)3

u, v ≥ 0

Das folgende Bild zeigt den zulassigen Bereich:

Also wird das Maximimum offenbar in e1 = (1, 0)t und e2 = (0, 1)t angenommen.

64

Page 66: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Definiert man f : R2 → R und g : R2 → R3 durch

f(u, v) = −u− vund

g1(u, v) = v − (1− u)3

g2(u, v) = −ug3(u, v) = −v

dann reicht es offenbar, das folgende MP zu losen:

min f(x)bez. g(x) ≤ 0

(1) Losbarkeit des MPs Wie man am Bild sieht und ohne Probleme nachrech-net, ist der zulassige Bereich kompakt. Da f stetig ist, ist das Problem losbar.

(2) Suche der nicht regularen Punkte Es sei x0 = (u, v) ∈ R2, dann gilt:

∇f(u, v) = (−1,−1)t

∇g1(u, v) = (3(1− u)2, 1)t

∇g2(u, v) = (−1, 0)t

∇g3(u, v) = (0,−1)t

Die Antwort auf die Frage, ob x0 regular ist, wird wesentlich dadurch erschwert,dass I := I(x0) nicht bekannt ist. Daher muss man alle Moglichkeiten in Betrachtziehen.(a) I = {1, 2, 3}, dann folgt g1(x0) = g2(x0) = g3(x0) = 0 und daraus u = v = 0sowie 0− (1− 0)3 = 0, was offenbar nicht moglich ist.

(b) I = {2, 3}. Da ∇g2(u, v) und ∇g3(u, v) linear unabhangig sind, ist x0 indiesem Fall regular.

(c) I = {1, 3}, dann gilt v = 0 und daher u = 1. Wegen

∇g1(1, 0) = (0, 1)t = −∇g3(1, 0)

ist e1 nicht regular. (Das folgt ubrigens auch schon aus 5.13.)

(d) I = {1, 2}. Die Vektoren

∇g1(x0),∇g2(x0) =

(3(1− u)2

1

),

(−10

)sind offenbar linear unabhangig.

(e) Da alle drei Gradienten 6= 0 sind, ist x0 regular, wenn I nur aus einem Punktbesteht. Wenn I = ∅ gilt, ist x0 offenbar regular.

Also ist e1 der einzige nicht regulare Punkt des MPs.

65

Page 67: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Bestimmung der Losungen Es sei x∗ = (u, v)t eine Losung des MPs. Wennx∗ 6= e1 gilt, ist x∗ ein KTP des MPs, also gibt es λ1, λ2, λ3 ≥ 0 so dass gelten

(i) ∇f(u, v) +∑3

i=1 λi∇gi(u, v) = 0

(ii) λigi(u, v) = 0 fur i = 1, 2, 3

(b) I = {2, 3}, dann gilt λ1 = 0 und es folgt:(−1−1

)+ λ2

(−10

)+ λ3

(0−1

)=

(00

)Man erhalt λ2 = −1, also einen Widerspruch.

(c) I = {1, 3}, dann gilt x∗ = e1 und dieser Fall war ausgeschlossen.

(d) I = {1, 2}. Dann gilt x∗ = e2 und λ3 = 0. Es folgt(−1−1

)+ λ1

(31

)+ λ2

(−10

)=

(00

)Diese Gleichung ist erfullt fur (λ1, λ2) = (1, 2).

(e1) I = {1}, dann gilt λ2 = λ3 = 0 und v = (1− u)3 sowie(−1−1

)+ λ1

(3(1− u)2

1

)=

(00

)Es folgt λ1 = 1 und daraus 3(1−u)2 = 1, also u = 1± 1√

3. Da (1 + 1√

3, v) fur kein

v zulassig ist, folgt u = 1− 1√3

und daraus v = 1√33 , also

x∗ = (1− 1√3,

1√

33 )t

(e2) I = {2}, dann folgt λ1 = λ3 = 0 und u = 0. Man erhalt:(−1−1

)+ λ2

(−10

)=

(00

)Es folgt λ2 = −1, also ein Widerspruch.

(e3) I = {3}, dann folgt λ1 = λ2 = 0 und v = 0. Man erhalt:(−1−1

)+ λ3

(0−1

)=

(00

)also einen Widerspruch.

66

Page 68: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

(e4) I = ∅, dann folgt λ1 = λ2 = λ3 = 0 und daraus ∇f(x∗) = 0 also einenWiderspruch Also ist x∗ einer folgenden Vektoren:

e1, e2, (1− 1√3,

1√

33 )t

Nun giltf(e1) = f(e2) = −1

und

f(1− 1√3,

1√

33 )t = −1 +

1√3− 1√

33 > −1

und damit sind e1 und e2 die Losungen des MPs.

Bei der Formulierung der KT-Bedingungen, insbesondere bei den Bedingungenzweiter Ordnung, leistet die sogenannte Lagrange-Funktion gute Dienste:

Definition 5.26 Es seien D ⊆ Rn offen, f : D → R, g : D → Rp und h : D →Rq Abbildungen. Dann heißt die Abbildung

L : D × Rp × Rq −→ R definiert durch

L(x, λ, µ) = f(x) +∑p

i=1 λigi(x) +∑q

j=1 µjhj(x)

= f(x) + λtg(x) + µth(x)

die zu dem MP

min f(x)bez. g(x) ≤ 0

h(x) = 0

assoziierte Lagrange-Abbildung.

Bemerkung 5.27 Es seien f, g und h partiell differenzierbar. Dann gelten furalle (x, λ, µ) ∈ D × Rp × Rq:

(i) ∇xL(x, λ, µ) = ∇f(x) +∑λi∇gi(x) +

∑µj∇hj(x)

(ii) ∇λL(x, λ, µ) = g(x)

(iii) ∇µL(x, λ, µ) = h(x)

Wenn f, g und h zweimal partiell differenzierbar sind, gilt daruber hinaus:

(iv) HxL(x, λ, µ) = Hf(x) +∑λiHgi(x) +

∑µjHhj(x)

67

Page 69: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Korollar 5.28 Vorgegeben sei das MP

min f(x)bez. g(x) ≤ 0

h(x) = 0

(i) Ein Punkt x∗ ∈ Rn ist genau dann ein KTP des MPs, wenn es λ∗ ∈ Rp, µ∗ ∈Rq so gibt, dass gelten:

∇xL(x∗, λ∗, µ∗) = 0∇λL(x∗, λ∗, µ∗) ≤ 0∇µL(x∗, λ∗, µ∗) = 0

λ∗ ≥ 0(λ∗)t∇λL(x∗, λ∗, µ∗) = 0

(ii) Wenn x∗ der Regularitatsbedingung von Abadie genugt, gibt es λ∗ ∈ Rp, λ∗ ≥0 und µ∗ ∈ Rq so dass gelten:

∇xL(x∗, λ∗, µ∗) = 0(λ∗)t∇λL(x∗, λ∗, µ∗) = 0

Beweis

(i) Die zweite und dritte Bedingung garantieren, dass x∗ zulassig ist. Wenn aberx∗ zulassig ist und λ∗ ≥ 0 gilt folgt λ∗i gi(x

∗) ≤ 0 fur alle i und daher

0 = (λ∗)t∆λL(x∗, λ∗, µ∗) = (λ∗)tg(x∗) =∑

λ∗i gi(x∗)⇔ λ∗i gi(x

∗) = 0 fur alle i

(ii) Das folgt jetzt direkt aus 5.15 und (i). �

68

Page 70: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Kapitel 6

Konvexe Optimierung

Konvexe Optimierung beschaftigt sich naturgemaß mit der Optimierung konvexerAbbildungen auf konvexen Mengen. Die Wichtigkeit der konvexen Optimierungwird u.a. durch die Ergebnisse 4.6 und 4.12 unterstrichen: Jede lokale Losung eineskonvexen Optimierungsproblems ist automatisch eine Losung und ein Punkt lostein konvexes Optimierungsproblem genau dann, wenn er stationar ist. Nun ist esso, dass der bisher am haufigsten behandelte Typ eines MPs die Form hat:

min f(x)bez. g(x) ≤ 0

h(x) = 0

und dieses Problem ist in der Regel selbst dann nicht konvex, wenn f, g, h konvexsind: Wahrend dann {x : g(x) ≤ 0} in der Tat eine konvexe Menge ist, ist {x :h(x) = 0} im allgemeinen keine konvexe Menge, wie das Beispiel h(x) = xtx− 1zeigt. Also ist K(g, h) in der Regel nicht konvex, wenn g und h konvex sind.Dieses Problem ist nicht so einfach zu umgehen und die ubliche Methode ist die,dass man verlangt, dass h affin ist.

Nun kann man konvexe MPe mit und ohne Differenzierbarkeitsvoraussetzungenstudieren, wobei man im zweiten Fall oft langere Beweis in Kauf nehmen muss.Ich werde das in dieser Vorlesung nicht tun und daher im Allgemeinen die Dif-ferenzierbarkeit der auftretenden Abbildungen verlangen. Zur Vereinfachung derSprechweise definiere ich:

Definition 6.1 Es seien K ⊆ Rn und f : K → R, g : K → Rp und h : K → Rq

Abbildungen. Das MPmin f(x)bez. g(x) ≤ 0

h(x) = 0

heißt konvex, wenn f und g konvex sind und h affin ist. Das (MP) heißt diffe-renzierbar, wenn K offen und f, g und h differenzierbar sind.

69

Page 71: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Proposition 6.2 Es seien K ⊆ Rn konvex und g : K → Rp konvex sowie h :K → Rq affin. Dann gelten fur alle x, y ∈ K und α ∈ R:

(i) h(αx+ (1− α)y) = αh(x) + (1− α)h(y)

(ii) Fur alle j gilthj(y) = hj(x) +∇hj(x)t(y − x)

(iii) K(g, h) ist konvex.

Beweis Alle drei Beweise sind ziemlich einfach: Es gelte h(x) = Ax + b undhj(x) = atjx+ bj, dann folgt:

h(αx+ (1− α)y) = A(αx+ (1− α)y) + b

= αAx+ (1− α)Ay + αb+ (1− α)b

= α(Ax+ b) + (1− α)(Ay + b)

= αh(x) + (1− α)h(y)

also (i). Weiterhin gilt ∇hj(x) = aj fur alle j und alle x und daher

hj(x) +∇hj(x)t(y − x) = atjx+ bj + atj(y − x) = atjy + bj = hj(y)

also (ii).

(iii) Fur alle x, y ∈ K(g, h) und α ∈ [0, 1] gilt

g(αx+ (1− α)y) ≤ αg(x) + (1− α)g(y) ≤ 0

sowie nach (i)

h(αx+ (1− α)y) = αh(x) + (1− α)h(y) = 0

insgesamt also αx+ (1− α)y ∈ K(g, h). �

Im folgenden will ich den Zusammenhang zwischen der Losung eines differenzier-baren, konvexen MPs und einem KTP dieses MPs studieren. Wenn eine Losungeines differenzierbaren MPs der Regularitatsbedingung von Abadie genugt, istsie ein KTP, die Umkehrung ist falsch. Im konvexen, differenzierbaren Fall istnun jeder KTP eine Losung und fur die recht unhandliche Bedingung von Abadiegibt es eine einfacher zu verifizierende hinreichende Bedingung (die sog. Slater-Bedingung). Der Beweis der ersten Behauptung geht ganz einfach:

Proposition 6.3 Vorgelegt sei das konvexe, differenzierbare MP

min f(x)bez. g(x) ≤ 0

h(x) = 0

Dann ist jeder KTP des MPs eine Losung des MPs.

70

Page 72: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beweis Es sei x∗ ein KTP. Nach 4.12 muss gezeigt werden, dass x∗ ein stationarerPunkt des MPs ist. Da x∗ ein KTP ist, gibt es λ∗ ≥ 0 und µ∗ so dass gelten:

∇f(x∗) +∑

λ∗i∇gi(x∗) +∑

µ∗j∇hj(x∗) = 0

undλ∗i gi(x

∗) = 0

und daher∇f(x∗) +

∑i∈I(x∗)

λ∗i∇gi(x∗) +∑

µ∗j∇hj(x∗) = 0

Nun gilt fur alle i ∈ I(x∗) und x ∈ K(g, h) nach 4.11:

∇gi(x∗)t(x− x∗) ≤ gi(x)− gi(x∗) = gi(x) ≤ 0

und daher−λ∗i∇gi(x∗)t(x− x∗) ≥ 0

Weiter gilt fur alle j und x ∈ K(g, h):

∇hj(x∗)t(x− x∗) = hj(x)− hj(x∗) = 0

Es folgt fur alle x ∈ K(g, h) nach 6.2:

∇f(x∗)t(x− x∗) = −∑

i∈I(x∗)

λ∗i∇gi(x∗)t(x− x∗)−∑

µ∗j∇hj(x∗)t(x− x∗) ≥ 0

Satz 6.4 Es seien K ⊆ Rn konvex und offen, f : K → R und g : K → Rp konvexund differenzierbar. Weiterhin sei h : K → Rq affin. Vorgelegt sei das konvexeMP

min f(x)bez. g(x) ≤ 0

h(x) = 0

Wenn ein Punkt x∗ ∈ K(g, h) der Regularitatsbedingung von Abadie genugt, loster das MP genau dann, wenn er ein KT-Punkt ist.

Beweis Nach 6.3 ist jeder KT-Punkt eine Losung, die Umkehrung folgt aus 5.15.�

Der Nachweis der Tatsache, dass ein Punkt der Regularitatsbedingung von Abadiegenugt ist in der Regel aufwendig. Er wird wesentlich vereinfacht, wenn das MPkonvex ist. Der zugehorige Begriff wird definiert in:

71

Page 73: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Definition 6.5 Man sagt, das MP

min f(x)bez. g(x) ≤ 0

h(x) = 0

genugt der Slater-Bedingung, wenn es ein x ∈ K(g, h) so gibt, dass gilt

gi(x) < 0 fur alle nicht-affinen gi

Proposition 6.6 Das konvexe, differenzierbare MP

min f(x)bez. g(x) ≤ 0

h(x) = 0

genuge der Slater-Bedingung. Dann genugt jeder Punkt x ∈ K(g, h) der Regula-ritatsbedingung von Abadie, d.h. es gilt T (x) = Z(x).

Beweis Es seien x0 ∈ K(g, h) und I0 die Menge aller i so dass gi nicht affin ist.Man setze

Z0 = {d ∈ Z(x0) : ∇gi(x0)td < 0 fur alle i ∈ I0 ∩ I(x0)}

Ich zeige zunachst, dass Z0 ⊆ T (x0) gilt, sei also d ∈ Z0(x0).

Fur alle i ∈ I0 ∩ I(x0) gilt ∇gi(x0)td < 0 also ist d nach nach 2.3 eine Abstiegs-richtung, und daher gibt es ein ε > 0 so dass fur alle i ∈ I(x0) ∩ I0 gilt:

gi(x0 + αd) < gi(x0) = 0 fur alle 0 < α ≤ ε

Fur alle i ∈ I0 \ I(x0) gilt gi(x0) < 0, also gibt es ein ε′ ≤ ε so dass gilt

gi(x0 + αd) ≤ 0 fur alle 0 < α ≤ ε′

Fur alle i /∈ I0 ist gi affin, also gilt fur alle α ≥ 0:

gi(x0 + αd) = gi(x0) + α∇gi(x0)td ≤ 0

und analog gilt fur alle j und alle α ≥ 0:

hj(x0 + αd) = hj(x0) + α∇hj(x0)td = 0

Es folgt x0 + 1kd ∈ K(g, h) fur alle k ≥ k0 und daraus

d = lim k((x0 +1

kd)− x0) ∈ T (x0)

72

Page 74: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Ich zeige nun dass gilt:Z(x0) ⊆ T (x0)

Da T (x0) nach 5.8 abgeschlossen ist, folgt daraus die Behauptung.

Sei also d ∈ Z(x0). Nach Voraussetzung gibt es ein x ∈ K(g, h) so dass giltgi(x) < 0 fur alle i ∈ I0. Da gi konvex ist, folgt aus 4.11 fur alle i ∈ I(x0) ∩ I0und alle α > 0:

∇gi(x0)t(d+α(x− x0)) = ∇gi(x0)td+α∇gi(x0)t(x− x0) ≤ α(gi(x)− gi(x0)) < 0

Weiterhin gilt fur alle i ∈ I(x0) \ I0:

∇gi(x0)t(d+α(x− x0)) = ∇gi(x0)td+α∇gi(x0)t(x− x0) ≤ α(gi(x)− gi(x0)) ≤ 0

und schließlich fur alle j:

∇hj(x0)t(d+α(x−x0)) = ∇hj(x0)td+α∇hj(x0)t(x−x0) = α(hj(x)−hj(x0)) = 0

Also folgt d+ 1k(x− x0) ∈ Z0 ⊆ T (x0) und daraus d ∈ T (x0). �

Satz 6.7 Das konvexe, differenzierbare MP

min f(x)bez. g(x) ≤ 0

h(x) = 0

genuge der Slater-Bedingung. Ein Punkt x∗ ∈ K(g, h) lost das MP genau dann,wenn er ein KTP ist.

Beweis Das folgt direkt aus 6.4 und 6.6. �

Korollar 6.8 Vorgegeben sei das konvexe, differenzierbare MP

min f(x)bez. g(x) ≤ 0

h(x) = 0

Wenn g affin ist, lost ein Punkt x∗ ∈ K(g, h) dieses MP genau dann, wenn erein KTP des MPs ist.

Beweis Das MP genugt der Slater-Bedingung. �

Beispiel 6.9 Man definiere f, g : R→ R durch f(x) = x und g(x) = x2 fur allex ∈ R und betrachte das MP

min f(x)bez. g(x) ≤ 0

73

Page 75: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Dann sind f und g konvex und x∗ = 0 ist die einzige Losung. Angenommen, x∗

ist ein KT-Punkt, dann gibt es ein λ∗ ≥ 0 so dass gilt

∇f(x∗) + λ∗∇g(x∗) = 0

Es folgt0 = 1 + 2λ∗x∗ = 1

also ein Widerspruch. Daher ist x∗ kein KT-Punkt. Dies zeigt, dass man dieVoraussetzung der Slater-Bedingung in 6.7 nicht ersatzlos streichen kann.

Eine anderes Optimalitatskriterium erhalt man durch den Begriff des Kuhn-Tucker-Sattelpunktes:

Definition 6.10 Es seien D ⊆ Rn, f : D → R, g : D → Rp und h : D →Rq Abbildungen. Ein Punkt (x∗, λ∗, µ∗) ∈ D × Rp

+ × Rq heißt Kuhn-Tucker-Sattelpunkt (KTSP) des MPs

min f(x)bez. g(x) ≤ 0

h(x) = 0

wenn gilt

L(x∗, λ, µ) ≤ L(x∗, λ∗, µ∗) ≤ L(x, λ∗, µ∗)

fur alle x ∈ D, λ ∈ Rp+ , µ ∈ Rq

(x∗, λ∗, µ∗) ist also genau dann ein Sattelpunkt, wenn die Abbildung L(·, λ∗, µ∗)in x∗ ein Minimum besitzt und die Abbildung L(x∗, ·, ·) in (λ∗, µ∗) ein Maximumbesitzt, wenn man sie auf Rp

+×Rq einschrankt. Der Vorteil des Begriffs des KTSPsist die Tatsache, dass er keine Differenzierbarkeitsvoraussetzungen braucht. Daherist er beim Studium nicht notwendig differenzierbarer (konvexer) Abbildungenvon großem Nutzen.

Proposition 6.11 Es seien D ⊆ Rn, f : D → R, g : D → Rp und h : D → Rq

Abbildungen. Vorgegeben sei das MP

min f(x)bez. g(x) ≤ 0

h(x) = 0

und (x∗, λ∗, µ∗) ein KTSP des MPs. Dann gelten:

(i) x∗ ist eine Losung des MPs und es gilt (λ∗)tg(x∗) = 0.

(ii) Es seien D offen und f, g und h differenzierbar. Dann ist x∗ ein KT-Punktmit Lagrange-Multiplikatoren λ∗, µ∗.

74

Page 76: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beweis

(i) Fur alle λ ≥ 0 und alle µ gilt:

f(x∗) +∑λ∗i gi(x

∗) +∑µ∗jhj(x

∗) = L(x∗, λ∗, µ∗)

≤ L(x∗, λ, µ) = f(x∗) +∑λigi(x

∗) +∑µjhj(x

∗)und daher ∑

(λi − λ∗i )gi(x∗) +∑

(µj − µ∗j)hj(x∗) ≥ 0

Da man λi beliebig groß und µj beliebig wahlen kann, folgt daraus gi(x∗) ≤ 0 fur

alle i und hj(x∗) = 0 fur alle j, d.h. x∗ ∈ K(g, h). Setzt man λi = 0 fur alle i und

µj = µ∗j fur alle j, erhalt man: ∑λ∗i gi(x

∗) ≥ 0

Aus∑λ∗i gi(x

∗) ≤ 0 folgt dann

(λ∗)tg(x∗) =∑

λ∗i gi(x∗) = 0

Andererseits gilt fur alle x ∈ K(g, h):

f(x∗) +∑λ∗i gi(x

∗) +∑µ∗jhj(x

∗) = L(x∗, λ∗, µ∗)

≤ L(x, λ∗, µ∗) = f(x) +∑λ∗i gi(x) +

∑µ∗jhj(x)

Daraus folgt:

f(x∗) ≤ f(x) +∑

λ∗i gi(x) ≤ f(x)

Also lost x∗ das MP.

(ii) Nach (i) gilt x∗ ∈ K(g, h) und (λ∗)tg(x∗) = 0. Da die Abbildung L(·, λ∗, µ∗)in x∗ in Minimum besitzt, folgt ∇xL(x∗, λ∗, µ∗) = 0. �

Proposition 6.12 Es seien D ⊆ Rn offen und f : D → R, g : D → Rp, h :D → Rq Abbildungen. Vorgegeben sei das konvexe, differenzierbare MP

min f(x)bez. g(x) ≤ 0

h(x) = 0

Ein Punkt x∗ ist genau dann ein KTP des MPs, wenn es λ∗ ≥ 0 und µ∗ so gibt,dass (x∗, λ∗, µ∗) ein KTSP des MPs ist.

Beweis Die eine Richtung ist gerade 6.11(ii). Sei also x∗ ein KTP mit zugehorigenLagrange-Multiplikatoren λ∗, µ∗. Da die Abbildung L(·, λ∗, µ∗) konvex ist und x∗

ein stationarer Punkt ist, besitzt sie in x∗ ein Minimum nach 4.12. Also gilt

L(x∗, λ∗, µ∗) ≤ L(x, λ∗, µ∗) fur alle x ∈ K

75

Page 77: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Andererseits gilt:

L(x∗, λ, µ) ≤ L(x∗, λ∗, µ∗)

⇔ f(x∗) + λtg(x∗) + µth(x∗) ≤ f(x∗) + (λ∗)tg(x∗) + (µ∗)th(x∗)

⇔ λtg(x∗) ≤ (λ∗)tg(x∗)

⇔ λtg(x∗) ≤ 0

die letzte Aussage ist offenbar richtig. �

Korollar 6.13 Vorgegeben sei das konvexe, differenzierbare MP

min f(x)bez. g(x) ≤ 0

h(x) = 0

Wenn das MP der Slater-Bedingung genugt, sind fur einen Punkt x∗ aquivalent:

(i) x∗ lost das MP.

(ii) x∗ ist ein KTP des MPs.

(iii) Es gibt λ∗, µ∗ so dass (x∗, λ∗, µ∗) ein KTSP des MPs ist.

Die Aquivalenz von (i) und (iii) in 6.13 gilt in der Tat fur jedes konvexe MP, aller-dings ist der Beweis erheblich aufwendiger. (Vgl. z.B. das Buch von Blum/Oettli.)

76

Page 78: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Kapitel 7

QuadratischeMinimierungsprobleme

Definition 7.1 Es seien A ∈ M(n, n) symmetrisch, c ∈ Rn, B ∈ M(p, n) undd ∈ Rp. Dann heißt das MP

min xtAx+ ctxbez. Bx ≤ d

quadratisches MP.

Bemerkung 7.2 Es sei A0 ∈M(n, n) beliebig. Dann ist

A = (1/2)(A0 + At0)

symmetrisch und es gilt fur alle x ∈ Rn:

xtAx = xtA0x ,

also ist die Voraussetzung der Symmetrie von A bei der Definition eines quadra-tischen MPs keine Einschrankung.

Proposition 7.3 Es seien A ∈ M(n, n) symmetrisch, c ∈ Rn und f : Rn → Rdefiniert durch

f(x) = xtAx+ ctx ,

dann gelten fur alle x, y ∈ Rn:

(i) ∇f(x) = 2Ax+ c

(ii) Hf(x) = 2A

(iii) f(y) = f(x) +∇f(x)t(y − x) + 12(y − x)tHf(x)(y − x)

= f(x) +∇f(x)t(y − x) + (y − x)tA(y − x)

77

Page 79: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

(iv) f ist genau dann konvex bze. streng konvex, wenn A positiv semidefinit bzw.positiv definit ist.

Beweis (iii) ist eine etwas langere Rechnung, folgt aber auch aus 2.19(ii), dieanderen Teile sind Ubungsaufgaben. �

Das MPmin f(x)bez. x ∈ K

hat bekanntlich eine Losung, wenn f stetig und K nicht-leer und kompakt (al-so beschrankt und abgeschlossen) ist. Man kann nun keine der beiden letztenVoraussetzungen weglassen, selbst wenn f konvex und nach unten beschranktist:

Beispiel 7.4 Man betrachte die MPe

min xbez. x ∈ (0, 1)

undmin exp(x)bez. x ∈ R

dann sind beide MPe nach unten beschrankt, aber nicht losbar.

Daher ist es nun etwas uberraschend, dass man fur quadratische MPe das folgendeResultat hat:

Satz 7.5 Es seien A ∈ M(n, n) symmetrisch und c ∈ Rn. Weiter seien B ∈M(p, n) und d ∈ Rp. Wenn das quadratische MP

min xtAx+ ctxbez. Bx ≤ d

einen zulassigen Punkt besitzt und nach unten beschrankt ist (wenn also die Menge{xtAx+ ctx : Bx ≤ d} nach unten beschrankt ist), besitzt das MP eine Losung.

Beweis Man setze K = {x ∈ Rn : Bx ≤ d} und definiere f : Rn −→ R durch

f(x) = xtAx+ ctx .

Dann ist f(K) nicht-leer und nach unten beschrankt, besitzt also ein Infimum.

Beweisidee Fur alle k ∈ N setze man Kk = K ∩B(0, k] und oBdA gelte K1 6= ∅.Man wahle xk ∈ Kk so dass gilt f(xk) = min f(Kk). Dann konvergiert (f(xk))gegen inf f(K). Wenn (xk) einen Haufungspunkt x∗ besitzt, ist x∗ eine Losung

78

Page 80: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

des MPs. Aber ist es moglich, dass die Folge keinen Haufungspunkt besitzt: De-finiert man z.B. f(u, v) = u2 und B = 0 , d = 0, dann kann man xk = (1/k, k)fur alle k wahlen und diese Folge hat keinen Haufungspunkt. Also muss man beider Auswahl von xk Vorsicht walten lassen: Man wahlt xk so, dass ‖xk‖ minimalist. Dann gilt f(x) > f(xk) fur alle ‖x‖ < ‖xk‖. Die Annahme, dass (xk) keinenHaufungspunkt besitzt, fuhrt man auf die folgende Weise zum Widerspruch: DieFolge ( 1

‖xk‖xk) besitzt einen Haufungspunkt w. OBdA konvergiere sie gegen w,

dann zeigt man, dass −w fur k ≥ k0 eine zulassige Abstiegsrichtung ist und dass‖xk − αw‖ < ‖xk‖ fur 0 ≤ α ≤ εk und fur diese k gilt.

Fortsetzung des Beweises Wegen K 6= ∅ gilt Kk 6= ∅ fur alle k ≥ k0, oBdAgelte Kk 6= ∅ fur alle k. Dann ist die Menge

Mk := {‖x‖ : x ∈ Kk, f(x) = min f(Kk)}

kompakt und nicht leer, besitzt also ein Minimum. Man wahle xk ∈ Kk so dassgilt ‖xk‖ = minMk, dann folgt

(i) f(xk) < f(x) fur alle x ∈ K mit ‖x‖ < ‖xk‖

(ii) f(xk)→ inf f(K)

Ich zeige nun, dass (xk) einen Haufungspunkt x∗ besitzt. Wenn dies gilt, ist x∗

eine Losung des MPs.

Angenommen, (xk) besitzt keinen Haufungspunkt, dann konvergiert (‖xk‖) gegen∞. OBdA gelte xk 6= 0 fur alle k. Dann hat die Folge (wk) := ( 1

‖xk‖xk) einen

Haufungspunkt w, oBdA konvergiere ( 1‖xk‖

xk) gegen w. Aus Bxk ≤ d fur alle k

folgt Bwk ≤ 1‖xk‖

d und daraus

(1) Bw ≤ 0

Da f(K) nach unten beschrankt ist, gibt es ein β ∈ R so dass gilt β ≤ f(x) furalle x ∈ K. Da (f(xk)) monoton fallt, gibt es ein γ ∈ R so dass gilt f(xk) ≤ γfur alle k. Es folgt β ≤ f(xk) ≤ γ fur alle k und daraus

β ≤ xtkAxk + ctxk ≤ γ fur alle k

Dies impliziertβ

‖xk‖2≤ wtkAwk +

1

‖xk‖ctwk ≤

γ

‖xk‖2

und es folgt

(2) wtAw = 0

79

Page 81: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Aus (1) folgt fur alle k und alle α ≥ 0:

B(xk + αw) = Bxk + αBw ≤ Bxk ≤ d

und daher xk + αw ∈ K fur alle α ≥ 0 und alle k. Fur alle α ∈ R gilt nach 7.3:

f(xk + αw) = f(xk) + α∇f(xk)tw + α2wtAw = f(xk) + α∇f(xk)

tw

und es folgt fur alle α ≥ 0:

β ≤ f(xk + αw) = f(xk) + α∇f(xk)tw

Dies impliziert ∇f(xk)tw ≥ 0 und

(3) f(xk − αw) ≤ f(xk) fur alle α ≥ 0 und alle k

Also ist w eine Abstiegsrichtung. Es seien b1, . . . , bp die Zeilenvektoren von B.Dann gilt fur alle x ∈ Rn

Bx ≤ 0⇐⇒ btjx ≤ 0 fur alle j

undBx ≤ d⇐⇒ btjx ≤ dj fur alle j

Es gilt Bw ≤ 0, also folgt btjw ≤ 0 fur alle j. Wenn btjw = 0 gilt, folgt fur alle α:

btj(xk − αw) = btjxk − αbtjw ≤ dj

Wenn btjw < 0 gilt, gibt es ein ε > 0 mit btjxk‖xk‖

≤ −ε fur alle k ≥ k0. Es folgt

btjxk ≤ −ε‖xk‖

und darausbtj(xk − αw) = btjxk − αbtjw ≤ −ε‖xk‖ − αbtjw .

Also gibt es ein kj so dass gilt:

btj(xk − αw) ≤ dj fur alle k ≥ kj und alle α ≤ 1

Daher gibt es ein k∗ so dass gilt

(4) xk − αw ∈ K fur alle k ≥ k∗, α ≤ 1

Schließlich konvergiert ( 1‖xk‖

xtkw) = (wtkw) gegen wtw = 1, also gibt es ein k′ so

dass gilt xtkw > 0 fur alle k ≥ k′. Es folgt fur alle α > 0:

‖xk − αw‖2 = ‖xk‖2 − 2αxtkw + α2‖w‖2 = ‖xk‖2 − α(2xtkw − α)

80

Page 82: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Daher gibt es ein 1 ≥ εk > 0 so dass gilt

(5) ‖xk − αw‖ < ‖xk‖ fur alle k ≥ k′ und alle 0 < α ≤ εk.

Wahlt man nun ein k ≥ max{k∗, k′}, dann gilt fur alle 0 < α ≤ εk:

(a) xk − αw ∈ K nach (4)(b) f(xk − αw) ≤ f(xk) nach (3)(c) ‖xk − αw‖ < ‖xk‖ nach (5)

im Widerspruch zu (ii). �

Korollar 7.6 Es sei A ∈M(n, n) positiv definit. Wenn das quadratische MP

min xtAx+ ctxbez. Bx ≤ d

einen zulassigen Punkt besitzt, ist es (eindeutig) losbar.

Beweis Man definiere f : Rn → R durch f(x) = xtAx + ctx. Dann ist f strengkonvex nach 7.3. Weiterhin gilt ∇f(x) = 2Ax + c fur alle x. Setzt man nunx∗ = −1

2A−1c, dann gilt ∇f(x∗) = 0, also ist x∗ ein stationarer Punkt. Nach 4.12

lost x∗ dann das MP

min f(x)bez. x ∈ Rn

Also ist f nach unten beschrankt, insbesondere ist {f(x) : Bx ≤ d} nach untenbeschrankt und die Behauptung folgt aus 7.5. �

Die bisher erzielten Resultate erlauben einen schnellen Beweis des Dualitatssatzesder linearen Optimierung.

Satz 7.7 Es seien A ∈M(q, n), b ∈ Rq und c ∈ Rn. Man betrachte das MP

(P)min ctxbez. Ax = b

x ≥ 0

sowie das Maximierungsproblem

(D)max btµbez. Atµ ≤ c

(Man nennt (P) das primale und (D) das duale MP.)

Dann gilt fur alle (P)-zulassigen x und (D)-zulassigen µ:

btµ ≤ ctx

Weiterhin sind aquivalent:

81

Page 83: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

(i) (P) ist losbar.

(ii) (D) ist losbar.

(iii) (P) und (D) besitzen einen zulassigen Punkt.

Wenn dies der Fall ist, haben beide MPe denselben optimalen Wert der Zielfunk-tion, d.h. es gilt

max{btµ : Atµ ≤ c} = min{ctx : x ≥ 0, Ax = b}

Beweis Es seien x ein (P)-zulassiger und µ ein (D)-zulassiger Punkt, dann folgt:

btµ = xtAtµ ≤ xtc = ctx

wobei die letzte Ungleichung aus x ≥ 0 folgt.

“(iii) ⇒ (i), (ii): Es seien x0 ein (P)-zulassiges Element und µ0 ein (D)-zulassigesElement. Dann folgt

btµ0 ≤ ctx fur alle (P)-zulassigen x

undbtµ ≤ ctx0 fur alle (D)-zulassigen µ

Also ist (P) nach unten beschrankt. Da (P) nach Voraussetzung ein zulassigesElement besitzt, ist (P) nach 7.5 losbar. Analog ist (D) losbar.

Offenbar folgt (iii) aus (i) und (ii), so dass es reicht zu zeigen, dass (i) aquivalentzu (ii) ist.

“(i) ⇒ (ii)”: Man definiere f : Rn → R, g : Rn → Rn und h : Rn → Rq durch

f(x) = ctx, g(x) = −x, h(x) = b− Ax

dann ist (P) gerade das MP

min f(x)bez. g(x) ≤ 0

h(x) = 0

Sei x∗ eine Losung von (P). Da das MP konvex ist und alle Nebenbedingungenaffin sind, ist x∗ nach 6.8 ein KT-Punkt des MPs. Also gibt es λ∗ ≥ 0 und µ∗ sodass gelten

(i) ∇f(x∗) +∑λ∗i∇gi(x∗) +

∑µ∗j∇hj(x∗) = 0

(ii) (λ∗)tg(x∗) = 0

82

Page 84: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Nun gilt ∇f(x) = c und ∇gi(x) = −ei fur alle i. Es seien at1, . . . atq die Zeilenvek-

toren von B, dann gilt hj(x) = bj − atjx und daher ∇hj(x) = −aj fur alle j. Esfolgt

(i) c−∑λ∗i ei −

∑µ∗jaj = 0

(ii) (λ∗)tx∗ = 0

Dies impliziert

c =∑

λ∗i ei +∑

µ∗jaj = λ∗ + Atµ∗

und daraus Atµ∗ ≤ c, also ist µ∗ ein (D)-zulassiger Punkt, sowie

btµ∗ = (Ax∗)tµ∗ = (x∗)tAtµ∗ = (x∗)t(c− λ∗) = (x∗)tc− (x∗)tλ∗ = ctx∗

Nun folgt fur alle (D)-zulassigen µ:

btµ ≤ ctx∗ = btµ∗

also ist µ∗ eine Losung von (D).

“(ii) ⇒ (i)” Dieser Beweis verlauft im Wesentlichen analog: Definiert man diesesMal f : Rp → R und g : Rq → Rn durch

f(µ) = −btµ und g(µ) = Atµ− c

dann ist µ∗ genau dann eine Losung von (D), wenn µ∗ eine Losung von

min f(µ)bez. g(µ) ≤ 0

ist. Sei µ∗ eine Losung von (D). Da f linear und g affin ist, ist µ∗ ein KTP desMPs, also gibt es x∗ ≥ 0 so dass gelten:

(i) ∇f(µ∗) +∑x∗i∇gi(µ∗) = 0

(ii) (x∗)tg(µ∗) = 0

Es folgt −b + Ax∗ = 0, also Ax∗ = b, daher ist x∗ ein (P)-zulassiger Punkt, und(x∗)t(Atµ∗ − c) = 0. Man erhalt

btµ∗ = (x∗)tAtµ∗ = (x∗)tc = ctx∗

und daher ist x∗ eine Losung von (P).

Alternativ kann man “(ii) ⇒ (i)” auch folgendermaßen beweisen: (D) ist genaudann losbar, wenn das MP

(D’)max bt(µ1 − µ2)bez. At(µ1 − µ2) + ν = c

µ1, µ2, ν ≥ 0

83

Page 85: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

losbar ist. Und (D’) ist genau dann losbar, wenn das MP

(D”)min (−b)t(µ1 − µ2)bez. −At(µ1 − µ2)− ν = −c

µ1, µ2, ν ≥ 0

losbar ist. Setzt man nun

µ =

µ1

µ2

ν

, c =

−bb0

, A = (−At, At,−In), b = −c

Dann ist (D’) gerade das MP

min ctµ

bez. Aµ = bµ ≥ 0

Nach dem Bewiesenen ist das zu (D’) duale Problem

max btx

bez. Atx ≤ c

losbar. Also ist auch das MP

(P’)min −btxbez. Atx ≤ c

losbar. Nun gilt−btx = ctx

und

Atx =

−AA−In

x =

−AxAx−x

also

Atx ≤ c =

−bb0

⇔ −Ax ≤ −b, Ax ≤ b, −x ≤ 0⇔ Ax = b, x ≥ 0

d.h. (P’) ist gerade (P). �

Es seien A ∈ M(n, n) symmetrisch, positiv definit und c ∈ Rn, dann betrachtetman das MP

min xtAx+ ctxbez. x ∈ Rn

84

Page 86: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Definiert man f : Rn → R durch

f(x) = xtAx+ ctx

dann ist f streng konvex und nach 4.12 lost ein Vektor x∗ ∈ Rn das MP genaudann, wenn er ein stationarer Punkt des MPs ist, wenn also gilt ∇f(x∗) = 0.Nun gilt ∇f(x) = 2Ax + c und daher lost x∗ das MP genau dann, wenn gilt2Ax∗ + c = 0. Daher ist x∗ die Losung eines linearen Gleichungssystems. Hiergeht es nun darum, effektive Verfahren zu finden, die die besondere Struktur vonA ausnutzen.

Um den Faktor 1/2 bei der Losung des MPs zu vermeiden, betrachte ich, wieallgemein ublich, das MP

min 12xtAx+ ctx

bez. x ∈ Rn

Definition 7.8 Es sei A ∈ M(n, n) symmetrisch und positiv definit. Zwei Vek-toren u, v ∈ Rn heißen A-konjugiert oder kurz konjugiert, wenn gilt utAv = 0.

Es sei A ∈M(n, n) symmetrisch und positiv definit. Dann ist die Abbildung

β : Rn × Rn → R

definiert durchβ(u, v) = utAv

ein Skalarprodukt auf Rn. Zwei Vektoren u, v ∈ Rn sind genau dann A-konjugiert,wenn sie orthogonal in (Rn, β) sind. Also stehen hier die Methoden der Theorieder euklidischen Vektorraume zur Verfugung. Insbesondere gilt:

(i) Es seien v1, . . . , vk paarweise A-konjugierte Vektoren, die alle von Null ver-schieden sind. Dann sind v1, . . . , vk linear unabhangig.

(ii) Rn besitzt eine Basis aus A-konjugierten Vektoren. In der Tat gibt es zujeder Basis u1, . . . , un des Rn eine Basis A-konjugierter Vektoren v1, . . . , vn sodass u1, . . . , uk und v1, . . . , vk fur alle k denselben Untervektorraum erzeugen.Praktisch kann man diese Vektoren mit dem Gram-Schmidt-Verfahren finden.

Proposition 7.9 Es seien A ∈ M(n, n) symmetrisch, positiv semidefinit undc ∈ Rn. Man definiere f : Rn −→ R durch

f(x) =1

2xtAx+ ctx

Weiterhin seien x0, v1, . . . , vk ∈ Rn sowie

L = x0 + Rv1 + · · ·+ Rvk = {x0 + α1v1 + · · ·+ αkvk : α1, . . . , αk ∈ R}

85

Page 87: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Ein Punkt x∗ ∈ L lost das MP

min f(x)bez. x ∈ L

genau dann, wenn gilt

∇f(x∗)tvi = 0 fur i = 1, . . . , k .

Beweis Nach 4.12 lost x∗ das MP genau dann, wenn x∗ ein stationarer Punktist, wenn also gilt

∇f(x∗)t(x− x∗) ≥ 0 fur alle x ∈ L .

Sei x∗ = x0 + α∗1v1 + · · ·+ α∗kvk, dann ist dies aquivalent zu:

∇f(x∗)t(x0 +α1v1 + · · ·+αkvk− (x0 +α∗1v1 + · · ·+α∗kvk)) ≥ 0 fur alle α ∈ Rk

also

∇f(x∗)t((α1 − α∗1)v1 + · · ·+ (αk − α∗k)vk) ≥ 0 fur alle α ∈ Rk

Dies ist aber offenbar aquivalent zu

∇f(x∗)tvi = 0 fur i = 1, . . . , k �

Korollar 7.10 Es seien A ∈ M(n, n) symmetrisch, positiv definit und c ∈ Rn.Man definiere f : Rn −→ R durch

f(x) =1

2xtAx+ ctx .

Weiterhin seien x0 ∈ Rn und v ∈ Rn , v 6= 0. Dann nimmt f sein Minimum aufx0 + Rv in dem Punkt x∗ = x0 + α∗v mit

α∗ = −(Ax0 + c)tv

vtAv= −∇f(x0)

tv

vtAv

an.

Beweis Nach 7.9 nimmt f sein Minimum auf x0+Rv genau dann in x∗ = x0+α∗van, wenn gilt

∇f(x∗)tv = 0

Nun gilt ∇f(x) = Ax+ c fur alle x und daher

∇f(x0 + αv) = Ax0 + αAv + c

86

Page 88: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Also folgt∇f(x0 + αv)tv = xt0Av + αvtAv + ctv

und daher gilt ∇f(x0 + α∗v)tv = 0 genau dann, wenn gilt

α∗ = −(xt0A+ ct)v

vtAv= −(Ax0 + c)tv

vtAv�

Die folgende Proposition ist der zentrale Punkt beim Verfahren der konjugiertenGradienten:

Proposition 7.11 Es seien A ∈ M(n, n) symmetrisch, positiv semidefinit, c ∈Rn und f : Rn → R definiert durch f(x) = 1

2xtAx+ctx. Weiterhin seien v1, . . . , vk

paarweise konjugierte Vektoren, und x0 ∈ Rn. Man setze

L = x0 + Rv1 + · · ·+ Rvk−1

und fur x∗ ∈ L gelte f(x∗) = min f(L). Schließlich gelte fur α∗ ∈ R:

f(x∗ + α∗vk) = min f(x∗ + Rvk)

Dann gilt

f(x∗ + α∗vk) = min f(L+ Rvk) = min f(x0 + Rv1 + · · ·+ Rvk) .

Beweis Nach 7.9 gilt

∇f(x∗)tvj = 0 fur j = 1, . . . , k − 1

und∇f(x∗ + α∗vk)

tvk = 0

Es gilt ∇f(x) = Ax+ c und es folgt fur alle 1 ≤ j ≤ k − 1:

∇f(x∗ + α∗vk)tvj = (A(x∗ + α∗vk) + c)tvj

= (Ax∗ + c)tvj + α∗vtkAvj= ∇f(x∗)tvj + α∗vtkAvj= 0

da vk und vj konjugiert sind. Die Behauptung folgt dann wieder aus 7.9. �

Proposition 7.12 Vorgegeben sei das quadratische MP

min 12xtAx+ ctx

bez. x ∈ Rn

Es seien A symmetrisch, positiv definit und v1, . . . , vn eine Basis paarweise A-konjugierter Vektoren des Rn. Man definiere f : Rn → R durch

f(x) =1

2xtAx+ ctx

und betrachte das folgende Verfahren:

87

Page 89: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

(S1) Man wahle x0 ∈ Rn beliebig.

(S2) Es seien x0, . . . , xk definiert. Dann setze man

αk = −∇f(xk)tvk

vtkAvk

undxk+1 = xk + αkvk

Dann lost xn+1 das MP.

Beweis Ich zeige induktiv, dass fur alle k ≥ 2 gilt:

f(xk) = min f(x0 + Rv1 + · · ·+ Rvk−1) ,

dann folgt f(xn+1) = min f(x0 + Rv1 + · · ·+ Rvn) = f(Rn) .

Nach 7.10 gilt:f(x2) = min f(x0 + Rv1)

die Behauptung gelte fur k. Nach 7.10 gilt dann f(xk+1) = min f(xk + Rvk) undaus 7.11 folgt dann f(xk+1) = min f(x0 + Rv1 + · · ·+ Rvk). �

Das Verfahren aus 7.12 setzt voraus, dass eine Basis aus konjugierten Vektorenbekannt ist. Wenn dies nicht der Fall ist, kann man eine solche Basis naturlichkonstruieren, indem man die Standardbasis des Rn “A-orthogonalisiert”. Es ergibtsich die Frage, ob es eine bessere Basis fur die A-Orthogonalisierung gibt. Diesist in der Tat der Fall:Nehmen wir an, x0, . . . , xk und v1, . . . , vk seien so konstruiert, dass die vi paarweiseA-konjugiert sind und dass gilt f(xk) = min f(x0 + Rv1 + · · · + Rvk−1), dannbestimmt man xk+1 so dass gilt f(xk+1) = min f(x0 + Rv1 + · · · + Rvk). Umeinen Vektor vk+1 zu finden, der A-konjugiert zu v1, . . . , vk ist, braucht man nunzunachst einen Vektor, der von v1, . . . , vk linear unabhangig ist. Und dafur gibt eseinen guten Kandidaten: Nach 7.9 gilt ja ∇f(xk+1)

tvi = 0 fur i = 1, . . . , k. Fallsnun ∇f(xk+1) = 0 gilt, ist xk+1 ein stationarer Punkt und damit eine Losung desMPs. Anderfalls ist ∇f(xk+1) linear unabhangig von v1, . . . , vk und man kanndiesen Vektor dann so modifizieren, dass er in der Tat A-orthogonal zu v1, . . . , vkist. Nun ist ja −∇f(xk) eine Abstiegsrichtung und deswegen ersetzt man in denobigen Uberlegungen ∇f(xk) durch −∇f(xk). Die technische Ausfuhrung dieserUberlegungen fuhrt dann zu dem

Verfahren 7.13 (Verfahren der konjugierten Gradienten, conjugate gradientsmethod, CG-Verfahren) Es seien A ∈ M(n, n) symmetrisch und positiv definitsowie c ∈ Rn. Vorgegeben sei das quadratische MP

min 12xtAx+ ctx

bez. x ∈ Rn

88

Page 90: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Man definiere f : Rn → R durch

f(x) =1

2xtAx+ ctx

und betrachte den folgenden Algorithmus:

(S1) Man wahle ein x0 ∈ Rn beliebig und setze v1 = −∇f(x0).

(S2) Es seien x0, . . . , xk und v1, . . . , vk definiert. Wenn ∇f(xk) = 0 gilt, brichtman das Verfahren ab. Wenn dies nicht der Fall ist, setze man

αk = −∇f(xk)tvk

vtkAvkxk+1 = xk + αkvk

βk =∇f(xk+1)

tAvkvtkAvk

vk+1 = −∇f(xk+1) + βkvk

Proposition 7.14 Es seien A ∈ M(n, n) symmetrisch und positiv definit sowiec ∈ Rn. Vorgegeben sei das quadratische MP

min 12xtAx+ ctx

bez. x ∈ Rn

Dann bricht das Verfahren der konjugierten Gradienten mit einem beliebigenStartwert nach hochstens n Schritten mit einer Losung des MPs ab.

ZusatzWenn das Verfahren bis zum (k−1)-ten Schritt nicht abgebrochen ist, gilt v1, . . . , vk,∇f(x0), . . . ,∇f(xk) 6= 0 und

(1) f(xk) = min f(x0 + Rv1 + · · ·+ Rvk−1) fur alle k ≥ 2

(2) vtiAvj = 0 fur alle i 6= j mit i, j ≤ k

(3) ∇f(xi)t∇f(xj) = 0 fur alle i 6= j mit i, j ≤ k

(4) ∇f(xk)tvk = −‖∇f(xk)‖2

Beweis Ich zeige zunachst die Behauptungen des Zusatzes durch vollstandigeInduktion nach k. Der Fall k = 1 ist einfach. Also gelte die Behauptung furk, dann sind v1, . . . , vk paarweise konjugiert und ∇f(x0), . . . ,∇f(xk) paarweiseorthogonal, und die 2k Vektoren sind alle von 0 verschieden. Wenn das Verfahrenim (k+1)-ten Schritt nicht abbricht, gilt ∇f(xk+1) 6= 0.

Beweis von (1): Nach 7.10 gilt

f(xk+1) = min f(xk + Rvk)

89

Page 91: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Aus 7.11 folgt dann

f(xk+1) = min f(x0 + Rv1 + · · ·+ Rvk)

und damit (1).

Beweis von (4): Nach 7.9 gilt

∇f(xk+1)tvi = 0 fur alle i ≤ k

Es folgt

∇f(xk+1)tvk+1 = ∇f(xk+1)

t(−∇f(xk+1) + βkvk) = −‖∇f(xk+1)‖2

und damit (4).

Beweis von (3):Fur alle i ≤ k gilt:

∇f(xk+1)t∇f(xi) = ∇f(xk+1)

t(βi−1vi−1 − vi) = 0

und damit (3).

Beweis von (2):Nach (3) sind ∇f(x0), . . . ,∇f(xk+1) linear unabhangig, insbesondere folgt dannxi+1 6= xi fur alle i ≤ k. Nun sei i ≤ k, dann gilt:

xi+1 − xi = αivi

und daher αi 6= 0. Es folgt:

αiAvi = A(xi+1 − xi) = ∇f(xi+1)−∇f(xi)

Man erhalt fur alle i < k:

vtk+1Avi = (−∇f(xk+1)t + βkvk)Avi

= −∇f(xk+1)tAvi

=1

αi∇f(xk+1)

t(∇f(xi+1)−∇f(xi))

= 0

Schließlich gilt:

vtk+1Avk = −∇f(xk+1)tAvk + βkv

tkAvk = −∇f(xk+1)

tAvk +∇f(xk+1)tAvk = 0

und daher (2).

90

Page 92: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Da das Verfahren nicht abgebrochen ist, gilt∇f(xk+1) 6= 0. Wegen∇f(xk+1)tvk =

0 sind ∇f(xk+1) und vk linear unabhangig und daher gilt

vk+1 = ∇f(xk+1) + βkvk 6= 0

Damit ist der Zusatz bewiesen.

Da v1, . . . , vn von 0 verschieden sind, sind sie linear unabhangig und daher eineBasis des Rn. Falls das Verfahren bis zum (n-1)-ten Schritt nicht abgebrochen ist,folgt nach (1):

f(xn+1) = min f(x0 + Rv1 + · · ·+ Rvn) = min f(Rn) �

Es seien nun A ∈ M(n, n) positiv definit und c ∈ Rn. Wenn man das lineareGleichungssystem Ax + c = 0 mit dem CG-Verfahren lost, ist der aufwendigsteTeil jedes Schrittes die Berechnung von Avk oder ∇f(xk+1)

tA, also die Multi-plikation einer Matrix mit einem Vektor. Dazu braucht man im allgemeinen n2

Multiplikationen. Da das Verfahren spatestens nach n Schritten abbricht, liegtdie Anzahl der notwendigen Multiplikationen in der Großenordnung von n3, imGegensatz zum Gauß-Verfahren, bei dem diese Zahl in der Großenordnung vonn3/3 liegt, also erheblich geringer ist. Das CG-Verfahren ist aber dennoch demGauß-Verfahren in wenigstens zwei Fallen uberlegen: Wenn die Matrix sehr groß,aber dunn besetzt ist (also viele Nullen enthalt). Wahrend das Gauß-Verfahrendiese Eigenschaft eher zerstort, profitiert das Verfahren konjugierter Gradientendavon erheblich. Den anderen Fall erhalt man, wenn man die Konvergenz des CG-Verfahrens naher untersucht: Es sei κ die Kondition der Matrix, also der Quotientaus dem großten und kleinsten Eigenwert von A, dann gilt fur die Losung x∗:

‖xk+1 − x∗‖ ≤ 2√κ

(√κ− 1√κ+ 1

)k‖x0 − x0‖

Wenn A also gut konditioniert ist, konvergiert das CG-Verfahren sehr schnell.Gelegentlich nimmt man in der Tat eine konditionsverbessernde Koordinaten-transformation vor, um die Konvergenzgeschwindigkeit zu verbessern.

Bei der Verallgemeinerung des CG-Verfahrens auf beliebige ein- oder zweimalstetig differenzierbare Abbildungen kann man nun bedenken, dass fur eine qua-dratische Abbildung ja A = Hf(x) fur alle x gilt und A dann entsprechendersetzen. Dieses erfordet naturlich die Berechnung zweiter Ableitungen, was oftaufwendig ist. Die folgende Bemerkung zeigt, dass man im quadratischen Fallohne zweite Ableitungen auskommt:

Bemerkung 7.15 Beim Verfahren der konjugierten Gradienten gilt fur alle k:

∇f(xk+1)−∇f(xk) = Axk+1 − Axk = αkAvk

91

Page 93: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

also folgt:

αk∇f(xk+1)tAvk = ∇f(xk+1)

t(∇f(xk+1)−∇f(xk)) = ‖∇f(xk+1)‖2

undαkv

tkAvk = (−∇f(xk) + βk−1vk−1)

t(∇f(xk+1)−∇f(xk))

= ‖∇f(xk)‖2

und daher gilt

βk =‖∇f(xk+1)‖2

‖∇f(xk)‖2Daher kann man beim Verfahren der konjugierten Gradienten vk+1 auch aus derGleichung vk+1 = −∇f(xk+1) + βkvk mit

βk =‖∇f(xk+1)‖2

‖∇f(xk)‖2

bestimmen.

Verfahren 7.16 (Verfahren von Fletcher und Reeves) Es sei f : Rn → R einestetig differenzierbare Abbildung. Man betrachte den folgenden Algorithmus:

(S1) Man wahle ein x0 ∈ Rn beliebig und setze v1 = −∇f(x0).

(S2) Es seien x0, . . . , xk und v1, . . . , vk definiert. Wenn ∇f(xk) = 0 gilt, brichtman das Verfahren ab.

Wenn dies nicht der Fall ist, wahle man αk so dass gilt

f(xk + αkvk) = min f(xk + Rvk)

und setzt

xk+1 = xk + αkvk

βk =‖∇f(xk+1)‖2

‖∇f(xk)‖2vk+1 = −∇f(xk+1) + βkvk

Man beachte, dass beim CG-Verfahren αk gerade so bestimmt worden ist, dassf(xk+αkvk) = min f(xk+Rvk) gilt, so dass das Verfahren von Fletscher und Ree-ves fur quadratische MPe mit positiv definiter Matrix A gerade das CG-Verfahrenist.

Das quadratische MPmin xtAx+ ctxbez. Bx ≤ d

genugt (z.B. nach Ubungsaufgabe 27) der Regularitatsbedingung von Abadie.Also ist nach 5.15 jede Losung des MPs ein KT-Punkt. Die Beschreibung einesKT-Punktes ist nun sehr einfach, wenn die Nebenbedingungen nur aus Gleich-heitsbedingungen bestehen:

92

Page 94: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Proposition 7.17 Es seien A ∈M(n, n) symmetrisch, c ∈ Rn, B ∈M(q, n) undd ∈ Rq. Ein Punkt x∗ ∈ Rn ist genau dann ein KTP des quadratischen MPs

min 12xtAx+ ctx

bez. Bx = d

wenn es ein µ∗ ∈ Rn so gibt, dass (x∗, µ∗) eine Losung des folgenden linearenGleichungssystems ist: (

A Bt

B 0

)(x

µ

)=

(−cd

)

Beweis Man definiere f : Rn → R durch f(x) = 12xtAx + ctx und h : Rn → Rq

durch h(x) = Bx − d. Ein Punkt x∗ ∈ Rn ist genau dann ein KTP, wenn es einµ∗ ∈ Rq so gibt, dass gilt

(1) ∇f(x∗) +∑µ∗j∇hj(x∗) = 0

Es seien b1, . . . , bq die Zeilenvektoren von B, dann gilt fur alle j:

hj(x) = btjx− dj und ∇hj(x) = bj

Also ist (1) aquivalent zu:

(2) Ax∗ + c+∑µ∗jbj = 0

und dies ist aquivalent zu:

(3) Ax∗ + c+∑Btµ∗ = 0

Dies ist gerade die erste Zeile, die zweite beschreibt die Zulassigkeit von x∗. �

Naturlich ist es nutzlich, hinreichende Kriterien zu haben, die die Existenz einesKTPes garantieren. Ein haufig nutzliches Kriterium ist das folgende:

Proposition 7.18 Es seien A ∈ M(n, n) symmetrisch und positiv definit undfur B ∈M(q, n) gelte rg(B) = q. Dann ist die Matrix(

A Bt

B 0

)

regular. Also besitzt fur alle s ∈ Rn und d ∈ Rq das MP

min 12xtAx+ ctx

bez. Bx = d

genau einen KTP x∗. Weiterhin ist x∗ die einzige Losung des MPs.

93

Page 95: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beweis Ich zeige zunachst, dass die Matrix regular ist:

Es gelte (A Bt

B 0

)(x

µ

)=

(0

0

)Dann folgt Ax+Btµ = Bx = 0 und daraus

0 = xtAx+ xtBtµ = xtAx+ (Bx)tµ = xtAx .

Da A positiv definit ist, folgt x = 0 und daraus Btµ = 0. Es seien bt1, . . . , btq die

Zeilenvektoren von B, dann sind bt1, . . . , btq wegen rg(B) = q linear unabhangig.

Es folgt

0 = Btµ =

q∑j=1

µjbj

und daraus µ = 0.

Da A positiv definit ist, ist die Abbildung f definiert durch

f(x) =1

2xtAx+ ctx

konvex und nach 6.8 lost ein Punkt das MP genau dann, wenn er ein KT-Punktist. Da die Matrix (

A Bt

B 0

)regular ist, besitzt das MP nach 7.17 genau einen KTP. �

Beispiel 7.19min u2 + v2 + w2

bez. u+ 2v − w = 4u− v + w = −2

Das folgende LGS ist zu losen:2 0 0 1 10 2 0 2 −10 0 2 −1 11 2 −1 0 01 −1 1 0 0

uvwµ1

µ2

=

0004−2

und die Losung ist

(x∗, µ∗) =1

7(2, 10,−6,−8, 4)

Also ist x∗ = 17(2, 10,−6) der einzige KTP mit zugehorigem Lagrange-Multiplikator

µ∗ = 17(−8, 4) und x∗ die einzige Losung des MPs. �

94

Page 96: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Es seien f : Rn → R eine quadratische Abbildung und g : Rn → Rp sowieh : Rn → Rq affine Abbildungen. Vorgegeben sei das MP

(MP)min f(x)bez. g(x) ≤ 0

h(x) = 0

Wenn x∗ eine Losung des MPs ist, ist x∗ ein KTP, also gibt es λ∗ ≥ 0 und µ∗ sodass gelten:

∇f(x∗) +∑p

i=1 λ∗i∇gi(x∗) +

∑qj=1 µ

∗j∇hj(x∗) = 0

λ∗i gi(x∗) = 0 fur alle i

Dies kann man auch schreiben in der Form:

∇f(x∗) +∑

i∈I(x∗) λ∗i∇gi(x∗) +

∑qj=1 µ

∗j∇hj(x∗) = 0

λ∗i = 0 fur alle i /∈ I(x∗)

Bei der Losung dieses Gleichungssystems erweist es sich als ein Problem, dassI(x∗) nicht bekannt ist. Bei den Beispielen in Kapitel 5 und den zugehorigenUbungen bin ich davon ausgegangen, dass jede Menge I ⊆ {1, . . . , p} ein Kandidatfur I(x∗) ist und habe dann das entsprechende Gleichungssystem untersucht.Das ist naturlich kein praktisches Verfahren, da die Anzahl der Teilmengen sehrschnell sehr groß wird. Bei der Methode der aktiven Mengen (active set method)konstruiert man nicht nur eine Folge zulassiger Punkte (xk), die einen KTP x∗

approximieren soll, sondern auch eine Folge (Ik) von Teilmengen von {1, . . . , p},die I(x∗) “annahern” soll (und in in guten Fallen mit I(x∗) endet). Das Verfahrenbeginnt wie ublich mit einem beliebigen zulassigen Punkt x0 und dieses Mal miteiner Menge I0 ⊆ I(x0). Wenn nun xk und Ik ⊆ I(xk) konstruiert sind, bedenktman das Folgende:

Wenn x∗ eine Losung des MPs ist, ist x∗ eine (MP)-zulassige Losung des MPs

min f(x)bez. gi(x) = 0 fur alle i ∈ I(x∗)

h(x) = 0

Wenn nun Ik = I(x∗) galte, dann ware x∗ eine (MP)-zulassige lokale Losung desMPs

min f(x)bez. gi(x) = 0 fur alle i ∈ Ik

h(x) = 0

Also lost man dieses MP, man betrachtet zwei Falle:

Fall 1 xk lost dieses MP. Dann ist xk ein KTP dieses MPs und daher gibt es(λi)i∈Ik und (µj) so dass gilt

∇f(xk) +∑i∈Ik

λi∇gi(xk) +∑

µj∇hj(xk) = 0

95

Page 97: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Falls nun λi ≥ 0 fur alle i ∈ Ik gilt, setze man λi = 0 fur alle i /∈ Ik. Dann giltλi ≥ 0 fur alle i und

λigi(xk) = 0 fur alle i .

Also ist xk ein KTP von (MP) und das Verfahren bricht ab. Nehmen wir an, esgelte λj < 0 fur ein j. Wenn xk regular bzgl. (MP) ist, ist die obige Darstellungeindeutig und xk kein KTP von (MP) und daher keine Losung von (MP). Alsogilt f(x∗) < f(xk) und daher I(x∗) 6= Ik. Nun kann man im nachsten SchrittIk vergroßern oder verkleinern. Wenn man Ik vergroßert, verkleinert man denzulassigen Bereich und vergroßert das Minimum. Das ist offenbar nicht nutzlichund daher verkleinert man Ik. Die Frage ist, welches Element man aus Ik heraus-nehmen soll und hier bietet sich naturlich jedes λi < 0 an. Ublicherweise nimmtman das kleinste und setzt xk+1 = xk und Ik+1 = Ik \ {λi}.

Fall 2 xk lost dieses MP nicht. Dann sei yk eine Losung dieses MPs. Wenn ykzulassig fur (MP) ist, setzt man xk+1 = yk und Ik+1 = Ik. Offenbar gilt in diesemFall f(xk+1) < f(xk). Wenn yk nicht (MP)-zulassig ist, setze man

αk = max{α ≥ 0 : gi(xk + α(yk − xk)) ≤ 0 fur alle i}

und xk+1 = xk + αk(yk − xk). Also ist xk+1 “letzte” Punkt auf der Verbindungs-gerade, der noch zulassig ist. Weiterhin wahlt man ein r, das “verhindert”, dassαk großer wird. Dann gilt gr(xk+1) = 0 und man setzt Ik+1 = Ik ∪ {r}.Der Punkt des Verfahrens ist nun die Tatsache, dass fur unendlich viele k der 1.Fall eintritt und ebenso fur unendlich viele k der 2. Fall eintritt, wenn das Ver-fahren nicht abbricht: Wenn fur k der 1. Fall eintritt, ist Ik+1 echt in Ik enthalten.Wenn auch fur k + 1 der 1. Fall eintritt, ist Ik+2 echt in Ik+1 enthalten. Dies istoffenbar nur endlich oft moglich, so dass es ein r gibt so dass fur k+ r der 2. Fallgilt. Wenn andererseits fur k der 2. Fall gilt und fur k+1 nicht der 1. Fall gilt, istIk+1 echt großer als Ik. Wenn auch fur k+ 1 nicht der 1. Fall eintritt ist Ik+2 echtgroßer als Ik+1. Also tritt nach endlich vielen Schritten wieder der 1. Fall ein.Wenn fur k der 1. Fall gilt, lost xk das MP

min f(x)bez. gi(x) = 0 fur alle i ∈ Ik

h(x) = 0

Da es nur endlich viele Teilmengen von {1, . . . , p} gibt, gibt es eine Menge I0 ⊆{1, . . . , p} und eine unendliche Menge J ⊆ N so dass fur alle k ∈ J der 1. Fallzutrifft und dass Ik = I0 gilt. Dann folgt aber f(xk) = f(xr) fur alle k, r ∈ J unddie Folge f(xk) wird konstant.

Wenn andererseits fur k der 2. Fall gilt und yk zulassig ist, gilt f(xk+1) = f(yk) <f(xk). Schwieriger wird die Sache, wenn xk+1 = xk + αk(yk − xk) fur αk < 1 gilt,denn dann ist nicht gesichert, dass f(xk+1) ≤ f(xk) oder gar f(xk+1) < f(xk) gilt.

96

Page 98: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Im allgemeinen ist durchaus moglich, dass f(xk+1) > f(xk) gilt und man mussdiesen Fall durch geeignete Voraussetzungen an f vermeiden. Wenn nun aber furalle k, die dem 2. Fall genugen, f(xk+1) < f(xk) gilt, bricht das Verfahren ab.Damit erhalt man prinzipiell das folgende Verfahren:

Verfahren 7.20 (der aktiven Mengen, Prototyp) Es sei f : Rn → R eine stetigdifferenzierbare Abbildung und g : Rn → Rp sowie h : Rn → Rq affine Abbildun-gen. Vorgegeben sei das MP

(MP)min f(x)bez. g(x) ≤ 0

h(x) = 0

Man betrachte das folgende Verfahren:

(S1) Man wahle einen zulassigen Vektor x0 ∈ Rn und I0 ⊆ I(x0).

(S2) Es seien (MP)-zulassige Punkte x0, . . . , xk und Mengen I0 ⊆ I(x0), . . . , Ik ⊆I(xk) konstruiert. Man betrachte das MP

min f(x)bez. gi(x) = 0 fur alle i ∈ Ik

h(x) = 0

Fall 1 xk lost dieses MP, dann suche man Lagrange-Multiplikatoren (λi)i∈Ik undµ ∈ Rq so dass gilt

∇f(xk) +∑i∈Ik

λi∇gi(xk) +∑

µj∇hj(xk) = 0

a) Wenn λi ≥ 0 fur alle i ∈ Ik gilt, ist xk ein stationarer Punkt von (MP) unddas Verfahren bricht ab.b) Andernfalls wahle man r so dass gilt λr = min{λi : i ∈ Ik} und setze

xk+1 = xk und Ik+1 = Ik \ {λr}

Fall 2 xk ist keine Losung dieses MPs. Dann sei yk eine Losung.

a) Wenn yk (MP)-zulassig ist, setze man xk+1 = yk und Ik+1 = Ik.

b) yk ist nicht (MP)-zulassig. Dann setze man

αk = max{α ≤ 1 : gi(xk + α(yk − xk)) ≤ 0}

undxk+1 = xk + αk(yk − xk)

Schließlich wahlt man ein r /∈ Ik so dass gilt gr(xk+1) = 0 und setzt

Ik+1 = Ik ∪ {r}

97

Page 99: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Man wahlt also im Fall 2b) den zulassigen Punkt auf der Verbindungsgeradezwischen xk und yk, der am Nachsten zu yk liegt. Bevor ich den wesentlichenSatz uber das Verfahren der aktiven Mengen beweise, brauche ich eine einfacheTatsche uber konvexe Abbildungen:

Lemma 7.21 Es seien I ⊆ R ein Intervall und f : I → R eine streng konvexe,zweimal stetig differenzierbare Abbildung. Schließlich sei x0 ∈ I ein stationarerPunkt. Dann ist f in I ∩ (−∞, x0] streng monoton fallend und in I ∩ [x0,∞)streng monoton wachsend.

Beweis UA

Proposition 7.22 Es seien A ∈ M(n, n) positiv definit und c ∈ Rn. Weiterhinseien g : Rn → Rp und h : Rn → Rq affine Abbildungen. Man definiere f : Rn →R durch

f(x) =1

2xtAx+ ctx

und betrachte das MP

(MP)min f(x)bez. g(x) ≤ 0

h(x) = 0

Schließlich seien x0 ∈ Rn ein zulassiger Punkt und I0 ⊆ I(x0). Dann ist dasVerfahren der aktiven Mengen wohldefiniert. Wenn im 2. Fall (b) stets αk > 0gilt, bricht das Verfahren mit einer Losung ab.

Beweis xk und Ik seien bestimmt. In Fall 1a) bricht das MP ab, in Fall 1b) sindxk+1 und Ik+1 offenbar wohldefiniert. Also ist in Fall 2 zunachst einmal zu zeigen,dass das MP

(MPk)min f(x)bez. gi(x) = 0 fur alle i ∈ Ik

h(x) = 0

losbar ist. Dies gilt nach 7.6. Also bleibt zu zeigen, dass es im Fall 2b) stets einr ∈ {1, . . . , n} \ Ik gibt mit g(xk+1) = 0. Es gilt gi(yk) = 0 fur alle i ∈ Ik unddaher fur alle α:

gi(xk + α(yk − xk)) = gi(xk) + α(gi(yk)− gi(xk)) = 0

Weiterhin gilt fur alle α:

h(xk + α(yk − xk)) = h(xk) + α(h(yk)− h(xk)) = 0

Da alle gi stetig sind, gilt gi(xk + αk(yk − xk)) ≤ 0 fur alle i. Angenommen, esgilt gi(xk + αk(yk − xk)) < 0 fur alle i /∈ Ik. Da yk = xk + 1 · (yk − xk) nicht(MP)-zulassig ist, gilt αk < 1. Da alle gi stetig sind, gibt es dann ein αk < α′ ≤ 1

98

Page 100: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

so dass gilt gi(xk + α′(yk − xk)) ≤ 1 fur alle i /∈ Ik also ist xk + α′(yk − xk) ein(MP)-zulassiger Vektor im Widerspruch zur Wahl von αk.

Ich zeige nun, dass im 2. Fall stets f(xk+1) < f(xk) gilt:

Im Fall 2a) ist das klar. Im Fall 2b) betrachte man die Abbildung ϕ : R → Rdefiniert durch ϕ(α) = f(xk+α(yk−xk)). Diese Abbildung ist streng konvex undnimmt daher ihr Minimum in einem α0 ∈ R an. Nach 7.21 ist ϕ streng monotonfallend in (∞, α0] und streng monoton wachsend in [α0,∞). Es folgt 1 ≤ α0 unddaraus wegen αk > 0:

f(xk+1) = f(xk + αk(yk − xk)) = ϕ(αk) > ϕ(0) = f(xk)

Angenommen, das Verfahren bricht nicht ab, dann gibt es nach der Vorbemer-kung eine unendliche Menge J0 ⊆ N so dass fur alle k ∈ J0 der Fall 1 gilt. Daes nur endlich viele Teilmengen von {1, . . . , n} gibt, gibt es dann eine unendlicheTeilmenge J ⊆ {1, . . . , n} so dass Ik = Ir fur alle k, r ∈ J gilt. Da f streng konvexist, hat (MPk) genau eine Losung. Es folgt xk = xr fur alle k, r ∈ J . Da J unend-lich ist, besagt dies, dass die Folge (f(xk)) konstant wird. Da es aber nach endlichvielen Schritten ein r gibt, so dass der 2. Fall eintritt, folgt f(xr+1) < f(xr) unddaraus ein Widerspruch. �

Fur die Durchfuhrung des Verfahrens der aktiven Mengen sind nun einige Dingezu bestimmen: Im Fall 1 braucht man Lagrange-Multiplikatoren, im Fall 2 mussman ein MP losen und im Fall 2b) muss man daruber hinaus αk bestimmen undr finden. Am Einfachsten kann man αk und r bestimmen:

Lemma 7.23 Im Verfahren der aktiven Mengen gilt im Fall 2b)

αk = min{ −gi(xk)∇gi(xk)t(yk − xk)

: ∇gi(xk)t(yk − xk) > 0}

Wahlt man ein r so dass gilt ∇gr(xk)tzk > 0 und

−gr(xk)∇gr(xk)t(yk − xk)

= αk

dann gilt r /∈ Ik und gr(xk + αk(yk − xk)) = 0.

Beweis Man setze zk = yk − xk. Da alle gi affin sind, folgt aus 6.2 fur alle i undα:

gi(xk + αzk) = gi(xk) + α∇gi(xk)tzkAlso gilt fur alle i und α

gi(xk + αzk) ≤ 0 ⇐⇒ α∇gi(xk)tzk ≤ −gi(xk)

99

Page 101: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Wegen −gi(xk) ≥ 0 folgt dann fur alle α ≥ 0:

gi(xk + αzk) ≤ 0 ⇐⇒ α ≤ −gi(xk)∇gi(xk)tzk

fur alle i mit ∇gi(xk)tzk > 0

Daher gilt

αk = min{ −gi(xk)∇gi(xk)tzk

: ∇gi(xk)tzk > 0}

Man wahle ein r so dass gilt ∇gr(xk)tzk > 0 und −gr(xk)∇gr(xk)tzk

= αk, dann gilt

offenbar gr(xk + αkzk) = 0. Angenommen, r ∈ Ik, dann folgt

0 = gr(xk + αkzk) = gr(xk) + αk∇gr(xk)tzk = ∇gr(xk)tzk > 0

und daraus ein Widerspruch. Es folgt r /∈ Ik. �

Bei der Losung des k-ten MPs kennt man ja einen zulassigen Punkt, namlich xk.Es ist nun ublich, zur Bestimmung der Losung yk den Differenzvektor zk = yk−xkzu berechnen:

Lemma 7.24 Es sei x0 ein zulassiger Punkt des MPs

min 12xtAx+ ctx

bez. Bx = d

Der Punkt x∗ = x0 + z∗ ist genau dann ein KTP mit zugehorigem Lagrange-Multiplikator µ∗, wenn (z∗, µ∗) eine Losung des folgenden LGSs ist:(

A Bt

B 0

)(z

µ

)=

(−(Ax0 + c)

0

)

Beweis Nach 7.17 ist x0 + z∗ genau dann ein KTP mit Lagrange-Multiplikatorµ∗, wenn gilt (

A Bt

B 0

)(x0 + z∗

µ∗

)=

(−cd

)Wegen Bz∗ = d ist dies offenbar aquivalent zur Behauptung. �

Damit erhalt man die folgende algorithmische Beschreibung des Verfahrens deraktiven Mengen fur quadratische MPe:

100

Page 102: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Verfahren 7.25 (der aktiven Mengen) Vorgegeben sei das quadratische MP

min 12xtAx+ ctx

bez. Bx ≤ dDx = f

(S1) Man wahle einen zulassigen Punkt x0 und setze I0 = I(x0).

(S2) Wenn xk und Ik bestimmt sind, sei Bk die Matrix, deren Zeilenvektorengerade (bi)i∈Ik sind. Es sei (zk, λk, µk) eine Losung des LGS A Bt

k Dt

Bk 0 0

D 0 0

z

λ

µ

=

−(Axk + c)

0

0

Fall 1a) Es gilt zk = 0 und λk ≥ 0. Dann ist xk ein KTP und man bricht ab.

Fall 1b) Es gilt zk = 0 aber λk,i < 0 fur ein i ∈ Ik. Dann wahle man r ∈ Ik sodass gilt λk,r = min{λk,i : i ∈ Ik} und setze

xk+1 = xk und Ik+1 = Ik \ {r}

Fall 2a) Es gilt zk 6= 0 und xk + zk ist zulassig. Dann setze man

xk+1 = xk + zk und Ik+1 = Ik

Fall 2b) xk + zk ist nicht zulassig. Dann setze man

αk = min{di − btixk

btizk: btizk > 0}

Es gelte

αk =dr − btrxkbtrzk

dann setze man

xk+1 = xk + αkzk und Ik+1 = Ik ∪ {r}

101

Page 103: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beispiel 7.26 Man betrachte das MP

min u2 − uv + v2 − 3ubez. u ≥ 0

v ≥ 0u+ v ≤ 2

Man setze

A =

(2 −1

−1 2

)und c =

(−3

0

)

B =

−1 0

0 −1

1 1

und d =

0

0

2

Dann ist das MP

min 12xtAx+ ctx

bez. Bx ≤ b

zu losen.

k = 0: Es seien

x0 = (0, 0)t und I0 = I(x0) = {1, 2}

k = 1: Es gilt−(Ax0 + c) = −c = (3, 0)

also ist zu losen: 2 −1 −1 0

−1 2 0 −1

−1 0 0 0

0 −1 0 0

u

v

λ′

λ′′

=

3

0

0

0

Die Losung ist

(z0, λ0) = ((0, 0)t, (−3, 0)t)

Also liegt Fall 2b) vor. Es gilt

λ0,1 = min{λ0,i : i ∈ I0} = −3

Also setzt man

x1 = x0 = (0, 0)t und I1 = I0 \ {1} = {2}

102

Page 104: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

k = 2: Es gilt −(Ax1 + c) = −(Ax0 + c) = (3, 0) und damit ist zu losen: 2 −1 0

−1 2 −1

0 −1 0

u

v

λ

=

3

0

0

Die Losung ist

(z1, λ1) = ((3/2, 0)t,−3/2)

Weiterhin ist x1 + z1 = (3/2, 0) zulassig und daher gilt

x2 = x1 + z1 = (3/2, 0) und I2 = I1 = {2}

k = 3 : Da x2 = x1+z1 eine Losung von (MP1) = (MP2) mit Lagrange-Multiplikator−3/2 ist, liegt Fall 1b) vor und man setzt x3 = x2 und I3 = I2 \ {2} = ∅.k = 4: Es gilt

(Ax3 + c) = (Ax2 + c) = (0,−3/2)

also ist zu losen: (2 −1

−1 2

)(u

v

)=

(0

3/2

)Die Losung ist z3 = (1/2, 1). Weiterhin ist x3 + z3 = (2, 1) nicht zulassig. Es gilt

bt1z3 = −1/2bt2z3 = −1bt3z3 = 3/2

Also gilt

α3 =d3 − bt3x3bt3z3

=2− 3/2

3/2= 1/3

und daher

x4 = x3 + α3z3 = (3/2, 0) +1

3(1/2, 1) = (5/3, 1/3) und I4 = {3}

k = 5: Es gilt:

(Ax4 + c) =

(2 −1

−1 2

)(5/3

1/3

)+

(−3

0

)=

(0

−1

)und daher ist zu losen: 2 −1 1

−1 2 −1

1 1 0

u

v

λ

=

0

1

0

103

Page 105: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Dieses hat die Losung:

(z4, λ4) = ((−1/6, 1/6), 1/2)

Weiterhin ist

x4 + z4 = (5/3, 1/3) + (−1/6, 1/6) = (3/2, 1, 2)

zulassig. Daher gilt

x5 = x4 + z4 = (3/2, 1/2) und I5 = I4 = {3}

k = 6: Da x5 = x4+z4 eine Losung von (MP4) = (MP5) mit Lagrange-Multiplikator1/2 ist, liegt Fall 1a) vor und das Verfahren bricht mit dem KTP x5 ab. Da dasMP streng konvex ist, ist x5 die einzige Losung des MPs. �

Das Verfahren minimiert also die Funktion zunachst unter der Nebenbedingungu = v = 0, was offenbar x0 = (0, 0) als Losung liefert. Da der Lagrange-Multiplikator nicht nicht-negativ ist, ist (0, 0) nicht die Losung des MPs. Da-nach minimiert es die Funktion unter der Nebenbedingung v = 0, die Losung ist(3/2, 0), auch das ist keine Losung. Also bestimmt es das Minimum der Funktionohne Nebenbedingungen, dies wird in (2, 1) angenommen, und dieser Punkt istnicht zulassig. Daher sucht es auf der Verbindungsstrecke von (3/2, 0) mit (2, 1)den (MP)-zulassigen Punkt, der am nachsten zu (2, 1) liegt. Das ist (5/3, 1/3) under erfullt die Nebenbedingung u + v = 2. Als sucht das Verfahren das Minimumvon f unter der Nebenbedingung u+v = 2. Dies wird in (3/2, 1/2) angenommen.Da der Lagrange-Multiplikator nicht-negativ ist, ist das die Losung des MPs.

Man kann zeigen, dass die Matrix

(Bk

D

)fur alle k maximalen Rang hat, wenn

dies fur B0 gilt. Wenn also A positiv definit ist, ist die Matrix A Btk Dt

Bk 0 0

D 0 0

nach 7.18 regular, so dass das lineare Gleichungssystem A Bt

k Dt

Bk 0 0

D 0 0

z

λ

µ

=

−(Axk + c)

0

0

eindeutig losbar ist.

104

Page 106: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Exkurs: Lineare Programmierung

Definition 7.27 Es seien A ∈M(q, n), C ∈M(p, n), b ∈ Rq, d ∈ Rq und c ∈ Rn.Dann heißt das MP

min ctxbez. Ax = b

Cx ≤ dx ≥ 0

auch Lineares Programm

Proposition 7.28 Vorgegeben seien die Linearen Programme

(MP)

min ctxbez. Ax = b

Cx ≤ dx ≥ 0

und (MPe)

min ctxbez. Ax = b

(C, Ip)

(xu

)= d

x, u ≥ 0

Dann gelten:

a) Es sei x∗ eine Losung von (MP). Man setze u∗ = d − Cx∗, dann ist

(x∗

u∗

)eine Losung von (MPe).

b) Es sei

(x∗

u∗

)eine Losung von (MPe), dann ist x∗ eine Losung von (MP).

Man nennt die Komponenten von u auch Schlupfvariablen.

Beweis

a) Es sei

(xu

)(MPe)-zulassig. Dann gilt Cx + u = d und daher Cx ≤ d. Also

ist x (MP)-zulassig und es gilt ctx∗ ≤ ctx.

b) Es s ei x (MP)-zulassig. Man setze u = d−Cx, dann ist

(xu

)(MPe)-zulassig

und es folgt ctx∗ ≤ ctx. �

Wegen 7.28 reicht es, sich bei der Losung Linearer Programme auf Programmedes Typs

min ctxbez. Ax = b

x ≥ 0

zu beschranken.

Definition 7.29 Es seien E ein reeller Vektorraum und K ⊆ E konvex. EinPunkt x ∈ K heißt Extremalpunkt von K, wenn fur alle y, z ∈ K und 0 < α < 1

105

Page 107: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

aus x = αy + (1 − α)z stets folgt x = y = z, d.h. wenn x nicht im Inneren derVerbindungsgerade von zwei verschiedenen Punkten aus K liegt. Die Menge allerExtremalpunkte von K wird mit exK bezeichnet.

Beispiele 7.30

(i) Fur alle a < b giltex[a, b] = {a, b}

undex(a, b) = ∅

sowieex[a, b) = ex[a,∞) = {a}

(ii) Es seiS = {x ∈ Rn : ‖x‖ ≤ 1}

Dann ist S konvex und es gilt

ex S = {x ∈ Rn : ‖x‖ = 1}

Beweis Einfach.

Bezeichnungsweisen 7.31 Es seien A = (a1, . . . , an) ∈ M(q, n) und b ∈ Rq.Dann setze man

K(A, b) = {x ∈ Rn : x ≥ 0, Ax = b} = {x ∈ Rn : x ≥ 0, x1a1 + · · ·+ xnan = b}

Offenbar ist K(A, b) konvex und der zulassige Bereich des LPs

min ctxbez. Ax = b

x ≥ 0

Wie 7.30 auch zeigt, kann die Menge der Extremalpunkte einer Menge leer oderaber auch unendlich sein. Die im Zusammenhang mit der Linearen Program-mierung wesentliche Eigenschaft von Extremalpunkten ist die Tatsache, dassexK(A, b) endlich sind und dass ein losbares LP auch eine Losung aus exK(A, b)besitzt. Daher ist es prinzipiell moglich, so ein LP in endlich vielen Schritten zulosen (indem man z.B. alle Extremalpunkte abklappert). Aber um das zu bewei-sen, muss man ein wenig arbeiten. Ich beginne mit einer Charakterisierung derExtremalpunkte von K(A,B).

Proposition 7.32 Es seien A = (a1, . . . , an) ∈ M(k, n,R) und b ∈ Rk. EinPunkt x ∈ K(A, b) ist genau dann ein Extremalpunkt von K(A, b), wenn dieVektoren (ai)xi 6=0 linear unabhangig sind.

106

Page 108: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beweis Es sei x = (x1, . . . , xn)t ∈ K(A, b). Ich nehme oBdA an, dass giltx1, . . . , xp 6= 0 und xp+1 = · · · = xn = 0, dann ist zu zeigen, dass genau dannx ∈ exK(A, b) gilt, wenn a1, . . . , ap linear unabhangig sind.

Es gilt x ∈ K(A, b) genau dann, wenn gilt

x1a1 + · · ·+ xnan = b

Es gelte zunachst x ∈ exK(A, b) und α1a1 + · · · + αpap = 0. Man wahle ε > 0und setze βi = εαi. Dann gilt β1a1 + · · · + βpap = 0. Weiterhin wahle man ε sodass gilt

|βi| ≤ min{x1, . . . , xp}

Setzt man noch βi = 0 fur i = p + 1, . . . , n und β = (β1, . . . , βn)t, dann giltx+ β ∈ K(A, b) und x− β ∈ K(A, b) und weiterhin x = 1

2(x+ β) + 1

2(x− β) und

daher x ∈ [x + β, x − β]. Da x ein Extremalpunkt ist, folgt β = 0 und darausα1 = · · · = αp = 0. Also sind die Vektoren a1, . . . , ap linear unabhangig.

Umgekehrt seien a1, . . . , ap linear unabhangig und es gelte x = αy+ (1−α)z mit0 < α < 1 und y, z ∈ K(A, b). Dann folgt

xi = αyi + (1− α)zi fur alle i

und daher fur alle i ≥ p+ 1:

0 = αyi + (1− α)zi

Wegen yi, zi ≥ 0 erhalt man dann yi = zi = 0 fur alle i ≥ p+ 1. Es folgt

y1a1 + · · ·+ ypap = y1a1 + · · ·+ ynan = b = z1a1 + · · ·+ znan = z1a1 + · · ·+ zpap

und daraus(y1 − z1)a1 + · · ·+ (yp − zp)ap = 0

Aus der linearen Unabhangigkeit von a1, . . . , ap folgt dann yi = zi fur alle i ≤ pund daraus y = z. Aus x = αy+ (1−α)z folgt dann unmittelbar, dass y = z = xgilt. �

Die Extremalpunkte von K(A, b) nennt man auch Ecken.

Korollar 7.33 K(A, b) besitzt nur endlich viele Extremalpunkte.

Beweis Fur alle x ∈ Rn sei

I(x) = {i : xi 6= 0}

Ich behaupte, dass fur alle x, y ∈ exK(A, b) gilt:

I(x) = I(y)⇒ x = y

107

Page 109: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beweis OBdA gelte I(x) = {1, . . . , p}, dann folgt

x1a1 + · · ·+ xpap = x1a1 + · · ·+ xnan = b = y1a1 + · · ·+ ynan = y1a1 + · · ·+ ypap

Nach 7.32 sind die Vektoren a1, . . . , ap linear unabhangig, also folgt xi = yi furalle i ≤ p und daher fur alle i. Da es nur endlich viele Teilmengen von {1, . . . , n}gibt, ist exK(A, b) also ebenfalls endlich. �

Proposition 7.34 Es seien A = (a1, . . . , an) ∈ M(k, n,R) und b ∈ Rk. WennK(A, b) nicht leer ist, besitzt die Menge einen Extremalpunkt.

Beweis Fur x ∈ Rn setze man wieder

I(x) = {i : xi 6= 0}

Man wahle ein x ∈ K(A, b), so dass I(x) minimal ist, d.h. es gibt kein y ∈ K(A, b),so dass gilt I(y) ⊂ I(x). Ich behaupte, dass x ∈ exK(A, b) gilt:

Falls I(x) = ∅ gilt, sind die Vektoren (xi)i∈I(x) offenbar linear unabhangig.

Also gelte I(x) 6= ∅ und oBdA gelte x1, . . . , xp 6= 0 und xp+1 = · · · = xn = 0.Nach 7.32 muss ich zeigen, dass a1, . . . , ap linear unabhangig sind: Also gelteα1a1 + · · · + αpap = 0 und αk > 0 fur ein k. Dann folgt εα1a1 + · · · + εαpap = 0fur alle ε und daraus

b = x1a1 + · · ·+ xnan = x1a1 + · · ·+ xpap = (x1 − εα1)a1 + · · ·+ (xp − εαp)ap

Setzt man nunε = min{xi

αi: αi > 0}

undy = (x1 − εα1, . . . , xp − εαp, 0, . . . , 0)

dann gilt y ∈ K(A, b) und I(y) ⊂ I(x), also ein Widerspruch. �

Interessanterweise kann man 7.34 benutzen, um zu beweisen, dass ein losbaresLP auch eine Losung besitzt, die ein Extremalpunkt des zulassigen Bereichs ist:

Satz 7.35 Wenn das LPmin ctxbez. Ax = b

x ≥ 0

losbar ist, gibt es einen Punkt x ∈ exK(A, b), der das LP lost.

Beweis Es seien x∗ ∈ K(A, b) eine Losung des LPs, dann setze man µ∗ = ctx∗.Es folgt

µ∗ ≤ ctx fur alle x ∈ K(A, b)

108

Page 110: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Man setze

A =

(Act

)und b =

(bµ∗

)Dann gilt

Ax∗ =

(Ax∗

ctx∗

)=

(bµ∗

)= b

und daher x∗ ∈ K(A, b). Also gilt K(A, b) 6= ∅. Nach 7.34 gibt es ein x0 ∈exK(A, b). Ich zeige, dass x0 ∈ exK(A, b) gilt: Es gelte x0 = αy + (1− α)z mit0 < α < 1 und y, z ∈ K(A, b). Dann folgt

µ∗ = ctx0 = αcty + (1− α)ctz

Wegen cty, ctz ∈ [µ∗,∞) und µ∗ ∈ ex[µ∗,∞) folgt cty = ctz = µ∗ und daraus

y, z ∈ K(A, b). Da x0 ein Extremalpunkt von K(A, b) ist, folgt y = z = x0. �

Damit haben wir das erste Ziel erreicht: Wenn ein LP losbar ist, gibt es einenExtremalpunkt, der das LP lost, und es gibt nur endlich viele Extremalpunkte.Diese bekommt man, indem man ein linear unabhangige Spaltenvektoren betrach-tet und ein lineares Gleichungssystem lost. Allerdings ist diese Prozedur in dieserForm nur fur kleine LPe praktikabel: Nehmen wir an, es gilt rg(A) = k, danngibt es maximal

(nk

)Extremalpunkte, und diese Zahl wird fur großes n und nicht

so großes k sehr groß. Daher ist es notwendig, ein Verfahren zu finden, dass dieseProzedur moglichst abkurzt.Das im Folgenden vorgestellte sogannte Simplexverfahren hat die merkwurdigeEigenschaft, dass es in der Regel einigermaßen schnell funktioniert, obgleich esim schlechtesten Fall alle Ecken abklappert (und damit naturlich extrem langsamist). Es ist einer dieser in der Numerik gelegentlich eintretende Fall, dass einVerfahren “in der Praxis” sehr gut funktioniert, obgleich man nicht genau weiß,warum. Ein typisches weiteres Verfahren dieses Typs ist das Newton-Verfahren.Zur Erklarung des Simplex-Verfahrens beginne ich mit einer

Vorbemerkung 7.36 Es seien wieder A = (a1, . . . , an) ∈ M(k, n,R), b ∈ Rk

und c ∈ Rn. Man betrachte das LP

min ctxbez. Ax = b

x ≥ 0

und es sei x ∈ exK(A, b), d.h. x sei eine Ecke. Nach 7.32 sind dann die Vektoren(ai)xi 6=0 linear unabhangig und man kann sie zu einer Basis des SpaltenraumsL({a1, . . . , an}) erganzen. Ich nehme an, {a1, . . . , ap} sei so eine Basis. Dann giltx ≥ 0, xi = 0 fur alle i ≥ p+ 1 und

x1a1 + · · ·+ xpap = b

109

Page 111: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Weiter gibt es fur alle j > p reelle Zahlen αj,i so dass gilt

aj =

p∑i=1

αj,iai

In einem Simplex-Schritt wird nun x durch eine andere Ecke x′ ersetzt, wobei nurein Basisvektor ausgetauscht wird, d.h. es gibt 1 ≤ s ≤ p < r ≤ n so dass giltx′s = 0 und x′i = 0 fur alle i ≥ p + 1, i 6= r. Um r und s zu finden betrachteman ein r ≥ p + 1. Weiter sei y = (y1, . . . , yn)t ∈ Rn und es gelte yi = 0 fur allei ≥ p+ 1, i 6= r. Dann gilt

n∑i=1

yiai =

p∑i=1

yiai + yrar =

p∑i=1

yiai + yr(

p∑i=1

αr,iai) =

p∑i=1

(yi + αr,iyr)ai

Nun gilt y ∈ K(A, b) genau dann, wenn gilt y ≥ 0 und∑n

i=1 yiai = b =∑p

i=1 xiai.Da {a1, . . . , ap} eine Basis ist, erhalt man

y ∈ K(A, b) ⇔ y ≥ 0 und xi = yi + αr,iyr fur alle i ≤ p

also

y ∈ K(A, b) ⇔ y ≥ 0 und yi = xi − αr,iyr fur alle i ≤ p

und daher

y ∈ K(A, b) ⇔ yr ≥ 0 und yi = xi − αr,iyr ≥ 0 fur alle i ≤ p

Weiterhin gilt:cty =

∑ni=1 ciyi

=∑p

i=1 ci(xi − αr,iyr) + cryr

=∑p

i=1 cixi −∑p

i=1 ciαr,iyr + cryr

= ctx− (∑p

i=1 ciαr,i − cr)yrMan setze δr =

∑pi=1 ciαr,i − cr, dann gibt es drei Falle:

1. Fall δr ≤ 0Dann kann man den Wert der Zielfunktion nicht verkleinern, indem man ar gegeneinen der Vektoren a1, . . . , ap austauscht.

2. Fall δr > 0, αr,i ≤ 0 fur alle 1 ≤ i ≤ pDann gilt yi = xi − αr,iyr ≥ 0 fur alle yr ≥ 0 und daher y ≥ 0 fur alle yr ≥ 0.Dann gilt aber

cty = ctx− δryr −→yr→∞ −∞

und die Zielfunktion ist auf K(A, b) nicht nach unten beschrankt. In diesem Fallist das LP nicht losbar.

110

Page 112: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

3. Fall δr > 0, αr,ν > 0 fur ein 1 ≤ ν ≤ pEs sei yr ≥ 0, dann gilt

y ≥ 0 ⇐⇒ yi ≥ 0 fur alle i ≤ p

⇐⇒ xi − αr,iyr ≥ 0 fur alle i ≤ p

⇐⇒ αr,iyr ≤ xi fur alle i ≤ p

⇐⇒ yr ≤xiαr,i

fur alle αr,i > 0

Setzt man alsoyr = min{ xi

αr,i: αr,i > 0}

dann gilt y ≥ 0. Schließlich wahle man ein 1 ≤ s ≤ p so dass gilt αr,s > 0 undyr = xs

αr,s. Man definiere nun x′ ∈ Rn durch:

x′i =

xi −

αr,iαr,s

xs 1 ≤ i ≤ p

xsαr,s

i = r

0 p+ 1 ≤ i ≤ n, i 6= r

dann gilt x′ ∈ K(A, b). Weiterhin gilt x′s = 0. Wegen ar =∑p

i=1 αr,iai undαr,s 6= 0, ist

{a1, . . . , as−1, ar, as+1, . . . , an}

nach dem Austauschlemma (LA , 4.15) eine Basis des Spaltenraums und es folgtx′ ∈ exK(A, b).

Schließlich gilt

ctx′ = ctx− δrxsαr,s

Also gilt ctx′ < ctx genau dann, wenn gilt xs > 0.

Also ist das LP im 2. Fall nicht losbar, im 3. Fall erhalt man in der Regel eineEcke mit kleinerem Funktionswert der Zielfunktion. Bleibt die Frage, was im 1.Fall los ist, wenn es also nicht moglich ist, dass durch einen Austauschschrittder Wert der Zielfunktion zumindest nicht vergroßert wird. Und das ist nun derspringende Punkt des Verfahrens: In diesem Fall ist x eine Losung des LPs:

Lemma 7.37 Mit den Bezeichnungen von 7.36 gelte δj ≤ 0 fur alle p+ 1 ≤ j ≤n, dann ist x eine Losung des LPs.

111

Page 113: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beweis Es sei y ∈ K(A, b), dann gilt∑pi=1 xiai = b =

∑ni=1 yiai =

∑pi=1 yiai +

∑ni=p+1 yi(

∑pj=1 αi,jaj)

=∑p

i=1 yiai +∑n

i=p+1

∑pj=1 yiαi,jaj

=∑p

i=1 yiai +∑n

j=p+1

∑pi=1 yjαj,iai

=∑p

i=1 yiai +∑p

i=1

∑nj=p+1 yjαj,iai

=∑p

i=1(yi +∑n

j=p+1 yjαj,i)ai

und daher fur alle 1 ≤ i ≤ p:

xi = yi +n∑

j=p+1

yjαj,i

also

yi = xi −n∑

j=p+1

yjαj,i

Dies ergibt:

cty =∑n

i=1 ciyi =∑p

i=1 ci(xi −∑n

j=p+1 yjαj,i) +∑n

i=p+1 ciyi

=∑p

i=1 cixi −∑n

j=p+1

∑pi=1 ciyjαj,i +

∑nj=p+1 cjyj

= ctx−∑n

j=p+1(∑p

i=1 ciαj,i − cj)yj= ctx−

∑nj=p+1 δjyj

≥ ctx �

Nun ist so so, dass in der Regel {a1, . . . , ap} nicht die zugehorige Basis zu einerEcke ist, sondern dass die Basis die Form{ai1 , . . . , aip} hat. Aber die entsprechen-den Modifikationen sind ganz einfach. Damit kann man einen Simplex-Schrittbeschreiben:

Proposition 7.38 (Simplex-Schritt) Es seien A = (a1, . . . , an) ∈M(k, n,R), b ∈Rk und c ∈ Rn. Weiter seien x ∈ exK(A, b) eine Ecke, {ai : i ∈ I} eine zugehori-ge Basis, d.h. es gelte xi = 0 fur alle i /∈ I und J = {1, . . . , n} \ I. Weiter gelte:

aj =∑i∈I

αj,iai fur alle j ∈ J

Fur alle j ∈ J setze man

δj =∑i∈I

ciαj,i − cj

Dann gelten:

112

Page 114: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

(i) Wenn δj ≤ 0 fur alle j ∈ J gilt, ist x eine Losung des LPs

min ctxbez. Ax = b

x ≥ 0

(ii) Es gebe ein j ∈ J mit δj > 0 und αj,i ≤ 0 fur alle i ∈ I, dann hat das LPkeine Losung.

(iii) Es gebe ein r ∈ J und j ∈ I mit δr > 0 und αr,j > 0, dann wahle man eins ∈ I mit αr,s > 0 so dass gilt

xsαr,s

= min{ xiαr,i

: i ∈ I, αr,i > 0}

Man definiere weiterhin x′ ∈ Rn durch

x′i =

xi − αr,i

αr,sxs i ∈ I

xsαr,s

i = r

0 i ∈ J, i 6= r

Dann gilt x′ ∈ exK(A, b), I ′ = {ai : i ∈ I, i 6= s}∪ {ar} ist eine zugehorige Basisund es gilt

ctx′ = ctx− δrxsαr,s

Zusatz Setzt man I ′ = (I \ {s}) ∪ {r}, J ′ = {1, . . . , n} \ I ′ und

a′j =∑i∈I′

α′j,iai fur alle j ∈ J ′

sowieδ′j =

∑i∈I′

ciα′j,i − cj

Dann gelten fur alle i ∈ I ′, j ∈ J ′:

α′s,r = 1αr,s

α′s,i = −αr,iαr,s

i 6= r

α′j,r =αj,sαr,s

j 6= s

α′j,i = αj,i − αj,sαr,s

αr,i j 6= s, i 6= r

sowie

δ′s = − δrαr,s

δ′j = δj − αj,sαr,s

δr j 6= s

113

Page 115: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beweis Fur alle j ∈ J gilt

aj =∑i∈I

αj,iai

also insbesonderear =

∑i∈I

αr,iai =∑

i∈I,i 6=s

αr,iai + αr,sas

und daher

as =1

αr,s(ar −

∑i∈I,i 6=s

αr,iai) = −∑

i∈I,i 6=s

αr,iαr,s

ai +1

αr,sar

Es folgt

α′s,i =

{1αr,s

i = r

−αr,iαr,s

i ∈ I ′, i 6= r

Weiterhin gilt fur alle j ∈ J :

aj =∑

i∈I αj,iai =∑

i∈I,i 6=s αj,iai + αj,sas

=∑

i∈I,i 6=s αj,iai −∑

i∈I,i 6=sαj,sαr,s

αr,iai +αj,sαr,s

ar

=∑

i∈I,i 6=s(αj,i −αj,sαr,s

αr,i)ai +αj,sαr,s

ar

Es folgt fur alle j ∈ J ′, j 6= s:

α′j,i =

{αj,i − αj,s

αr,sαr,i i 6= r

αj,sαr,s

i = r

Schließlich gilt fur alle j ∈ J ′, j 6= s:

δ′j =∑i∈I′

ciα′j,i − cj =

∑i∈I′,i 6=r

ciα′j,i + crα

′j,r − cj

=∑

i∈I′,i 6=r

ci(αj,i −αj,sαr,s

αr,i) + crαj,sαr,s− cj

=∑

i∈I,i 6=s

ciαj,i −∑

i∈I,i 6=s

ciαj,sαr,s

αr,i + crαj,sαr,s− cj

=∑i∈I

ciαj,i − csαj,s −∑i∈I

ciαj,sαr,s

αr,i + csαj,s + crαj,sαr,s− cj

=∑i∈I

ciαj,i − cj −αj,sαr,s

(∑i∈I

ciαr,i − cr)

= δj −αj,sαr,s

δr

114

Page 116: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

sowieδ′s =

∑i∈I′

ciα′s,i − cs = −

∑i∈I′,i 6=r

ciαr,iαr,s

+crαr,s− cs

= − 1

αr,s(∑

i∈I′,i 6=r

ciαr,i + csαr,s − cr)

= − 1

αr,s(∑i∈I

ciαr,i − cr)

= − 1

αr,sδr �

Definition 7.39 Die Hintereinanderausfuhrung mehrerer Simplex-Schritte nenntman das Simplex-Verfahren.

Die Ecken des zulassigen Bereichs eines LPs nennt man auch Basislosungen.

Eine schnelle Konsequenz aus 7.38 ist:

Korollar 7.40 Wenn beim Simplex-Verfahren keine ausgearteten Ecken entste-hen, d.h. wenn fur jede Iteration x die Menge {ai : xi 6= 0} eine Basis desSpaltenraums ist, bricht das Verfahren ab.

Beweis Wenn Fall (ii) in 7.38 nicht auftritt, wird nach 7.38 der Wert der Ziel-funktion in jedem Schritt verkleinert, wenn keine ausgearteten Ecken entstandensind. Da es nur endlich viele Ecken gibt, bricht das Verfahren ab. �

Die Tabellarisierung des Simplex-Verfahrens geschieht folgendermaßen: Es seien

I = {i1, . . . , ip} und J = {j1, . . . , jq}

Dann betrachtet man das folgende Tableau:

j1 j2 . . . r . . . jqi1 αj1,i1 αj2,i1 . . . αr,i1 · · · αjq ,i1 xi1i2 αj1,i2 αj2,i2 . . . αr,i2 · · · αjq ,i2 xi2...

......

......

......

...s αj1,2 αj2,s . . . αr,s . . . αjq ,s xs...

......

......

......

...ip αj1,ip αj2,ip . . . αr,ip · · · αjq ,ip xip

δj1 δj2 . . . δr . . . δjq ctx

Fall 1 Es gilt δjν ≤ 0 fur 1 ≤ ν ≤ q, dann ist x eine Losung.

Fall 2 Andernfalls wahle man ein r mit δr > 0.

Fall 2a Es gilt αr,iµ ≤ 0 fur alle 1 ≤ µ ≤ p. Dann hat das LP keine Losung.

115

Page 117: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Fall 2b Andernfalls erganze man das Tableau durch diexiµαr,µ

, fur die αr,µ > 0 gilt

und bestimme s so dass gilt

xsαr,s

= min{ xiαr,i

: αr,i > 0}

Man nennt dann αr,s das Pivot-Element, die Zeile, in der es steht, die Pivot-Zeile und die Spalte, in der es steht, die Pivot-Spalte. Das neue Tableau erhaltman dann folgendermaßen:

a) Man vertauscht r und s.

b) Man ersetzt αr,s durch1

αr,s.

c) Alle weiteren Elemente der Pivot-Zeile ersetzt man durch ihr1

αr,s- faches.

d) Alle weiteren Elemente der Pivot-Spalte ersetzt man durch ihr − 1

αr,s- faches.

e) Alle ubrigen Elemente ersetzt man nach der sogenannten Rechteck-Regel:

αr,s bc d

Man ersetzt d durch d− bc

αr,s.

Diese Regeln gelten auch fur die letzte Zeile und letzte Spalte des Tableaus.

Das Simplex-Verfahren eignet sich in der Regel nicht dafur, mit der Hand gerech-net zu werden. Sollte man es dennoch tun, gibt es einige kleinere Vereinfachungen:

Wenn man das neue Pivot-Element berechnet hat, erhalt man die weiteren neuenElemente der Pivot-Zeile, indem man die alten Elemente mit dem neuen Pivot-Element multipliziert und die weiteren neuen Elemente der Pivot-Spalte, indemman die alten Elemente mit dem inversen des neuen Pivot-Element multipliziert.(Das erspart die erneute Berechnung des Inversen des alten Pivot-Elements.) Manerhalt die weiteren Elemente einer beliebigen Zeile, indem man das neue Elementdieser Zeile in der Pivot-Spalte mit der alten Pivot-Zeile multipliziert und zu deralten Zeile hinzufugt. (Hier hilft nur Ausprobieren.)

Also ist das Verfahren selbst im Gegensatz zu seiner Herleitung ziemlich einfach!!

Beispiel 7.41 Man betrachte das LP

min −30x1 − 12x2bez. 3x1 + x2 ≤ 90

2x1 + x2 ≤ 754x1 + 3x2 ≤ 210x1, x2 ≥ 0

116

Page 118: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Durch die Einfuhrung von Schlupfvariablen erhalt man das LP:

min −30x1 − 12x2bez. 3x1 + x2 + x3 = 90

2x1 + x2 + x4 = 754x1 + 3x2 + x5 = 210x1, x2, x3, x4, x5 ≥ 0

Setzt man also

A =

3 1 1 0 02 1 0 1 04 3 0 0 1

und

b = (90, 75, 210)t und c = (−30,−12, 0, 0, 0)t

dann ist das folgende LP zu losen:

min ctxbez. Ax = b

x ≥ 0

Offenbar ist x = (0, 0, 90, 75, 210)t eine Basislosung des LPs und es gelten: I ={3, 4, 5}, J = {1, 2} und weiterhin

a1 = (3, 2, 4)t = 3a3 + 2a4 + 4a5

sowiea2 = (1, 1, 3)t = 1a3 + 1a4 + 3a5

undδ1 = c3α1,3 + c4α1,4 + c5α1,5 − c1 = 30δ2 = c3α2,3 + c4α2,4 + c5α2,5 − c2 = 12

und schließlichctx = 0

Damit erhalt man das folgende Ausgangstableau:

1 23 3 1 904 2 1 755 4 3 210

30 12 0

Man wahlt die erste Spalte als Pivot-Spalte und fugt in der letzten Spaltexjα1,j

fur α1,j > 0 hinzu:1 2

3 3 1 90 304 2 1 75 37.55 4 3 210 52.5

30 12 0

117

Page 119: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Also wird die 1. Zeile die Pivot-Zeile. Im folgenden Diagramm ist das Pivot-Element fett geschrieben:

1 23 3 1 90 304 2 1 75 37.55 4 3 210 52.5

30 12 0

Der Simplex-Schritt ergibt dann:

3 21 1/3 1/3 304 −2/3 1/3 155 −4/3 5/3 90−10 2 −900

Die einzige mogliche Pivot-Spalte ist die zweite, ich erganze sie:

3 21 1/3 1/3 30 904 −2/3 1/3 15 455 −4/3 5/3 90 54−10 2 −900

also wird die 2. Zeile die Pivot-Zeile:

3 21 1/3 1/3 304 −2/3 1/3 155 −4/3 5/3 90−10 2 −900

Der Simplex-Schritt ergibt:

3 41 1 −1 152 −2 3 455 2 −5 15−6 −6 −990

Also bricht das Simplex-Verfahren mit der Losung x = (15, 45, 0, 0, 15) des mo-difizierten LP ab und daher lost x = (15, 45) das LP und der minimale Wert derZielfunktion ist -990.

Um das Simplex-Verfahren starten zu konnen, braucht man eine Ecke des zulassi-gen Bereichs. Auch die kann man mit dem Simplex-Verfahren finden. Dabei gibtes einen einfachen Spezialfall, der vor allen Dingen in okomischen Anwendungenvorliegt.

118

Page 120: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Bemerkung 7.42

(i) Vorgegeben sei das LPmin ctxbez. Ax ≤ b

x ≥ 0

mit b ≥ 0.

Durch Einfuhrung von Schlupfvariablen erhalt man das LP

min ctxbez. Ax+ u = b

x, u ≥ 0

Setzt man nun

A = (A, I) =

a1,1 . . . a1,n 1 . . . 0...

......

...ak,1 . . . ak,n 0 . . . 1

= (a1, . . . , an, e1, . . . , ek)

undc = (c1, . . . , cn, 0 . . . , 0)t

dann ist das LP

min ct(xu

)bez. A

(xu

)= b(

xu

)≥(

00

)zu losen. Wegen b ≥ 0 ist b =

(0b

)ein fur dieses LP zulassiger Vektor und

(e1, . . . , ek) eine zugehorige Basis des Spaltenraums von A. Also gilt in der Tat b ∈exK(A, b) und daher ist b ein zulassiger Startvektor fur das Simplex-Verfahren(fur das zweite LP).

Die Bestimmung der weiteren Werte fur das Anfangstableau ist nun ganz einfach:Setzt man an+i = ei, dann erhalt man fur alle 1 ≤ j ≤ k:

aj = a1,je1 + · · · ak,jek = a1,jan+1 + · · · ak,jan+k

und daherαj,n+i = ai,j fur alle 1 ≤ j ≤ n, 1 ≤ i ≤ k

119

Page 121: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Weiterhin gilt

δj =k∑i=1

αj,k+ick+i − cj = −cj

sowiectb = 0

Also erhalt man als Anfangstableau:

1 . . . nn+ 1 a1,1 . . . a1,n b1

......

......

n+ k ak,1 . . . ak,n bk−c1 . . . −cn 0

=

1 . . . nn+ 1

... A bn+ k

−c 0

(ii) Im allgemeinen Fall muss man einen Eckpunkt von K(A, b) finden. Indem mandie Zeilen gegebenenfalls mit −1 multipliziert, kann man hier oBdA annehmen,dass b ≥ 0 gilt. Vorgegeben sei also das LP

(LP)min ctxbez. Ax = b

x ≥ 0

mit b ≥ 0. Man betrachte das LP

(LP’)min y1 + · · ·+ ykbez. Ax+ y = b

x ≥ 0

Setzt manA = (A, Ik)

dann hat dieses LP die Form

min y1 + · · ·+ yk

bez. A

(xy

)= b

x, y ≥ 0

Wenn (LP) einen zulassigen Vektor x0 besitzt, ist

(x00

)eine Losung von (LP’)

mit dem optimalen Wert der Zielfunktion 0. Wenn umgekehrt z∗ =

(x∗

y∗

)eine

Losung von (MP’) ist und y∗ 6= 0 gilt, hat (LP) keinen zulassigen Punkt. Wennandererseits y∗ = 0 gilt, ist x∗ eine Ecke von (LP), denn

(ai)x∗i 6=0 = (ai)z∗i 6=0

120

Page 122: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Weiterhin gilt

(0b

)∈ exK(A, b), d.h.

(0b

)ist eine Ecke von K(A, b), so dass

man das Simplex-Verfahren auf dieses LPs anwenden kann. Schließlich sei

(x0y0

)eine Ecke, die dieses LP lost, dann gilt y0 = 0 und x0 ∈ exK(A, b).

Die Frage der Losbarkeit eines Linearen Programms kann man mit 7.5 ohne Pro-bleme beantworten:

Satz 7.43 Es seien A ∈M(k, n,R), b ∈ Rk und c ∈ Rn. Vorgegeben sei das LP

min ctxbez. Ax ≤ b

x ≥ 0

Wenn der zulassige Bereich nicht leer ist und die Zielfunktion auf dem zulassigenBereich nach unten beschrankt ist, ist das LP losbar.

Korollar 7.44 Vorgegeben sei das LP

min ctxbez. Ax = b

x ≥ 0

Wenn der zulassige Bereich nicht leer ist und die Zielfunktion auf dem zulassigenBereich nach unten beschrankt ist, ist das LP losbar.

Beweis Man betrachte das LP:

min ctxbez. Ax ≤ b

−Ax ≤ −bx ≥ 0

Dann sind der zulassiger Bereich und die Ziefunktion beider LPs gleich, so dassdie Behauptung aus 7.43 folgt. �

Nachtrag Naturlich ist es mathematisch nicht befriedigend, dass das Simplex-Verfahren nicht in jedem Fall nach endlich vielen Schritten abbricht. Um diesesProblem zu vermeiden, gibt es eine Reihe von Zusatzregeln, die verhindern, dassdas Verfahren im Kreis lauft. Das folgende “lexikographische” Simplex-Verfahrenist so eins:

Zunachst definiert man auf Rn die sogenannte lexikographische Ordnung:

Fur alle x = (x1, . . . , xn)t, y = (y1, . . . , yn)t ∈ Rn definiere man x ≺ y genaudann, wenn es ein i0 ∈ {1, . . . n} so gibt, dass gilt

xi = yi fur alle i < i0 und xi0 < yi0

121

Page 123: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

sowiex � y ⇔ x = y oder x ≺ y

Man sieht leicht, dass � eine Ordnung auf Rn ist, die linear ist, d.h. fur je zweiElemente x, y ∈ Rn gilt x � y oder y � x.

Nun sei das LPmin ctxbez. Ax = b

x ≥ 0

vorgegeben und oBdA sei {a1, . . . , ap} eine Basis des Spaltenraums von A. Wennman nun mit dem Simplex-Verfahren eine Basis {ai : i ∈ I} konstruiert hat, gibtes reelle Zahlen αj,i, i ∈ I, j ∈ {1, . . . , n} so dass fur alle j ∈ {1, . . . , n} gilt

bj =∑i∈I

αj,ibi

Weiterhin setzt man fur alle j ∈ {1, . . . , n}:

δj =∑i∈I

αj,ici − cj

(Beachten Sie, dass das keine wesentlich Erweiterung der bisherigen Definitionist.) Da a1, . . . , ap linear unabhangig sind, sind die Vektoren der Form

1

αr,i(xi, α1,i, . . . , αp,i)

paarweise verschieden. Nun gelte wieder δr > 0 fur ein r /∈ I, dann gibt es alsoein eindeutig bestimmtes s so dass gilt αr,s > 0 und

1

αr,s(xs, α1,s, . . . , αp,s) ≺

1

αr,i(xi, α1,i, . . . , αp,i) fur alle i ∈ I \ {s} mit αr,i > 0

Nach der Zusatzregel wahlt man dieses s. Man beachte, dass die Zusatzregelnur in Kraft tritt, wenn es zwei mogliche Wahlen fur die Pivot-Spalte gibt.

Man kann zeigen, dass gilt

(ctx′, δ′1, . . . δ′p) ≺ (ctx, δ1, . . . δp)

d.h. dieser Vektor wird bei einem Simplex-Schritt immer (lexikographisch) echtverkleinert. Also kann keine Ecke zweimal beim Simplex-Verfahren auftauchen.Da es nur endlich viele Ecken gibt, bricht das Simplex-Verfahren mit Zusatzregelalso ab.

122

Page 124: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Kapitel 8

SQP-Verfahren

Es seien f : Rn → R und h : Rn → Rq stetig differenzierbare Abbildungen. Wennx∗ eine regulare Losung des MPs

min f(x)bez. h(x) = 0

ist, ist x∗ ein KTP, also gibt es ein µ∗ so dass gelten

(i) ∇f(x∗) +∑q

j=1 µj∇hj(x∗) = 0

(ii) h(x∗) = 0

Nun gilt ja ∇h(x) = (∇h1(x), . . . ,∇hq(x)) und daher ∇h(x)µ =∑µj∇hj(x)

und daher ist x∗ genau dann ein KTP, wenn es ein µ∗ so gibt, dass gelten

(i) ∇f(x∗) +∇h(x∗)µ∗ = 0

(ii) h(x∗) = 0

Betrachtet man wieder die Lagrangefunktion L definiert durch

L(x, µ) = f(x) +

q∑j=1

µjhj(x)

dann gilt fur alle x, µ:

∇xL(x, µ) = ∇f(x) +∑

µj∇hj(x) = ∇f(x) +∇h(x)µ

und∇µL(x, µ) = h(x)

Also ist x∗ genau dann ein KTP, wenn es ein µ∗ so gibt, dass gilt

∇L(x∗, µ∗) =

(∇xL(x∗, µ∗)∇µL(x∗, µ∗)

)= 0 .

123

Page 125: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Wenn nun L zweimal stetig differenzierbar ist, und H(x∗, µ∗) regular ist, kannman eine Nullstelle von ∇L mit dem Newton-Verfahren suchen.

Wenn also (xk, µk) bestimmt ist, berechnet man (xk+1, µk+1) nach 2.25 aus derFormel

HL(xk, µk)((xk+1, µk+1)− (xk, µk)) = −∇L(xk, µk)

Nun gilt fur alle (x, µ):

HL(x, µ) =

(HxL(x, µ) ∇h(x)

∇h(x)t 0

)Also gilt(

HxL(xk, µk) ∇h(xk)∇h(xk)

t 0

)(xk+1 − xkµk+1 − µk

)= −

(∇xL(xk, µk)

h(xk)

)

= −(∇f(xk) +∇h(xk)µk

h(xk)

)und daher

HxL(xk, µk)(xk+1 − xk) +∇h(xk)(µk+1 − µk) = −∇f(xk)−∇h(xk)µk

∇h(xk)t(xk+1 − xk) = −h(xk)

Dies ist nun aquivalent zu:

∇f(xk) +HxL(xk, µk)(xk+1 − xk) +∇h(xk)µk+1 = 0

h(xk) +∇h(xk)t(xk+1 − xk) = 0

Also ist (xk+1, µk+1) genau dann die Newton-Iteration von (xk, µk), wenn xk+1

ein KT-Punkt des quadratischen MPs

min 12(x− xk)tHxL(xk, µk)(x− xk) +∇f(xk)

t(x− xk)bez. h(xk) +∇h(xk)

t(x− xk) = 0

mit zugehorigem Lagrange-Multiplikator µk+1 ist. Also bietet sich das folgendeVerfahren an, dabei steht “SQP” fur “sequential quadratic programming”:

Verfahren 8.1 (lokales SQP-Verfahren) Es seien f : Rn → R und h : Rn → Rq

zweimal stetig differenzierbare Abbildungen. Man betrachte das MP

min f(x)bez. h(x) = 0

124

Page 126: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

(S1) Man wahle x0 ∈ Rn und µ0 ∈ Rq beliebig.

(S2) Es seien x0, . . . , xk, µ0, . . . , µk definiert. Dann sei xk+1 ein KT-Punkt desquadratischen MPs

(MPk)min 1

2(x− xk)tHxL(xk, µk)(x− xk) +∇f(xk)

t(x− xk)bez. ∇h(xk)

t(x− xk) + h(xk) = 0

und µk+1 ein zugehoriger Lagrange-Multiplikator.

Bemerkung 8.2 In vielen Varianten des lokalen SQP-Verfahrens ersetzt manHx(xk, µk) durch eine Matrix Hk, die “in der Nahe” von Hx(xk, µk) liegt. Dies istbesonders dann nutzlich, wenn Hx(xk, µk) schwer zu berechnen ist.

Lemma 8.3 Es seien f : Rn → R und h : Rn → Rq zweimal stetig differenzierbarund x∗ ein regularer KTP des MPs

min f(x)bez. h(x) = 0

mit Lagrange-Multiplikator µ∗. Weiterhin sei HxL(x∗, µ∗) positiv definit auf Z(x∗).Dann ist HL(x∗, µ∗) regular.

Beweis Es gilt

HL(x∗, µ∗) =

(HxL(x∗, µ∗) ∇h(x∗)

∇h(x∗)t 0

)

Aus HL(x∗, µ∗)

(uv

)= 0 folgt

HxL(x∗, µ∗)u+∇h(x∗)v = 0

∇h(x∗)tu = 0

Dies impliziert u ∈ Z(x∗) und aus

utHxL(x∗, µ∗)u = utHxL(x∗, µ∗)u+ ut∇h(x∗) = 0

folgt u = 0 und daraus v = 0, da x∗ regular ist. �

Proposition 8.4 Es seien f : Rn → R und h : Rn → Rq zweimal stetig differen-zierbare Abbildungen und x∗ ein regularer KTP des MPs

min f(x)bez. h(x) = 0

mit zugehorigem Lagrange-Multiplikator µ∗. Weiterhin seien HxL(x∗, µ∗) positivdefinit auf Z(x∗). Dann gibt es ein r > 0 so dass fur alle (x0, µ0) ∈ B((x∗, µ∗), r])gilt:

Das SQP-Verfahren mit dem Startpunkt (x0, µ0) ist wohldefiniert und konvergiertquadratisch gegen (x∗, µ∗).

125

Page 127: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beweis xk+1 ist genau dann ein KTP des MPs

min 12(x− xk)tHxL(xk, µk)(x− xk) +∇f(xk)

t(x− xk)bez. ∇h(xk)

t(x− xk) + h(xk) = 0

mit zugehorigem Lagrange-Multiplikator µk+1, wenn gilt

HL(xk, µk)

(xk+1 − xkµk+1

)=

(HxL(xk, µk) ∇h(xk)

∇h(xk)t 0

)(xk+1 − xkµk+1

)

=

(−∇f(xk)

−h(xk)

)Da HL(x∗, µ∗) nach 8.3 regular ist, gibt es ein r > 0 so dass HL(x, µ) fur alle(x, µ) ∈ B((x∗, µ∗), r] regular ist. Also hat das MP genau einen KTP und die-ser besitzt genau einen Lagrange-Multiplikator. Daher ist die SQP-Iteration dieNewton-Iteration. �

Das SQP-Verfahren erhalt man, indem man anstelle des MPs

min f(x)bez. h(x) = 0

das MP

min 12wtHxL(xk, µk)w +∇f(xk)

twbez. h(xk) +∇h(xk)

tw = 0

lost. Nun ist die Abbildung

w 7→ 1

2wtHxL(xk, µk)w +∇f(xk)

tw

die quadratische Approximation von f in xk und die Abbildung

w 7→ h(xk) +∇h(xk)tw

ist die lineare (affine) Approximation von h in xk. Diese Beobachtung erlaubt esnun, ein analoges Verfahren fur MPe mit Ungleichungsrestriktionen zu definieren,das wieder SQP-Verfahren heißt.

Verfahren 8.5 (lokales SQP-Verfahren) Es seien f : Rn → R, g : Rn → Rp undh : Rn → Rq zweimal stetig differenzierbare Abbildungen. Man betrachte das MP

min f(x)bez. g(x) ≤ 0

h(x) = 0

126

Page 128: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Das folgende Verfahren heißt auch lokales SQP-Verfahren:

(S1) Man wahle x0 ∈ Rn, λ0 ∈ Rp, λ0 ≥ 0 und µ0 ∈ Rq beliebig.

(S2) Es seien x0, . . . , xk und λ0, . . . , λk, µ0, . . . , µk definiert. Wenn xk ein KT-Punkt des MPs ist, bricht man ab. Sonst sei xk+1 ein KTP des quadratischenMPs

(MPk)min ∇f(xk)

t(x− xk) + 12(x− xk)tHxL(xk, λk, µk)(x− xk)

bez. g(xk) +∇g(xk)t(x− xk) ≤ 0

h(xk) +∇h(xk)t(x− xk) = 0

mit zugehorigen Lagrange-Multiplikator (λk+1, µk+1).

Der Beweis der Konvergenz des lokalen SQP-Verfahrens 8.5 soll wieder auf dasNewton-Verfahren zuruckgefuhrt werden. Dazu muss man KT-Punkte mit Hilfevon Gleichungen beschreiben. Das ist aber ziemlich einfach:

Bemerkung 8.6 Ein Punkt (x∗, λ∗, µ∗) ist genau dann ein KT-Punkt des MPs

min f(x)bez. g(x) ≤ 0

h(x) = 0

mit den Lagrange-Multiplikatoren λ∗ und µ∗, wenn gelten:

∇xL(x∗, λ∗, µ∗) = 0

min{−g(x∗), λ∗} = 0

h(x∗) = 0

Dabei setzt man

min{−g(x), λ} = (min{−gi(x), λi})i=1,...,p

Offenbar ist die Abbildung

(x, λ) 7→ min{−g(x), λ}

in der Regel nicht differenzierbar, so dass die Beschreibung in der in 8.6 gegebenenForm nicht immer anwendbar ist. Hier hilft:

Lemma 8.7 Es seien g : Rn → Rp (zweimal) stetig differenzierbar, x∗ ∈ Rn undλ∗ ∈ Rp. Man definiere ϕ : Rn → Rp durch

ϕ(x, λ) = min{−g(x), λ}

Es gelte gi(x∗)+λ∗i 6= 0 fur alle i. Dann gibt es ein r > 0 so dass ϕ in B((x∗, λ∗), r)

(zweimal) stetig differenzierbar ist.

127

Page 129: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Beweis Es sei i ∈ {1, . . . , p}, dann gilt

gi(x∗) + λ∗i > 0 oder gi(x

∗) + λ∗i < 0

Also gibt es ein ri > 0 so dass gilt

gi(x) + λi > 0 fur alle (x, λ) ∈ Bi = B(x∗, λ∗), ri)

odergi(x) + λi < 0 fur alle (x, λ) ∈ Bi = B(x∗, λ∗), ri)

Im ersten Fall folgt ϕi(x, λ) = λi fur alle (x, λ) ∈ Bi und im zweiten Fall folgtϕi(x, λ) = −gi(x) fur alle (x, λ) ∈ Bi. Setzt man noch r = min{r1, . . . , rp}, dannist ϕ in B((x∗, λ∗), r) (zweimal) stetig differenzierbar. �

Proposition 8.8 Es seien f : Rn → R, g : Rn → Rp und und h : Rn → Rq

zweimal stetig differenzierbare Abbildungen und x∗ ein regularer KTP des MPs

min f(x)bez. g(x) ≤ 0

h(x) = 0

mit zugehorigen Lagrange-Multiplikatoren λ∗, µ∗. Weiterhin gelten:

(i) gi(x∗) + λ∗i 6= 0 fur alle i

(ii) HxL(x∗, λ∗, µ∗) ist positiv definit auf

G(x∗, λ∗) = {d ∈ Z(x∗) : dt∇gi(x∗) = 0 fur alle i mit λ∗i > 0}

(iii) Falls (MPk) mehrerer KTPe besitzt, sei (xk+1, λk+1, µk+1) so gewahlt, dass‖(xk+1, λk+1, µk+1)− (xk, λk, µk)‖ minimal ist

Dann gibt es ein r > 0 so dass gilt: Fur alle (x0, λ0, µ0) ∈ B((x∗, λ∗, µ∗), r] ist dasVerfahren aus 8.5 wohldefiniert und die Folge (xk, λk, µk) konvergiert quadratischgegen (x∗, λ∗, µ∗).

Beweisidee Man definiere Φ : Rn × Rp × Rq → Rn × Rp × Rq durch

Φ(x, λ, µ) =

∇xL(x, λ, µ)min{−g(x), λ}

h(x)

Dann ist (x∗, λ∗, µ∗) eine Nullstelle von Φ und Φ ist nach 8.7 in einer Kugel um(x∗, λ∗, µ∗) stetig differenzierbar. Also reicht es zu zeigen, dass das lokale SQP-Verfahren in der Tat das Newton-Verfahren fur Φ ist.

Den Beweis findet man z.B. in Geiger/Kantzow “Theorie und Numerik restrin-gierter Optimierungsaufgaben”, 5.31.

Ich mochte die Vorlesung mit zwei Zitaten beenden, die mir besonders bemer-kenswert erscheinen:

128

Page 130: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

“Nonetheless, it must be appreciated that the existence of convergence and orderof convergence results for any algorithm is not a guarantee of good performancein practice. Not only do the results themselves fall short of a guarantee of accep-table behaviour, but also they neglect computer round-off errors which can becrucial. Often the results impose certain restrictions on the function which maynot be easy to verify, and in some cases (for example when it is assumed to bea convex function) these conditions may not be satisfied in practice. Thus thedevelopment of an optimization method also relies on experimentation. That isto say, the algorithm is shown to have acceptable behaviour on a variety of testfunctions which should be chosen to represent the different features which mightarise in general (insofar as this is possible). Clearly experimentation can nevergive a guarantee of good performanence in the sense of a mathematical proof.My experience however is that well-chosen experimental testing is often the mostreliable indication of good performance. The ideal of course is a good selection ofexperimental testing backed up by convergence and order of convergence proofs.”

(R. Fletcher: Practical methods of optimization)

“From the viewpoint of numerical processing of a minimization problem, thereexista a “solvable case” - the one of convex optimization problems, those wherethe domain is a closed convex subset of Rn and the objective function and theconstraints are convex functions. (...)In contrast to this, general-type nonconvex problems are too difficult for nume-rical solutions; the computational effort required to solve such a problem, bythe best numerical methods known, grows prohibitively fast with the dimensionsof the problem and the number of accuracy digits. Moreover, there are serioustheoretical reasons to conjecture that this is an intrinsic feature of nonconvexproblems rather than a drawback of the existing optimization techniques.”

(Ben-Tal, Nemirowski: Lectures on modern convex optimization)

Zu dem 2. Zitat ist naturlich anzumerken, dass es von Autoren eines Buches uberkonvexe Optimierung stammt.

129

Page 131: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Literatur

• Geiger, Carl und Kanzow, Christian: Theorie und Numerik restringierterOptimierungsaufgaben

• Geiger, Carl und Kanzow, Christian: Numerische Verfahren zur Losung un-restringierter Optimierungsaufgaben

• Mangasarian, Olvi L.: Nonlinear programming

• Blum, Eugen; Oettli, Werner: Mathematische Optimierung : Grundlagen u.Verfahren

• Collatz, Lothar; Wetterling, Wolfgang: Optimierungsaufgaben

• Fletcher, Roger: Practical methods of optimization

• Spellucci, Peter: Numerische Verfahren der nichtlinearen Optimierung

• Ben-Tal, Aharon; Nemirovskij, Arkadij S.: Lectures on modern convex op-timization : analysis, algorithms, and engineering applications

• Nesterov, Yurii und Nemirowskii, Arkadii: Interior-Point Polynomial Algo-rithms in Convex Programming

130

Page 132: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Korrekturen

Seite, Zeile Fehler Korrektur Datum

34, -2 γ ≤ γ + ε γ < γ + ε 02.11.201035, 1 3.18 3.19 02.11.201035, 2 3.17 3.18 02.11.201036, 11 Fur alle a ∈ A Fur alle A ∈ A 02.11.201036, 17 3.21 3.22 02.11.201036, -5 3.22 3.23 02.11.201036, -4 3.20 3.21 02.11.201037, 8 3.23 3.24 02.11.201038, 6 “(i) ⇒ (ii)” “(ii) ⇒ (i)” 02.11.201038, 9 3.20 3.21 02.11.201038, 14 (ii) (i) 02.11.201038, 15 “(i) ⇒ (ii)” “(ii) ⇒ (i)” 02.11.201054, 7 (xi − x∗) (xk − x∗) 02.11.201055, 4 dtbj btjd 02.11.201061, 13 (ii) (iii) 02.11.201067, 14

∑λifi(x) +

∑µjgj(x)

∑λigi(x) +

∑µjhj(x) 02.11.2010

71-73 Ich habe 6.6 hinter 6.3 gestellt. Damit ergibt sich dieUmbenennung: 6.6 –> 6.4, 6.4 –> 6.5, 6.5 –> 6.6Außerdem ist 6.7 jetzt ein Satz. 04.11.2010

12, -9 ...t

...α

05.11.201013, 7 αk = δjk αk = βjk 05.11.201023,8 f(x∗) x∗ 05.11.201040, -8 ≤ f(x) + (1− α)f(y) ≤ f(x) + α(f(y)− f(x)) 18.11.201040, -5 < f(x) + (1− α)f(y) < f(x) + α(f(y)− f(x)) 18.11.201075, 4-6 hier wurden λi und λ∗i sowie µj und µ∗j vertauscht 18.11.201085, -1 αr αk 22.11.201040, -3 x1, . . . , xn x1, . . . , xk 07.01.201145, 7 ϕ stetig diffbar ϕ zweimal stetig diffbar 07.01.201151, 8 auch x∗ x∗ auch 07.01.201158, 11 ∇hq(x∗) −∇hq(x∗) 07.01.201158, 17 ∇f(x∗)td ≥ 0 ∇f(x∗)tx ≥ 0 07.01.201158, -12 σj∇hi(x∗) σj∇hj(x∗) 07.01.201162, -11 hq(x0) ∇hq(x0) 07.01.2011

131

Page 133: HP Butzmann Vorlesung im HWS 10 - math.uni-mannheim.debutzmann/v.pdf · Kapitel 1 Einfuhrung De nition 1.1 Es seien D Rn, f: D!R eine Abbildung und K D. Der formale Ausdruck min f(x)

Seite, Zeile Fehler Korrektur Datum

72, -3 hj(x0) + α∇hj(x0)td ≤ 0 hj(x0) + α∇hj(x0)td = 0 07.01.201188, -15 xk = ... f(xk) = ... 07.01.201195, -1 ∇g(xk) ∇gi(xk) 07.01.2011101, 1 Cx = f Dx = f 07.01.2011110, 7 r ≥ p+ 1 i ≥ p+ 1 07.01.2011

119, 13 A

(xu

)≤ b A

(xu

)= b 07.01.2011

123, 7 ∇f(x∗) +∑q

j=1∇hj(x∗) ∇f(x∗) +∑q

j=1 µj∇hj(x∗) = 0 07.01.2011

123, -7∑q

j=1 hj(x)∑q

j=1 µjhj(x) 07.01.2011

123, -4 ∇h(x)µ ∇f(x) +∇h(x)µ 07.01.2011

Bei der Abarbeitung der Korrekturen ist mir aufgefallen, dass der Seitenumbruchin Kapitel 3 gegenber der ersten Version verandert worden ist. Fur den Seitenum-bruch ist naturlich in der Regel LaTeX verantwortlich, ich weiß nicht, was derAnlass fur diese Anderung war. Ich habe mich bemuht, in der aktuellen Versiondie ursprungliche Version wiederherzustellen.

132