Inhaltsverzeichnisanalysis.math.uni-kiel.de/sommerfeld/Analysis II SS 2013 vii.pdf · des Punktes...

28
Inhaltsverzeichnis 7 Differentialrechnung mehrerer Variablen 1 7.1 Partielle Ableitungen .............................. 1 7.2 Gemischte Ableitungen ............................. 3 7.3 ¨ Anderung der C 1 -Funktionen ......................... 4 7.4 Differenzierbarkeit ............................... 6 7.5 Stetigkeit und Differenzierbarkeit ....................... 7 7.6 Differentiationsregeln .............................. 8 7.7 Richtungsableitungen .............................. 10 7.8 Der Mittelwertsatz ............................... 11 7.9 Die Taylorsche Formel ............................. 12 7.10 Taylorreihen und Potenzreihen ......................... 14 7.11 Konstanten ................................... 16 7.12 Definite Matrizen ................................ 17 7.13 Extremalprobleme ............................... 17 7.14 Der Banachsche Fixpunktsatz ......................... 20 7.15 Implizite Funktionen .............................. 20 7.16 Der Hauptsatz ¨ uber implizite Funktionen ................... 21 7.17 Der Umkehrsatz ................................. 25 7.18 Extrema unter Nebenbedingungen ....................... 26 7 Differentialrechnung mehrerer Variablen Der Graph einer glatten Funktion f : R 2 R ist eine Fl¨ ache F in R 3 . In der N¨ ahe des Punktes P ∈F kann man die Fl¨ ache durch die Tangentialebene T im Punkt P ap- proximieren. Glatt bedeutet hierbei differenzierbar in einem zu pr¨ azisierenden Sinn. Wir untersuchen dazu zun¨ achst das ¨ Anderungsverhalten von Kurven γ , die in der Fl¨ ache F durch einen Punkt P in Richtung der Koordinatenachsen verlaufen. Das f¨ uhrt zum Begriff der partiellen Ableitungen. Verlaufen die Kurven in F oberhalb von Geraden durch P in Richtung v R 2 , kommt man analog zum Begriff der Richtungsableitung in Richtung v. Um zu sehen, wie man sinnvollerweise die Differenzierbarkeit f¨ ur Funktionen in Ba- nachr¨ aumen definieren sollte, untersuchen wir zun¨ achst als einfachsten Fall die partiellen Ableitungen von Funktionen f : R 2 R. 7.1 Partielle Ableitungen Sei f : A R 2 R stetig. f repr¨ asentiert ¨ uber seinen Graphen Γ := {(x 1 ,x 2 ,f (x 1 ,x 2 )) | (x 1 ,x 2 ) A} eine “Fl¨ ache” im R 3 . Ist das ¨ Anderungsverhalten von f in (x 1 ,x 2 ) beschreibbar durch partielle Ableitungen, d.h. durch das ¨ Anderungsverhalten entlang Tangenten in achsenparallelen Richtungen? Sei x =(x 1 ,...,x n ) R n . 1

Transcript of Inhaltsverzeichnisanalysis.math.uni-kiel.de/sommerfeld/Analysis II SS 2013 vii.pdf · des Punktes...

Inhaltsverzeichnis

7 Differentialrechnung mehrerer Variablen 17.1 Partielle Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17.2 Gemischte Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37.3 Anderung der C1-Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . 47.4 Differenzierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67.5 Stetigkeit und Differenzierbarkeit . . . . . . . . . . . . . . . . . . . . . . . 77.6 Differentiationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87.7 Richtungsableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107.8 Der Mittelwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117.9 Die Taylorsche Formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127.10 Taylorreihen und Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . 147.11 Konstanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167.12 Definite Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177.13 Extremalprobleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177.14 Der Banachsche Fixpunktsatz . . . . . . . . . . . . . . . . . . . . . . . . . 207.15 Implizite Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207.16 Der Hauptsatz uber implizite Funktionen . . . . . . . . . . . . . . . . . . . 217.17 Der Umkehrsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257.18 Extrema unter Nebenbedingungen . . . . . . . . . . . . . . . . . . . . . . . 26

7 Differentialrechnung mehrerer Variablen

Der Graph einer glatten Funktion f : R2 → R ist eine Flache F in R3. In der Nahedes Punktes P ∈ F kann man die Flache durch die Tangentialebene T im Punkt P ap-proximieren. Glatt bedeutet hierbei differenzierbar in einem zu prazisierenden Sinn. Wiruntersuchen dazu zunachst das Anderungsverhalten von Kurven γ, die in der Flache Fdurch einen Punkt P in Richtung der Koordinatenachsen verlaufen. Das fuhrt zum Begriffder partiellen Ableitungen. Verlaufen die Kurven in F oberhalb von Geraden durch P inRichtung v ∈ R2, kommt man analog zum Begriff der Richtungsableitung in Richtungv. Um zu sehen, wie man sinnvollerweise die Differenzierbarkeit fur Funktionen in Ba-nachraumen definieren sollte, untersuchen wir zunachst als einfachsten Fall die partiellenAbleitungen von Funktionen f : R2 → R.

7.1 Partielle Ableitungen

Sei f : A ⊆ R2 → R stetig. f reprasentiert uber seinen GraphenΓ := (x1, x2, f(x1, x2)) | (x1, x2) ∈ A eine “Flache” im R3.

Ist das Anderungsverhalten von f in (x1, x2) beschreibbar durch partielle Ableitungen,d.h. durch das Anderungsverhalten entlang Tangenten in achsenparallelen Richtungen?Sei x = (x1, . . . , xn) ∈ Rn.

1

Definition. Sei A ⊆ Rn offen und x ∈ A. Eine Abbildung f : A → R ist in x partiellnach xj differenzierbar (j ∈ 1, . . . , n) :⇔ ∂f

∂xj(x) := lim

h→0

f(x1,...,xj+h,...,xn)−f(x1,...,xn)h

existiert. Die Schreibweise dafur ist auch ∂f(x)∂xj

= Djf(x) = fxj(x) . (Fur n = 2 oder 3

werden die Variablen oft mit x, y, z bezeichnet.) Ist ∂f∂xj

: A → R wieder partiell nach

xk differenzierbar, etc., bezeichnen wir diese hoheren Ableitungen mit ∂2f∂xk∂xj

(x) =

DkDjf(x) etc.

Somit: f ist in x partiell nach xj differenzierbar ⇔ (xj 7→ f(x1, . . . , xj−1, xj, xi+1 . . . xn)ist differenzierbar.) Man berechnet also eine partielle Ableitung ∂f

∂xj, indem man alle

anderen Variablen x0, . . . , xj−1, xj+1 . . . xn als Konstanten behandelt (also festhalt) undnach xj differenziert.

Beispiele.

1) f : R2 → R , f(x, y) = xey + sin(xy) .∂f∂x

(x, y) = ey + cos(xy) · y (y fest), ∂f∂y

(x, y) = xey + cos(xy) x (x fest).

2) f : R3 → R , f(x, y, z) = x2 + xy2 + 2z3 .∂f∂x

(x, y, z) = 2x+ y2 , ∂f∂y

(x, y, z) = 2xy , ∂f∂z

(x, y, z) = 6z2 .

3) f : Rn − 0 → R, f(x) = 1r, r =

√x21 + · · ·+ x2n = ||x||2 , x 6= 0 .

∂f∂xj

= −xj/r3 , j = 1 . . . n .

Ubung: ∂rα

∂xj.

4) f wie in 2). ∂2f∂y∂x

= 2y , ∂2f∂x∂y

= 2y .

∂2f∂x2

= 2 , ∂2f∂y2

= 2x , ∂2f∂z2

= 12z , ∂2f∂z∂y

= ∂2f∂y∂z

= 0 .

5) f wie in 3).

∂2f∂x2j

=3x2jr5− 1

r3: n = 3⇒

3∑j=1

∂2f∂x2j

= 3r3− 3

r3= 0 (x 6= 0).

2

7.2 Gemischte Ableitungen

In Beispiel 4) ergab sich ∂2f∂x∂y

= ∂2f∂y∂x

. Gilt dies allgemein?

Beispiel:

f : R2 → R , f(x, y) =

xy x2−y2

x2+y2(x, y) 6= 0

0 (x, y) = 0

.

Dann gilt

∂f

∂y(x, 0) =

x x 6= 0

limk→0

f(0,k)k

= 0 x = 0

,

∂f

∂x(0, y) =

−y y 6= 0

limh→0

f(h,0)h

= 0 y = 0

.

Diese beiden Funktionen haben stetige partielle Ableitungen, z.B. hat man|∂f∂x

(0, y)| ≤ 6√y2 + y2 . Es ergibt sich ∂f

∂x∂y(0, 0) = 1 6= −1 = ∂f

∂y∂x(0, 0) : Beide gemischten

partiellen zweiten Ableitungen sind unstetig in (0, 0) .

Definition. Sei Ω ⊆ Rn offen, ` ∈ N . Wir definieren die C`-Funktionen auf Ω durchC`(Ω) := f : Ω→ R | Dj` · · ·Dj1f : Ω→ R existiert fur alle ji ∈ 1, · · · , n und ist stetig.

Satz (Schwarz). Sei f ∈ C`(Ω). Dann sind alle partiellen Ableitungen der Ordnung ≤ `unabhangig von der Differentiationsreihenfolge.

Beweis. Durch Induktion kann man o.B.d.A. annehmen, dass ` = 2 ist. Dann sind nur 2Variablen xj, xk veranderlich, die anderen fest. Also nehmen wir zur Vereinfachung derSchreibweise o.B.d.A. n = 2 an. Sei also f : Ω ⊆ R2 → R in C2(Ω) . Zu zeigen:∂2f∂y∂x

= ∂2f∂x∂y

. Sei (x0, y0) ∈ Ω und ε > 0 so klein, dass fur alle h, k ∈ R mit |h|, |k| < ε

gilt: (x0+h, y0+k) ∈ Ω . Die Funktion ϕ : [x0, x0+h]→ R, ϕ(x) := f(x, y0+k)−f(x, y0)ist differenzierbar nach x . Nach dem Mittelwertsatz existiert x1 ∈ (x0, x0 + h) mitϕ(x0 + h)− ϕ(x0) = h ϕ′(x1) . Definiere F : (0, ε)2 → R ,

F (h, k) := f(x0 + h, y0 + k)− f(x0 + h, y0)− f(x0, y0 + k) + f(x0, y0) .

Dann ist F (h, k) = ϕ(x0 + h)− ϕ(x0) = h ϕ′(x1) = h[∂f∂x

(x1, y0 + k)− ∂f∂x

(x1, y0)]

. Einezweite Anwendung des Mittelwertsatzes ergibt einen Punkt y1 ∈ (y0, y0 + k) mit

F (h, k) = hk∂2f

∂y∂x(x1, y1) .

Analog definieren wir ψ : [y0, y0 + k]→ R, ψ(y) := f(x0 + h, y)− f(x0, y) . Ein ahnlichesArgument zeigt:

F (h, k) = ψ(y0 + k)− ψ(y0) = hk∂2f

∂x∂y(x2, y2)

mit gewissen Punkten x2 ∈ (x0, x0 + h), y2 ∈ (y0, y0 + k) . Da hk 6= 0 ist, folgt

3

∂2f

∂y∂x(x1, y1) =

∂2f

∂x∂y(x2, y2) .

Die Stetigkeit beider gemischten partiellen Abbildungen liefert fur |h|, |k| → 0, d.h. fur

(x1, y1)→ (x0, y0)← (x2, y2) , dass ∂2f∂y∂x

(x0, y0) = ∂2f∂x∂y

(x0, y0) gilt. 2

7.3 Anderung der C1-Funktionen

Eine Funktion, deren partielle Ableitungen existieren, ist i.a. nicht einmal stetig: Etwa:

f(x, y) =

x y = 0y x = 0

beliebig sonst

erfullt ∂f∂x

(0) = ∂f∂y

(0) = 1 , aber f ist unstetig!

Die partiellen Ableitungen von f : R2 → R in (x0, y0) machen Aussagen uber die Anderungvon f(x0 + h, y0) − f(x0, y0) bzw. f(x0, y0 + k) − f(x0, y0) . I.a. enthalten sie aber keineInformation uber “Gesamtanderung”

f(x0 + h, y0 + k)− f(x0, y0) .

Dafur benotigt man wieder die Stetigkeit von ∂f∂x, ∂f∂y

in x0 (d.h. f ∈ C1):

Satz 1. Sei Ω ⊆ Rn offen und f ∈ C1(Ω), x ∈ Ω . Dann ist f stetig und fur hinreichendkleines ε > 0 und h ∈ Rn mit ||h||2 < ε gilt:

f(x+ h)− f(x) =n∑i=1

∂f(x)

∂xjhj + r(h) mit lim

h→0

r(h)

||h||2= 0 .

Beweis. Wahle ε > 0 so klein, dass aus ||y − x||2 < ε folgt: y ∈ Ω . Fur h = (h1, . . . , hn)mit ||h||2 < ε setzen wir (mit ei = i-ter Einheitsvektor)

h(j) =

j∑i=1

hiei (j = 1, . . . , n) ; h(0) = 0, h(n) = h .

Wegen ||h||2 < ε ist ||h(j)||2 < ε . Nach dem Mittelwertsatz gibt es Punkte x(j) auf derStrecke von x + h(j−1) nach x + h(j) (bei alleiniger Anderung in der Koordinate xj), sodass

f(x+ h)− f(x) =n∑j=1

[f(x+ h(j))− f(x+ h(j−1))]

=n∑j=1

hj ·∂f

∂xj(x(j)) =

n∑j=1

∂f

∂xj(x) hj + r′(h)

mit r(h) :=n∑j=1

(∂f∂xj

(x(j))− ∂f∂xj

(x))· hj gilt. Eine Anwendung der Ungleichung von

Cauchy-Schwarz ergibt:

|r(h)|||h||2

(n∑j=1

∣∣∣∣ ∂f∂xj (x(j))− ∂f

∂xj(x)

∣∣∣∣2)1/2

.

4

Nach Voraussetzung ist ∂f∂xj

stetig in x . Fur h→ 0 geht x(j) → x , somit geht die Summe

gegen Null, d.h. limh→0

r(h)||h||2 = 0 . Speziell ist f stetig. 2

Bemerkung. Man nennt ∇f : Ω → Rn, ∇f(x) =(∂f∂x1

(x), . . . , ∂f∂xn

(x))

auch den Gra-

dienten von f in x . Damit hat man

f(x+ h)− f(x) = ∇f(x) · h+ r(h) .

Allgemeiner betrachten wir jetzt Abbildungen f : Ω ⊆ Rn → Rm (z.B. ein raumliches

Feld). Dann ist f =

f1...fm

mit fj : Ω→ R .

Definition. Seien `, n,m ∈ N und Ω ⊆ Rn offen. Sei f : Ω → Rm . Dann ist f ∈C`(Ω,Rm) :⇔ Alle partiellen Ableitungen bis zur `-ten Ordnung existieren und sind stetig.In Koordinatenschreibweise ist

∂f

∂xj:=

t(∂f1∂xj

, . . . ,∂fm∂xj

)etc. Man nennt

f ′(x0) = Df(x0) =df(x0)

dx=

∂f1∂x1

· · · ∂f1∂xn

......

∂fm∂x1

· · · ∂fm∂xn

(x0)

die Funktionalmatrix oder Jacobimatrix von f in x0 .

Satz 2. Sei Ω ⊆ Rn offen und f : Ω→ Rm in C1(Ω,Rm) . Sei x0 ∈ Ω . Dann gilt fur alleh ∈ Rn − 0 mit kleiner Norm

f(x+ h)− f(x) = Df(x) h+ r(h)

mit r(h) ∈ Rm und limh→0

r(h)||h|| = 0 , wobei der Limes im Rm gebildet wird.

Beweis. Fur j = 1, . . . ,m gilt nach Satz 1

fj(x+ h)− fj(x) = ∇fj(x) · h+ rj(h) , limh→0

rj(h)

||h||= 0 (in R) .

Fasst man dies fur alle j = 1, . . . ,m zusammen, ergibt sich die Behauptung.In Matrixschreibweise ist:Df(x)·h = t(∇f1(x)·h, . . . ,∇fm(x)·h) , r(h) = t(r1(h), . . . , rm(h)) .

2

5

7.4 Differenzierbarkeit

Seien f : R→ R bzw. g : Rn → Rm C1-Funktionen. Dann gilt

f(y0 + k)− f(k) = f ′(y0)k +R(k) , g(x0 + h)− g(x0) = g′(x0)h+ r(h)

mit f ′(y0) ∈ R , g′(x0) ∈ Rm×n (Matrix oder lineare Abbildung: Rn → Rm), k ∈ R ,

h ∈ Rn , limk→0

R(k)k

= 0 , limh→0

r(h)||h|| = 0. Dies fuhrt zu der folgenden Definition:

Definition. Seien X, Y Banachraume und Ω ⊆ X offen, ferner x0 ∈ Ω. Eine Abbildungf : Ω → Y heißt differenzierbar in x0 :⇔ . Es gibt eine stetige lineare AbbildungT : X → Y mit: ∃ε > 0 ∀h ∈ X , ||h||X < ε

f(x0 + h)− f(x0) = Th+ r(h) mit limh→0

r(h)

||h||= 0 (in Y ) . (∗)

Satz. Sei f : Ω ⊆ Rn → Rm differenzierbar in x0 . Dann ist T eindeutig bestimmt,

und jede Koordinatenfunktion fi von f , f =

f1...fm

, ist partiell differenzierbar nach allen

xj (j = 1, . . . ,m) und T ist die Jacobi-Matrix T =

∂f1∂x1

. . . ∂f1∂xn

∂fm∂x1

. . . ∂fm∂xn

(x0) , die automa-

tisch stetig ist.

Beweis. Mit T = (tij)i=1,··· ,m, j=1,··· ,n ist

fi(x0 + h)− fi(x0) =n∑j=1

tijhj + ri(h) , limh→0

ri(h)

||h||= 0 .

Wahle h = hkek ∈ Rn . Dann besitzt

fi(x0 + h)− fi(x0) = tikhk + ri(h) ,

fi(x0 + h)− fi(x0)hk

= tik +ri(h)

hk

einen Limes fur h→ 0, d.h. fur hk → 0 , und es ist tik = ∂fi∂xk

(x0) . Also ist fi partiell nachxk differenzierbar und tik ist damit eindeutig bestimmt. 2

Vergleicht man den Satz mit Satz 2 aus 7.3, rechtfertigt dies die folgende Bezeichnung.

Definition. f : Ω ⊆ X → Y sei differenzierbar in x0 ∈ Ω . Dann heißt die stetige lineareAbbildung T aus (∗) die (totale) Ableitung von f in x0 und wird mitDf(x0) = f ′(x0) = df

dx(x0) bezeichnet. Im Fall X = Rn, Y = Rm ergibt sich gerade die

Funktional- oder Jacobimatrix (in Matrixdarstellung).

6

Bemerkungen:

1) Der Begriff ist im allgemeinen von Normen auf X und Y abhangig. Im FalleX = Rn, Y = Rm jedoch nicht, da alle Normen auf X bzw. auf Y aquivalent sind.

2) Die Ableitung von f : Ω ⊆ X → Y ist also eine Abbildung

Df : Ω→ L(X, Y ) .

3) Y = R : Df(x0) : Rn → R wird durch das Skalarprodukt mit dem Gradientenvon f in x0 gegeben, d.h. Df(x0)(v) =< ∇f(x0), v >. Der Gradient spannt denTangentialraum in f(x0) auf.

7.5 Stetigkeit und Differenzierbarkeit

Definition. Seien X, Y Banachraume, Ω ⊆ X offen und x0 ∈ Ω . Eine Abbildungf : Ω→ Y heißt stetig differenzierbar in Ω: ⇔Df : Ω→ L(X, Y ) existiert und ist stetig in Ω . Wir schreiben f ∈ C1(Ω, Y ) .Dies stimmt mit Definition 7.2 uberein, da gilt:

Satz. (a) f ist differenzierbar (in Ω) ⇒ f ist stetig (in Ω).

(b) Fur X = Rn, Y = Rm gilt: f ist stetig differenzierbar in Ω ⇔ f ∈ C1(Ω,Rm) .

Beweis.

(a) Fur h→ 0 geht f(x0 + h)− f(x0) = Th+ r(h) gegen Null. Da Konvergenz in Rnm

koordinatenweise Konvergenz bedeutet, gilt mit 7.3, Satz 2, 7.4 und 7.2:Df : Ω→ L(Rn,Rm) ' Rn×m ist stetig in x0 fur alle x0 ∈ Ω⇔

∀j = 1, . . . , n, i = 1, . . . ,m∂fi∂xj

= (Df)ij ist stetig in x0 fur alle x0 ∈ Ω

⇔ f ∈ C1(Ω,Rm) .

Wir haben folgende Implikationen:

f ist stetig differenzierbar 6⇐⇒f ist differenzierbar

6⇐⇒ Alle 1. partiellen Ableitungen von f existieren

6⇐⇒ f ist stetig

Ubungen:

1) Eigenschaften durch Beispiele abgrenzen.

2) f : Ω ⊆ Rn → Rm ist differenzierbar in x0 ⇐⇒ f1, . . . , fm differenzierbar in x0 .

7

Beispiele:

a) Fur konstante Funktionen f : Rn → Rm , x 7→ c ∈ Rm gilt: Df(x) = 0, x ∈ Rn .

b) Sei f : X → Y stetig und linear, d.h. f(x) = T (x) mit T ∈ L(X, Y ) . Da

f(x0 + h)− f(x0) = T (x0 + h)− T (x0) = T (h) = T (h) + 0 , r(h) = 0 ,

folgt f ′(x0) = T = f fur alle x0 ∈ X . Somit ist f ′(x0) = F : X → Y , lineareAbbildungen reproduzieren sich selbst bei Ableitung in einem festen Punkt.

c) Sei f : (R+)2 → R2, f(x, y) =

(x+√y√

x+ y

). f ist differenzierbar mit

f ′(x, y) = Df(x, y) =

(1 1

2√y

12√x

1

).

d) f : Rn → R heißt homogen vom Grad α :⇔ f(tx) = tαf(x) ; x ∈ Rn, t ∈ R+ .Ist f differenzierbar, gilt Df(x)x = αf(x) .

e) Die Polarkoordinaten-Abbildung f : (0,∞)×(0, 2π)→ R2, (x, y) 7→ (r cosϕ, r sinϕ)

hat die Jacobi-Matrix J =

(cosϕ −r sinϕsinϕ r cosϕ

)mit det (J) = r 6= 0 fur (x, y) 6= 0 .

7.6 Differentiationsregeln

Satz 1. Seien X, Y Banachraume und Ω ⊆ X offen. Seien f, g : Ω → Y differenzierbarin x0 ∈ Ω . Dann gilt:

(a) f + g, αf sind differenzierbar in x0 mit (f + g)′(x0) = f ′(x0) + g′(x0) ,(αf)′(x0) = αf ′(x0) .

(b) Fur Y = R ist f · g differenzierbar in x0 mit (fg)′(x0) = f(x0)g′(x0) + g(x0)f

′(x0) .

(Als Elemente von X∗ = L(X,R) ; f(x0), g(x0) ∈ R .) Analog fur den Quotientenf/g, g(x0) 6= 0 .

Beweis.

(a) f(x0+h)−f(x0)=f ′(x0)h+r1(h)g(x0+h)−g(x0)=g′(x0)g+r2(h)

ri(h)||h|| → 0 (h→ 0, i = 1, 2)

⇒ (f + g)(x0 +h)− (f + g)(x0) = (f ′(x0) + g′(x0))(h) + r(h), r(h) := r1(h) + r2(h) .

Also existiert (f + g)′(x0) und ist gleich f ′(x0) + g′(x0) .

(b) Ubung.

2

8

Satz 2. (Kettenregel). Seien X, Y, Z Banachraume, F ⊆ X offen, G ⊆ Y offen undf : F → Y mit f(F ) ⊆ G, g : G → Z . Ist dann f in x0 ∈ F differenzierbar, g iny0 := f(x0) ∈ G differenzierbar, ist g f : F → Z in x0 differenzierbar mit

(g f)′(x0) = g′(y0) f ′(x0) .

Bemerkung: Letzteres ist als Operatorenhintereinanderschaltung zu interpretieren mit

f ′(x0) ∈ L(X, Y ), g′(y0) ∈ L(Y, Z) .

Beweis: Fur kleine ε > 0 und alle h ∈ X mit ||h||X < ε existiert nach Voraussetzung(g f)(x0 + h) . Da g differenzierbar ist, gilt

(g f)(x0 + h)− (g f)(x0) = g(f(x0 + h))− g(f(x0))

= g′(f(x0))[f(x0 + h)− f(x0)] + r1(f(x0 + h)− f(x0))

mit limk→0

r1(k)||k|| = 0 in Y . Setze %(k) := r1(k)

||k|| , k 6= 0 . Also: limk→0

%(k) = 0 in Y . Da f

differenzierbar ist, gilt f(x0 + h)− f(x0) = f ′(x0) · h+ r2(h) mit limh→0

r2(h)||h|| = 0 in X . Es

folgt:

(g f)(x0 + h)− (g f)(x0) = g′(f(x0))[f′(x0)h+ r2(h)] + ||f ′(x0)h+ r2(h)|| %(f ′(x0)h+ r2(h))

= g′(f(x0)) f ′(x0) h+ r(h) ,

wobeir(h) := g′(f(x0)) r2(h) + ||f ′(x0)h+ r2(h)|| %(f ′(x0)h+ r2(h))

d.h. r(h)||h|| −→h→0

0 , da wegen der Stetigkeit der linearen Abbildungen g′(f(x0)) und f ′(x0)

gilt:

g′(f(x0)

r2(h)

||h||→0

→ 0, %(f ′(x0)h︸ ︷︷ ︸→0

+ r2(h)︸ ︷︷ ︸→0

)→ 0 ,

und ||f ′(x0) h||h||+

r2(h)||h|| || ≤ ||f

′(x0)||+1 beschrankt ist, da fur kleine h gilt ||r2(h)|| ≤ ||h|| .Es folgt also

(g f)′(x0) = g′(y0) f ′(x0) .

2

Spezialfalle im Rn:

Seien X = Rn, Y = Rm, Z = R`, f =

f1...fm

, g =

g1...g`

wie in Satz 2 mit F ⊆ X,

G ⊆ Y . Bezeichnen xj die Variablen in X und yk die Variablen in Y , lasst sich dieKettenregel in Matrixschreibweise so formulieren:

9

(g f)(x) =

g1(f1(x), . . . , fm(x))...

g`(f1(x), . . . , fm(x))

=

(g f)1(x)...

(g f)`(x)

,

D(g f)(x0) =

∂(gf)1∂x1

. . . ∂(gf)1∂xn

......

∂(gf)`∂x1

. . . ∂(gf)`∂xn

(x0) =

∂g1∂y1

. . . ∂g1∂ym

......

∂g`∂y1

. . . ∂g`∂ym

(f(x0))

∂f1∂x1

. . . ∂f1∂xn

......

∂fm∂x1

. . . ∂fn∂xn

(x0) .

Das bedeutet

∂(g f)i∂xj

(x0) =m∑k=1

∂gi∂yk

(y0)∂fk∂xj

(x0) fur i = 1, . . . , `, j = 1, . . . , n0 . (1)

Speziell ist der Fall ` = 1 wichtig, g f : Rn → R . Dann ist

∂(g f)

∂xj(x0) =

m∑k=1

∂g

∂yk(y0)

∂fk∂xj

(x0) .

Fur n = m = ` erhalt man quadratische Matrizen; die Determinante der Jacobi-Matrixwird sich spater als wichtig herausstellen; man hat dann

det (D(g f)(x0)) = det (Dg(y0)) · det (Df(x0)) . (2)

Beispiel: Sei f : (R+)2 → (R+)2 , f1(x1, x2) = x1x2, f2(x1, x2) =√x1/x2

g : R2 − 0 → R , g(y1, y2) = ln(y21 + y22) .Dann ist (g f)(x1, x2) = ln(x21x

22 + x1/x

22) =: h(x1, x2) ,

∂h

∂x1=

∂g

∂y1

∂f1∂x1

+∂g

∂y2

∂f2∂x1

=2y1

y21 + y22· x2 +

2y2y21 + y22

· 1

2√x1x2

∣∣∣∣yi=fi(x1,x2)

=2x1x

42 + 1

x21x42 + x1

(dies ist naturlich auch direkt berechenbar!) ,

∂h

∂x2=

∂g

∂y1

∂f1∂x2

+∂g

∂y2

∂f2∂x2

=2y1

y21 + y22· x1 +

2y2y21 + y22

·(−√x1x22

)∣∣∣∣yi=fi(x1,x2)

=2(x21x

32 − x1/x2)

x21x42 + x1

.

7.7 Richtungsableitungen

Man interessiert sich nicht nur fur Funktionsanderungen in koordinatenparallelen Richtun-gen xj , sondern in beliebigen Richtungen. Das fuhrt zum Begriff der Richtungsableitung,der die partiellen Ableitungen verallgemeinert.

Definition. Sei x0 ∈ Ω ⊆ Rn offen, f : Ω → Rm . Sei v ∈ Rn, ||v||2 = 1 . Man nennt∂f∂v

(x0) = limt→0

f(x0+tv)−f(x0)t

die (Richtungs-)Ableitung von f in x0 in Richtung v,

falls der Limes existiert.

10

Offenbar ist ∂f∂xj

= ∂f∂ej

. O.B.d.A. sei m = 1, sonst wende man den folgenden Satz auf die

Koordinatenfunktionen an.

Satz. Sei Ω ⊆ Rn offen und x0 ∈ Ω . Sei f : Ω→ R in x0 differenzierbar. Dann existiert∂f∂v

(x0) fur alle Richtungsvektoren v ∈ Rn, ||v||2 = 1 und es gilt

∂f

∂v(x0) = f ′(x0)(v) = ∇f(x0) · v =

n∑i=1

∂f(x0)

∂xivi . (1)

Falls ∇f(x0) 6= 0 ist, gibt es unter allen Richtungsableitungen ∂f∂v

(x0) – v variierend mit

||v||2 = 1 – eine großte, namlich die Ableitung in Gradientenrichtung v = ∇f(x0)||∇f(x0)||2 mit

dem Wert ||∇f(x0)||2 .

Beweis.

(i) Es ist f(x0+tv)−f(x0)t

= f ′(x0)(tv)+r(tv)t

= f ′(x0)(v) + r(tv)t

. Da limt→0

r(tv)t

= 0 , folgt die

erste Behauptung (1). Fur v = (vi)ni=1 ∈ Rn mit ||v||2 = 1 gilt

(ii)∣∣∂f∂v

(x0)∣∣ ≤ ( n∑

i=1

∣∣∣∂f(x0)∂xi

∣∣∣2)1/2

||v||2 mit der Ungleichung von Cauchy-Schwarz, also∣∣∂f∂v

(x0)∣∣ ≤ ||∇f(x0)||2 . Speziell fur v0 = ∇f(x0)

||∇f(x0)||2 folgt aus (1)

∂f

∂v0(x0) =

∇f(x0) · ∇f(x0)

||∇f(x0)||2= ||∇f(x0)||2 ,

d.h. das Maximum von ∂f∂v

(x0) fur alle obigen v wird fur die Gradientenrichtung v0angenommen.

2Fur die entgegengesetzte Richtung (−v0) ist ∂f

∂(−v0)(x0) = − ∂f∂v0

(x0) = −||∇f(x0)||2 : dieRichtung des Gradienten ist die Richtung starksten Anstiegs von f , die Richtung desnegativen Gradienten die Richtung des starksten Abfallens von f (nahe x0).

7.8 Der Mittelwertsatz

Satz. (Mittelwertsatz) Sei X ein Banachraum und sei Ω ⊆ X offen. Sei f : Ω→ R stetigdifferenzierbar. Dann gilt fur je zwei Punkt x0, x ∈ Ω , fur die die verbindende Strecke Sganz in Ω liegt: Es gibt θ, 0 < θ < 1 mit f(x) = f(x0) +Df(x0 + θ(x− x0))(x− x0) .

Beweis. Definiere ϕ : [0, 1] → R, ϕ(t) := f(x0 + t(x − x0)) . ϕ ist nach Voraussetzungwohldefiniert und differenzierbar. Nach der Kettenregel gilt:

dt(t) = Df(x0 + t(x− x0)) · (x− x0) , da

d

dt(x0 + t(x− x0)) = x− x0 ist.

Der Mittelwertsatz fur reelle Funktionen einer Veranderlichen mit ϕ(0) = f(x0), ϕ(1) =f(x) , liefert dann die Behauptung. 2

11

Bemerkung. FurX = Rn istDf(x) = ∇f(x), f(x) = f(x0)+∇f(x0+θ(x−x0))·(x−x0) ,wobei · das Skalarprodukt im Rn bezeichnet. Versteht man die folgenden Integrationenkomponentenweise, so ist es richtig, dass

f(x)− f(x0) = ϕ(1)− ϕ(0) =

1∫0

dt(t)dt

(∗)=

1∫0

∇f(x0 + t(x− x0))dt

· (x− x0).Eine Anwendung auf die Komponentenfunktionen von f : Ω ⊆ Rm liefert das folgende

Korollar. Sei f : Ω ⊆ Rn → Rm stetig differenzierbar und seien x0, x ∈ Ω mit Verbin-dungsstrecke S ganz in Ω . Dann gilt

||f(x)− f(x0)|| ≤M ||x− x0|| , M = supy∈S||f ′(y)||op <∞ .

Beweis. Aus (∗) und der Dreiecksungleichung, angewandt auf die Riemann-Summen imIntegral, folgt im Grenzwert, dass

||f(x)− f(x0)|| = ||

1∫0

∇fi(x0 + t(x− x0)) · (x− x0)dt

m

i=1

||

≤1∫

0

||(∇fi(x0 + t(x− x0)) · (x− x0))mi=1||dt

≤∫ 1

0

||Df(x0 + t(x− x0))||op||x− x0||dt

≤(

supy∈S||Df(y)||op

)||x− x0|| .

Nun ist ||Df(·)||op : SDf−→L(Rn,Rm)

||·||op−→R stetig, nimmt also sein Maximum auf S an;daher ist M = sup

y∈S||Df(y)||op <∞ . 2

Bemerkung: In den meisten Fallen wird der Mittelwertsatz in einer Ungleichungsformwie im Korollar verwandt.

7.9 Die Taylorsche Formel

Wendet man die Taylorsche Formel fur Funktionen in R auf die Funktion ϕ aus 7.8 an,ergibt sich die Taylorformel im Rn . Dazu folgende Vorbemerkungen undNotationen:

12

(1) Seien X, Y Banachraume, Ω ⊆ X offen und sei f : Ω→ Y zweimal differenzierbar.Dann bilden ab:

Df : Ω ⊆ X → L(X, Y ) und D2f : Ω ⊆ X → L(X,L(X, y))

Nun kann man aber L(X,L(X, Y )) mit den bilinearen Abbildungen von X ×Xnach Y identifizieren, L(X,L(X, Y )) = L(X × X, Y ); allgemein fur `-mal diffe-renzierbare Funktionen, die `-fach multilinearen Abbildungen L(X × · · · × X, Y )betrachten: D`f : Ω ⊆ X −→ L(X × · · · ×X︸ ︷︷ ︸

`

, Y ) .

Wir schreiben D`f(x0)(x1, . . . , x`) fur die Anwendung von D`f(x0) auf das n-Tupel(x1, . . . , x`) .

(2) Multiindizes-Schreibweise: Sei α = (α1, . . . , αn) ∈ Nn . Setze |α| =n∑j=1

αj und fur

Ω ⊆ Rn, f ∈ C`(Ω, Y ) und |α| ≤ ` : Dαf(x0) := ∂|α|f(x0)(∂xn)αn ...(∂x1)α1

, Dαf ∈ C(Ω) .

α! := α1! . . . αn! , xα := xα11 . . . xαnn fur x ∈ Rn .

Satz (Taylorsche Formel). Sei X ein Banachraum und Ω ⊆ X offen. Sei f : Ω → R inCk+1(Ω) und seien x0, x ∈ Ω so, dass die Verbindungsstrecke S von x0 nach x ganz in Ωliegt. Dann gibt es ein θ , 0 < θ < 1 , mit

f(x) = f(x0) +Df(x0)

1!(h) +

D2f(x0)

2!(h, h) + · · ·+ Dkf(x0)

k!(h, . . . , h)︸ ︷︷ ︸

k

+Dk+1f(x0 + θh)

(k + 1)!(h, . . . , h)︸ ︷︷ ︸

k+1

mit h := x− x0 .

Korollar. Sei Ω ⊆ Rn offen und f ∈ Ck+1(Ω). Seien x0, x ∈ Ω mit Verbindungsstrecke Sin Ω . Dann gibt es θ, 0 < θ < 1 , mit

f(x) =k∑|α|=0

Dαf(x0)

α!hα +

∑|α|=k+1

Dαf(x0 + θh)

α!hα , h := x− x0 .

Beweis.

(1) Sei h := x− x0 . Setze ϕ : [0, 1]→ R , ϕ(t) := f(x0 + th). Es folgtdϕdt

(t) = Df(x0 + th)(h) . Die Kettenregel 7.6 liefert fur die zweite Ableitung von ϕ

d2ϕ

dt2(t) = D2f(x0 + th)(h, h) .

Analog giltdjϕ

dtj(t) = Djf(x0 + th) (h, . . . , h)︸ ︷︷ ︸

j-mal

.

13

Somit liefert die Taylorsche Formel 5.8 in einer Variablen

f(x) = ϕ(1) = ϕ(0) +ϕ′(0)

1!+ · · ·+ ϕ(k)

k!+ϕ(k+1)(θ)

(k + 1)!

= f(x0) +Df(x0)

1!(h) + · · ·+ Dkf(x0)

k!(h, . . . , h)︸ ︷︷ ︸

k

+Dk+1f(x0 + θh)

(k + 1)!(h, . . . , h)︸ ︷︷ ︸

(k+1)

.

(2) Im Fall des Korollars X = Rn benutzen wir die explizitere Darstellung der Ablei-tungen uber partiellen Ableitungen (siehe Kettenregel):

dt= ∇f(x0 + th) · h = (h · ∇)f(x0 + th) .

Wendet man dieses auf dϕdt

statt ϕ an, erhalt man formal durch Induktion

djϕ

dtj(t) = (h · ∇)(j)f(x0 + th) , (f · ∇)(j)f := (h · ∇)(h · ∇)j−1f .

Wie beim binomischen (polinomischen) Lehrsatz gilt die Entwicklung

(h · ∇)(j) = (h1∂

∂x1+ · · ·+ hn

∂xn)(j)

=∑|α|=j

j!

α!hα Dα ,

somit ist

f(x) =k∑j=0

∑|α|=j

Dαf(x0)

α!hα +

∑|α|=k+1

Dαf(x0 + hθ)

α!hα =

k∑|α|=0

· · ·+∑|α|=k+1

· · ·

2

Beispiel: Fur n = 2 ist in abgekurzter Schreibweise (ohne Variablen)

f(x0 + h, y0 + k)

= f + (fxh+ fyh) +1

2(fxxh

2 + 2fxyhk + fyyh2) +

1

6(fxxxh

3 + 3fxxyh2h+ 3fxyyhh

2 + fyyyh2) + · · ·

7.10 Taylorreihen und Potenzreihen

Das Problem der Konvergenz von Taylorreihen ist analog zum Eindimensionalen. Manhat Reihen uber abzahlbare Indexmengen J ohne naturliche Anordnung in einer Einfach-reihe (bzgl. N). Die Konvergenz kann daher sinnvollerweise als “unbedingte Konvergenz”untersucht werden:

Definition. Sei J abzahlbar und seien ai ∈ R fur i ∈ J . Eine Reihe∑i∈J

ai heißt konver-

gent gegen a ∈ R :⇔

14

∀ε > 0 ∃I0 ⊆ Jendlich

∀I ⊆ J, I0 ⊆ I

∣∣∣∣∣∑i∈I

ai − a

∣∣∣∣∣ < ε .

Satz 1.∑i∈J

ai konvergent ⇔ supI⊆J

endlich

∑i∈I|ai| <∞ .

Die linke Aussage entspricht der unbedingten, die rechte der absoluten Konvergenz. In Nsind beide nach 2.12 aquivalent, der Beweis dort lasst sich fur diesen Fall modifizieren.Wir beweisen Satz 1 daher nicht (siehe Grauert-Lieb II, Kap. 3, §5). Wegen der absolutenKonvergenz sind die Voraussetzungen des großen Umordnungssatzes 2.13 erfullt, man hatanalog

Satz 2. Sei∑i∈J

ai = a konvergent. Sei J =⋃λ∈L

Jλ, L abzahlbar, Jλ paarweise disjunkt.

Mit∑i∈Jλ

ai = aλ gilt:∑λ∈L

aλ = a konvergiert gegen a .

(Dies entspricht∑n

∑m

anm =∑m

∑n

anm).

Satz 3. Seien aα ∈ R fur α ∈ N0, x0 ∈ Rn . Es sei die Potenzreihe

f(x) :=∞∑|α|=0

aα(x − x0)α in x1 ∈ Rn mit cj := |x1j − x0j| > 0 (∀j = 1, . . . , n) konver-

gent im gerade definierten Sinne. Dann konvergiert die Potenzreihe auch fur alle x imoffenen Quader Q = x ∈ Rn | |xj − x0j| < cj, j = 1, . . . , n . Sie ist dort beliebig oftdifferenzierbar, die Ableitungen berechnen sich durch gliedweise Differentiation und manhat Dαf(x0) = α! aα .

Beweis.

(a) O.B.d.A. sei x0 = 0 . Aus “∞∑|α|=0

aαxα1 konvergiert” folgt:

∃R > 0 ∀α ∈ Nn0 |aαxα1 | ≤ R .

Sei I0 ⊆ Nn0 endlich. Fur x ∈ Q, |xj| < |x1j| gilt dann∑

α∈I0

|aαxα| =∑α∈I0

|aαxα1 ||xα||xα1 |≤ R

∑α∈I0

mit q = (q1, . . . , qn), qi :=∣∣∣ xix1i ∣∣∣ < 1. Aber die letztere geometrische Reihe konver-

giert nach Satz 2,

∑α∈Nn0

qα =∞∑

α1=0

· · ·∞∑

αn=0

aα11 . . . qα1

n =n∏i=1

1

1− qi,

also supI0

∑α∈I0 |aαx

α| < ∞ : Die Reihe∑α∈Nn0

aαxα konvergiert nach Satz 1; es liegt

absolute Konvergenz im Inneren des Quaders Q vor.

15

(b) Wegen der Konvergenz gilt∞∑|α|=0

aαxα =

∞∑α1=0

(∞∑

α2=···=αn=0

aαxα22 . . . xαnn

)xαn1 = f(x) ,

wobei x2, . . . , xn fest sind. Nach 5.20 (Differentiation von Reihen einer Variablen)

existiert ∂f∂x1

und ist gleich ∂f∂x1

(x) =∞∑

α1=1

(∞∑

α1...α2=0

aαxx22 . . . xαnn

)α1x

α1−11 : ∂f

∂x1ist

wieder stetig, also spielt die Differentiationsreihenfolge keine Rolle. Mittels Induk-tion behandelt man f ∈ Ck(Q), k = 1, 2, . . . , bzw. f ∈ C∞(Q) .

Die letzte Formel ergibt sich durch Differentiation. 2

Korollar. Konvergiert die Potenzreihe f(x) :=∞∑|α|=0

aα(x− x0)α in einem offenen Quader

um x0 , stimmt sie mit der Taylorreihe von f uberein.

Satz 4. Sei x0 ∈ Rn, c ∈ Rn mit cj > 0, j = 1, . . . , n undQ := x ∈ Rn | |xj − x0j| < cj, j = 1, . . . , n . Sei f ∈ C∞(Q) und es gebe R > 0 mit:|Dαf(x)|

α!cα ≤ R gilt fur alle x ∈ Q . Dann wird f in Q durch seine Taylorreihe dargestellt,

f(x) =∞∑|α|=0

Dαf(x0)α!

(x− x0)α .

Beweis. O.B.d.A. sei x0 = 0, x ∈ Q .

|f(x)−k−1∑|α|=0

Dαf(0)

α!xα| =

∣∣∣∣∣∣∑|α|=k

Dαf(θx)

α!xα

∣∣∣∣∣∣ ≤∑|x|=k

|Dαf(θx)|α!

cα∣∣∣∣xαcα

∣∣∣∣≤ R

∑|α|=k

qα mit q = (q1 . . . qn), qi :=|xi|ci

< 1 .

Fur k →∞ geht der Fehler (Rest) gegen Null.2

7.11 Konstanten

Definition. Sei Ω ⊆ Rn offen. Ω heißt zusammenhangend :⇔ Je zwei Punkt x0, x ∈ Ωlassen sich durch einen Streckenzug in Ω verbinden. Ω ⊆ Rn Gebiet :⇔ Ω ist offen undzusammenhangend.

Satz. Sei Ω ⊆ Rn ein Gebiet und f : Ω→ R in C1(Ω) mit Djf = 0 in Ω (j = 1, . . . , n) .Dann ist f konstant in Ω .

Beweis. Seien x0, x ∈ Ω, x0, x1, x2, . . . , x`−1, x` = x die Ecken eines x0 und x verbinden-den Streckenzugs in Ω . Auf jede Teilstrecke von xj−1 nach xj (j = 1, . . . , `) angewandt,ergibt der Mittelwertsatz, dass f(xj) = f(xj−1) ist. Somit ist f(x) = f(x0) konstant. 2

16

7.12 Definite Matrizen

Wie im Eindimensionalen lassen sich der Mittelwertsatz und die Taylorsche Formel zurCharakterisierung von Maxima und Minima von Funktionen f : Ω ⊆ Rn → R verwenden.Dazu benotigen wir einige Aussagen aus der linearen Algebra.

Definition. Sei A = (aij)ni,j=1 eine symmetrische Matrix. A heißt positiv [negativ]

definit :⇔ ∀x ∈ Rn − 0n∑

i,j=1

aijxixj > 0 [< 0] . A heißt semidefinit, falls dies

≥ 0 [≤ 0] ist. Man nennt ∆k := det (aij)ki,j=1 die k-te Abschnittsdeterminante von A

fur 1 ≤ k ≤ n .

Satz 1. Sei A eine symmetrische n× n-Matrix. Dann gilt:

(1) A ist positiv definit ⇔ ∆k > 0, k = 1, . . . , n .

(2) A ist negativ definit⇔ (−1)k∆k > 0, k = 1, . . . , n (d.h. die ∆k haben alternierendeVorzeichen).

Satz 2. Sei A eine symmetrische n× n-Matrix. Dann gilt:

A ist positiv definit ⇔ ∃α > 0 ∀x ∈ Rnn∑

i,j=1

aijxixj ≥ α||x||22 .

Beweis. “⇐” klar.

“⇒ ” Betrachte f(x) =n∑

i,j=1

aijxixj fur x = (xj)nj=1 ∈ Rn . Dann ist f stetig auf dem Rn ,

nimmt also ihr Maximum und Minimum auf der kompakten MengeS = x ∈ Rn | ||x||2 = 1 an. Wahle x0 ∈ S mit f(x0) = min

x∈Sf(x) . Da x0 6= 0 , muss

α := f(x0) > 0 sein, denn A ist positiv definit. Somit gilt 1||x||22

f(x) = f(

x||x||2

)≥ α , d.h.

f(x) ≥ α||x||22 .2

7.13 Extremalprobleme

Definition. Sei Ω ⊆ Rn offen. Eine stetige Funktion f : Ω → R, f ∈ C(Ω) besitzt inx0 ∈ Ω ein relatives Maximum [Minimum]:⇔ ∃x0 ∈ U ⊆ Ω Umgebung ∀x ∈ U, x 6= x0 f(x0) ≥ f(x) [f(x0) ≤ f(x)].Gilt sogar > [<] , heißt das Maximum [Minimum] strikt. Ein Extremum ist ein Maxi-mum oder ein Minimum. Absolute Extrema sind analog definiert.

Satz 1. Sei Ω ⊆ Rn eine Umgebung von x0 und sei f : Ω→ R in C1(Ω). Dann gilt:Hat f in x0 ein relatives Extremum, folgt ∇f(x0) = 0 .

Beweis. Sei j ∈ 1, . . . , n . Dann hat g(xj) := f(x0,1, . . . , x0,j−1, xj, x0,j+1, . . . , x0,n) inxj = x0,j ein relatives Extremum. Also ergibt die Differentialrechnung in einer Variablen,dass ∂g

∂xj(x0) = 0 fur alle j ist.

2

∇f(x0) = 0 ist notwendig, aber nicht hinreichend. Fur f ∈ C2(Ω) erhalt man folgendeshinreichende Analogon der Theorie einer Variablen:

17

Satz 2. Sei Ω ⊆ Rn eine Umgebung von x0, und sei f : Ω → R in C2(Ω) . Es gelte∇f(x0) = 0 .

(1) Falls die Hessesche Matrix Hf(x0) := (DiDjf(x0))ni,j=1 positiv (negativ) definit

ist, besitzt f in x0 ein striktes relatives Minimum (Maximum).

(2) Besitzt f in x0 ein relatives Minimum (Maximum), so ist Hf(x0) positiv (negativ)semidefinit.

Definition. Die Nullstellen x0 von ∇f heißen kritische Punkte von f .

Beweis. In einer kleinen Umgebung ||x−x0|| = ||h|| < ε gilt nach der Taylorschen Formel

f(x0 + h) = f(x0) +∇f(x0)h + 12

n∑i,j=1

DiDjf(x0 + θh)hihj mit 0 < θ < 1 , also mit der

Voraussetzung ∇f(x0) = 0

f(x0 + h)− f(x0) =1

2

n∑i,j=1

Hf(x0 + θh)ijhihj .

Nach dem Satz von Schwarz (7.2) ist Hf(y) symmetrisch.

(1) Wenn Hf(x0) positiv definit ist, gibt es nach 7.12 ein α > 0 mit:∑ni,j=1Hf(x0)ijhihj ≥ α||h||22 fur alle h ∈ Rn . Da f ∈ C2(Ω) ist, hangt Hf(x)

stetig von x ab, d.h. fur alle 1 ≤ i, j ≤ n gilt: Hf(x)ij → Hf(x0)ij fur x → x0 .Somit gilt in einer kleinen ε-Umgebung von x0, ||h||2 < ε, dass

n∑i,j=1

Hf(x0 + θh)ijhihj ≥α

2||h||22 > 0

ist. Es folgt f(x0 + h) > f(x0) : f hat in x0 ein striktes Minimum. Der Fall desMaximums ist analog.

(2) f habe in x0 ein relatives Minimum. Ware Hf(x0) nicht positiv semidefinit, gabe

es ein y ∈ Rn − 0 mitn∑

i,j=1

Hf(x0)ijyiyj < 0 . Aus der Stetigkeit von Hf(·) folgt:

Fur alle ||h||2 < ε fur hinreichend kleines ε > 0 und ein geeignetes 0 < θ < 1

istn∑

i,j=1

Hf(x0 + θh)ijyiyj < 0 , d.h. fur h = λy mit λ ∈ R+ genugend klein ist

f(x0 + h)− f(x0) < 0 , d.h. f hatte kein relatives Minimum in x0 .

2

Im Spezialfall n = 2 liefert eine Kombination der Satze 2 aus 7.12 und 7.13 das folgendeKriterium.

Satz 3. Sei f : Ω ⊆ R2 → R in C2 mit fx(x0, y0) = fy(x0, y0) = 0 .

a) Gilt fxxfyy−f 2xy > 0 und fxx 6= 0 in (x0, y0) , besitzt f in (x0, y0) ein striktes relatives

Extremum, und zwar ein Minimum fur fxx > 0 und ein Maximum fur fxx < 0 .

18

b) Gilt fxxfyy − f 2xy < 0 in (x0, y0) , hat f in (x0, y0) kein relatives Extremum in

(x0, y0) .

Beispiele. Nicht immer sind die Kriterien anwendbar, aber doch recht brauchbar.

1. Betrachte f : R2 → R, f(x, y) := x3 + y3 − 3xy . Die partiellen Ableitungenfx(x, y) = 3x2 − 3y = 0, fy(x, y) = 3y2 − 3x = 0 liefern die kritischen Punkte (0, 0)und (1, 1) . Man hat

fxx(x, y) = 6x, fyy(x, y) = 6y, fxy(x, y) = fyx(x, y) = −3 .

Also ist (fxxfyy − f 2xy)(0, 0) = 3, fxx(0, 0) = 0 : das Kriterium ist nicht anwendbar.

Aber in (0, 0) liegt kein Extremum vor, da

f(x, x) = x2(2x− 3) < 0 , 0 < x < 3/2 ; f(x,−x) = 3x2 > 0 fur x 6= 0 .

In (1, 1) gilt (fxxfyy − f 2xy)(1, 1) = 27 > 0, fxx(1, 1) = 6 > 0 , d.h. f hat in (1, 1)

relatives Minimum, f(1, 1) = −1 . Die Funktion f hat kein absolutes Extremum,da f(x, x)→ ±∞ fur x→ ±∞ .

2. f : R2 → R, f(x, y) =√x2 + y2 hat naturlich ein absolutes Minimum in (0, 0) , sonst

kein relatives Maximum oder Minimum. Aber f ist in (0, 0) nicht differenzierbar unddas Kriterium nicht anwendbar.

3. f : D → R, f(x, y) = sin x sin y sin(x+y), D := (x, y) ∈ R2 | 0 ≤ x, y, x+y ≤ π .

f |∂D= 0 und f ≥ 0 : f hat ein lokales und globales Minimum auf ∂D und f ist > 0im Inneren von D . Es gilt fur die kritischen Punkte (x, y) von f :

fx(x, y) = cosx sin y sin(x+ y) + sin x sin y cos(x+ y) = 0 ,

fy(x, y) = sinx cos y sin(x+ y) + sin x sin y cos(x+ y) = 0 .

Also: cosxcos y

= sinxsin y

, d.h. tan y = tanx durch Division (aus sinx, sin y 6= 0 folgt

cosx, cos y, cos(x+ y) 6= 0). Damit folgt y = x, also cosx sin 2x+ sinx cos 2x = 0 ,d.h. sin 3x = 0, x = π/3 . Also ist nur (π/3, π/3) eine kritische Stelle im Inneren vonD . Die Rechnung zeigt fxx(π/3, π/3) = −

√3 , (fxxfyy−f 2

xy)(π/3, π/3) = 9/4 > 0 .Also hat f in (π/3, π/3) ein Maximum, das ein absolutes Maximum ist. Es giltf(π/3, π/3) = 3

√3/8.

4. f(x, y) := (y − x2)(y − 3x2) hat kein relatives Extremum in (0,0); f ist positiv inPunkten der Form (0, b) , negativ in Punkten (a, 2a2) fur a, b ∈ R. Wird f jedochauf x = 0, y = 0 oder y = mx, m ∈ R eingeschrankt, hat f ein striktes relativesMinimum in 0. Die Funktion g, gegeben durch g(x) = m2x2 − 4mx3 + 3x4, erfulltnamlich g′(0) = 0, g′′(0) = 2m2 > 0.

5. Minimiere f(a, b) =n∑k=1

(a+ bxk − yk)2: als Losung ergibt sich die Ausgleichsgerade

y = a+ bx fur Paare (xk, yk), k = 1, . . . , n .

19

7.14 Der Banachsche Fixpunktsatz

Satz (Banach). Sei D ein vollstandiger metrischer Raum und sei f : D → D kontra-hierend, d.h. ∃k < 1 ∀x, y ∈ D d(f(x), f(y)) ≤ k d(x, y) . Dann besitzt f genau einenFixpunkt x : ∃1x ∈ D mit f(x) = x . Der Fixpunkt x ist berechenbar uber: Sei x1 ∈ Dbeliebig, xn+1 := f(xn) . Dann konvergiert xn → x mit d(xn, x) ≤ k

1−k d(xn, xn−1) . DerSatz gilt speziell fur abgeschlossene Teilmengen D ⊆ X von Banachraumen X.

Beweis. Sei x1 ∈ D und xn+1 := f(xn) induktiv definiert.

Behauptung. (xn)n∈N ist Cauchyfolge in D . Es ist fur n ∈ N, n ≥ 2 ,

d(xn, xn−1) = d(f(xn−1), f(xn−2)) ≤ k d(xn−1, xn−2) ≤ . . . kn−2d(x2, x1) .

Also gilt fur n > m ≥ 1

d(xn, xm) ≤n∑

j=m+1

d(xj, xj−1) ≤

(n∑

j=m+1

kj−2

)d(x2, x1) .

Die geometrische Reihe∑j∈N0

kj konvergiert, da k < 1 ist. Somit ist (xn)n∈N Cauchyfolge.

Also folgt: xn → x ∈ D ist konvergent in D . Der Grenzwert x ist Fixpunkt von f , denn

x = limnxn = lim

nf(xn−1) = lim

nf(xn) = f(x) ,

da f stetig, weil kontrahierend ist. Der Fixpunkt ist eindeutig: ist auch x′ ∈ D Fixpunkt,gilt d(x, x′) = d(f(x), f(x′)) ≤ k d(x, x′) . Mit k < 1 folgt d(x, x′) = 0 , also x = x′ .

Als Fehlerabschatzung ergibt sich: d(xm, xn) ≤m∑

j=n+1

d(xj, xj−1) ≤m∑

j=n+1

kj−nd(xn, xn−1) .

Fur m→∞ also d(x, xn) ≤ c d(xn, xn−1) mit c =∞∑

j=n+1

kj−n =∞∑i=1

ki = k1−k .

Bemerkung. Der Fixpunktsatz wird haufig zur Losung von Nullstellenproblemen g(x) =0 angewandt, indem man f(x) = x − g(x) betrachtet: Nullstellen in g sind dann geradedie Fixpunkte von f .

7.15 Implizite Funktionen

In Anwendungen kommen haufig Konstanzlinien von Funktionen F : R2 → R vor, z.B.Hohenlinien (also Linien konstanter Hohe c) auf Karten, Isobaren (d.h. Linien konstantenDruckes p) auf Wetterkarten, Isothermen (das sind Linien konstanter Temperatur T ), d.h.man betrachtet fur ein festes c ∈ R

Γc = (x, y) ∈ R2 | F (x, y) = c .

Sei o.B.d.A. c = 0 (Subtraktion von c) und Γ := Γ0 .

20

Beispiel. F (x, y) = x2 + y2 − 1 = 0 : Dann ist Γ der Kreis um (0, 0) mit Radius 1.In der “Nahe” eines gegebenen Punktes (x0, y0) ∈ Γ ist Γ “haufig” der Graph einerFunktion, d.h. ∃ε, δ > 0 und f : Uδ(x0) → Uε(y0) mit F (x, f(x)) = 0 fur alle x ∈

Uδ(x0) :

(x

f(x)

)∈ Γ . Implizit wird durch F (x, y) = 0 eine Funktion y = f(x) definiert.

Man sagt, dass man F (x, y) = 0 nach y auflost. Probleme, die auftreten konnen, sind:

1) Γ = ∅ . Man muss also Γ(x0, y0) = 0 voraussetzen: (x0, y0) ∈ Γ .

2) Falls ε > 0 zu groß ist, konnte F (x0, y) = 0 zwei Losungen y1, y2 haben (im BildR,Q), also f(x0) = y nicht eindeutig (als Funktion!) definiert sein. Gewunscht ist,dass f wohldefiniert und stetig ist, wenn F stetig ist.

3) In Punkten P =

(x0y0

)∈ Γ des Graphen, in denen die Tangente vertikal ist, kommen

bei noch so kleiner δ- und ε-Wahl stets zu x ∈ Uδ(x0), x 6= x0 , zwei Punkte f1(x)und f2(x) in Uε(y0) fur F (x, f(x)) = 0 in Frage. In diesem Fall ist ∂F

∂y(x0, y0) = 0

(im obigen Fall des Kreises ist ∂F∂y

= 2y , ∂F∂y

(1, 0) = 0, (1, 0) ∈ Γ), dann ist dieDefinition von f zumindest problematisch oder unmoglich.

Man wird also F (x0, y0) = 0 und ∂F∂y

(x0, y0) 6= 0 voraussetzen und nur eine lokale

Losbarkeit von F (x, y) = 0 durch y = f(x) in einer kleinen Umgebung von (x0, y0) erwar-ten konnen. Diese implizite Definition von f besagt nicht, dass man dies rechnerisch-formelmaßig tun kann!

7.16 Der Hauptsatz uber implizite Funktionen

Wir formulieren das Problem allgemeiner fur Funktionen F : Rn+m → Rm . Dazu seieneinige Bezeichnungen eingefuhrt. Fur x = t(x1, . . . , xn) ∈ Rn , y = t(y1, . . . , ym) ∈ Rm

sei t(x, y) = t(x1, . . . , xn, y1, . . . , ym) ∈ Rn+m . Da F Rm-wertig ist, hat F die FormF = t(F1, . . . , Fm) mit Koordinatenfunktionen Fi . Man setzt

∂F

∂x:=

∂F1

∂x1· · · ∂F1

∂xn...

∂Fm∂x1

· · · ∂Fm∂xn

m×n

,∂F

∂y:=

∂F1

∂y1· · · ∂F1

∂ym...

∂fm∂y1

· · · ∂Fm∂ym

m×m

.

21

Also: ∂F∂x

ist die (“partielle”) totale Ableitung von x 7→ F (x, y) bei festem y und∂F∂y

ist die (“partielle”) totale Ableitung von y 7→ F (x, y) bei festem x . Die Gleichung

F (x, y) = 0 auf G ⊆ Rn nach y aufzulosen, soll heißen:Finde f : G ⊆ Rn → Rm mit: Fur alle x ∈ G ist F (x, f(x)) = 0 , d.h. explizit gilt mitf = t(f1, . . . , fm)

F1(x1 . . . xn, f1(x1 . . . xn), . . . fm(x1 . . . xn)) = 0...

Fm(x1, . . . xn, f1(x1 . . . xn), . . . fm(x1, . . . , xn) = 0

.

Zu finden sind also die Funktionen f1, . . . , fm : G→ R .

Hauptsatz uber implizite Funktionen: Seien G ⊆ Rn, H ⊆ Rm offen und seiF : G×H → Rm stetig differenzierbar. Seien x0 ∈ G, y0 ∈ H gegeben mit:

F (x0, y0) = 0 ,∂F

∂y(x0, y0) ist eine invertierbare (m×m)−Matrix .

Dann gibt es δ > 0 und ε > 0 mit U := Uδ(x0) ⊆ G, V := Uε(y0) ⊆ H und eine Funktionf : U → V , so dass fur alle x ∈ U

f(x0) = y0 und F (x, f(x)) = 0

ist. Fur jedes feste x ∈ U ist f(x) dabei die einzige in V liegende Losung von F (x, y) = 0 .Die Funktion f liegt in C1(U1, V ) fur eine geeignet kleine δ1-Umgebung U1 von x0 ,0 < δ1 ≤ δ und man hat

f ′(x) = −(∂F

∂y(x, f(x))

)−1 ∂F∂x

(x, f(x)), x ∈ U1 .

Beweis.

i) Sei D := ∂F∂y

(x0, y0) . Dann ist D−1 ∂F∂y

(x0, y0) = I die Identitat auf dem Rm . Da

F (x0, y0) = 0, ∂F∂y

stetig in (x0, y0) ist und D−1 stetig und linear ist, gibt es δ > 0und ε > 0 sowie eine δ-Umgebung U ⊂ G von x0 und eine ε-Umgebung V ⊆ H vony0 mit:

||I −D−1∂F∂y

(x, y)|| ≤ 1

2(x ∈ U, y ∈ V ) (1)

||D−1F (x, y0)|| ≤ ε/4 (x ∈ U),

SetzeX := Cb(U,Rm) := (f : U ⊆ Rn → Rm | f stetig und beschrankt , || · ||∞) . DaRm vollstandig ist, ist X ein Banachraum unter der Norm ||f ||∞ = sup

x∈U||f(x)||2 .

Sei ferner

M := g ∈ X | g(x0) = y0, ||g(x)− y0|| ≤ ε/2 fur alle x ∈ U ⊆ X := Cb(U,Rn) .

Dann ist M eine nicht-leere, abgeschlossene Teilmenge von X; M ist nicht-leer, dag0(x) := y0 zu M gehort. Wegen ||g(x)|| ≤ ||g(x) − y0|| + ||y0|| ≤ ε/2 + ||y0|| ist gbeschrankt.

22

ii) Die Werte von g ∈M liegen also in V = Uε(y0) . Definiere

A : M ⊆ X → X durch (Ag)(x) := g(x)−D−1F (x, g(x)) .

Dann ist Ag(x0) = y0 und Ag ist stetig. Zunachst gilt wegen (1) fur alle x ∈ U

||Ag0(x)− y0|| = ||D−1F (x, y0)|| ≤ ε/4 . (2)

Fur festes x ∈ U definiere φ : V → Rm durch φ(y) := y −D−1F (x, y) . Dann ist

φ′(y) = I −D−1 ∂F∂y

(x, y) .

Nach dem Korollar zum Mittelwertsatz (7.8) gilt fur alle y, z ∈ V

||φ(y)− φ(z)|| ≤ supy∈V||φ′(y)|| ||y − z||

= supy∈V||I −D−1∂F

∂y(x, y)|| ||y − z|| ≤ 1

2||y − z|| .

Speziell ergibt sich fur alle g1, g2 ∈M

||φ(g1(x))− φ(g2(x))|| ≤ 1

2||g1(x)− g2(x)|| . (3)

Aber φ(gj(x)) = gj(x)−D−1F (x, gj(x)) = (Agj)(x) , d.h.

||Ag1 − Ag2||X ≤1

2||g1 − g2||X , g1, g2 ∈M . (4)

Speziell folgt aus (3) fur g ∈M,x ∈ U mit der konstanten Function g0 aus i)

||(Ag)(x)− y0|| ≤ ||(Ag)(x)− (Ag0)(x)||+ ||(Ag0)(x)− y0||

≤ 1

2||g(x)− y0||+

1

4ε ≤ 1

2

ε

2+ε

4= ε/2 .

Somit ist Ag ∈ M , d.h. A : M → M ist eine kontrahierende Selbstabbildung vonM , vgl. (4). Aus dem Banachschen Fixpunktsatz (7.14) folgt, dass A einen Fixpunktf ∈M besitzt, Af = f . Die Abbildung f : U → V ist stetig und erfullt f(x0) = y0sowie D−1F (x, f(x)) = 0. Durch Anwendung von D ergibt sich F (x, f(x)) = 0 .

Eindeutigkeit: Bei gegebenen x ∈ U sei y ∈ V Losung von F (x, y) = 0 . Dann isty = f(x) , da ||y − f(x)|| = ||φ(y)− φ(f(x))|| ≤ 1

2||y − f(x)|| .

iii) Wir zeigen jetzt die Differenzierbarkeit von f in x0 . Sei o.B.d.A. x0 = y0 = 0 .Wir wahlen als Norm auf dem Rn+m : ||z|| := ||x|| + ||y|| fur z = t(x, y) . SeiD1 := ∂F

∂x(0, 0) und D2 := ∂F

∂y(0, 0) . Da F in (0,0) differenzierbar ist, gilt fur z mit

kleiner Norm

F (z) = F ′(0)z + r(z) , wobeir(z)

||z||→ 0 (z → 0) ,

23

d.h. F (x, y) = D1x + D2y + r(x, y) , r(x,y)||x||+||y||

(∗)→ 0 (x, y → 0) . Da fur x ∈ U

F (x, f(x)) = 0 ist, folgt

0 = D1x+D2f(x) + r(x, f(x)) .

Also giltf(x) = −D−12 D1x−D−12 r(x, f(x)) . (5)

Falls also limx→0

D−12r(x,f(x))||x|| = 0 ist, folgt, dass f in 0 differenzierbar ist mit

f ′(0) = −D−12 D1 . Dazu reicht es, limx→0

r(x,f(x))||x|| = 0 zu beweisen. Wegen (∗) gibt es

0 < δ1 ≤ δ und 0 < ε1 ≤ ε , so dass fur alle x ∈ Rn, y ∈ Rm mit ||x|| < δ1 und||y|| < ε1 gilt

||r(x, y)|| ≤ 1

2||D−12 ||(||x|+ ||y||) .

Da f stetig in 0 ist, existiert δ′1 ≤ δ1 , so dass fur alle x ∈ Rn mit ||x|| ≤ δ′1 gilt||f(x)|| ≤ ε1 . Dafur gilt dann wegen (5)

||f(x)|| ≤ ||D−12 D1|| ||x||+ ||D−12 ||||x||+ ||f(x)||

2||D−12 ||=γ

2||x||+ 1

2||f(x)|| ,

||f(x)|| ≤ γ||x||; ||x|| < δ2; γ := 2||D−12 D1||+ 1 . (6)

Also 0 ≤ ||r(x,f(x))||||x|| = (1 + γ) ||r(x,f(x))||||x||+γ||x|| ≤ (1 + γ) ||r(x,f(x))||

||x||+||f(x)|| . Fur x → 0 gilt auch

f(x) → 0 , somit ||r(x,f(x)||||x||+||f(x)|| → 0 . Damit ist die Differenzierbarkeit von f in x0

bewiesen.

iv) Da ∂F∂y

stetig in (x0, y0) ist, gibt es einen δ2-Umgebung U2 ⊆ U von x0 und eineε1-Umgebung V1 ⊆ V von y0 mit:

||∂F∂y

(x, y)− ∂F

∂y(x0, y0)|| <

1

||∂F∂y

(x0, y0)−1||; x ∈ U2, y ∈ V1 .

Mit der Neumannschen Reihe folgt, dass ∂F∂y

(x, y) invertierbar ist.

Man zeigt namlich mit der Neumannschen Reihe: ||A − B|| < 1||A−1|| impliziert

B−1 =∞∑n=0

A−1(I −BA−1)n . Da f stetig ist, gibt es eine δ3-Umgebung U1 ⊆ U2 von

x0 mitf(U1) ⊆ V1 . Nach i) – iii), angewandt auf (x, f(x)) statt auf (x0, y0) ist also f inx ∈ U1 differenzierbar mit

f ′(x) = −∂F∂y

(x, f(x))−1 · ∂F∂x

(x, f(x)) ,

und f ′(x) hangt stetig von x ab, da ∂F∂y

(x, f(x)) dies tut. 2

24

Bemerkung: Es kann also f ′(x0) berechnet werden, ohne dass f bekannt ist! Nachdemgezeigt ist, dass f ′(x0) existiert, merkt man sich die Differenziationsformel als Anwendungder Kettenregel auf F (x, f(x)) = 0 :

∂F

∂x(x0, y0) +

∂F

∂y(x0, y0)f

′(x0) = 0 .

Beispiel. F (x, y) = e2x−y + 3x − 2y − 1 = 0 erfullt F (0, 0) = 0, Fy(0, 0) 6= 0 , also istF (x, y) = 0 nahe (0,0) lokal nach y = f(x) auflosbar.

7.17 Der Umkehrsatz

Wann besitzt f : G ⊆ Rn → Rn eine Inverse f−1 ?

Umkehrsatz: Sei G ⊆ Rn offen und f : G → Rn stetig differenzierbar. In x0 ∈ Gsei f ′(x0) invertierbar. Dann gibt es eine offene Umgebung W ⊆ G von x0 und eineε-Umgebung V von y0 := f(x0) , so dass f : W → V bijektiv ist. Die Umkehrungg = f−1 : V → W ist stetig differenzierbar mit g′(y0) = f ′(x0)

−1 .

Beweis. Wir wenden 7.16 auf die Funktion F : G × Rn → Rn, F (x, y) := f(x) − yan, allerdings mit vertauschten Rollen von x und y und m = n . Man hat F ∈ C1 ,F (x0, y0) = 0 und ∂F

∂x(x0, y0) = f ′(x0) ist invertierbar nach Voraussetzung.

Nach 7.16 ist F (x, y) = 0 lokal nach x auflosbar, d.h. es gibt eine ε-Umgebung V von y0und eine δ-Umgebung U ⊆ G von x0 sowie genau eine stetige Funktion g : V → U mit

g(y0) = x0 , F (g(y), y) = 0, d.h. f(g(y)) = y, fur alle y ∈ V .

O.B.d.A. sei V so klein, dass g gemaß 7.16 in V stetig differenzierbar ist. Wegen derStetigkeit von f ist W := U ∩ f−1(V ) = x ∈ U | f(x) ∈ V ⊆ U offen mit f(W ) = V .Aus y ∈ V, y = f(g(y)) folgt sogar f(W ) = V , da g(V ) ⊆ U ∩ f−1(V ) = W . f istinjektiv, da f(x1) = f(x2) =: y fur x1, x2 ∈ W impliziert: F (x1, y) = F (x2, y) , worausx1 = x2 folgt. Also ist f : W → V bijektiv und g ist stetig differenzierbar als (f |W )−1 .Aus der Kettenregel und (f g)(y) = y ergibt sich

(f g)′(y) = f ′(g(y))g′(y) = I , also g′(y) = f ′(x)−1 .

2

Beispiele.

(1) f : R2 → R2, f1(x, y) = x2 − y2, f2(x, y) = 2xy, det f ′(x, y) = 4(x2 + y2) 6= 0fur (x, y) 6= (0, 0) . Also ist f außerhalb des Nullpunktes (0,0) lokal umkehrbar. Aberf ist nicht global umkehrbar, da f nicht injektiv ist, denn f(x, y) = f(−x,−y) .

(2) f : R2 → R2, f1(x, y) = ex cos y, f2(x, y) = ex sin y ,

f ′(x, y) =

(ex cos y −ex sin yex sin y ex cos y

).

25

Also gilt det f ′(x, y) = e2x 6= 0 , und f ist uberall lokal umkehrbar. Aber: f istnicht global umkehrbar, da f nicht injektiv ist: Man hat ja

f(x, y) = f(x, y + 2kπ) , k ∈ Z .

7.18 Extrema unter Nebenbedingungen

Aufgabe: Bestimme die Extrema von f : Rn → R unter Nebenbedingungen gj(x) = 0,gj : Rn → R, j = 1, . . . ,m . Z.B. Minimaler Abstand zu Null auf einer “Flache” g(x) = 0 .

Satz (Lagrangesche Multiplikationsregel). Sei G ⊆ Rn offen und seien f : G → R undg : G → Rm mit m < n stetig differenzierbar. Die Matrix g′(x0) ∈ L(Rn,Rm) besitzein x0 ∈ G Hochstrang m, g(x0) = 0 . f besitze in x0 ein lokales Extremum unter denNebenbedingungen g(x) = 0 . Dann gibt es λ1, . . . , λm ∈ R , so dass gilt:

∂f(x0)

∂xj+

m∑i=1

λi∂gi(x0)

∂xj= 0 , j = 1, . . . , n . (1)

Ferner ist gi(x0) = 0, i = 1, . . . ,m .

Bemerkung: Der Satz liefert nur eine notwendige Bedingung fur ein Extremum. Ob einExtremum in x0 vorliegt, muss separat gepruft werden. In (1) hat man n+m Gleichungenfur n+m Unbekannte x0,1, . . . , x0,n, λ1, . . . , λm, mit x0 = (x0,1, · · · , x0,n).

Beweis. O.B.d.A. sei

det

∂g1(x0)∂x1

· · · ∂g1(x0)∂xm

......

∂gm(x0)∂x1

· · · ∂gm(x0)∂xm

6= 0 .

26

Nach dem Hauptsatz fur implizite Funktionen lasst sich g(x) = 0 lokal nach x1, . . . , xmauflosen, d.h.

xk = hk(xm+1, . . . , xn) , k = 1, . . . ,m . (2)

Mit x = t(x1, . . . , xn), y = t(x1, . . . , xm), z = t(xm+1, . . . , xn) ist x = t(y, z) . (2)bedeutet fur h : U ⊆ Rn−m → Rm , definiert auf einer geeigneten Umgebung U von z0 ,mit x0 = t(y0, z0) ,

g(h(z), z) = 0, z ∈ U (2’)

und

h(z0) = y0, det∂g

∂y(x0) 6= 0 . (3)

Da (z 7→ f(h(z), z)) als Funktion von z = t(xm+1, . . . , xn) ein relatives Extremum in z0besitzt, ist die Ableitung in z0 gleich 0, d.h.

∂f

∂y(x0)

∂h

∂z(z0) +

∂f

∂z(x0) = 0 . (4)

Das lineare Gleichungssystem

t(∂f

∂y(x0)) + t(

∂g

∂y(x0))λ = 0 , λ =

λ1...λm

(5)

ist wegen (3) eindeutig losbar. Dies sind die ersten m behaupteten Gleichungen.Die Differentiation von (2’) ergibt

∂g

∂y(x0)

∂h

∂z(z0) +

∂g

∂z(x0) = 0 (6)

∂f

∂z(x0)

(4)= −∂f

∂y(x0)

∂h

∂z(z0)

(5)= tλ

∂g

∂y(x0)

∂h

∂z(z0)

(6)= − tλ

∂g

∂z(x0) ,

Folglich ist t(∂f∂z

(x0))

+ t(∂g∂z

(x0))λ = 0 : dies sind die letzten (n −m) der behaupteten

Gleichungen.2

Bemerkung. Die Gleichungen (1) erhalt man, indem man formal die Extrema vonL(x, λ) = f(x)+λ1g1(x)+ · · ·+λmgm(x) zu bestimmen versucht. (∇L = 0) , als Funktionder (n+m) Unbekannten (x, λ) . L heißt auch Lagrange-Funktion und die (λ1, . . . , λm)heißen Lagrange-Multiplikatoren.

Beispiele.

(1) Bestimme die Extrema von f(x, y, z) := 5x + y − 3z auf dem Schnitt der Ebenex+ y + z = 0 mit der Kugeloberflache x2 + y2 + z2 = 1 : Bilde

L(x, y, z, λ, µ) = (5x+ y − 3z) + λ(x+ y + z) + µ(x2 + y2 + z2 − 1)

27

Die Differentiation von L ergibt:5 + λ+ 2µx = 0

x+ y + z = 01 + λ+ 2µy = 0 ,

x2 + y2 + z2 = 1−3 + λ+ 2µz = 0

(*)

Die Addition der ersten drei Gleichungen ergibt: 3 + 3λ = −2µ(x+ y + z) = 0 ,λ = −1 . Aus der ersten Gleichung folgt: 2 + µx = 0, µy = 0 : µ 6= 0, y = 0 .

Die letzte Gleichung impliziert:

x = −z, 2x2 = 1, x = ± 1√2.

Die Punkte(

1√2, 0,− 1√

2

),(− 1√

2, 0, 1√

2

)erfullen (∗) mit λ = −1 und µ = ∓2

√2 .

Man hat f(

1√2, 0,− 1√

2

)= 4√

2, f(− 1√

2, 0, 1√

2

)= −4

√2 : Hier liegen ein Maximum

und ein Minimum vor.

(2) Ubung: Punkt auf Paraboloid z = x2/4 + y2/9 am nachsten an (1,0,0) : (a, 0, a2/4)mit a3 + 8a− 8 = 0, a ' 0, 9068 .

(3) Ubung: (Holder-Ungleichung): f(x) =n∑i=1

aixi,n∑i=1

xqi = 1 mit 1 < q <∞ ,

xi ≥ 0, i = 1, . . . , n .

(4) Ubung: f(x) = x1 . . . xn in ||x||2 ≤ 1 .

(5) Ubung: Hadamardsche Determinantenabschatzung (Blatter III, S. 39).

28