8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-,...

39
Mathematik f¨ ur Physiker II, SS 2011 Freitag 8.7 $Id: mdiffb.tex,v 1.8 2011/07/08 14:33:23 hk Exp $ $Id: mtaylor.tex,v 1.4 2011/07/10 21:03:50 hk Exp $ §8 Differentialrechnung im R n 8.5 Die totale Ableitung In der letzten Sitzung hatten wir die totale Ableitung einer Funktion f : U R m ein- gef¨ uhrt, wobei U R n eine offene Menge ist. In einem Punkt x U war die Ableitung f (x) eine lineare Abbildung R n R m , die explzit durch die Richtungsableitungen f (x)v = v f (x) ur v R n gegeben war. Beschreiben wir die lineare Abbildung f (x) durch eine Matrix, so erhielten wir die Jacobi-Matrix J von f an der Stelle x. Wir hatten gesehen das die Eintr¨ age der Jacobi-Matrix gerade die partiellen Ableitungen von f in x sind, in der i-ten Spalte von J stehen die Ableitungen der Komponenten von f nach x i . Mit dieser Beobachtung stehen wir kurz davor die Ableitung auch komplizierterer Funktionen ausrechnen zu k¨ onnen. Eine wichtige Zutat fehlt uns allerdings noch, wir haben noch kein vern¨ unftiges Kriterium die Differenzierbarkeit einer Funktion f nach- zuweisen. Prinzipiell k¨ onnten wir nat¨ urlich hierzu die Definition verwenden, diese l¨ aßt sich allerdings oft nicht direkt nachweisen. Wie sich herausstellt sind Funktionen deren amtliche Komponenten durch Formeln in den Grundfunktionen gegeben sind immer differenzierbar. F¨ ur partielle Ableitungen wissen wir dies schon, und das folgende Lem- ma erlaubt es uns diese Tatsache auf die allgemeine Differenzierbarkeit auszudehnen. Lemma 8.15 (Hinreichendes Kriterium f¨ ur Differenzierbarkeit) Seien n, m N mit n, m 1, U R n offen und f : U R m eine Funktion, deren s¨amtliche partielle Ableitungen ∂f j /∂x i ur 1 j m, 1 i n in ganz U existieren. Weiter sei x U und die partiellen Ableitungen ∂f j /∂x i seien f¨ ur alle 1 j m, 1 i n in x stetig. Dann ist f in x auch differenzierbar. Beweis: Wir k¨ onnen m = 1 annehmen und verwenden auf dem R n die Norm || || . Sei > 0 gegeben. Da U offen ist und die partiellen Ableitungen von f in x alle stetig sind, gibt es ein δ> 0 mit B δ (x) U und ∂f ∂x i (y) - ∂f ∂x i (x) < n 23-1

Transcript of 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-,...

Page 1: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

$Id: mdiffb.tex,v 1.8 2011/07/08 14:33:23 hk Exp $$Id: mtaylor.tex,v 1.4 2011/07/10 21:03:50 hk Exp $

§8 Differentialrechnung im Rn

8.5 Die totale Ableitung

In der letzten Sitzung hatten wir die totale Ableitung einer Funktion f : U → Rm ein-gefuhrt, wobei U ⊆ Rn eine offene Menge ist. In einem Punkt x ∈ U war die Ableitungf ′(x) eine lineare Abbildung Rn → Rm, die explzit durch die Richtungsableitungen

f ′(x)v = ∂vf(x)

fur v ∈ Rn gegeben war. Beschreiben wir die lineare Abbildung f ′(x) durch eine Matrix,so erhielten wir die Jacobi-Matrix J von f an der Stelle x. Wir hatten gesehen das dieEintrage der Jacobi-Matrix gerade die partiellen Ableitungen von f in x sind, in deri-ten Spalte von J stehen die Ableitungen der Komponenten von f nach xi.

Mit dieser Beobachtung stehen wir kurz davor die Ableitung auch kompliziertererFunktionen ausrechnen zu konnen. Eine wichtige Zutat fehlt uns allerdings noch, wirhaben noch kein vernunftiges Kriterium die Differenzierbarkeit einer Funktion f nach-zuweisen. Prinzipiell konnten wir naturlich hierzu die Definition verwenden, diese laßtsich allerdings oft nicht direkt nachweisen. Wie sich herausstellt sind Funktionen derensamtliche Komponenten durch Formeln in den Grundfunktionen gegeben sind immerdifferenzierbar. Fur partielle Ableitungen wissen wir dies schon, und das folgende Lem-ma erlaubt es uns diese Tatsache auf die allgemeine Differenzierbarkeit auszudehnen.

Lemma 8.15 (Hinreichendes Kriterium fur Differenzierbarkeit)Seien n, m ∈ N mit n, m ≥ 1, U ⊆ Rn offen und f : U → Rm eine Funktion, derensamtliche partielle Ableitungen ∂fj/∂xi fur 1 ≤ j ≤ m, 1 ≤ i ≤ n in ganz U existieren.Weiter sei x ∈ U und die partiellen Ableitungen ∂fj/∂xi seien fur alle 1 ≤ j ≤ m,1 ≤ i ≤ n in x stetig. Dann ist f in x auch differenzierbar.

Beweis: Wir konnen m = 1 annehmen und verwenden auf dem Rn die Norm || ||∞.Sei ε > 0 gegeben. Da U offen ist und die partiellen Ableitungen von f in x alle stetigsind, gibt es ein δ > 0 mit Bδ(x) ⊆ U und∣∣∣∣ ∂f

∂xi

(y)− ∂f

∂xi

(x)

∣∣∣∣ < ε

n

23-1

Page 2: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

fur alle y ∈ Rn mit ||y − x||∞ < δ. Sei 0 6= h ∈ Rn mit ||h||∞ < δ. Dann schreiben wir

f(x + h)− f(x) =n∑

i=1

[f

(x +

i∑j=1

hjej

)− f

(x +

i−1∑j=1

hjej

)],

und fur jedes 1 ≤ i ≤ n existiert nach dem Mittelwertsatz ein ξi ∈ (0, 1) mit

f

(x +

i∑j=1

hjej

)− f

(x +

i−1∑j=1

hjej

)=

∂f

∂xi

(x +

i−1∑j=1

hjej + ξihiei

)hi.

Es folgt

f(x + h)− f(x)−n∑

i=1

∂f

∂xi

(x)hi =n∑

i=1

[∂f

∂xi

(x +

i−1∑j=1

hjej + ξihiei

)− ∂f

∂xi

(x)

]· hi,

und fur jedes 1 ≤ i ≤ n gilt dabei wegen∣∣∣∣∣∣∣∣(

x +i−1∑j=1

hjej + ξihiei

)− x

∣∣∣∣∣∣∣∣∞

= max{|h1|, . . . , |hi−1|, ξi|hi|} ≤ ||h||∞ < δ

stets ∣∣∣∣∣ ∂f

∂xi

(x +

i−1∑j=1

hjej + ξihiei

)− ∂f

∂xi

(x)

∣∣∣∣∣ < ε

n.

Insgesamt ist ∣∣∣∣∣f(x + h)− f(x)−n∑

i=1

∂f

∂xi

(x)hi

∣∣∣∣∣ <n∑

i=1

ε

n|hi| ≤ ε||h||∞,

und somit ∣∣∣f(x + h)− f(x)−∑n

i=1∂f∂xi

(x)hi

∣∣∣||h||∞

< ε.

Dies beweist die Differenzierbarkeit von f in x.

Beachte das die Existenz der partiellen Ableitungen auf ganz U eigentlich nicht ge-braucht wird, es reicht diese in einer kleinen Umgebung von x vorauszusetzen. Istnamlich V ⊆ Rn eine weitere offene Menge mit x ∈ V ⊆ U , so ist eine Funktionf : U → Rm genau dann in x differenzierbar wenn die Einschrankung f |V auf V diesist, und in diesem Fall gilt (f |V )′(x) = f ′(x). Dies ist klar, da die entsprechende Aus-sage fur Funktionsgrenzwerte wahr ist. Man sagt hierzu auch, dass Differenzierbarkeitund die Ableitung lokale Begriffe sind.

23-2

Page 3: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

Ausgerustet mit unserem Kriterium konnen wir weitere Beispiele behandeln. Seietwa

f : R3 → R3;

xyz

7→

sin x+y1+z2

sin(xyz)− cos(2z)x cos(y)

.

Die partiellen Ableitungen sind dann

∂f1

∂x= cos x

1+z2 ,∂f1

∂y= 1

1+z2 ,∂f1

∂z= −2(sin x+y)z

(1+z2)2,

∂f2

∂x= yz cos(xyz), ∂f2

∂y= xz cos(xyz), ∂f2

∂z= xy cos(xyz) + 2 sin(2z),

∂f3

∂x= cos y, ∂f3

∂y= −x sin y, ∂f3

∂z= 0.

Diese sind allesamt stetig, und als totale Ableitung erhalten wir

f ′(x, y, z) =

cos x1+z2

11+z2 −2(sin x+y)z

(1+z2)2

yz cos(xyz) xz cos(xyz) xy cos(xyz) + 2 sin(2z)cos y x sin y 0

.

Mit derselben Argumentation sind wie schon bemerkt alle durch Formeln in den Grund-funktionen definierten Funktionen differenzierbar. Als zweites Beispiel nehmen wir dieDeterminante

det : Rn×n → R.

Diese ist durch die Leipnitz-Formel

det(x) =∑π∈Sn

(−1)πx1π(1) · . . . · xnπ(n)

gegeben und somit uberall differenzierbar. Die Ableitung in der Einheitsmatrix berech-net sich als

det ′(1)A = ∂A det(1) = tr(A)

fur jede n× n-Matrix A, d.h.

det ′(1) = tr .

Wir wollen noch eine weitere Anmerkung zur Jacobi-Matrix machen. Angenommen wirhaben ein offenes Intervall I ⊆ R und eine Kurve f : I → Rn. Dann konnen wir die Ab-leitung f ′(t) einmal wie im vorigen Abschnitt als Tangentialvektor interpretieren, oderalternativ als lineare Abbildung R → Rn. Wir hangen diese beiden nun zusammenen?Der Satz uber die Jacobi-Matrix sagt das die Jacobi-Matrix gleich dem Tangentialvek-tor ist, und damit ist f ′(t) als lineare Abbildung einfach die Multiplikation mit demTangentialvektor. Umgekehrt ist der Tangentialvektor dann auch gleich der totalenAbleitung angewandt auf 1, d.h.

f ′(t)︸︷︷︸als Tangentialvektor

= f ′(t)(1)︸ ︷︷ ︸als totale Ableitung

.

23-3

Page 4: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

Wir wollen auch noch eine weitere Folgerung aus Lemma 15 festhalten.

Definition 8.10 (Differenzierbarkeit und stetige Differenzierbarkeit)Seien n, m ∈ N mit n, m ≥ 1, U ⊆ Rn offen und f : U → Rm eine Funktion. Dannheißt f differenzierbar wenn f in jedem Punkt x ∈ U differenzierbar ist und f heißtstetig differenzierbar wenn zusatzlich die Ableitung

f ′ : U → Rm×n

stetig ist.

Dabei fassen wir f ′(x) als die Jacobi-Matrix auf. Da eine Abbildung in einen Rd

genau dann stetig ist wenn samtliche Komponentenfunktionen stetig sind, und dieKomponenten der Jacobi-Matrix nach Lemma 14 genau die partiellen Ableitungensind, ergibt sich mit Lemma 15 auch

f : U → Rm ist stetig differenzierbar ⇐⇒

Fur alle 1 ≤ i ≤ n, 1 ≤ j ≤ mexistiert die partielle Ableitung∂fj

∂xiin U und ist stetig.

Genau wie bei der eindimensionalen Ableitung gibt es auch wieder einen ganzen Satzan Ableitungsregeln, die wir nun behandeln wollen. Da es bei Vektoren keine Divisiongibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als ein Spezialfallder Kettenregel herausstellen.

Lemma 8.16 (Summen und Vielfachenregel fur Ableitungen)Seien n, m ∈ N mit n, m ≥ 1, U ⊆ Rn offen und f, g : U → Rm zwei in einem Punktx ∈ U differenzierbare Funktionen. Weiter sei c ∈ R eine Konstante. Dann sind auchdie Funktionen f + g und cf in x differenzierbar mit den Ableitungen

(f + g)′(x) = f ′(x) + g′(x) und (cf)′(x) = cf ′(x).

Beweis: Fur jedes 0 6= h ∈ Rn mit x + h ∈ U gelten

||(f + g)(x + h)− (f + g)(x)− (f ′(x) + g′(x))h||||h||

≤ ||f(x + h)− f(x)− f ′(x)h||||h||

+||g(x + h)− g(x)− g′(x)h||

||h||

und||(cf)(x + h)− (cf)(x)− cf ′(x)h||

||h||= |c| ||f(x + h)− f(x)− f ′(x)h||

||h||,

und da die jeweiligen rechten Seiten fur h → 0 gegen 0 konvergieren, folgen auch

limh→0

||(f + g)(x + h)− (f + g)(x)− (f ′(x) + g′(x))h||||h||

= 0

23-4

Page 5: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

und

limh→0

||(cf)(x + h)− (cf)(x)− cf ′(x)h||||h||

= 0.

Damit sind beide Behauptungen bewiesen.

Fur kommen jetzt zur Kettenregel, also zur Ableitung der Hintereinanderausfuhrungzweier Funktionen. Denken wir an die Interpretation der Ableitung als eine lineareApproximation, so ist zu erwarten das die lineare Approximation einer Hintereinan-derausfuhrung einfach die Hintereinanderausfuhrung der linearen Approximationen derEinzelfunktionen ist, und dies wird die Kettenregel sein. Der Beweis der Kettenregelist etwas komplizierter

Satz 8.17 (Kettenregel fur Ableitungen)Seien n, m, d ∈ N mit n, m, d ≥ 1, U ⊆ Rn, V ⊆ Rm offen, f : U → V eine in x ∈ Udifferenzierbare Funktion und g : V → Rd eine in f(x) differenzierbare Funktion. Dannist die Hintereinanderausfuhrung g ◦ f : U → Rd in x differenzierbar mit

(g ◦ f)′(x) = g′(f(x)) ◦ f ′(x).

Beweis: Setze T := g′(f(x)) ◦ f ′(x). Wahle ein α > 0 mit Bα(f(x)) ⊆ V und schreibe

g(f(x) + h) = g(f(x)) + g′(f(x))h + τ(h)

fur alle h ∈ Rm mit ||h|| < α. Dann ist limh→0 ||τ(h)||/||h|| = 0. Da f in x nach Lemma13.(a) stetig ist, existiert weiter ein β > 0 mit Bβ(x) ⊆ U und ||f(y) − f(x)|| < αfur alle y ∈ Rn mit ||y − x|| < β, also f(Bβ(x)) ⊆ Bα(f(x)). Fur jedes h ∈ Rn mit0 < ||h|| < β haben wir dann

g(f(x + h)) = g(f(x)) + g′(f(x))(f(x + h)− f(x)) + τ(f(x + h)− f(x))

und weiter ist damit

||g(f(x + h))− g(f(x))− Th||||h||

=||g′(f(x))(f(x + h)− f(x)− f ′(x)h) + τ(f(x + h)− f(x))||

||h||.

Da die linearen Abbildungen f ′(x) : Rn → Rm und g′(f(x)) : Rm → Rd stetig sind,gibt es nach §4.Lemma 15 Konstanten A, C ≥ 0 mit ||f ′(x)u|| ≤ A||u|| fur alle u ∈ Rn

und ||g′(f(x))u|| ≤ C||u|| fur jeden Vektor u ∈ Rm. Die Stetigkeit dieser Abbildungenist dabei klar da sie beide durch Multiplikation mit einer Matrix gegeben sibd. Somit

23-5

Page 6: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

folgt weiter

||g(f(x + h))− g(f(x))− Th||||h||

≤ C||f(x + h)− f(x)− f ′(x)h||

||h||+||τ(f(x + h)− f(x))||

||h||.

Sei jetzt ε > 0 gegeben. Dann existiert ein δ1 > 0 mit δ1 ≤ α und ||τ(u)||/||u|| <ε/(2(A + 1)) fur alle u ∈ Rm mit 0 < ||u|| < δ1 und wegen

limh→0

||f(x + h)− f(x)− f ′(x)h||||h||

= 0

existiert weiter ein δ2 > 0 mit δ2 ≤ β und

||f(x + h)− f(x)− f ′(x)h||||h||

< min

2C + 1, 1

}fur alle h ∈ Rn mit 0 < ||h|| < δ2. Die Stetigkeit von f in x gemaß Lemma 13.(a)liefert schließlich ein δ3 > 0 mit δ3 ≤ β und ||f(x+h)− f(x)|| < δ1 fur alle h ∈ Rn mit||h|| < δ3. Setze δ := min{δ2, δ3}, also auch 0 < δ3 ≤ β. Sei h ∈ Rn mit 0 < ||h|| < δ.Dann ist wegen ||f(x + h)− f(x)|| < δ1 auch

||g(f(x + h))− g(f(x))− Th||||h||

≤ C||f(x + h)− f(x)− f ′(x)h||

||h||+||τ(f(x + h)− f(x))||

||h||

<Cε

2C + 1+

ε

2(A + 1)

||f(x + h)− f(x)||||h||

2+

ε

2(A + 1)

(||f(x + h)− f(x)− f ′(x)h||

||h||+||f ′(x)h||||h||

)<

ε

2+

ε

2(A + 1)(1 + A) = ε.

Dies beweist

limh→0

||g(f(x + h))− g(f(x))− Th||||h||

= 0,

d.h. g ◦ f ist in x differenzierbar mit (g ◦ f)′(x) = T .

Wenn wir die Kettenregel fur die Jacobi-Matrizen ausschreiben, so mussen wir unsnur daran erinnern das die Hintereinanderausfuhrung linearer Abbildungen der Multi-plikation von Matrizen entspricht, und damit nimmt die Kettenregel die Form

∂(gj ◦ f)

∂xi

(x) =m∑

k=1

∂gj

∂xk

(f(x)) · ∂fk

∂xi

(x)

23-6

Page 7: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

an. Als ein Beispiel seien U ⊆ Rn offen und f : U → R eine in jedem Punkt von x ∈ Udifferenzierbare Funktion. Weiter seien I ⊆ R ein Intervall und x : I → U eine in jedemPunkt t ∈ I differenzierbare Kurve. Wir bilden dann die reelle Funktion

F : I → R; t 7→ f(x1(t), . . . , xn(t))

und wollen die Ableitung von F berechnen. Diese ergibt sich durch die Kettenregel als

F ′(t) =

(∂f

∂x1

(x(t)), . . . ,∂f

∂xn

(x(t))

x′1(t)...

x′n(t)

=n∑

i=1

∂f

∂xi

(x(t))x′i(t).

Nehmen wir beispielsweise ganz konkret die Funktion f(x, y) = xy fur (x, y) ∈ R2 mitx > 0, so sind die partiellen Ableitungen

∂f

∂x= yxy−1 und

∂f

∂y= ln(x)xy

also wird beispielsweise fur F (x) = xx = f(x, x)

F ′(x) =∂f

∂x(x, x) +

∂f

∂y(x, x) = xxx−1 + ln(x)xx = (1 + ln x)xx,

wie wir auch im letzten Semester schon einmal uber die Formel F (x) = ex ln x gerechnethatten.

Oftmals wird die eben hergeleitete Formel auch in Termen sogenannter Differenti-alformen formuliert. Fur 1 ≤ i ≤ n bezeichne dxi : Rn → R die lineare Abbildung

dxi(u1, . . . , un) = ui.

Dann ist in der obigen Situation

df(x) := f ′(x) =n∑

i=1

∂f

∂xi

dxi,

und dies ist eine sogenannte 1-Form. Der Vorteil dieser Schreibweise ist es, die obigeFormel symbolisch als

dF

dt=

n∑i=1

∂f

∂xi

· dxi

dt

schreiben zu konnen, was sich gut merken laßt da man die Differentialform einfachsymbolisch durch dt teilen muss. Beachte das die dxi hier keine

”infinitesimalen Großen“

sind, die es in der Mathematik ja gar nicht gibt, sondern ganz konkrete Linearformen.Wir kommen jetzt zu den Produktregeln. So etwas wie

”die Produktregel“ gibt es

nicht, da es kein allgemeines Produkt von Vektoren gibt. Es gibt aber diverse Variantenvon Produktregeln, von denen wir zwei hier angeben wollen.

23-7

Page 8: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

Lemma 8.18 (Produktregeln fur Ableitungen)Seien n, m ∈ N mit n, m ≥ 1, U ⊆ Rn offen und f, g : U → Rm zwei Funktionen diein einem Punkt x ∈ U differenzierbar sind. Weiter sei auch die reellwertige Funktionλ : U → R in x differenzierbar. Dann gelten:

(a) Die Funktion λ · f ist in x differenzierbar und fur jedes u ∈ Rn gilt

(λ · f)′(x)u = (λ′(x)u) · f(x) + λ(x) · f ′(x)u.

(b) Das Skalarprodukt 〈f |g〉 : U → R ist in x differenzierbar und fur jedes u ∈ Rn gilt

〈f |g〉′(x)u = 〈f ′(x)u|g(x)〉+ 〈f(x)|g′(x)u〉.

Beweis: (a) Die Funktion

M : R× Rm → Rm; (t, v) 7→ tv

ist nach einem der obigen Beispiele in jedem Punkt (t, v) ∈ R×Rm differenzierbar mit

M ′(t, v)(s, u) = tu + sv.

Wegen λ · f = M ◦ (λ, f) ergibt die Kettenregel die Differenzierbarkeit von λ · f in xund fur jedes u ∈ Rn gilt

(λ · f)′(x)u = M ′(λ(x), f(x))(λ′(x)u, f ′(x)u) = λ(x)f ′(x)u + (λ′(x)u)f(x).

(b) Ebenfalls nach einem fruheren Beispiel ist das Skalarprodukt

〈 | 〉 : Rm × Rm → R

un jedem Punkt (v1, v2) ∈ Rm × Rm differenzierbar mit

〈 | 〉′(v1, v2)(u1, u2) = 〈v1|u2〉+ 〈u1|v2〉

fur alle u1, u2 ∈ Rm. Wegen 〈f |g〉 = 〈 | 〉 ◦ (f, g) ergibt die Kettenregel die Differen-zierbarkeit von 〈f |g〉 in x und fur jedes u ∈ Rn gilt

〈f |g〉′(x)u = 〈 | 〉′(f(x), g(x))(f ′(x)u, g′(x)u) = 〈f(x)|g′(x)u〉+ 〈f ′(x)u|g(x)〉.

Damit sind beide Aussagen des Lemmas bewiesen.

Nach diesem Schema kann man leicht weitere Produktregeln beweisen, etwa fur dasProdukt von Matrixfunktionen, fur das Vektorprodukt im R3 und so weiter. Jetzt habenwir die meisten der eindimensionalen Ableitungsregeln auf den mehrdimensionalen Fall

23-8

Page 9: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

verallgemeinert. Es fehlt nur die Quotientenregel, aber diese ist fur vektorwertige Funk-tionen auch nicht sinnvoll, und die Regel uber die Ableitung von Umkehrfunktionen.Letztere laßt sich auch auf den mehrdimensionalen Fall verallgemeinern, dabei wird derBeweis allerdings wesentlich komplizierter. Im eindimensionalen Fall brauchten wir furdie Differenzierbarkeit der Umkehrfunktion f−1 in einem Punkt f(x) die Bedingungf ′(x) 6= 0. In mehreren Dimesionen werden wir ebenfalls eine Bedingung brauchenaber f ′(x) 6= 0 reicht nicht mehr aus. Erinnern Sie sich daran das die Ableitung f ′(x)die lineare Naherung an f im Punkt x ist und damit erscheint es plausibel das dielineare Naherung der Umkehrfunktion f−1 im Punkt f(x) einfach die Umkehrfunktionvon f ′(x) sein sollte. Insbesondere muss die lineare Abbildung f ′(x) invertierbar sein,und fassen wir f ′(x) als Jacobi-Matrix auf, so bedeutet die Invertierbarkeit geradedet f ′(x) 6= 0. Es stellt sich heraus das all dies tatsachlich wahr ist, nur ist der Beweisleider deutlich komplizierter als im eindimensionalen Fall. Da uns insbesondere einwichtiges Hilfsmittel fur diesen Beweis fehlt, wollen wir auf einen Beweis des folgendenSatzes verzichten.

Satz 8.19 (Satz uber Umkehrfunktionen)Seien n ∈ N mit n ≥ 1, U ⊆ Rn offen und f : U → Rn eine stetig differenzierbareFunktion. Sei x0 ∈ U mit det f ′(x0) 6= 0. Dann gibt es offene Mengen V, W ⊆ Rn mitx0 ∈ V ⊆ U und f(x0) ∈ W so, dass f |V : V → W bijektiv ist und die Umkehrfunktion(f |V )−1 : W → V wieder stetig differenzierbar ist.

Aus diesem, hier nicht bewiesenen Satz konnen wir jetzt leicht die Umkehrregel folgern.

Korollar 8.20 (Umkehrregel fur Ableitungen)Seien n ∈ N mit n ≥ 1, U, V ⊆ Rn offen und f : U → V eine bijektive, stetig differen-zierbare Funktion mit det f ′(x) 6= 0 fur jedes x ∈ U . Dann ist auch die Umkehrabbildungf−1 : V → U stetig differenzierbar und fur jedes y ∈ V gilt

(f−1)′(y) = f ′(f−1(y))−1.

Beweis: Sei y ∈ V . Nach Satz 19 gibt es dann offene Mengen U ′, V ′ ⊆ Rn mit f−1(y) ∈U ′ ⊆ U und y ∈ V ′ so, dass f |U ′ : U ′ → V ′ bijektiv ist und (f |U ′)−1 : V ′ → U ′ stetigdifferenzierbar ist. Insbesondere ist V ′ = f(U ′) ⊆ V und somit ist f−1|V ′ = (f |U ′)−1

stetig differenzierbar. Damit ist f−1 insgesamt stetig differenzierbar. Wegen f−1 ◦ f =idU und f ◦ f−1 = idV ergibt die Kettenregel Satz 17 auch

(f−1)′(f(x)) ◦ f ′(x) = id′U(x) = idRn und f ′(f−1(y)) ◦ (f−1)′(y) = id′V (y) = idRn

fur alle x ∈ U , y ∈ V . Fur jedes y ∈ V ist damit (f−1)′(y) = f ′(f−1(y))−1.

Auch der Mittelwertsatz laßt sich auf den Fall mehrerer Variablen verallgemeinern,wir brauchen dafur aber noch eine bisher nicht behandelte Schreibweise. Seien E, F

23-9

Page 10: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

zwei normierte Raume und uber K ∈ {R, C} und T : E → F eine stetige lineareAbbildung. Nach §4.Lemma 15 gibt es dann eine Konstante C ≥ 0 mit ||Tu|| ≤ C||u||fur alle u ∈ E. Die minimale hierbei auftretende Konstante bezeichnen wir als dieNorm der linearen Abbildung T , d.h. wir definieren

||T || := inf{C ≥ 0|∀(u ∈ Rn) : ||Tu|| ≤ C||u||}.

Dies ist nicht nur ein Infimum sondern sogar ein Minimum, d.h. es gilt ||Tu|| ≤ ||T ||·||u||fur jedes u ∈ E. Dies ist leicht zu sehen, ist u ∈ E so gibt es fur jedes ε > 0 ein C ≥ 0mit C < ||T ||+ ε/(1 + ||u||) und ||Tv|| ≤ C||v|| fur alle v ∈ E, also insbesondere

||Tu|| ≤ C||u|| ≤(||T ||+ ε

1 + ||u||

)||u|| < ||T || · ||u||+ ε,

und somit muss auch ||Tu|| ≤ ||T || · ||u|| sein. Dies definiert uns tatsachlich eineNorm auf dem Vektorraum L(E, F ) aller stetigen linearen Abbildungen von E nachF . Zunachst ist offenbar ||0|| = 0 und ist umgekehrt T : E → F eine stetige, lineareAbbildung mit ||T || = 0, so gilt ||Tu|| ≤ ||T || · ||u|| = 0, also Tu = 0, fur jedes u ∈ E,und dies bedeutet T = 0. Sind T, S : E → F zwei stetige lineare Abbildungen, so giltfur jedes u ∈ E auch

||(T +S)u|| = ||Tu+Su|| ≤ ||Tu||+ ||Su|| ≤ ||T || · ||u||+ ||S|| · ||u|| = (||T ||+ ||S||)||u||,

d.h. T + S ist stetig mit ||T + S|| ≤ ||T ||+ ||S||. Sind schließlich T : E → F stetig undlinear und c ∈ K eine Konstante, so ist im Fall c = 0 trivialerweise ||cT || = 0 = |c|·||T ||und im Fall c 6= 0 ist fur jedes C ≥ 0 genau dann |c|·||Tu|| = ||cTu|| = ||(cT )u|| ≤ C||u||fur alle u ∈ E wenn ||Tu|| ≤ (C/|c|)||u|| fur alle u ∈ E ist, wenn also ||T || ≤ C/|c| gilt,also ist

||cT || = inf

{C ≥ 0

∣∣∣∣||T || ≤ C

|c|

}= |c| · ||T ||.

Also ist || || tatsachlich eine Norm auf L(E, F ). Mit diesem Begriff ausgestattet konnenwir jetzt die Mittelwertungleichung formulieren und beweisen.

Lemma 8.21 (Mittelwertungleichung)Seien n, m ∈ N mit n, m ≥ 1, U ⊆ Rn offen und f : U → Rm eine stetig differenzierbareFunktion. Weiter seien p, q ∈ U mit [p, q] ⊆ U . Dann gilt

||f(q)− f(p)|| ≤

(sup

x∈[p,q]

||f ′(x)||

)· ||q − p||.

Beweis: Schreibe M := sup{||f ′(x)|| : x ∈ [p, q]}. Die Kurve

c : [0, 1] → R; t 7→ (1− t)p + tq

23-10

Page 11: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

ist stetig differenzierbar mit c′(t) = q − p fur jedes t ∈ [0, 1]. Also ist nach der Ketten-regel Satz 17 auch f ◦ c eine stetig differenzierbare Kurve mit

(f ◦ c)′(t) = f ′(c(t))(q − p)

fur jedes t ∈ [0, 1], also auch

||(f ◦ c)′(t)|| = ||f ′(c(t))(q − p)|| ≤ ||f ′(c(t))|| · ||q − p|| ≤ M ||q − p||

da c(t) ∈ [p, q] ist. Die Behauptung folgt nun mit Lemma 12.

Wie schon in Lemma 12 laßt sich die Voraussetzung des Lemmas abschwachen, es reichtdas f differenzierbar ist und ||f ′(x)|| fur x ∈ [p, q] beschrankt ist. Außerdem beachte daswir im Rn und Rm beliebige Normen verwenden konnen und auf der Menge L(Rn, Rm)der linearen Abbildungen von Rn nach Rm dann die oben eingefuhrte Norm linearerAbbildungen verwenden mussen. Eine unmittelbare Folgerung des Mittelwertsatzes istdie Charakterisierung der konstanten Funktionen uber ihre Ableitung.

Korollar 8.22: Seien n ∈ N mit n ≥ 1, U ⊆ Rn offen und zusammenhangend undf : U → Rm eine differenzierbare Funktion mit f ′(x) = 0 fur jedes x ∈ U . Dann ist fkonstant.

Beweis: Wir mussen zeigen das f(p) = f(q) fur alle p, q ∈ U gilt. Seien also p, q ∈ Ugegeben. Da die offene Menge U zusammenhangend ist, gibt es nach Lemma 10 Punktep0, . . . , pr ∈ U mit p0 = p und pr = q so, dass [pi−1, pi] ⊆ U fur jedes 1 ≤ i ≤ n gilt.Fur jedes 1 ≤ i ≤ n ist damit nach Lemma 21 auch ||f(pi) − f(pi−1)|| = 0, alsof(pi) = f(pi−1). Dies ergibt f(p) = f(p0) = f(p1) = · · · = f(pr) = f(q).

8.6 Reellwertige Funktionen

Wir wollen uns jetzt auf den Spezialfall differenzierbarer Funktionen f : U → R kon-zentrieren, wobei U ⊆ Rn eine offene Menge ist. Diese Funktionen werden manchmalauch als Skalarfelder bezeichnet. Die Ableitung von f wird dann eine 1×n Matrix, diewir durch Transponieren als einen Vektor interpretieren konnen.

Definition 8.11 (Der Gradient)Seien n ∈ N mit n ≥ 1, U ⊆ Rn offen und f : U → R in x ∈ U differenzierbar. DerGradient von f in x ist dann der Vektor

grad f(x) :=

∂f∂x1

(x)...

∂f∂xn

(x)

= f ′(x)t.

23-11

Page 12: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

Alternativ wird oftmals auch die Schreibweise ∇f(x) = grad f(x) fur den Gradientenverwendet.

–4–2

02

4t –4

–2

0

2

4

s

0

10

20

30

40

50

60

70

In dieser Situation wird die Ableitung von f inx zu

f ′(x)u = f ′(x)ttu = f ′(x)t · u = grad f(x) · u

fur alle u ∈ Rn, die Ableitung ist also das Skalarpro-dukt mit dem Gradienten. Wie wir sehen werden,hat der Gradient zumindest im Fall grad f(x) 6= 0auch eine direkte geometrische Bedeutung, er zeigtimmer in die Richtung des starksten Anstiegs derFunktion f . Bevor wir dies begrunden, wollen wiruns das Phanomen an einigen Beispielen anschau-en. Wir beginnen mit der Funktion f(x, y) = x2+y2

und dem Punkt (x, y) = (1, 1).Der Punkt (x, y) = (1, 1) liegt hier in der Mitte des oben rechts gezeigten Graphen

und die Gradientenrichtung ist durch die etwas dicker eingezeichnete Linie angedeutet.In diesem Graphen scheint die Gradientenrichtung tatsachlich die Richtung maximalenAnstiegs fur die Funktion f zu sein. Schauen wir uns zwei weitere Beispiele diesmalmit der Funktion

f(x, y) = x sin y + y cos x

an.

–4

–2

0

2

4

t–4

–2

0

2

4

s

–5

0

5

–4–2

02

4

t

–4

–2

0

2

4

s

–8

–6

–4

–2

0

2

4

6

(x, y) = (1, 1) (x, y) = (0, 1)

23-12

Page 13: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

Im linken Graphen scheint die Gradientenrichtung nicht die Richtung maximalen An-stiegs zu sein, etwas weiter links vom Gradienten geht es viel starker nach oben. Dies istkein Widerspruch, die

”Richtung maximalen Anstiegs“ ist rein lokal gemeint. Schaut

man sich nur eine kleine Umgebung von (x, y) = (1, 1) an, so geht es in Gradientenrich-tung am starksten nach oben, dass es etwas weiter links noch besser geht ist eine globaleTatsache die auf den Gradienten keinen Einfluss hat. Nehmen wir wie im rechten Gra-phen dagegen den Startpunkt (x, y) = (0, 1) weiter links, so lauft die Gradientenkurvewirklich uber den Gipfel links von (x, y) = (1, 1).

Wir haben jetzt an einigen Beispielen gesehen, dass der Gradient grad f(x), soferner nicht gerade Null ist, in die Richtung des starksten Anstiegs der Funktion f zeigt.Wir wollen uns diese Tatsache nun kurz klarmachen. Seien dazu eine offene MengeU ⊆ Rn, ein Punkt x ∈ U und eine in x differenzierbare Funktion f : U → R gegeben.Wir nehmen grad f(x) 6= 0 an. Fur ausreichend kleine h ∈ Rn gilt dann

f(x + h) = f(x) + f ′(x)h + τ(h) = f(x) + grad f(x) · h + τ(h)

wobei der Fehler τ(h) im Vergleich zum linearen Term klein ist. Ist nun φ der Winkelzwischen grad f(x) und h, so konnen wir dies weiter als

f(x + h) = f(x) + | grad f(x)| · |h| · cos φ + τ(h)

schreiben. Der Winkel φ ist dabei im Bereich zwischen Null und π und cos φ variiertzwischen 1 und −1. Der dominierende, lineare Anteil steigt damit am starksten wenncos φ = 1 also φ = 0 ist, d.h. wenn h = c grad f(x) mit c > 0 ein positives Vielfachesdes Gradienten ist. Diese Uberlegung zeigt die schon angekundigte Tatsache:

Der Gradient zeigt in die Richtung des starksten Anstiegs der Funktion f .

Außerdem sehen wir dass der Betrag des Gradienten gerade die Rate dieses Anstiegsangibt. Fur grad f(x) = 0 konnen wir dagegen ohne weitere Informationen nichts rech-tes sagen. Fur reellwertige Funktionen erhalten wir einen Mittelwertsatz und nicht nureine Mittelwertungleichung wie im vektorwertigen Fall.

Lemma 8.23 (Mittelwertsatz fur reellwertige Funktionen)Seien n ∈ N mit n ≥ 1, U ⊆ Rn offen, f : U → R eine differenzierbare Funktion undp, q ∈ U mit [p, q] ⊆ U . Dann existiert ein ξ ∈ [p, q] mit ξ 6= p, q und

f(q)− f(p) = grad f(ξ) · (q − p).

Beweis: Wir betrachten die Hilfsfunktion

g : [0, 1] → R; t 7→ f((1− t)p + tq).

Nach der Kettenregel Satz 17 ist g differenzierbar mit

g′(t) = f ′((1− t)p + tq)(q − p) = grad f((1− t)p + tq) · (q − p)

23-13

Page 14: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

fur alle t ∈ [0, 1]. Der eindimensionale Mittelwertsatz I.§14.Satz 10 liefert ein s ∈ (0, 1)mit g′(s) = g(1)− g(0) = f(q)− f(p), und setzen wir ξ := (1− s)p + sq ∈ [p, q]\{p, q},so ist damit f(q)− f(p) = grad(f)(ξ) · (q − p).

Wir wenden uns jetzt dem Problem der Bestimmung der Maxima und Minima einerFunktion f : Rn → R zu. Wir beginnen mit einigen Definitionen.

Definition 8.12 (Lokale Extrema)Seien n ∈ N mit n ≥ 1, U ⊆ Rn offen und f : U → R eine Abbildung. Ein Punkt x ∈ Uheißt ein lokales Maximum (Minimum) von f , wenn es ein ε > 0 mit Bε(x) ⊆ U undf(y) ≤ f(x) (f(y) ≥ f(x)) fur alle y ∈ Bε(x) gibt. Weiter heißt x ein lokales Extremumvon f wenn x ein lokales Maximum oder ein lokales Minimum von f ist.

Schließlich heißt x ∈ U ein kritischer Punkt von f wenn f in x differenzierbar istund grad f(x) = 0 gilt.

Um bei einer reellen Funktion f : [a, b] → R Maximum und Minimum zu suchen,bestimmt man zuerst die Nullstellen der Ableitung f ′, und vergleicht dann die Funk-tionswerte in diesen Ableitungsnullstellen miteinander und mit den Funktionswertenf(a), f(b) am Rand des Intervalls. Der großte der so erhaltenen Werte ist das Maxi-mum von f auf [a, b] und der kleinste ist das Minimum. Dabei ist es nicht notig zuentscheiden, welche der Nullstellen von f ′ lokale Maxima, lokale Minima oder keinesvon beiden sind, das simple Einsetzen und Vergleichen ist rechnerisch viel einfacher.

Bei Funktionen in mehreren Variablen funktioniert im wesentlichen derselbe Re-chenweg, nur werden die rechnerischen Details etwas aufwendiger. Zuerst machen wiruns klar, dass lokale Extrema einer differenzierbaren Funktion immer kritische Punktesind.

Satz 8.24: Seien n ∈ N mit n ≥ 1, U ⊆ Rn offen und f : U → R eine Funktion. Istdann x ∈ U ein lokales Extremum von f und ist f in x differenzierbar, so ist x auchein kritischer Punkt von f .

Beweis: Setze v := grad f(x) ∈ Rn und betrachte die Funktion

g : (−ε, ε) → R; t 7→ f(x + tv),

wobei ε > 0 mit x + tv ∈ U fur alle t ∈ R mit |t| < ε gewahlt ist. Dann hat g in t = 0ein lokales Extremum, also

0 = g′(0) = ∂vf(x) = f ′(x)v = v · v = ||v||2,

und somit ist grad f(x) = v = 0.

In geometrischen Termen ist dies die simple Tatsache, dass die Tangentialebene ineinem lokalen Extremum waagerecht ist. Der Satz gibt uns eine Methode Kandidatenfur lokale Extrema zu berechnen indem wir nach kritischen Punkten suchen. Allerdings

23-14

Page 15: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

ist nicht jeder kritische Punkt ein lokales Extremum, beispielsweise hat f(x, y) = x2−y2

einen kritischen Punkt in (x, y) = (0, 0) aber dort ist kein lokales Extremum. Wieman entscheidet ob ein kritischer Punkt ein lokales Extremum ist, werden wir spaterbehandeln.

Fur die Berechnung globaler Extrema tritt dieses Problem nicht auf, und wir wollenuns jetzt ein Rechenverfahren fur globale Extrema uberlegen. Gegeben seien eine offeneMenge U ⊆ Rn, eine differenzierbare Funktion f : U → R und eine abgeschlosseneTeilmenge M ⊆ U . Wir wollen die großten beziehungsweise kleinsten Werte von f aufder Menge M finden. Nehmen wir einmal an, es gibt uberhaupt ein globales Maximimvon f auf M , also einen Punkt x ∈ M mit f(x) ≥ f(y) fur alle y ∈ M . Dann konnenzwei verschiedene Falle auftreten.

M

x

M

x

x ∈ M◦ =⇒lokales Extremum x ∈ ∂M , x muss keinlokales Extremum sein.

Ist x ein innerer Punkt von M , also Bε(x) ⊆ M fur einen kleinen Radius ε > 0, so istinsbesondere f(x) ≥ f(y) fur alle y ∈ Bε(x) ⊆ M , d.h. x ist auch ein lokales Maximumvon f , und nach Satz 24 insbesondere ein kritischer Punkt von f . Ist x dagegen aufdem Rand von M so konnen wir nichts weiter sagen, jede Kugel Bε(x) enthalt auchPunkte y außerhalb M und wir wissen nicht ob fur diese auch f(x) ≥ f(y) ist. Indiesem Fall ist x aber zumindest ein globales Maximum von f auf dem Rand ∂M vonM . Die Kandidaten fur das globale Maximum x sind also zum einen die kritischenPunkte von f in M◦ und zum anderen die globalen Maxima von f auf ∂M .

Diese Uberlegung funktioniert nur, wenn es uberhaupt ein globales Maximum x ∈M von f gibt, und um dies sicherzustellen kann man beispielsweise fordern das dieMenge M kompakt ist. Analoges gilt naturlich auch fur globale Minima von f auf M .Damit haben wir das folgende Rechenverfahren begrundet:

Gegeben: Eine offene Menge U ⊆ Rn, eine differenzierbare Funktion f : U → Rund eine abgeschlossene Menge M ⊆ U auf der f ein globales Maximum (Minimum)besitzt.

Gesucht: Das globale Maximum (Minimum) von f auf M also ein x ∈ M mit f(x) ≥f(y) (f(x) ≤ f(y)) fur alle y ∈ M .

Verfahren: Die Rechnung lauft in den folgenden Schritten ab.

1. Bestimme alle kritischen Punkte x ∈ M◦ von f im Inneren von M .

23-15

Page 16: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

2. Bestimme die Funktionswerte der in Schritt (1) berechneten kritischen Punkte,und suche unter diesen den großten beziehungsweise kleinsten Wert heraus.

3. Bestimme das Maximum beziehungsweise Minimum von f auf dem Rand ∂Mvon M , und vergleiche es mit dem in Schritt (2) gefundenen Wert. Je nach demErgebnis dieses Vergleichs ist das Maximum, beziehungsweise Minimum, dannder in Schritt (2) oder Schritt (3) gefundene Wert.

Die kritischen Punkte sind diejenigen Punkte in denen alle partiellen Ableitungenverschwinden, zu ihrer Berechnung mussen wir also jede der partiellen Ableitungen∂f/∂xi = 0 setzen, und erhalten n Gleichungen fur unsere n Unbekannten. Rechen-schritt (3) kann dagegen sehr aufwendig werden, wie wir bald an unseren Beispielensehen werden.

00.5

11.5

2

x0.5

11.5

2

y

–1

0

1

2

3

4

Als ein Beispiel betrachten wir die Funktion

f : R2 → R; (x, y) 7→ x2y + y2 − 2y − xy

und wollen Maxima und Minima auf dem Quadrat

M := [0, 2]× [0, 2] = {(x, y) ∈ R2|0 ≤ x, y ≤ 2}

bestimmen. Zuerst suchen wir die kritischen Punkteim Inneren

M◦ = (0, 2)× (0, 2) = {(x, y) ∈ R2|0 < x, y < 2}

von M . Dass (x, y) ein kritischer Punkt von f ist,bedeutet

grad f(x, y) =

( ∂f∂x

(x, y)∂f∂y

(x, y)

)!= 0.

wir mussen also die beiden partiellen Ableitungen von f gleich Null setzen. Es gelten

∂f

∂x= 2xy − y = (2x− 1)y,

∂f

∂y= x2 + 2y − 2− x = x2 − x + 2(y − 1).

Die Losungen von ∂f/∂x = 0 in M◦ sind die Punkte (1/2, y) mit 0 < y < 1, da dieLosungen mit y = 0 auf dem Rand von M liegen. Setzen wir x = 1/2 in die zweiteGleichung ein, so wird diese zu

2(y − 1)− 1

4= 0 =⇒ y = 1 +

1

8=

9

8.

23-16

Page 17: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

Wir haben also nur einen einzigen kritischen Punkt (x, y) = (1/2, 9/8) in M◦ und derFunktionswert in diesem Punkt ist

f

(1

2,9

8

)=

1

4· 9

8+

81

64− 9

4− 1

2· 9

8=

18 + 81− 144− 36

64= −81

64.

Der Rand von M besteht aus den vier begrenzenden Strecken

∂M = [0, 2]× {0, 2} ∪ {0, 2} × [0, 2],

und wir berechnen

f(t, 0) = 0, min = 0, max = 0,

f(t, 2) = 2t2 − 2t = 2t(t− 1), min = −1

2, max = 4,

f(0, t) = t2 − 2t, min = −1, max = 0,

f(2, t) = t2, min = 0, max = 4.

Wir haben also ein eindeutiges globales Minimum bei

(x, y) =

(1

2,9

8

)mit f(x, y) = −81

64

und auch ein eindeutiges globale Maximum bei

(x, y) = (2, 2) mit f(x, y) = 4.

An diesen Beispiel konnen wir zwei Dinge beobachten. Zum einen bedeutet die Suchenach den kritischen Punkten das Losen von n Gleichungen in n Unbekannten, man mussja die n partiellen Ableitungen gleich Null setzen. Zum anderen ist das Berechnen vonMaximum und Minimum auf dem Rand selbst wieder ein globales Maximum/MinimumProblem, aber normalerweise eine Dimension kleiner. Je nachdem wie kompliziert derRand ∂M von M ist, kann dieser Teil der Rechnung den großten Teil der Arbeitverursachen.

Wir wollen ein zweites Beispiel rechnen. Diesmal betrachten wir die Funktion

f(x, y, z) := x2 + 4y2 − 2xyz + sin(πz)

auf der kompakten Menge M := [0, 3]3. Wir berechnen

∂f

∂x= 2x− 2yz,

∂f

∂y= 8y − 2xz,

∂f

∂z= −2xy + π cos(πz).

23-17

Page 18: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

Zur Bestimmung der kritischen Punkte (x, y, z) ∈ M◦ = (0, 3)3 rechnen wir

∂f

∂x= 0 =⇒ x = yz,

und Einsetzen in die zweite Gleichung gibt

∂f

∂y= 8y − 2xz = 8y − 2yz2 = 2y(4− z2)

!= 0.

Wegen y, z > 0 ist z2 = 4 und z = 2, x = 2y, also ergibt die dritte Gleichung

∂f

∂z= −2xy + π cos(πz) = π − 4y2 !

= 0 =⇒ y =1

2

√π, x = 2y =

√π.

Damit haben wir einen eindeutigen kritischen Punkt in (x, y, z) ∈ M◦ mit Funktions-wert

f

(√π,

1

2

√π, 2

)= π + π − 2π + sin(2π) = 0.

Der Rand ∂M des Wurfels M setzt sich diesmal aus sechs Seitenflachen zusammen,und auf diesen Seitenflachen haben wir die Werte

f(0, y, z) = 4y2 + sin(πz), f(3, y, z) = 9 + 4y2 − 6yz + sin(πz),f(x, 0, z) = x2 + sin(πz), f(x, 3, z) = 36 + x2 − 6xz + sin(πz),f(x, y, 0) = x2 + 4y2, f(x, y, 3) = x2 + 4y2 − 6xy.

Fur die drei links stehenden Seiten haben wir ein eindeutiges Maximum f(3, 3, 0) =45 und ein eindeutiges Minimum f(0, 0, 3/2) = −1. Betrachte jetzt die Hilfsfunktiong(t, z) = λt2 − 6tz + sin(πz) fur 0 ≤ t, z ≤ 3, λ ∈ {1, 4}. Bei fixierten z ist dies einenach oben geoffnete Parabel mit ∂g/∂t(t, z) = 2λt− 6z, also Scheitel in t = 3z/λ. DieFunktionswerte an den Randern und im Scheitelpunkt sind

g(0, z) = sin(πz), g

(3z

λ, z

)= sin(πz)− 9

λz2, g(3, z) = 9λ− 18z + sin(πz).

Im Fall 3z/λ ≤ 3, also z ≤ λ, ist dann

min0≤t≤3

g(t, z) = sin(πz)− 9

λz2 und max

0≤t≤3g(t, z) = max{sin(πz), 9λ− 18z + sin(πz)}

=

{9λ− 18z + sin(πz), 0 ≤ z ≤ λ

2,

sin(πz), λ2≤ z ≤ λ,

wahrend im Fall z ≥ λ stets

min0≤t≤3

g(t, z) = 9λ− 18z + sin(πz) und max0≤t≤3

g(t, z) = sin(πz)

ist. Damit ist

min0≤y,z≤3

f(3, y, z) = 9 + min0≤z≤3

(sin(πz)− 9

4z2

).

23-18

Page 19: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

–20

–15

–10

–5

00.5 1 1.5 2 2.5 3

z

Um das rechts stehende Minimum zu berechnen, bildenwir

d

dz

(sin(πz)− 9

4z2

)= π cos(πz)− 9

2z.

Die Ableitung ist also zunachst positiv hat dann eineeindeutige Nullstelle und ist anschließend negativ. Da-mit ist sin(πz) − (9/4)z2, wie auch im nebenstehendenGraph gezeigt, zunachst monoton steigend, hat dann einMaximum und ist anschließend monoton fallend. Das Mi-nimum wird also in einem der beiden Randpunkte z = 0oder z = 3 angenommen, und wir erhalten

min0≤z≤3

(sin(πz)− 9

4z2

)= min

{0,−81

4

}= −81

4,

also insgesamt

min0≤y,z≤3

f(3, y, z) = 9− 81

4= −45

4.

Wegend

dz(9λ− 18z + sin(πz)) = π cos(πz)− 18 < 0

ist z 7→ 9λ− 18z + sin(πz) monoton fallend, also

max0≤z≤λ/2

(9λ− 18z + sin(πz)) = 9λ.

Im Fall λ = 4 haben wir damit

max0≤t,z≤3

g(t, z) = 36,

und somit istmax

0≤y,z≤3f(3, y, z) = 9 + max

0≤t,z≤3g(t, z) = 45.

Wir kommen nun zu f(x, 3, z), setzen also λ = 1. Analog zur obigen Rechnung habenwir

min0≤z≤1

(sin(πz)− 9z2) = min{0,−9} = −9

und somitmin0≤t≤30≤z≤1

g(t, z) = −9.

Weiter istmin0≤t≤31≤z≤3

g(t, z) = min1≤z≤3

(9− 18z + sin(πz)) = 9− 54 = −45,

also insgesamt

min0≤t,z≤3

g(t, z) = −45 und min0≤x,z≤3

f(x, 3, z) = 36− 45 = −9.

23-19

Page 20: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

Weiter sindmax

0≤t,z≤3g(t, z) = 9 und max

0≤x,z≤3f(x, 3, z) = 36 + 9 = 45.

Den letzten Term f(x, y, 3) mussen wir nicht mehr betrachten da er keine kritischenPunkte im Inneren hat, und sein Rand schon durch die anderen funf Seitenflachenabgedeckt ist. Insgesamt haben wir eindeutige Maxima und Minima

min(x,y,z)∈M

f(x, y, z) = −45

4angenommen in (x, y, z) =

(3,

9

4, 3

)und

max(x,y,z)∈M

f(x, y, z) = 45 angenommen in (x, y, z) = (3, 3, 0).

–2

–1

0

1

2

x

–2

–1

0

1

2

y

–2

–1

0

1

2

Die Rechnung in diesem Beispiel war schon rechtaufwendig, der Rand besteht aus sechs Teilen undin einigen davon haben wir seinerseits wieder auf-wendige, zweidimensionale Optimierungsaufgabenzu rechnen. Wir wollen noch ein letztes Beispielrechnen in dem die Funktion f auf einer nicht kom-pakten Menge maximiert werden soll. Um zu sehenob auch dieses Beispiel von unserem Rechenverfah-ren erfasst wird, mussen wir begrunden das es uber-haupt ein globales Maximum gibt, dies werden wiraber erst als letzten Schritt am Ende der Rechnungdurchfuhren. Sei

f : R2 → R; (x, y) 7→ (3x + 4y)e−x2−y2

.

Zunachst bestimmen wir die kritischen Punkte

∂f

∂x= (3− 6x2 − 8xy)e−x2−y2

,

∂f

∂y= (4− 8y2 − 6xy)e−x2−y2

.

Wir haben also zwei Gleichungen, und die erste liefert

x 6= 0 und y =3− 6x2

8x.

Setzen wir dies in die zweite Gleichung ein, so wird

0 = 4− 89− 36x2 + 36x4

64x2− 9− 18x2

4=

32x2 − 9 + 36x2 − 36x4 − 18x2 + 36x4

8x2

=50x2 − 9

8x2,

23-20

Page 21: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

also

x = ± 3

5√

2= ± 3

10

√2 und y = ±

3− 6·950

8 · 35√

2

= ±2

5

√2.

Die Funktionswerte in diesen Punkten sind

f

(± 3

10

√2,±3

5

√2

)= ±5

2

√2e−1/2 ≈ ±2, 1444.

Dies sind tatsachlich das im Graphen ersichtliche Maximum und Minimum, aber wirwollen noch begrunden warum die Rechnung funktioniert obwohl M = R2 nicht kom-pakt ist. Hierzu beachten wir

limx2+y2→∞

f(x, y) = 0,

und f(−1, 0) < 0, f(1, 0) > 0. Wahlen wir also r > 0 groß genug, so ist

maxx∈R2

f(x) = maxx∈Br(0)

f(x)

und da der Kreis Br(0) kompakt ist, muss es ein globales Maximum geben.

§9 Ableitungen hoherer Ordnung

Schon in §1.2 hatten wir partielle Ableitungen hoherer Ordnung eingefuhrt undeine Funktionen f : U → R definiert auf einer offenen Menge U ⊆ Rn wurde r-fachpartiell differenzierbar genannt wenn alle partiellen Ableitungen der Funktion f biszur Ordnung r auf ganz U existieren. Diesen Begriff konnen wir auf vektorwertigeFunktionen f : U → Rm verallgemeinern indem wir eine solche Funktion r-fach partielldifferenzierbar nennen wenn dies auf alle Komponenten fj fur 1 ≤ j ≤ m zutrifft. Sindzusatzlich diese samtlichen Ableitungen auch noch stetig, so nennen wir f dann r-fach stetig partiell differenzierbar. In dieser Terminologie haben wir im letzten Kapitelgezeigt, dass eine Funktion f : U → Rm genau dann stetig differenzierbar ist wennsie stetig partiell differenzierbar ist. Auch mehrfache Differenzierbarkeit konnen wirinduktiv definieren. Fur eine Funktion f : U → Rm mit U ⊆ Rn offen, ist die Ableitungeine Funktion

f ′ : U → Rm×n = Rmn.

Ist auch diese differenzierbar so nennen wir f zweifach differenzierbar und haben einezweite Ableitung

f ′′ : U → Rmn2

.

So fortfahrend ergibt sich:

23-21

Page 22: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

Definition 9.1 (Hoherer Ableitungen)Seien n, m ∈ N mit n, m ≥ 1, U ⊆ Rn offen und f : U → Rm eine Funktion. Weitersei r ∈ N mit r ≥ 2 und die (r− 1)-fache Differenzierbarkeit von f sowie die (r− 1)-teAbleitung f (r−1) : U → Rmnr−1

seien bereits definiert. Wir nennen f dann in einemPunkt x ∈ U r-fach differenzierbar wenn f (r − 1)-fach differenzierbar ist und f (r−1)

in x differenzierbar ist. Die r-te Ableitung von f in x definieren wir in diesem Fall als

f (r)(x) := (f (r−1))′(x) ∈ Rmnr

.

Ist f dann in jedem Punkt x ∈ U stets r-fach differenzierbar, so heißt f eine r-fachdifferenzierbare Abbildung und die obige Formel definiert eine Funktion f (r) : U →Rmnr

, genannt die r-te Ableitung von f . Schlieslich heißt f r-fach stetig differenzierbarwenn f r-fach differenzierbar ist und die r-te Ableitung f (r) stetig ist.

Nach §8.Lemma 14 sind die Komponenten von f ′ gerade die partiellen Ableitung∂fj/∂xi. Eine weitere Anwendung dieses Lemmas liefert das das Komponenten vonf ′′ = (f ′)′ die partiellen Ableitungen

∂xi

(∂fk

∂xj

)=

∂2f

∂xi∂xj

(1 ≤ k ≤ m, 1 ≤ i, j ≤ n)

zweiter Ordnung sind. So fortfahrend sind die Komponenten von f (r) die partiellenAbleitungen r-ter Ordnung. Fur die erste Ableitung r = 1 wissen wir aus §8 auch dasstetige Differenzierbarkeit gleichwertig zu stetiger partieller Differenzierbarkeit ist, undwenden wir diese Tatsache mehrfach an, so ergibt sich das folgende Lemma.

Lemma 9.1: Seien n, m, r ∈ N mit n, m, r ≥ 1, U ⊆ Rn offen und f : U → Rm eineFunktion. Dann ist f genau dann r-fach stetig differenzierbar wenn f r-fach stetigpartiell differenzierbar ist.

Beweis: Klar durch iterierte Anwendung des entsprechenden Resultats fur r = 1.

Wahrend r-fache Differenzierbarkeit also ein etwas diffiziler Begriff ist, ist die r-fachestetige Differenzierbarkeit vergleichsweise einfach zu entscheiden, man muss sich nurdie partiellen Ableitungen r-ter Ordnung anschauen. Um mit diesen hoheren partiel-len Ableitungen gut umgehen zu konnen, mussen wir wissen das diese fur ausreichendgutartige Funktionen nicht von der Reihenfolge abhangen in der die partiellen Ablei-tungen ausgefuhrt werden. Fur zu allgemeine Funktionen ist dies falsch, wie wir schonin der allerersten Aufgabe (1) dieses Semesters gesehen haben. Wir werden sehen dasdie zweifache Differenzierbarkeit ausreicht um das Vertauschen zweifacher partiellerAbleitungen zu ermoglichen.

Hierzu beginnen wir mit einer Vorbemerkung. Seien n ∈ N mit n ≥ 1, eine offeneMenge U ⊆ Rn und eine differenzierbare Funktion f : U → R gegeben. Die Ableitungvon f ist dann als Jacobi-Matrix interpretiert

f ′(x) =

(∂f

∂x1

(x), . . . ,∂f

∂xn

(x)

)23-22

Page 23: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

fur jedes x ∈ U . Ist f jetzt in einem Punkt x ∈ U sogar zweifach differenzierbar,so ist die Ableitung f ′′(x) eine lineare Abbildung f ′′(x) : Rn → Rn. Haben wir alsozwei Vektoren u, v ∈ Rn, so ist f ′′(x)(u) ∈ Rn aufgefasst als Zeilenvektor, und wirkonnen f ′′(x)(u)v ∈ R bilden. Wir benotigen eine etwas konkretere Beschreibung dieserAbbildung. Hierzu fuhren wir die lineare Abbildung φ : R1×n → R; w 7→ wv ein, underhalten mit der Kettenregel §8.Satz 17 und wegen φ′(y) = φ fur jedes y ∈ R1×n auch

f ′′(x)(u)v = φ(f ′′(x)u) = φ′(f ′(x))(f ′′(x)u) = (φ′(f ′(x)) ◦ f ′′(x))u = (φ ◦ f ′)′(x)u.

Fur jedes y ∈ U gilt dabei

(φ ◦ f ′)(y) = φ(f ′(y)) = f ′(y)v =n∑

i=1

∂f

∂xi

(y)vi,

also wird

f ′′(x)(u)v = (φ ◦ f ′)′(x)u =n∑

j=1

∂xj

∣∣∣∣x

(n∑

i=1

∂f

∂xi

vi

)uj =

∑1≤i,j≤n

∂2f

∂xj∂xi

(x)viuj.

Fuhren wir also die n× n-Matrix

H :=

∂2f∂x2

1(x) · · · ∂2f

∂xn∂x1(x)

.... . .

...∂2f

∂xn∂x1(x) · · · ∂2f

∂x2n(x)

ein, so haben wir

(Hu) · v =∑

1≤i,j≤n

∂2f

∂xj∂xi

(x)viuj = f ′′(x)(u)v.

Die Matrix H wird uns spater noch einmal begegnen, daher wollen wir ihr hier nochkeinen eigenen Namen geben. Dass die Reihenfolge der zweiten partiellen Ableitungenkeine Rolle spielt, bedeutet genau das die Matrix H symmetrisch ist. Weiter habenwir zu Beginn des §6 gesehen, dass H genau dann symmetrisch ist, wenn (Hu) · v =u·(Hv) = (Hv)·u fur alle u, v ∈ Rn gilt, d.h. die Vertauschbarkeit der zweiten partiellenAbleitungen bedeutet das

f ′′(x)(u)v = f ′′(x)(v)u

fur alle u, v ∈ Rn gilt. Mit dieser Beobachtung sind wir zum Beweis des nachsten Satzesbereit.

Satz 9.2 (Lemma von Schwarz)Seien n ∈ N mit n ≥ 1, U ⊆ Rn offen und f : U → R eine differenzierbare Funktion.Weiter sei f in einem Punkt x ∈ U zweifach differenzierbar. Dann gilt

∂2f

∂xi∂xj

(x) =∂2f

∂xj∂xj

(x)

23-23

Page 24: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

fur alle 1 ≤ i, j ≤ n.

Beweis: Wir weisen dies in der eingangs hergeleiteten Form nach. Seien also u, v ∈ Rn

gegeben. Wir behaupten das dann

f ′′(x)(v)u = lims↓0

f(x + su + sv)− f(x + su)− f(x + sv) + f(x)

s2

gilt. Sei also ε > 0 vorgegeben. Die zweifache Differenzierbarkeit von f in x bedeutetdas es ein δ1 > 0 mit Bδ1(x) ⊆ U gibt so, dass wir fur alle h ∈ Rn mit ||h|| < δ1

f ′(x + h) = f ′(x) + f ′′(x)h + τ(h)

haben, wobei limh→0 ||τ(h)||/||h|| = 0 ist. Insbesondere existiert ein δ2 > 0 mit δ2 ≤ δ1

und||τ(h)||||h||

1 + ||u||(2||u||+ ||v||)fur alle h ∈ Rn mit 0 < ||h|| < δ2, also

||τ(h)|| ≤ ε||h||1 + ||u||(2||u||+ ||v||)

fur alle h ∈ Rn mit ||h|| < δ2. Setze δ := δ2/(1 + ||u|| + ||v||) > 0. Sei jetzt s ∈ R mit0 < s < δ gegeben. Fur jedes 0 ≤ t ≤ 1 sind dann

||tsu + sv|| ≤ s(t||u||+ ||v||) ≤ s(||u||+ ||v||) ≤ δ(||u||+ ||v||) < δ2 ≤ δ1

und ||tsu|| = ts||u|| ≤ s||u|| ≤ s(||u|| + ||v||) < δ2 ≤ δ1, und insbesondere x + tsu +sv, x + tsu ∈ Bδ1(x) ⊆ U . Damit ist die reelle Funktion

g : [0, 1] → R; t 7→ f(x + tsu + sv)− f(x + tsu)

wohldefiniert, und nach der Kettenregel §8.Satz 17 ist g differenzierbar mit

g′(t) = s(f ′(x + tsu + sv)− f ′(x + tsu)

)u

fur alle t ∈ [0, 1]. Nach dem Mittelwertsatz I.§14.Satz 10 existiert ein ξ ∈ (0, 1) mit

f(x + su + sv)− f(x + su)− f(x + sv) + f(x) = g(1)− g(0)

= g′(ξ) = s(f ′(x + ξsu + sv)− f ′(x + ξsu)

)u.

Weiter sind ||ξsu + sv|| ≤ ξs||u|| + s||v|| ≤ s(||u|| + ||v||) < δ2 ≤ δ1 und ||ξsu|| =ξs||u|| ≤ ξs||u||+ s||v|| < δ2 ≤ δ1, also haben wir

f ′(x + ξsu + sv)− f ′(x) = sf ′′(x)(ξu + v) + τ(ξsu + sv),

f ′(x + ξsu)− f ′(x) = sf ′′(x)(ξu) + τ(ξsu),

23-24

Page 25: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

und dies ergibt

f ′(x + ξsu + sv)− f ′(x + ξsu) = (f ′(x + ξsu + sv)− f ′(x))− (f ′(x + ξsu)− f ′(x))

= sf ′′(x)(v) + τ(ξsu + sv)− τ(ξsu).

Setzen wir dies in die obige Formel ein, so folgt weiter

f(x+su+sv)−f(x+su)−f(x+sv)+f(x) = s2f ′′(x)(v)u+sτ(ξsu+sv)u−sτ(ξsu)u.

Damit ist schließlich∣∣∣∣∣∣∣∣f(x + su + sv)− f(x + su)− f(x + sv) + f(x)

s2− f ′′(x)(v)u

∣∣∣∣∣∣∣∣=

∣∣∣∣∣∣∣∣τ(ξsu + sv)u

s− τ(ξsu)u

s

∣∣∣∣∣∣∣∣ ≤ ||τ(ξsu + sv)u||s

+||τ(ξsu)u||

s

≤(||τ(ξsu + sv)||

s+||τ(ξsu)||

s

)||u|| ≤ (2||u||+ ||v||) ε||u||

1 + ||u||(2||u||+ ||v||)< ε.

Somit ist tatsachlich

f ′′(x)(v)u = lims↓0

f(x + su + sv)− f(x + su)− f(x + sv) + f(x)

s2.

Die rechte Seite dieser Gleichung andert sich nicht bei Vertauschen von u und v, d.h.wir haben f ′′(x)(v)u = f ′′(x)(u)v fur alle u, v ∈ Rn, und dies war zu zeigen.

Durch mehrfache Anwendung des Lemmas kann man einen allgemeinen Vertauschungs-satz fur partielle Ableitungen beweisen. Zunachst kann man vektorwertige Funktionenbehandeln indem Satz 2 auf jede einzelne Komponentenfunktion angewandt wird. Einallgemeines Vertauschen einer p-fachen partiellen Ableitung kann man durch mehre-re Vertauschungen direkt aufeinanderfolgender partieller Ableitungen erreichen, unddass diese Einzelschritte moglich sind wissen wir bereits. Verwenden wir zusatzlich dasp-fache stetige Differenzierbarkeit gleichwertig zu p-facher partieller, stetiger Differen-zierbarkeit ist, so ergibt sich das folgende allgemeine Vertauschungslemma fur partielleAbleitungen.

Korollar 9.3 (Vertauschbarkeit partieller Ableitungen)Seien n, m ∈ N mit n, m ≥ 1, U ⊆ Rn offen, p ∈ N mit p ≥ 1 und f : U → Rm einep-fach stetig differenzierbare Funktion. Dann kann man die die Reihenfolge partiellerAbleitungen bis zu Ordnung p beliebig umordnen, d.h. sind 1 ≤ r ≤ p, 1 ≤ i1, . . . , ir ≤ nund ist π ∈ Sr eine Permutation, so gilt

∂rf

∂xi1 · · · ∂xir

(x) =∂rf

∂xiπ(1)· · · ∂xiπ(r)

(x)

fur alle x ∈ U .

23-25

Page 26: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

Beweis: Wie schon gesehen folgt dies durch iterierte Anwendung von Satz 2.

Bei uns sind die Voraussetzungen des Korollars eigentlich immer erfullt, ist die Funkti-on f durch explizite Formeln aus den Grundfunktionen zusammengesetzt, so existierenalle partiellen Ableitungen beliebiger Ordnung und sind auch stetig, also lassen sichpartielle Ableitungen in dieser Situation nach dem Satz beliebig umordnen.

9.1 Multiindizes

Wir haben schon fruher mehrfache partielle Ableitungen nach derselben Variable in

”Potenzschreibweise“ zusammengefasst, also beispielsweise

∂2f

∂x∂x=

∂2f

∂x2,

∂3f

∂y∂y∂y=

∂3f

∂y3,

∂3f

∂x∂y∂y=

∂3f

∂x∂y2, . . .

Sind die Voraussetzungen des Korollar 3 erfullt, so konnen wir diese Schreibweise mitdem Umordnen partieller Ableitungen kombinieren, beispielsweise

∂3f

∂x∂y∂x=

∂3f

∂x∂x∂y=

∂3f

∂x2∂y.

Damit konnen wir unter den Voraussetzungen von Korollar 3 die hoheren partiellenAbleitungen einer Funktion f immer in Standardform

∂k1+···+krf

∂xk1i1· · · ∂xkr

ir

mit 1 ≤ i1 < i2 < . . . < ir ≤ n schreiben. Lassen wir hier auch nullte Potenzen zu, sokonnen wir diese Schreibweise noch etwas weiter vereinfachen zu

∂k1+···+knf

∂xk11 · · · ∂xkn

n

.

Dabei bedeutet eine nullfache partielle Ableitung ∂x0i naturlich einfach nur gar nicht

abzuleiten. Fur eine Funktion f(x, y, z) in drei Variablen ist etwa

∂4f

∂x∂z∂x∂z=

∂4f

∂x2∂z2=

∂4f

∂x2∂y0∂z2.

Um diese Schreibweise zu systematisieren werden nun die sogenannten Multiindizeseingefuhrt. Ein Multiindex ist einfach ein Tupel

α = (α1, . . . , αn)

naturlicher Zahlen, d.h. α1, . . . , αn ∈ N. Fur eine Funktion f in n Variablen schreibenwir dann

∂α1+···+αnf

∂xα:=

∂α1+···+αnf

∂xα11 · · · ∂xαn

n

.

23-26

Page 27: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

Damit ist die Notation schon fast wie im eindimensionalen Fall, nur der Ausdruck

”α1 + · · ·+αn“ stort noch etwas. Auch diese Unschonheit konnen wir durch Einfuhrung

einer weiteren Abkurzung umgehen, wir setzen fur jeden Multiindex α der Lange neinfach

|α| := α1 + · · ·+ αn,

und konnen die obige partielle Ableitung dann als

∂|α|f

∂xα

schreiben. Zwei weitere Schreibweisen sind hilfreich

α! := α1! · . . . · αn!, (x− a)α := (x1 − a1)α1 · . . . · (xn − an)αn

fur jeden Multiindex α und alle a, x ∈ Rn. Beispielsweise sind

α = (2, 0, 1) : |α| = 3, α! = 2, (x− a)α = (x1 − a1)2(x3 − a3),

∂|α|fxα = ∂3f

∂x2∂z,

β = (2, 3) : |β| = 5, β! = 12, (x− a)β = (x1 − a1)2(x2 − a2)

3, ∂|β|f∂xβ = ∂5f

∂x2∂y3

Fur zwei Multiindizes α, β gleicher Lange n konnen wir noch

α + β := (α1 + β1, . . . , αn + βn), α ≤ β :⇐⇒ α1 ≤ β1 ∧ . . . ∧ αn ≤ βn

definieren, und im Fall α ≤ β sei auch noch

β − α := (β1 − α1, . . . , βn − αn).

Die Fakultatsschreibweise α! wird sich zur Formulierung der Taylorformel als nutz-lich erweisen. Die Taylorformel wird wieder von Taylorpolynomen handeln, und dahermussen wir jetzt auch noch Polynome in mehreren Variablen einfuhren. Ein Polynomin einer Variablen ist ja einfach eine Funktion der Form

p(x) = a0 + a1x + a2x2 + · · · ,

also

”konstanter Term“ +

”linearer Term“ +

”quadratischer Term“ + · · ·

Genauso soll es fur Polynome in mehreren Variablen sein. Was dabei ein konstanterTerm ist, ist wieder klar. Aber schon die Bedeutung des linearen Terms erfordert eineAnpassung, wir haben ja nicht nur eine Variable

”x“ zu berucksichtigen, sondern gleich

n Stuck x1, . . . , xn. Der lineare Term des Polynoms soll dann die Form a1x1+ · · ·+anxn

haben. Was der quadratische Term werden soll ist schon etwas feinsinniger. Man istzunachst versucht nur a1x

21+· · ·+anx

2n anzusetzen, aber das ist nicht ausreichend. Zum

Beispiel soll das Produkt von zwei Polynomen ja sicherlich ein Polynom sein, und damitbrauchen wir beispielsweise Zweierprodukte xixj von Variablen. Der quadratische Termsoll dann eine Summe von Vielfachen all dieser Zweierprodukte sein. Die Quadrate

23-27

Page 28: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

fallen dann ebenfalls unter diese Zweierprodukte, es ist ja x2i = xixi. Entsprechend

geht es weiter fur die Terme hoherer Ordnung, und ein Polynom in n Variablen wirddamit eine Funktion der Form

p(x1, . . . , xn) = a0 + a11x1 + · · ·+ a1nxn

+a211x21 + a212x1x2 + · · ·+ a21nx1xn + a221x2x1 + · · ·+ a2nnx

2n

+a3111x31 + a3112x

21x2 + · · ·+ a3nnnx

3m + · · ·

Da diese Art Polynome hinzuschreiben aber hoffnungslos unubersichtlich ist, erinnernwir uns wieder an die Multiindex Notation

xα = xα11 · . . . · xαn

n ,

und schreiben den obigen Ausdruck in der Form

p(x) = p(x1, . . . , xn) =∑|α|≤N

aαxα

wobei fur jeden Multiindex α mit |α| ≤ N die Konstante aα ∈ R als ein Koeffizientvon f bezeichnet wird. Konkrete Beispiele solcher Polynome sind

f(x, y) = 2 + x + y2 + 3yx− 7x3, g(x, y, z) = xyz + 2x2z2 − y5, . . .

Der Grad eines Monoms xα = xα1 · · ·xαn

n wird als α1 + · · ·+ αn = |α| definiert, also alsdie Summe aller auftretenden Exponenten. Dann bezeichnet die Zahl

”N“ gerade den

maximal auftretenden Grad, und das minimale mogliche N nennt man den Grad desPolynoms, d.h. der Grad eines Polynoms ist der großte Grad eines mit Koeffizient 6= 0auftretenden Monoms. Beispielsweise

x7 − y2z4 + xyz hat Grad 7,x3y3z + x2y2z3 − xy hat Grad 7 = 3 + 3 + 1 = 2 + 2 + 3.

Polynome in mehreren Variablen sind unendlich oft differenzierbar und es ist auchleicht ihre Ableitungen auszurechnen. Der Ubersichtlichkeit halber erinnern wir unserst einmal an Ableitungen eines Polynoms in einer Variablen

(xk)′ = kxk−1, (xk)′′ = k(k − 1)xk−2, . . . , (xk)(l) = k(k − 1) · · · (k − l + 1)xk−l

=k(k − 1) · · · (k − l + 1)(k − l) · · · 1

(k − l) · · · 1xk−l =

k!

(k − l)!xk−l

fur l ≤ k und (xk)(l) = 0 fur l > k. Fur je zwei Multiindizes α, β der Lange n mit α ≤ βfolgt damit

∂|α|xβ

∂xα=

β1!

(β1 − α1)!xβ1−α1

1 · . . . · βn!

(βn − αn)!xβn−αn

n

=β1! · . . . · βn!

(β1 − α1)! · . . . · (βn − αn)!xβ1−α1

1 xβn−αnn =

β!

(β − α)!xβ−α.

Im Fall α 6≤ β ist dagegen αi > βi fur ein 1 ≤ i ≤ n und somit ist ∂xβ/∂xα = 0.

23-28

Page 29: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

9.2 Die Taylor Entwicklung in mehreren Variablen

Wir wollen jetzt die Taylorformel auf den Fall von Funktionen in mehreren Variablenubertragen. Wir kennen zwei Varianten der eindimensionalen Taylorformel, einmal dieDarstellung mit Lagrangeschen Restglied aus I.§14.Satz 16 und zum anderen die Va-riante mit einer Integraldarstellung des Approximationsfehlers aus §2.Satz 19. BeideVarianten lassen sich auf den n-dimensionalen Fall ubertragen. Tatsachlich werden wirdie Taylorformel in n Variablen durch Ruckfuhrung auf den Fall einer Variable herlei-ten.

Wir schauen uns zunachst einmal an wie man das macht. Seien also n ∈ N mitn ≥ 1, eine offene Menge U ⊆ Rn, eine Funktion f : U → R und ein Entwicklungspunktx0 ∈ U gegeben. Wir wollen das Taylorpolynom p-ten Grades behandeln, wobei p ∈ Nmit p ≥ 1 ist, und hierzu setzen wir voraus das f mindestens (p + 1)-fach stetigdifferenzierbar ist. Da U offen ist, finden wir einen Radius r > 0 mit Br(x0) ⊆ U . Seix ∈ Br(x0). Dann betrachten wir die Hilfsfunktion

h : [0, 1] → R; t 7→ f(x0 + t(x− x0))

mit h(0) = f(x0) und h(1) = f(x). Auf diese Funktion wollen wir die eindimensio-nale Taylorformel mit dem Entwicklungspunkt t0 = 0 anwenden. Hierzu mussen wirzunachst einmal die ersten p Ableitungen von h berechnen. Mit der Kettenregel habenwir

h′(t) =n∑

i=1

∂f

∂xi

(x0 + t(x− x)) · (xi − x0,i),

h′′(t) =∑

1≤i,j≤n

∂2f

∂xi∂xj

(x0 + t(x− x0)) · (xi − x0,i)(xj − x0,j),

h′′′(t) =∑

1≤i1,i2,i3≤n

∂3f

∂xi1∂xi2∂xi3

(x0 + t(x− x0)) · (xi1 − x0,i1)(xi2 − x0,i2)(xi3 − x0,i3),

und so fortfahrend ergibt sich die k-te Ableitung fur 1 ≤ k ≤ p + 1 als

h(k)(t) =∑

1≤i1,...,ik≤n

∂kf

∂xi−1 . . . ∂xik

(x0 + t(x− x0)) · (xi1 − x0,i1) . . . (xik − x0,ik),

jeweils fur alle t ∈ [0, 1]. Jeder Summand (i1, . . . , in) definiert einen Multiindex α durch

αj := Anzahl der 1 ≤ q ≤ k mit iq = j

mit |α| = k und der entsprechende Summand nimmt dann die Form

∂|α|f

∂xα(x0 + t(x− x0)) · (x− x0)

α

an. Leider konnen verschiedene Indizes zum selben Multiindex fuhren, und jeder Mul-tiindex α mit |α| = k tritt in der Summe zur Berechnung von h(k)(t) so oft auf, wie

23-29

Page 30: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

es zu ihm passende Multiindizes gibt. Dies Zahl konnen wir leicht ermitteln. Zunachsteinmal wahlen wir irgendeine passende Indexkombination und alle anderen ergebensich dann durch Permutationen dieser k Indizes. Fur diese Permutationen gibt es nachI.§10.Lemma 1 genau k! Moglichkeiten. Allerdings konnen verschiedene Permutationenzu den selben Indizes fuhren, namlich dann wenn sie nur Indizes mit gleichem Wertvertauschen. Da es fur 1 ≤ j ≤ n stets αj viele Indizes mit Wert j gibt, tritt dies genau

α1! · . . . · αn! = α!

oft auf. Die Anzahl der zu α passenden Multiindizes ist also k!/α! und somit wird

h(k)(t) =∑|α|=k

k!

α!

∂kf

∂xα(x0 + t(x− x0)) · (x− x0)

α

fur jedes t ∈ [0, 1]. Das p-te Taylorpolynom von h zu Entwicklungspunkt t0 = 0 ist also

Tph(t) =

p∑k=0

h(k)(0)

k!tk =

∑|α|≤p

1

α!

∂|α|f

∂xα(x0) · (x− x0)

αt|α|.

Werten wir dieses Polynom in t = 1 aus, so ergibt sich das Taylorpolynom der Funktionf , also:

Definition 9.2 (Taylorpolynom in n Variablen)Seien n, p ∈ N mit n, p ≥ 1, U ⊆ Rn offen, a ∈ U und f : U → R eine p-fach stetigdifferenzierbare Funktion. Das p-te Taylorpolynom von f mit Entwicklungspunkt a istdann das Polynom

Tpf(x) :=∑|α|≤p

1

α!· ∂|α|f

∂xα(a) · (x− a)α.

In anderen Worten ist das Taylorpolynom Tpf das Polynom von Grad hochstens pdessen samtliche partiellen Ableitungen bis zu Ordnung p in a mit denen von f uber-einstimmen. Beispielsweise haben wir im Fall n = p = 2 und dem Entwicklungspunkta = 0 das quadratische Taylorpolynom

T (x, y) = f(0) +∂f

∂x(0)x +

∂f

∂y(0)y +

1

2

∂2f

∂x2(0)x2 +

1

2

∂2f

∂y2(0)y2 +

∂2f

∂x∂y(0)xy.

Rechnen wir als ein Beispiel einmal das quadratische Taylorpolynom der Funktion

f(x, y) = (3x + 4y)e−x2−y2

23-30

Page 31: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

aus. Alle relevanten partiellen Ableitungen haben wir bereits berechnet

∂f

∂x= (3− 6x2 − 8xy)e−x2−y2

,

∂f

∂y= (4− 8y2 − 6xy)e−x2−y2

,

∂2f

∂x2= (−18x− 8y + 12x3 + 16x2y)e−x2−y2

,

∂2f

∂y∂x= (−8x− 6y + 12x2y + 16xy2)e−x2−y2

,

∂2f

∂x∂y= (−6y − 8x + 16xy2 + 12x2y)e−x2−y2

,

∂2f

∂y2= (−6x− 24y + 16y3 + 12xy2)e−x2−y2

,

und damit gelten

f(0, 0) = 0,∂f

∂x(0, 0) = 3,

∂f

∂y(0, 0) = 4,

und die vier partiellen Ableitungen zweiter Ordnung sind alle Null. Das quadratischeTaylorpolynom mit Entwicklungspunkt Null ist damit

T2f(x, y) = 3x + 4y.

Fur das Taylorpolynom dritten Grades mussten wir jetzt schon vier partielle Ableitun-gen dritter Ordnung ausrechnen, dann funf fur das Polynom vierter Ordnung, und soweiter. Die Rechnungen werden viel einfacher wenn wir uns an §1 erinnern, dort hattenwir gesehen wie sich die Berechnung von Taylorpolynomen in einer Variablen durch dieVerwendung von Potenzreihen beschleunigen ließ. Dieses Vorgehen funktioniert auchbei Taylorpolynomen in mehreren Variablen. Erinnern wir uns an die Potenzreihe

et = 1 + t +t2

2+ · · · ,

so wird

f(x, y) = (3x + 4y)e−x2−y2

= (3x + 4y) · (1− x2 − y2 + · · · )= 3x + 4y − 3x3 − 3xy2 − 4x2y − 4y3 + · · ·

und dies ist das dritte Taylorpolynom zum Entwicklunspunkt 0. Wie im eindimensio-nalen Fall approximieren die Taylorpolynome die gegebene Funktion, und zwar umsobesser je hoher der Grad des Taylorpolynoms ist. Es gibt auch wieder eine Formel, dieden Approximationsfehler explizit angibt.

Satz 9.4 (Taylorformel im Rn)Seien n, p ∈ N mit n, p ≥ 1, U ⊆ Rn offen und f : U → R sei (p + 1)-fach stetig

23-31

Page 32: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

differenzierbar. Seien weiter a ∈ U und r > 0 mit Br(a) ⊆ U . Dann gilt fur jedesx ∈ Br(a) die Taylorformel

f(x) =∑|α|≤p

1

α!· ∂|α|f

∂xα(a) · (x− a)α + τ(x− a)

wobei τ(h) fur |h| ≤ r der Approximationsfehler ist. Fur |h| ≤ r ist dann

τ(h) = (p + 1)∑

|α|=p+1

1

α!

[∫ 1

0

(1− t)p ∂p+1f

∂xα(a + th) dt

]· hα

und es gibt ein ξ ∈ (0, 1) mit

τ(h) =∑

|α|=p+1

1

α!

∂p+1f

∂xα(a + ξh)hα.

Beweis: Beide Aussagen folgen sofort durch Anwendung der eindimensionalen Taylor-formeln I.§14.Satz 16 und §2.Satz 19 auf die oben besprochene Hilfsfunktion h.

Aus diesen Formeln kann man auch leicht die Großenordnung des Approximations-fehlers in Abhangigkeit von h bestimmen. Da f als (p + 1)-fach stetig differenzierbarvorausgesetzt ist, sind alle partiellen Ableitungen ∂p+1f/∂xα fur |α| = p+1 stetig, alsoauf der kompakten Menge Br(a) nach §8.Lemma 1.(d) beschrankt, d.h.

A := max|α|=p+1

supx∈Br(a)

∣∣∣∣∂p+1f

∂xα(x)

∣∣∣∣ < ∞

ist endlich. Weiter behaupten wir das fur alle m, r ∈ N mit m ≥ 1 stets∑α∈Nm

|α|=r

1

α!=

mr

r!

ist. Dies kann man beispielsweise durch Induktion nach m einsehen. Fur m = 1 ist dieFormel klar. Sei nun weiter m ∈ N mit m ≥ 1 und fur jedes r ∈ N gelte die Formel. Seir ∈ N. Fur jedes α ∈ Nm+1 mit |α| = r ist 0 ≤ αm+1 ≤ r und schreiben wir α = (β, k)so sind damit 0 ≤ k ≤ r und |β| = r − k. Mit der binomischen Formel I.§4.Lemma 5folgt damit

∑α∈Nm+1

|α|=r

1

α!=

r∑k=0

1

k!

∑α∈Nm

|α|=r−k

1

α!=

r∑k=0

mr−k

k!(r − k)!=

1

r!

r∑k=0

(r

k

)mr−k =

(m + 1)r

r!.

23-32

Page 33: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

Per vollstandiger Induktion ist diese Behauptung damit bewiesen. In der Situation derTaylorformel erhalten wir fur h ∈ Br(0) ein ξ ∈ (0, 1) mit

τ(h) =∑

|α|=p+1

1

α!

∂p+1f

∂xα(a + ξh)hα

und wegen a + ξh ∈ Br(a) ist damit

|τ(h)| ≤∑

|α|=p+1

1

α!

∣∣∣∣∂p+1f

∂xα(a + ξh)

∣∣∣∣ · |hα| ≤ A||h||p+1∞

∑|α|=p+1

1

α!=

Anp+1

(p + 1)!||h||p+1

∞ .

Setzen wir also

C :=np+1

(p + 1)!max|α|=p+1

supx∈Br(a)

∣∣∣∣∂p+1f

∂xα(x)

∣∣∣∣ ,so ist |τ(h)| ≤ C||h||p+1

∞ fur alle h ∈ Br(0).

9.3 Lokale Extrema

Seien wieder U ⊆ Rn eine offene Menge und f : U → R eine dreimal stetig differenzier-bare Funktion. In §8.Satz 24 hatten wir gesehen, dass jedes lokale Extremum a ∈ Uvon f auch ein kritischer Punkt von f ist, das also grad f(a) = 0 gilt. Ausgerustet mitder Taylorentwicklung des Satz 4 konnen wir nun auch die Frage untersuchen, wannein kritischer Punkt umgekehrt ein lokales Extremum ist. Sei also a ∈ U ein kritischerPunkt von f . Das quadratische Taylorpolynom von f mit Entwicklungspunkt a hatdann wegen ∂f/∂xi(a) = 0 fur i = 1, . . . , n die Form

T2(x) = f(a) +∑|α|=2

1

α!

∂2

∂xα(a)(x− a)α

= f(a) +n∑

i=1

1

2

∂2f

∂x2i

(a)(xi − ai)2 +

∑1≤i<j≤n

∂2f

∂xi∂xj

(a)(xi − ai)(xj − aj)

= f(a) +1

2

∑1≤i,j≤n

∂2f

∂xi∂xj

(a)(x− ai)(x− aj).

Dies ist nun eine quadratische Funktion im Sinne des §6.3, und kann daher in Matrix-form als

T2(x) = f(a) +1

2(H(x− a)) · (x− a)

geschrieben werden, wobei H die aus den zweiten partiellen Ableitungen gebildeten× n Matrix ist. Die Matrix H wird dann auch als die Hesse Matrix von f im Punkta bezeichnet:

23-33

Page 34: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

Definition 9.3 (Die Hesse-Matrix)Seien U ⊆ Rn offen, f : U → R eine zweifach differenzierbare Funktion und a ∈ U . DieHesse Matrix H von f in a ist dann die Matrix

H =

∂2f∂x2

1(a) · · · ∂2f

∂x1∂xn(a)

.... . .

...∂2f

∂xn∂x1(a) · · · ∂2f

∂x2n(a)

.

Nach Satz 2 ist die Hesse Matrix H symmetrisch, tatsachlich wurde Satz 2 bewiesenindem die Symmetrie von H nachgewiesen wurde. Kommen wir zu unserem kritischenPunkt a ∈ U zuruck. Nahe bei a haben wir dann

f(x) = f(a) +1

2(H(x− a)) · (x− a) + τ,

wobei wir den Approximationsfehler τ ausreichend nahe bei a erst einmal ignorierenwerden. Als symmetrische Matrix hat die Hesse Matrix H nach §6.Satz 7 nur reelleEigenwerte λ1, . . . , λn und bezuglich eines geeigneten Koordinatensystems konnen wirnach dem Satz §6.Korollar 11 uber die Hauptachsentransformation auch

f(x) = f(a) +n∑

i=1

λi(xi − ai)2 + τ

schreiben. An dieser Darstellung ist direkt ersichtlich ob in a ein lokales Extremumvorliegt.

–2

0

2x

–3 –2 –1 0 1 2 3

y

0

2

4

6

8

10

12

14

16

18

–3–2

–10

12

3

x

–3

–2

–1

0

1

2

3

y

–8

–6

–4

–2

0

2

4

6

8

–1–0.500.51x

–1

0

y

–2

–1.5

–1

–0.5

0

x2 + y2 x2 − y2 −x2 − y2

Sind alle Eigenwerte λ1, . . . , λn > 0, so sieht T2 im wesentlichen wie ein nach obengeoffnetes Paraboloid aus, und wir haben ein lokales Minimum. Im Fall λ1, . . . , λn < 0haben wir entsprechend ein nach unten geoffnetes Paraboloid und ein lokales Maximum.

23-34

Page 35: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

Gibt es Eigenwerte λi > 0, λj < 0, so hat f wie die Sattelflache in der Mitte in auberhaupt kein lokales Extremum.

Nach §6.Satz 12 bedeutet λ1, . . . , λn > 0 genau das die Hesse Matrix H positiv de-finit ist, der Fall λ1, . . . , λn < 0 bedeutet das H negativ definit ist und bei Eigenwertenmit verschiedenen Vorzeichen ist H indefinit. Dies fuhrt auf den gleich folgenden Satzuber lokale Extrema. In unserer bisherigen Argumentation haben wir die quadratischeTaylorentwicklung verwendet und mussten dafur dreifache stetige Differenzierbarkeitvoraussetzen. Tatsachlich gilt der Satz auch wenn die Funktion nur als zweifach ste-tig differenzierbar vorausgesetzt wird, wir mussen unseren Beweis aber ein klein wenigabandern.

Zunachst benotigen wir eine kleine Vorbemerkung uber positiv definite Matrizen.Wir betrachten die Menge

S := {A ∈ Rn×n|At = A}

aller symmetrischen n × n-Matrizen uber R als Untervektorraum des Rn×n. Wir be-haupten das die Menge P+ aller positiv definiten n × n-Matrizen uber R eine offeneTeilmenge von S ist. Die Stetigkeit der Determinante ergibt, dass die Menge

Pk :=

a11 · · · a1n

.... . .

...an1 · · · ann

:

∣∣∣∣∣∣∣a11 · · · a1k...

. . ....

ak1 · · · akk

∣∣∣∣∣∣∣ > 0

fur jedes 1 ≤ k ≤ n offen in S ist, und nach §4.Lemma 17.(g) und §6.Satz 14 ist damitauch

P+ :=n⋂

k=1

Pk

offen in S. Weiter ist damit auch die Menge

P− := {A ∈ S|A ist negativ definit} = {A ∈ S| − A ∈ P+}

aller negativ definiten Matrizen offen in S. Damit kommen wir zu unserem Satz uberlokale Extrema einer zweifach stetig differenzierbaren Funktion.

Satz 9.5 (Kriterium fur lokale Extrema)Seien n ∈ N mit n ≥ 1, U ⊆ Rn offen, f : U → R eine zweifach stetig differenzierbareFunktion und a ∈ U ein kritischer Punkt von f , also grad f(a) = 0. Sei H die HesseMatrix von f in a.

(a) Ist H positiv definit, so hat f in a ein lokales Minimum.

(b) Ist H negativ definit, so hat f in a ein lokales Maximum.

(c) Ist H indefinit, so hat f in a kein lokales Extremum.

23-35

Page 36: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

Beweis: Wahle einen Radius r > 0 mit Br(0) ⊆ R. Da wir voraussetzen das diezweiten partiellen Ableitungen stetig sind, ist auch die Hesse-Matrix H : U → Rn×n

als Funktion von x ∈ U eine stetige Funktion.(a) Da die Menge der positiv definiten offen in der Menge aller symmetrischen Matrizenist gibt es ein δ > 0 mit δ ≤ r so, dass fur jedes x ∈ U mit ||x − a|| < δ auch dieHesse-Matrix H(x) positiv definit ist. Sei jetzt h ∈ Rn mit 0 < ||h|| < δ gegeben. NachSatz 4 gibt es ein ξ ∈ (0, 1) mit

f(a + h) = f(a) + (H(a + ξh)h) · h,

und wegen ||a + ξh− a|| = ξ||h|| < δ ist H(a + ξx) positiv definit und somit

f(a + h) = f(a) + (H(a + ξh)h) · h > f(a).

Also ist f(x) > f(a) fur alle a 6= x ∈ Bδ(a) und somit hat f in a ein lokales Minimum.(b) Analog zu (a).(c) Es gibt Vektoren u1, u2 ∈ Rn mit ||u1|| = ||u2|| = 1, (Hu1) ·u1 > 0 und (Hu2) ·u2 <0. Sei i ∈ {1, 2}. Da die Abbildung A 7→ (Aui) · ui stetig ist, gibt es ein δi > 0 mitδi ≤ r so, dass |(H(x)ui) · ui − (Hui) · ui| < |(Hui) · ui| fur alle x ∈ Bδ(a) ist und dannist auch sign((H(x)ui) · ui) = sign((Hui) · ui) fur alle x ∈ Bδ(a).

Setze δ := min{δ1, δ2} > 0. Sei t ∈ (0, δ). Sei i ∈ {1, 2}. Dann ist ||tui|| = t < δ ≤ r,also existiert nach Satz 4 ein ξ ∈ (0, 1) mit

f(a + tui) = f(a) + t2(H(a + ξtui)ui) · ui

und wegen ||ξtui|| = ξt ≤ t < δi ist sign((H(a + ξtui)ui) · ui) = sign((Hui) · ui). Dieszeigt f(a+tu1) > f(a) und f(a+tu2) < f(a). Damit hat f in a kein lokales Extremum.

Beachte das die Fallunterscheidung im Satz nicht vollstandig ist, es gibt symmetrischeMatrizen H, die weder positiv definit, negativ definit noch indefinit sind. Dies passiertwenn H den Eigenwert 0 hat, also nicht invertierbar ist. In dieser Situation sagt derSatz nichts aus, und man muss sich den jeweils vorliegenden Spezialfall anschauen. Wirrechnen jetzt einige Beispiele.

Zunachst sei f die schon mehrfach betrachtete Funktion

f(x, y) = x2y + y2 − 2y − xy.

Alle relevanten Ableitungen hatten wir bereits fruher ausgerechnet

∂f

∂x= 2xy − y,

∂f

∂y= x2 − x + 2y − 2,

∂2f

∂x2= 2y,

∂2f

∂x∂y= 2x− 1,

∂2f

∂y2= 2.

Wir hatten auch bereits alle kritischen Punkte von f berechnet, und genau drei solchegefunden. Gehen wir diese drei kritischen Punkte einmal durch:

23-36

Page 37: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

1. Der Punkt (x, y) = (1/2, 9/8). Die Hesse Matrix in diesem Punkt ist

H =

(∂2f∂x2

(12, 9

8

)∂2f∂x∂y

(12, 9

8

)∂2f∂x∂y

(12, 9

8

)∂2f∂y2

(12, 9

8

) ) =

(94

00 2

).

Diese Matrix ist positiv definit, wir haben also ein lokales Minimum.

2. Der Punkt (x, y) = (−1, 0). Diesmal wird die Hesse Matrix zu

H =

(0 −2

−2 2

).

Da der Eintrag links oben Null ist, ist H weder positiv noch negativ definit. Umzu entscheiden ob H indefinit ist, berechnen wir die Eigenwerte von H

χH(x) = x2 − 2x− 4 =⇒ λ = 1±√

1 + 4 = 1±√

5.

Wegen 1−√

5 < 0, 1 +√

5 > 0 ist die Hesse Matrix H indefinit, und in (x, y) =(−1, 0) ist kein lokales Extremum.

3. Der letzte kritische Punkt ist (x, y) = (2, 0). Diesmal gilt

H =

(0 33 2

).

Wir rechnen wieder

χH(x) = x2 − 2x− 9 =⇒ λ = 1±√

1 + 9 = 1±√

10

und wegen 1−√

10 < 0, 1 +√

10 > 0 haben wir wieder kein lokales Extremum.

Wir wollen noch ein allerletztes Beispiel rechnen, namlich die ebenfalls schon in §8behandelte Funktion

f(x, y, z) = x2 + 4y2 − 2xyz + sin(πz).

Die relevanten partiellen Ableitungen sind

∂f∂x

= 2x− 2yz, ∂f∂y

= 8y − 2xz, ∂f∂z

= −2xy + π cos(πz),∂2f∂x2 = 2, ∂2f

∂x∂y= −2z, ∂2f

∂x∂z= −2y,

∂2f∂y2 = 8, ∂2f

∂y∂z= −2x, ∂2f

∂z2 = −π2 sin(πz).

In einem Beispiel in §8 hatten wir bereits ausgerechnet, dass es nur einen kritischenPunkt (x, y, z) mit y 6= 0 gibt, namlich

(x, y, z) =

(√π,

1

2

√π, 2

).

23-37

Page 38: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

Die Hesse Matrix von f in diesem kritischen Punkt ist

H =

2 −4 −√

π−4 8 −2

√π

−√

π −2√

π 0

.

Wegen ∣∣∣∣ 2 −4−4 8

∣∣∣∣ = 0

ist H nach dem Determinanten Kriterium §6.Satz 14 nicht positiv definit. Die MatrixH kann auch nicht negativ definit sein, und wegen

det H =

∣∣∣∣∣∣2 −4 −

√π

−4 8 −2√

π−√

π −2√

π 0

∣∣∣∣∣∣ = π

∣∣∣∣∣∣2 −4 1

−4 8 21 2 0

∣∣∣∣∣∣ = π

∣∣∣∣∣∣2 −4 1

−8 16 01 2 0

∣∣∣∣∣∣= π

∣∣∣∣ −8 161 2

∣∣∣∣ = −32π

ist H invertierbar. Damit ist H indefinit und es liegt kein lokales Extremum vor. Diekritischen Punkte (x, 0, z) sind durch die Gleichungen

2x = 0, −2xz = 0 und π cos(πz) = 0

gegeben, also

(x, y, z) =

(0, 0,

1

2+ n

)mit n ∈ Z.

Wegen

sin(π

2+ nπ

)= (−1)n sin

π

2= (−1)n

wird die Hesse Matrix in diesem kritischen Punkt zu

H =

2 −(2n + 1) 0−(2n + 1) 8 0

0 0 (−1)n+1π2

.

Dabei gilt∣∣∣∣ 2 −(2n + 1)−(2n + 1) 8

∣∣∣∣ = 16− (2n + 1)2 = −4

(n2 + n− 15

4

).

Die Nullstellen von x2 + x− 15/4 sind

−1

2+

√1

4+

15

4= −1

2± 2 also x = −5

2und x =

3

2.

23-38

Page 39: 8 Differentialrechnung im R · gibt, erwarten wir Verallgemeinerungen von Summen-, Vielfachen-, Ketten-, Produkt-und Umkehrregel. Das Analogon der Produktregel wird sich dabei als

Mathematik fur Physiker II, SS 2011 Freitag 8.7

Die Matrix H ist damit invertierbar und somit positiv definit oder indefinit. Weiter istnach dem Determinanten Kriterium §6.Satz 14

H ist positiv definit ⇐⇒ n2 + n− 15

4< 0 und (−1)n+1π > 0

⇐⇒ n ∈ {−2,−1, 0, 1} und n ungerade

⇐⇒ n = ±1.

In den kritischen Punkten

(x, y, z) =

(0, 0,−1

2

)und (x, y, z) =

(0, 0,

3

2

)hat f also ein lokales Minimum und in den anderen kritischen Punkten liegt kein lokalesExtremum vor.

23-39