Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester...

151
Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts¨ achlich zu meiner eigenen Vorbereitung auf die Vorlesung geschrieben. Es enth¨ alt keine Bilder und ist ¨ uberhaupt weniger bunt und weni- ger kommunikativ als die Vorlesung, außerdem nicht immer gut korrektur-gelesen. Quellen sind die ¨ ublichen Analysis-B¨ ucher, vor allem K¨ onigsberger, Forster und Heuser, außerdem ein Skript von Steffen. 0 Erg¨ anzungen: Was man bei Beweisen alles falsch machen kann In diesem Kapitelchen sollen die Klausuren zu den “Erg¨ anzungen Ana 1” besprochen werden. Hier gab es jeweils vier kurze “Beweise” zu Behauptungen ¨ uber den Stoff der Erg¨ anzungen zur Auswahl. Die Teilnehmenden mussten entscheiden, ob die Beweise “weitgehend korrekt” waren oder nicht, im zweiten Fall war der “entscheidende Fehler” anzugeben. Um es gleich zu verraten: Alle Beweise waren falsch! Wer einen Fehler richtig erkannt hatte, hatte bestanden. Es ging nicht darum, die Behauptung zu widerlegen, sondern den Fehler im Beweis zu finden. In den folgenden Beispielen sind die Aufgaben sowohl der Klausur als auch der Nachklausur gemischt: Beispiele: (1) Aufgaben zu den Potenzsummenfunktionen P m (n) := 1 m +2 m + ... + n m . (a) Behauptung: lim n→∞ P 12 (n) n 13 = 0. “Beweis”: lim n→∞ P 12 (n) n 13 = lim n→∞ 1 12 n 13 |{z} 0 + 2 12 n 13 |{z} 0 + ... + n 12 n 13 |{z} 0 =0+0+ ... +0=0. Fehler im Beweis: Zwar geht jeder einzelne Summand gegen 0 bei n →∞, aber die Anzahl der Summanden geht gegen . F¨ ur eine solche Situation gibt es keine 1

Transcript of Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester...

Page 1: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Analysis II

Andreas Gastel

Duisburg, Sommersemester 2011

Dieses Skript ist hauptsachlich zu meiner eigenen Vorbereitung auf die Vorlesunggeschrieben. Es enthalt keine Bilder und ist uberhaupt weniger bunt und weni-ger kommunikativ als die Vorlesung, außerdem nicht immer gut korrektur-gelesen.Quellen sind die ublichen Analysis-Bucher, vor allem Konigsberger, Forster undHeuser, außerdem ein Skript von Steffen.

0 Erganzungen: Was man bei Beweisen alles falsch

machen kann

In diesem Kapitelchen sollen die Klausuren zu den “Erganzungen Ana 1” besprochenwerden. Hier gab es jeweils vier kurze “Beweise” zu Behauptungen uber den Stoff derErganzungen zur Auswahl. Die Teilnehmenden mussten entscheiden, ob die Beweise“weitgehend korrekt” waren oder nicht, im zweiten Fall war der “entscheidende Fehler”anzugeben. Um es gleich zu verraten: Alle Beweise waren falsch! Wer einen Fehler richtigerkannt hatte, hatte bestanden. Es ging nicht darum, die Behauptung zu widerlegen,sondern den Fehler im Beweis zu finden. In den folgenden Beispielen sind die Aufgabensowohl der Klausur als auch der Nachklausur gemischt:

Beispiele:

(1) Aufgaben zu den Potenzsummenfunktionen

Pm(n) := 1m + 2m + . . .+ nm.

(a) Behauptung: limn→∞P12(n)n13 = 0.

“Beweis”:

limn→∞

P12(n)

n13= lim

n→∞

( 112

n13︸︷︷︸→0

+212

n13︸︷︷︸→0

+ . . .+n12

n13︸︷︷︸→0

)= 0 + 0 + . . .+ 0 = 0.

Fehler im Beweis: Zwar geht jeder einzelne Summand gegen 0 bei n → ∞, aberdie Anzahl der Summanden geht gegen ∞. Fur eine solche Situation gibt es keine

1

Page 2: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Summenregel fur Grenzwerte, wie auch das folgende Beispiel zeigt:

1 =1

n+

1

n+ . . .+

1

n︸ ︷︷ ︸n Summanden, jeder→ 0

→ 0 + 0 + . . .+ 0 = 0,

was offensichtlicher Unsinn ist.

Die Behauptung ist falsch: Denn wie wir gesehen hatten, ist P12(n) ein Polynomvom Grad 13, das mit 1

13n13 startet. Der Limes ist also 1

13.

(b) Behauptung: Alle Zahlen P17(n) sind ungerade.

“Beweis” durch Widerspruch: Nehmen wir also an, dass alle P17(n) gerade sind.Dann ist auch P17(n)− P17(n− 1) = n17 gerade fur alle n ∈ N, was aber fur ungeraden falsch ist. Also ist das Gegenteil der Behauptung falsch, sie ist also bewiesen.

Fehler im Beweis: Das logische Gegenteil von “Alle P17(n) sind ungerade” ist nicht“Alle P17(n) sind gerade”, sondern “Mindestens ein P17(n) ist gerade”. Letzteres warealso die Annahme, aber aus der bekommt man nicht den beschriebenen Widerspruch.

Die Behauptung ist falsch: Denn P17(3) = 117 + 217 + 317 ist offensichtlich gerade.

(2) Aufgaben zu den Einheitswurzeln: Bekanntlich gibt es fur jedes n ≥ 2 genau nkomplexe Zahlen mit zn = 1, sie heißen die n-ten Einheitswurzeln. Naturlich ist 1immer eine von diesen, und die ubrigen losen alle die Gleichung

1 + z + . . .+ zn−1 = 0.

Eine von diesen ist durch e2πi/n gegeben.

(a) Behauptung: Das Produkt dieser n komplexen Zahlen ist 1.

“Beweis”: Nennen wir sie z1, . . . , zn. Dann

(z1z2 . . . zn)n = zn1 zn2 . . . z

nn = 1 · 1 · . . . · 1 = 1,

und die Behauptung z1z2 . . . zn = 1 folgt daraus durch Ziehen der n-ten Wurzel.

Fehler im Beweis: Der letzte Schritt (der auf n√

1 = 1 hinauslauft) ist nicht erlaubt,weil das Ziehen der n-ten Wurzel in C keine eindeutig definierte Operation ist. Jedekomplexe Zahl außer 0 hat ja n verschiedene n-te Wurzeln.

Die Behauptung ist falsch: Denn z.B. sind −1 und 1 die zweiten Einheitswurzeln,und (−1) · 1 ist −1, nicht 1. (Tatsachlich kann man zeigen, dass das Produkt −1 istfur gerade n, und 1 fur ungerade n.

(b) Behauptung: Fur z = e2πi/n gilt z2 = z.

“Beweis”: Benutze zn = 1 in der Rechnung

z(1 + z + . . .+ zn−1) = z + z2 + . . .+ zn

= z · 1 + z2 + . . .+ zn

= z · zn + z2 + . . .+ zn

= z2 + z3 + . . .+ zn+1

= z2(1 + z + . . .+ zn−1),

2

Page 3: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

also ergibt sich z = z2 nach Kurzen der Klammer.

Fehler im Beweis: Wie oben erwahnt ist 1+z+. . .+zn−1 = 0, also zeigt die (korrekte)Gleichungskette nichts anderes als z ·0 = z2 ·0, und um daraus z2 = z zu folgern, wurdedurch 0 geteilt; das ist der Fehler.

Die Behauptung ist falsch: Denn im Fall n = 2 ist z = πi = −1, aber z2 = 1 6= z.

(c) Behauptung: Sei n ≥ 2. Die Summe der n-ten Einheitswurzeln und die Summeder (n+ 1)-ten Einheitswurzeln konnen nicht gleich sein.

“Beweis”: Nennen wir die n-ten Einheitswurzeln z1, . . . , zn. Ihre Summe ist z1 + . . .+zn. Analog ist z1 + . . .+ zn+1 die Summe der (n+ 1)-ten Einheitswurzeln. Die Differenzder Summen ist also zn+1, und weil das eine Einheitswurzel ist, ist es 6= 0; es konnenalso nicht beide Summen gleich sein.

Fehler im Beweis: Dieselben Symbole z1, . . . , zn werden einmal fur n-te und einmalfur (n+1)-te Einheitswurzeln verwendet, stehen also fur verschiedene Zahlen. Naturlichdarf man nicht beide Bedeutungen in einer Rechnung mischen.

Die Behauptung ist falsch: Denn fur n ≥ 2 ist die Summe der n-ten Einheitswurzelnimmer 0. Setze z := e2πi/n, dann sind die n-ten Einheitswurzeln bekanntlich 1, z, . . . ,zn−1, und die Summe ist 0 nach obiger Gleichung.

(3) Aufgaben zur Weierstraß-Funktion

f(x) :=∞∑k=0

2k cos(4kπx)

7k,

dem in der Erganzung diskutierten Beispiel einer stetigen, nirgends differenzierbarenFunktion f : R→ R:

(a) Behauptung: Die Partialsummen sind

fn(x) :=n∑k=0

2k cos(4kπx)

7k

Dann ist fn(14) rational fur alle n ∈ N.

“Beweis”: Wir nehmen (fur n ∈ N) an, dass fn−1(14) rational ist. Da fur n ∈ N die

Zahl 4n durch 4 teilbar ist, ist 4nπ 14

ein Vielfaches von π und somit | cos(4nπ 14)| = 1.

Damit giltfn(1

4) = fn−1(1

4)± 2n

7n,

also ist fn(14) rational, weil beide Summanden rational sind, und die Behauptung damit

induktiv bewiesen.

Fehler im Beweis: Der Induktionsanfang fehlt.

Die Behauptung ist falsch: Der Induktionsanfang fehlt “aus gutem Grund”, dennder Summand fur k = 0 ist nicht rational, sondern

20 cos(40π 14)

70= cos

π

4=

1√2,

3

Page 4: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

was man sofort als irrational erkennt. Damit zeigt obiger Induktionsschritt sogar, dassalle fn(1

4) irrational sind.

(b) Behauptung: f ′(0) = 0.

“Beweis”: Die Ableitung von 2k cos(4kπx)7k

ist nach der Kettenregel gleich −8kπ sin(4kπx)7k

,also ist

f ′(x) = −∞∑k=0

8kπ sin(4kπx)

7k,

jedenfalls fur die x, fur die die Reihe konvergiert. Fur x = 0 sind wegen sin 0 = 0 alleSummanden 0, also konvergiert die Reihe, und es gilt f ′(0) = 0.

Fehler im Beweis: Es gibt keine allgemeine Differentiationsregel, die erlaubt, ddx

mit∑∞k=0 zu vertauschen; wir hatten sogar schon Gegenbeispiele in der Vorlesung.

Die Behauptung ist falsch: Das ist offensichtlich, denn es ist ja gerade der Job derWeierstraß-Funktion, nirgends differenzierbar zu sein.

(4) Eine Aufgabe, die das Cauchy-Produkt benutzt:

(a) Behauptung: Obwohl e irrational ist, ist erstaunlicherweise e3 rational.

“Beweis”: Wir benutzen die Reihen

e =∞∑j=0

1

j!, e2 =

∞∑k=0

2k

k!.

Mit der in der Erganzung bewiesenen Formel fur das Cauchy-Produkt folgt

e3 = e2e =∞∑n=0

cn mit cn =n∑i=0

2i

i!(n− i)!.

Also sind alle cn rational, folglich auch alle Partialsummen, und damit auch e3.

Fehler im Beweis: Die Summe unendlich vieler rationaler Zahlen muss naturlichnicht rational sein. Dann waren ja alle reellen Zahlen rational. (Warum? Hinweis: De-zimaldarstellung.)

Die Behauptung ist falsch: Man kann beweisen, dass e3 irrational ist. Aber daswurde hier zu weit fuhren. �

1 Metrische und normierte Raume

1.1 Metrische Raume und Konvergenz

(Das Folgende haben wir schon in den Erganzungen zu Analysis I kurz angeschaut.)

Bei der Definition der Konvergenz einer Folge haben wir nicht viel Struktur von Roder C benutzt. Im Wesentlichen muss man nur den Zahlen |an − a| einen Sinn in R

4

Page 5: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

geben, um sie mit ε zu vergleichen. Die Interpretation von |an − a| als Abstand vonan zu a erlaubt uns, Konvergenz in praktisch jeder Menge M zu definieren, in der wirin sinnvoller Weise einen Abstand definiert haben. Welche Eigenschaften erfullt so einAbstand sinnvollerweise? Das wird in der folgenden Definition formalisiert:

Definition (metrischer Raum) Ein metrischer Raum (M,d) ist eine Menge M ,versehen mit einer Abstandsfunktion oder Metrik d : M ×M → R, so dass fur allex, y, z ∈M gilt:

• d(x, y) ≥ 0,

• d(x, y) = d(y, x),

• d(x, z) ≤ d(x, y) + d(y, z) (Dreiecksungleichung),

• d(x, y) = 0 genau dann, wenn x = y.

(Die erste Eigenschaft folgt eigentlich schon aus den anderen.)

Wir sehen sofort, dass R und C metrische Raume sind mit d(x, y) := |x − y|. Damitkonnen wir |an − a| in der Definition der Konvergenz einfach durch d(an, a) ersetzenund haben damit einen Konvergenzbegriff, der in metrischen Raumen Sinn macht:

Definition (Konvergenz in metrischen Raumen) Sei (M,d) ein metrischer Raumund (an)n∈N eine Folge in M . Die Folge heißt konvergent mit Limes oder Grenzwerta ∈ M , wenn fur jedes ε > 0 ein N ∈ R existiert, so dass d(an, a) < ε fur alle n ∈ Nmit n > N gilt. Man schreibt dann wieder

limn→∞

an = a,

oder verkurzt an → a.

Bemerkung: Cauchy-Folgen kann man dann auch mit d(am, an) statt |am − an| defi-nieren. Genau wie im vorigen Analysis I zeigt man, dass jede konvergente Folge eineCauchy-Folge ist. Ersetze einfach alle |an − a| im Beweis durch d(an, a) und ahnliches.Genauer:

Nehmen wir an, dass (an)n∈N in (M,d) konvergiert, und zwar gegen a ∈M . Dann gibtes zu jedem ε > 0 ein N , so dass d(an, a) < ε/2 fur alle n > N . Dann gilt aber fur allem,n > N

d(an, am) ≤ d(an, a) + d(a, am) <ε

2+ε

2= ε,

d.h. (an)n∈N ist Cauchy-Folge. �

Beispiele: (1) Praktisch ohne zusatzlichen Aufwand haben wir jetzt z.B. definiert,was Konvergenz in Rn oder Cn bedeutet, denn Rn ist metrischer Raum mit Metrik

d(x, y) := |x− y| =√

(x1 − y1)2 + . . .+ (xn − yn)2 ,

5

Page 6: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

und Cn mitd(w, z) :=

√|w1 − z1|2 + . . .+ |wn − zn|2 .

Die Axiome der Metriken aus der Definition rechnet man sofort nach.

(2) Auch originellere Metriken sind erlaubt: Man kann z.B. das Intervall ]− 1, 1[ mitder Metrik

d(x, y) :=∣∣∣ x

1− |x|− y

1− |y|

∣∣∣versehen. Von den Metrik-Eigenschaften zeigen wir nur stellvertretend die Dreiecksun-gleichung:

d(x, z) =∣∣∣ x

1− |x|− z

1− |z|

∣∣∣≤

∣∣∣ x

1− |x|− y

1− |y|

∣∣∣+∣∣∣ y

1− |y|− z

1− |z|

∣∣∣= d(x, y) + d(y, z);

sie wird also auf die Dreiecksungleichung von R zuruckgefuhrt. Bezuglich d ist die Folgean := 1− 1

n= n−1

nnicht konvergent, da sie noch nicht einmal Cauchy-Folge ist. Denn

d(an, an+1) = d(n− 1

n,

n

n+ 1

)=

∣∣∣∣ n−1n

1− n−1n

−nn+1

1− nn+1

∣∣∣∣= |(n− 1)− n| = 1

und damit wird d(an, an+1) fur große n nicht beliebig klein, was fur jede Cauchy-Folgegelten muss.

Naturlich konvergiert n−1n

bei n→∞ gegen 1 bezuglich der ublichen Metrik von R. Eshangt also von der Metrik ab, welche Folgen konvergieren.

(3) Auf jeder Menge M haben wir die diskrete Metrik

d(x, y) :=

{0 falls x = y,1 falls x 6= y.

Konvergent sind bezuglich der diskreten Metrik nur die (bis auf endlich viele ak alsAusnahmen) konstanten Folgen in M . Denn setze ε := 1

2.

(4) Auf Rn haben wir außer der Euklidischen Metrik

d(x, y) :=

√√√√ n∑k=1

|xk − yk|2

auch eine Fulle weiterer sinnvoller Metriken, z.B. die Taxi-Metrik

dT (x, y) :=n∑i=1

|xi − yi|

6

Page 7: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

oder die aus den Ana1-Ubungen bekannte Metrik der franzosischen Eisenbahn

dSNCF (x, y) :=

{|x− y| falls x, y linear abhangig,|x|+ |y| sonst.

Die Metrik-Eigenschaften konnen leicht verifiziert werden. Falls nichts anderes gesagtwird, denken wir uns Rn (und auch Cn) immer mit der Euklidischen Metrik versehen.

(5) Die Menge `∞ aller beschrankten Folgen a = (an)n∈N in R wird durch die Supremums-Metrik

d(x, y) := sup{|xn − yn| : n ∈ N}

zu einem metrischen Raum.

(6) Genauso kann man die Menge C0([a, b]) der auf einem Intervall [a, b] stetigenFunktionen mit der Supremums-Metrik

dC0([a,b])(f, g) := max{|f(x)− g(x)| : x ∈ [a, b]}

versehen. Und die Menge Ck([a, b]) der k-mal stetig differenzierbaren Funktionen wirdzu einem metrischen Raum durch

dCk([a,b])(f, g) := max{ k∑

i=0

|f (i)(x)− g(i)(x)| : x ∈ [a, b]}.

Beispielsweise gilt fur

fn(x) :=1

nsin(nx)

mitf ′n(x) = cos(nx)

in der C0([0, 2π])-Metrik

dC0([0,2π])(fn, 0) =1

n,

aber in der C1([0, 2π])-Metrik

dC1([0,2π])(fn, 0) ≥ 1.

Folglich konvergiert (fn)n∈N in C0([0, 2π]) gegen 0 (gemeint ist die konstante Funktionmit Wert 0), aber nicht in C1([0, 2π]).

(7) Aus gegebenen Metriken kann man neue Metriken ableiten. Ist z.B. (M,d) metri-scher Raum und A ⊆ M , so ist d|A×A eine Metrik auf A, die sogenannte induzierteMetrik .

Sind (M ′, d′) und (M ′′, d′′) metrische Raume, so gibt es mehrere sinnvolle Moglichkei-ten, eine Produktmetrik d auf M ′ ×M ′′ einzufuhren, fur die Konvergenz (x′n, x

′′n) →

(x′, x′′) bezuglich d gleichbedeutend ist mit x′n → x′ bezuglich d′ und x′′n → x′′ bezuglich

7

Page 8: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

d′′. (Der Strich ist hier rein notationstechnisch und hat nichts mit Ableiten zu tun!)Mogliche Wahlen sind

d((x′, x′′), (y′, y′′)) := d′(x′, y′) + d′′(x′′, y′′),

oder := max{d′(x′, y′), d′′(x′′, y′′)},oder := [d′(x′, y′)2 + d′′(x′′, y′′)2]1/2.

Wenn wir schon Cauchy-Folgen definieren konnen fur metrische Raume, dann sicherauch Vollstandigkeit:

Definition (Vollstandigkeit) Ein metrischer Raum (M,d) heißt vollstandig, wennjede Cauchy-Folge in M (bezuglich d) konvergiert.

Beispiel: (8) Wie wir schon wissen, ist R mit der ublichen Metrik vollstandig. Fuhrenwir aber alternativ auf R die Metrik (?)

d(x, y) :=∣∣∣ x

1 + |x|− y

1 + |y|

∣∣∣ein, so rechnen wir zunachst genauso einfach wie in (2) nach, dass das eine Metrik ist.Bezuglich dieser Metrik ist die Folge (an)n∈N mit an = n eine Cauchy-Folge, denn furm ≥ n ≥ N gilt

d(m,n) =m

m+ 1− n

n+ 1=

m− n(m+ 1)(n+ 1)

≤ m+ 1

(m+ 1)(n+ 1)=

1

n+ 1≤ 1

N + 1,

und die rechte Seite wird fur große N kleiner als jedes ε > 0. Diese Cauchy-Folge kannaber nicht konvergieren, denn fur jeden hypothetischen Grenzwert a 6= 0 und n > 2|a|gilt

d(an, a) =∣∣∣ n

1 + n− a

1 + |a|

∣∣∣ ≥ 2|a|1 + 2|a|

− |a|1 + |a|

=|a|

(1 + 2|a|)(1 + |a|),

d(an, a) ist also durch eine positive Konstante nach unten beschrankt. Genauso ist derGrenzwert 0 ausgeschlossen wegen

d(an, 0) =n

n+ 1≥ 1

2

fur alle n ∈ N. Also haben wir eine Cauchy-Folge gefunden, die nicht konvergiert, daherist (R, d) nicht vollstandig. Wohl aber R mit der ublichen Metrik, was zeigt, dass auchVollstandigkeit eine Eigenschaft ist, die von der Metrik abhangt. �

Bemerkungen: (1) Aus der Dreiecksungleichung folgt sofort mit vollstandiger Induk-tion die verallgemeinerte Dreiecksungleichung

d(x0, xn) ≤n∑k=1

d(xk−1, xk)

8

Page 9: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

fur alle x0, . . . , xn ∈M(2) und die umgekehrte Dreiecksungleichung

|d(x, z)− d(y, z)| < d(x, y)

fur alle x, y, z ∈M . Beweis: d(x, z) ≤ d(x, y) + d(y, z) und d(y, z) ≤ d(x, y) + d(x, z).�

1.2 Normierte Raume

Wir wollen allerdings nicht auf beliebigen Mengen arbeiten, sondern (meistens) auf Rn,und der hat mehr Struktur, die wir auch in der Metrik reflektiert sehen wollen. Diefolgenden Definitionen berucksichtigen die Moglichkeit der Addition von Vektoren inRn und der Multiplikation mit einem Skalar.

Definition (translationsinvariante und positiv homogene Metriken) Eine Me-trik d auf einem R-Vektorraum E heißt translationsinvariant, falls d(x + z, y + z) =d(x, y) fur alle x, y, z ∈ E gilt. Sie heißt positiv homogen, falls d(tx, ty) = td(x, y) furalle x, y ∈ E und t > 0 in R gilt.

Nehmen wir an wir haben eine Metrik mit beiden Eigenschaften. Wegen der Trans-lationsinvarianz ist d dann vollstandig durch die Abstande d(x, 0) zum Nullpunkt be-stimmt, denn d(x, y) = d(x−y, 0) fur alle x, y ∈ E. Man schreibt dann oft ‖x‖ (oder |x|oder ‖x‖E oder ahnliches) statt d(x, 0); und die Metrik-Eigenschaften zusammen mitder positiven Homogenitat implizieren, dass ‖ · ‖ eine Norm im Sinne der folgendenDefinition ist.

Definition (normierter Raum) Ein normierter Raum ist ein K-Vektorraum (K =R oder = C), versehen mit einer Norm. Darunter versteht man eine Abbildung ‖ · ‖ :E → R mit den Eigenschaften

• Positivitat: ‖x‖ > 0 fur x 6= 0 und ‖0‖ = 0;

• (absolute) Homogenitat: ‖tx‖ = |t|‖x‖ fur alle x ∈ E und t ∈ K;

• Dreiecksungleichung: ‖x+ y‖ ≤ ‖x‖+ ‖y‖ fur alle x, y ∈ E.

Wir schreiben (E, ‖ · ‖) oder oft vereinfacht E fur den normierten Raum.

Bemerkungen: (1) Wie bei Metriken folgen sofort die verallgemeinerte Dreiecksun-gleichung ∥∥∥ n∑

k=1

xk

∥∥∥ ≤ n∑k=1

‖xk‖

9

Page 10: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

fur x1, . . . , xn ∈ E und die umgekehrte Dreiecksungleichung

‖x− y‖ ≥∣∣∣‖x‖ − ‖y‖∣∣∣

fur x, y ∈ E.

(2) Oben wurde bereits angedeutet, dass zu jeder translationsinvarianten und positivhomogenen Metrik d auf E durch ‖x‖ := d(x, 0) eine Norm definiert wird. Umgekehrtdefiniert jede Norm eine solche Metrik durch d(x, y) := ‖x− y‖. Man nennt deshalb injedem normierten Raum ‖x− y‖ den Abstand von x zu y. Die meisten in der Analysiswichtigen Abstandskonzepte werden durch Normen und nicht nur durch (die zu allge-meinen) Metriken beschrieben. �

Beispiele: (0) R und C mit dem Betrag | · | sind normierte Raume.

(1) Dasselbe gilt fur Rn und Cn mit der Euklidischen Norm (oft auch einfach Betraggenannt)

|x| :=

√√√√ n∑k=1

|xk|2 ,

die naturlich von der Euklidischen Metrik kommt.

(2) Fur jedes p ≥ 1 gibt es allgemeiner die p-Norm

‖x‖p :=[ n∑k=1

|xk|p]1/p

auf Rn oder Cn. Von den Normeigenschaften ist nur die Dreiecksungleichung nichttrivial, außer fur p = 1. Im Fall p > 1 brauchen wir die Holder-Ungleichung (in derenZusammenhang wir die p-Normen schon in Analysis 1 eingefuhrt haben)

x · y ≤ ‖x‖p‖y‖q

mit 1p

+ 1q

= 1. Unter Verwendung von (p− 1)q = p berechnen wir damit

‖u+ v‖pp =∑k

|uk + vk|p

≤∑k

(|uk|+ |vk|)|uk + vk|p−1

≤[∑

k

|uk|p]1/p[∑

k

|uk + vk|(p−1)q]1/q

+[∑

k

|vk|p]1/p[∑

k

|uk + vk|(p−1)q]1/q

= ‖u‖p‖u+ v‖p/qp + ‖v‖p‖u+ v‖p/qp .

Da pq

= p− 1, folgt

‖u+ v‖p ≤ ‖u‖p + ‖v‖p

10

Page 11: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

nach Dividieren durch ‖u+ v‖p−1 (oder trivialerweise, wenn das 0 ist). Diese Dreiecks-ungleichung heißt ubrigens auch Minkowski-Ungleichung.

(3) Als Grenzfall p → ∞ ergibt sich die Maximum-Norm oder Unendlich-Norm aufRn bzw. Cn, namlich

‖x‖∞ := max{|xk| : 1 ≤ k ≤ n}.Die Dreiecksungleichung ist hier trivial. Die Holder-Ungleichung gilt in der trivialenForm

x · y ≤ ‖x‖∞‖y‖1,

was Sinn macht, denn formal ist 1∞ + 1

1= 0 + 1 = 1.

(4) Durch Grenzubergang n → ∞ erhalt man Vektorraume, deren Elemente Folgensind. Fur 1 ≤ p <∞ nennen wir x = (xk)k∈N eine p-summierbare Folge wenn

‖x‖p :=( ∞∑k=1

|xk|p)1/p

<∞,

bzw. beschrankte (seltener ∞-summierbare) Folge, wenn

sup{|xk| : k ∈ N} <∞.

Die Raume dieser Folgen werden mit `p (fur 1 ≤ p ≤ ∞) bezeichnet; genauer mit `pRoder `pC, wenn man andeuten will, ob die Folgen reell- oder komplexwertig sind. DieMinkowski-Ungleichung

‖x+ y‖p ≤ ‖x‖p + ‖y‖pfolgt fur alle x, y ∈ `p aus der oben bewiesenen mit dem Grenzubergang n→∞ (auchp =∞ ist erlaubt). Ebenso lasst sich die Holder-Ungleichung auf Folgen ubertragen.

Wir wissen nun, dass ‖ · ‖p auf `p die Dreiecksungleichung erfullt; die anderen Norm-Eigenschaften sind leicht zu sehen. Damit wird `p fur alle 1 ≤ p ≤ ∞ ein normierterRaum.

(5) Man kann noch einen Schritt weiter gehen, und mit Reihen (oder Summen) In-tegrale approximieren. Damit hat man z.B. auf dem Vektorraum C0[a, b] der stetigenFunktionen auf [a, b] die Maximum-Norm

‖f‖∞ := max{|f(x)| : x ∈ [a, b]}

und die Lp-Normen

‖f‖p :=(∫ b

a

|f(x)|p dx)1/p

fur 1 ≤ p <∞. Auf Ck[a, b] gibt es außerdem die Ck-Norm

‖f‖Ck :=k∑j=0

‖f (j)‖∞.

Diese Normen verhalten sich recht unterschiedlich, z.B. im Bezug auf Vollstandigkeit.(C0, ‖ · ‖p) ist vollstandig fur p =∞, aber nicht fur p <∞. �

Normen haben viel mit konvexen Mengen zu tun:

11

Page 12: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Definition (konvexe Menge) Eine Teilmenge K eines Vektorraums E uber R heißtkonvex, falls mit je zwei Punkten x, y ∈ K auch die Verbindungsstrecke

[x, y] := {(1− t)x+ ty : 0 ≤ t ≤ 1}

in K liegt.

Bemerkungen: (1) Iteriertes Anwenden der definierenden Eigenschaft von konvexenMengen ergibt, dass mit gegebenen Punkten x1, . . . , xm auch jede konvexe Kombination

m∑j=1

tjxj

mit tj ≥ 0 fur alle j und t1 + . . .+ tm = 1 in der konvexen Menge K liegt.

(2) In R sind genau die Intervalle (einschließlich der uneigentlichen) die konvexenMengen.

(3) Der Durchschnitt beliebig vieler konvexer Mengen ist konvex. Genauso das karte-sische Produkt. Vereinigungen aber i.A. nicht.

(4) Ist eine Menge durch lineare Ungleichungen beschrieben, etwa

K = {x ∈ E : `i(x) ≥ ai fur i = 1, . . . ,m}

(oder auch mit > statt ≥ oder mit m = ∞ oder sogar i aus einer uberabzahlbarenIndexmenge), mit linearen Abbildungen `i : E → R, so ist K konvex. Denn K istSchnitt der Halbraume Hi := {x ∈ E : `i(x) ≥ ai}, un die sind konvex wegen (2) und(3).

(5) Ist A ⊆ E beliebige Menge, so gibt es eine kleinste konvexe Obermenge von Ain E; diese heißt die konvexe Hulle von A. Ihre Existenz sieht man mit (3), denn siemuss dann gleich dem Durchschnitt aller konvexen Obermengen von A sein (und esgibt mindestens eine solche, namlich E selbst).

(6) Ist ‖ · ‖ eine Norm auf E, so ist die (abgeschlossene) Einheitskugel bezuglich dieserNorm

B := {x ∈ E : ‖x‖ ≤ 1}konvex, denn mit der Dreiecksungleichung sieht man, dass fur alle x, y ∈ B und allet ∈ [0, 1] gilt:

‖(1− t)x+ ty‖ ≤ ‖(1− t)x‖+ ‖ty‖ = (1− t)‖x‖+ t‖y‖ ≤ (1− t) + t = 1,

also (1− t)x+ ty ∈ B.

(Aus demselben Grund sind alle Kugeln Br(z) := {x ∈ E : ‖x − z‖ ≤ r} fur z ∈ Eund r > 0 konvex.)

Umgekehrt kann nicht jede konvexe Menge K in E die Einheitskugel einer Norm aufE sein, denn es gibt wegen ‖ − x‖ = ‖x‖ mindestens noch die offensichtlichen Ein-schrankungen, dass K beschrankt sein sollte und der Schnitt von K mit jeder GeradenG ⊂ E durch die 0 symmetrisch bzgl. 0 ist, also von der Form [−e, e] fur ein e ∈ E\{0}.Das ist aber schon alles, was man fordern muss, wie der folgende Satz zeigt. �

12

Page 13: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Satz (Normen und konvexe Mengen) Sei E ein Vektorraum uber R. Eine Teil-menge K ⊆ E ist genau dann Einheitskugel zu einer Norm ‖ · ‖K auf E, wenn Kkonvex ist und der Schnitt von K mit jedem eindimensionalen Unterraum G von Evon der Form [−e, e] mit einem e ∈ E \ {0} ist.

Beweis: Dass jede Norm konvex ist und die Symmetrieeigenschaft hat, haben wirschon bemerkt. Sei also K gegeben wie im Satz beschrieben. Wir definieren dann furalle x ∈ E \ {0}

‖x‖K := min{t ∈ R>0 : x/t ∈ K}

(und naturlich ‖0‖K := 0). Dieses Minimum existiert in R>0 wegen der im Satz ge-machten Annahme e 6= 0 und der Abgeschlossenheit. Die Positivitat von ‖ · ‖K istdamit klar. Fur die Homogenitat bemerken wir, dass sx/t ∈ K fur s ∈ R und t > 0aquivalent ist mit x/(t/|s|) ∈ K (hier geht die Symmetrie von K ein). Daraus lesenwir die Homogenitat ‖sx‖K = |s|‖x‖K ab.

Fur die Dreiecksungleichung brauchen wir die Konvexitat von K: Zu x, y ∈ E bemerkenwir zunachst (mit ‖ · ‖ := ‖ · ‖K)

x+ y

‖x‖+ ‖y‖=

‖x‖‖x‖+ ‖y‖

x

‖x‖+

‖y‖‖x‖+ ‖y‖

y

‖y‖,

und rechts steht eine konvexe Kombination von zwei Elementen von K; damit folgt

x+ y

‖x‖+ ‖y‖∈ K,

also nach Definition der Norm

‖x+ y‖‖x‖+ ‖y‖

=∥∥∥ x+ y

‖x‖+ ‖y‖

∥∥∥ ≤ 1,

und damit ‖x+ y‖ ≤ ‖x‖+ ‖y‖ nach Multiplikation mit dem Nenner. �

Bevor wir noch allgemeinere als metrische Eigenschaften studieren, legen wir noch einpaar Notationen fest:

Definitionen und Notationen zu metrischen Eigenschaften

(1) Wie in R oder C konnen wir in jedem metrischen (und damit auch in jedemnormierten) Raum verschiedene Kugeln definieren. Sei also (M,d) metrischer Raum,a ∈M , r > 0.

• Br(a) := {x ∈M : d(x, a) ≤ r} heißen abgeschlossene Kugeln oder Balle;

• Ur(a) := {x ∈M : d(x, a) < r} heißen offene Kugeln oder r-Umgebungen;

• SR(a) := {x ∈M : d(x, a) = r} heißen Spharen.

13

Page 14: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Wir konnen BMr (a) oder Ud

r (a) etc. schreiben, wenn wir andeuten wollen, auf wel-chen Raum oder welche Metriken sich die Kugeln beziehen. (Vorsicht: Viele Autoren,insbesondere englischsprachige, schreiben B statt U und B statt B.)

In normierten Raumen kurzen wir außerdem ab:

Br := Br(0), Ur := Ur(0), Sr := Sr(0)

undB := B1, U := U1; S := S1.

Speziell in Rn mit der euklidischen Metrik haben sich die Bezeichnungen

Bn, Un, Sn−1 statt B, U, S

eingeburgert, die man benutzen kann, ohne vorher den Raum zu spezifizieren.

Man beachte, dass Kugeln nicht wie (euklidische) Kugeln aussehen mussen.In (R2, ‖ · ‖1) oder (R2, ‖ · ‖∞) sind sie sogar viereckig. (Bilder in der Vorlesung)

(2) Metrische Konzepte, die mit Teilmengen A ⊆M , B ⊆M eines metrischen Raums(M,d) zusammenhangen, werden wie folgt definiert:

• diamA := sup{d(x, y) : x, y ∈ A} heißt der Durchmesser von A. (diam ∅ := 0.)Im Fall diamA <∞ heißt die Menge A beschrankt .

• dist(a,A) := inf{d(a, x) : x ∈ A} heißt der Abstand des Punktes a zu A.(dist(a, ∅) :=∞.)

• Ur(A) := {x ∈M : dist(x,A) < r} heißt r-(parallel-)Umgebung von A;

• dist(A,B) := inf{d(x, y) : x ∈ A, y ∈ B} heißt der Abstand der Mengen A undB (:=∞, wenn eine der Mengen leer ist).

(3) Jetzt betrachten wir zwei metrische Raume (M,d) und (N, ρ) und Abbildungenf : M ⊇ A→ N dazwischen.

• f heißt isometrische Abbildung , wenn ρ(f(x), f(y)) = d(x, y) fur alle x, y ∈ Agilt. Ist f : M → N zusatzlich bijektiv, so heißt f eine Isometrie zwischen Mund N .

• f heißt dehnungsbeschrankt oder wir sagen es erfullt eine Lipschitz-Bedingung ,wenn L ≥ 0 existiert mit ρ(f(x), f(y)) ≤ Ld(x, y) fur alle x, y ∈ A. f heißt nicht-expandierend , wenn das mit L = 1 gilt, und kann man sogar L < 1 wahlen, soheißt f strikt kontrahierend . Gilt immerhin noch ρ(f(x), f(y)) < d(x, y) fur allex, y ∈ A, dann heißt f kontrahierend .

Erganzungen: Beispiele zur Konvergenz in normierten Raumen:

(1) Zunachst einmal entdecken wir etwas wieder, das wir schon kennen: Wir versehenden Vektorraum C0([a, b]) der stetigen Funktionen auf [a, b] mit der Maximimum-Norm(auch C0-Norm genannt)

‖f‖C0([a,b]) = ‖f‖∞ := sup{|f(x)| : x ∈ [a, b]}.

14

Page 15: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Die Konvergenz einer Folge (fn)n∈N in C0([a, b]) gegen ein f ∈ C0([a, b]) ist nachDefinition gleichbedeutend mit

‖fn − f‖∞ → 0,

und das bedeutetlimn→∞

(sup{|fn(x)− f(x)| : x ∈ [a, b]}) = 0.

Das ist die uns wohlbekannte gleichmaßige Konvergenz fn → f . Gleichmaßige Konver-genz wird also durch eine Norm beschrieben.

(2) Die Ck-Norm k ∈ N0)

‖f‖Ck([a,b]) :=k∑j=0

‖f (j)‖∞

lebt bekanntlich auf dem Raum Ck([a, b]) der auf [a, b] k-mal stetig differenzierbarenFunktionen f : [a, b]→ R (oder C, wenn man will). Wegen

‖f − g‖Ck([a,b]) = dCk([a,b])(f, g)

ist Konvergenz im normierten Raum Ck([a, b]) mit ‖ · ‖Ck([a,b]) dasselbe wie Konvergenzim metrischen Raum Ck([a, b]) mit dCk([a,b]). Und nach dem vorigen Beispiel ist beidesdasselbe wie gleichzeitige gleichmaßige Konvergenz der Funktionen sowie der ersten kAbleitungen.

Naturlich ist Ck+1([a, b]) ein Unterraum von Ck([a, b]) fur alle k. Damit ist z.B. auchdie C0-Norm eine Norm auf C1([a, b]), genau wie die C1-Norm. (Vgl. das entsprechendeBeispiel (6) fur die dazugehorigen Metriken.)

(3) Wir zeigen jetzt: C1([−1, 1]) ist vollstandig bezuglich der C1-Norm, aber nichtbezuglich der C0-Norm. Fur die Aussage uber die C0-Norm betrachten wir die Funk-tionenfolge

fn(x) :=

√x2 +

1

n2.

Jedes fn ist offensichtlich in C1([−1, 1]). Wir wollen zeigen, dass das eine Cauchy-Folge(bzgl. der C0-Norm ist, und dazu berechnen wir (mit dem ublichen Erweiterungstrick)

fm(x)− fn(x) =

√x2 +

1

m2−√x2 +

1

n2=

1m2 − 1

n2√x2 + 1

m2 +√x2 + 1

n2

.

Der Nenner wird kleiner, wenn wir die x2 weglassen, wir haben also

|fm(x)− fn(x)| ≤∣∣∣ 1m2 − 1

n2

1m

+ 1n

∣∣∣ =∣∣∣ 1

m− 1

n|.

Weil die rechte Seite von x nicht abhangt, folgt

‖fm − fn‖C0 = max{|fm(x)− fn(x)| : x ∈ [−1, 1]}

15

Page 16: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

fur alle m,n ∈ N. Weil wir wissen, dass ( 1n) eine Cauchy-Folge ist (da konvergent), wird

| 1m− 1

n| kleiner als jedes ε > 0, wenn wir nur m und n großer als ein von ε abhangi-

ges N ∈ N wahlen. Das aber wiederum impliziert mit der letzten Ungleichung, dass(fn)n∈N eine Cauchy-Folge bezuglich der C0-Norm ist. Ware also C1([−1, 1]) vollstandigbezuglich der C0-Norm, so musste es einen Limes der Cauchy-Folge in C1([−1, 1]) ge-ben.

Wir haben uns aber gerade uberlegt, dass C0-Konvergenz dasselbe wie gleichmaßigeKonvergenz der Funktionen ist, und aus Analysis 1 wissen wir, dass gleichmaßige kon-vergenz punktweise konvergenz (gegen dieselbe Grenzfunktion) impliziert. Wenn alsounsere Cauchy-Folge uberhaupt konvergiert, dann gegen den punktweisen Limes f ,ausgerechnet durch

f(x) = limn→∞

fn(x) = limn→∞

√x2 +

1

n2=√x2 = |x|.

Aber die Betragsfunktion ist nicht differenzierbar in 0 und deshalb nicht in C1([−1, 1]).Folglich haben wir eine Cauchy-Folge in (C1([−1, 1]), ‖ · ‖C0) gefunden, die nicht indiesem Raum konvergiert. Er ist also nicht vollstandig.

Andererseits behaupten wir: (C1([−1, 1]), ‖ · ‖C1) ist vollstandig. Das sieht man so:

Sei (fn)n∈N eine Cauchy-Folge in (C1([−1, 1]), ‖ · ‖C1). Wegen

|fm(x)− fn(x)|+ |f ′m(x)− f ′n(x)| ≤ ‖fm − fn‖C1

fur alle x ∈ [−1, 1] nach Definition der C1-Norm sind dann auch (fn(x))n∈N und(f ′n(x))n∈N fur jedes x ∈ [−1, 1] Cauchy-Folgen, also konvergent. Deshalb werden durch

f(x) := limn→∞

fn(x), g(x) := limn→∞

f ′n(x)

Funktionen auf [−1, 1] definiert. Die Konvergenzen fn → f und f ′n → g sind sogargleichmaßig auf [−1, 1], denn

|fn(x)− f(x)|+ |f ′n(x)− g(x)| = limm→∞

(|fn(x)− fm(x)|+ |f ′n(x)− f ′m(x)|)

≤ limm→∞

‖fn − fm‖C1 ;

die rechte Seite geht bei n → ∞ gegen 0 und ist unabhangig von x, also geht auchdas Supremum uber x ∈ [−1, 1] der linken Seite gegen 0, und das ist die behauptetegleichmaßige Konvergenz. Damit ist auch schon klar, dass f und g stetig sind, undaußerdem gilt

f ′(x) = limh→0

f(x+ h)− f(x)

h

= limh→0

limn→∞

fn(x+ h)− fn(x)

h

= limn→∞

limh→0

fn(x+ h)− fn(x)

h= lim

n→∞f ′n(x)

= gn(x)

16

Page 17: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

fur alle x ∈ [−1, 1] (mit Vorzeicheneinschrankungen fur h bei x = −1 oder x = 1).Dabei durften wir die Limites vertauschen, weil ...? (Wer genug Analysis 1 kann, kannsich daran mal versuchen!)

Die Gleichung zeigt Differenzierbarkeit von f und gleichmaßige Konvergenz f ′n → f ′.Insgesamt haben wir C1-Konvergenz fn → f gezeigt und f ∈ C1([−1, 1]), fur jedeC1-Cauchyfolge. Das zeigt die behauptete Vollstandigkeit von (C1([−1, 1]), ‖ · ‖C1).

(5) Gleichmaßige Konvergenz ist auch in `1 wieder dasselbe wie Konvergenz bezuglichder∞-Norm. Aber wie steht es eigentlich mit der (vermeintlich einfacheren) punktwei-sen Konvergenz? (Zur Erinnerung: xn → x punktweise, genau wenn xnk → xk fur allek ∈ N.) Kommt die auch von einer Norm? Jedenfalls nicht von der 1-Norm oder der∞-Norm, denn die Folge (δn)n∈N in `1 mit

δnk :=

{1 fur k = n,0 fur k 6= n

erfullt‖δm − δn‖1 = 2, ‖δm − δn‖∞ = 1

fur alle m 6= n; sie konvergiert also weder in der 1-Norm noch in der ∞-Norm. Abersie konvergiert (offensichtlich) punktweise gegen 0.

Gibt es uberhaupt eine Norm, deren Konvergenz die punktweise Konvergenz auf `1 ist?Die Antwort lautet nein, was man wie folgt sieht:

Angenommen ‖ · ‖ ist eine Norm auf `1, so dass fn → f punktweise schon fn → fbezuglich ‖ · ‖ impliziert. Da anδ

n → o fur jede Folge an ∈ R punktweise gilt, folgtdann

limn→∞

an‖δn‖ = limn→∞

‖δn − o‖ = 0.

Setzen wir hier aber an := 1/‖δn‖, dann folgt 1 = 0, ein offensichtlicher Widerspruch.

Aus diesem Grund kann es in Folgenraumen keine Norm geben, deren Konvergenzbe-griff die punktweise Konvergenz ist.

(6) Es gibt aber eine Metrik d auf `1, so dass Konvergenz bezuglich d dasselbe ist wiepunktweise Konvergenz von Folgen:

d(a, b) :=∞∑k=1

2−k|ak − bk|

1 + |ak − bk|.

Zum Beweis nehmen wir erst an, dass an → a bezuglich d gilt. Dann gilt fur jedes i ∈ N

|ani − ai| =|ani −ai|

1+|ani −ai|

1− |ani −ai|1+|ani −ai|

≤ 2id(an, a)

1− d(an, a)→ 0

bei n→∞, also ani → ai fur alle i ∈ N, das ist punktweise Konvergenz.

Sei umgekehrt an → a punktweise konvergent. Dann konvergiert ani → ai fur jedesi ∈ N, aber eventuell unterschiedlich langsam. Wir mussen zu jedem ε > 0 ein N ∈ R

17

Page 18: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

finden, so dass d(an, a) < ε fur alle n > N . Dazu bestimme zu unserem ε > 0 ersteinmal m ∈ N so groß, dass

∑∞k=m+1 2−k = 2−m < ε

2. Da der Bruch nach 2−k in der

Definition von d immer < 1 ist, haben wir also schon einmal

∞∑k=m+1

2−k|ank − ak|

1 + |ank − ak|≤

∞∑k=m+1

2−k <ε

2,

eine Abschatzung, die ubrigens von der Folge (an)n∈N gar nicht abhangt. Jetzt sind esaber nur noch endlich viele Indizes 1, . . . ,m, die wir kontrollieren mussen. Wir findenwegen der Konvergenzen ani → ai fur diese i ein N ∈ R mit

m∑k=1

2−k|ank − ak|

1 + |ank − ak|<ε

2

fur alle n > N . Fur dieselben n haben wir also nach Addition beider Ungleichungend(an, a) < ε, und das ist die zu beweisende Konvergenz bezuglich d. �

Punktweise Konvergenz in `1 ist also “metrisierbar”, aber nicht “normierbar”. Der Be-weis der Metrisierbarkeit hing aber kritisch davon ab, dass nur abzahlbar viele Kompo-nenten ai zu betrachten waren. Man kann zeigen: In C0([a, b]) ist sogar die punktwei-se konvergenz weder normierbar noch metrisierbar (aber letzteres erfordert ein wenigMuhe). Und das gilt auch fur andere in der Analysis wichtige Konvergenzbegriffe.

Unter anderem deshalb beschaftigt man sich mit noch allgemeineren Konzepten alsmetrischen Raumen, den topologischen Raumen, von denen im nachsten Abschnitt derErganzungen (d.h. im ubernachsten Abschnitt dieses Skripts) die Rede sein wird.

1.3 Topologische Grundbegriffe, Grenzwerte und Stetigkeit

Die Motivation fur das Folgende erklart sich daraus, dass die in der Analysis so wich-tigen Begriffe “Grenzwert” und “Stetigkeit” noch nicht einmal metrische Strukturenbrauchen, um sinnvoll definiert zu werden. Es genugen allgemeinere Begriffe von “Um-gebungen” von Punkten, die eine noch grobere Struktur darstellen. Es sind topologischeEigenschaften. Dabei befasst sich die Topologie nur auf qualitative Weise mit der Lageund Punkten relativ zueinander, ohne sie zu messen. Demnach geht alles in allgemeine-ren als metrischen Raumen, sogenannten topologischen Raumen. Da wir es andererseitsso allgemein nicht brauchen werden, formulieren wir die topologischen Konzepte nichtin großter Allgemeinheit, sondern doch nur fur metrische Raume. Trotzdem bringendie neuen Begriffe uns einen Erkenntnisgewinn, ohne den wir uns in mehr als einerDimension nur schwer zurechtfinden wurden.

Bei Intervallen in R wissen wir was “offen”, “abgeschlossen” und “Rand” bedeuten. ImRn (oder sogar schon in C) mussen wir uns aber mit komplizierteren Mengen ausein-andersetzen und benotigen geeignete Abstraktionen dieser Begriffe. Wir beginnen ganzvorsichtig und versuchen zunachst nur, uns uber die Rolle einzelner Punkte in einerMenge klar zu werden:

18

Page 19: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Definition (topologische Grundbegriffe in metrischen Raumen) Sei (M,d) me-trischer Raum, A ⊆M . Ein Punkt x ∈M heißt

• innerer Punkt von A, wenn eine ε-Umgebung Uε(x) fur irgendein ε > 0 ganz inA liegt (und damit auch fur alle kleineren ε > 0);

• außerer Punkt von A, wenn eine ε-Umgebung Uε(x) fur irgendein ε > 0 ganzaußerhalb von A liegt, also wenn x innerer Punkt des Komplements M \ A ist;

• Randpunkt von A, wenn x weder innerer noch außerer Punkt ist, wenn also jedesUε(x) (fur ε > 0) sowohl Punkte aus A als auch Punkte aus M \ A enthalt;

• isolierter Punkt von A, wenn es ε > 0 gibt, fur das Uε(x) ∩ A = {x} ist;

• Haufungspunkt von A, wenn jedes Uε(x) (fur ε > 0) außer evtl. x mindestenseinen (weiteren) Punkt von A enthalt.

Bemerkungen: (1) Jeder Punkt von M ist also genau eines von folgenden dreien:innerer Punkt, außerer Punkt oder Randpunkt. Genauso Haufungspunkt, isolierterPunkt oder außerer Punkt.

(2) Randpunkte und Haufungspunkte konnen in A oder in M \ A liegen. �

Damit kommen wir jetzt zu topologischen Eigenschaften von Mengen:

Definition (topologische Eigenschaften von Mengen in metr. Raumen) Sei(M,d) metrischer Raum, A ⊆M .

• Die Menge der inneren Punkte von A heißt das Innere (oder der offene Kern)

von A, sie wird mit◦

A oder intA bezeichnet.

• Die Menge der Randpunkte von A heißt der Rand von A und wird mit ∂A be-zeichnet.

• Der Abschluss der Menge A ist A := A∪ ∂A. Er wird manchmal auch mit closAbezeichnet. (Vorsicht: In vielen Schulen bezeichnet A das Komplement;hier nicht!)

Die Menge A heißt (in M)

• offen, wenn A nur innere Punkte enthalt (A =◦

A), wenn also A keinen Randpunktentalt (A ∩ ∂A = ∅);

• abgeschlossen, wenn A = A, wenn also A alle seine Randpunkte enthalt (∂A ⊆ A(Aquivalent auch alle seine Haufungspunkte);

• dicht, wenn A = M (d.h. alle Punkte von M sind entweder in A oder Haufungs-punkte von A);

19

Page 20: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

• nirgends dicht, wenn der Abschluss A keine inneren Punkte hat (◦

A = ∅);

• diskret, wenn A abgeschlossen ist und nur isolierte Punkte hat, bzw. aquivalentwenn A keine Haufungswerte besitzt;

• Umgebung eines Punktes x ∈ M wenn x ∈◦

A ist (Umgebungen brauchen alsonicht offen sein!);

• Umgebung einer Menge B ⊂M , wenn B ⊆◦

A ist.

Beispiele: (0) In jedem metrischen Raum (M,d) sind ∅ und M sowohl offen als auchabgeschlossen.

(1) Das Innere von Bn oder Un ist Un, der Abschluss Bn, der Rand Sn−1. Das Innerevon Sn−1 ist ∅, da jede Umgebung eines Punktes x ∈ Sn−1 auch Vektoren vom Betrag6= 1 enthalt und damit Punkte /∈ Sn−1. Andererseits enthalt naturlich auch jede solcheUmgebung x ∈ Sn−1 selbst. Deshalb ist ∂Sn−1 = Sn−1. Dann ist der Abschluss vonSn−1 die Menge selbst, und diese hat kein Inneres, also ist Sn−1 nirgends dicht.

(2) Q ist dicht in R, nicht nur im Sinne von Analysis I, sondern das ist auch kompa-tibel mit den jetzigen Definitionen. Es gilt namlich Q = R. Das Innere von Q ist leer,und der Rand von Q ist ebenfalls R. Die Beispiele zeigen, dass mengentheoretischeTopologie nicht immer ausgesprochen intuitiv sein muss. �

Bemerkungen: (1) Das Innere des Komplements einer Menge ist das Komplementdes Abschlusses:

(M \ A)◦ = M \ A,Der Abschluss des Komplements inst das Komplement des Innern:

M \ A = M \◦

A.

Der Rand ist der Rand des Komplements und der Abschluss ohne das Innere:

∂A = ∂(M \ A) = A \◦

A.

(2)◦

A ist die großte offene Teilmenge von A. Zum Beweis mussen wir zunachst mal

zeigen, dass◦

A offen ist. Ist x ∈◦

A, so enthalt A nach Definition ein Uε(x). Fur alley ∈ Bε/2(x) ist dann nach der Dreiecksungleichung Uε/2(y) ⊂ Uε(x) ⊆ A und damit

Uε/2(x) ⊂◦

A. Also hat jeder Punkt von◦

A eine ε2-Umgebung in

A, und◦

A ist offen.

Ist O eine weitere offene Teilmenge, so folgt◦

O ⊆◦

A aus O ⊆ A, und damit ist O ⊆◦

A

wegen◦

O = O.

Mit Hilfe von (1) folgern wir aus dem gerade Bewiesenen: A ist die kleinste abgeschlos-sene Obermenge von A.

(3) ∂A ist immer abgeschlossen (vgl. Ubungen).

20

Page 21: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

(4) A = {x ∈ M : dist(A) = 0}. Denn x ∈ A genau dann, wenn zu jedem ε > 0 einy ∈ A∩Uε(x) existiert, also d(x, y) < ε. Das ist aber gleichbedeutend mit inf{d(x, y) :y ∈ A} = 0. �

Fundamentale Eigenschaften von offenen und abgeschlossenen Mengen betreffen Ver-erbungseigenschaften bei Durchschnitt und Vereinigung. Diese kann man sogar zurDefinition einer “Topologie” auf einer Menge heranziehen, wenn diese keine Metriktragt; denn mit ihrer Hilfe lassen sich die wesentlichen Aspekte von Offenheit “charak-terisieren”. Mehr dazu in den Erganzungen.

Satz (Schnitte und Vereinigungen offener/abg. Mengen) Sei (M,d) metrischerRaum.

(i) Eine Teilmenge von M ist abgeschlossen genau dann, wenn ihr Komplement offenist.

(ii) Vereinigungen von (beliebig vielen) offenen Mengen sind offen.

(iii) Durchschnitte von (beliebig vielen) abgeschlossenen Mengen sind abgeschlossen.

(iv) Durchschnitte von endlich vielen offenen Mengen sind offen.

(v) Vereinigungen von endlich vielen abgeschlossenen Mengen sind abgeschlossen.

Bemerkung: In (iv) und (v) konnen nicht unendlich viele Mengen zugelassen werden.Das zeigen die Beispiele

∞⋂n=1

]− 1n, 1n[ = {0} ist nicht offen;

∞⋃n=1

[ 1n, 1− 1

n] = ]0, 1[ ist nicht abgeschlossen.

Beweis des Satzes: (i) A ist abgeschlossen (also A = A), genau wenn M \A = M \A,also nach Bemerkung (1) genau wenn M \A = (M \A)◦. Aber letzteres ist die Offenheitvon M \ A.

(ii) Allgemein gilt (⋃i∈I

Ai

)⊆(⋃i∈I

Ai

)◦(aber nicht immer “=”, z.B. Q,R \ Q ⊂ R), denn fur jedes x ∈

⋃i∈I

Ai gibt es j ∈ Imit x ∈

Aj und eine Kugel um x in Aj, die auch in⋃i∈I

Ai liegt, also x ∈ (⋃i∈I Ai)

◦.

Fur offene Ai folgt⋃i∈I Ai =

⋃i∈I

Ai ⊆ (⋃i∈I Ai)

◦, und (⋃i∈I Ai)

◦ ⊆⋃i∈I Ai ist trivial.

(iii) folgt aus (ii) mit (i).

(iv) Allgemein gilt

(A ∩B)◦ =◦

A ∩◦

B

21

Page 22: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

(aber falsch fur unendlich viele Mengen, s.o.). Denn “⊆” ist klar, und “⊇” sieht man

so: Ist x ∈◦

A ∩◦

B, dann gibt es r, s > 0 mit Ur(x) ⊆ A, Us(x) ⊆ B. Mit ε := min{r, s}ist Uε(x) ⊆ A ∩B, also x ∈ (A ∩B)◦.

Fur offene A,B folgt (A ∩B)◦ =◦

A ∩◦

B = A ∩B.

(v) folgt aus (iv) mit (i). �

Was hat das alles mit Analysis zu tun? Zumindest ist hier schon mal der Begriff der ε-Umgebung genauso zentral wie fur Grenzwerte und Stetigkeit. Wir werden noch sehen,dass diese Begriffe viel mit topologischen Konzepten zu tun haben. Zur allgemeinerenFormulierung von Satzen aus der Analysis 1 fur mehrere Dimensionen werden wirtopologische Begriffe brauchen.

Wir beschaftigen uns also jetzt wieder mit Konvergenzbegriffen in metrischen Raumen(und damit insbesondere in normierten Raumen). Eine erste Bemerkung ist hier, dassman bei der Benutzung von “ε-Umgebungen” auch auf das ε verzichten kann!

Bemerkung: Sei (M,d) metrischer Raum und x ∈ M . Jede ε-Umgebung von x istinsbesondere eine Umgebung, und jede Umgebung enthalt eine ε-Umgebung. Deshalbkann man fur eine Definition von Folgenkonvergenz ganz auf ε verzichten und erhaltfolgende Umformulierung:

Eine Folge (an)n∈N konvergiert gegen a ∈ N, wenn zu jeder Umgebung U von a einN ∈ R existiert mit an ∈ U fur alle n > N .

Denn dieselbe Formulierung mit “ε-Umgebung” statt “Umgebung” ist offensichtlichaquivalent zur fruheren Definition. Man beachte, dass es von der Wahl der Metrik(oder Norm) abhangen kann, welche Mengen Umgebungen sind. Diese Abhangigkeitkommt in dieser Formulierung nicht deutlich raus. �

Jetzt ein paar Beispiele zu Konvergenzbegriffen, die mit Normen oder Metriken erklartwerden konnen.

Beispiele: (0) In R oder C mit | · | ist Konvergenz von Folgen dasselbe wie in Analysis I.

(1) Auf beliebiger Menge M mit diskreter Metrik ist eine Folge (an)n∈N genau dannkonvergent gegen a ∈ M , wenn alle an bis auf endlich viele gleich a sind. Denn inder Grenzwertdefinition darf man {a} (offen!) als Umgebung von a wahlen; in diesermussen fast alle Folgenglieder liegen.

(2) In Rn (oder auch Cn) mit ‖ · ‖p (1 ≤ p ≤ ∞) ist Konvergenz aquivalent mitkomponentenweiser Konvergenz, d.h. ak → a bei k →∞ genau dann, wenn (ak)i → aifur alle i = 1, . . . , n. Das liest man leicht an der Definition von ‖ · ‖p ab. Also induzierenalle p-Normen denselben Konvergenzbegriff auf Rn. Dass das einen tieferen Grund hat,werden wir spater sehen.

(3) In `p ist es zwar so, dass die Konvergenz einer Folge (a(k))k∈N von Folgen (a(k)n )n∈N

in R gegen ein a = (an)n∈N wieder die komponentenweise Konvergenz

limk→∞

a(k)n = an

22

Page 23: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

impliziert (denn ‖a− b‖p < ε impliziert |an − bn| < ε fur alle n ∈ N). Aber komponen-tenweise Konvergenz reicht nicht aus, um Konvergenz in `p sicherzustellen. Um das zusehen, betrachte die Folgen

e(k) := (0, . . . , 0, 1, 0, . . .) mit 1 an k-ter Stelle.

Diese konvergieren komponentenweise gegen 0 := (0, 0, 0 . . .), aber

‖e(k) − 0‖p = 1 fur alle k ∈ N,

so dass die e(k) nicht gegen 0 konvergieren konnen. (Aus ahnlichem Grund konvergierensie uberhaupt nicht).

(4) In C0[a, b] mit der ∞-Norm ist Konvergenz dasselbe, was wir als gleichmaßigeKonvergenz definiert haben. Denn

limn→∞

‖fn − f‖∞ = 0

bedeutet nichts anderes als

max{|fn(x)− f(x)| : x ∈ [a, b]} → 0

bei n→∞, und das ist gleichmaßige Konvergenz.

Man kann aber auch C0[a, b] mit anderen Normen versehen, z.B. mit den p-Normenfur 1 ≤ p < ∞. Bezuglich dieser Normen konvergiert fn gegen f genau dann, wenn‖fn − f‖p → 0, also wenn ∫ b

a

|fn(x)− f(x)|p dx→ 0.

Diese Konvergenz heißt Konvergenz im p-Mittel .

Das gibt fur jedes p ≥ 1 einen anderen Konvergenzbegriff, wie das folgende Beispielzeigt: Auf [0, 3] definiere fn ∈ C0[0, 3] fur fest gewahltes r ≥ 1 durch

fn(x) :=

n1/r auf [0, 1

n],

2n1/r − n(1/r)+1x auf [ 1n, 2n],

0 auf [ 2n, 3].

Fur p > r finde

‖fn‖p ≥( 1

nnp/r

)1/p

= n1/r−1/p →∞

so dass die Folge bezuglich der p-Norm unbeschrankt ist. Fur p < r ist dagegen

‖fn‖p ≤( 2

nnp/r

)1/p

≤ 2n1/r−1/p → 0,

also fn → 0 im p-Mittel. Also finden wir zu jedem Paar p < q in [1,∞[ eine Folge(fn)n∈N in C0[0, 3] die im p-Mittel konvergiert, im q-Mittel aber nicht.

23

Page 24: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Es kommt also in unendlichdimensionalen Raumen durchaus auf die Norm an, welcheFolgen konvergieren. (Und das ist ein guter Grund, warum wir diese Fragen uberhauptso genau betrachten.)

In endlichdimensionalen Vektorraumen wie Rn oder Cn induzieren immerhin alle Nor-men (aber nicht alle Metriken) denselben Konvergenzbegriff. Das konnten wir jetztzeigen, geht aber spater muheloser. �

Wichtig ist die folgende Charakterisierung abgeschlossener Mengen durch Folgengrenz-werte. Die ist vermutlich sogar der Grund dafur, warum “abgeschlossen” uberhaupt eineder wichtigsten Eigenschaften von Mengen ist:

Satz (abgeschlossene Mengen und Grenzwerte) Sei X ein metrischer Raum.Eine Teilmenge A ⊆ X ist abgeschlossen genau dann, wenn fur jede Folge (xn)n∈N inA, die in X konvergiert, der Grenzwert auch in A liegt.

Beweis: Ist A abgeschlossen und x = limn→∞ xn fur eine Folge (xn)n∈N in A, dannist entweder xn = x fur ein n ∈ N (und damit automatisch x ∈ A), oder jede Um-gebung von x enthalt unendlich viele verschiedene der xn, woraus folgt, dass x einHaufungspunkt von A ist, also x ∈ A = A; letzteres “=” gilt, weil A abgeschlossen ist.

Ist umgekehrt fur jede konvergente Folge in A der Limes auch in A, dann ist A ab-geschlossen. Um das zu zeigen, geben wir uns irgendeinen Haufungspunkt x ∈ A vor,und mussen zeigen, dass er in A liegt. Jede Umgebung U1/n(x) enthalt einen Punktxn ∈ A \ {x}, und es gilt naturlich d(xn, x) < 1

n→ 0, d.h. (xn)n∈N ist Folge in A und

konvergiert gegen x. Die Voraussetzung impliziert dann x ∈ A. �

Die folgenden Rechenregeln in normierten Raumen erfordern uberwiegend keine neuenIdeen gegenuber dem in Analyis 1 Bewiesenen:

Satz (Rechenregeln fur Grenzwerte in normierten Raumen) Seien E,F,G nor-mierte Raume uber K (= R oder = C).

(i) Gelten an → a, bn → b in E, dann gilt fur alle s, t ∈ K die Konvergenz san + tbn →sa+ tb in E.

(ii) Ist ∗ : E × F → G ein Produkt, und gelten an → a in E und bn → b in F , so giltauch an ∗ bn → a ∗ b in G.

(iii) Gelten an → a in E und sn → s 6= 0 in K, so gilt 1snan → 1

sa in E.

(iv) Gilt an → a in E, so gilt auch ‖an‖E → ‖a‖E.

Wir werden nur (ii) beweisen, und dazu mussen wir erst einmal wissen, was ein Produktist:

Definition (Produkt) Ein Produkt ∗ : E × F → G zwischen normierten Raumenuber K ist eine Abbildung mit den folgenden Eigenschaften:

24

Page 25: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

• R-Bilinearitat: (sa+ tb) ∗ c = sa ∗ c+ tb ∗ c und a ∗ (sc+ td) = sa ∗ c+ ta ∗ d furalle a, b ∈ E, c, d ∈ F , s, t ∈ R.

• Beschranktheit: Es gibt C <∞ mit ‖a∗ c‖G ≤ C‖a‖E‖c‖F fur alle a ∈ E, c ∈ F .

Beispiele von Produkten sind

• Multiplikation mit Skalaren,

• Skalarprodukte E × E → K (auch bei C-Vektorraumen nicht C-bilinear),

• Multiplikation (L, v) 7→ Lv von Matrizen L ∈ Rm×n mit Vektoren in Rn,

• Multiplikation (A,B) 7→ AB von Matrizen A ∈ Rm×n und B ∈ Rn×`,

• Das Vektorprodukt (“Kreuzprodukt”) R3 × R3 → R3.

Dabei versieht man Rm×n z.B. mit der euklidischen Norm nach Identifikation Rm×n ∼=Rmn. �

Beweis von Teil (ii) des Satzes: Unter den Voraussetzungen gilt

‖an ∗ bn − a ∗ b‖G = ‖an ∗ (bn − b) + (an − a) ∗ b‖G≤ ‖an ∗ (bn − b)‖G + ‖(an − a) ∗ b‖≤ C‖an‖E‖bn − b‖F + C‖an − a‖E‖b‖F ,

und die rechte Seite geht gegen 0, weil jeweils die Norm der Differenz gegen 0 geht(wegen der angenommenen Konvergenz) und ‖an‖E wegen der Konvergenz an → abeschrankt ist.

Man bemerke, dass wir hier die Bilinearitat gar nicht benutzt haben! Der Satz gilt alsoeigentlich allgemeiner. �

Naturlich gibt es nicht nur Grenzwerte von Folgen, sondern auch von “Funktionen”,die man (wenn der Zielraum nicht R oder C oder gelegentlich auch Rn oder Cn ist)meist Abbildungen nennt:

Definition (Grenzubergange fur Abbildungen) Es seien X, Y metrische Rau-me, A ⊆ X, a ∈ X ein Haufungspunkt von A, f eine (mindestens) auf A \ {a}definierte Abbildung nach Y .

(i) b ∈ Y heißt Grenzwert oder Limes von f bei x → a (genauer: A 3 x → a),wenn zu jeder Umgebung V von b in Y eine Umgebung U von a in X existiert mitf(U ∩ A \ {a}) ⊆ V . Wir schreiben limA3x→a f(x) = b oder f(x) → b bei A 3 x → a.Ist A = X oder der Zusammenhang klar, so lassen wir “A 3” auch weg.

(i’) In metrischen Raumen ist aquivalent: Zu jeder ε-Umgebung Vε(b) existiert eineδ-Umgebung Uδ(a), so dass f(x) ∈ Vε(b) fur alle x ∈ Uδ(a) ∩ A mit x 6= a.

25

Page 26: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

(ii) b ∈ Y heißt Haufungswert von f beim Grenzubergang x→ a, falls zu allen Umge-bungen V von b in Y und U von a in X ein x 6= a in U ∩ A existiert mit f(x) ∈ V .Wieder kann man sich in metrischen Raumen auf ε- und δ-Umgebungen beschranken.

Bemerkungen: (1) Uneigentliche Grenzwerte erklart man wieder vollig analog mitden ublichen Umgebungen von ∞ (oder von ±∞ im Fall Y = R oder X = R). D.h.man setzt in R

Uε(∞) := ]1ε,∞[ , Uε(−∞) := ]−∞,−1

ε[ ,

und in CUε(∞) := C \B1/ε(0).

(2) In metrischen Raumen sind Grenzwerte eindeutig bestimmt. Der Beweis ist eineModifikation des bekannten Beweises aus Analysis 1.

(3) Grenz- und Haufungswerte bei x → a andern sich nicht, wenn man f außerhalbeiner Umgebung von a abandert. Es sind also “lokale” Konzepte.

(4) Die fruher in Analysis 1 erklarten Grenzwerte sind ein Spezialfall der Definitionhier.

(5) Wie schon bei “Folgenkriterien” in Analysis 1 kann man die Grenzwert- undHaufungswert-Definitionen umschreiben zu Kriterien, in denen man alles mit Grez-werten von Folgen formuliert. Man erhalt die folgenden “Ubertragungsprinzipien”:

(i) limA3x→a f(x) = b genau dann, wenn fur jede Folge (xn)n∈N in A \ {a} mit xn → agilt, dass f(xn)→ b.

(ii) Genau dann ist b Haufungswert von f bei A 3 x→ a, wenn es eine Folge (xn)n∈Nmit xn → a in A \ {a} gibt, fur die f(xn)→ b.

Die Rechenregeln und viele weitere Eigenschaften von Grenz- und Haufungswertenkonnen damit fur Abbildungen ubertragen werden, wenn man sie fur Folgen schonkennt.

(6) Zwei Normen ‖ · ‖ und ||| · ||| auf einem Vektorraum E heißen aquivalent , wennes Konstanten c > 0 und C <∞ gibt, fur die

c|||x||| ≤ ‖x‖ ≤ C|||x||| fur alle x ∈ E.

An Konvergenzbegriffen andert sich nichts, wenn man eine Norm durch eine andere da-zu aquivalente ersetzt. Auf Rn und Cn sind, wie wir in 1.5 sehen werden, alle Normenaquivalent. Folglich ist es fur Konvergenzaussagen egal, welche Norm wir auf diesenRaumen wahlen. �

Beispiele: (1) Warum ist 00 nicht definiert?

Wir betrachten die Funktion

f : R>0 × R =: H → R, f(x, y) := xy.

Was immer 00 ist, es sollte

00 := limH3(x,y)→(0,0)

f(x, y) (?)

26

Page 27: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

sein. Aber dieser Limes existiert nicht. Denn

f(x,

s

log x

)= xs/ log x = es

fur alle x > 0 und alle s ∈ R. Wahlt man x klein genug, so ist (x, slog x

) beliebig nah

bei 0, also existiert in jeder ε-Umgebung von (0, 0) ein (x, y) ∈ H mit f(x, y) = es

(und damit auch in jeder δ-Umgebung von es). Damit ist jedes es, also jede positivereelle Zahl, ein Haufungswert von f bei H 3 (x, y)→ (0, 0); ein Grenzwert kann nichtexistieren (denn der ware der einzige Haufungswert). Folglich gibt es keinen naturlichenKandidaten fur 00, und man lasst es undefiniert.

(2) Warum setzt man 0r := 0 fur alle r ∈ R>0?

Fur ganzzahlige r ist das klar, aber fur allgemeine r macht die ubliche Definition0r := er log 0 nur formal Sinn (mit log 0 = −∞, formal gesehen). Aber wir konnen

0r := limH3(x,y)→(0,r)

f(x, y)

setzen, denn diesmal existiert der Limes, und er ist 0. Um das zu sehen, geben wir unsε > 0 vor. Nun mussen wir δ > 0 finden, so dass

|f(x, y)− 0| < ε falls (x, y) ∈ H und |(x, y)− (0, r)| < δ.

Wir haben unter der letzten Voraussetzung 0 < x < δ und |y − r| < δ. Wahlen wiralso δ := min{ε2/r, 1, r/2}, dann ist y > r/2 und 0 < x < 1, und deshalb

|f(x, y)− 0| = xy < xr/2 < (ε2/r)r/2 = ε

fur alle oben spezifizierten (x, y). Die Grenzwertdefinition impliziert nun die Behaup-tung. �

Wenn wir Grenzwerte von Abbildungen bestimmen konnen, dann ist auch mehr oderweniger klar, was Stetigkeit von Abbildungen bedeuten soll: namlich, dass der Funk-tionswert an jedem Haufungspunkt des Definitionsbereich mit dem Grenzwert uber-einstimmt. Fur Abbildungen zwischen metrischen Raumen konnen wir das wie folgtformulieren:

Definition (Stetigkeit von Abbildungen zwischen metrischen Raumen)Seien X, Y metrische Raume. f : X ⊇ A→ Y heißt stetig an der Stelle a ∈ A, wenn zujeder ε-Umgebung Vε(f(a)) von f(a) in Y eine δ-Umgebung Uδ(a) von a in X existiert,fur die f(Uδ(a) ∩ A) ⊆ Vε(f(a)).

f heißt stetig (auf A), wenn f in jedem a ∈ A stetig ist.

Kann dabei stets δ als Funktion von ε unabhangig von a gewahlt werden, so heißt fgleichmaßig stetig auf A.

Kann man sogar δ = ε/L mit einem L > 0 wahlen, gilt also

dY (f(w), f(x)) ≤ LdX(w, x) fur alle w, x ∈ A,

27

Page 28: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

so heißt f Lipschitz-stetig mit Lipschitz-Konstante L.

Der Menge der stetigen Abbildungen f : A → Y wird mit C0(A, Y ) bezeichnet; sie istein K-Vektorraum, wenn Y das ist. In diesem Fall gibt es den Teilraum C0

b (A, Y ) derbeschrankten stetigen Abbildungen (soll heißen der Abbildungen mit beschranktem Bildin Y ), der mit mit der Supremumsnorm ‖f‖∞ := sup{‖f(x)‖Y : x ∈ A} versehen wird,was C0

b (A, Y ) zu einem normierten Raum macht.

Bemerkungen: (1) Aquivalente Formulierungen der Stetigkeitsdefinition mit Umge-bungen oder Folgen ergeben sich, wenn man aquivalente Formulierungen der Grenz-wertdefinition benutzt. Insbesondere konnen stetige Abbildungen mit Folgenlimitesvertauscht werden, d.h. fur stetiges f gilt

limn→∞

f(xn) = f( limn→∞

xn).

(2) Um zu zeigen, dass eine Abbildung in a ∈ A unstetig ist, genugt die Angabe einereinzigen Folge xn → a in A, fur die f(xn) nicht gegen f(a) konvergiert.

(3) Stetigkeit ist eine lokale Eigenschaft, d.h. Stetigkeit von f in A wird nicht verandert,wenn f außerhalb einer Umgebung von a modifiziert wird. Das folgt aus der entspre-chenden Eigenschaft von Grenzwerten. �

Beispiele: (1) Ist (M,d) metrischer Raum, so ist der Abstand zu einem festen Punkta ∈M

f(x) := d(a, x)

eine Lipschitz-stetige Funktion f : M → R (mit Lispschitz-Konstante 1), denn nachder umgekehrten Dreiecksungleichung gilt

|f(x)− f(y)| = |d(x, a)− d(y, a)| ≤ d(x, y).

Insbesondere ist f stetig. Als Spezialfall dieses Beispiels ist in jedem normierten Raum(E, ‖ · ‖) die Norm ‖ · ‖ : E → R Lipschitz-stetig mit Konstante 1, denn ‖x‖ = d(x, 0).

(2) Ordnet man x ∈ Kn die Koordinate xi (fur ein fest gewahltes i ∈ {1, . . . , n}) zu,so ist diese Abbildung Lipschitz-stetig mit Konstante 1, denn |xi−yi| ≤ |x−y| fur allex, y ∈ Kn.

(3) Lineare Abbildungen L : E → F zwischen normierten K-Vektorraumen sind stetig,wenn dimE < ∞. Denn dann durfen wir E = Kn mit der 1-Norm annehmen (weiljeder endlichdimensionale K-Vektorraum isomorph zu Kn ist und darauf alle Normenaquivalent sind, was wir in 1.5 zeigen werden). Setze dann

K := max{‖Lei‖F : i ∈ {1, . . . , n}}.

Damit ist fur x, y ∈ Kn

‖Lx− Ly‖F = ‖L(x− y)‖F

28

Page 29: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

=∥∥∥L( n∑

i=1

(xi − yi)ei)∥∥∥

F

=∥∥∥ n∑i=1

(xi − yi)L(ei)∥∥∥F

≤n∑i=1

|xi − yi| ‖L(ei)‖F

≤ K‖x− y‖1.

Also ist L Lipschitz-stetig und insbesondere stetig.

Ist dagegen dimE =∞, so gibt es (etwas uberraschend, wenn man es zum ersten malsieht) immer auch unstetige lineare Abbildungen E → F . Ein Beispiel ist L : `∞ → `∞

mitLek := kek fur alle k ∈ N,

genauer gesagt sei L die lineare Fortsetzung der Funktion mit diesen Werten auf denlinear unabhangigen ek und 0 auf einem Komplement zu dem davon aufgespanntenUnterraum. Dabei sei wie fruher ek := (0, . . . , 0, 1, 0, . . .) mit der Eins an der k-tenStelle.

Fur diese Abbildung betrachten wir die Folge xn := 1nen. Sie konvergiert wegen

‖xn‖∞ = 1n

gegen 0 (die Nullfolge), aber ihr Bild unter L konvergiert wegen ‖Lxn‖∞ =‖en‖∞ = 1 fur alle n ∈ N nicht gegen L0 = 0. Folglich kann L nicht stetig sein.

Man kann zeigen, dass eine lineare Abbildung genau dann stetig ist, wenn sie nurLipschitz-stetig nahe 0 ist, und dann ist sie uberhaupt schon Lipschitz-stetig. �

Eine der Uberraschungen beim Studium toplogischer Begriffe ist, dass es fur Stetigkeiteiner Funktion (allerdings nur der ganzen Funktion, nicht in einzelnen Punkten) eineganz einfache topologische Charakterisierung ohne Umgebungen und ohne Folgen gibt:

Satz (Topologische Charakterisierung der Stetigkeit) Seien X, Y metrische Raume.Genau dann ist f : X → Y stetig, wenn das Urbild f−1B jeder offenen TeilmengeB ⊆ Y offen ist.

Beweis: “⇒”: Zu a ∈ f−1B, b := f(a) gibt es Umgebungen Uε(b) ⊆ B von b in Y undUδ(a) von a in X mit f(Uδ(a)) ⊆ Uε(b), also Uδ(a) ⊆ f−1Uε(b) ⊆ f−1B, damit ist jedesa ∈ f−1B innerer Punkt.

“⇐”: Zu a ∈ X, b := f(a) und einer beliebigen ε-Umgebung Uε(b) von b in Y istV := f−1Uε(b) (ist Obermenge eines Uε(a) nach Voraussetzung) eine Umgebung von ain X, die trivialerweise f(V ) ⊆ Uε(b) erfullt. �

Bemerkungen: (1) Durch Ubergang zu Komplementen zeigt man auch, dass f genaudann stetig ist, wenn alle Urbilder abgeschlossener Mengen abgeschlossen sind.

(2) Wenn f : X ⊃ D → X nur auf einer echten TeilmengeD vonX definiert ist, stimmtdie Aussage des Satzes nach einer kleinen Modifikation: Ist D ⊂ X eine Teilmenge eines

29

Page 30: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

metrischen Raumes, so heißt eine Teilmenge A ⊆ D relativ offen / abgeschlossen in D,

wenn A = A ∩D mit einer offenen / abgeschlossenen Menge A ⊆ X. Damit kann derSatz verallgemeinert werden zu:

Genau dann ist f : X ⊇ D → Y stetig, wenn das Urbild f−1B jeder offenen TeilmengeB von Y relativ offen in D ist.

Der Beweis bleibt derselbe, man muss nur ein paar Mengen mit D schneiden.

(3) Erstaunlicherweise liefert uns der Satz auch eine vollig neue Erkenntnis fur Funk-tionen R → R oder R ⊇ D → R. Denn auch fur diese ist naturlich nun aquivalentzur Stetigkeit, dass die Urbilder aller offenen Mengen (relativ) offen sind. Dies ist einschones Beispiel dafur, dass es sich lohnen kann, zu abstrahieren. �

Eine nutzliche Anwendung des Satzes ist:

Korollar (Durch Ungleichungen beschriebene Teilmengen) Sei X metrischerRaum. Teilmengen von X, die durch endlich viele strikte Ungleichungen fi(x) < si(oder > oder 6=) mit stetigen fi : X → R beschrieben sind, sind offen in X. Teilmengen,die analog durch beliebig viele schwache Ungleichungen (mit ≤ oder ≥ oder = statt <)gegeben sind, sind abgeschlossen in X.

Beweis:

{x ∈ X : fi(x) < si fur alle i = 1, . . . n} =n⋂i=1

f−1i ]−∞, si[

ist endlicher Schnitt offener Mengen.

{x ∈ X : fi(x) ≤ si fur alle i ∈ I} =⋂i∈I

f−1i ]−∞, si]

ist Schnittmenge abgeschlossener Mengen. Analog fur andere Relationen. �

Damit sieht man vielen konkret gegebenen Teilmengen des Rn mit einem Blick an, dasssie offen oder abgeschlossen sind. Immer merken: Die “meisten” Mengen sind keins vonbeidem (auch wenn die vielleicht nicht ganz so oft vorkommen).

Beispiele: Die Menge

{(x, y, z) ∈ R3 :xy

1 + z2< 4, y > z, xz 6= 3}

erkennen wir also mit einem Blick als offen, und die Menge

{(z, w) ∈ C2 : |z|2 + Imw ≤ 3, Re(z4) = 14}

als abgeschlossen. (“=” ist auch erlaubt, weil es gleichbedeutend ist mit “≤ und ≥”.)Uber die Menge

{(x, y) ∈ R2 : x2 > y, y ≥ x}

30

Page 31: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

sagt das Korollar nichts aus. Mengen mit solchen “gemischten” Bedingungen tendierendazu, weder offen noch abgeschlossen zu sein, aber dafur gibt es keine Garantie. �

Bemerkungen: Was darf man alles mit stetigen Abbildungen anfangen, um wiederstetige Abbildungen zu bekommen?

(1) Die Einschrankung einer stetigen Funktion auf einen kleineren Definitionsbereichist trivialerweise auch stetig.

(2) Eine Abbildung f : X ⊇ A→ Rn ist stetig genau dann, wenn alle Komponenten-funktionen fi : A → R (i = 1, . . . n) stetig sind. Das folgt daraus, dass Konvergenz inRn aquivalent mit komponentenweiser Konvergenz ist. Genauso fur Cn.

Also ist z.B. f : R→ R2, f(x) := (cos x, sinx) stetig.

(3) Sind Abbildungen fi : X ⊇ Ai → Y fur i aus einer beliebigen Indexmenge I, undpassen die fi zusammen in dem Sinne, dass fi(x) = fj(x) fur alle x ∈ Ai ∩Aj und allei, j ∈ I, dann wird durch f :

⋃i∈I Ai → Y , f(x) = fi(x) falls x ∈ Ai die sogenannte

Vereinigungsabbildung der fi (wohl)definiert. Sind die Ai alle offen und alle fi stetig,dann ist auch f stetig. Verzichtet man auf die Offenheit der Ai, kann’s schiefgehen,wie das Beispiel fi : [i, i + 1[→ R, fi(x) = i fur alle i ∈ Z zeigt: Dann ist namlichf(x) = bxc die Gaußklammerfunktion und sicher nicht stetig.

(4) Hintereinanderausfuhrung stetiger Funktionen ist stetig.

Denn seien f : X ⊇ A→ Y und g : Y ⊇ B → Z stetig an den Stellen a ∈ A, f(a) ∈ B,außerdem sei f(A) ⊆ B. Zu gegebener Umgebung W von g(f(a)) in Z finde wegen derStetigkeit von g eine Umgebung V von f(a) in Y mit g(V ∩B) ⊆ W und dazu wegender Stetigkeit von f eine Umgebung U von a mit f(U ∩A) ⊆ V . Wegen f(A) ⊆ B istdann g(f(U ∩ A)) ⊆ g(V ∩B) ⊆ W . Damit ist gezeigt, dass g ◦ f in a stetig ist.

(5) Eine Folge von Abbildungen fn : X ⊇ A → Y zwischen metrischen Raumen Xund (Y, d) heißt gleichmaßig konvergent gegen f : A → Y , falls zu jedem ε > 0 einN ∈ N existiert mit

sup{d(fn(x), f(x)) : x ∈ A} < ε fur alle n ≥ N.

Dann heißt f der gleichmaßige Limes der Folge (fn)n∈N. Mit demselben ε3-Beweis wie

fur den Spezialfall in Analysis I beweist man:

Jeder gleichmaßige Limes einer Folge stetiger Abbildungen ist stetig.

Dies ist ein Beispiel, in dem das Vertauschen von Grenzubergangen limx→a (Stetigkeit)und limn→∞ erlaubt ist. Man merke sich am besten jetzt schon das in der Analysisweithin gultige

Prinzip: Das Vertauschen von zwei Grenzubergangen ist in der Regel nur dann erlaubt,wenn einer bezuglich des anderen gleichmaßig ist.

(“Gleichmaßig” bedeutet hier grob gesagt, dass das N oder δ beim einen Grenzuber-gang unabhangig vom Wert der Variablen des anderen Grenzubergangs gewahlt werdenkann.) �

31

Page 32: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

1.4 Erganzungen: Topologische Raume

Fur metrische Raume hatten wir einen umfangreichen Satz uber Komplemente, Verei-nigungen und Durchschnitte offener und abgeschlossener Mengen. Dieser lasst sich alsDefinition benutzen, um auf Mengen, die vielleicht nicht mit einer Metrik versehen sind,die Begriffe “offen” und “abgeschlossen” einzufuhren. Das macht die Menge zu einem“topologischen Raum”, der durch die Angabe seiner offenen Mengen charakterisiert ist:

Definition (topologischer Raum) Ein topologischer Raum (M, T ) eine Menge Mzusammen mit einem System T von Teilmengen von M , genannt die Topologie von(M, T ), das folgende Axiome erfullt:

• ∅ ∈ T , M ∈ T ;

• Sind ai ∈ T fur i ∈ I (beliebige Indexmenge) so auch⋃i∈I Ai ∈ T .

• Sind A1, . . . , An ∈ T , so auch A1 ∩ . . . ∩ An ∈ T .

Die Elemente der Topologie T heißen die offenen Mengen in (M, T ), ihre Komplementedie abgeschlossenen Mengen.

Bemerkungen: (1) Die Definition ist so gemacht, dass weiterhin wie in metrischenRaumen gilt: Die abgeschlossenen Mengen sind genau die Komplemente der offenen.Beliebige Vereinigungen und endliche durchschnitte von offenen Mengen sind offen.Beliebige Durchschnitte und endliche Vereinigungen von abgeschlossenen Mengen sindabgeschlossen.

(2) Extrembeispiele fur Topologien auf einer Menge M sind

(a) die triviale Topologie auf M , T := {∅,M}. Nur der Raum M selbst und die leereMenge sind also offen (und auch abgeschlossen), das sind gerade soviel offene Mengenwie ein topologischer Raum immer haben muss.

(b) die diskrete Topologie, fur die alle Mengen offen sind, und demnach auch alleMengen abgeschlossen. Man uberlegt sich leicht, dass ein metrischer Raum mit derdiskreten Metrik auch die diskrete Topologie tragt.

(3) Alle in der Vorlesung eingefuhrten topologischen Begriffe werden in topologischenRaumen genauso definiert wie in metrischen; man muss nur uberall die offenen KugelnUε(x) durch Umgebungen von x ersetzen. Dabei ist das Innere einer Menge nun einfachdie großte Teilmenge dieser Menge in T , und eine Umgebung von x ist eine Menge, furdie x im Inneren ist. �

Konvergenz in topologischen Raumen definiert man nach demselben Prinzip. Wir habenin der Vorlesung fur metrische Raume sogar schon bemerkt, dass man auf die ε bei denUmgebungen verzichten darf. Also:

Definition (Konvergenz von Folgen in topologischen Raumen) Sei (M, T ) to-polgischer Raum und (an)n∈N eine Folge in M . Die Folge heißt konvergent gegen a ∈M ,

32

Page 33: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

falls es zu jeder Umgebung U von a ein N ∈ N gibt mit an ∈ U fur alle n > N . Manschreibt dann (mal wieder)

limn→∞

an = a oder einfach an → a.

a heißt dann der Limes oder Grenzwert der Folge. Die Folge heißt divergent, falls sienicht konvergiert. Ein b ∈ M heißt Haufungswert einer Folge (bn)n∈N in M , falls eineTeilfolge von (bn)n∈N gegen b konvergiert.

Beispiele und Bemerkungen: (1) In der diskreten Topologie durfen wir U = {a}als a-Umgebung in der Konvergenzdefinition wahlen. Es kann dann nur an → a gelten,wenn alle bis auf endlich viele Folgenglieder in {a} liegen, also wenn die Folge bis aufendlich viele Ausnahmen konstant ist.

Analog hat in der diskreten Topologie eine Folge nur dann den Haufungswert a, wennsie den wert a unendlich oft annimmt.

(2) In der trivialen Topologie hat jeder Punkt nur eine Umgebung, namlich ganz M .Die Konvergenzdefinition degeneriert deshalb zur leeren Bedingung, was bedeutet, dassjede Folge konvergiert, und zwar gegen jeden Punkt in M .

Dieses Beispiel zeigt, dass Grenzwerte in topologischen Raumen nicht eindeutig seinmussen. Eine Folge kann gegen zwei oder mehr verschiedene Werte konvergieren. Das isteine unerwunschte Eigenschaft fur den Analytiker, und man mochte gerne topologischeRaume identifizieren konnen, in denen Grenzwerte eindeutig sind. Solche topologischeRaume heißen Hausdorff-Raume, sie sind durch folgende Eigenschaft charakterisiert:Zu je zwei beliebig gewahlten Punkten a 6= b ∈M gibt es eine Umgebung A ∈ T von aund eine Umgebung B von b in T mit A ∩B = ∅.Dass Folgengrenzwerte in Hausdorff-Raumen eindeutig sind, sieht man so:

Sei (an)n∈N eine Folge in M , und es gelte sowohl limn→∞ an = a als auch limn→∞ an = b.Nehmen wir a 6= b an, dann gibt es nach der Definition Umgebungen A von a und Bvon b mit A ∩B = 0.

Wegen limn→∞ an = a gibt es N1 ∈ R mit an ∈ A fur alle n > N1. Genauso gibtes wegen limn→∞ an = b ein N2 ∈ R mit an ∈ B fur alle n > N2. Dann gilt furn > max{N1, N2} immer an ∈ A∩B = ∅, ein Widerspruch. Also war unsere Annahmea 6= b falsch, und der Grenzwert ist eindeutig.

(3) Wir hatten bemerkt, dass die punktweise Konvergenz in C0[a, b] nicht durch eineNorm und auch nicht durch eine Metrik beschrieben werden kann. Sie kann aber durcheine Topologie beschrieben werden. Die ist allerdings nicht ganz leicht zu beschreiben.Grob gesagt enthalt T zunachst alle Mengen der Form

{f ∈ C0[a, b] : f(x) ∈ Ax},

wobei die Ax vorgegebene offene Mengen in R sind fur jedes x ∈ [a, b]. Das beschreibtaber noch keine Topologie, sondern T ist die kleinste Topologie auf C0[a, b], die allediese Mengen enthalt.

(Stimmt das? Muss ich nochmal uberprufen!) �

33

Page 34: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

1.5 Vollstandigkeit

Die Vollstandigkeit von R haben wir schon benutzt, um grundlegende Einsichten uberdie Losbarkeit von Gleichungen in diesen Raumen zu erhalten. Ahnliches wollen wir inRn erreichen. Wieder einmal stellt sich heraus, dass Rn in dieser Hinsicht nichts beson-deres ist, und dass das meiste auch allgemeiner in vollstandigen normierten Raumenzu erreichen ist.

Definition (Banachraum) Ein vollstandiger normierter Raum (uber R oder C)heißt Banachraum.

Beispiele: (0) Wir wissen schon, dass R normierter Raum und vollstandig ist, alsoein Banachraum.

(1) Rn (falls nichts anderes dazugesagt wird, immer mit der Euklidischen Norm |x| :=√x2

1 + . . .+ x2n versehen) ist Banachraum fur jedes n ∈ N.

Um das zu beweisen, mussen wir zeigen, dass jede Cauchy-Folge konvergiert. Ist (x(k))k∈NCauchy-Folge in Rn, so ist fur i = 1, . . . , n auch (x

(k)i )k∈N Cauchy-Folge in R, denn

|x(k)i − x

(l)i | ≤ |x(k) − x(l)| fur alle k, l ∈ N. Da R vollstandig ist, konvergiert (x

(k)i )k∈N

fur jedes i ∈ {1, . . . , n} gegen ein xi ∈ R. Weil Konvergenz in Rn dasselbe ist wiekomponentenweise Konvergenz, bedeutet das wiederum, dass (x(k))k∈N in Rn gegenx := (x1, . . . , xn) konvergiert. Also konvergiert jede Cauchy-Folge. (Geht mit demsel-ben Beweis auch fur Rn mit der p-Norm, 1 ≤ p ≤ ∞.)

Wer will, kann sich vorerst ohne großen Verlust uberall, wo von einem Banachraum dieRede ist, den Rn vorstellen. Wir werden im weiteren Verlauf die Satze meistens auf Rn

anwenden. Trotzdem lohnt sich die großere Allgemeinheit, weil die Begriffe und Beweisedadurch meistens nicht komplizierter werden, und die Anwendung der Methoden ausdiesem Kapitel auf geeignete Funktionenraume (im weiteren Verlauf Ihres Studiums)z.B. zu recht allgemeinen Satzen uber die Losbarkeit von Differentialgleichungen fuhrt.

(2) Auch C ist Banachraum. Denn identifizieren wir C durch x + iy 7→ (x, y) mit R2

und beachten wir |x + iy| =√x2 + y2 = |(x, y)|, so folgt dies direkt aus dem gerade

Gezeigten. Genauso ist Cn ∼= R2n Banachraum.

(3) Die Folgenraume `p (naturlich mit ‖ · ‖p versehen) sind vollstandig fur 1 ≤ p ≤ ∞(sowohl die reellwertigen als auch die komplexwertigen Varianten, wir kummern unshier nur um erstere und nur um 1 ≤ p <∞; der Fall p =∞ ist einfacher).

Zum Beweis (in der Vorlesung weggelassen) geben wir uns wieder eine Cauchy-Folge

(x(k))k∈N in `p vor und folgern wie oben die Konvergenz der Komponentenfolgen (x(k)i )k∈N

gegen geeignete xi ∈ R. Der naturliche Kandidat fur den gesuchten Grenzwert der Folge(x(k))k∈N in `p ist dann die Folge x := (xi)i∈N in R. Wir mussen zeigen, dass x ∈ `p unddass ‖x(k)−x‖p → 0. Fur letzteres wahlen wir zu ε > 0 ein N ∈ N mit ‖x(k)−x(l)‖p < εfur alle k, l ≥ N . Dann gilt fur fest gewahltes m ∈ N, dass( m∑

i=1

|x(k)i − xi|p

)1/p

= liml→∞

( m∑i=1

|x(k)i − x

(l)i |p)1/p

≤ sup{‖x(k) − x(l)‖p : l ≥ k} < ε

34

Page 35: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

fur alle k ≥ N . Mit m→∞ erhalten wir daraus

‖x(k) − x‖p < ε

fur alle g ≥ N und haben damit ‖x(k)− x‖p → 0 gezeigt. Damit ist dann x(k)− x ∈ `p,und damit auch x = x(k) − (x(k) − x) ∈ `p, und wir haben zur Cauchy-Folge dengesuchten Grenzwert in `p gefunden.

(4) C0[a, b], versehen mit der Supremumsnorm ‖ · ‖∞ ist ebenfalls Banachraum.

Denn aus |fn(x)−fm(x)| ≤ ‖fn−fm‖∞ folgt fur jeder Cauchy-Folge (fn)n∈N, dass jedeFolge (fn(x))n∈N fur x ∈ [a, b] in R konvergiert; ihren Grenzwert nennen wir f(x). Dasdefiniert eine Funktion f : [a, b]→ R. Zu ε > 0 wahle N ∈ N mit ‖fn−fm‖ < ε fur allem,n ≥ N , dann auch |fn(x) − fm(x)| < ε und nach m → ∞ folgt |fn(x) − f(x)| ≤ εfur alle n ≥ N , mit N unabhangig von x. Also fn → f gleichmaßig auf [a, b] (d.h. bzgl.‖ · ‖∞), und da der gleichmaßige Limes stetiger Funktionen stetig ist, folgt f ∈ C0[a, b],und wir sind fertig.

(5) Aus Banachraumen kann man mit Standard-Operationen neue machen. Die fol-genden Aussagen lassen sich recht einfach beweisen:

(a) Ein endliches Produkt B1 × . . . × Bn von Banachraumen mit Produktnorm (d.h.Norm zu einer Produktmetrik) ist selbst Banachraum.

(b) Ein Unterraum eines Banachraums (mit der induzierten Norm) ist genau dann Ba-nachraum, wenn er abgeschlossen ist. (Richtig gelesen: Nicht jeder Unterraum ist abge-schlossen, zumindest bei unendlich vielen Dimensionen kann das vorkommen. Brauchtuns aber nicht weiter zu kummern.) Endlichdimensionale Unterraume sind immer ab-geschlossen.

(c) Ist B Banachraum, so ist auch C0(A,B) mit ‖ · ‖∞ ein Banachraum, und zwar fureine beliebige Teilmenge A ⊆ X eines metrischen Raums X. �

In der Linearen Algebra haben wir lineare Gleichungssysteme gelost. Fur nichtlineareGleichungssysteme, z.B.

x21 − x2

2 − 52x1 + 2x2 = 0,

2x1x2 − 2x1 − 52x2 = −5

2

gibt es keine so schone Theorie fur Losbarkeit, und erst recht kein allgemeines Verfahrenfur die exakte Losung.

Oder wie steht es zum Beispiel mit

log(x+ 2) = x

oder ahnlichen “transzendenten” Gleichungen, fur die man ziemlich sicher kein Verfah-ren zur Bestimmung der exakten Losung finden kann?

Der wichtigste Existenzsatz fur solche und viele andere Gleichungen (z.B. auch Dif-ferentialgleichungen), der außerdem auch manchmal ein Verfahren zur numerischenBerechnung einer Losung liefert, ist der folgende Satz:

35

Page 36: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Hauptsatz (Banachscher Fixpunktsatz) Sei A nichtleere abgeschlossene Teilmen-ge eines vollstandigen metrischen Raums X. Sei f : A → A eine strikte Kontraktion,d.h.

d(f(x), f(y)) ≤ κd(x, y) fur alle x, y ∈ Amit einer Kontraktionskonstanten κ < 1. Dann hat f genau einen Fixpunkt a in A,d.h. f(a) = a.Zusatz: Der Fixpunkt kann numerisch (zumindest im Fall X = Rn) durch das Itera-tionsverfahren

x(0) := irgendein geratener Naherungswert in A,

x(k+1) := f(x(k))

bestimmt werden. Es gilt dann limk→∞ x(k) = a, und bei (meist erlaubter) Vernachlassi-

gung der Rundungsfehler des Rechners gelten die a-priori-Fehlerabschatzung (vor Ite-ration)

d(x(k), a) ≤ κk

1− κd(x(0), x(1))

und die a-posteriori-Fehlerabschatzung (nach Iteration)

d(x(k), a) ≤ κ

1− κd(x(k−1), x(k)).

Beweis: Wir bilden die Iterationsfolge aus dem Zusatz. Die Kontraktionseigenschaftvon f liefert

d(x(k), x(k+1)) = d(f(x(k−1)), f(x(k)))

≤ κd(x(k−1), x(k))

≤ . . .

≤ κkd(x(0), x(1))

und

d(x(k), x(k+`)) ≤`−1∑i=0

d(x(k+i), x(k+i+1))

≤`−1∑i=0

κk+id(x(0), x(1))

= κk1− κ`

1− κd(x(0), x(1))

≤ κk

1− κd(x(0), x(1))

→ 0 bei k →∞.

Also ist die Iterationsfolge Cauchy-Folge und hat einen Grenzwert a (wegen der Vollstandig-keit). Da A abgeschlossen ist, ist a ∈ A. Jede Kontraktion ist Lipschitz und deshalbstetig. Das benutzen wir in

f(a) = f( limk→∞

x(k)) = limk→∞

f(x(k)) = limk→∞

x(k+1) = a,

36

Page 37: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

womit die Fixpunkteigenschaft nachgewiesen ist. Es kann nur einen Fixpunkt in Ageben. Denn sei b ∈ A ein weiterer, dann folgt aus f(b) = b, dass

d(a, b) = d(f(a), f(b)) ≤ κd(a, b),

woraus mit κ < 1 folgt, dass d(a, b) = 0.

Die Fehlerabschatzungen liest man aus obigen Rechnungen ab. �

Beispiele: (1) Versuchen wir zunachst die Losung der Gleichung

log(x+ 2) = x.

Das Intervall [0,∞[ ist abgeschlossen und wird von f mit f(x) = log(x+ 2) in sich ab-gebildet, denn der Logarithmus ist monoton steigend und f(0) = log 2 > 0. Außerdemist f strikte Kontraktion auf diesem Intervall, denn fur x, y ∈ [0,∞[ gilt

|f(x)− f(y)| = | log(x+ 2)− log(y + 2)| =∣∣∣ ∫ y

x

1

t+ 2dt∣∣∣ ≤ 1

2|x− y|.

Hier haben wir den Integranden punktweise durch 12

abgeschatzt. Die Voraussetzungendes Banachschen Fixpunktsatzes sind also erfullt, und es gibt eine eindeutige Losungvon x = log(x+ 2) in [0,∞[. Die ersten Schritte des Iterationsverfahren liefern fur denStartwert 0

x(0) = 0,

x(1) = log 2 ≈ 0.6931472,

x(2) = log(2 + log 2) ≈ 0.9907105,

x(3) = log(2 + log(2 + log 2)) ≈ 1.0955110,

x(4) ≈ 1.1299530,

x(5) ≈ 1.1410180,

x(6) ≈ 1.1445470,

x(7) ≈ 1.1456698,

x(8) ≈ 1.1460269,

x(9) ≈ 1.1461140,

x(10) ≈ 1.1461764,

x(11) ≈ 1.1461879,

x(12) ≈ 1.1461915,

x(13) ≈ 1.1461927.

Eine Losung von log(x + 2) = x liegt also in der Nahe von 1.14619. Mit Hilfe dera-posteriori-Fehlerabschatzung konnen wir sogar sagen, wie weit der letzte Naherungs-wert hochstens vom gesuchten Fixpunkt a entfernt liegt:

|x(13) − a| ≤ 0.5

1− 0.5|x(13) − x(12)| ≈ 0.0000012.

37

Page 38: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Da die Funktion log(x+2) fur x nahe −2 und fur x nahe∞ unter der Diagonalen y = xverlauft, muss es außer a eine zweite Losung geben. Diese finden wir ohne Modifikationnicht mit unserem Iterationsverfahren, da f in der Nahe dieser Losung nicht strengkontrahierend ist. Aber wir haben die Freiheit, die Fixpunktgleichung log(x + 2) = xzu modifizieren. Zum Beispiel konnen wir die Exponentialfunktion auf beide Seitenanwenden und erhalten x+ 2 = ex, d.h.

ex − 2 = x.

Das ist wieder ein Fixpunktproblem, diesmal fur g(x) = ex − 2. Die Funktion g bildet] −∞,−1] in sich selbst ab, denn sie ist monoton steigend und g(−1) = 1

e− 2 < −1.

Außerdem ist sie strikte Kontraktion, denn fur x, y ≤ −1 gilt

|g(x)− g(y)| = |ex − ey| =∣∣∣ ∫ y

x

et dt∣∣∣ ≤ 1

e|x− y|,

wobei diesmal der Integrand punktweise durch 1e

abgeschatzt wurde. Also gibt es eineeindeutige Losung von ex − 2 = x, und damit auch von log(x + 2) = x, in ]−∞,−1].Auch hier geben wir wieder die ersten Werte aus dem Iterationsverfahren an. Weil1e< 1

2, liegt der Verdacht nahe, dass es etwas schneller konvergiert als oben:

x(0) = −2,

x(1) ≈ −1.8646647,

x(2) ≈ −1.8450518,

x(3) ≈ −1.8419829,

x(4) ≈ −1.8414971,

x(5) ≈ −1.8414201,

x(6) ≈ −1.8414080,

x(7) ≈ −1.8414060,

x(8) ≈ −1.8414057.

Eine zweite Losung von log(x+2) = x liegt also in der Nahe von −1.84141. Wir wissenaußerdem, dass es nur eine Losung ≤ −1 und nur eine ≥ 0 geben kann. Da außerdemx < 0 < log(x + 2) fur −1 < x < 0 gilt, gibt es keine weitere Losung, und wir habenalle (d.h. beide) Losungen naherungsweise berechnet.

(2) Wir wollen das oben angefuhrte Gleichungssystem

x21 − x2

2 − 52x1 + 2x2 = 0,

2x1x2 − 2x1 − 52x2 = −5

2

losen. Dazu schreiben wir es zunachst als Fixpunktproblem um:

x21 − x2

2 − 32x1 + 2x2 = x1,

2x1x2 − 2x1 − 32x2 + 5

2= x2.

38

Page 39: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

(An dieser Stelle kommen wir mit dieser naiven Umformung durch; oft muss manhier ziemlich rumtricksen, denn es gibt unendlich viele Moglichkeiten, ein System inein Fixpunktproblem zu verwandeln, und nicht alle sind gleich gut, man muss ja aufirgendeiner Teilmenge die Kontraktionseigenschaft bekommen.) Mit f : R2 → R2,

f(x) :=

(x2

1 − x22 − 3

2x1 + 2x2

2x1x2 − 2x1 − 32x2 + 5

2

),

ist das ein Problem von der Form f(x) = x, und wir probieren zunachst ein paar mogli-che Startwerte durch, um zu sehen, ob das Verfahren gegen einen Fixpunkt konvergiert.In der folgenden Tabelle ist

x(0) = (0.4, 0.6)

undx(k+1) = f(x(k)) + Rundungsfehler.

Wir finden

x(1) = (0.4, 1.28)

x(2) = (0.4816, 0.804)

x(3) = (0.47112256, 1.1052128)

x(4) = (0.5042028933, 0.9413170474)

x(5) = (0.4944725288, 1.0288482)

x(6) = (0.5019620699, 0.9852569848)

x(7) = (0.4988054583, 1.007313654)

x(8) = (0.5005452083, 0.9963257001)

x(9) = (0.4997141926, 1.001833143)

x(10) = (0.5001396249, 0.9990823804)

x(11) = (0.499929365, 1.000458554)

x(12) = (0.5000351122, 0.9997706585)

x(13) = (0.4999823925, 1.000114655)

x(14) = (0.5000087909, 0.9999426686)

x(15) = (0.4999956013, 1.000028665)

x(16) = (0.5000021985, 0.9999856674)

x(17) = (0.4999989005, 1.000007166)

x(18) = (0.5000005497, 0.9999964169)

x(19) = (0.4999997252, 1.000001792)

x(20) = (0.5000001374, 0.9999991042)

x(21) = (0.4999999313, 1.000000448)

Das scheint gegen den Fixpunktx = (1

2, 1)

39

Page 40: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

zu konvergieren, und durch Einsetzen sieht man, dass damit tatsachlich eine Losungdes Beispiel-Gleichungssystems gefunden ist. Naturlich wollen wir nicht auf gut Glucknach guten Startwerten suchen, sondern nach Moglichkeit die Voraussetzungen des Ba-nachschen Fixpunktsatzes auf einer hinreichend großen Teilmenge von R2 nachrechnen.Das ist aber oft nicht einfach, zumindest in mehreren Dimensionen.

Wir wollen wenigstens andeuten, wie man im vorliegenden Beispiel eine Abschatzungder Form

‖f(x)− f(y)‖1 < κ‖x− y‖1

mit κ < 1 in der Nahe von (12, 1) nachweisen kann.

Dazu berechnen wir

f(x)− f(y) =

(x2

1 − y21 − x2

2 + y22 − 3

2x1 + 3

2y1 + 2x2 − 2y2

2x1x2 − 2y1y2 − 2x1 + 2y1 − 32x2 + 3

2y2

)=

((x1 + y1)(x1 − y1)− (x2 + y2)(x2 − y2)− 3

2(x1 − y1) + 2(x2 − y2)

2x1(x2 − y2) + 2y2(x1 − y1)− 2(x1 − y1)− 32(x2 − y2)

)=

((x1 + y1 − 3

2)(x1 − y1)− (x2 + y2 − 2)(x2 − y2)

(2y2 − 2)(x1 − y1) + (2x1 − 32)(x2 − y2)

)=

(x1 + y1 − 3

22− x2 − y2

2y2 − 2 2x1 − 32

)(x1 − y1

x2 − y2

).

Es folgt (mit der euklidischen Norm war’s weitaus komplizierter, ein weiteres Argumentdafur, auf R2 verschiedene Normen zur Verfugung zu haben!)

‖f(x)− f(y)‖1 ≤ |(x1 + y1 − 32)(x1 − y1) + (2− x2 − y2)(x2 − y2)|

+|(2y2 − 2)(x1 − y1) + (2x1 − 32)(x2 − y2)|

≤ L(x, y)‖x− y‖1

mitL(x, y) := max{|x1 + y1 − 3

2|+ |2y2 − 2|, |2− x2 − y2|+ |2x1 − 3

2|}

Wir sind auf der sicheren Seite, wenn wir L(x, y) ≤ κ mit einem κ < 1 fur (x, y) auseiner geeigneten Menge finden konnen. Naturlich sollte das in der Nahe der gefundenenLosung (1

2, 1) klappen. Tatsachlich, fur

x1, y1 ∈ [ 410, 6

10], x2, y2 ∈ [ 9

10, 11

10]

ist zum BeispielL(x, y) ≤ max{ 7

10+ 2

10, 2

10+ 7

10} = 9

10=: κ,

und wir haben tatsachlich (mit viel Muhe und Probieren) ein kleines Quadrat

A := [ 410, 6

10]× [ 9

10, 11

10]

gefunden, auf dem f eine strikte Kontraktion ist. Jetzt mussten wir noch zeigen, dassf(A) ⊆ A (nach eventuell nochmaliger Verkleinerung von A, falls notig. Denn f : A→

40

Page 41: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

A ist eine unverzichtbare Voraussetzung des Banachschen Fixpunktsatzes). Man kannz.B. leicht sehen, dass die abgeschlossene Teilmenge A1 := {x ∈ R2 : ‖x−(1

2, 1)‖1 ≤ 1

10}

von A in sich abgebildet wird, denn fur x ∈ A1 ist

‖f(x)− (12, 1)‖1 = ‖f(x)− f(1

2, 1)‖1 ≤ 9

10‖x− (1

2, 1)‖1 <

110.

Also f(A1) ⊆ A1, und wir haben eine (zugegebenermaßen winzige) Teilmenge von R2

gefunden, auf der die Voraussetzungen des Banachschen Fixpunktsatzes erfullt sind.Fur Startwerte in diesem Quadrat A1 sind wir sicher, dass das Verfahren konvergiert.Aber es kann durchaus auch fur andere Startwerte konvergieren, wie das oben durch-gerechnete Beispiel zeigt.

Sehr zufriedenstellend ist das nicht, dass der Nachweis der Kontraktionseigenschaft somuhsam ist und ein so durftiges Ergebnis liefert.

Wir kommen spater von einem etwas systematischeren Standpunkt auf die Frage zuruck,wie man solche Abschatzungen erhalt. Vorerst ist das Raten von Startwerten gar keineso schlechte Taktik, denn man sieht meist nach ein paar Iterationen, ob das Verfahrenwohl konvergiert oder nicht.

Wir merken außerdem an, dass es eine zweite Losung

x = (2, 1),

des Gleichungssystems gibt, die in einem “nicht kontrahierenden” Bereich von f liegtund deshalb mit dem Iterationsverfahren nicht gefunden wird. (Es gibt Moglichkeiten,das Verfahren zu modifizieren, so dass man auch solche Losungen finden kann.) �

Bemerkung: Die Numerische Mathematik hat weitaus ausgefeiltere Verfahren zurLosung von Gleichungssystemen bereit als das hier dargestellte. Aber auch sie beru-hen haufig auf dem Banachschen Fixpunktsatz oder ahnlichen Satzen. Dabei kommtes stark darauf an, das ursprunglich gegebene System auf geschickte Weise in ein Fix-punktproblem zu verwandeln (moglichst mit kleinem κ, was nach dem Zusatz schnelleKonvergenz bedeutet).

Der Banachsche Fixpunktsatz ist damit von großer praktischer Bedeutung, aber daraufallein darf man ihn nicht reduzieren. Er ist auch ein starkes theoretisches Werkzeug, dasin wichtigen Beweisen verwendet wird. Zum Beispiel fuhrt der wichtigste Existenzbe-weis fur gewohnliche Differentialgleichungen diese auf Fixpunktprobleme (in geeignetenFunktionenraumen) zuruck und lost diese mit dem Banachschen Fixpunktsatz. �

1.6 Kompaktheit

Existenz von Grenzwerten haben wir also unter den Voraussetzungen des BanachschenFixpunktsatzes diskutiert. Oft bekommt man zwar nicht Existenz von Grenzwerteneiner Folge, aber wenigstens Existenz von konvergenten Teilfolgen, wie im Satz vonBolzano-Weierstraß. Zunachst uberzeugen wir uns davon, dass der in endlich vielenDimensionen immer gilt:

41

Page 42: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Satz (Bolzano-Weierstraß in Rn) In Rn hat jede beschrankte Folge einen Haufungs-wert, also eine konvergente Teilfolge.

Beweis: Ist (x(k))k∈N beschrankt in Rn, dann ist erst recht jede Komponentenfolge

(x(k)i )k∈N beschrankt in R, fur i ∈ {1, . . . , n}. Nach Bolzano-Weierstraß fur R hat

(x(k))k∈N eine Teilfolge (x(k1(j)))j∈N, fur die (x(k1(j))1 )j∈N konvergiert. Diese Folge hat

wieder eine Teilfolge (x(k2(j)))j∈N, fur die (x(k2(j))i )j∈N fur i ∈ {1, 2} konvergiert. Durch

sukzessive Teilfolgenauswahl lande bei einem (x(kn(j)))j∈N, fur welches (x(kn(j))i )j∈N fur

i ∈ {1, . . . , n} konvergiert. Das ist komponentenweise Konvergenz, also konvergiert dieTeilfolge (x(kn(j)))j∈N in Rn, wie behauptet. �

Korollar Eine Folge (xk)k∈N in Rn konvergiert genau dann, wenn sie beschrankt istund nur einen Haufungswert besitzt.

Beweis (weggelassen, da sehr ahnlich Ana 1): “⇒” ist mehr oder weniger trivial.

Fur “⇐” nehmen wir an, dass xk nicht gegen den einzigen Haufungswert a konvergiert.Dann gibt es n1 < n2 < . . ., fur die xnk /∈ Uε(a) ist, fur alle k ∈ N und ein geeignetesε > 0. Die Folge (xnk)k∈N ist dann beschrankt und verlauft in der abgeschlossenen Men-ge Rn \ Uε(a); in dieser muss sie nach Bolzano-Weierstraß einen Haufungswert haben,im Widerspruch zur angenommenen Eindeutigkeit von a. �

Bemerkung: In jedem unendlichdimensionalen normierten Raum ist die Aussage desBolzano-Weierstraß falsch! Standardbeispiel in `p ist die Folge der Basisvektoren; ahn-liche Beispiele gibt es fur andere Raume. �

Unser Ziel ist ein moglichst allgemeiner Satz von Maximum und Minimum. Als Vorbe-reitung dazu eine Definition und ein Satz:

Definition (folgenkompakt) Eine Teilmenge A eines metrischen Raums X heißtfolgenkompakt, wenn jede Folge in A einen Haufungswert in A hat (also eine gegeneinen Punkt in A konvergente Teilfolge).

Satz (Beschreibung folgenkompakter Mengen)

(i) Jede folgenkompakte Menge ist abgeschlossen und beschrankt.

(ii) Im Rn ist auch jede abgeschlossene und beschrankte Menge folgenkompakt.

Beweis: (i) Gabe es a ∈ A \ A, dann konnte man xk ∈ U1/k(a) ∩ A wahlen, dannxk → a ohne Haufungswert in A entgegen der Annahme. Ware A unbeschrankt, danngabe es xk ∈ A \ Uk(x0) (x0 ∈ A fest). Dann hatte (xk)k∈N gar keinen Haufungswert.

(ii) Ist A ⊆ Rn abgeschlossen und beschrankt und (xk)k∈N eine Folge in A, dann hatdiese Folge einen Haufungswert a ∈ X nach Bolzano-Weierstraß. Weil A abgeschlossen

42

Page 43: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

ist, ist a ∈ A. �

Nun zum angekundigten Hauptsatz:

Hauptsatz (Satz von Maximum und Minimum) Ist A 6= ∅ folgenkompakte Teil-menge eines metrischen Raumes X und f : A → R stetig, so nimmt f auf A einMinimum und ein Maximum an. Insbesondere ist f beschrankt auf A.

Beweis: Nach Definition des Infimums gibt es eine “Minimalfolge” (xk)k∈N in A mitf(xk)→ inf{f(x) : x ∈ A}. Da A folgenkompakt ist, konvergiert eine Teilfolge (xkj)j∈Ngegen ein x∗ ∈ A. Die Stetigkeit von f impliziert

f(x∗) = limj→∞

f(xkj) = inf{f(x) : x ∈ A},

und x∗ ist die gesuchte Minimumstelle. Genauso fur’s Maximum. �

Definition (Extremstellen) Es sei f : A → R eine Funktion. Eine Stelle x∗ ∈ Amit f(x∗) ≤ f(x) fur alle x ∈ A heißt Minimumstelle, eine Stelle x∗ mit f(x∗) ≥f(x) fur alle x ∈ A heißt Maximumstelle von f auf A. Beide heißen Extremstellen.f(x∗) heißt das Minimum von f auf A, f(x∗) das Maximum. Beide heißen (absolute)Extrema oder Extremwerte von f auf A.

Als Anwendung des Satzes von Maximum und Minimum beweisen wir ein schon an-gekundigtes und benutztes Ergebnis:

Satz (Aquivalenz aller Normen auf Rn) Auf Rn sind alle Normen aquivalent (unddefinieren damit denselben Konvergenzbegriff).

Beweis: Es sei | · | die euklidische Norm und ‖ · ‖ irgendeine andere. Definiere f :Sn−1 → R durch f(w) := ‖w‖, dann ist f(w) > 0 fur alle w ∈ Sn−1. Da Sn−1

beschrankt und abgeschlossen in Rn ist, ist Sn−1 folgenkompakt, und f nimmt seinMaximum M <∞ und sein Minimum m > 0 auf Sn−1 an. Da beide Normen homogensind, folgt

‖x‖ = |x|∥∥∥ x|x|∥∥∥ = |x|f

( x|x|

){ ≤M |x|,≥ m|x|,

also die Aquivalenz von | · | und ‖ · ‖. �

Haufig will man Funktionen auch auf unbeschrankten oder nicht abgeschlossenen Men-gen minimieren. Dann muss man etwas uber das Verhalten von f bei∞ oder am Randwissen. Dazu gibt es den folgenden Zusatz zum Satz von Maximum und Minimum.Hier schreiben wir “∞X” fur einen formalen “unendlich fernen Punkt” außerhalb vonX, der (vollig analog zum ∞ fur C) benutzt wird, um uneigentliche Grenzwerte zudefinieren. Alles was man uber ∞X wissen muss, ist, dass seine Umgebungen geradedie Komplemente der beschrankten Mengen in X sind. xn → ∞X bedetutet einfach,dass die Folge (xn)n∈N in X jede beschrankte Menge irgendwann endgultig verlasst,und genau das ist, was man sich unter “geht nach unendlich” vorstellt.

43

Page 44: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Zusatz Es sei X metrischer Raum, A 6= ∅ eine Teilmenge von X und f : A →R stetig. f nimmt auf A sein Minimum an, vorausgesetzt fur jedes a ∈ A \ A giltlim infA3x→a f(x) = ∞ oder wenigstens limA3x→a f(x) > f(x0) fur ein x0 ∈ A, unddasselbe zusatzlich fur a =∞X , wenn A unbeschrankt ist.

Beweis: Die Minimalfolge (xk)k∈N im Beweis des Hauptsatzes ist beschrankt, dennsonst ware

inf{f(x) : x ∈ A} = limk→∞

f(xk) ≥ lim infA3x→∞X

f(x) > f(x0) ≥ inf{f(x) : x ∈ A},

ein Widerspruch. Aus demselben Grund (mit a statt ∞X) kann (xk)k∈N nicht gegenein a ∈ A \ A konvergieren. Also konvergiert eine Teilfolge gegen eine Minimumstellex∗ ∈ A. �

Dies hat eine sehr wichtige Anwendung (die mit allein algebraischen Methoden nichtzu beweisen ist).

Hauptsatz (Fundamentalsatz der Algebra) Jede nichtkonstante Polynomfunkti-on p : C→ C hat eine Nullstelle.

Beweis: Wir konnen

p(z) = zn + an−1zn−1 + . . .+ a1z + a0

mit n ≥ 1 annehmen. Wegen |p(z)| → ∞ bei z → ∞ nimmt |p(z)| sein Minimum aufC in einem Punkt z0 ∈ C an. O.B.d.A. ist z0 = 0 (sonst betrachte p(z− z0) statt p(z)).Hatte p keine Nullstelle in C, so ware a0 = p(0) 6= 0, und es gabe ein minimales k ∈ Nmit ak 6= 0. Wir konnen dann −a0/ak = reiϑ mit einem r > 0 schreiben und setzenw := teiϑ/k mit einem (noch zu bestimmenden) hinreichend kleinen t > 0. Dann gilt

|p(w)| ≤ |a0 + aktkeiϑ|+ tk+1(|ak+1|+ . . .+ |an−1|+ 1)

=∣∣∣a0 − aktk

a0

rak

∣∣∣+ tk+1(|ak+1|+ . . .+ |an−1|+ 1)

= |a0|(

1− tk

r

)+ tk+1(|ak+1|+ . . .+ |an−1|+ 1)

< |a0| = min{|p(z)| : z ∈ C}

fur alle hinreichend kleinen t > 0, ein Widerspruch. �

Folgenkompaktheit ist nur eine Betrachtungsweise der Kompaktheit von Mengen. Ein(zunachst vollig anders aussehendes) anderes Konzept der Kompaktheit benutzt Uber-deckungen von Mengen mit offenen Mengen. Man erhalt damit den wichtigsten topo-logischen Begriff in der Analysis:

44

Page 45: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Definition (Kompaktheit) Sei X metrischer (oder nur topologischer) Raum, A ⊆X. Eine offene Uberdeckung von A ist eine Familie (Ui)i∈I von offenen Mengen mitA ⊆

⋃i∈I Ui. Die Menge A heißt kompakt (manchmal auch uberdeckungskompakt

im Unterschied zu folgenkompakt), wenn es in jeder Uberdeckung (Ui)i∈I von A eineendliche Teiluberdeckung {Ui1 , . . . , Uin} (mit i1, . . . , in ∈ I) gibt, d.h. A ∈ Ui1∪. . .∪Uin.

Diese Definition will erstmal verdaut sein! Schauen wir uns zunachst an, wie sie typi-scherweise angewendet wird. Kompaktheit in dieser Form ist in erster Linie so definiert,dass sie “Lokal-Global”-Schlusse erlaubt. Dazu zwei

Beispiele: (1) Seien X, Y metrische Raume, A ⊆ X. Ist f : A→ Y lokal beschrankt ,d.h. jedes x ∈ A hat eine (offene) Umgebung Ux, so dass f(Ux ∩ A) beschrankt in Yist. Ist A kompakt, so folgt, dass f dann global auf A beschrankt ist. Denn die (Ux)x∈Abilden wegen x ∈ Ux eine offene Uberdeckung von A, zu der es dann eine endlicheTeiluberdeckung {Ux1 , . . . , Uxn} von A gibt. Dann ist

f(A) = f( n⋃i=1

Uxi ∩ A)

=n⋃i=1

f(Uxi ∩ A)

beschrankt in Y .

(2) Ist f : A → Y stetig, dann gibt es zu fest gewahltem ε > 0 und jedem x ∈A ein δ(x) > 0, so dass f(A ∩ Uδ(x)(x)) ⊆ Vε/2(f(x)). Die Uδ(x)(x) sind eine offeneUberdeckung von A. Ist nun A kompakt, so gibt es x1, . . . , xn mit A ⊆

⋃ni=1 Uδ(xi)(xi).

Definiere

δ :=1

2min{δ(x1), . . . , δ(xn)},

dann gilt fur x, y ∈ A mit dX(x, y) < δ, dass x ∈ Uδ(xi)/2(xi) fur ein i und folglichy ∈ Uδ(xi)(xi). Damit sind f(x), f(y) ∈ Vε/2(f(xi)) und daher dY (f(x), f(y)) < ε.Wir haben damit zu jedem ε > 0 ein δ > 0 gefunden, so dass dX(x, y) < δ schondY (f(x), f(y)) < ε impliziert, und das fur alle x, y ∈ A. Mit anderen Worten:

Satz (Gleichmaßige Stetigkeit stetiger Abb.en auf kompakten Mengen) Istf : X ⊇ A→ Y stetige Abbildung zwischen metrischen Raumen und A kompakt, so istf gleichmaßig stetig auf A. �

Die Beispiele sind so lange relativ wertlos, wie wir nicht wissen, wie man Kompaktheiterkennt. Zum Gluck sind die beiden Kompaktheitsbegriffe der (Uberdeckungs)kompakt-heit und Folgenkompaktheit in metrischen Raumen aquivalent:

Satz (Kompaktheit versus Folgenkompaktheit) Eine Teilmenge A eines metri-schen Raums X ist genau dann kompakt, wenn sie folgenkompakt ist.

Beweis: “⇒”: Zu gegebener Folge (xn)n∈N in A setze Cm := clos{xn : n ≥ m}, dannist⋂m∈NCm die Menge der Haufungswerte der Folge. Dann ist C1 ⊇ C2 ⊇ C3 ⊇ . . .

und A∩Cm 6= ∅ fur alle m ∈ N. Dann werden wir zeigen, dass auch A∩⋂m∈NCm 6= ∅

45

Page 46: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

ist und sind fertig. Dieser letzte Schluss heißt Cantors Durchschnittssatz und wird wiefolgt bewiesen:

Ware A ∩⋂m∈NCm leer, so ware (X \Cm)m∈N eine offene Uberdeckung von A, zu der

es eine endliche Teiluberdeckung gabe, was aber wegen X \Cm ⊆ X \Cm+1 hieße, dassX \ CM schon A uberdecken wurde fur ein M ∈ N. Dann ware aber A ∩ CM = ∅, einWiderspruch.

“⇐”: Wir geben uns eine offene Uberdeckung (Ui)i∈I von A in X vor.

Beh. (1): Es gibt r > 0, so dass jede Kugel Br(x) fur ein x ∈ A ganz in einer derMengen Ui liegt.

Denn andernfalls gabe es eine Folge (xn)n∈N in A mit B1/n(xn) 6⊂ Ui fur alle i ∈ I.Aber wegen der Folgenkompaktheit hatte (xn)n∈N einen Haufungswert a ∈ A, undeines der Ui ware eine Umgebung von a, enthielte also ein Uε(a) ⊆ Ui. Fur n > 2

ε

ware B1/n(xn) ⊆ Bε/2(xn) ⊆ Bε(a), sobald n groß genug ist, dass d(xn, a) < ε/2, einWiderspruch.

Beh. (2): Es gibt n ∈ N mit A ⊆⋃ni=1Br(xi).

Denn andernfalls konnten wir rekursiv eine unendliche Folge

x1 ∈ A,

x2 ∈ A \Br(x1),

x3 ∈ A \ (Br(x1) ∪Br(x2)), . . .

konstruieren. Es ware d(xm, xn) > r fur alle m 6= n, und die Folge hatte keinenHaufungswert in X, im Widerspruch zur Annahme.

Mit diesen beiden Behauptungen ist aber

A ⊆ Br(x1) ∪ . . . ∪Br(xn) ⊆ Ui1 ∪ . . . ∪ Uin ,

und die endliche Teiluberdeckung ist gefunden. �

Kombinieren wir das mit obiger Beschreibung folgenkompakter Mengen, so finden wir,dass jede kompakte Menge abgeschlossen und beschrankt ist, und in Rn wissen wirsogar:

Korollar (Satz von Heine-Borel) In Rn ist eine Menge genau dann kompakt, wennsie abgeschlossen und beschrankt ist. �

Das rechtfertigt die fruhere (Ana I) Definition von Kompaktheit in R oder C ∼= R2. DerSatz von Heine-Borel gilt naturlich genauso in jedem endlichdimensionalen normiertenRaum, denn dieser ist als Vektorraum isomorph zu einem Rn, und auf die Auswahlder Norm kommt es, wie kurzlich gesehen, nicht an, da alle aquivalent sind. In denwichtigsten Raumen (fur die Zwecke der Analysis II) konnen wir also Kompaktheit vonMengen sehr leicht feststellen. Wir mussen naturlich auch wissen, wie sich Kompaktheitvererbt:

46

Page 47: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Satz (Vererbungseigenschaften der Kompaktheit)

(i) Abgeschlossene Teilmengen...

(ii) Endliche Vereinigungen...

(iii) Endliche kartesische Produkte...

(iv) Bilder unter stetigen Abbildungen...

...von kompakten Mengen sind wieder kompakt.

Beweis: (i) klar fur Folgenkompaktheit.

(ii) sieht man sofort mit Uberdeckungen.

(iii) wieder mit Folgenkompaktheit. Wahle Teilfolgen aus wie im Beweis von Bolzano-Weierstraß.

(iv) Sei A ⊆ X kompakt und (Vi)i∈I eine offene Uberdeckung von f(A). Dann ist(Ui)i∈I mit Ui := f−1Vi eine offene (da f stetig) Uberdeckung von A und besitzt wegender Kompaktheit von A eine endliche Teiluberdeckung {Ui1 , . . . , Uin}. Dann findet manwegen

f(A) ⊆ f(Ui1) ∪ . . . ∪ f(Uin) ⊆ Vi1 ∪ . . . ∪ Vinauch in (Vi)i∈I eine entsprechende endliche Teiluberdeckung von f(A). �

Bemerkung: (iv) ist eine weitreichende Verallgemeinerung des Satzes von Maximumund Minimum. Denn im Fall Y = R bedeutet die Kompaktheit von f(A) nichts ande-res, als dass diese Menge ihr Minimum und ihr Maximum enthalt. �

Kompaktheit hilft bei vielen grundlegenden Fragen wie z.B. der folgenden:

Satz (Stetigkeit der Umkehrfunktion) Es seien X, Y metrische Raume, A 6= ∅eine kompakte Teilmenge von X und f : A→ Y eine injektive stetige Abbildung. Dannist die Umkehrabbildung f−1 : f(A)→ X ebenfalls stetig.

Beweis: Ist C abgeschlossen in X, so ist A ∩ C nach dem vorigen Satz kompakt, undfolglich auch f(A ∩ C). Insbesondere ist f(A ∩ C) abgeschlossen in Y . Damit ist ge-zeigt, dass Urbilder unter f−1, also (f−1)−1C = (f−1)−1(A ∩ C) = f(A ∩ C), relativabgeschlossen in f(A) sind. Also ist f−1 stetig. �

Bemerkung: Ohne die Kompaktheit von A geht es im Allgemeinen nicht. Das zeigtdas Beispiel f : [0, 2π[→ C mit f(x) := eix = cosx + i sinx. Diese Abbildung istinjektiv, aber die Umkehrabbildung ist nicht stetig in der Nahe von f(0) = 1, denn inbeliebig kleine Umgebungen dieses Punktes bildet f auch Zahlen x nahe 2π ab. �

47

Page 48: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

1.7 Zusammenhang und allgemeiner Zwischenwertsatz

In diesem Mini-Abschnitt geht es darum, den Zwischenwertsatz soweit wie moglich zuverallgemeinern. Das erfordert neue Ideen, denn in Mengen, die nicht wie R geordnetsind, haben Aussagen wie “ξ liegt zwischen a und b” keine unmittelbare Entsprechung.Der richtige Begriff, den wir hier brauchen, ist der folgende:

Definition (zusammenhangend) Eine Teilmenge A eines metrischen (oder topo-logischen) Raums X heißt zusammenhangend, wenn es keine Zerlegung A = A1 ∪ A2

in zwei nichtleere relativ offene Teilmengen A1 und A2 von A gibt.

Bemerkung: Jede wegzusammenhangende Menge A ⊆ X ist zusammenhangend. Da-bei bedeutet “wegzusammenhangend”, dass je zwei Punkte a, b ∈ A durch einen ste-tigen Weg in A verbunden werden konnen, d.h. es gibt α < β in R und stetigesf : [α, β]→ A mit f(α) = a und f(β) = b. Fur offene Mengen in normierten Raumensind “wegzusammenhangend” und “zusammenhangend” sogar aquivalent. Man solltesich also unter “zusammenhangend” immer das anschauliche “wegzusammenhangend”vorstellen, auch wenn die volle Wahrheit komplizierter ist. �

Satz (allgemeiner Zwischenwertsatz) Es sei X metrischer (oder topologischer)Raum. Dann sind fur A ⊆ X aquivalent:

(i) A ist zusammenhangend.

(ii) Jede stetige Funktion f : A → R hat die Zwischenwerteigenschaft, d.h. f(A) istein Intervall.

(iii) Keine stetige Funktion f : A→ R hat genau die Werte f(A) = {0, 1}.(iv) Jede lokal auf A konstante Abbildung g (d.h. jeder Punkt a ∈ A hat eine Umgebung,auf der g konstant ist) ist konstant auf ganz A.

Beweis: (i)⇒(ii): Betrachte x, y ∈ A und irgendein c ∈ ]f(x), f(y)[, oder ]f(y), f(x)[ .Ware c /∈ f(A), dann ware A = A1 ∪A2 mit A1 := f−1 ]−∞, c[ , A2 := f−1 ]c,∞[ einenichttriviale relativ offene Zerlegung von A, die es fur zusammenhangendes A nichtgeben kann.

(ii)⇒(iii): trivial.

(iii)⇒(iv): Hatte g mindestens zwei verschiedene Werte y0 6= y1, dann konnte man

f(x) :=

{1 falls g(x) = y0,0 falls g(x) 6= y0

setzen und hatte eine nach (iii) verbotene Funktion konstruiert. (Als lokal konstanteFunktion ware f automatisch stetig.)

(iv)⇒(i): Ware A = A1 ∪ A2 nichttriviale relativ offene Zerlegung, dann konnte mang ≡ 0 auf A1 und g ≡ 1 auf A2 setzen. �

48

Page 49: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Definition (Gebiet) Eine nichtleere zusammenhangende offene Teilmenge eines nor-mierten Raums E heißt ein Gebiet in E.

1.8 Erganzungen: Skalarproduktraume und Fourierreihen

In diesem Kapitel werden wir zum ersten mal sehen, wie Methoden der Analysis undder Linearen Algebra auf effektive Weise verbunden werden konnen, um interessanteneue Erkenntnisse zu gewinnen.

Definition (Skalarproduktraum) Ein Vektorraum E uber R oder C heißt Skalar-produktraum (oder Pra-Hilbertraum), wenn er mit einem Skalarprodukt • : E ×E →K versehen ist, welches folgende Eigenschaften haben muss:

� x • x ≥ 0 fur alle x ∈ E mit “=” nur fur x = 0 (positiv definit);

� y • x = x • y fur alle x, y ∈ E (symmetrisch im R-Fall, hermitesch im C-Fall);

� (ax+ by) • z = a(x • z) + b(y • z) fur alle x, y, z ∈ E, a, b ∈ K (linear im erstenEintrag);

� x • (az + bw) = a(x • z) + b(x • w) fur alle x, z, w ∈ E, a, b ∈ K (folgt aus denvorigen beiden).

Das Skalarprodukt definiert eine naturliche Norm auf E durch ‖x‖ :=√x • x.

Ein vollstandiger Skalarproduktraum, also ein Banachraum mit Skalarprodukt, heißtHilbertraum.

Wir wollen das Skalarprodukt benutzen, um Elemente des Raums “bezuglich einerOrthonormalbasis zu entwickeln”, wie wir das in Rn bei

x =n∑i=1

(x · ei)ei

tun. Im Allgemeinen brauchen aber Skalarproduktraume nicht endlich zu sein, unddann ist das Konzept einer Basis nicht genau das, was wir brauchen.

Definition (Orthonormalsysteme) (E, •) sei Skalarproduktraum uber K. Eine end-liche oder unendliche Folge (e1, e2, . . .) in E heißt Orthonormalsystem, wenn

(ei • ej) = δij :=

{1 wenn i = j,0 wenn i 6= j.

(Das so definierte δij heißt Kronecker-Symbol.)

49

Page 50: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Ein Orthonormalsystem heißt vollstandig, wenn jedes x ∈ E eindeutig als bezuglich derNorm (‖x‖ :=

√x • x wie oben) konvergente Reihe

x =n∑k=1

λiei oder x =∞∑k=1

λiei

mit λi ∈ K dargestellt werden kann. (Ersteres falls dimE = n < ∞, dann bilden dieei eine Orthonormalbasis.)

Bemerkung: Im unendlichdimensionalen ist ein vollstandiges Orthonormalsystem imAllgemeinen keine Basis im Sinn der Linearen Algebra (obwohl es manchmal so genanntwird), denn bezuglich einer Basis muss jedes Element als endliche Linearkombinationdarstellbar sein, nicht nur als Reihe. �

Beispiele: (0) Rn mit dem ublichen Skalarprodukt x · y := x1y1 + . . . + xnyn istSkalarproduktraum. Jede Orthonormalbasis ist ein vollstandiges Orthonormalsystem.

(1) Der Folgenraum `2R (also `2 fur Folgen mit Werten in R) tragt das Skalarprodukt

x · y :=∞∑i=1

xiyi;

die zugehorige Norm ist einfach

√x · x =

√√√√ ∞∑i=1

x2i = ‖x‖2.

Man sieht sofort, dass das Skalarprodukt die geforderten Eigenschaften hat. Die Ab-schatzung |x·y| ≤ ‖x‖2‖y‖2 (folgt aus der Cauchy-Schwarz-Ungleichung mit Grenzuber-gang n→∞) sorgt dafur, dass die Reihe, die es definiert, uberhaupt konvergiert.

Die kanonischen Einheitsvektoren ei := (0, . . . , 0, 1, 0, . . .) mit der Eins an der i-tenStelle bilden ein Orthonormalsystem, denn ei · ej = δij ist offensichtlich. Dieses ONSist auch vollstandig. Um das zu sehen, bemerken wir, dass x = (xi)i∈N ∈ `2

R einfachgeschrieben werden kann als

x =∞∑i=1

xiei;

diese Reihe konvergiert bezuglich ‖ · ‖2 gegen x, denn wir haben

limn→∞

∥∥∥x− n∑i=1

xiei

∥∥∥2

= limn→∞

√√√√ ∞∑i=n+1

x2i = 0

wegen der Endlichkeit von ‖x‖2.

50

Page 51: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

(2) Genauso ist `2C Skalarproduktraum mit

x · y :=∞∑i=1

xiyi,

und wieder ist (ei)i∈N vollstandiges Orthonormalsystem.

(3) Der Raum C0[a, b] ist Skalarproduktraum mit dem Skalarprodukt

(f, g) :=

∫ b

a

f(x)g(x) dx

(wobei man den Querstrich nur braucht, wenn man C-wertige Funktionen zulasst).Orthonormalsysteme konnen wir nicht ohne weiteres raten.

(4) Besser dran mit Orthonormalsystemen sind wir im Raum

C02π(R,K) := {f : R→ K, f stetig und f(x+ 2π) = f(x) fur alle x ∈ R}

aller 2π-periodischen stetigen Funktionen. Auf diesem fuhren wir das Skalarprodukt

〈f, g〉 :=1

∫ 2π

0

f(x)g(x) dx

ein. Die Skalarprodukt-Eigenschaften sind wieder ziemlich offensichtlich, und vor allemist das Integral definiert und endlich, weil f und g stetig sind und das Intervall [0, 2π]kompakt ist.

Im Fall K = C ist {eikx}k∈Z (gemeint sind die Funktionen x 7→ eikx, und hier ist jetzt ikein Index, sondern die imaginare Einheit) ein Orthonormalsystem, denn wir rechnenleicht nach, dass

〈eikx, ei`x〉 =1

∫ 2π

0

eikxe−i`x dx

=1

∫ 2π

0

ei(k−`)x dx

=1

∫ 2π

0

cos((k − `)x) dx+i

∫ 2π

0

sin((k − `)x) dx

= δk`.

Im Fall K = R rechnet man genauso leicht nach, dass ein Orthonormalsystem durchalle Funktionen der Form

x 7→ 1,

x 7→√

2 cos(kx) (k ∈ N),

x 7→√

2 sin(kx) (k ∈ N)

gegeben ist. Dabei macht es nichts, dass die Orthonormalsysteme nicht uber N durch-nummeriert sind, solange sie nur aus abzahlbar vielen Elementen bestehen.

51

Page 52: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Dies ist der erste Hinweis darauf, dass es moglich sein konnte, periodische Funktionenin “Schwingungsanteile” verschiedener Frequenz cos(kx), sin(kx) zu zerlegen. Dazumussen wir eigentlich nur noch wissen, dass das gerade angegebene Orthonormalsy-stem vollstandig ist. Darum kummern wir uns im Folgenden. �

Der folgende Satz ist fur endlichdimensionale Vektorraume nichts neues gegenuber derLinearen Algebra, deshalb schreiben wir immer ∞ als obere Summationsgrenze.

Satz (Entwicklungssatz fur Skalarproduktraume) Sei (E, •) Skalarproduktraummit zugehoriger Norm ‖ · ‖ und vorgegebenem Orthonormalsystem (ek)k∈N. Dann gel-ten:

(i) Ist∑∞

k=1 λkek = x konvergent, so gilt λk = x•ek fur alle k. Also ist die Darstellungvon x als Reihe bezuglich der ek eindeutig.

(ii) Fur alle x ∈ E gilt die Besselsche Ungleichung

∞∑k=1

|x • ek|2 ≤ ‖x‖2.

(iii) Genau dann gilt x =∑∞

k=1(x • ek)ek (m.a.W. x liegt im Abschluss der linearenHulle von (ek)k∈N), wenn die Parsevalsche Gleichung

∑∞k=1 |x • ek|2 = ‖x‖2 gilt.

(iv) Das Orthonormalsystem ist vollstandig genau dann, wenn die lineare HulleSpann{e1, e2, . . .} dicht in E liegt. Dann ist (ek)k∈N maximales Orthonormalsystem,d.h. kein e ∈ E \ {0} erfullt e • ek = 0 fur alle k ∈ N.

(v) Ist E vollstandig, so ist jedes maximale Orthonormalsystem vollstandig.

(vi) Fur jedes x ∈ E und jedes n ∈ N ist Snx :=∑n

k=1(x•ek)ek das zu x nachstgelegeneElement des von e1, . . . , en aufgespannten Unterraums von E, d.h.

‖x− Snx‖ = min{‖x− y‖ : y ∈ Spann{e1, . . . , en}}

Beweis: (i) durch Nachrechnen:

x • ei =( ∞∑k=1

λkek

)• ei = lim

n→∞

( n∑k=1

λkek

)• ei = lim

n→∞

( n∑k=1

λkek • ei)

= λi.

(ii) Zunachst beobachten wir[x−

n∑k=1

(x • ek)ek]• ei = x • ei −

n∑k=1

(x • ek)(ek • ei) = 0,

fur i = 1, . . . , n, also ist [. . .] ⊥ e1, . . . en (wobei ⊥ naturlich heißt, dass das Skalarpro-dukt 0 ist). Dann impliziert aber Pythagoras (in einem endlichdimensionalen Teilraum

52

Page 53: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

∼= Rn+1 von E)

‖x‖2 =∥∥∥[x− n∑

k=1

(x • ek)ek]

+n∑k=1

(x • ek)ek∥∥∥2

=∥∥∥x− n∑

k=1

(x • ek)ek∥∥∥2

+n∑k=1

|x • ek|2

≥n∑k=1

|x • ek|2 →∞∑k=1

|x • ek|2.

(iii) liest man aus dem Beweis von (ii) mit ab. Nur der Teil “m.a.W.” ist noch zuzeigen: Liegt x im Abschluss der linearen Hulle von (ek)k∈N, dann kann ‖x−

∑nk=1 λkxk‖

beliebig klein gemacht werden durch geeignete Wahl von n, λ1, . . . , λn, also konvergiert∑∞k=1 λkxk gegen x, woraus mit (i) folgt, dass λk = x • ek, also x =

∑∞k=1(x • ek)ek.

Gilt umgekehrt letztere Gleichheit, dann ist x Limes der Partialsummen, als Limeseiner Folge in Spann{e1, e2, . . .}.(iv) Die erste Behauptung ist klar wegen (iii).

Ist nun e ∈ E orthogonal zu allen ek, dann ist nach (i)

e =∞∑k=0

(e • ek)ek = 0,

folglich ist (ek)k∈N maximal.

(v) Zu x ∈ E definiere

x :=∞∑k=1

(x • ek)ek.

Diese Reihe konvergiert, denn die Folge (sn)n∈N der Partialsummen ist eine Cauchy-Folge:

‖sn − sm‖2 =∥∥∥ n∑k=m+1

(x • ek)ek∥∥∥2

=⟨ n∑k=m+1

(x • ek)ek,n∑

`=m+1

(x • e`)e`⟩

=n∑

k=m+1

|x • ek|2

→ 0 bei m,n→∞

wegen der Orthogonalitat und der Bessel-Ungleichung (ii). Nach (i) ist x • ek = x • ekfur alle k und damit x − x ⊥ ek fur alle k. Da (ek)k∈N maximal ist, folgt x = x unddamit die Vollstandigkeit von (ek)k∈N.

53

Page 54: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

(vi) Gegebenes y ∈ Spann{e1, . . . , en} schreiben wir als y =∑n

k=1 ykek, dann gilt

‖x− y‖ = (x− y) • (x− y)

= ‖x‖2 −n∑k=1

yk x • ek −n∑k=1

yk ek • x+n∑k=1

ykyk ek • ek

= ‖x‖2 −n∑k=1

|x • ek|2 +n∑k=1

|yk − x • ek|2,

was minimal wird, genau wenn die letzte Summe 0 ist. �

Diesen Satz wollen wir jetzt auf Fourier-Reihen anwenden, das sind die Reihenent-wicklungen zu den Orthonormalsystemen aus obigem Beispiel (4). Es geht also um dieEntwicklung von komplexwertigen periodischen Funktionen f : R → C, von denenwir nach eventueller Skalierung des Definitionsbereichs annehmen konnen, dass sie 2π-periodisch sind. Das Beispiel suggeriert, dass es moglich sein sollte, ein solches f ineine Reihe (“Fourier-Reihe”)

f(x) =∞∑

k=−∞

ckeikx

umzuschreiben, wobei wir zunachst einmal annehmen, dass f stetig ist. Teil (i) desSatzes sagt, dass dann

ck = 〈f, eikx〉 =1

∫ 2π

0

f(x)e−ikx dx

gelten muss. Die Fourier-Reihe zerlegt eine Funktion in die Schwingungsanteile ver-schiedener Frequenz.

Wie in (4) bemerkt, fehlt zur Existenz einer solchen Reihendarstellung nur die Voll-standigkeit des zugehorigen Orthonormalsystems {eikx}k∈Z. Die funktioniert sogar furden etwas großeren Raum der stuckweise stetigen 2π-periodischen Funktionen.

Definition (stuckweise stetige Funktionen) Sei I ⊆ R ein Intervall. Eine Funk-tion f : I → K heißt stuckweise stetig, wenn f stetig ist auf I außerhalb einer diskretenMenge von Sprungstellen, in denen der links- und der rechtsseitige Grenzwert existie-ren sollen. Dabei bedeutet “diskret”, dass die Sprungstellen isoliert liegen, d.h. dassjede Sprungstelle eine ε-Umgebung hat, in der keine weitere liegt.

Der Vektorraum der stuckweise stetigen Funktionen I → K wird mit PC0(I,K) bezeich-net. Die 2π-periodischen Funktionen in PC0(R,K) bilden den Unterraum PC0

2π(R,K).

Entsprechend werden die Raume der stetigen Funktionen mit stuckweise stetiger Ab-leitung mit PC1(I,K) und im 2π-periodischen Fall mit PC1

2π(R,K) bezeichnet.

Konvention: In den Sprungstellen s einer stuckweise stetigen Funktion nehmen wirzusatzlich an, dass

f(s) =1

2limx↗s

f(x) +1

2limx↘s

f(x),

54

Page 55: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

dass also der Funktionswert gleich dem Mittelwert von links- und rechtsseitigem Grenz-wert ist. �

Die Vollstandigkeit des Orthonormalsystems ist gleichbedeutend mit der Konvergenzder Fourierreihen bezuglich ‖ · ‖2, denn dies ist (bis auf einen Faktor) die Norm, diezum Skalarprodukt 〈 · , · 〉 gehort. Um diese Vollstandigkeit zu beweisen, brauchen wirals ersten Schritt eine schwachere Konvergenzaussage, namlich punktweise Konvergenzeiner aus den Partialsummen der Fourierreihe abgeleiteten Folge:

Satz (Approximationssatz von Fejer) Fur jedes f ∈ PC02π(R,C) definieren wir

das n-te Fourierpolynom durch

Snf(x) :=n∑

k=−n

ckeikx, ck :=

1

∫ 2π

0

f(x)e−ikx dx

(ein “trigonometrisches Polynom”) und das n-te Fejer-Polynom durch

σnf :=1

n(S0f + . . .+ Sn−1f).

Dann konvergiertσnf(x)→ f(x) fur alle x ∈ R.

Ist f stetig, so ist die Konvergenz σnf → f sogar gleichmaßig auf R.

Zum Beweis definieren wir fur jedes n ∈ N die 2π-periodischen Fejer-Kerne Fn : R→ R

Fn(x) :=1

n

(sin(n2x)

sin(12x)

)2

,

was man fur x ∈ 2πZ stetig erganzen kann, ohne dass es uns auf die Werte ankommt.Diese Funktionen haben die Eigenschaften

Lemma (Eigenschaften der Fejer-Kerne) Es gelten

(F1) Fn = 1n(D0 + . . .+Dn−1) fur die sogenannten Dirichlet-Kerne

Dk(x) :=k∑

j=−k

eijx.

(F2) 12π

∫ π−π Fn(t) dt = 1 fur jedes n ∈ N;

(F3) Fur vorgegebene ε > 0 und δ ∈ ]0, π[ gibt es ein N ∈ N mit(∫ −δ−π

+

∫ π

δ

)Fn(t) dt < ε fur alle n ≥ N ;

(F4) Fur jedes f wie im Satz, jedes n ∈ N und jedes x ∈ R gilt

σnf(x) = f ∗ Fn(x) :=1

∫ π

−πf(x− t)Fn(t) dt

(“Faltung” von f mit Fn).

55

Page 56: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Beweis des Lemmas:

(F1) Zunachst gibt die geometrische Summenformel

k∑j=−k

eijx = e−ikx2k∑j=0

eijx

= e−ikx1− ei(2k+1)x

1 + eix

=ei(k+1/2)x − e−i(k+1/2)x

eix/2 − e−ix/2

=sin((k + 1

2)x)

sin x2

.

Folglich gilt

Dk(x) sinx

2= sin

((k +

1

2

)x),

und damit

Fn(x)n sin2 x

2=

n−1∑k=0

sin((k +

1

2

)x)

sinx

2

=1

2

n−1∑k=0

[cos(kx)− cos((k + 1)x)]

=1

2(1− cos(nx))

=(

sinnx

2

)2

.

Dabei haben wir zum Schluss das Additionstheorem fur den Cosinus in der Form

cos(2y) = cos2 y − sin2 y = 1− 2 sin2 y

angewendet, und davor in der etwas trickreicheren Form

cos(z + y)− cos(z − y) = cos z cos y − sin z sin y − cos z cos(−y) + sin z sin(−y)

= −2 sin z sin y.

(F2) benutzt (F1) in der Rechnung

1

∫ π

−πFn(t) dt =

1

2πn

n−1∑k=0

k∑j=−k

∫ π

−πeijt dt

=1

n

n−1∑k=0

k∑j=−k

δ0j

= 1.

56

Page 57: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

(F3) rechnen wir auch einfach nach:(∫ −δ−π

+

∫ π

δ

)Fn(t) dt =

(∫ −δ−π

+

∫ π

δ

) 1

n

(sin(n2t)

sin(12t)

)2

≤(∫ −δ−π

+

∫ π

δ

) 1

n sin2(r/2)dt

≤ 2π

n sin2(r/2),

man muss also nur n groß genug wahlen, damit das (bei festem r) klein wird.

(F4) ist eine direkte Folgerung aus (F1). �

Beweis des Satzes: Sei zunachst f ∈ PC02π(R,C). Wegen (F2) gilt

f(x) =

∫ π

−πf(x)Fn(t) dt

und damit wegen (F4) und Fn ≥ 0

|σnf(x)− f(x)| =∣∣∣ ∫ π

−π(f(x− t)− f(x))Fn(t) dt

∣∣∣≤

∫ π

−π|f(x− t)− f(x)|Fn(t) dt.

Ist nun x keine Sprungstelle von f , so gibt es zu ε > 0 ein δ > 0, so dass |f(x − t) −f(x)| < ε fur alle |t| < δ. Zu ε und δ finden wir außerdem nach ein N ∈ N gemaß (F3).Fur alle n ≥ N gilt dann

|σnf(x)− f(x)| ≤∫ δ

−δεFn(t) dt+

(∫ −δ−π

+

∫ π

δ

)|f(x− t)− f(x)|Fn(t) dt

≤ ε+ 2‖f‖∞ε.

Dazu muss man sich noch uberlegen, dass alle f ∈ PC02π(R,C) beschrankt sind. Das

sieht man aber leicht durch Unterteilung des Intervalls [−π, π] in endlich viele (!) In-tervalle zwischen den Sprungstellen und Anwendung des Satzes von Maximum undMinimum auf jedes dieser Intervalle.

Wir haben damit σnf(x)→ f(x) in allen Nicht-Sprungstellen x von f bewiesen. Ist fstetig, so gilt diese Konvergenz sogar gleichmaßig, weil dann f gleichmaßig stetig auf[0, 2π] und damit auf R ist, und alle Wahlen oben unabhangig von x getroffen werdenkonnen.

Bleibt nur die Konvergenz in dem Fall zu beweisen, in dem x eine Sprungstelle von fist. Nach der Annahme uber das Verhalten bei Sprungstellen existieren zu ε > 0 einδ > 0 und ein h ∈ R mit

|f(x− t)− f(x)− h| < ε fur t ∈ ]− δ, 0[ ,

|f(x− t)− f(x) + h| < ε fur t ∈ ]0, δ[ .

57

Page 58: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Damit modifizieren wir obige Abschatzung auf [−δ, δ] wie folgt:∣∣∣ ∫ δ

−δ(f(x− t)− f(x))Fn(t) dt

∣∣∣=

∣∣∣ ∫ 0

−δ(f(x− t)− f(x)− h)Fn(t) dt+

∫ δ

0

(f(x− t)− f(x) + h)Fn(t) dt∣∣∣

≤∫ 0

−δ|f(x− t)− f(x)− h|Fn(t) dt+

∫ δ

0

|f(x− t)− f(x) + h|Fn(t) dt

≤ ε,

wobei wir die Symmetrie von Fn bezuglich 0 benutzt haben. Die Konvergenz σnf(x)→f(x) folgt dann wie oben. �

Bemerkung: Aus der Konvergenz σnf(x) → f(x) fur alle x kann man nicht Kon-vergenz der Fourier-Reihe Snf(x) → f(x) schließen. Es gibt Gegenbeispiele, selbstfur stetige f . Also mussen wir uns bei Fourier-Reihen tatsachlich mit anderen Kon-vergenzbegriffen rumschlagen, und die allgemeinen Uberlegungen uber Konvergenz inmetrischen Raumen, insbesondere Funktionenraumen, waren nicht umsonst. �

Die wichtige Konsequenz im Sinne unserer allgemeinen Theorie ist:

Satz (“Erster Hauptsatz” uber Fourier-Reihen) Die Funktionen x 7→ eikx furk ∈ Z liegen dicht in PC0

2π(R,C). Folglich haben wir Konvergenz der Fourier-Reihenim quadratischen Mittel, d.h.

Snf → f bezuglich ‖ · ‖2

fur alle f ∈ PC02π(R,C).

Beweis: Auf C02π(R,C) folgt der Satz sofort aus dem Satz von Fejer und dem Ent-

wicklungssatz. Denn jedes f ∈ C02π(R,C) lasst sich nach Fejer gleichmaßig (d.h. mit

einer konvergenten Folge bezuglich ‖ · ‖∞) durch Linearkombinationen σnf der eikx

approximieren. Wegen der trivialen Abschatzung ‖g‖2 ≤ ‖g‖∞ fur alle g ∈ C02π(R,C)

folgt sofort, dass σnf → f auch bezuglich ‖ · ‖2 gilt. Damit ist Spann{eikx : k ∈ Z}dicht in C0

2π(R,C), und der Entwicklungssatz sagt, dass die Fourierreihen gegen f imquadratischen Mittel konvergieren.

Auf PC02π(R,C) haben wir keine gleichmaßige Konvergenz im Satz von Fejer. Aber

man findet zu jedem f ∈ PC0(R,C) eine Folge von (fm)m∈N in C02π(R,C), die bezuglich

‖ · ‖2 gegen f konvergiert (einfache Ubung!). Damit und mit dem schon Bewiesenenfolgt ebenfalls die behauptete Dichtheit und damit der Satz. �

Soweit zu komplexwertigen Funktionen. Im reellen Fall benutzen wir

ckeikx + c−ke

−ikx = (ck + c−k) cos kx+ i(ck − c−k) sin kx,

58

Page 59: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

um die komplexe Fourierreihe in eine reelle zu verwandeln. Es ergibt sich

Snf(x) =a0

2+

n∑k=1

(ak cos kx+ bk sin kx)

mit Koeffizienten

ak =1

π

∫ 2π

0

f(x) cos kx dx (k ∈ N ∪ {0}),

bk =1

π

∫ 2π

0

f(x) sin kx dx (k ∈ N).

(Bei Bedarf kann man auch von −π bis π o.a. integrieren, da die Integranden 2π-periodisch sind.)

Die Konvergenzsatze fur Snf → f (auch die noch folgenden) gelten entsprechend, daobige trigonometrische Polynome nur eine andere Schreibweise der fruher definiertenSnf darstellen.

Ist f stetig differenzierbar (f ′ stuckweise stetig reicht auch), so kann man mit partiellerIntegration die Fourier-Koeffizienten 〈f ′, eikx〉 ausrechnen:

〈f ′, eikx〉 =1

∫ 2π

0

f ′(x)e−ikx dx

= − ik2π

∫ 2π

0

f(x)e−ikx dx

= −ik〈f, eikx〉.

Es folgt mit der Cauchy-Schwarz- und Besselschen Ungleichung( ∞∑|k|=n+1

|〈f, eikx〉|)2

=( ∞∑|k|=n+1

1

k|〈f ′, eikx〉|

)2

≤( ∞∑|k|=n+1

1

k2

)( ∞∑|k|=n+1

|〈f ′, eikx〉|2)

≤( ∞∑|k|=n+1

1

k2

)∫ 2π

0

|f ′(x)|2 dx

fur alle n ∈ N (wobei uber positive und negative k summiert wird). Wir schreiben C furden (endlichen) Wert des letzten Integrals. Schreiben wir Sf(x) fur die Fourier-Reihe,dann ist

|Sf(x)− Snf(x)| ≤∞∑

|k|=n+1

|〈f, eikx〉| ≤

√√√√C

∞∑|k|=n+1

1

k2,

fur alle n ∈ N und alle x ∈ R, woraus wir gleichmaßige Konvergenz der Fourierpolyno-me Snf gegen Sf ablesen. Wir hatten gern Konvergenz gegen f , also Sf = f . Dazubeobachten wir, dass die gleichmaßige Konvergenz auch Snf → Sf bezuglich ‖ · ‖2

impliziert; der (eindeutige) stetige Grenzwert bezuglich dieser Norm ist aber f nachdem ersten Hauptsatz. Damit ist gezeigt:

59

Page 60: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Satz (“Zweiter Hauptsatz” uber Fourier-Reihen) Die Fourier-Reihe einer Funk-tion f ∈ PC1(R,C) konvergiert gleichmaßig gegen f , d.h. Snf → f gleichmaßig aufR. �

Das letzte Argument aus dem Beweis zeigt außerdem:

Satz (gleichmaßig konvergente Fourier-Reihen) Konvergiert die Fourier-Reiheeiner stetigen 2π-periodischen Funktion gleichmaßig, so stellt sie diese Funktion auchdar (d.h. sie konvergiert punktweise gegen die Funktion). �

Beispiel: Die Rechteckschwingung wird durch die periodische Funktion f : R→ R mit

f(x) =

1 falls x ∈ ]2mπ, (2m+ 1)π[ (m ∈ Z),−1 falls x ∈ ](2m− 1)π, 2mπ[ (m ∈ Z),0 falls x ∈ πZ.

Mit

ak =1

π

∫ π

−πsignx cos kx dx = 0

und

bk =2

π

∫ π

0

sin kx dx =

{4kπ

falls n ungerade,0 falls n gerade

haben wir die Fourier-Reihe

4

π

(sinx+

1

3sin 3x+

1

5sin 5x+ . . .

).

Da die Funktion Sprunge hat, wissen wir nicht automatisch, ob diese Reihe die Funktiontatsachlich in jedem Punkt darstellt; wohl aber, dass sie “im quadratischen Mittel” (d.h.bezuglich ‖ · ‖2) gegen diese konvergiert. Mehr Beispiele in den Ubungen.

(In diesem Fall kann man punktweise Konvergenz relativ leicht beweisen.) �

Bemerkung: Fur gerade Funktionen, f(−x) = f(x) fur alle x, sind alle bk = 0. Furungerade Funktionen, f(−x) = −f(x) fur alle x, sind alle ak = 0. �

Bemerkungen: Was bedeuten eigentlich Fourierreihen? In der Akustik kann man diesogar “horen”!

Periode T entspricht Frequenz ω = 2πT

. Alles kann durch lineare Substitutionen vonPeriode 2π auf Periode T trandformiert werden, die Fourierreihe einer T -periodischenFunktion hat dann die Form

f(x) =a0

2+∞∑k=1

(ak sin(kωx) + bk cos(kωx))

60

Page 61: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

mit den Fourierkoeffizienten

ak =2

T

∫ T

0

f(x) cos(kωx) dx,

bk =2

T

∫ T

0

f(x) sin(kωx) dx.

Spielt ein Musikinstrument einen Ton der Frequenz ω, so ist dies zunachst irgendeineim Idealfall periodische Funktion mit Periode 2π

ω(fur Saiteninstrumente etc. oft mul-

tipliziert mit einer “Hullkurve”, die das Leiserwerden des Tons nach dem Anschlagmodelliert). Diese Funktion ist nach unseren Uberlegungen zu Fourier-Reihen zusam-mengesetzt aus verschiedenen Sinus- oder Cosinus-Schwingungen mit Frequenzen kω(k ∈ N; a0 = 0 aus physikalischen Grunden). Diese kann das geubte Ohr als einzelne“reine” Tone verschiedener Tonhohen wahrnehmen, zumindest fur kleine Werte vonk. Die Tonhohen dieser “Obertone” sind dadurch festgelegt, dass ihre Frequenz einnaturliches Vielfaches der Grundfrequenz ω ist.

Beispiel fur Musiker: Ist der Grundton E, dann sind die ersten Obertone der Reihenach e, h, e’, gis’, h’, (irgendwas zwischen d” und dis”), e”, u.s.w.

Die verschiedenen Klangfarben von Instrumenten kommt dadurch zustande, dass ver-schiedene Instrumente die Obertone mit verschiedenen Lautstarken zum Grundton mi-schen. Zum Beispiel spielt eine Klarinette die Obertone mit geradem k fast gar nicht,die ungeraden aber deutlich wahrnehmbar.

Mit Fourier-Analyse kann man also von einem gehorten Ton auf das Instrument schlie-ßen, von dem es erzeugt wurde, und das menschliche Ohr/Gehirn ist in begrenztemUmfang dazu in der Lage, auch wenn naturlich die Lautstarken der Obertone nichtbewusst bestimmt werden.

Auch in der Elektronik ist es wichtig, periodische Signale in Fourierreihen entwickelnzu konnen. �

Es gibt auch eine geometrische Anwendung der Fourierreihen, in einer Ecke, wo mannicht sofort vermutet, dass die da nutzen konnen. Es handelt sich um das isoperime-trische Problem: Unter allen geschlossenen ebenen Kurven vorgegebener Lange (sagenwir o.B.d.A. Lange 2π) finde diejenige, die den großten Flacheninhalt einschließt.

Schon den alten Griechen war wohl bekannt, dass die gesuchten Kurven Kreise sind(und nur diese). Wir uberlegen uns, dass eine Kurve in C nichts anderes ist als einestetige Abbildung c : [a, b] → C; und damit wir Analysis betreiben konnen, reden wirnur von differenzierbaren Kurven. Die Geschwindigkeit, mit der die Kurve durchlau-fenm wird, ist |c′(t)|, und die Kurvenlange, also der auf der Kurve zuruckgelegte Weg,ist (naturlich) das Integral uber die Geschwindigkeit:

`(c) =

∫ b

a

|c′(t)| dt.

Fur das geometrische Aussehen der Kurve ist es egal, mit welcher Geschwindigkeitwir sie durchlaufen; wir konnen das mit Geschwindigkeit 1 tun und folglich |c′| ≡ 1

61

Page 62: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

annehmen. Dann muss das Definitionsintervall die Lange der Kurve, also 2π haben.Wir konnen uns also auf Kurven c : [0, 2π] → C mit |c′| ≡ 1 beschranken. Dass sichdie Kurve “glatt” schließt, bedeutet außerdem

c(0) = c(2π), c′(0) = c′(2π).

Das wiederum bedeutet, dass wir die Kurve zu einer stetig differenzierbaren Funktionc ∈ C1

2π(R,C) periodisch fortsetzen konnen. Mit diesen Funktionen beschaftigt sich derfolgende Satz:

Satz (isoperimetrisches Problem) Sei c :∈ C12π(R,C) mit |c′| ≡ 1 gegeben. Dann

ist der von der Kurve c : [0, 2π] → C umschlossene Flacheninhalt hochstens gleich π.Und der wert π wird nur fur einen Kreis vom Radius 1 angenommen, der damit “die”Losung des isoperimetrischen Problems ist.

Fur den Beweis benotigen wir noch zwei Zutaten:

Bemerkung: Wegen der Konvergenzresultate fur Fourier-Reihen gilt fur Funktionenf ∈ PC1

2π(R,C) die Parsevalsche Gleichung (s.o.). In diesem speziellen Fall lautet sie

1

∫ 2π

0

|f(x)|2 dx =∞∑

k=−∞

|〈f, eikx〉|2.

Außerdem gilt in C die (verallgemeinerten) Parallelogrammgleichung

zw =1

4

(|z + w|2 − |z − w|2 + i |z + iw|2 − i |z − iw|2

)fur alle z, w ∈ C. Damit konnen wir die folgende verallgemeinerte Parsevalsche Glei-chung auf obige zuruckfuhren:

1

∫ 2π

0

f(x)g(x) dx =∞∑

k=−∞

〈f, eikx〉〈g, eikx〉.

Lemma (Sektorformel von Leibniz) Sei c : [a, b] → C eine C1-Kurve in C, diesich stetig schließt, d.h. c(a) = c(b). Dann ist der von der Kurve eingeschlossene ori-entierte Flacheninhalt (wobei mehrfach umlaufene Stucke mehrfach gezahlt werden undgegen den Uhrzeigersinn umlaufene Stucke negativ gezahlt werden) gleich

A(c) =1

2

∫ b

a

(c1(x)c′2(x)− c2(x)c′1(x)) dx.

Beweisskizze: Unterteile [a, b] durch

a = t0 < t1 < t2 < . . . < tn = b.

62

Page 63: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Das Dreieck mit den Ecken 0, c(ti−1), (ti) hat den orientierten Flacheninhalt 12(c1(ti−1)∆c2(ti)−

c2(ti−1∆c1(ti), wobei wir die Abkurzungen ∆ck(ti) := ck(ti) − ck(ti−1) benutzt haben.Aufsummiert ergibt sich

A(c) ≈ 1

2

n∑i=1

(1

2(c1(ti−1)∆c2(ti)− c2(ti−1∆c1(ti),

und mit immer feineren Unterteilungen folgt die Behauptung. �

Beweis des Satzes: (Hurwitz)

Nach der Parsevalschen Gleichung gilt fur die Fourierkoeffizienten von c′

∞∑k=−∞

|〈c′, eikx〉|2 =1

∫ 2π

0

|c′(t)|2 dt = 1,

und damit nach obigem Argument (partielle Integration)∞∑

k=−∞

k2|〈c, eikx〉| = 1.

Nach dem Lemma ist der eingeschlossene Flacheninhalt

A =1

2

∣∣∣ ∫ 2π

0

(c1(x)c′2(x)− c2(x)c′1(x)) dx∣∣∣ =

1

2

∣∣∣ Im ∫ 2π

0

c(x)c′(x) dx∣∣∣ .

Die allgemeine Parsevalsche Gleichung liefert

A = π∣∣∣ Im ∞∑

k=−∞

〈c(x), eikx〉〈c′(x), eikx〉∣∣∣

= π∞∑

k=−∞

|k| |〈c(x) eikx〉|2

= π − π( ∞∑k=−∞

(k2 − |k|) |〈c(x) eikx〉|2)

≤ π,

wobei wir auch die zweite Gleichung benutzt haben. Das beweist schon einmal A ≤ π.Und Gleichheit gilt nur, wenn der zuletzt weggelassene Term Null ist, d.h. wenn alle〈c(x) eikx〉 außer fur k ∈ {−1, 0, 1} verschwinden. Das bedeutet aber

c(x) = c−1e−ix + c0 + c1e

ix, c′(x) = i(c1eix − c−1e

−ix).

Es folgt|c−1|2 + |c1|2 = 1

nach der zweiten Gleichung und

||c1|2 − |c−1|2| = 1

wegen der zweiten Zeile in der Gleichung fur A. Beides zusammen impliziert, dassc−1 = 0 und |c1| = 1 oder umgekehrt. Daraus lesen wir ab, dass c einen Kreis mitRadius 1 beschreibt. �

63

Page 64: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

2 Differentialrechnung in Rn

In diesem Kapitel wird es jetzt wieder sehr viel konkreter und handfester. Wir fuhrendas Programm der Differentialrechnung so weit wie moglich auf dem Rn anstelle vonR durch. Dazu mussen wir geeignete Ableitungen definieren und kommen dann aufpraktische Probleme wie das Minimieren konkret gegebener Funktionen zu sprechen.Die Grundlagen fur dieses Programm, wie z.B. das Thema Stetigkeit und die Existenzvon Maxima und Minima, haben wir schon in großer Allgemeinheit im vorigen Kapitelbehandelt. Ab jetzt reden wir nicht mehr uber allgemeine normierte (oder metrische)Raume, sondern fast nur noch uber Rn.

2.1 Partielle Ableitungen

Notation: Um Platz zu sparen, schreibt man Vektoren v ∈ Rn oft in der Form

v = (v1, v2, . . . vn),

obwohl man eigentlich den Spaltenvektor

v =

v1

v2...vn

meint. Dagegen wird ein Zeilenvektor (der eine lineare Abbildung Rn → R darstellt)ohne Kommata geschrieben, etwa

w = (w1 w2 · · · wn).

Funktionen, die von mehreren Variablen abhangen, kann man nach jeder dieser Varia-blen differenzieren:

Definition (partielle Ableitungen) Sei U ⊆ Rn offen. Eine Funktion f : U → Rheißt im Punkt x ∈ U partiell differenzierbar bzgl. der i-ten Koordinatenrichtung, fallsder Limes

∂if(x) := limh→0

f(x+ hei)− f(x)

h

existiert. Dabei ist fur i ∈ {1, . . . , n}

ei := (0, . . . , 0, 1, 0, . . . , 0)

(mit der 1 an der i-ten Position) der i-te Einheitsvektor in Rn. Dann heißt ∂if(x) i-tepartielle Ableitung von f in x. Wir schreiben gelegentlich auch ∂f

∂xi.

64

Page 65: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Sollten die Variablen einmal nicht x1, . . . , xn heißen, so kann hier das xi gegen denentsprechenden Variablennamen ausgetauscht werden. Eine Funktion f(x, y, z) hat alsopartielle Ableitungen ∂f

∂x(x, y, z), ∂f

∂y(x, y, z) und ∂f

∂z(x, y, z), oder kurzer ∂xf , ∂yf und

∂zf .

Beim Berechnen von ∂if benutzt man einfach die bekannten Ableitungsregeln und tutdabei so, als ware xi die Variable und alle anderen xj (j 6= i) einfach Konstanten.Wenn dies durchgeht, so liefert es die richtige partielle Ableitung, wie man anhand derDefinition sofort abliest.

Beispiele: Fur f : R3 → R mit f(x) = x21x2 + x3 ist

∂1f(x) = 2x1x2, ∂2f(x) = x21, ∂3f(x) = 1

und z.B.

∂1f(2, 3, 1) = 12, ∂2f(−1, 1, 9) = 1, ∂3f(1, 2, 3) = 1.

Fur g : R2 → R mit g(r, ϕ) := r cosϕ ist

∂rg(r, ϕ) = cosϕ, ∂ϕg(r, ϕ) = −r sinϕ.

Wenigstens das allererste Beispiel wollen wir zur kontrolle auch mal mit der Definitionnachrechnen:

∂1f(x) = limh→0

f(x+ he1)− f(x)

h

= limh→0

((x1 + h)2x2 + x3)− (x21x2 + x3)

h

= limh→0

2x1x2h+ x2h2

h= lim

h→02x1x2 + x2h

= 2x1x2

in Ubereinstimmung mit obigem Ergebnis. �

Bemerkung: Das gerade vorgestellte Rezept zu Berechnung partieller Ableitungen istnicht vollig unfehlbar in dem Sinne, dass manchmal eine partielle Ableitung existierenkann, die man mit dieser Regel nicht bekommt. Z.B. ist fur f : R2 → R, f(x) := |x1|x2

∂1f(x)

= sign(x1)x2 falls x1 6= 0,existiert nicht falls x1 = 0 und x2 6= 0,= 0 falls x1 = x2 = 0,

und die letzte Zeile hatte man mit dem Rezept nicht bekommen. Man sieht die letztenbeiden Eintrage so:

∂1f(0, 0) = limh→0

f(h, 0)− f(0, 0)

h= lim

h→0

0− 0

h= 0,

65

Page 66: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

und fur x2 6= 0 existiert ∂1f(0, x2) nicht, denn

f(h, x2)− f(0, x2)

h=|h|x2

h

hat bei h→ 0 zwei Haufungswerte ±x2 und deshalb keinen Grenzwert.

In “Grenzpunkten” zu Fallunterscheidungen, und dazu gehort halt auch die 0 bei derBetragsfunktion, hilft manchmal nur die Definition der partiellen Ableitung weiter. Sogenau muss man es aber nur selten wissen. �

Definition (partielle Differenzierbarkeit) Sei U ⊆ Rn offen. Eine Funktion f :U → R heißt partiell differenzierbar, falls ∂if(x) fur alle i ∈ {1, . . . , n} und allex ∈ U existieren. Sind die ∂if daruberhinaus alle stetig auf U , so heißt f stetig partielldifferenzierbar.

Es gibt keinen zwingenden Grund, nur in Richtung der Einheitsvektoren abzuleiten:

Definition (Richtungsableitung) Sei U ⊆ Rn offen, f : U → R, x ∈ U undv ∈ Rn. Falls der Grenzwert

∂vf(x) := limh→0

f(x+ hv)− f(x)

h

existiert, heißt er Richtungsableitung von f in x in Richtung v.

Beispiel: Sei f : R3 → R gegeben durch f(x) := x21x2+x3 wie oben. Sei v := (1, 2,−1).

Dann ist fur x ∈ R3

∂vf(x) = limh→0

f(x1 + h, x2 + 2h, x3 − h)− f(x1, x2, x3)

h

= limh→0

(x21 + 2hx1 + h2)(x2 + 2h)− x2

1x2 + (x3 − h)− x3

h

= limh→0

2hx1x2 + h2x2 + 2hx21 + 4h2x1 + 2h3 − hh

= limh→0

(2x1x2 + hx2 + 2x21 + 4hx2 + 2h2 − 1)

= 2x1x2 + 2x21 − 1,

also z.B.∂vf(3, 2, 1) = 29.

Es ist ubrigens kein Zufall, dass in diesem Beispiel

∂vf = v1∂1f + v2∂2f + v3∂3f

ist; dazu kommen wir bald. �

66

Page 67: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Bemerkung: Naturlich ist ∂eif = ∂if fur alle i ∈ {1, . . . , n}. �

Bemerkung: Man kann die Richtungsableitungen, und damit insbesondere die partiel-len Ableitungen von Funktionen f : Rn → R auch geometrisch interpretieren (jedenfallsfur n = 2). Dazu stellen wir uns den Graphen von f ,

Graph(f) := {(x, f(x)) : x ∈ U} ⊂ Rn+1,

als das “Gebirge” uber der Ebene R2 vor, in dem jeder Punkt die “Hohe uber Null”f(x) hat, wobei x einen Punkt in der Ebene (“Karte”) darstellt. Auf der Karte wahlenwir uns eine Richtung v ∈ R2 aus, in der wir gehen. Die Richtungsableitung ∂vf(x)gibt dann die Steigung an, mit der unser Weg startet, falls |v| = 1. (Allgemein erhaltman die Steigung multipliziert mit |v|.) �

Definition (Ableitungen fur Funktionen Rn → Rm) Sei U ⊆ Rn offen. Funktio-nen f : U → Rm werden durch m Funktionen fj : U → R, j ∈ {1, . . . ,m}, beschrieben,so dass fur jedes x ∈ U

f(x) = (f1(x), f2(x), . . . , fm(x)).

Wir sprechen von vektorwertigen Funktionen. Richtungs- oder partielle Ableitungen fursolch ein f werden komponentenweise definiert und sind ebenfalls vektorwertig, also

∂vf(x) = (∂vf1(x), ∂vf2(x), . . . , ∂vfm(x)).

Beispiel: f : R2 → R3 mit f(x) = (x1 cosx2, x1 sinx2, x1). Es gilt

∂2f(x) = (−x1 sinx2, x1 cosx2, 0).

Bemerkung: Setzen wir, fur vorgegebene x ∈ U , v ∈ Rn,

f(h) := f(x+ hv),

dann ist die Richtungsableitung einfach durch

∂vf(x) = f ′(0)

gegeben (ist evtl. vektorwertig zu lesen). Das bedeutet, dass man die Rechenregelnfur Ableitungen aus Analysis I mehr oder weniger direkt auf Richtungsableitungenubertragen kann (und damit insbesondere auf partielle Ableitungen). Wir stellen dieResultate in einem Satz zusammen:

Satz (Rechenregeln fur Richtungsableitungen) Sei U ⊆ Rn offen. Seien f, g :U → Rm, h : U → R \ {0} Funktionen, λ, µ ∈ R. Dann gelten an allen Stellen, wo dieAbleitungen definiert sind, die Rechenregeln

(i) Linearitat: ∂v(λf + µg) = λ∂vf + µ∂vg.

67

Page 68: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

(ii) Produktregel: ∂v(f ∗ g) = (∂vf) ∗ g+ f ∗ (∂vg), wobei ∗ : Rm×Rm → Rk irgendeinProdukt ist, also z.B. Skalarprodukt · : Rm×Rm → R oder Vektorprodukt × : R3×R3 →R3, oder naturlich die gewohnliche Multiplikation R× R→ R.

(iii) Quotientenregel: ∂v(1hf) = 1

h2[h(∂vf)− (∂vh)f ].

(Die Kettenregel ist etwas subtiler und wird spater behandelt.)

Beweis: Die Beweisidee wurde in der vorigen Bemerkung erklart, und das soll unsreichen. �

Der Mittelwertsatz ist einer der grundlegenden Satze der Differentialrechnung fur Funk-tionen R→ R. Er ist leider fur Funktionen f : R→ Rm falsch (denn man findet je einegeeignete Zwischenstelle fur jedes fj, aber keine, die fur alle j = 1, . . . ,m gleichzeitigpasst). In Anlaysis I hatten wir schon in C als Ersatz fur den Mittelwertsatz in C denSchrankensatz kennengelernt. Der folgende Schrankensatz fur Rn hilft in vielen Situa-tionen weiter, in deren eindimensionaler Version man den Zwischenwertsatz verwendet.Sind a, b ∈ Rn mit a 6= b, dann schreiben wir [a, b] fur die Strecke von a nach b.

Hauptsatz (Schrankensatz) Seien a 6= b in Rn, U ⊂ Rn sei offen und enthalte[a, b], und f : U → Rm sei stetig auf [a, b]. Wir setzen v := b−a

|b−a| und setzen voraus,

dass ∂vf(x) fur alle x ∈ [a, b] existiert, mit der Schranke

|∂vf(x)| ≤ C <∞ fur alle x ∈ [a, b].

Dann gilt|f(b)− f(a)| ≤ C|b− a|.

Beweis aus der Vorlesung, nur fur m = 1: Wir definieren f : [0, |b−a|]→ R durch

f(t) := f(a+ t b−a|b−a|).

Es gilt dannf ′(t) = ∂vf(a+ t b−a|b−a|)

fur alle t ∈ ]0, |b− a|[ , und wir konnen auf f den Mittelwertsatz aus Analysis 1 anwen-den. Er gibt uns ein ξ ∈ ]0, |b− a|[ , fur das

f ′(ξ) =f(|b− a|)− f(0)

|b− a| − 0

ist. Umgerechnet auf f bedeutet das

∂vf(a+ ξ b−a|b−a|) =

f(b)− f(a)

b− a,

und damit gilt

|f(b)− f(a)| ≤ |∂vf(a+ ξ b−a|b−a|)| |b− a| ≤ C|b− a|,

68

Page 69: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

was zu beweisen war.

Beweis des allgemeinen Falls (in der Vorlesung nicht gemacht): Fixiere ε > 0und definiere

t0 := sup{t ∈ [0, 1] : |f(a+ t(b− a))− f(a)| ≤ (C + ε)t|b− a|}.

Die Ungleichung gilt auch fur t0 selbst (d.h. das Supremum wird angenommen), dabeide Seiten stetig in t sind. Wir wollen t0 = 1 zeigen. Dazu nehmen wir das Gegenteilt0 < 1 an und setzen x0 := a+ t0(b−a) ∈ [a, b]. Dann gilt fur hinreichend kleines h > 0

|f(a+ (t0 + h)(b− a))− f(a)|≤ |f(x0 + h(b− a))− f(x0)|+ |f(x0)− f(a)|

≤ h∣∣∣f(x0 + h(b− a))− f(x0)

h

∣∣∣+ (C + ε)t0|b− a|

≤ (C + ε)(h+ t0)|b− a|

im Widerspruch zur Maximalitat von t0. Bei der Abschatzung des Differenzenquotien-ten in der vorletzten Zeile haben wir verwendet, dass er bei h ↘ 0 gegen ∂b−af(x0)konvergiert und dass

|∂b−af(x0)| = |b− a||∂vf(x0)| < (C + ε)|b− a|.

Wir wissen jetzt also t0 = 1, d.h.

|f(b)− f(a)| ≤ (C + ε)|b− a|.

Da ε > 0 beliebig war, folgt die Behauptung. �

Wir wollen gerade den Schrankensatz auch auf abgeschlossenen statt offenen Mengenanwenden, z.B. wenn wir die Voraussetzungen des Banachschen Fixpunktsatzes uber-prufen. Deshalb:

Definition (Differenzierbarkeit auf nicht offenen Mengen) Eine Abbildung f :D → Rm heißt differenzierbar auf der Teilmenge D ⊂ Rn, wenn f zu einer differen-zierbaren Funktion f : U → Rm auf einer offenen Menge U ⊇ D fortgesetzt werdenkann.

Bemerkungen: (1) Beim Schrankensatz brauchen wir diese Definition nicht einmal,wenn wir bemerken, dass die Aussage des Schrankensatzes auch dann noch gilt, wenna und/oder b im Rand von U liegen, die Strecke aber sonst ganz in U verlauft.

(2) In konvexen Mengen ist die etwas technische Annahme uber die Verbindungs-strecken fur alle a, b ∈ U erfullt. �

Das folgende Korollar gibt u.a. Auskunft daruber, wie man die im Banachschen Fix-punktsatz benotigte Kontraktionseigenschaft systematisch uberprufen kann:

69

Page 70: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Korollar (optimale Dehnungsschranken) Ist U offen und konvex in Rn und exi-stieren zu stetigem f : U → Rm alle Richtungsableitungen auf U , dann ist

L := sup{|∂vf(x)| : x ∈ U, v ∈ Rn mit |v| = 1}

die kleinstmogliche Dehnungsschranke fur f auf U , d.h. die kleinstmogliche Konstante,fur die

|f(b)− f(a)| ≤ L|b− a| fur alle a, b ∈ U

gilt. Dieses L (falls <∞) heißt auch Lipschitz-Konstante von f auf U .

Beweis: Aus dem Schrankensatz folgt, dass L eine Dehnungsschranke ist. Gabe eseine kleinere Dehnungsschranke C < L, dann ware fur alle v ∈ Rn mit |v| = 1 und allex ∈ U

|∂vf(x)| = limh→0

∣∣∣f(x+ hv)− f(x)

h

∣∣∣ ≤ C|h||v||h|

= C,

im Widerspruch zur Definition von L. �

Bemerkung: Im Sinne der oben gemachten Bemerkung (1) gilt das Korollar auchallgemeiner fur abgeschlossene konvexe Mengen, mit nur geringfugigen Umformulie-rungen. �

Beispiel: Wir betrachten f : U2 → R mit f(x) := x1x2. Zunachst benotigen wir alleRichtungsableitungen. Fur v = (v1, v2) ∈ R2 mit |v| = 1 ist

∂vf(x) = limh→0

(x1 + hv1)(x2 + hv2)− x1x2

h= lim

h→0(v1x2 + v2x1 + hv1v2)

= v1x2 + v2x1.

Wegen |x| < 1 und |v| = 1 konnen wir mit der Cauchy-Schwarz-Ungleichung abschatzen:

|∂vf(x)| = |v1x2 + v2x1| ≤ |v||x| < 1.

Damit ist also 1 eine Dehnungsschranke. Um zu sehen, dass diese Schranke optimal ist,bemerken wir noch, dass fur ε > 0 klein, x := (1− ε, 0), v := (0, 1)

|∂f (x)| = 1− ε

gilt, also (da ε beliebig klein) tatsachlich L = 1 gilt. Also ist 1 die Lipschitzkonstantevon f auf B2, d.h.

|b1b2 − a1a2| ≤ |b− a| fur alle a, b ∈ U2,

und diese Abschatzung ist optimal in dem Sinne, dass die Konstante 1 vor |b−a| nichtdurch eine kleinere ersetzt werden kann. �

70

Page 71: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

2.2 Die totale Ableitung

Wir haben bisher die partiellen und die Richtungsableitungen einer Funktion kennenge-lernt. Die Richtungsableitungen, wenn sie existieren, konne in komplizierter Weise vonder Richtung abhangen. Fur “hinreichend gute” Funktionen ist aber diese Abhangig-keit sehr einfach, namlich linear. Fur die Beschreibung linearer Abhangigkeiten hatdie Lineare Algebra bekanntlich Matrizen erfunden. Ist eine partiell differenzierbareFunktion f : Rn → Rm gegeben, so konnen wir die partiellen Ableitungen von f ineinem Punkt x ∈ Rn in einer Matrix, der Jacobi-Matrix von f in x, zusammenfassen:

Jf (x) :=

∂1f1(x) ∂2f1(x) · · · ∂nf1(x)∂1f2(x) ∂2f2(x) · · · ∂nf2(x)

......

...∂1fm(x) ∂2fm(x) · · · ∂nfm(x)

Die Regeln der Matrixmultiplikation liefern sofort die Beziehung

Jf (x)ei = ∂if(x),

und wir interessieren uns jetzt dafur, unter welchen Voraussetzungen auch

Jf (x)v = ∂vf(x)

gilt. In diesem Fall brauchte man also nur die endlich vielen partiellen Ableitungen zukennen, um alle Richtungsableitungen ausrechnen zu konnen. Die genaue Vorausset-zung dafur, dass das stimmt, ist:

Definition (totale Ableitung) Sei U ⊆ Rn offen. Eine Abbildung f : U → Rm

heißt (total) differenzierbar im Punkt a ∈ U , falls es eine n×m-Matrix A gibt, so dass

f(a+ x) = f(a) + Ax+ ϕ(x) mit limx→0

ϕ(x)

|x|= 0

fur a + x ∈ U mit einer geeigneten Funktion ϕ gilt. In diesem Fall heißt die durch Abeschriebene lineare Abbildung Rn → Rm die totale Ableitung von f in a und wird mitDf(a) bezeichnet. (Oft schreibt man auch f ′(a), aber wir wahlen Df(a) zur optischenUnterscheidung von eindimensionalen Konzepten.) f heißt (total) differenzierbar aufU , falls f in jedem Punkt a ∈ U differenzierbar ist.

Bemerkung: Diese Definition kann man besser verstehen, wenn man beobachtet, dasssie der Taylor-Formel nachempfunden ist. Im Prinzip will man wie in der Taylor-Formelerster Ordnung f(a+ x) durch die Ableitung approximieren als

f(a+ x) = f(a) +1

1!f ′(a)x+R1(x),

wobei ja auch das Restglied schneller gegen 0 geht als |x|. Anstelle der Ableitung f ′(a)lasst man aber jetzt eine Matrix zu (weil x ja jetzt auch anders als fruher ein Vektorist).

71

Page 72: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Beachte: Schon bei festem Punkt a ist Df(a) : Rn → Rm eine lineare Abbildung undnicht wie in Ana I eine Zahl. Im Fall m = n = 1 ist die totale Ableitung einer differen-zierbaren Funktion f : R→ R im Punkt a nicht gleich f ′(a), sondern strenggenommengleich der linearen Abbildung x 7→ f ′(a)x. �

Beispiele: (1) f : Rn → Rm mit f(x) := Ax + b, mit fest gewahlter n×m-Matrix Aund Vektor b ∈ Rm. Fur a ∈ Rn gilt

f(a+ x) = A(a+ x) + b = Aa+ b+ Ax = f(a) + Ax,

also kann man in der Definition ϕ ≡ 0 wahlen und sieht so, dass Df(a) die lineareAbbildung x 7→ Ax ist.

(2) f : Rn → R mit f(x) := |x|2. Fur a ∈ Rn gilt

f(a+ x) = |x+ a|2 = |a|2 + 2a · x+ |x|2.

Die Abbildung x 7→ 2a ·x ist linear, also versuchen wir es mit ϕ(x) := |x|2. Tatsachlichist limx→0 ϕ(x)/x = limx→0 |x| = 0, und deshalb ist x 7→ a · x die totale AbleitungDf(a). Die zugehorige Matrix ware die Zeilenmatrix

(2a1 2a2 . . . 2an).

(3) An der Definition liest man ab, dass eine in a (total) differenzierbare Funktionautomatisch stetig in a ist. Das gilt nicht fur Funktionen, die nur partiell (oder in alleRichtungen) differenzierbar sind. Ein Gegenbeispiel ist f : R2 → R mit

f(x, y) :=

{1 falls y = x2 6= 0,0 sonst.

Es gilt ∂vf(0, 0) = 0 fur alle v ∈ R2, insbesondere ∂1f(0, 0) = ∂2f(0, 0) = 0, aberoffensichtlich ist f nicht stetig in (0, 0), und folglich auch nicht total differenzierbar.�

Die Beispiele, bei denen es sinnvoll ist, die Definition von Df(a) zu dessen Berechnungzu benutzen, sind eher die Minderheit. Meist benutzt man stattdessen den folgendenSatz, der unter schwachen Voraussetzungen Df(a) mit Jf (a) in Beziehung setzt:

Hauptsatz (Zusammenhang zwischen totalen und partiellen Ableitungen)Sei U ⊆ Rn offen, f : U → Rm eine Funktion.

(i) Falls f differenzierbar in a ∈ U ist, so wird Df(a) durch die Matrix Jf (a) dargestellt(bzgl. der kanonischen Basis von Rn), d.h.

Df(a)v = Jf (a)v fur alle v ∈ Rn.

Die totale Ableitung ist also vollstandig durch die partiellen Ableitungen bestimmt. Um-gekehrt erhalt man die Richtungsableitungen aus der totalen Ableitung durch

∂vf(a) = Df(a)v

72

Page 73: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

(Matrix mit Vektor multiplizieren) fur alle v ∈ Rn, und insbesondere die partiellenAbleitungen durch

∂if(a) = Df(a)ei.

In Koordinaten ausgeschrieben lautet die Formel fur die Richtungsableitung

∂vf(a) =n∑i=1

vi ∂if(a).

(ii) Falls f in U partiell differenzierbar ist und alle partiellen Ableitungen stetig ina ∈ U sind, so ist f total differenzierbar in a. Insbesondere ist jede auf U stetig partielldifferenzierbare Funktion automatisch total differenzierbar auf U .

Beweis: (i) Sei v ∈ Rn gegeben. Nach der Definition der totalen Ableitung ist, mitψ(h) := ϕ(hv),

f(a+ hv) = f(a) + hDf(a)v + ψ(h) mit limh→0

ψ(h)

h= 0.

Also ist

∂vf(a) = limh→0

f(a+ hv)− f(a)

h

= limh→0

hDf(a)v + ψ(h)

h= Df(a)v,

was die zweite (und damit auch die dritte) Gleichung aus (i) beweist. Damit habenDf(a)ei und Jf (a)ei dieselben Werte fur i = 1, . . . , n. Folglich ist Jf (a) die Matrix, dieDf(a) darstellt.

(ii) Aus den partiellen Ableitungen in a konnen wir die Jacobi-Matrix Jf (a) bildenund mussen nur zeigen, dass Jf (a) die Bedingung an A aus der Definition der totalenAbleitung erfullt. Setze g(x) := f(x)− Jf (a)x. Dann gilt

∂ig(x) = ∂if(x)− Jf (a)ei = ∂if(x)− ∂if(a)→ 0 bei x→ a

wegen der Stetigkeitsvoraussetzung. Folglich gibt es zu ε > 0 ein δ > 0 mit |∂ig(x)| ≤ εfur alle i ∈ {1, . . . , n} falls |x− a| ≤ δ. Betrachte den Steckenzug

a(0) := (a1, . . . , an) = a,

a(1) := (x1, a2, . . . , an),

a(2) := (x1, x2, a3, . . . , an),...

a(n) := (x1, . . . , xn) = x.

73

Page 74: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Wenden wir den Schrankensatz auf jede dieser Strecken an, so erhalten wir fur x ∈ Bδ(a)mit der Dreiecksungleichung

|g(x)− g(a)| ≤n∑k=1

|g(a(k))− g(a(k−1))|

≤n∑k=1

ε|(a(k) − a(k−1)|

= ε

n∑k=1

|xk − ak|

≤√n ε |x− a|.

Das bedeutet

|f(x)− f(a)− Jf (a)(x− a)||x− a|

=|g(x)− g(a)||x− a|

≤√n ε

fur x ∈ Bδ(a), also (mit y := x− a)

limy→a

|f(a+ y)− f(a)− Jf (a)y||y|

= 0

und deshalb existiert die totale Ableitung und wird durch Jf (a) dargestellt. �

Bemerkungen: (1) Wenn alle Richtungsableitungen existieren, bedeutet das nochnicht, dass die Funktion (total) differenzierbar ist, wie auch schon oben in Beispiel (3)gesehen. Hier ein Beispiel einer Funktion, bei der alle Richtungsableitungen existieren,diese aber nicht linear von der Richtung abhangen: Betrachte f : R2 → R mit

f(x) :=

{0 falls x = (0, 0),x31

x21+x22sonst.

Man berechnet fur v ∈ R2

∂vf(0, 0) =v3

1

v21 + v2

2

,

und das ist keine lineare Abhangigkeit von v. Ware diese Funktion total differenzierbarin (0, 0), so hatten wir einen Widerspruch zu Teil (i) des Hauptsatzes. Ubrigens ist ∂1fnicht stetig bei (0, 0), wie man nachrechnen kann.

(2) Nicht jeder unterscheidet notationstechnisch zwischen der linearen AbbildungDf(a)und der Matrix Jf (a) die sie darstellt. Auch wir werden das voraussichtlich nur eineZeitlang tun. �

Beispiele: (1) f : R2 → R, f(x) = 2x1x2 − x21. Die partiellen Ableitungen sind

∂1f(x) = 2(x2 − x1), ∂2f(x) = 2x1.

74

Page 75: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Sie sind beide stetig, deshalb existiert Df(x) und wird deshalb durch

Jf (x) = (∂1f ∂2f) =(

2(x2 − x1) 2x1

)dargestellt. Fur v = (3, 4) haben wir dann zum Beispiel

∂vf(x) = Jf (x)v =(

2(x2 − x1) 2x1

)(3

4

)= 2x1 + 6x2

und etwa∂(3,4)f(3, 2) = 18.

(2) f : Rn → Rn, f(x) := |x|2x. Hier ist fj(x) = |x|2xj und

∂ifj(x) =

{2x2

j + |x|2 falls i = j,2xixj falls i 6= j.

Die Matrix Jf (x), die die Ableitung Df(x) beschreibt, ist also

Jf (x) =

2x2

1 + |x|2 2x1x2 · · · 2x1xn2x2x1 2x2

2 + |x|2 · · · 2x2xn...

.... . .

...2xnx1 2xnx2 · · · 2x2

n + |x|2

.

Die Richtungsableitungen sind

∂vf(x) = Jf (x)v = 2(x · v)x+ |x|2v,

wobei das Ausrechnen des letzten “=” Routine in Linearer Algebra ist. �

Als erste Anwendung des Hauptsatzes zeigen wir, wie man Lipschitz-Konstanten mitder totalen Ableitung (plus Linearer Algebra) ausrechnen kann. Dazu definieren wirzunachst die Norm einer Matrix.

Definition (Operatornorm) Sei f : Rn → Rm eine lineare Abbildung, also f(x) =Ax mit einer m× n-Matrix A. Dann heißt

‖A‖ := sup{|Ax| : x ∈ Rn mit |x| = 1}

(auch mit ‖f‖ bezeichnet) die Operatornorm von f oder einfach die Norm der MatrixA.

Bemerkung: In Aufgabe 4 (c) von Blatt 9 wird gezeigt, dass ‖A‖ einfach die Wurzelaus dem großten Eigenwert von AtA ist. (Beachte, dass AtA eine n × n-Matrix, alsoquadratisch, ist und automatisch symmetrisch.)

75

Page 76: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Korollar (optimale Dehnungsschranken II) Ist f : Rn ⊇ U → Rm differenzier-bar auf der offenen Menge U , dann ist die Lipschitzkonstante von f gegeben durch

L = sup{‖Df(x)‖ : x ∈ U}.

(Beachte: L kann auch ∞ sein, dann gibt es keine Dehnungsschranke fur f auf U .)

Beweis: Nach dem fruheren Korollar und Teil (i) des Hauptsatzes ist ∂vf(x) = Df(x)vund

L = sup{|∂vf(x)| : x ∈ U, v ∈ Rn mit |v| = 1}= sup{|Df(x)v| : x ∈ U, v ∈ Rn mit |v| = 1}= sup{‖Df(x)‖ : x ∈ U}.

Als unmittelbares Korollar des Schrankensatzes haben wir außerdem:

Korollar (Konstanzsatz) Ist U ⊆ Rn offen und streckenzug-zusammenhangend(d.h. jeder Punkt a ∈ U kann mit jedem b ∈ U durch einen Streckenzug [a, x1] ∪[x1, x2]∪ . . .∪ [xn−1, b] ⊂ U verbunden werden), dann ist jede differenzierbare Funktionf : U → Rm mit Df ≡ 0 auf U konstant.

Beweis: Fur jede Strecke im Streckenzug kann der Schrankensatz mit C = 0 angewen-det werden, und das gibt f(a) = f(x1) = . . . = f(xn−1) = f(b). �

Bemerkung: Jede konvexe Menge ist trivialerweise streckenzug-zusammenhangend.�

Der vorige Hauptsatz erlaubt uns in allen praktisch relevanten Fallen, die Jacobi-Matrixals “die” Ableitung von f zu benutzen, die die gesamte Information uber die Richtungs-ableitungen enthalt. Die Interpretation als totale Ableitung erlaubt andererseits kurzeubersichtliche (na ja!) Beweise, wie das Beispiel der Kettenregel zeigt; diese ist auf derEbene der totalen Ableitungen einfacher zu verstehen als auf der Ebene der partiellen:

Hauptsatz (Kettenregel) Es sei U ⊆ Rn offen und V ⊆ Rm offen mit f(U) ⊆ V .Seien f : Rn ⊇ U → Rm und g : Rm ⊇ V → R` differenzierbare Abbildungen, dann giltin jedem Punkt a ∈ U

D(g ◦ f)(a) = Dg(f(a))Df(a),

wobei die rechte Seite als Hintereinanderausfuhrung linearer Abbildungen zu lesen ist.Entsprechend lautet die Kettenregel fur die Jacobi-Matrizen

Jg◦f (a) = Jg(f(a))Jf (a),

wobei diesmal das Produkt auf der rechten Seite die Matrizenmultiplikation ist.

76

Page 77: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Beweis: Da f differenzierbar in a ist und g differenzierbar in f(a), gelten

f(a+ x) = f(a) +Df(a)x+ ϕ(x), limx→0

ϕ(x)/|x| = 0,

g(f(a) + y) = g(f(a)) +Dg(f(a))y + ψ(y), limy→0

ψ(y)/|y| = 0.

Es folgt

g(f(a+ x)) = g(f(a) +Df(a)x+ ϕ(x))

= g(f(a)) +Dg(f(a))[Df(a)x+ ϕ(x)] + ψ(Df(a)x+ ϕ(x))

= g(f(a)) + [Dg(f(a))Df(a)]x+R(x),

wobei R(x) := Dg(f(a))ϕ(x) + ψ(Df(a)x + ϕ(x)). Das beweist die Behauptung, fallslimx→0R(x)/|x| = 0. Das sieht man so:

limx→0

R(x)

|x|= lim

x→0Dg(f(a))

ϕ(x)

|x|+ lim

x→0

|Df(a)x+ ϕ(x)||x|

ψ(Df(a)x+ ϕ(x))

|Df(a)x+ ϕ(x)|

ist 0, denn der erste Limes ist 0 wegen der Voraussetzung an φ; im zweiten Limes ist dererste Faktor beschrankt und der zweite strebt gegen 0 wegen der Voraussetzung an ψ.�

Korollar Seien f und g wie oben, v ∈ Rn, i ∈ {1, . . . n}.(i) Kettenregel fur Richtungsableitungen:

∂v(g ◦ f)(a) = ∂wg(f(a)) mit w := ∂vf(a) = Df(a)v.

(ii) Kettenregel fur partielle Ableitungen:

∂i(g ◦ f)(a) =m∑j=1

∂jg(f(a))∂ifj(a).

(iii) Ableitung der Umkehrfunktion: Ist m = n und hat f lokal bei f(a) einedifferenzierbare Umkehrfunktion f−1, dann ist

D(f−1)(f(a)) = Df(a)−1

die zu Df(a) inverse lineare Abbildung (und Jf−1(f(a)) die zu Jf (a) inverse Matrix).

Beweis: (i) ∂v(g◦f)(a) = D(g◦f)(a)v = Dg(f(a))Df(a)v = Dg(f(a))w = ∂wg(f(a)).

(ii) ∂i(g ◦f)(a) ist die i-te Spalte von Jg◦f (a), also nach der Kettenregel die i-te Spaltevon Jg(f(a))Jf (a). Nach Definition der Matrizenmultiplikation folgt die angegebeneFormel, die die i-te Spalte des Produkts darstellt.

(iii) Wende die Kettenregel mit g := f−1 an. Da Jf−1◦f = Jid die Einheitsmatrix ist,folgt die Behauptung. �

77

Page 78: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Bemerkung: Man kann sogar die Existenz (und Differenzierbarkeit) der Umkehrfunk-tion bei a aus der Invertierbarkeit von Df (a) folgern; dazu spater mehr. �

Beispiel: Betrachte f : R2 → R2, g : R2 → R3 mit

f(x) := (x1 − x2, x1x2),

g(y) := (y1 + y2, 2y1, y22).

Dann berechnen wir

Jf (x) =

(1 −1x2 x1

), Jg(y) =

1 12 00 2y2

.

Mit

Jg(f(x)) =

1 12 00 2f2(x)

=

1 12 00 2x1x2

erhalten wir

Jg◦f (x) = Jg(f(x))Jf (x) =

1 12 00 2x1x2

( 1 −1x2 x1

)=

x2 + 1 x1 − 12 −2

2x1x22 2x2

1x2

.

Zur Probe berechnen wir auch

(g ◦ f)(x) = (x1 − x2 + x1x2, 2x1 − 2x2, x21x

22)

und stellen fest, dass die Jacobi-Matrix dieser Funktion die oben angegebene ist. �

Beispiel (Ableitung in Polarkoordinaten): Jeder Punkt (x, y) der Ebene R2 lasstsich auch in Polarkoordinaten darstellen als

(x, y) = Φ(r, ϕ) := (r cosϕ, r sinϕ),

wobei r =√x2 + y2 der Abstand zum Ursprung und ϕ ∈ ]−π, π] (oft auch ϕ ∈ [0, 2π[ )

der (orientierte) Winkel zur x-Achse ist. Jede Funktion f : R2 → Rm von x und y lasstsich auch “als Funktion von r und ϕ auffassen”; mathematisch formuliert bedeutet das,dass man statt f die Funktion f ◦ Φ betrachtet. Dann ist nach der Kettenregel

Jf◦Φ(r, ϕ) = Jf (Φ(r, ϕ))JΦ(r, ϕ).

Hier konnen wir naturlich JΦ ausrechnen:

JΦ(r, ϕ) =

(cosϕ −r sinϕsinϕ r cosϕ

).

Es folgen die Formeln fur die partiellen Ableitungen einer in Polarkoordinaten gegebe-nen Funktion:

∂r(f ◦ Φ)(r, ϕ) = cosϕ∂xf(r cosϕ, r sinϕ) + sinϕ∂yf(r cosϕ, r sinϕ),

∂ϕ(f ◦ Φ)(r, ϕ) = −r sinϕ∂xf(r cosϕ, r sinϕ) + r cosϕ∂yf(r cosϕ, r sinϕ).

78

Page 79: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

In “Physikerschreibweise” ist man nicht so genau und schreibt (x, y) = (r cosϕ, r sinϕ)und f(r, ϕ) = f(x, y), ohne extra Notation fur Φ. Dann werden die Formeln etwas uber-sichtlicher, und man darf auch als Mathematiker nach etwas Ubung mit der korrektenSchreibweise so rechnen. Symbolisch oder fur Physiker ist also z.B.

∂f

∂r=∂f

∂x

∂x

∂r+∂f

∂y

∂y

∂r

und mit ∂x∂r

= cosϕ und ∂y∂r

= sinϕ erhalt man

∂f

∂r= cosϕ

∂f

∂x+ sinϕ

∂f

∂y

wie oben berechnet. Mit der Umkehrformel ist

JΦ−1(x, y) = JΦ(r, ϕ)−1

=

(cosϕ −r sinϕsinϕ r cosϕ

)−1

=

(cosϕ sinϕ−1r

sinϕ 1r

cosϕ

)=

(xr

yr

− yr2

xr2

)=

(x√x2+y2

y√x2+y2

− yx2+y2

xx2+y2

).

Damit erhalten wir auch die Formel fur die Umrechnung der partiellen Ableitungen indie andere Richtung:

∂xf(x, y) = x√x2+y2

∂r(f ◦ Φ)(Φ−1(x, y))− yx2+y2

∂ϕ(f ◦ Φ)(Φ−1(x, y)),

∂yf(x, y) = y√x2+y2

∂r(f ◦ Φ)(Φ−1(x, y)) + xx2+y2

∂ϕ(f ◦ Φ)(Φ−1(x, y)).

Zur praktischen Benutzung dieser Formel mussen wir naturlich noch die Umkehrfunk-tion von Φ kennen, sie ist

Φ−1(x, y) = (√x2 + y2,Arg(x, y)),

wobei Arg(x, y) der eindeutige Winkel der Strecke von 0 zu (x, y) mit der x-Achse in]−π, π] ist; fur Arg gibt es geschlossene Formeln nur in einzelnen Quadranten. Z.B. ist

Arg(x, y) = arctany

xfalls x > 0.

Wir beschließen das Kapitel mit einer einfachen Definition:

Definition (Gradient) Ist U ⊆ Rn offen und f : U → R differenzierbar, so heißtder Vektor

∇f(x) := (∂1f(x), . . . ∂nf(x))

der Gradient von f in x.

Bemerkung: Naturlich ist∇f nichts anderes als die Transponierte des “Zeilenvektors”Jf (x). Einer der Grunde, warum der Gradient trotzdem einen eigenen Namen bekommt,ist seine geometrische Interpretation:

Der Gradient einer Funktion f im Punkt x hat die Richtung des steilsten Anstiegs vonf in x und den Betrag der Steigung in diese Richtung. �

79

Page 80: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

2.3 Hohere Ableitungen

Man kann partielle Ableitungen (und analog Richtungsableitungen) auch iterieren, d.h.mehrere Ableitungen nacheinander ausfuhren. Da Hintereinanderausfuhrung assoziativist, durfen wir einfach

∂i∂jf(x) := ∂i(∂jf)(x)

ohne Klammern schreiben.

Definition (hohere partielle Ableitungen, Hesse-Matrix) Sei U ⊆ Rn offenund f : U → Rm eine Funktion. f heißt zweimal stetig partiell differenzierbar, falls fstetig partiell differenzierbar ist und die Ableitungen

∂i∂jf(x)

fur alle i, j ∈ {1, . . . n} und alle x ∈ U existieren und stetig sind. f heißt k-mal stetigdifferenzierbar (mit k ≥ 2), falls f eine (k− 1)-mal stetig differenzierbare Funktion istund jede der (k − 1)-ten Ableitungen selbst wieder stetig differenzierbar ist.

Falls m = 1 und f : U → R zweimal stetig partiell differenzierbar ist, fasst man diezweiten partiellen Ableitungen in der Hesse-Matrix

Hf (x) :=

∂1∂1f(x) ∂2∂1f(x) · · · ∂n∂1f(x)∂1∂2f(x) ∂2∂2f(x) · · · ∂n∂2f(x)

......

. . ....

∂1∂nf(x) ∂2∂nf(x) · · · ∂n∂nf(x)

zusammen.

Bemerkung: Wird mehrmals in dieselbe Richtung abgeleitet, so schreibt man das alsPotenz, etwa

∂1∂1∂1∂2∂2f = ∂31∂

22f =

∂5f

∂x31∂x

22

.

Weiter unten (siehe “Multiindizes”) werden wir das auch als ∂(3,2)f schreiben. Die No-tationen fur partielle Ableitungen sind vielfaltig. �

Beispiel: Fur f : R2 → R mit f(x) := |x|5 = (x21 + x2

2)5/2 gelten

∂1f(x) = 5x1(x21 + x2

2)3/2 = 5x1|x|3,∂2f(x) = 5x2(x2

1 + x22)1/2 = 5x2|x|3,

∂1∂1f(x) = 5(x21 + x2

2)3/2 + 15x21(x2

1 + x22)1/2 = 5|x|3 + 15x2

1|x|,∂2∂2f(x) = 5(x2

1 + x22)3/2 + 15x2

2(x21 + x2

2)1/2 = 5|x|3 + 15x22|x|,

∂2∂1f(x) = 15x1x2(x21 + x2

2)1/2 = 15x1x2|x|,∂1∂2f(x) = 15x1x2(x2

1 + x22)1/2 = 15x1x2|x|.

80

Page 81: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Also ist f zweimal stetig partiell differenzierbar. Die Hesse-Matrix ist

Hf (x) =

(5|x|3 + 15x2

1|x| 15x1x2|x|15x1x2|x| 5|x|3 + 15x2

2|x|

).

Hier beobachtet man, dass die Hesse-Matrix symmetrisch ist, d.h. insbesondere ist∂1∂2f = ∂2∂1f . Der folgende Satz sagt, dass das kein Zufall ist:

Hauptsatz (Vertauschbarkeit partieller Ableitungen) Sei U ⊆ Rn offen undf : U → Rm zweimal stetig partiell differenzierbar. Dann gilt

∂i∂jf(a) = ∂j∂if(a)

fur alle a ∈ U und alle i, j ∈ {1, . . . n}. Mit anderen Worten im Fall m = 1: Dann istdie Hesse-Matrix Hf (x) symmetrisch fur alle x ∈ U .

(Dasselbe gilt, mit analogem Beweis, auch fur die Vertauschbarkeit von Richtungsablei-tungen.)

Beweis: O.B.d.A. ist m = 1, n = 2, und wir schreiben (x, y) statt (x1, x2). Wir konnenaußerdem a = (0, 0) ∈ U annehmen. Fur hinreichend kleine x und y ist dann f(x, y)definiert. Wir wenden den Mittelwertsatz auf

Fy(x) := f(x, y)− f(x, 0)

an und finden fur jedes kleine x ein ξ zwischen 0 und x, so dass

Fy(x)− Fy(0) = F ′y(ξ)x.

es ist F ′y(ξ) = ∂xf(ξ, y) − ∂xf(ξ, 0), und auf y 7→ ∂xf(ξ, y) wenden wir wieder denMittelwertsatz an. Wir finden η zwischen 0 und y mit

∂xf(ξ, y)− ∂xf(ξ, 0) = ∂y∂xf(ξ, η)y.

Zusammen mit der obigen Gleichung ergibt sich

f(x, y)− f(x, 0)− f(0, y) + f(0, 0) = ∂y∂xf(ξ, η)xy.

Dieselbe Rechnung machen wir nochmal und vertauschen dabei die erste und zweiteVariable. Wir finden ξ zwischen 0 und x sowie η zwischen 0 und y mit

f(x, y)− f(0, y)− f(x, 0) + f(0, 0) = ∂x∂yf(ξ, η)xy.

Die beiden letzten Gleichungen implizieren

∂y∂xf(ξ, η)xy = ∂x∂yf(ξ, η)xy,

also∂y∂xf(ξ, η) = ∂x∂yf(ξ, η)

81

Page 82: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

falls x, y 6= 0. Dabei hangen ξ, η, ξ, η von x, y ab und gehen alle gegen 0 bei (R\{0})2 3(x, y)→ 0. Machen wir diesen Grenzubergang, so ergibt sich

∂y∂xf(0, 0) = ∂x∂yf(0, 0)

aus der Stetigkeit der zweiten partiellen Ableitungen. �

Bemerkung: Sind die zweiten Ableitungen nicht stetig, dann brauchen sie auch nichtzu vertauschen. Das zeigt das Beispiel f : R2 → R mit

f(x, y) :=

{xy x2−y2

x2+y2falls (x, y) 6= (0, 0),

0 falls (x, y) = (0, 0).

Mit etwas Geduld berechnet man

∂xf(x, y) =

{x4y+4x2y3−y5

(x2+y2)2falls (x, y) 6= (0, 0),

0 falls (x, y) = (0, 0);

∂yf(x, y) =

{x5−4x3y2−xy4

(x2+y2)2falls (x, y) 6= (0, 0),

0 falls (x, y) = (0, 0).

Daraus folgt dann

∂y∂xf(0, 0) = limh→0

∂xf(0, h)− ∂xf(0, 0)

h= lim

h→0

−h5

hh4= −1,

∂x∂yf(0, 0) = limh→0

∂yf(h, 0)− ∂xf(0, 0)

h= lim

h→0

h5

hh4= 1,

also vertauschen hier ∂x und ∂y nicht. Fur (x, y) 6= (0, 0) berechnen wir außerdem

∂y∂xf(x, y) = ∂x∂yf(x, y) =x6 − y6 − 9x2y4 + 9x4x2

x6 + y6 + 3x2y4 + 3x4y2.

Wegen

limx→0

∂y∂xf(x, 0) = limx→0

x6

x6= 1,

limy→0

∂y∂xf(0, y) = limy→0

−y6

y6= −1

ist ∂y∂xf nicht stetig in (0, 0).

Also ist die Voraussetzung der Stetigkeit der zweiten partiellen Ableitungen im Haupt-satz unverzichtbar. �

Mit Induktion kann man den Hauptsatz auf hohere Ableitungen ubertragen:

Korollar (Vertauschbarkeit partieller Ableitungen) Sei U ⊆ Rn offen und f :U → Rm eine k-mal stetig partiell differenzierbare Funktion. Seien i1, i2, . . . , ik ∈{1, . . . , n}. Dann kommt es bei der Berechnung von ∂i1∂i2 . . . ∂inf(x) fur x ∈ U nichtauf die Reihenfolge der ∂ij an.

82

Page 83: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Bemerkung: Jede Funktion, die man “ohne Fallunterscheidung und ohne Betragsstri-che” (Ausnahme: | · |2k darf auch fur alle k ∈ N verwendet werden; und Dinge wie√x2

1 + . . .+ x2n muss man ausschließen) in geschlossener Form hinschreiben kann, ist

auf dem Inneren ihres Definitionsbereichs beliebig oft stetig partiell differenzierbar undinsbesondere stetig. Das folgt aus Satzen uber Vererbung von Stetigkeit und aus denRechenregeln fur Ableitungen. Also ist z.B. f : R3 → R mit

f(x) = ecos(x1+tanx2)|x|8 +xxx33

3

6− x2

stetig und beliebig oft stetig partiell differenzierbar auf

R×(R \ {2k+1

2π : k ∈ Z} \ {6}

)× ]0,∞[ ,

ohne dass man das nachrechnen musste. �

Damit ist die Reihenfolge partieller Ableitungen bei nicht zu schlecht differenzierbarenFunktionen egal, und wir konnen die Ableitungsoperatoren effektiver schreiben:

Definition (Multiindex-Schreibweise) Ein Zahlen-n-tupel α = (α1, . . . , αn) ∈ Nn0

nennt man einen Multiindex der Ordnung |α| := α1 + . . . + αn. Mit ∂α (gelegentlich

auch ∂|α|

∂xα) bezeichnet man dann den Differentialoperator

∂α := ∂α11 . . . ∂αnn =

∂n

∂xα11 . . . ∂xαnn

.

Außerdem definieren wir die Fakultat von α als

α! := α1! . . . αn!

(Erinnerung: 0! = 1). Wir schreiben α ≤ β, falls αi ≤ βi fur alle i = 1, . . . , n.

Beispiele: (1) Fur f(x1, x2, x3, x4) := ex1x32 sin(x3 + x4) und α := (2, 1, 0, 2) ist

∂αf(x1, x2, x3, x4) = ∂1∂1∂2∂4∂4f(x1, x2, x3, x4) = −3ex1x22 sin(x3 + x4).

(2) Fur einen festen Vektor u ∈ Rn sei f : Rn → R durch f(x) := eu·x definiert. Es gilt

∂if(x) = ∂ieu1x1+...+unxn = uie

u·x.

Dies konnen wir iterieren und erhalten fur jeden Multiindex α

∂αeu·x = uα11 . . . uαnn eu·x,

und letzteres kurzen wir auch als uαeu·x ab, womit wir

∂αeu·x = uαeu·x

83

Page 84: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

bewiesen haben. (Beachte, dass diese Gleichung auch formal sehr uberzeugend ist.)Insbesondere ist eu·x unendlich oft partiell differenzierbar auf Rn.

(3) Die Indexschreibweise erlaubt auch andere bemerkenswerte Kurzschreibweisen, z.B.fur alle partiellen Ableitungen aller Monome xβ = xβ11 . . . xβnn . Es gilt

∂αxβ =

{ β!(β−α)!

xβ−α falls β ≥ α,

0 sonst;

wieder in bemerkenswerter Ubereinstimmung mit der Formel fur die k-te Ableitungvon x`. �

Motivation: Wie beim Ableiten von erster Ordnung sagt die Existenz aller hoherenRichtungs- oder partiellen Ableitungen noch nicht viel uber eine Funktion. Zum Beispielsind fur die schon betrachtete Funktion

f(x, y) =

{1 falls y = x2,0 sonst

alle Richtungsableitungen 0 (wie schon gesehen); folglich sind auch alle hoheren par-tiellen (und Richtungs-)Ableitungen konstant 0, ohne dass deshalb etwa f konstantware.

Aus diesen und anderen Grunden brauchen wir einen naturlicheren Differenzierbar-keitsbegriff fur Ableitungen hoherer Ordnung, der der totalen Differenzierbarkeit beider ersten Ordnung entspricht. Dazu stellen wir zuallererst mal fest, dass wir dietotale Ableitung nicht nur fur Abbildungen Rn → Rm definieren konnen, sondernauch fur f : E ⊇ U → F fur irgendwelche endlichdimensionale R-Vektorraume E,F(denn durch Wahl einer Basis haben wir einen Isomorphismus zu Rn und Rm (wenndimE = n, dimF = m). Fur jedes x ∈ U ist dann Df(x) ∈ L(E,F ), wobei wirL(E,F ) fur den Vektorraum der linearen Abbildungen E → F schreiben. Dies ist einVektorraum der Dimension nm (den wir mit dem Raum der n×m-Matrizen identifi-zieren konnen; in diesem Raum wurde dann die Jacobi-Matrix Jf (x) fur jedes x ∈ Uliegen.

Damit ist aber Df : E ⊇ U → L(E,F ) auch nur eine Abbildung zwischen endlich-dimensionalen R-Vektorraumen, und fur eine solche konnen wir naturlich die totaleAbleitung D(Df) definieren, und so weiter. Wir hatten

Df : E ⊇ U → L(E,F ),

D(Df) : E ⊇ U → L(E,L(E,F )),

D(D(Df)) : E ⊇ U → L(E,L(E,L(E,F ))),

und so weiter. Die Raume auf der rechten Seite des Pfeils werden aber schnell unuber-sichtlich. Deshalb ist die folgende Auffassung besser:

Die totale Ableitung Df(x) : E → F ist ja fur jedes x ∈ U (falls existent) eine lineareFunktion des Richtungsvektors v, d.h. v 7→ ∂vf(x) ist lineare Abbildung E → F , und

84

Page 85: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

diese heißt Df(x). Ableitungen k-ter Ordnung hangen nun naturlich von k frei wahl-baren Richtungen v1, . . . , vk ∈ E ab. Wir bilden also iterierte Richtungsableitungen∂v1 . . . ∂vkf(x) und fragen, ob diese linear von allen Richtungen v1, . . . , vk ∈ E abhangt.Falls ja, dann gibt es (bei festgehaltenem Punkt x ∈ U) eine eindeutige k-lineare Ab-bildung Q ∈ Lk(E,F ), die diese Abhangigkeit darstellt, also mit ∂v1 . . . ∂vkf(x) =Q(v1, . . . , vk). Eine Abbildung von k Variablen heißt k-linear, wenn sie linear von jederihrer Variablen abhangt, also

Q(v1, . . . , vj−1, rvj + swj, vj+1, . . . , vk) = rQ(v1, . . . , vj, . . .) + sQ(v1, . . . , wj, . . . , vk)

fur alle r, s ∈ R, j ∈ {1, . . . , k}, v1, . . . vk, w1, . . . wk ∈ E. Die Menge aller k-linerenAbbildungen Ek → F heißt Lk(E,F ); dies ist ein R-Vektorraum, er hat ubrigens dieDimension (dimE)k dimF . Er ist ein normierter Raum mit der Norm

‖Q‖ := sup{‖Q(v1, . . . , vk)‖F : ‖v1‖E = . . . = ‖vk‖E = 1},

die der Operatornorm nachempfunden ist. In diesem Raum sollte also die k-te totaleAbleitung liegen. �

Definition (hohere totale Ableitungen) Seien E,F endlichdimensionale R-Vek-torraume U ⊆ E offen und f : U → F eine Abbildung. Wir setzen D0f := f undD1F := Df (falls F total differenzierbar ist). Nun sei k ≥ 2. Ist fur a ∈ U dieAbleitung Dk−1f auf einer Umgebung V von a definiert und die Abbildung Dk−1f :V → Lk−1(E,F ) an der Stelle a total differenzierbar, dann definieren wir Dmf(a) ∈Lk(E,F ) durch

Dmf(a)(v1, . . . vk) := ∂v1 . . . ∂vkf(a)

fur alle v1, . . . , vk ∈ E. Man nennt dann Dkf(a) die k-te totale Ableitung von f ina, und f heißt k-fach total differenzierbar in a. (Oft schreibt man auch f (k)(a) stattDf(a).) f heißt k-fach stetig differenzierbar auf der Menge A ⊆ U , wenn f in jedema ∈ A k-fach differenzierbar und Dkf : U → Lk(E,F ) stetig ist. Der Vektorraum allerk-fach stetig differenzierbaren Funktionen auf A heißt Ck(A,F ).

Bemerkungen: (1) Die Definition macht Sinn; tatsachlich kann namlich Dkf mit dertotalen Ableitung D(Dk−1f) von Dk−1f identifiziert werden vermoge der folgendenBeziehung:

Dkf(a)(v1, . . . , vk) = [D(Dk−1f)(a)v1](v2, . . . vk).

Um das zu sehen, setzen wir g := Dk−1f und bemerken

[∂v1g(a)](v2, . . . , vk) = ∂v1 [g( · )(v2, . . . , vk)](a),

weil die Auswertungsabbildung Lk−1(E,F ) 3 Q 7→ Q(v2, . . . , vk) ∈ F linear ist. Wegeng( · )(v2, . . . , vk) = Dk−1f( · )(v2, . . . , vk) = ∂v2 . . . ∂vkf und ∂v1g(a) = Dg(a)v1 folgt[D(Dk−1f)(a)v1](v2, . . . vk) = ∂v1 . . . ∂vkf(a) = Dkf(a)(v1, . . . , vk) wie behauptet.

85

Page 86: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Dies entspricht der Identifikation von L(E,Lk−1(E,F )) mit Lk(E,F ) und zeigt letzt-lich, dass die beiden in der Motivation diskutierten Alternativen zur Definition vonDkf aquivalent sind.

Wer diese Bemerkung verwirrend findet (liegt teilweise daran, dass relativ triviale Iso-morphismen noch lange nicht leicht hinschreibbar sein mussen), der merke sich einfach:Die Definition macht Sinn, weil gezeigt werden kann, dass die vorausgesetzte Existenzvon D(Dk−1f)(a) mit der behaupteten Existenz eines Dkf(a) aquivalent ist.

(2) Die k-te Ableitung von f in a hangt nur von f auf beliebig kleinen Umgebungenum a ab; es handelt sich also mal wieder um ein “lokales Konzept”. Außerdem handeltes sich bei allen hoheren totalen Ableitungen im Falle von Ck-Funktionen k-lineareAbbildungen, d.h. alle k Eintrage konnen beliebig permutiert werden, ohne den Wertzu andern. Das folgt aus dem Korollar uber die Vertauschbarkeit partieller Ableitungen.

(3) Alles hier geht sogar fur unendlichdimensionale normierte R-Vektorraume E undF , wenn man jeweils in der Definition von L(E,F ) und Lk(E,F ) zusatzlich nochendliche (Operator-)Norm fordert.

(4) Im Fall E = F = R erhalten wir die k-ten Ableitungen aus Analysis I in der Form

f (k)(a) =dk

dxk |x=0f(a+ x) = ∂k(1)f(a) = Dkf(a)(1, . . . , 1)

wieder, mit dem in R bis auf Faktoren eindeutigen “Richtungsvektor” (1) = 1.

(5) Im Fall E = Rn, F = R sollte die zweite totale Ableitung dieselbe Information ent-halten wie die Hesse-Matrix. Das stimmt im Fall von C2-Funktionen, wie die folgendeeinfache Rechnung zeigt:

D2f(a)(v1, v2) = ∂v1∂v2f(a) =n∑i=1

n∑j=1

(v1)i(v2)j∂i∂jf(a) = v1 ·Hf (a)v2.

In der Sprache der Linearen Algebra: Hf (a) ist die Matrix, die die Bilinearform D2f(a)bezuglich des kanonischen Skalarprodukts darstellt. Hohere Ableitungen, oder zweiteAbleitungen von Funktionen mit Werten in Rm, lassen sich wegen “zu vieler Indizes”nicht mehr durch Matrizen darstellen, wohl aber durch “Multimatrizen” (hoherdimen-sionalen Verallgemeinerungen von Matrizen, mit denen man nicht wirklich rechnenwill). �

2.4 Die Taylor-Formel

Es gibt eine allgemeine Taylor-Formel beliebiger Ordnung fur Funktionen von Rn nachRm. Details daruber gibt es in den Erganzungen. Hier begnugen wir uns vorerst mitder Taylor-Formel zweiter Ordnung im Fall m = 1:

Satz (Taylor-Formel) Sei U ⊆ Rn offen, f : U → R zweimal stetig differenzierbar,a ∈ U . Dann gilt fur hinreichend kleine x ∈ Rn die Formel

f(a+ x) = f(a) + 〈∇f(a), x〉+1

2〈x,Hf (a)x〉+R(x),

86

Page 87: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

bzw. aquivalent

f(a+ x) = f(a) + Jf (a)x+1

2〈x,Hf (a)x〉+R(x),

mit einem Restglied R(x), das

limx→0

R(x)

|x|2= 0

erfullt.

Bemerkung: Erfullt eine Funktion ϕ die Bedingung

limx→0

ϕ(x)

|x|k= 0

fur ein k ∈ N0, dann schreibt man oft auch o(|x|k) fur diese Funktion. Mit dieserSchreibweise vereinfacht sich die Definition der totalen Ableitung zu

f(a+ x) = f(a) +Df(a)x+ o(|x|)

und die Taylor-Formel von oben zu

f(a+ x) = f(a) + 〈∇f(a), x〉+1

2〈x,Hf (a)x〉+ o(|x|2).

Wegen Df(a)x = 〈∇f(a), x〉 (im Fall m = 1) passt das auch zusammen. �

Beweis: Mit “hinreichend kleine x ∈ Rn” im Satz ist gemeint, dass wegen der Offenheitvon U ein δ > 0 existiert, so dass a + x ∈ U fur alle x ∈ Rn mit |x| < δ. Nur ubersolche x wollen wir hier reden.

Fur so ein x ist auch die Strecke [a, a+x] ganz in U enthalten und deshalb die Funktion

g(t) := f(a+ tx)

auf einem offenen Intervall I ⊃ [0, 1] definiert. Mit der Kettenregel fur partielle Ab-leitungen (Beachte: Auch ′ ist eine partielle Ableitung, namlich die nach der einzigenKoordinatenrichtung in R.) berechnen wir

g′(t) =n∑i=1

∂if(a+ tx)xi,

g′′(t) =n∑

i,j=1

∂j∂if(a+ tx)xixj.

Jetzt wenden wir die eindimensionale Taylor-Formel (mit Integralform des Restglieds)auf g an, um g(1) zu berechnen:

f(a+ x) = g(1)

87

Page 88: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

= g(0) + g′(0) +

∫ 1

0

g′′(t)(1− t) dt

= g(0) + g′(0) +1

2g′′(0) +

∫ 1

0

[g′′(t)− g′′(0)](1− t) dt︸ ︷︷ ︸=:R(x)

= f(a) +n∑i=1

∂if(a)xi +1

2

n∑i,j=1

∂j∂if(a)xixj +R(x)

= f(a) + Jf (a)x+1

2〈x,Hf (a)x〉+R(x).

Außerdem konnen wir R(x) durch

R(x) =

∫ 1

0

[g′′(t)− g′′(0)](1− t) dt

=

∫ 1

0

n∑i,j=1

[∂j∂if(a+ tx)− ∂j∂if(a)]xixj dt

= o(|x|2)

abschatzen, wegen der Stetigkeit von ∂j∂if . Das beweist die Taylor-Formel. �

Beispiel: Wir fuhren das obige Beispiel fort und wollen die Taylor-Formel auf f : R2 →R, f(x) = |x|5 anwenden, beim Punkt a = (1, 0). Wir hatten

∇f(x) =

(5x1|x|35x2|x|3

), Hf (x) =

(5|x|3 + 15x2

1|x| 15x1x2|x|15x1x2|x| 5|x|3 + 15x2

2|x|

),

also fur x = a = (1, 0), d.h. x1 = 1, x2 = 0,

∇f(1, 0) =

(50

), Hf (1, 0) =

(20 00 5

).

Folglich gilt

f(a+ x) = f(a) + 〈∇f(a), x〉+ 〈x,Hf (a)x〉+ o(|x|2)

= 1 +

(50

)·(x1

x2

)+

(x1

x2

)·(

20 00 5

)(x1

x2

)+ o(|x|2)

= 1 + 5x1 + 20x21 + 5x2

2 + o(|x|2).

Dies stellt fur kleine Werte von x eine Naherungsformel fur f dar (was hier nicht sowichtig ist, da f selbst relativ einfach ist). �

Die allgemeine Taylor-Formel, bei der eine Funktion nicht nur bis zur zweiten Ord-nung entwickelt wird, beweist man mit ahnlichen Methoden. Auch wenn wir sie nichtbeweisen wollen, wollen wir sie wenigstens formulieren. Der eindimensionale Satz vonTaylor suggeriert, dass das mit Polynomen vom Grad k gehen sollte, deren Koeffi-zienten hohere Ableitungen von f sein konnten. Aber was sind eigentlich PolynomeRn → Rm?

88

Page 89: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Definition (Polynome) Es seinen m,n ∈ N. Eine Funktion p : Rn → R heißt einePolynomfunktion vom Grad k, wenn p von der Form

p(x) =∑|α|≤k

cαxα

(mit Multiindizes α ∈ Nn0 ; Erinnerung: xα := xα1

1 . . . xαnn ) ist und mindestens eins dercα fur ein |α| = k nicht 0 ist. Die xα heißen auch Monome, wie oben erwahnt.

Eine Abbildung p : Rn → Rm heißt eine Polynomfunktion vom Grad k, wenn jedeKomponentenfuktion eine Polynomfunktion vom Grad ≤ k ist (und eine tatsachlichden Grad k hat).

Bemerkung: Die Summe ist fur jedes k endlich. Und jedes Polynom ist durch seineKoeffizienten eindeutig bestimmt; d.h. es gibt keine zwei Polynome mit verschiedenenKoeffizienten, die die gleiche Abbildung Rn → Rm darstellen. �

Definition (von k-ter Ordnung ubereinstimmend) Wir sagen, dass zwei Funk-tionen f, g : Rn ⊇ U → Rm (U offen) bei a ∈ U von k-ter Ordnung ubereinstimmenoder sich gegenseitig von k-ter Ordnung approximieren, wenn

limx→a

f(x)− g(x)

|x− a|k= 0.

Der Satz von Taylor sagt jetzt etwas uber Polynome, die mit einer gegebenen Funktionan einem fest gewahlten Punkt von k-ter Ordnung ubereinstimmen. Wir verzichten wiegesagt auf den Beweis, der im Fall m = 1, k = 2 schon gefuhrt wurde.

Hauptsatz (Satz von Taylor; allgemeinere Version) Zu f : Rn ⊇ U → Rm (Uoffen), a ∈ U und k ∈ N0 gibt es hochstens eine Polynomfunktion T ka f(x) vom Grad≤ k, die f bei a von k-ter Ordnung approximiert. Ist f k-fach stetig differenzierbar ander Stelle a, so existiert diese Polynomfunktion, und zwar gilt

T ka f(a+ x) =∑|α|≤k

1

α!∂αf(a)xα,

mit anderen Worten

f(a+ x) =∑|α|≤k

1

α!∂αf(a)xα + o(|x|k).

Das Polynom T ka f heißt das k-te Taylorpolynom von f bei a.

Bemerkungen: (0) Man uberzeugt sich leicht, dass die Formel aus diesem Satz mitder fruheren Version des Satzes von Taylor ubereinstimmt, wenn m = 1 und k = 2 ist.

89

Page 90: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

(1) Haufig benutzte (offensichtliche) Umformulierungen sind

T ka f(x) =∑|α|≤k

1

α!∂αf(a)(x− a)α,

T ka f(a+ v) =k∑j=0

1

j!∂jvf(a),

T ka f(a+ v) =k∑j=0

1

j!Djf(a)(v, . . . , v︸ ︷︷ ︸

j-mal

),

T ka f(x) =k∑j=0

1

j!Djf(a)(x− a, . . . , x− a︸ ︷︷ ︸

j-mal

).

(2) Ist f unendlich oft differenzierbar, so kann man formal die Taylor-Reihe

Taf(a+ x) =∑α∈Nn0

1

α!∂αf(a)xα

aufstellen und fragen, ob Taf = f gilt. Wie schon im Eindimensionalen ist diese Fragenicht leicht zu beantworten, und es gibt Funktionen, fur die die Taylor-Reihe konver-giert, aber nicht gleich der Funktion ist. Funktionen, die gleich ihrer Taylor-Reihe sind(zumindest jeweils auf einer Umgebung jedes Entwicklungspunkts a) heißen analytisch.Wir beschaftigen uns hier nicht mit Kriterien fur Analytizitat (vielleicht in den Ubun-gen) und bemerken nur, dass alle Funktionen, die man “ohne Fallunterscheidung undohne Betrage” in geschlossener Form hinschreiben kann, analytisch sind. �

Beispiel: Wir suchen die Taylor-Reihen fur f : R3 → R2 mit

f(x) :=

(ex1+6x2+8x3

1 + x1 + x2

).

Dazu berechnen wir zunachst mal alle partiellen Ableitungen von f1(x) = ex1+6x2+8x3 .In der ersten Ordnung haben wir

∂1f1(x) = f1(x), ∂2f1(x) = 6f1(x), ∂3f1(x) = 8f1(x).

Das konnen wir iterieren und erhalten

∂αf1(x) = 6α28α3ex1+6x2+8x3 .

Einsetzen in die Formel fur das k-te Taylor-Polynom gibt uns

T ka f1(x) =∑|α|≤k

1

α!∂αf1(a)(x− a)α

= ea1+6a2+8a3∑|α|≤k

6α28α3

α1!α2!α3!(x1 − a1)α1(x2 − a2)α2(x3 − a3)α3 ,

90

Page 91: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

speziell fur a = 0

T k0 f(x) =∑|α|≤k

6α28α3

α1!α2!α3!xα1

1 xα22 x

α33 .

Fur die Taylor-Reihe lassen wir k → ∞ gehen, und benutzen noch, dass ein Poly-nom seine eigene Taylor-Reihe ist (außer, dass man es formal als Polynom in (x − a)umschreiben kann/soll). Wir finden

T0f(x) =

( ∑α∈N3

0

6α28α3α1!α2!α3!

xα11 x

α22 x

α33

1 + x1 + x2

)bzw. mit Entwicklungspunkt a

Taf(x) =

(ea1+6a2+8a3

∑α∈N3

0

6α28α3α1!α2!α3!

(x1 − a1)α1(x2 − a2)α2(x3 − a3)α3 ,

1 + a1 + a2 + (x1 − a1) + (x2 − a2)

).

Die Taylor-Polynome fur k ≥ 1 haben dieselbe Form, man muss nur∑

α∈N30

durch∑|α|≤k ersetzen.

Obiges “Kriterium” sagt uns, dass f analytisch ist, also tatsachlich durch seine Taylor-Reihen dargestellt wird, d.h. Taf(a+ x) = f(a+ x) fur kleine x. �

Die folgenden vertiefenden Aspekte sind aus den Erganzungen:

Ein Polynom in mehreren Variablen ist etwas wie

p(x) = x2x2x23 + x4 − 2x6

1x32,

dieses p ist eine abbildung p : R4. Um die Multiindex-Schreibweise zu illustrieren,schreiben wir das umstandlicher, aber auch systematischer, als

p(x) = c(1,1,2,0)x11x

12x

23x

04 + c(0,0,0,1)x

01x

02x

03x

14 + c(6,3,0,0)x

61x

32x

03x

04,

mitc(1,1,2,0) = 1, c(0,0,0,1) = 1, c(6,3,0,0) = −2.

Das lasst ahnen, warum das die Buchhaltung der Terme vereinfacht. Das beste Argu-ment fur Multiindizes ist die Tatsache, dass die allgemeine Poynomfunktion p : Rn → Rvom Grad ≤ k einfach als

p(x) =∑|α|≤k

cαxα

geschrieben werden kann. Jedes solche Polynom lasst sich in “homogene Anteile vomGrad j” zerlegen:

p(x) =k∑j=0

pj(x) mit pj(x) =∑|α|=j

cαxα.

Zu jedem pj finden wir nun eine symmetrische j-linearform Qj auf Rn, fur die

pj(x) = Qj(x, . . . , x︸ ︷︷ ︸j-mal

)

91

Page 92: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

gilt. Wie das geht, zeigen wir am Beispiel

p4(x) = x1x2x23

(aus unserem Beispielpolynom). Eine 4-Linearform L mit p4(x) = L(x, x, x, x) ware

L(a, b, c, d) := a1b2c3d3,

aber die ist nicht symmetrisch (was bedeutet, dass man a, b, c, d permutieren durfte,ohne den Wert zu andern). Also machen wir sie kunstlich symmetrisch, indem wir uberalle Permutationen summieren:

Q4(a, b, c, d) =1

24

(L(a, b, c, d) + L(a, b, d, c) + L(a, c, b, d) + L(a, c, d, b)

+ L(a, d, b, c) + L(a, d, c, b) + L(b, a, c, d) + L(b, a, d, c)

+ L(b, c, a, d) + L(b, c, d, a) + L(b, d, a, c) + L(b, d, c, a)

+ L(c, a, b, d) + L(c, a, d, b) + L(c, b, a, d) + L(c, b, d, a)

+ L(c, d, a, b) + L(c, d, b, a) + L(d, a, b, c) + L(d, a, c, b)

+ L(d, b, a, c) + L(d, b, c, a) + L(d, c, a, b) + L(d, c, b, a)).

Mit diesem Verfahren bekommt man das gesuchte Qj allgemein. Wir haben jetzt also

p(x) =k∑j=0

Qj(x, . . . , x︸ ︷︷ ︸j-mal

)

eingesehen und wollen als Nachstes die Qj bestimmen. Es stellt sich heraus, dass

Qj =1

j!Djp

ist, was man mit Induktion uber j beweisen kann. Das ist straightforward, aber lang-wierig, so dass wir uns hier mit dem Induktionsanfang j = 0 und mit dem ersten Schrittj = 1 begnugen:

Fur j = 0 beobachten wir

p0(x) =∑|α|=0

cαxα = c(0,...,0)x

01 . . . x

0n = c(0,...,0) = p(0) =

1

0!D0p(0).

Fur j = 1 berechnen wir zunachst

p1(x) =∑|α|=1

cαxα

= c(1,0,...,0)x11x

02 . . . x

0n + . . .+ c(0,...,0,1)x

01 . . . x

0n−1x

1x

=n∑i=1

ceixi.

92

Page 93: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Und andererseits ist

∂ip(x) = ∂i∑|α|≤k

cαxα

= ∂i∑|α|≤kαi 6=0

cαxα11 . . . xαii . . . xαnn

=∑|α|≤kαi 6=0

αicαxα11 . . . xαi−1

i . . . xαnn

=∑|α|≤kαi 6=0

αicαxαi−ei .

Setzt man x = 0 ein, so verschwinden alle Summanden außer dem mit Exponent 0,also bleibt nur der Summand fur α = ei stehen:

∂ip(0) = cei .

Daraus folgt

Dp(0)(x) =n∑i=1

∂ip(0)xi =n∑i=1

ceixi = p1(x)

wie behauptet. Induktiv macht man so weiter. Insgesamt haben (genauer: hatten) wirdann

p(x) =k∑j=0

1

j!Djp(0)(x, . . . , x︸ ︷︷ ︸

j-mal

)

bewiesen, und das ist immerhin schon einmal die Taylor-Formel fur Polynome vomGrad k. Etwas allgemeiner nach Substitution von x− a fur x:

Lemma (Taylor-Formel fur Polynome) Ist p : Rn → R ein Polynom vom Gradk, dann gilt

p(x) =k∑j=0

1

j!Djp(a)(x− a, . . . , x− a︸ ︷︷ ︸

j-mal

)

fur jedes a ∈ Rn.

Satz (Approximation von hoherer Ordnung) Es sei k ∈ N0, und f, g : Rn ⊇U → Rm (U offen) seine k-fach in a ∈ U differenzierbar. Genau dann stimmt f mit gbei a von k-ter Ordnung uberein, wenn Djf(a) = Djg(a) fur j = 0, . . . , k ist.

Beweis: Nach Ubergang von f zu f − g durfen wir g ≡ 0 annehmen.

“⇐”: Wegen Dkf(a) = 0 ist auch D(Dk−1f)(a) = 0; folglich gibt es zu jedem ε > 0ein δ > 0 mit ‖Dk−1f(a + tv) − Dk−1f(a)‖ ≤ ε|v| fur |t| ≤ 1 und |v| ≤ δ. Da auchDjf(a) = 0 ist fur j = 0, . . . , k − 1, folgt∣∣∣ dk−1

dtk−1f(a+ tv)

∣∣∣ = |Dk−1f(a+ tv)(v, . . . , v)| ≤ ε|v| · |v|k−1,

93

Page 94: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

und mit dem Schrankensatz induktiv∣∣∣ dk−2

dtk−2f(a+ tv)

∣∣∣ ≤ ε|v|k,...

|f(a+ tv)| ≤ ε|v|k

fur |t| ≤ 1 und |v| ≤ δ. Insbesondere gilt

|f(a+ tv)||v|k

≤ ε fur |v| ≤ δ,

d.h. limv→0 |f(a+ tv)|/|v|k = 0, was zu beweisen war.

“⇒”: Ist D0f(a) = 0, . . . , Dj−1f(a) = 0 fur j ≤ k schon bewiesen, so betrachte f − pjmit pj(x) := 1

j!Djf(a)(x − a, . . . , x − a). Nach der schon berechneten Ableitungen

von Monomen ist dann Di(f − pj)(a) = 0 fur i = 0, . . . , j, also limv→0 |f(a + v) −pj(a + v)|/|v|j = 0 nach dem schon bewiesenen Teil. Außerdem haben wir ja nunlimv→0 |f(a+ v)|/|v|j = 0 vorausgesetzt, mit k ≥ j. Es folgt limv→0 |pj(a+ v)|/|v|j = 0.Insbesondere bedeutet das

0 = limt↘0

1

tjpj(a+ tv) = lim

t↘0

1

tjDjf(a)(tv, . . . , tv) = Djf(a)(v, . . . , v)

fur alle v. Dass daraus auch Djf(a) = 0 folgt, sieht man mit Hilfe des folgenden Lem-mas, angewendet auf Q := Djf . �

Lemma (Polarisationsformel) Jede symmetrische j-lineare Abbildung Q ist voll-standig bestimmt durch die Werte der zugehorigen homogenen Polynomfunktion pj(x) :=Q(x, . . . , x). Denn es gilt die Formel

Q(v1, . . . , vj) =1

2jj!

∑ε∈{−1,1}j

sign(ε)pj(ε1v1 + . . .+ εjvj),

wobei ε alle “Vorzeichenverteilungen” durchlauft, mit sign(ε) := ε1 . . . εj.

Beweis (weggelassen): Entwickle

sign(ε)pj

( j∑i=1

εivi

)= sign(ε)Q

( j∑i=1

εivi, . . . ,

j∑i=1

εivi

)mit Multilinearitat von Q als eine Summe von Termen ε1 . . . εjε`1 . . . ε`jQ(v`1 , . . . , v`j).Bei Summation uber ε heben sich alle Terme mit `p = `q fur gewisse p 6= q weg, weilsie mit unterschiedlichen Vorzeichen zweimal summiert werden. Es verbleiben nur 2jj!Summanden (ε1 . . . εj)

2Q(v`1 , . . . , v`j) mit paarweise verschiedenen Indizes in {1, . . . , j}(j Stuck). �

Jetzt ist alles vorbereitet fur den angekundigten Satz von Taylor:

94

Page 95: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Hauptsatz (Satz von Taylor; qualitative Version) Zu f : Rn ⊇ U → Rm (Uoffen), a ∈ U und k ∈ N0 gibt es hochstens eine Polynomfunktion T ka f(x) vom Grad≤ k, die f bei a von k-ter Ordnung approximiert. Ist f k-fach differenzierbar an derStelle a, so existiert diese Polynomfunktion, und zwar gilt

T ka f(x) =k∑j=0

1

j!Djf(a)(x− a, . . . , x− a︸ ︷︷ ︸

j−mal

).

Beweis: Existenz folgt aus dem vorigen Satz, denn T ka f ist gerade so definiert, dassseine Ableitungen nullter bis k-ter Ordnung bei a mit denen von f ubereinstimmen.

Zum Beweis der Eindeutigkeit nehmen wir an, dass p und q zwei verschiedene solcherPolynome sind. Dann stimmt p− q von k-ter Ordnung mit 0 uberein und ist vom Grad≤ k. Mit der Taylor-Formel fur Polynome folgt daraus p− q ≡ 0. �

Naturlich wollen wir analog zu Analysis I auch wieder eine quantitative Version desSatzes von Taylor haben, die den Approximationsfehler, also das Restglied

Rkaf(x) := f(x)− T ka f(x)

abschatzt.

Zusatz (Satz von Taylor; quantitative Version) Wir nehmen die Voraussetzun-gen des Hauptsatzes an.

Wenn zusatzlich Dk+1f(xt) fur alle “Zwischenstellen” xt := a + t(x − a), 0 ≤ t ≤ 1,existiert, so gilt die Lagrange-Abschatzung fur das Restglied,

|Rkaf(x)| ≤ 1

(k + 1)!sup

0≤t≤1|Dk+1f(xt)(x−a, . . . , x−a)| ≤ 1

(k + 1)!|x−a|k+1 sup

[a,x]

‖Dk+1f‖.

Im reellwertigen Fall m = 1 (und nur dann!) gilt auch die Lagrange-Darstellung

Rkaf(x) =

1

(k + 1)!Dk+1f(xτ )(x− a, . . . , x− a) =

1

(k + 1)!

dk+1

dtk+1 |t=τf(a+ t(x− a))

mit einem 0 < τ < 1. Ist Dk+1f stetig auf der Strecke [a, x], dann gilt auch dieIntegraldarstellung

Rkaf(x) =

1

k!

∫ 1

0

Dk+1f(xt)(x− a, . . . , x− a)(1− t)k dt.

Der Beweis ist fast derselbe wie im eindimensionalen Fall aus Analysis I und wird hierdeshalb weggelassen. �

95

Page 96: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Definition (analytische Funktionen) Eine Funktion f : Rn ⊇ U → Rm heißt(reell-)analytisch auf der offenen Menge U , wenn f lokal bei jedem Entwicklungspunkta ∈ U durch eine gleichmaßig konvergente Potenzreihe dargestellt wird. (Die muss danndie Taylor-Reihe

Taf(x) := limk→∞

T ka f(x) =∞∑j=0

1

j!Djf(a)(x− a, . . . , x− a)

sein.) Die Menge der analytischen Funktionen U → Rm wird mit Cω(U,Rm) bezeichnet.

Der folgende Satz zeigt, dass es (auch wenn fast jede C∞-Funktion, die man hischreibenkann, analytisch ist) die analytischen Funktionen sehr unflexibel sind und deshalb nureine sehr “kleine” Teilmenge der C∞-Funktionen.

Satz (Identitatssatz fur reell analytische Funktionen) Eine analytische Funk-tion f : Rn ⊇ U → Rm (U offen und zusammenhangend) ist durch ihre Werte auf einerbeliebig kleinen Umgebung eines Punktes a ∈ U schon vollstandig bestimmt. Denn sieist sogar durch ihre Ableitungen Dkf(a) (k ∈ N0) an dieser einen Stelle bestimmt.

Beweis: Nehmen wir eine weitere analytische Funktion g : U → Rm mit Dkg(a) =Dkf(a) fur alle k ∈ N0 und untersuchen die Menge

A := {x ∈ U : Dkg(x) = Dkf(x) fur alle k ∈ N0}.

Wegen a ∈ A ist A nichtleer. Da Dkf,Dkg stetig sind, ist

A =∞⋃k=0

(Dkg −Dkf)−1{0}

relativ abgeschlossen in U . Ist b ∈ A, so stimmen außerdem Tbg und Tbf uberein unddamit auch g = f auf einer Umgebung von b, da die Taylorreihen die Funktionen jalokal darstellen. Somit ust A auch offen. Da U zusammenhangend ist, folgt A = U . �

2.5 Lokale Extremstellen von Funktionen mehrerer Verander-licher

In diesem Abschnitt geht es um das Problem der Minimierung oder Maximierung vonFunktionen f : Rn ⊇ A → R. Dabei versuchen wir, teilweise analog zu Analysis I,notwendige und hinreichende Kriterien fur Minima oder Maxima herzuleiten.

Wie in Analysis I sind innere Extremstellen Nullstellen der Ableitung, naturlich nur,wenn diese existiert:

Satz (Kriterium erster Ordnung fur innere lokale Extremstellen) Sei U ⊆ Rn

offen, f : U → R differenzierbar. Dann ist jede lokale Extremstelle von f eine Nullstellevon ∇f . Nullstellen von ∇f heißen auch kritische Stellen von f .

96

Page 97: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Bemerkung: Das Wort “innere” kommt im Satz uberhaupt nicht vor, weil jeder Punkteiner offenen Menge ein innerer Punkt ist.

Beweis: Sei a ∈ U lokale Extremstelle von f . Fur jedes v ∈ Rn gibt es ε > 0, so dass

g(t) := f(a+ tv)

fur |t| < ε definiert ist. Da g in 0 eine lokale Extremstelle hat, gilt

0 = g′(0) = ∂vf(a).

Also ist ∂vf(a) = 0 fur alle v ∈ Rn, d.h. Df(a) = 0, also auch ∇f(a) = 0. �

Durch Losen von ∇f(x) = 0 kann man also eine Liste von “Kandidaten” fur innereExtremstellen einer differenzierbaren Funktion erhalten, die alle Extremstellen, abermoglicherweise auch weitere Punkte (“Sattelpunkte”) enthalt. Das ist aber im Allge-meinen gar nicht so einfach, denn bei ∇f = 0 handelt es sich ja um eine Gleichungin Rn, also tatsachlich um ein System von n (i.A. nichtlinearen) Gleichungen mit nUnbekannten x1, . . . , xn.

Beispiel: f : R2 → R mit

f(x) := x31 + 3x1x

22 + x2

1 + x22.

Es gilt

∇f(x) =

(3x2

1 + 3x22 + 2x1

6x1x2 + 2x2

).

∇f(x) = 0 ist also aquivalent zum Gleichungssystem

3x21 + 3x2

2 + 2x1 = 0,

2x2(3x1 + 1) = 0.

Um dieses zu losen, betrachten wir zunachst die zweite Gleichung. Weil ein Produktgenau dann 0 ist, wenn einer der beiden Faktoren 0 ist, bleiben hier nur die beidenMoglichkeiten x2 = 0 oder x1 = −1

3.

1. Fall: x2 = 0. Das setzen wir in die erste Gleichung ein und erhalten

3x21 + 2x1 = 0.

Diese quadratische Gleichung hat naturlich die beiden Losungen x1 ∈ {−23, 0}.

2. Fall: x1 = −13. Das setzen wir in die zweite Gleichung ein und erhalten

13

+ 3x22 − 2

3= 0, also x2

2 = 19.

Daraus erhalten wir x2 = ±13.

Zusammengefasst haben wir also folgende Losungen der Gleichung ∇f(x) = 0:

x ∈ {(−23, 0), (0, 0), (−1

3,−1

3), (−1

3, 1

3)}.

97

Page 98: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Unter diesen befinden sich alle lokalen Extremstellen von f . Wir werden das Beispieldemnachst fortfuhren. �

In Analysis I konnten wir Maxima und Minima weitgehend durch das Vorzeichen derzweiten Ableitung unterscheiden. Jetzt “ist” aber die zweite Ableitung eine Matrix (siewird zumindest durch die Hesse-Matrix dargestellt). Wir brauchen deshalb zunachstgeeignete Begriffe, die Sie alle naturlich aus der Linearen Algebra kennen:

Definition ((semi)definite Matrizen) Sei A eine symmetrische n× n-Matrix mitreellen Eintragen. Die Matrix A heißt

positiv definit falls 〈x,Ax〉 > 0 fur alle x ∈ Rn \ {0},positiv semidefinit falls 〈x,Ax〉 ≥ 0 fur alle x ∈ Rn,

negativ definit falls 〈x,Ax〉 < 0 fur alle x ∈ Rn \ {0},negativ semidefinit falls 〈x,Ax〉 ≤ 0 fur alle x ∈ Rn,

indefinit sonst.

Fur indefinite Matrizen gibt es Vektoren u, v ∈ Rn mit 〈u,Au〉 < 0 und 〈v, Av〉 > 0.

Aus der Linearen Algebra ubernehmen wir ohne Beweis die folgende Charakterisierung:

Satz (Eigenwert-Kriterien fur Definitheit) Eine symmetrische Matrix mit reel-len Eintragen ist genau dann positiv (negativ) definit, wenn alle Eigenwerte positiv(negativ) sind. Sie ist genau dann positiv (negativ) semidefinit, wenn alle Eigenwertenichtnegativ (nichtpositiv) sind. �

Da es aber sehr muhsam sein kann, alle Eigenwerte einer Matrix zu bestimmen, ist dasfolgende Kriterium ebenfalls von praktischer Bedeutung:

Satz (Determinanten-Kriterium fur Definitheit) Zu einer symmetrischen Ma-trix A = (aij)i,j=1...n mit aij ∈ R bilde die quadratischen Untermatrizen A1, . . . Andefiniert durch

Ak := (aij)i,j=1...k.

A ist genau dann positiv definit, wenn detAk > 0 ist fur alle k ∈ {1, . . . , n}. A istgenau dann negativ definit, falls (−1)k detAk > 0 fur alle k ∈ {1, . . . , n}, also genaudann, wenn detA1, detA2, . . . abwechselnd negativ und positiv (in dieser Reihenfolge)sind. �

Jetzt zu den angekundigten hinreichenden Kriterien zweiter Ordnung:

Satz (Kriterien zweiter Ordnung fur lokale Extrema) Sei U ⊆ Rn offen, f :U → R zweimal stetig differenzierbar. Sei a ∈ U mit ∇f(a) = 0.

Notwendige Kriterien:

98

Page 99: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

(i) Ist a eine lokale Minimumstelle von f , so ist Hf (a) positiv semidefinit.

(ii) Ist a eine lokale Maximumstelle von f , so ist Hf (a) negativ semidefinit.

Hinreichende Kriterien:

(iii) Ist Hf (a) positiv definit, so ist a eine lokale Minimumstelle von f .

(iv) Ist Hf (a) negativ definit, so ist a eine lokale Maximumstelle von f .

(v) Wegen (i) und (ii) kann a keine lokale Extremstelle von f sein, falls Hf (a) indefinitist. Man spricht dann von einem (echten) Sattelpunkt.

Beweis: (i) Fur jedes v ∈ Rn hat

g(t) := f(a+ tv)

bei t = 0 ein lokales Minimum, also g′′(0) ≥ 0. Mit der Kettenregel berechnen wir

v ·Hf (a)v = g′′(0) ≥ 0,

also ist Hf (a) positiv semidefinit.

(ii) genauso.

(iii) Die Taylor-Formel mit ∇f(a) = 0 gibt

f(a+ x) = f(a) +1

2〈x,Hf (a)x〉+R(x)

mit limx→0R(x)/|x|2 = 0, also gibt es zu jedem ε > 0 ein δ > 0, so dass

|R(x)| < ε|x|2 fur |x| < δ

(und dass f(a + x) fur diese x uberhaupt definiert ist). Da die Sphare Sn−1 ⊆ Rn

kompakt ist, nimmt die stetige Funktion Sn−1 → R, v 7→ v ·Hf (a)v ihr Minimum aufSn−1 an. Da Hf (a) nach Voraussetzung positiv definit ist, folgt

M := min{〈v,Hf (a)v〉 : v ∈ Sn−1} > 0.

Fur alle x ∈ Rn, v := x|x| ∈ S

n−1 folgt

〈x,Hf (a)x〉 = |x|2〈v,Hf (a)v〉 ≥M |x|2.

Jetzt wahlen wir δ > 0 so klein, dass |R(x)| ≤ M4|x|2 fur alle x mit |x| < δ. Fur diese

x setzen wir das und die vorige Gleichung in die Taylor-Formel ein und erhalten

f(a+ x) ≥ f(a) +M

4|x|2 fur |x| < δ.

Also gilt f(a + x) > f(a) fur 0 6= |x| < δ; damit ist a (isolierte) lokale Minimumstellevon f .

(iv) genauso.

99

Page 100: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

(v) folgt rein logisch aus (i) und (ii). �

Beispiel: Im obigen Beispiel f : R2 → R,

f(x) := x31 + 3x1x

22 + x2

1 + x22,

ist

Hf (x) =

(6x1 + 2 6x2

6x2 6x1 + 2

).

Diese Matrix rechnen wir an den oben bestimmten kritischen Stellen von f aus:

Hf (−23, 0) =

(−2 00 −2

)mit doppeltem Eigenwert −2, also negativ definit. Deshalb ist (−2

3, 0) lokale Maxi-

mumstelle von f .

Hf (0, 0) =

(2 00 2

)mit doppeltem Eigenwert 2, also positiv definit. Deshalb ist (0, 0) lokale Minimumstellevon f .

Hf (−13,−1

3) =

(0 −2−2 0

)mit Eigenwerten −2 und 2, also indefinit. Deshalb ist (−1

3,−1

3) Sattelpunkt von f .

Hf (−13, 1

3) =

(0 22 0

)mit Eigenwerten −2 und 2, also indefinit. Deshalb ist (−1

3, 1

3) Sattelpunkt von f . �

Beispiel: Die Kriterien (i) und (ii) sind notwendig, die Kriterien (iii) und (iv) hin-reichend. Dazwischen klafft eine Lucke, so dass mit Hilfe dieser Kriterien die Fragenach Extremstellen nicht immer zweifelsfrei geklart werden kann (wie auch schon inAnalysis I).

Drei Beispiele hierzu, alle mit derselben Hesse-Matrix:

(1) f(x, y) := x2 + y4 mit Gradient ∇f(x, y) =(

2x4y3

). Dieser hat die einzige Nullstelle

(0, 0), und hier ist die Hesse-Matrix gleich

Hf (0, 0) =

(2 00 0

)mit Eigenwerten 2 und 0, sie ist also positiv semidefinit. Wegen f(x, y) ≥ 0 = f(0, 0)fur alle x, y ∈ R hat f in (0, 0) eine (isolierte, sogar globale) Minimumstelle, obwohlHf (0, 0) nicht positiv definit ist.

100

Page 101: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

(2) f(x, y) := x2 − y4 mit Gradient ∇f(x, y) =(

2x−4y3

). Wieder ist (0, 0) die einzige

kritische Stelle von f , und wieder ist die Hesse-Matrix gleich

Hf (0, 0) =

(2 00 0

).

Diesmal hat aber f in (0, 0) keine Extremstelle, denn wegen f(0, ε) = −ε4 < 0 undf(ε, 0)− ε2 > 0 werden in jeder Umgebung von (0, 0) sowohl Werte > f(0, 0) als auchWerte < f(0, 0) angenommen; damit ist (0, 0) ein “unechter Sattelpunkt”.

(3) f(x, y) = x2 hat Gradienten ∇f(x, y) =(

2x0

)und damit kritische Punkte (0, y) fur

alle y ∈ R. In jedem dieser kritischen Punkte ist

Hf (0, y) =

(2 00 0

).

Und diesmal ist jeder dieser kritischen Punkte wieder eine Minimumstelle (da dortder kleinstmogliche Wert 0 angenommen wird); aber die Minimumstellen bilden eineGerade in R2 und sind damit nicht isoliert.

Wir haben also mit ein und derselben Hesse-Matrix in den kritischen Stellen drei qua-litativ unterschiedliche Situationen identifiziert. Das zeigt, dass die Hesse-Matrix imsemidefiniten Fall nicht genug Informationen enthalt, um auf das Verhalten von f beientsprechenden kritischen Punkten zu schließen.

(Ist die Hesse-Matrix die Nullmatrix, so kann sogar noch mehr passieren; dann sindMinima, Maxima und Sattelpunkte moglich.) �

Bemerkung: Wie wir im Beweis von (iii) gesehen haben, sind kritische Stellen mit de-finiter Hesse-Matrix schon isoliert. Das vorige Beispiel (1) zeigt, dass nicht umgekehrtjede isolierte Extremstelle durch eine definite Hesse-Matrix zu erkennen sein muss. �

Beispiel: Noch ist unser Wissen uber die Bestimmung von Minima/Maxima unvoll-standig. Denn wir wurden gerne ein globales Maximum oder Minimum finden konnen,falls es existiert. Eine Situation, in der das globale Maximum oder Minimum garan-tiert angenommen wird, ist die in der die zulassige Menge A kompakt ist. Jede stetigeFunktion nimmt bekanntlich ihr Maximum und ihr Minimum auf kompakten Mengenan.

Wir betrachten z.B. f : R2 → R mit f(x) := x1 auf A := B2 = {x ∈ R2 : |x| ≤ 1}.Minimum und Maximum muss an irgendeiner Stelle angenommen werden, aber derGradient ∇f(x) ≡

(10

)hat keine Nullstellen. Die Erklarung fur dieses Phanomen ist,

dass sowohl die Minimumstelle (−1, 0) als auch die Maximumstelle (1, 0) auf dem Randvon A liegen, und hier gilt die notwendige Bedingung ∇f(x) = 0 fur Extremstellennicht, sondern nur im Inneren von A. Wir brauchen also auch ein Verfahren fur dieBestimmung von (lokalen) Extremstellen am Rand.

Fur das Verfahren, das gleich angegeben wird, braucht man eine differenzierbare Funk-tion g : R2 → R, die > 0 ist auf dem Inneren A◦ = B2, < 0 in den außeren Punkten

101

Page 102: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

auf R2 \A, und (folglich) = 0 auf dem Rand ∂A = S1. Eine solche Funktion kann manoft schon aufgrund der “impliziten” Beschreibung von A als Menge raten. Weil hierA := {x ∈ R2 : |x| ≤ 1}, sehen wir sofort, dass

g(x) := 1− |x|2

die geforderten Eigenschaften hat. Das sollte man beim Lesen des folgenden Satzes alsBeispiel im Hinterkopf behalten. �

Definition (positiv/negativ linear abhangig) Zwei Vektoren u, v ∈ Rn heißenpositiv linear abhangig, falls

u = λv oder v = λu fur ein λ ≥ 0.

Sie heißen negativ linear abhangig, falls

u = λv oder v = λu fur ein λ ≤ 0.

Satz (notwendiges Kriterium fur Extremstellen am Rand) Ist U ⊆ Rn offen,A ⊂ Rn abgeschlossen und g : U → R eine differenzierbare Funktion mit

g(x) = 0 fur x ∈ ∂A ∩ U,g(x) > 0 fur x ∈ A◦ ∩ U,g(x) < 0 fur x ∈ U \ A

(man sagt dann, dass ∂A∩U durch g(x) = 0 implizit beschrieben wird). Sei f : A→ Reine Funktion, die differenzierbar auf eine offene Obermenge von A fortgesetzt werdenkann (so dass ∇f auch auf ∂A definiert ist; praktisch gesehen kummert man sich umdiese Feinheit nicht und rechnet ∇f am Rand einfach mit den ublichen Rechenregelnaus). Dann gilt: Ist ein Randpunkt a ∈ ∂A∩U lokale Minimumstelle von f , dann sind∇f(a) und ∇g(a) positiv linear abhangig. Ist a ∈ ∂A∩U lokale Maximumstelle von f ,dann sind ∇f(a) und ∇g(a) negativ linear abhangig.

Wir werden diesen Satz bald beweisen; er ist ein Spezialfall des nachfolgenden Satzes.Zunachst veruchen wir mal, ihn soweit zu verstehen, dass wir damit rechnen konnen.Als erste einfache Illustration fuhren wir das letzte Beispiel fort:

Beispiel: f : B2 → R mit f(x) = x1. Im Satz konnen wir U = R2 wahlen und habenuns oben schon uberlegt, dass g : R2 → R mit g(x) = 1− |x|2 eine geeignete Wahl ist.Wegen

∇f(x) =

(1

0

), ∇g(x) =

(−2x1

−2x2

)konnen ∇f(x) und ∇g(x) nur in den Randpunkten x linear abhangig sein, fur diex2 = 0 ist, das sind nur (−1, 0) und (1, 0). In (−1, 0) sind

∇f(−1, 0) =

(1

0

), ∇g(−1, 0) =

(2

0

)102

Page 103: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

positiv linear abhangig, dort konnte also eine lokale Minimumstelle vorliegen. In (1, 0)sind

∇f(1, 0) =

(1

0

), ∇g(1, 0) =

(−2

0

)negativ linear abhangig, dort konnte also eine lokale Maximumstelle vorliegen. In bei-den Fallen ist das auch so, was aber aus einer notwendigen Bedingung niemals direktfolgen kann; die Bedingung liefert uns aber geeignete (und oft wenige) Kandidaten furRandextremstellen. Im vorliegenden Fall wissen wir wegen Kompaktheit von B2, dassdas Maximum und das Minimum angenommen wird. Es gibt keine inneren kritischenStellen und genau eine potentielle Minimum- und eine potentielle Maximumstelle amRand. Deshalb folgt: In (−1, 0) nimmt f sein globales Minimum an und in (1, 0) seinglobales Minimum. (Was man in diesem Fall naturlich von Anfang an sehen konnte.)�

Beispiel: (in der Vorlesung mit bunten Bildern!) Wir wollen die (globalen)Minima und Maxima zu

f(x, y) = x3 − y2

auf dem Dreieck

A := {(x, y) ∈ R2 : x ≤ 1, y ≤ 1, x+ y ≥ −1}

bestimmen. Zunachst bestimmen wir die inneren kritischen Punkte. Dazu

∇f(x, y) =

(3x2

−2y

)mit der einzigen Nullstelle (0, 0). Als nachstes suchen wir Kandidaten fur Extremstellenauf dem Rand. Der Rand kann allerdings nicht gut mit einer einzigen Funktion gimplizit beschrieben werden. Zu diesem Zweck erlaubt der Satz die Auswahl eineroffenen Menge U , um einzelne Teile des Randes “auszuschneiden”. Wir zerlegen denRand von A in drei Punkte (die Eckpunkte des Dreiecks) und drei Strecken (die Seiten;ohne ihre Endpunkte).

∂A = {(−2, 1), (1, 1), (1,−2)} ∪M1 ∪M2 ∪M3 mit

M1 := ](1,−2), (1, 1)[ = {(x, y) ∈ R2 : x = 1, y < 1, x+ y > −1},M2 := ](−2, 1), (1, 1)[ = {(x, y) ∈ R2 : x < 1, y = 1, x+ y > −1},M3 := ](1,−2), (−2, 1)[ = {(x, y) ∈ R2 : x < 1, y < 1, x+ y = −1}.

(Rezept: Verwandle fur die Mj jeweils das j-te ≤ oder ≥ aus der Beschreibung vonA in ein =, und alle anderen in < oder >.) M1, M2 und M3 werden dann (auf einergeeigneten Umgebung Ui) implizit beschrieben durch Funktionen, die man leicht ausder jeweiligen “Gleichung” in der Beschreibung von Mj abliest:

Fur M1 verwende g1(x, y) := 1− x,Fur M2 verwende g2(x, y) := 1− y,Fur M3 verwende g3(x, y) := x+ y + 1.

103

Page 104: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Wir berechnen

∇g1(x, y) =

(−1

0

), ∇g2(x, y) =

(0

−1

), ∇g3(x, y) =

(1

1

).

(Zur Probe: ∇g muss immer senkrecht zum Rand sein und ins Innere von A zeigen.)

Kandidaten fur Extremstellen auf M1 erhalten wir als die Punkte von M1, fur die∇f(x, y) =

(3x2

−2y

)und ∇g1(x, y) =

(−10

)linear abhangig sind, also muss schon einmal

y = 0 gelten; und da x = 1 fur alle Punkte aus M1 gilt, ist (1, 0) der einzige Kandidatin M1.

Kandidaten fur Extremstellen auf M2 erhalten wir als die Punkte von M2, fur die∇f(x, y) =

(3x2

−2y

)und ∇g2(x, y) =

(0−1

)linear abhangig sind, also muss schon einmal

x = 0 gelten; und da y = 1 fur alle Punkte aus M2 gilt, ist (0, 1) der einzige Kandidatin M2.

Kandidaten fur Extremstellen auf M3 erhalten wir als die Punkte von M3, fur die∇f(x, y) =

(3x2

−2y

)und ∇g3(x, y) =

(11

)linear abhangig sind, also muss schon einmal

3x2 = −2y gelten; die zweite Bedingung an x und y ist die Gleichung x + y = −1aus der Beschreibung von M3. Einsetzen von y = −1 − x in die erste Gleichung gibt3x2 = 2x+ 2 mit den beiden Losungen x = 1−

√7

3und x = 1+

√7

3. Von diesen beiden ist

nur der erste zwischen −2 und 1, dagegen kommt 1+√

73

> 1 als x-Wert auf M3 nicht

vor. Folglich ist (1−√

73, −4+

√7

3) der einzige Kandidat auf M3.

Da wir fur Eckpunkte keine Kriterien haben, mussen wir sie alle auf die Liste derKandidaten fur Extremstellen nehmen. Wir haben somit folgende vollstandige Kandi-datenliste erarbeitet, zusammen mit den Werten von f an diesen Stellen:

(x, y) f(x, y)(0, 0) 0(1, 0) 1(0, 1) −1

(1−√

73,√

7−43

) 14√

7−4727

≈ −0.36887(−2, 1) −9(1, 1) 0

(1,−2) −3

Daran lesen wir ab: Das Minimum von f uber A ist −9 und wird im Punkt (−2, 1)(einer Ecke von A) angenommen. Das Maximum von f uber A ist 1 und wird im Punkt(1, 0) (auf dem Rand von A) angenommen.

Rechenalternative: Die Kandidaten fur Extrema am Rand kann man auch andersbestimmen, und im Fall eindimensionaler Rander ist diese Alternative sogar oft ein-facher durchzufuhren: Dazu beschreiben wir den Rand (oder Teile davon) durch eineParametrisierung , d.h. eine (am besten differenzierbare) Abbildung eines Intervalls aufden Rand oder eines Teils davon. In unserem Beispiel parametrisieren wir die dreiSeiten des Dreiecks einzeln durch ϕi : ]0, 1[→ R2,

ϕ1(t) := (1, 3t− 2),

104

Page 105: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

ϕ2(t) := (3t− 2, 1),

ϕ3(t) := (1− 3t, 3t− 2),

so dass wir ϕi(]0, 1[) = Mi fur i ∈ {1, 2, 3} haben. Jede Extremstelle auf so einemRandstuck (die nicht gerade auf einer Ecke liegt) ist dann auch eine Extremstelle vonf ◦ ϕi. Wir durfen also damit rechnen, eine brauchbare (d.h. nicht viel großer alsnotwendige) Liste von “Randkandidaten” fur Extremstellen von f zu finden, indemwir die kritischen Stellen von f ◦ ϕi (genauer ihre Bilder unter ϕi) auflisten. Es gilt

f ◦ ϕ1(t) = 1− (3t− 2)2 mit Ableitung

(f ◦ ϕ1)′(t) = −6(3t− 2),

mit Nullstelle t = 23

;

f ◦ ϕ2(t) = (3t− 2)3 − 1 mit Ableitung

(f ◦ ϕ2)′(t) = 9(3t− 3)2,

mit Nullstelle t = 23

;

f ◦ ϕ3(t) = (1− 3t)3 − (3t− 2)2 mit Ableitung

(f ◦ ϕ3)′(t) = −9(1− 3t)2 − 6(3t− 2) = −81t2 + 36t+ 3

mit Nullstellen t = 2±√

79

,

wobei zuletzt die Wurzel mit “−” ignoriert werden kann, da dann t < 0 ware. Damitkommen wir zu den “Randkandidaten”

ϕ1(23) = (1, 0), ϕ2(2

3) = (0, 1), ϕ3(2+

√7

9) = (1−

√7

3, −4+

√7

3),

und das sind erwartungsgemaß dieselben wie in obiger Rechnung. �

Bemerkung: In dem gerade vorgestellten Rechenverfahren hat uns bei der Bestim-mung der Randkandidaten nur interessiert, ob ∇f und ∇g linear abhangig sind (ohne“positiv” und “negativ”). Deshalb braucht man auf das Vorzeichen von g nicht zuachten (anders als bei der Formulierung des Satzes).

Haufige Wahlen von g(x) bzw. gj(x): (1) Ist ein Teil des Randes von A enthalten ineiner Geraden (in R2) oder einer Ebene (in R3) oder einer Hyperebene, beschriebendurch v · x = α (mit v ∈ Rn, α ∈ R), dann setze g(x) := v · x − α (wie im vorigenBeispiel).

(2) Ist ein Teil des Randes von A enthalten in einer Kreislinie (bzw. Sphare im Falln ≥ 3) mit Mittelpunkt p ∈ Rn und Radius r, dann wahle g(x) := r2 − |x − p|2 (wieim vorletzten Beispiel). �

Bemerkung: Die Losung des Gleichungssystems fur Randextremstellen im Beispielwar durch gluckliche Umstande ubersichtlich. Oft muss man

∇f(x, . . . , xn) = λ∇g(x1, . . . xn)

ansetzen. Das gibt n Gleichungen fur n + 1 Unbekannte x1, . . . , xn, λ, zu denen manals (n + 1)-te Gleichung noch g(x1, . . . , xn) = 0 dazunimmt. Dann versucht man, das

105

Page 106: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Gleichungssystem nach den n+1 Unbekannten aufzulosen. Dabei muss man oft auch λausrechnen, obwohl es einen gar nicht interessiert. Das illustriert das nachste Beispielohne Ecken:

Beispiel: f : B3 → R mit f(x, y, z) := x2 − xy − 2z2. Aus der Bemerkung (2) uber-nehmen wir g(x, y, z) := 1 − x2 − y2 − z2 = 0 als implizite Beschreibung des Randesder Kugel. Wir berechnen

∇f(x, y, z) =

2x− y−x−4z

, ∇g(x, y, z) =

−2x−2y−2z

.

Einzige kritische Stelle ist (0, 0, 0) ∈ B3. Zur Bestimmung der Randkandidaten stellenwir das eingangs beschriebene Gleichungssystem aus ∇f(x, y, z) = λ∇g(x, y, z) undg(x, y, z) = 0 auf:

2x− y = −2λx,

−x = −2λy,

−4z = −2λz,

1− x2 − y2 − z2 = 0.

Aus der dritten Gleichung folgern wir z = 0 oder λ = 2.

1. Fall: λ = 2. Dann losen x und y das System aus den ersten beiden Gleichungen

6x− y = 0

−x+ 4y = 0

mit der eindeutigen (trivialen) Losung (x, y) = (0, 0). Daraus berechnen wir mit dervierten Gleichung z2 = 1 − x2 − y2 = 1. Erste Randkandidaten sind also (0, 0, 1) und(0, 0,−1).

2. Fall: z = 0. Dann bleibt das System

2x− y = −2λx,

−x = −2λy,

1− x2 − y2 = 0,

bei dem wir x = 2λy aus der zweiten Gleichung in die erste einsetzen. Wir erhalten(4λ2 + 4λ − 1)y = 0, also entweder y = 0 (und folglich x2 = 1, d.h. (±1, 0, 0) sind

weitere Randkandidaten) oder 4λ2 + 4λ − 1 = 0, d.h. λ = 1±√

22

. Aus x = 2λy folgtandererseits mit der dritten Gleichung (4λ2 + 1)y2 = 1, also y2 = 1/(1 + 4λ2), womitdas System gelost ist. Wir finden damit vier weitere Randkandidaten, namlich (nachetwas Rechnung)

(−√

2+√

2

2,

√2−√

2

2, 0), (

√2+√

2

2,−√

2−√

2

2, 0),

(−√

2−√

2

2,−√

2+√

2

2, 0), (

√2−√

2

2,

√2+√

2

2, 0).

106

Page 107: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Der Rest ist Fleißarbeit:

(x, y, z) f(x, y, z)(0, 0, 0) 0(0, 0, 1) −2

(0, 0,−1) −2(1, 0, 0) 1

(−1, 0, 0) 1

(−√

2+√

2

2,

√2−√

2

2, 0) ≈ 1.2071

(

√2+√

2

2,−√

2−√

2

2, 0) ≈ 1.2071

(−√

2−√

2

2,−√

2+√

2

2, 0) ≈ −0.2071

(

√2−√

2

2,

√2+√

2

2, 0) ≈ −0.2071

woraus wir Maximum und Minimum ablesen. �

Das Suchen von Extremstellen auf dem Rand kann man (wenn der Rand keine “Ecken”hat, und bis auf die einfachen Aussagen uber die Vorzeichen von λ) als Spezialfall desfolgenden Satzes auffassen:

Satz (Extremstellen unter Nebenbedingungen) Es sei auf der offenen MengeU ⊆ Rn eine stetig differenzierbare Funktion f : U → R gegeben. Zusatzlich seien kGleichungen g1(x) = 0, . . . , gk(x) = 0 als Gleichungen zwischen den zulassigen x1, . . . xnvorgegeben mit stetig differenzierbaren Funktionen gj : U → R, j = 1, . . . , k. DieLosungsmenge dieser “Nebenbedingungen” nennen wir

S := {x ∈ U : gj(x) = 0 fur j = 1, . . . , k}.

Dann sind in jeder lokalen Extremstelle a von f (gemeint ist strenggenommen f|S) aufS die Vektoren

∇f(a), ∇g1(a), . . . , ∇gk(a)

linear abhangig.

Bemerkung: Die Bestimmung der Kandidaten fur Extremstellen lauft damit auf dieLosung von n+ k Gleichungen

∂1f(x) = λ1∂1g1(x) + . . .+ λk∂1gk(x),...

∂nf(x) = λ1∂ng1(x) + . . .+ λk∂ngk(x),

g1(x) = 0,...

gk(x) = 0

107

Page 108: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

fur n+k Unbekannte x1, . . . xn, λ1, . . . , λk hinaus, wenn ∇g1, . . .∇gk fast uberall linearunabhangig sind. Die Stellen, wo letzteres nicht der Fall ist, muss man zur Kandida-tenliste hinzunehmen.

Die λj heißen ubrigens Lagrange-Multiplikatoren. �

Beweis des Satzes: Sei z.B. a ∈ S lokale Minimumstelle. O.B.d.A. ist f(a) = 0.Zunachst nehmen wir f(x) > f(a) = 0 fur alle x ∈ Uδ(a) ∩ S \ {a} an, fur einhinreichend kleines δ > 0. Fur 0 < ρ < δ folgt dann, dass f > 0 auf einer Umgebung Vvon ∂Bρ(a)∩S (wo ja f > 0 ist, und f ist stetig). Auf der kompakten Menge ∂Bρ(a)\Vist∑k

j=1 g2j > 0, hat also ein positives Minimum µ > 0. Außerdem ist f auf Bρ(a) von

unten beschrankt f > −C dort mit einem C ∈ R>0.

Fur die Funktion h(x) := f(x) + Cµ

∑kj=1 gj(x)2 gilt deshalb h > 0 auf ∂Bρ(a), h(a) =

f(a) = 0, und h ist stetig (sogar differenzierbar) auf Bρ(a). Folglich muss h eine innereMinimumstelle x∗ in Uρ(a) haben; dort gilt

0 = ∇h(x∗) = ∇f(x∗) +2C

µ

k∑j=1

gj(x∗)∇gj(x∗).

Nun war aber ρ ∈ ]0, δ[ beliebig, also finden wir sogar in jeder Umgebung Uρ(a) ein xρ∗und einen Einheitsvektor λρ = (λρ0, . . . , λ

ρn) in Sk ⊂ Rk+1 (wo ρ kein Exponent ist) mit

λρ0∇f(xρ∗) + λρ1∇g1(xρ∗) + . . .+ λρk∇gk(xρ∗) = 0.

Wegen Kompaktheit von Sk kann man konvergente “Teilfolgen” λ(i) → λ in Sk undx

(i)∗ → a in Rn finden, und die Stetigkeit von ∇f und ∇gj impliziert auch

λ0∇f(a) + λ1∇g1(a) + . . .+ λk∇gk(a) = 0.

Ist nur f(x) ≥ f(a) = 0 fur x ∈ S nahe a, dann ersetze f durch f(x) := f(x)−|x−a|2,dann ist f(x) > f(a) = 0 fur x 6= a nahe a in S, und man kann wie oben mitf statt f argumentieren. Das stort die Aussage des Satzes nicht, denn ∇f(a) =[∇f(x) + 2(x− a)]x=a = ∇f(a). �

Beispiel: nach dem nachsten Satz. �

Im vorigen Beispiel haben wir die Parametrisierungsmethode als Alternative kennen-gelernt. Auch hierzu gibt es einen allgemeinen Satz:

Satz (Extremstellen bei parametrischer Darstellung) In diesem Satz nehmenwir an, dass die durch die “Nebenbedingungen” gegebene Menge S (mindestens lokal)durch eine Parametrisierung gegeben ist, d.h. S (oder ein Teil von S) ist das Bild eineroffenen Menge D ⊆ Rn−k unter einer differenzierbaren Abbildung ϕ : D → Rn.

Fur jede in ϕ(D) gelegene lokale Extremstelle a von f auf S, in der Df(a) existiert,gilt: a = ϕ(b) mit einer kritischen Stelle b von f ◦ ϕ (d.h. ∇(f ◦ ϕ)(b) = 0).

108

Page 109: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Beweis: Da h stetig ist, ist b lokale Extremstelle von f ◦ ϕ. Da außerdem D offenist, ist b innere lokale Extremstelle, also gilt ∇(f ◦ ϕ)(b) = 0 nach der notwendigenBedingung. �

Beispiel: Wir betrachten die Funktion f(x, y, z) := 4x+ z2 auf der Menge

S1 × R := {(x, y, z) ∈ R3 : x2 + y2 = 1}

(ein unendlicher Zylinder um die z-Achse mit Radius 1). Wir bestimmen die Kandida-ten fur Extremstellen auf beide uns bekannte Arten:

(1) Methode der Lagrange-Multiplikatoren: S1×R wird implizit beschrieben alsNullstellenmenge von

g(x, y, z) := x2 + y2 − 1.

Die Kandidaten fur Extremstellen sind die Punkte in S1×R, wo die beiden Gradienten

∇f(x, y, z) =

402z

, ∇g(x, y, z) =

2x2y0

linear abhangig sind. Weil x und y auf S1 × R nie gleichzeitig 0 sind, kann das nichtauf triviale Weise geschehen, sondern nur dann, wenn y = z = 0. Dann ist aberx2 = 1 − y2 = 1, also x = ±1, und folglich sind (−1, 0, 0) und (1, 0, 0) die einzigenkandidaten fur Extremstellen von f auf S1 × R.

(2) Parametrisierungsmethode: Wir parametrisieren S1 × R durch ϕ : R2 → R3,

ϕ(t, z) := (cos t, sin t, z),

dann ist offensichtlich das Bild von ϕ die ganze Menge S1 × R. Extremstellen von fauf S1 × R entsprechen also unter ϕ denen von f ◦ ϕ auf R2. Wir bestimmen also diekritischen Stellen von f ◦ ϕ, indem die Nullstellen des Gradienten von

(f ◦ ϕ)(t, z) = f(cos t, sin t, z) = 4 cos t+ z2

suchen. Der Gradient

∇(f ◦ ϕ)(t, z) =

(−4 sin t

2z

)hat als Nullstellen (kπ, 0) mit beliebigem k ∈ Z. Die Kandidaten fur Extremstellen vonf auf S1 × R sind die Bilder unter ϕ von diesen kritischen Stellen, also

ϕ(kπ, 0) = ((−1)k, 0, 0)

fur k ∈ Z. Das gibt nur noch zwei Kandidaten, namlich (−1, 0, 0) und (1, 0, 0), undwie es sein muss, sind das dieselben, die wir mit der anderen Methode auch gefundenhaben.

(3) Diskussion der Kandidaten: Haben wir an diesen beiden Stellen das Maximumund Minimum von f auf S1 × R gefunden? Mal sehen:

f(−1, 0, 0) = −4, f(1, 0, 0) = 4.

109

Page 110: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Das Minimum konnte also bei (−1, 0, 0) angenommen werden, das Maximum bei (1, 0, 0)???Aber Letzteres kann nicht sein, denn z.B. ist

f(1, 0, 10) = 104.

Wie kann das sein? Nun, S1×R ist nicht beschrankt (die z-Komponente kann ja beliebiggro werden) und deshalb nicht kompakt. Es ist also nicht gesagt, dass Maximum undMinimum von f auf S1 × R tatsachlich angenommen werden. Tatsachlich gibt es keinMaximum, weil ja zum Beispiel

f(1, 0, z) = 4 + z4

mit z → ±∞ beliebig groß wird. Allerdings wird das Minimum tatsachlich angenom-men (siehe nachste Bemerkung), und nach den Satzen muss es bei dem Kandidatenmit dem niedrigsten Funktionswert liegen, also f(−1, 0, 0) = −4. �

Bemerkung: Bisher haben wir ausgenutzt, dass f sein globales Minimum und Ma-ximum auf A annimmt, wenn A kompakt ist. Es gibt aber noch mehr Situationen,in denen solche Existenzaussagen moglich sind. Beispielsweise reicht (wie schon fruhererwahnt) offensichtlich bei unbeschrankten (aber abgeschlossenem)A aus, dass lim|x|→∞ =−∞, um zu folgern, dass das Maximum angenommen wird. Ebenso wird bei lim|x|→∞ =∞ das Minimum angenommen. (Hatten wir uns schon mal uberlegt.) Und es genugt,sich bei den Limites auf die Werte von f auf A zu beschranken, was wir mit lim|x|→∞, x∈Anotieren konnen.

Im Beispiel ist lim|(x,y,z)|→∞, (x,y,z)∈S1×R f(x, y, z) = ∞ erfullt, weil mit |(x, y, z)| → ∞in S1 × R auch |z| → ∞ gelten muss, und es gilt lim|z|→∞ f(x, y, z) =∞ (unabhangigvon der Wahl von x und y, die beschrankt sind), wie man sofort sieht. Also existiertdie Minimumstelle im Beispiel. �

2.6 Erganzungen: Lineare Regression

Hier geht es um eine Anwendung der bereits gemachten Beobachtung, dass eine Funk-tion f : Rn → R mit f(x) → ∞ bei |x| → ∞ ihr Minimum an einer Stelle in Rn

annehmen muss.

Wir nehmen an, dass wir k Messungen durchgefuhrt haben, wobei wir den Parameterxj einstellen (oder exakt messen) konnen und der jeweils dazugehorige Messwert yj mitMessfehlern behaftet ist. Etwa

j 1 2 3 4 5 6 7 8

xj 0 1 2 4 5 6 8 9yj 0.5 1 1 2.5 3 3 3.5 5

Wir vermuten einen affin linearen Zusammenhang zwischen den Großen, d.h. sie solltenidealerweise auf einer Geraden y(x) = ax + b liegen. Uns interessieren die “bestange-passten” Werte fur a und b. Als Maß fur die Anpassung wahlt man die Summe der

110

Page 111: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Fehlerquadrate

Q(a, b) :=1

k

k∑j=1

(yj − (axj + b))2.

(Dass man hier die Quadrate statt der Betrage summiert, ist Konventionssache. Mankonnte aus die Idee kommen, die Summe der Betrage fur naturlicher zu halten. Dasmacht Schwierigkeiten, weil man keine differenzierbare Funktion erhalt, und vielleichtist deshalb die Quadratsumme doch die bessere Wahl. Naturlich erhalt man ein etwasanderes Ergebnis, in der Praxis ist der Unterschied allerdings uberraschend gering.)Man uberlegt sich leicht, dass Q(a, b) bei |a| → ∞ und auch bei |b| → ∞ gegen∞ strebt. Folglich nimmt Q sein Minimum auf R2 an. Dieses Minimum wollen wirbestimmen.

Generell setzen wir voraus, dass k ≥ 2 (denn durch einen Punkt kann man keine Geradedefinieren) und dass die xj paarweise verschieden sind (aus naheliegenden Grnden).

Zunachst fuhren wir noch eine praktische Notation ein: Fur h = x, y, x2, xy oder y2

schreiben wir

〈h〉 :=1

k

k∑j=1

hj.

Als erstes beobachten wir (m ≥ 2 vorausgesetzt)

〈x2〉 − 〈x〉2 = 〈(x− 〈x〉(1, . . . , 1))2〉 > 0.

Durch Ausmultiplizieren erhalten wir

Q(a, b) = 〈y2〉+ a2〈x2〉+ b2 − 2a〈xy〉 − 2b〈y〉+ 2ab〈x〉.Der Gradient ist (beachte, dass die xj keine Variablen, sondern Konstanten sind! DieVariablen heißen a und b)

∇Q(a, b) =

(∂aQ(a, b)

∂bQ(a, b)

)=

(2a〈x2〉 − 2〈xy〉+ 2b〈x〉

2b− 2〈y〉+ 2a〈x〉

).

Bei der absoluten Minimumstelle (von der wir wissen, dass sie existiert), ist ∇Q(a, b) =0, also

〈x2〉a+ 〈x〉b = 〈xy〉〈x〉a+ b = 〈y〉.

Dieses lineare Gleichungssystem hat die eindeutige Losung

a =〈xy〉 − 〈x〉〈y〉〈x2〉 − 〈x〉2

, b =〈x2〉〈y〉 − 〈x〉〈xy〉〈x2〉 − 〈x〉2

.

Damit haben wir die optimale Ausgleichsgerade bestimmt. In unserem Beispiel ist

〈x〉 = 18(0 + 1 + 2 + 4 + 5 + 6 + 8 + 9) = 4.375

〈x2〉 = 18(02 + 12 + 22 + 42 + 52 + 62 + 82 + 92) = 28.375

〈y〉 = 18(0.5 + 1 + 1 + 2.5 + 3 + 3 + 3.5 + 5) = 2.4375

〈xy〉 = 18(0 · 0.5 + 1 · 1 + 2 · 1 + 4 · 2.5 + 5 · 3 + 6 · 3 + 8 · 3.5 + 9 · 5) = 14.875

〈x2〉 − 〈x〉2 = 9.234375.

111

Page 112: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Also

a =14.875− 4.375 · 2.4375

9.234375≈ 0.456,

b =28.375 · 2.4375− 4.375 · 14.875

9.234375≈ 0.442,

d.h. die Regressionsgerade ist durch (etwa)

y(x) = 0.456x+ 0.442

gegeben.

Es stellt sich naturlich immer die Frage, wie gut die vorhandenen Messwerte uberhauptauf einer Geraden liegen, und diese Frage lasst sich sogar ohne Kenntnis der Regressi-onsgerade beantworten. Es gibt namlich den sogenannten Korrelationskoeffizienten

Kor(x, y) :=〈(x− 〈x〉)(y − 〈y〉)〉√〈(x− 〈x〉)2〉〈(y − 〈y〉)2〉

=

∑kj=1(xj − 〈x〉)(yj − 〈y〉)√∑k

j=1(xJ − 〈x〉)2

√∑kj=1(yj − 〈y〉)2

.

Dessen Werte liegen immer in [−1, 1], was man wie folgt sieht: Wir definieren Vektoren

X :=

x1 − 〈x〉...

xk − 〈x〉

, Y :=

y1 − 〈y〉...

yk − 〈y〉

und beobachten

Kor(x, y) =〈X, Y 〉|X| |Y |

,

das ist in [−1, 1] wegen der Cauchy-Schwarz-Ungleichung.

Liegen nun die (xi, yi) exakt auf einer Geraden (die nicht gerade Steigung 0 hat), dannist der Kor(x, y) = ±1. Denn angenommen yj = axj + b gilt fur alle j ∈ {1, . . . , k},dann ist 〈y〉 = a〈x〉+ b, und wir berechnen

Kor(x, y) =

∑kj=1(xj − 〈x〉)(axj + b− a〈x〉 − b)√∑k

j=1(xj − 〈x〉)2

√∑kj=1(axj + b− a〈x〉 − b)2

=a∑k

j=1(xj − 〈x〉)2

√a2∑k

j=1(xj − 〈x〉)2

=a

|a|= ±1.

Andererseits kann man zeigen, dass Kor(x, y) = 0 ist in vielen Situationen, wo mangar keinen linearen Zusammenhang erwartet, z.B. wenn die (xj, yj) die Ecken eines

112

Page 113: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

regelmaßigen k-Ecks sind. Also halten wir fest: Je naher Kor(x, y) an ±1 ist, um sowahrscheinlicher gibt es einen affin-linearen Zusammenhang zwischen den xj und denyj, den wir mit unserer Messung naherungsweise beobachten. Ist |Kor(x, y)| klein, sodurfen wir nicht von einer affin-linearen Abhangigkeit ausgehen.

In unserem Beispiel berechnet man Kor(x, y) ≈ 0.6658, was durchaus eine affin-lineareInterpretation ofenn lasst. (Entspricht auch dem optischen Eindruck, Bild in der Vor-lesung!)

3 Gewohnliche Differentialgleichungen

3.1 Einfuhrung

Die meisten Naturgesetze (in Natur-, Wirtschafts- und manchmal sogar Gesellschafts-wissenschaften) werden durch Differentialgleichungen formuliert; das sind Gleichungen,in denen eine unbekannte Funktion (oft mit physikalischer o.a. Interpretation) undAbleitungen derselben Funktion vorkommen. Man steht dann vor dem Problem, dieseDifferentialgleichung zu losen, d.h. besagte unbekannte Funktion zu bestimmen.

Im Folgenden meinen wir mit G immer ein Gebiet, d.h. eine offene zusammenhangendeTeilmenge von Rn (o.a.), d.h. eine offene Menge, in der jeder Punkt mit jedem ande-ren durch einen Streckenzug verbunden werden kann. Intervalle mussen im Folgendenimmer Lange > 0 haben.

Definition (gewohnliche Differentialgleichung erster Ordnung) Sei G ⊆ R×R ein Gebiet und f : G→ R eine stetige Funktion. Dann nennt man

y′ = f(x, y)

eine (explizite gewohnliche) Differentialgleichung erster Ordnung. Eine Losung dieserDifferentialgleichung ist eine Funktion u : I → R auf einem Intervall I ⊆ R, fur diegilt:

(i) Der Graph von u ist eine Teilmenge von G, d.h.

Graphu := {(x, u(x)) : x ∈ I} ⊆ G,

und

(ii) es giltu′(x) = f(x, u(x))

fur alle x ∈ I.

Man beachte, dass von I nicht verlangt wird, dass es G besonders gut ausfullt. EineLosung einer Differentialgleichung darf auf einem beliebig kleinen Intervall definiertsein. Damit (ii) uberhaupt einen Sinn macht, muss (i) erfullt sein.

113

Page 114: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Ein einfaches Beispiel kennen wir schon. Die Differentialgleichung

y′ = y

hat die Losungen u(x) = cex mit beliebig wahlbarem c ∈ R. Hier ist

f(x, y) = y, G = R2, I = R oder irgendein Teilintervall von R.

Ein weiterer interessanter Fall ist f(x, y) = ϕ(x), wo f also von y nicht abhangt. JedeLosung von y′ = ϕ(x) ist naturlich eine Stammfunktion zu ϕ. Also ist die Bestimmungvon Stammfunktionen ein (recht spezieller) Spezialfall des Losens von Differentialglei-chungen. Wir sollten also nicht erwarten, dass es zu einfach wird.

Geometrische Interpretation: Bestimmen wir die Stammfunktion einer Funktionϕ, dann suchen wir eine Funktion, die in jedem x die Steigung ϕ(x) hat. Fur Diffe-rentialgleichungen erster Ordnung ist es etwas allgemeiner: Auf der Teilmenge G derx-y-Ebene ist in jedem Punkt (x, y) die Steigung f(x, y) vorgegeben (BILD!); andersals vorher darf diese jetzt auch von y abhangen. Eine Losung der Differentialgleichungist eine Funktion, deren Graph uberall die vorgeschriebene Steigung hat. �

Oft sind mehrere unbekannte Funktionen in mehreren Differentialgleichungen gekop-pelt:

Definition (System gewohnlicher Differentialgleichung erster Ordnung) SeiG ⊆ R× Rn ein Gebiet und f : G→ Rn eine stetige Abbildung. Dann nennt man

y′ = f(x, y)

eine (explizites) System von (gewohnlichen) Differentialgleichungen erster Ordnung.Eine Losung dieses Systems ist eine vektorwertige Funktion u : I → Rn (d.h. n Funk-tionen ui : I → R) auf einem Intervall I ⊆ R, fur die gilt:

(i) Der Graph von u ist eine Teilmenge von G, d.h.

Graphu := {(x, u(x)) : x ∈ I} ⊆ G,

und

(ii) es giltu′(x) = f(x, u(x))

fur alle x ∈ I; und darunter verstehen wir

u′i(x) = fi(x, u(x)) fur i = 1, . . . , n.

Ein Beispiel fur solch ein System ist

y′1 = y2,

y′2 = −y1.

114

Page 115: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Hier ist G = R× Rn und f(x, y1, y2) =(y2−y1

). Wir konnen die Losung

u(x) =

(sinx

cosx

)raten (aber es gibt mehr Losungen).

Manchmal (tatsachlich in der Physik fast immer) stehen auch hohere Ableitungen derunbekannten Funktion(en) in den Gleichungen:

Definition (gewohnliche Differentialgleichung n-ter Ordnung) Sei G ⊆ R ×Rn ein Gebiet und f : G→ R eine stetige Abbildung. Dann nennt man

y(n) = f(x, y, y′, . . . , y(n−1))

eine (explizite gewohnliche) Differentialgleichung n-ter Ordnung. Eine Losung diesesSystems ist eine Funktion u : I → R auf einem Intervall I ⊆ R, fur die gilt:

(i){(x, u(x), u′(x), . . . , u(n−1)(x)) : x ∈ I} ⊆ G

und

(ii) es giltu(n)(x) = f(x, u(x), u′(x), . . . , u(n−1)(x))

fur alle x ∈ I.

Ein Beispiel isty′′ = −y

mit f(x, y, y′) = −y, G = R×R2; es handelt sich um eine Differentialgleichung zweiterOrdnung. Zwei Losungen, die wir raten konnen, sind u(x) = sinx und u(x) = cos x.

Bemerkung: Durch die hohere Ordnung haben wir gegenuber dem Vorigen keineneue Schwierigkeit eingefuhrt. Denn jede (explizite gewohnliche) Differentialgleichungn-ter Ordnung lasst sich in ein System von n Differentialgleichungen erster Ordnungumformen. Das geht wie folgt: Sei eine Differentialgleichung

y(n) = f(x, y, y′, . . . , y(n−1))

gegeben. Wir fuhren fur i := 0, . . . , n− 1 die neuen unbekannten Funktionen yi := y(i)

ein (mit y(0) = y). Dann ist jedes der yi die Ableitung seines Vorgangers, und wir habendas System

y′0 = y1,

y′1 = y2,...

y′n−2 = yn−1,

y′n−1 = f(x, y0, y1, . . . , yn−1).

115

Page 116: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Das ist ein System von n Differentialgleichungen erster Ordnung

y′ = g(x, y)

mit

g(x, y0, . . . , yn−1) =

y1

y2...

yn−1

f(x, y0, y1, . . . , yn−1)

.

In unserem Beispiel y′′ = −y setzen wir y0 := y, y1 := y′ und erhalten das System

y′0 = y1,

y′1 = −y0,

das wir (modulo Umnummerierung) auch schon als Beispiel hatten.

Ganz analog fuhrt man Systeme von Differentialgleichungen hoherer Ordnung auf Sy-steme von Differentialgleichungen erster Ordnung zuruck. Strenggenommen kann mansich also allgemein darauf beschranken, nur Systeme erster Ordnung losen zu wollen.(Allerdings gibt es auch das eine oder andere brauchbare Verfahren fur Gleichungenzweiter Ordnung.) �

3.2 Besondere Methoden fur spezielle Differentialgleichungen

Um mit den Fragestellungen vertraut zu werden, beschaftigen wir uns zunachst mit Dif-ferentialgleichungen, die so einfach sind, dass wir die Losung oder ein Losungsverfahrenangeben konnen. (Ein allgemeines Losungsverfahren fur Differentialgleichungen kannes nicht geben — es gibt ja nicht einmal ein allgemeines Verfahren zur Bestimmungvon Stammfunktionen!)

Die Fragen, die uns beim Losen von Differentialgleichungen hauptsachlich interessieren,sind

Existenz: Wie verschafft man sich einen Uberblick uber die Gesamtheit der Losungen?Wie groß sind die Intervalle, auf denen diese Losungen (maximal) existieren (konnen)?

Eindeutigkeit: Im Allgemeinen hat eine Differentialgleichung viele Losungen, so wieeine Funktion unendlich viele Stammfunktionen hat. Kann man Eindeutigkeit durchFestlegen von Funktionswerten an bestimmten Punkten erzwingen? Kann es sein, dasszwei Losungen auf einem Intervall ubereinstimmen und in einem Punkt außerhalbverschieden sind?

Qualitatives Verhalten: Was kann man aus der Differentialgleichung uber die Ge-stalt der Losungen schließen? (Oft nicht viel.) Kann man wenigstens etwas uber ihreRegularitat sagen, z.B. wie oft mindestens differenzierbar?

116

Page 117: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

3.2.1 Trennung der Variablen

Wir betrachten Differentialgleichungen erster Ordnung der speziellen Form

y′ = f(x)g(y)

fur (x, y) ∈ G = I × J ⊆ R2. Diese wollen wir “nach y auflosen”. Dazu nehmen wirzunachst an, dass g keine Nullstellen hat. Wir dividieren dann durch g(y) und erhalten

y′

g(y)= f(x).

Jede Losung u erfullt alsou′(x)

g(u(x))= f(x).

Ist jetzt H eine Stammfunktion von 1g

auf J und F eine Stammfunktion von f auf I,

dann ist H ◦ u eine Stammfunktion zu u′

g◦u wegen der Kettenregel. Also konnen wir inder letzten Gleichung auf beiden Seiten von x0 ∈ I bis x integrieren und erhalten

H(u(x)) = F (x) + c

fur alle x ∈ I, mit einer frei wahlbaren (?) Konstante c ∈ R, denn Stammfunktionensind nur bis auf additive Konstanten eindeutig bestimmt. Da g ohne Nullstelle ist, istH streng monoton und deshalb existiert H−1 global. Wir wenden also H−1 auf beideSeiten der Gleichung an und finden

u(x) = H−1(F (x) + c)

Damit haben wir nicht nur die Differentialgleichung gelost, sondern sogar gezeigt, dassjede Losung von dieser Form ist. Bis auf das (?) oben bzgl. der Frage, welche c manwahlen darf, haben wir also bewiesen:

Satz (Trennung der Variablen) Die Differentialgleichung

y′ = f(x)g(y)

mit stetigen f : R ⊇ I → R, g : R ⊇ J → R \ {0} hat als Losungen u : I ⊇ I → Rgenau die Funktionen der Form

u(x) = H−1(F (x) + c),

wobei H Stammfunktion zu 1g

auf J ist, F eine Stammfunktion zu f auf I und c eine

Integrationskonstante mit g(I) + c ⊆ H(J).

Hat g eine Nullstelle y0 ∈ J , dann ist auch u(x) ≡ y0 eine Losung. Obige Losungsformelgilt auf evtl. kleineren Intervallen. (Und es kann dann mehr Losungen geben, s.u.)

117

Page 118: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

(ALLE BEISPIELE IN DER VORLESUNG MIT BILDERN:)

Beispiele: (1) y′ = 1 + y2. Hier haben wir den (durchaus nicht unsinnigen) Fall, dassdie rechte Seite von x gar nicht abhangt. Wir wahlen deshalb einfach f ≡ 1, undnaturlich g(y) = 1 + y2. Eine Stammfunktion zu f ≡ 1 ist naturlich F (x) := x, undeine zu 1

g(y)= 1

1+y2ist H(y) = arctan y mit der Umkehrfunktion H−1(z) = tan z. Der

Satz liefert uns alsou(x) = tan(x+ c)

als Losungen, fur jedes c ∈ R (wie man durch Probe leichter feststellt als mit demSatz). Man beachte, dass die Losungen alle nur einen Definitionsbereich der Lange < πhaben konnen (Definitionslucken im Tangens!), obwohl man der Differentialgleichungnichts derartiges ansieht.

(2) y′ = 2x(1 + y2). Hier sind g und H wie oben, aber f(x) = 2x, und wir wahlenF (x) = x2. Damit finden wir

u(x) = tan(x2 + c),

wieder mit c ∈ R. Die maximalen Existenzintervalle der Losungen konnen, abhangigvon c, beliebig kurz werden. �

Definition (Anfangswertproblem) Ein Anfangswertproblem fur eine Differenti-algleichung erster Ordnung besteht aus einer solchen Differentialgleichung zusammenmit der Vorschrift y(x0) = y0, wobei (x0, y0) ∈ G. Eine Losung des Anfangswertpro-blems lost beides, mit x0 ∈ I (aber nicht notwendigerweise am “Anfang”, d.h. am linkenRand von I). Das Anfangwertproblem heißt eindeutig losbar, wenn je zwei Losungen desAnfangswertproblems auf der Schnittmenge ihrer Definitionsbereiche ubereinstimmen.

In beiden vorherigen Beispielen sind Anfangswertprobleme eindeutig losbar.

Beispiel: y′ = 2√|y|. Hier ist f(x) = 1 und g(y) = 2

√|y|. Damit F (x) = x und

H(y) = (sign y)√|y|. Wir finden H−1(z) = sign(z)z2. Der Satz liefert die Losung

u(x) = (sign(x+ c))(x+ c)2 =

{−(x+ c)2 fur x ≤ −c,(x+ c)2 fur x ≥ −c,

oder genauer nur jeweils einen dieser Zweige, von denen man aber sieht, dass sie diffe-renzierbar zusammenpassen, also Losungen auf ganz R ergeben. Zusatzlich hat aber gauch die Nullstelle 0; damit ist auch u ≡ 0 eine Losung. Und man kann noch weitereLosungen mit dieser zusammensetzen: Auch

u(x) =

−(x+ c)2 fur x ≤ −c,0 fur x ∈ [−c,−d],(x+ d)2 fur x ≥ −d

ist fur d ≤ c Losung. Damit sind auch Losungen dieser Differentialgleichung nichteindeutig fortsetzbar; insbesondere ist kein Anfangswertproblem eindeutig losbar.

118

Page 119: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

3.2.2 Lineare Differentialgleichungen erster Ordnung

Lineare Differentialgleichungen erster Ordnung sind von der Form

y′ = a(x)y + b(x)

mit stetigen Funktionen a, b : J → R fur ein Intervall J (mit G := J × R). DasAdjektiv “linear” bezieht sich also auf die Rolle von y, wahrend die Abhangigkeit vonx nichtlinear sein kann.

Zunachst betrachten wir den “homogenen” Fall b(x) ≡ 0. Losen wir also

y′ = a(x)y,

was naturlich mit Trennung der Variablen erledigen kann; man sieht sofort, dass dieLosungen von der folgenden Form sind:

Satz (Homogene lineare Differentialgleichungen erster Ordnung) Sei J ⊆ Roffenes Intervall, a : J → R stetige Funktion, x0 ∈ J . Dann gibt es zu jedem y0 ∈ Rgenau eine Losung u : J → R des Anfangswertproblems{

y′ = a(x)y,y(x0) = y0,

namlich

u(x) = y0 exp(∫ x

x0

a(t) dt).

Beweis: Zunachst nehmen wir u 6= 0 an.Die Losung u muss

u′(x)

u(x)= a(x)

losen, also nach Integration

log(±u(x)) =

∫ x

x0

a(t) dt+ c

Anwendung der Exponentialfunktion auf beiden Seiten gibt

±u(x) = ec exp(∫ x

x0

a(t) dt).

Einsetzen von u(x0) = y0 gibt ec = ±y0. Der Beweis zeigt, dass jede Losung, dieirgendwo 6= 0 ist, uberall 6= 0 ist. Naturlich ist u ≡ 0 eine weitere Losung der Differen-tialgleichung, namlich die zum Anfangswert y(x0) = 0. �

Bemerkung: Anders als bisher wird hier sogar ausgesagt, dass die Losung auf demganzen Intervall J definiert ist, nicht auf irgendeinem kleinen Intervall. Lineare Diffe-rentialgleichungen sind in dieser Hinsicht “besser” als andere. �

119

Page 120: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Beispiel: y′ = ky mit k ∈ R hat also die allgemeine Losung u(x) = y0ek(x−x0). �

Jetzt kommen wir zum inhomogenen Fall.

Satz (Variation der Konstanten) Sei J ⊆ R offenes Intervall, a, b : J → R stetigeFunktionen, x0 ∈ J . Dann gibt es zu jedem y0 ∈ R genau eine Losung u : J → R desAnfangswertproblems {

y′ = a(x)y + b(x),y(x0) = y0,

namlich

u(x) = eA(x)(y0 +

∫ x

x0

e−A(t)b(t) dt),

wobei

A(x) :=

∫ x

x0

a(t) dt.

1. Beweis: Fur zwei Losungen u und v des Anfangswertproblems gilt

(u− v)′ = a(x)(u− v), (u− v)(x0) = 0,

woraus mit dem vorigen Satz u− v ≡ 0, also u = v folgt. Das Anfangswertproblem istalso auf J eindeutig losbar. Durch Einsetzten des obigen u(x) in die Differentialglei-chung verifiziert man, dass dies die gesuchte Losung ist. �

2. Beweis (weggelassen): Es gibt in der Mathematik durchaus “bessere” und “schlech-tere” Beweise. Gegen den vorigen Beweis ist vom logischen Standpunkt kaum etwaseinzuwenden, aber er hat den Nachteil, dass man ihn erst fuhren kann, wenn man dieLosung schon kennt. “Fairer” ware ein Beweis, der zeigt wie man zu dieser Losungkommt. Naturlich kann man auch von einem solchen nicht erwarten, dass er ganz ohneein gewisses Maß an Intuition auskommt.

Die Idee ist hier, die Losung der homogenen Gleichung als Naherung zu nehmen, dieKonstante y0 darin aber durch eine Funktion zu ersetzen. (Daher “Variation der Kon-stanten”.) Also setzen wir

w(x) := eA(x),

beachte w(x) 6= 0 fur alle x ∈ J . Wir verlieren daher nichts an Allgemeinheit, wennwir die gesuchte Losung als

u(x) = c(x)w(x)

schreiben, mit der noch unbekannten Funktion c : J → R. Wir setzen dieses u und(mit w′ = aw)

u′(x) = c′(x)w(x) + c(x)w′(x) = c′(x)w(x) + c(x)a(x)w(x)

120

Page 121: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

in die Differentialgleichung ein. Das gibt

c′(x)w(x) + c(x)a(x)w(x) = a(x)c(x)w(x) + b(x),

alsoc′(x)w(x) = b(x)

fur x ∈ J . Das gibt

c(x) =

∫ x

x0

b(t)

w(t)dt+ C =

∫ x

x0

e−A(t)b(t) dt+ C,

woraus die behauptete Form von u(x) folgt. u(x0) = y0 gibt C = y0. �

Beispiele: (1) Als einfachstes Beispiel losen wir y′ = ay + b mit Konstanten a, b ∈ Rauf R. Die Losung zu den Anfangswerten u(x0) = y0 ist

u(x) = ea(x−x0)(y0 +

∫ x

x0

e−a(t−x0)b dt)

= ea(x−x0)y0 + beax∫ x

x0

e−at dt

= ea(x−x0)y0 +b

aeax(e−ax0 − e−ax)

=(y0 +

b

a

)ea(x−x0) − b

a.

(2) y′ = 2xy + x3. Wir wollen das Anfangswertproblem y(0) = 4 losen. Wir habena(x) = 2x und b(x) = x3. Mit

A(x) =

∫ x

0

2t dt = x2

und der Losungsformel erhalten wir die Losung

u(x) = ex2(

4 +

∫ x

0

e−t2

t3 dt)

= ex2(

4 +1

2

∫ x2

0

e−ss ds)

= ex2(

4 +1

2[−e−ss]x20 +

1

2

∫ x2

0

e−s ds)

= ex2(

4 +1

2(−x2e−x

2

+ 1− e−x2))

=9

2ex

2 − 1

2(x2 + 1).

121

Page 122: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

3.2.3 Losen von Differentialgleichungen durch Substitution

Ahnlich wie beim Integrieren hilft oft eine Substitution, um Differentialgleichungen zuvereinfachen. Wir demonstrieren das anhand von sog. homogenen Differentialgleichun-gen (nicht zu verwechseln mit homogenen linearen, s.o.) der Form

y′ = f( yx)

auf G ⊆ R6=0×R. Hier empfiehlt es sich, statt der unbekannten Funktion y die Funktion

z mit z(x) := y(x)x

als zu suchende Funktion zu betrachten. Leitet man z nach x ab, soerhalt man

z′ =y′

x− y

x2,

alsoy′ = xz′ +

y

x= xz′ + z.

Damit wird die zu losende Differentialgleichung zu

xz′ + z = f(z),

nach z′ aufgelost:

z′ =1

x(f(z)− z).

Dies ist eine Differentialgleichung mit getrennten Variablen, die wir bereits losen konnen.Wir fassen also zusammen:

Satz (Losung homogener Differentialgleichungen durch Substitution)Die Differentialgleichung

y′ = f( yx)

auf G ⊆ R6=0 × R kann durch Substitution z := yx

zuruckgefuhrt werden auf die Diffe-rentialgleichung

z′ =1

x(f(z)− z)

mit getrennten Variablen.

Beispiel: y′ = 1 + yx

+ y2

x2fur x > 0. Hier ist also z = y

xund f(z) = 1 + z+ z2, der Satz

liefert die Differentialgleichung

z′ =1

x(1 + z2),

die wir mit dem Satz uber “getrennte Variablen” losen durch

z(x) = tan(log x+ c).

Da y = xz, folgty(x) = x tan(log x+ c)

fur die Losung der ursprunglichen Differentialgleichung, mit c ∈ R. (Spatestens hier istes unpraktisch geworden, zwischen y und u zu unterscheiden.) �

Hier eine weitere Klasse von Beispielen zur Substitution:

122

Page 123: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Satz (Bernoulli-Differentialgleichung) Die Bernoulli-Differentialgleichung

y′ = f(x)y + g(x)yn

mit n 6= 1 und stetigen Funktionen f und g wird fur Losungen y > 0 durch die Substi-tution

z := y1−n

auf die inhomogene lineare Differentialgleichung

z′ = (1− n)f(x)z + (1− n)g(x)

zuruckgefuhrt, die man mit “Variation der Konstanten” losen kann.

Beweis: z′ = (1−n)y−ny′, also setzen wir y = z1/(1−n) und y′ = 11−ny

nz′ = 11−nz

n/(1−n)z′

in die Differentialgleichung ein. Wir erhalten

11−nz

n/(1−n)z′ = f(x)z1/(1−n) + g(x)zn/(1−n),

nach Multiplikation mit (1− n)z−n/(1−n) ergibt sich die behauptete Gleichung. �

Beispiel: y′ = 1xy + y2 fur x, y > 0. Die Substitution z = y−1 = 1/y fuhrt das nach

dem Satz zuruck auf

z′ = −1

xz − 1.

Letztere Differentialgleichung kann mit Variation der Konstanten fur x0, z0 > 0 mitz(x0) = z0 gelost werden:

z(x) = elog x0−log x(z0 −

∫ x

x0

elog t−log x0 dt)

=x0

x

(z0 −

∫ x

x0

t

x0

dt)

=x0

x

(z0 −

x2

2x0

+x0

2

)=−x2 + 2x0z0 + x2

0

2x.

Wegen y = 1/z wird dann das Anfangwertproblem y(x0) = y0 fur die ursprunglicheGleichung gelost durch (benutze z0 = 1

y0)

y(x) =2x

−x2 + 2x0/z0 + x20

.

123

Page 124: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

3.2.4 Die Differentialgleichung y′′ = f(y)

Als Beispiel fur ein Verfahren fur spezielle Differentialgleichungen hoherer Ordnungbetrachten wir hier die Differentialgleichung

y′′ = f(y).

Sie ist fur die Physik interessant, da es sich um die Bewegungsgleichung eines Punktesunter einer nur ortsabhangigen Kraft handelt. (Hier nur eindimensional, man kannaber auch Systeme fur die Bewegung in 3 Dimensionen hinschreiben.) Zur Erinnerung:Kraft = Masse × Beschleunigung. Wir normieren die Masse zu 1 und betrachten alsodie Kraft f(y), die die Beschleunigung y′′ bewirkt.

Das eigentlich wichtige an diesem Beispiel wird sein zu zeigen, dass die “Tricks” ausder Physik (wie hier gleich die Anwendung des Energiesatzes) auch in der Mathematiknutzlich sein konnen, da viele Differentialgleichungen (die zunachst gar keine Physikbeschreiben) physikalisch interpretiert werden konnen.

Wir definieren eine Große

U(y) := −∫ y

a

f(t) dt,

die in der Physik “Potentielle Energie” heißt. Jetzt gibt es einen physikalischen Satz,der uns bei der Losung der Differentialgleichung hilft, namlich den Energieerhaltungs-satz . Der sagt, dass die Gesamtenergie konstant bleibt. Die Gesamtenergie setzt sichzusammen aus obiger potentieller Energie und der kinetischen Energie 1

2y′(t)2. Die

Physiker behaupten also

d

dx

(1

2y′(x)2 + U(y(x))

)= 0

fur alle Losungen der Differentialgleichung. (Physiker schreiben naturlich t (Zeit) stattx und x statt y.) Das konnen wir naturlich sofort mit Hilfe der Kettenregel verifizieren:

d

dx

(1

2y′(x)2 + U(y(x))

)= y′(x)y′′(x) + y′(x)U ′(y(x))

= y′(x)[y′′(x)− f(y(x))]

= 0.

Solche Großen, die fur eine Losung einer Differentialgleichung unabhangig von x sind,nennt man in der Physik “Erhaltungsgroßen” und in der Mathematik “erste Integrale”.Sie haben oft eine physikalische Bedeutung; nicht nur deshalb sind viele Physiker gutim Losen von Differentialgleichungen. Die Bedeutung erster Integrale ist die Faustregel

Mit jedem ersten Integral kann man die Ordnung einer Differentialgleichung um 1reduzieren.

In unserem Fall ist also1

2y′(x)2 + U(y(x)) ≡ E

124

Page 125: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

eine Konstante E ∈ R (die Energie), und das liefert uns die Bedingung U(y(x)) ≤ Efur alle x aus dem Intervall auf dem die Losung existiert, sowie die Differentialgleichungerster Ordnung

y′ = ±√

2(E − U(y))

fur y. Statt einer Gleichung zweiter Ordnung mussen wir jetzt nur eine Differentialglei-chung erster Ordnung losen und haben außerdem eine wahlbare IntegrationskonstanteE. Die Differentialgleichung erster Ordnung ist wieder mit “Trennung der Variablen”losbar — sie hangt ja von x uberhaupt nicht ab.

Beispiel: die Differentialgleichung des harmonischen Oszillators, y′′ = −ky mit einerKonstanten k > 0. Hier ist also f(y) = −ky und folglich U(y) = k

2y2. Damit erhalten

wir die Differentialgleichung erster Ordnung

y′ = ±√

2E − ky2 ,

die wir mit “Trennung der Variablen” losen konnen. Wir finden

y(x) =

√2E

ksin(√k(x+ c))

mit E ≥ 0 und c ∈ R. (Diese Gleichung werden wir spater noch einfacher losen konnen.)�

3.2.5 Exakte Differentialgleichungen und integrierende Faktoren

Eine Differentialgleichung erster Ordnung der (nicht expliziten) Form

g(x, y) + h(x, y)y′ = 0

heißt exakte Differentialgleichung auf G ⊂ R2, wenn wenn eine differenzierbare Funk-tion Φ : G→ R existiert mit ∂

∂xΦ = g und ∂

∂yΦ = h. Dann ist

d

dxΦ(x, y(x)) = g(x, y(x)) + h(x, y(x))y′(x)

nach der Kettenregel, daher ist die exakte Differentialgleichung aquivalent mit derGultigkeit der impliziten Gleichung Φ(x, y(x)) = c fur eine geeignete Integrationskon-stante c ∈ R. Wenn diese Gleichung nach y(x) aufgelost werden kann, so erhalt maneine explizite Darstellung der allgemeinen Losung mit einem reellen Parameter c. Sindg und h stetig differenzierbar, so ist die Integrabilitatsbedingung

∂g

∂y=∂h

∂x

auf G notwendig fur die Exaktheit, denn fur Φ ist das gleichbedeutend mit

∂2Φ

∂x∂y=

∂2Φ

∂y∂x,

125

Page 126: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

was wegen Φ ∈ C2 gelten muss. Eine “Stammfunktion” Φ findet man dann (fallssie existiert) durch unbestimmte Integration von g(x, y) bzgl. x und Addition einerpassenden nur von y abhangenden Funktion (oder Integration von h(x, y) bzgl. y undAddition einer nur von x abhangenden Funktion).

Beispiel: 1x2y −

(1x

+ 1)y′ = 0.

Hier haben wir g(x, y) = y/x2 und h(x, y) = −1/x− 1. Wegen

∂g

∂y=

1

x2=∂h

∂x

ist die Integrabilitatsbedingung erfullt, und wir haben uberhaupt eine Chance. Wirhaben ∫ x

1

g(t, y) dt = y − y

x

und setzen deshalbΦ(x, y) = y − y

x+ k(y)

an, mit noch zu bestimmendem k. Dazu

−1

x− 1 = h(x, y) =

∂Φ

∂y= 1− 1

x+ k′(y),

woraus wir k′(y) = −2, also k(y) = −2y ablesen (bis auf eine additive Konstante, dieman gleich eh noch betrachtet). Wir haben demnach

Φ(x, y) = −yx− y = −(x+ 1)y

x.

Da die Existenz von Φ nicht a priori klar war, mussen wir fur die gefundene FunktionΦ die Probe machen, um zu sehen, ob sie denn wirklich das Gewunschte leistet:

∂Φ

∂x(x, y) =

y

x2= g(x, y),

∂Φ

∂y(x, y) = −1− 1

x= h(x, y).

Als allgemeine Losung finden wir also y(x) mit Φ(x, y(x)) = c, also

−(x+ 1)y(x)

x= c,

was wir nachy(x) = − cx

x+ 1

auflosen. (Uber die Definitionsbereiche kann sich jeder selbst Gedanken machen.) �

Wenn obige Differentialgleichung nicht exakt ist, so kann man versuchen, einen inte-grierenden Faktor f(x, y) zu finden, so dass

f(x, y)g(x, y) + f(x, y)h(x, y)y′ = 0

126

Page 127: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

exakt ist. Die Differentialgleichung ist zur ursprunglichen aquivalent, falls f nirgends0 wird. (Und auch sonst haben sie vermutlich oft die meisten Losungen gemeinsam.)

Den integrierenden Faktor muss man raten (erfordert mindestens soviel Intuition wiedas Finden einer geeigneten Substitution). Am besten versucht man es zunachst malmit einem integrierenden Faktor, der effektiv nur von einer Variablen abhangt, etwaf(x, y) = ϕ(x), ϕ(y), ϕ(x+ y), ϕ(xy) oder ahnlich.

Beispiel: tan y + xy′ = 0.Hier ist g(x, y) = tan y, h(x, y) = x, und wegen

∂g

∂y= 1 + tan2 y,

∂h

∂x= 1

ist die Differentialgleichung sicher nicht exakt. Da in der letzten Zeile nur y vorkommt,versuchen wir einen integrierenden Faktor ϕ(y) zu finden. Wir setzen

∂y(ϕ(y)g(x, y)) = tan y ϕ′(y) + (1 + tan2 y)ϕ(y)

mit∂

∂x(ϕ(y)h(x, y)) = ϕ(y)

gleich und erhaltentan y ϕ′(y) + tan2 ϕ(y) = 0

mit (unter anderem) der Losung ϕ(y) = cos y. Das ist der integrierende Faktor, undwir multiplizieren die ursprungliche Gleichung mit cos y, um die exakte Differential-gleichung

sin y + x(cos y)y′ = 0

zu erhalten, die wir mit Hilfe von Φ(x, y) = x sin y losen konnen. �

3.3 Die Satze uber lokale Existenz und Eindeutigkeit von Losun-gen

Jetzt wird es kurzfristig etwas abstrakter, weil wir die grundlegenden Fragen uber lokaleLosbarkeit und Eindeutigkeit von Losungen klaren wollen.

Der folgende Satz ist der (etwas technische) Kern des Beweises des nachfolgendenHauptsatzes. Wie wir schon gezeigt haben, konnen wir statt Differentialgleichungenhoherer Ordnung immer Systeme von Differentialgleichungen erster Ordnung betrach-ten. Deshalb beschaftigt sich der folgende Satz mit Systemen erster Ordnung.

Satz (Picard-Lindelof) Sei f : G → Rn, G := [x0 − δ, x0 + δ] × Br(y0) ⊆ R × Rn

stetig (y0 ∈ Rn, x0 ∈ R, δ, r ∈ ]0,∞]), und es gelte

(i) Beschranktheit: |f(x, y)| ≤M <∞,

(ii) partielle Lipschitz-Bedingung: ∃L <∞ : |f(x, y)− f(x, y)| ≤ L|y − y|

127

Page 128: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

fur alle x ∈ [x0−δ, x0+δ], y, y ∈ Br(y0). Dann existiert auf jedem Intervall [x0−ε, x0+ε]mit ε ≤ min{δ, r

M, 1

2L} genau eine Losung des Anfangswertproblems

y′ = f(x, y) auf [x0 − ε, x0 + ε], y(x0) = y0,

und diese verlauft in der Kugel Br(y0).

Beweis: Zunachst integrieren wir beide Seiten der Differentialgleichung von x0 bis xund erhalten unter Verwendung der Anfangsbedingung

y(x) = y0 +

∫ x

x0

f(t, y(t)) dt =: (Ty)(x).

Das scheint auf den ersten Blick nicht viel zu helfen, weil die unbekannte Funktion yauf der rechten Seite unter dem Integral steht, aber immerhin haben wir das Problemschon einmal als Fixpunktproblem

Ty = y

geschrieben.

Zunachst definieren wir eine Menge von Funktionen, die von T auf sich selbst abgebildetwird. Wir bezeichnen mit y0 auch die konstante Funktion auf [x0− ε, x0 + ε] mit Werty0 und definieren dazu die “Kugel”

Kr := {u ∈ C0([x0 − ε, x0 + ε],Rn) : ‖u− y0‖∞ ≤ r},

letztere Bedingung ist aquivalent zu Bildu ⊆ Br(y0). (Hier ‖ · ‖∞ = sup[x0−ε,x0+ε].)

Wir rechnen fur T auf K die Voraussetzungen des Banachschen Fixpunktsatzes nach(was Sinn macht, da C0 vollstandig ist).

Fur u ∈ Kr und x ∈ [x0, x0 + ε] ist dann (mit einer “kontinuierlichen” Version derDreiecksungleichung, die man erhalt, indem man das Integral durch Summen approxi-miert)

|(Tu)(x)− y0| =∣∣∣ ∫ x

x0

f(t, u(t)) dt∣∣∣

≤∫ x

x0

|f(t, u(t))| dt

≤∫ x

x0

M dt

≤ εM,

und analog gilt diese Abschatzung fur x ∈ [x0 − ε, x0]. Damit haben wir

‖Tu− y0‖∞ ≤ εM ≤ r

unter der Voraussetzung ε ≤ rM

. Also haben wir unter den Voraussetzungen des Satzesgezeigt, dass

T (Kr) ⊆ Kr.

128

Page 129: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Als nachstes weisen wir diee “Kontraktionseigenschaft” fur T nach: Fur x ∈ [x0, x0 +ε]und u, v ∈ Kr ist

|(Tu)(x)− (Tv)(x)| =∣∣∣ ∫ x

x0

[f(t, u(t))− f(t, v(t))] dt∣∣∣

≤∫ x

x0

|f(t, u(t))− f(t, v(t))| dt

≤∫ x

x0

L|u(t)− v(t)| dt

≤ εL‖u− v‖∞,

und analog fur x ∈ [x0 − ε, x0]. Wegen ε ≤ 12L

folgt

‖Tu− Tv‖∞ ≤ εL‖u− v‖∞ ≤1

2‖u− v‖∞.

Wir drfen also den Banachschen Fixpunktsatz anwenden und erhalten eine eindeuti-ge Losung von Ty = y in Kr. DEie ist a priori erst mal stetig, aber die Gleichungy(x) = y0 +

∫ xf(t, y(t)) dt zeigt, dass y differenzierbar ist, weil die rechte Seite das ist.

Differenzieren gibt y′ = f(x, y) auf [x0 − ε, x0 + ε], und y(x0) = y0 ist klar. �

Bemerkungen: (1) Der Satz von Picard-Lindelof gilt eigentlich ohne die Schrankeε ≤ 1

2L. Der Beweis wird dann etwas subtiler. Deshalb hier die “vereinfachte Version”,

die fur unsere Zwecke ausreicht.

(2) Der Beweis ist konstruktiv, denn der Banachsche Fixpunktsatz gibt ein explizitesNaherungsverfahren fur die Losung an, das auch zur numerischen Losung von Differen-tialgleichungen verwendet werden kann. Sogar Fehlerabschatzungen fur die Naherunghaben wir bewiesen! �

Aus dem Satz von Picard-Lindelof folgt jetzt der eigentliche Hauptsatz. Fur n = 1 sagter etwas uber Differentialgleichungen n-ter Ordnung aus und fur m = 1 uber Systemeerster Ordnung.

Hauptsatz (lokaler Existenzsatz, Eindeutigkeitssatz) Sei G ⊆ R× (Rn)m Ge-biet. Die Funktion f : G→ Rn sei stetig und lokal partiell (bzgl. allen Variablen außerx) Lipschitz-stetig. Das heißt zu jedem Punkt in G existiere eine Umgebung U und eineSchranke L <∞, so dass

|f(x, y0, . . . , ym−1)− f(x, y0, . . . , ym−1)| ≤ L

m−1∑i=0

|yi − yi|

fur alle (x, y0, . . . , ym−1), (x, y0, . . . , ym−1) ∈ U .

Fur (x0, y0, y1, . . . , ym−1) ∈ G (mit y` ∈ Rn) betrachten wir das Anfangswertproblem

y(m) = f(x, y, y′, . . . , y(m−1)),

129

Page 130: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

y(x0) = y0,

y′(x0) = y1,...

y(m−1)(x0) = ym−1.

(i) Es gibt ein (evtl. winziges) ε > 0, so dass das Anfangswertproblem eine Losung auf]x0 − ε, x0 + ε[ hat.

(ii) Auf jedem Intervall I mit x0 ∈ I hat das Anfangswertproblem hochstens eineLosung (evtl. gar keine, wenn I zu groß ist).

Beweis: (i) Zunachst reduziert man die Ordnung des Systems / der Gleichung auf 1 undwendet dann den Satz von Picard-Lindelof auf einer Umgebung von (x0, y0, y1, . . . , ym−1)an, auf der man eine partielle Lipschitz-Bedingung und eine Schranke fur |f | hat.

(ii) Wieder reduziert man auf m = 1. Ware die Losung des Anfangswertproblems ir-gendwo nicht eindeutig, so fande man einen “Verzweigungspunkt”, in dem man einenWiderspruch zum Picard-Lindelof hatte. (Das war mehr eine Skizze als ein Beweis.)�

Bemerkungen: (1) Die lokale Lipschitz-Bedingung ist automatisch erfullt, wenn fbezuglich allen Variablen außer x stetig differenzierbar ist. (Folgt sofort aus dem Mit-telwertsatz.)

(2) Ohne die partielle Lipschitz-Bedingung geht die Eindeutigkeit der Losungen verlo-ren. Das zeigt das fruher diskutierte Beispiel y′ = 2

√|y|, wo man Losungen bei y = 0

nichteindeutig zusammensetzen konnte. Die Funktion 2√|y| ist nicht Lipschitz-stetig

bei y = 0. (Fur lokale Existenz reicht schon Stetigkeit von f , auch wenn das nur vongeringer praktischer Bedeutung ist.)

(3) Wie wir schon bei den linearen Differentialgleichungen erster Ordnung gesehenhaben, gibt es spezielle rechte Seiten, fur die man erheblich mehr als nur lokale Losbar-keit der Differentialgleichung aussagen kann. Andererseits hatten wir z.B. fur y′ =2x(1 + y2) Losungen mit beliebig kurzen maximalen Existenzintervallen gefunden.Manchmal kann man also nicht mehr als lokale Losbarkeit verlangen. �

Da wir mit der Moglichkeit rechnen mussen, dass eine Losung nicht immer auf vorge-gebenen Intervallen existiert, stellt sich die Frage, auf welche Weise das schiefgeht:

Satz (Satz von den maximalen Losungen) Sei G ⊆ R×Rn ein Gebiet, f : G→Rn lokal partiell Lipschitz-stetig.

(i) Zu jedem Anfangsdatum (x0, y0) ∈ G gibt es ein maximales Intervall Imax in R mit

x0 ∈◦

Imax, so dass das Anfangswertproblem

y′ = f(x, y), y(x0) = y0

eine Losung u auf Imax besitzt. Auf jedem Intervall I mit x0 ∈ I ⊆ Imax ist dann u|I dieeindeutige Losung des AWP. Die Losung u : Imax → Rn heißt die maximale Losung desAWP, Imax der maximale Definitionsbereich.

130

Page 131: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

(ii) Imax ist dabei ein offenes Intervall ]α, ω[ mit −∞ ≤ α < x0 < ω ≤ ∞. Bei x↘ αund x↗ ω verlasst (x, u(x)) jede kompakte Teilmenge K von G endgultig, d.h. es gibtα > α und ω < ω mit (x, u(x)) /∈ K fur alle x ∈ ]α, α[∪ ]ω, ω[.

Beweis: Teil (i) ist einfach: Definiere Imax als die Vereinigung aller Intervalle, auf denendas AWP losbar ist. Alle zugehorigen Losungen lassen sich wegen des Eindeutigkeits-satzes zu einer maximalen Losung u : Imax → Rn zusammensetzen.

Die Offenheit von Imax in (ii) sieht man so: Setze ω := sup Imax. Ware ω ∈ Imax, dannkonnte man das Anfangswertproblem mit y(ω) = u(ω) losen und auf diese Weise dieLosung uber ω hinaus fortsetzen. Aus demselben Grund gehort auch das Infimum αnicht zu Imax.

Sei nun K ⊂ G kompakt. Wir nehmen das Gegenteil der Behauptung an, dann gibtes (z.B., evtl. muss man die Rollen von ω und α vertauschen) eine Folge xn ↗ ω mit(xn, u(xn)) ∈ K fur alle n ∈ N. Da K beschrankt ist, muss in diesem Fall ω < ∞gelten.

Wir wahlen nun eine ε-Umgebung Uε(K) mit Abschluss inG und setzenM := sup{|f(x)| :x ∈ Uε(K)} < ∞. Ist n groß genug und xn < x < ω, dann muss (x, u(x)) ∈ Uε(K)sein, denn sonst gabe es ein kleinstes x > xn mit

ε = dist((x, u(x)), K)

≤ ‖(x, u(x))− (xn, u(xn))‖ := |x− xn|+ |u(x)− u(xn)|≤ (x− xn)(1 + sup{u′(t) : t ∈ [xn, x]})≤ (x− xn)(1 + sup{|f(t, y)| : t ∈ [xn, x]})≤ (ω − xn)(1 +M),

was fur große n wegen xn ↗ ω < ∞ nicht sein kann. Folglich gilt |u′(x)| ≤ M fur xnahe ω, woraus man mit Hilfe des Cauchy-Kriteriums Existenz von v := limx↗ω u(x)folgern kann. Dann ist (ω, v) = limn→∞(xn, ω(xn)) ∈ K, weil K abgeschlossen ist. Dannkann man aber den maximalen Existenzsatz auf das AWP mit y(ω) = v anwenden;wegen der Dgl. passt die Losung desselben mit u bei ω nicht nur stetig, sondern sogardifferenzierbar zusammen. Wir hatten die Losung damit also uber ω hinaus fortgesetzt,im Widerspruch zur Maximalitat von ω. Die Annahme war also falsch, und u verlasstK endgultig. �

Bemerkungen: (1) Der Satz sagt nicht trivial aus, dass man “eine Losung fortsetzenkann, bis es nicht mehr geht”, sondern macht eine Aussage daruber, wie es uberhauptpassieren kann, dass das nicht mehr geht. Grob gesagt: Ist das maximale Existenzin-tervall nach oben oder unten beschrankt, so muss die Losung dort nach ∞ abhauenoder den Rand von G treffen.

(2) Es gibt einen analogen Satz fur Systeme hoherer Ordnung. Er folgt aus diesemdurch Reduktion.

(3) Aus dem Satz kann man mit relativ wenig Aufwand Kriterien dafur folgern, dasszu einer gegebenen Differentialgleichung (erster Ordnung) alle Losungen auf ganz R

131

Page 132: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

fortsetzbar sind. Das ist z.B. immer fur lineare Differentialgleichungen der Fall. Esreicht aber auch etwas allgemeiner eine lineare Wachstumsbedingung

|f(x, y)| ≤ g(x)|y|+ h(x)

fur alle x ∈ R, y ∈ Rn mit stetigen Funktionen g, h : R→ R≥0.

(4) Einen weiterer grundlegender qualitativen Satz uber (Systeme von) gewohnlichenDifferentialgleichungen sagt, dass die Losungen stetig (unter naturlichen Voraussetzun-gen sogar differenzierbar) von den Anfangsdaten (x0, y(x0) = y0) abhangen, wenn diepartielle Lipschitzbedingung erfullt ist. Stetige/differenzierbare Abhangigkeit von denAnfangswerten heißt etwa das Folgende: Zu x0 sei us die Losung zum Anfangswertpro-blem y(x0) = s. Dann ist us(x) nicht nur stetig/differenzierbar in x, sondern auch inder Variablens. (Tatsachlich sogar als Funktion von (s, x), und auch die Abhangigkeitvon x0 ist stetig/differenzierbar.) �

3.4 Lineare Differentialgleichungen

Definition (Lineare Differentialgleichung) Eine (explizite) lineare Differential-gleichungm-ter Ordnung in Rn (auch ein System von n linearen Differentialgleichungenm-ter Ordnung genannt) ist von der Form

y(m) + Am−1(x)y(m−1) + . . .+ A1(x)y′ + A0(x)y = b(x).

Dabei ist jede der Koeffizientenmatrizen Aj(x), j ∈ {1, . . . ,m}, eine Matrix mit Ein-tragen ai;k,`(x) (k, ` ∈ {1, . . . , n}), die stetige Funktionen ai;k,` : I → R sind. Außer-dem soll b : I → Rn stetig sein. Ist b ≡ 0, so heißt die Differentialgleichung homogen,andernfalls inhomogen. Naturlich ist n = 1 erlaubt, dann sind die Aj(x) einfach Funk-tionen I → R (formal dasselbe wie 1× 1-Matrizen-wertige Funktionen).

Hier hat man nach Reduktion auf erste Ordnung alle Konstanten im Satz von Picard-Lindelof im Griff, und es folgt sofort der Existenz- und Eindeutigkeitssatz, der besserist als der allgemeine aus dem vorigen Kapitel (denn die Losungen existieren immerauf dem ganzen Intervall):

Satz (Existenz- und Eindeutigkeitssatz fur lineare Dgl.) Unter den Vorausset-zungen der Definition ist jedes Anfangswertproblem

y(m) + Am−1(x)y(m−1) + . . .+ A1(x)y′ + A0(x)y = b(x),

y(x0) = y0, y′(x0) = y1, . . . y(m−1)(x0) = ym−1

mit x0 ∈ I, yj ∈ Rn fur j = 0, . . .m− 1 eindeutig losbar auf I.

Ist eine (inhomogene) lineare Differentialgleichung gegeben, so nennen wir dieselbeGleichung, aber mit b(x) ersetzt durch 0, die zugehorige homogene Differentialglei-chung. Der folgende Satz ist trivial (man verifiziert ihn einfach durch Einsetzen in dieDifferentialgleichung), aber wichtig:

132

Page 133: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Satz (Uberlagerungsprinzip) (i) Im homogenen Fall b ≡ 0 ist jede Linearkombi-nation von Losungen selbst wieder Losung der Differentialgleichung. Folglich ist dieMenge der Losungen ein R-Vektorraum, der oft mit LH bezeichnet wird. Wegen derEindeutigkeit der Losung des Anfangswertproblems hat dieser Vektorraum die Dimen-sion mn (denn soviele reelle Zahlen konnen wir als Anfangswerte bei x0 frei wahlen).

(ii) Im inhomogenen Fall wird die Menge der Losungen wie folgt beschrieben: DieLosungen sind genau die Funktionen der Form y = usp + v, wobei usp eine (“speziel-le”) Losung der inhomogenen Gleichung und v irgendeine (“allgemeine”) Losung derzugehorigen homogenen Gleichung ist. Man braucht also nur die homogene Gleichungvollstandig zu losen und eine einzige Losung der inhomogenen Gleichung zu finden,um alle Losungen der inhomogenen Gleichung zu kennen. Die Losungsmenge L ist einaffiner Vektorraum, L = usp + LH .

Beispiele: (1) Wir hatten schon gesehen, dass alle Losungen der linearen Differenti-algleichung y′ = y, also y′ − y = 0, von der Form v(x) = cex mit c ∈ R sind. Wollenwir also die inhomogene Gleichung

y′ − y = 1− x

losen, so genugt es, eine einzige Losung usp(x) = x zu raten (oder zu berechnen) , umzu sehen, dass die allgemeine Losung von der Form

y(x) = usp(x) + v(x) = x+ cex

ist. (In diesem einfachen Beispiel hatten wir das auch mit dem Satz uber “Variationder Konstanten” sehen konnen.)

(2) Zu y′′ + y = 0 hatten wir fruher schon die Losungen sinx und cosx geraten. Dannist auch jede Linearkombination

y(x) = c1 sinx+ c2 cosx

eine Losung der Differentialgleichung. Damit haben wir auch alle Losungen gefunden.Denn nach Teil (i) des vorigen Satzes (mit m = 2 und n = 1) ist der Raum der Losungenzweidimensional. Die Funktionen sinx und cosx sind offensichtlich linear unabhangig(denn keine ist ein Vielfaches der anderen), bilden also eine Basis des Losungsraums.Dieser Vektorraum ist

LH := {c1 sinx+ c2 cosx : c1, c2 ∈ R}.

Beispiel (2) zeigt, dass man entscheiden konnen muss, wann Funktionen linear un-abhangig sind. Das kann im Allgemeinen ziemlich schwierig sein; im Fall von Losungenlinearer Differentialgleichungen kann man es aber auf die lineare Unabhangigkeit vonVektoren in Rmn zuruckfuhren (und die konnen wir mit Mitteln der Linearen Algebra,z.B. Determinante oder Zeilenumformungen, entscheiden).

133

Page 134: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Satz (Wronski-Matrix) Seien u1, . . . , umn : I → Rn Losungen einer homogenenlinearen Differentialgleichung wie oben. Genau dann bilden u1, . . . umn eine Basis desLosungsraums LH , wenn fur ein (und damit fur alle) x0 ∈ I die Wronski-Matrix

W (x0) =

u1(x0) u2(x0) · · · umn(x0)u′1(x0) u′2(x0) · · · u′mn(x0)

......

. . ....

u(m−1)1 (x0) u

(m−1)2 (x0) · · · u

(m−1)mn (x0)

invertierbar ist. Eine Basis des Losungsraums LH heißt ein Fundamentalsystem derDifferentialgleichung.

Beweisidee: Die Abbildung, die den Anfangswerten die entsprechende Losung zuord-net, ist ein Isomorphismus Rmn → LH , bildet also Basen auf Basen ab. �

Beispiel: Wir setzen das vorige Beispiel fort und schreiben u1 := sin, u2 := cos. DieWronski-Matrix bei x0 = 0 ist

W (0) =

(sin(0) cos(0)cos(0) − sin(0)

)=

(0 11 0

).

Diese Matrix ist invertierbar (z.B. weil sie Determinante −1 6= 0 hat). Also bilden sinund cos tatsachlich ein Fundamentalsystem. �

Beispiel: Wir hatten auch schon das System

y′1 = y2

y′2 = −y1

untersucht und die Losungen u1(x) =(

sinxcosx

)und u2(x) =

(cosx− sinx

)geraten. Das System

ist linear und wird in der Schreibweise dieses Kapitels als

y′ +

(0 −11 0

)y = 0

geschrieben fur y : R → R2. Hier ist also m = 1 und n = 2, d.h. LH ist wiederzweidimensional. Wieder berechnen wir die Wronski-Matrix fur die beiden Losungen,die wir bereits haben:

W (0) =

(sin(0) cos(0)cos(0) − sin(0)

)=

(0 11 0

).

Da W (0) invertierbar ist, bilden auch hier u1 und u2 ein Fundamentalsystem, und wirhaben

LH =

{c1

(sinx

cosx

)+ c2

(cosx

− sinx

): c1, c2 ∈ R

}als Losungsraum. �

134

Page 135: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Wie bekommt man ein Fundamentalsystem zu einer gegebenen homogenen linearenDifferentialgleichung? Das ist nicht allgemein zu beantworten. Fur konstante Koeffi-zienten, d.h. Differentialgleichungen, die nicht explizit von x abhangen, lernen wir imnachsten Kapitel effektive Verfahren kennen. Ansonsten muss man versuchen, mit Pro-bieren, Substituieren etc. alles so weit wie moglich zu vereinfachen. Immerhin verein-facht sich (im Fall n = 1) mit jeder gefundenen Losung die fur die restlichen Losungennoch zu losende Differentialgleichung:

Satz (Reduktionsverfahren von d’Alambert) Ist fur die homogene (skalare, d.h.n = 1) lineare Differentialgleichung

y(m) + am−1(x)y(m−1) + . . .+ a1(x)y′ + a0(x)y = 0

eine Losung u0 ohne Nullstelle bekannt, dann kann man die allgemeine Losung derDifferentialgleichung durch den Ansatz

y = vu0

auf eine Differentialgleichung (m− 1)-ter Ordnung fur v′ zuruckfuhren.

Beweisidee: v = yu0

substituieren und beim Berechnen der Differentialgleichung furv die Nerven behalten. Sie hat Ordnung m − 1 als Differentialgleichung fur v′. Wirwerden das in der folgenden Bemerkung fur den Fall m = 2 ausfuhren. �

Bemerkung: Besonders bei Gleichungen zweiter Ordnung ist das Verfahren nutz-lich, weil man die resultierende Gleichung erster Ordnung immer losen kann (mit “Va-riation der Konstanten”). Hier fuhren wir die Substitution aus. y = u0v bedeutety′ = u′0v + u0v

′ und y′′ = u′′0v + 2u′0v′ + u0v

′′. Das setzen wir in die ursprunglicheDifferentialgleichung

y′′ + a1(x)y′ + a0(x)y = 0

ein und erhalten

0 = u′′0v + 2u′0v′ + u0v

′′ + a1u′0v + a1u0v

′ + a0u

= u0v′′ + (a1u0 + 2u′0)v′ + (u′′0 + a1u

′0 + a0u0)v

= u0v′′ + (a1u0 + 2u′0)v′,

weil u0 die Differentialgleichung lost. Nach Division durch u0 haben wir

v′′ +(a1(x) + 2

u′0(x)

u0(x)

)v′ = 0.

Diese lineare Differentialgleichung erster Ordnung fur v′ konnen wir losen und dadurchv bestimmen. �

135

Page 136: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Beispiel: Fur die Differentialgleichung

y′′ − 2x

1− x2y′ +

2

1− x2y = 0 (|x| < 1)

kann man die Losungu0(x) = x

raten. Eine davon linear unabhangige Losung bekommt man also durch den Ansatzy = xv, der nach der vorigen Bemerkung auf

v′′ +(2

x− 2x

1− x2

)v′ = 0

fuhrt (zumindest fur x ∈ ]0, 1[ ). Mit Hilfe der Stammfunktion 2 log x+ log(1− x2) vonder Klammer konnen wir die losen: Eine Losung ist

v′(x) = e−2 log x−log(1−x2)

=1

x2(1− x2)

=1

x2+

1

2

( 1

1− x+

1

1 + x

).

Die Partialbruchzerlegung am Schluss hilft uns beim Integrieren:

v(x) = −1

x+

1

2log

1 + x

1− x.

Also ist

u1(x) = u0(x)v(x) = xv(x) =x

2log

1 + x

1− x− 1

eine von u0 unabhangige Losung der ursprunglich gegebenen Differentialgleichung (zunachstnur auf ]0, 1[ , aber durch Einsetzen sieht man, dass u1 die Dgl. sogar fur |x| < 1 lost).u0 und u1 bilden also ein Fundamentalsystem, und

LH ={c1x+ c2

(x2

log1 + x

1− x− 1)

: c1, c2 ∈ R}

ist die Losungsmenge. �

Jetzt haben wir ein wenig uber homogene Differentialgleichungen gelernt. Fur inhomo-gene Systeme hilft wieder die Methode der “Variation der Konstanten”. Wir fuhrendas nur fur Systeme erster Ordnung aus:

Satz (“Variation der Konstanten” fur Systeme) Sei y′ = A(x)y ein homogenesSystem erster Ordnung von Differentialgleichungen. Sei Φ(x) die Matrix (mit Funktio-nen als Eintragen), die man erhalt, indem man ein Fundamentalsystem spaltenweisenebeneinanderschreibt. Dann hat das inhomogene Differentialgleichungssystem

y′ = A(x)y + b(x)

136

Page 137: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

mit x0 im Definitionsbereich eine “spezielle” Losung

usp(x) = Φ(x)

∫ x

x0

Φ(t)−1b(t) dt.

Beweis: Wir setzen y = Φv an und berechnen y′ = Φ′v+ Φv′ = AΦv+ Φv′. Einsetzenin die Differentialgleichung ergibt

AΦv + Φv′ = AΦv + b,

also Φv′ = b, woraus die Behauptung folgt. �

Beispiel: Wir betrachten das System

y′1 = y2 + x,

y′2 = −y1,

das wir auch als

y′ =

(0 1−1 0

)y +

(x0

)schreiben konnen. Das zugehorige homogene Gleichungssystem haben wir kurzlichgelost; ein Fundamentalsystem besteht aus den Losungen

(cosx− sinx

)und

(sinxcosx

). Die Matrix

Φ(x) konnen wir also als

Φ(x) =

(cosx sinx− sinx cosx

)wahlen. Ihre Inverse ist

Φ(x)−1 =

(cosx − sinxsinx cosx

).

Damit berechnen wir zunachst

Φ(t)−1b(t) =

(cos t − sin tsin t cos t

)(t0

)=

(t cos tt sin t

)und dann mit partieller Integration∫ x

0

Φ(t)−1b(t) dt =

∫ x

0

(t cos tt sin t

)dt

=

(x sinx−x cosx

)−∫ x

0

(sin t− cos t

)dt

=

(x sinx+ cosx− 1

sinx− x cosx

),

also schließlich

usp(x) =

(cosx sinx− sinx cosx

)(x sinx+ cosx− 1

sinx− x cosx

)=

(1− cosx−x+ sinx

).

Damit haben wir die Losungsmenge

L = usp + LH =

{(1 + c1 cosx+ c2 sinx−x− c1 sinx+ c2 cosx

): c1, c2 ∈ R

}bestimmt. �

137

Page 138: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

3.5 Erganzungen: Randwertprobleme

In der Physik sind die meisten Differentialgleichungen zweiter Ordnung, deshalb be-schranken wir uns in diesem Kapitel auf diesen Fall, zumal es fur hohere Ordnung hiersehr unubersichtlich wird.

Fur Differentialgleichungen zweiter Ordnung durfen wir beim Anfangswertproblem zweiBedingungen vorschreiben, etwa die Werte von y(x0) und y′(x0), wie wir gesehen haben.Aber oft ist es sinnvoller, stattdessen den Wert von y an zwei verschiedenen Punktenvorzuschreiben, ublicherweise an den Randpunkten des Intervalls, auf dem die Losunggesucht wird. Wir denken z.B. an eine an zwei Punkten fest gespannte schwingendeSaite oder eine Temperaturverteilung auf einem Stab, der an den Enden auf eine festeTemperatur erhitzt wird, oder Ahnliches. Randwerte vorzuschreiben ist demnach oftphysikalisch sinnvoll.

Die Differentialgleichungen, die wir betrachten, sollen linear sein, aber nicht notwendi-gerweise mit konstanten Koeffizienten: Auf dem Intervall [a, b] betrachten wir

a2(x)y′′ + a1(x)y′ + a0(x)y = 0

mit stetigen Funktionen a0, a1, a2 : [a, b]→ R und der zusatzlichen Voraussetzung

a2(x) 6= 0 fur alle x ∈ [a, b].

Man beachte, dass wir zu einer expliziten Gleichung auflosen konnen,

y′′ +a1(x)

a2(x)y′ +

a0(x)

a2(x)y = 0,

eine Gleichung, uber die wir schon einiges wissen. Zum Beispiel existieren die Losungenauf dem ganzen Intervall [a, b] und konnen demnach nicht zwischendurch “explodieren”.Naturliche Randbedingungen, die besonders oft auftreten, sind etwa von der Formy(a) = y(b) = 0 oder y′(a) = y′(b) = 0. Beides wird verallgemeinert zu allgemeinenhomogenen Randbedingungen der Form

αy(a) + αy′(a) = 0,

βy(b) + βy′(b) = 0,

mit (α, α) 6= (0, 0) und (β, β) 6= (0, 0) (damit keine der Randbedingungen trivial wird).Wir wollen die obige Differentialgleichung, versehen mit diesen Randbedingungen, diehomogene Randwertaufgabe nennen. Definieren wir die eindimensionalen Vektorraume

Va := {(y0, y1) ∈ R2 : αy0 + αy1 = 0},Vb := {(y0, y1) ∈ R2 : βy0 + βy1 = 0},

so konnen wir die Randbedingungen etwas vornehmer schreiben als(y(a)

y′(a)

)∈ Va,

(y(b)

y′(b)

)∈ Vb.

138

Page 139: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Wir wissen ja schon, dass die Losungsmenge LH der Gleichung ein Vektorraum ist, mitDimension 2, und dass die Losungen linear von Anfangswerten y(x0), y′(x0) abhangen,fur jedes x0 ∈ [a, b]. Das bedeutet, dass die Abbildung

(yy′

)↔(y(x0)y′(x0)

)fur jedes x0 ∈ [a, b]

ein Isomorphismus zwischen den Vektorraumen LH und R2 ist. Deshalb ist auch dieTransportabbildung τ : R2 → R2, die jedem Paar

(y(a)y′(a)

)von Anfangswerten das zu-

gehorige Paar(y(b)y′(b)

)von “Endwerten” (der durch die Anfangswerte eindeutig gegebe-

nen Losung) zuordnet, ein linearer Isomorphismus R2 → R2.

Damit es uberhaupt Losungen 6≡ 0 der homogenen Randwertaufgabe gibt, mussenalso die Bedingungen bei a und b zusammenpassen, in dem Sinne, dass τVa = Vb.Dann gibt es eine Losung 6≡ 0, und die Losungen bilden dann einen eindimensionalenVektorraum, d.h. genau die reellen Vielfachen dieser einen Losung losen die homogeneRandwertaufgabe. Wir fassen zusammen:

Satz (homogene Randwertaufgabe) Die homogene Randwertaufgabe

a2(x)y′′ + a1(x)y′ + a0(x)y = 0,

αy(a) + αy′(a) = 0,

βy(b) + βy′(b) = 0

auf [a, b] mit den obigen Voraussetzungen hat entweder nur die triviale Losung y ≡ 0,oder es gibt einen eindimensionalen Unterraum von LH als Losungsmenge. In diesemFall ist jede Losung des (unvollstandigen) Anfangswertproblems

a2(x)y′′ + a1(x)y′ + a0(x)y = 0,

αy(a) + αy′(a) = 0

bereits eine Losung des homogenen Randwertproblems.

Von praktischem Interesse ist dabei die Frage, wie man entscheidet, in welchem Fall mansich befindet. Dazu benotigen wir ein Fundamentalsystem {f1, f2} der Gleichung. Dannist naturlich c1f1+c2f2 genau dann eine Losung der homogenen Randwertaufgabe, wenndie Konstanten c1 und c2 das folgende lineare Gleichungssystem losen:

(αf1(a) + αf ′1(a))c1 + (αf2(a) + αf ′2(a))c2 = 0,

(βf1(b) + βf ′1(b))c1 + (βf2(b) + βf ′2(b))c2 = 0.

Dieses Gleichungssystem hat genau dann Losungen 6= (0, 0), wenn die Matrix(αf1(a) + αf ′1(a) αf2(a) + αf ′2(a)

βf1(b) + βf ′1(b) βf2(b) + βf ′2(b)

)nicht invertierbar ist.

Beispiel: Stehende Schallwellen in einem einseitig geschlossenen Rohr konnen (beiaußerer Anregung) nur mit bestimmten Frequenzen entstehen, die von der Lange `abhangen. y(x) sei die maximale Amplitude am Ort x ∈ [0, `]. Die eindimensionale

139

Page 140: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Gleichung fur stehende Wellen ist y′′(x) + ω2y(x) = 0 mit ω > 0. Am offenen Endex = ` bildet sich ein Schwingungsknoten, also y(`) = 0. Am geschlossenen Ende x = 0muss sich die Welle mit der reflektierten Welle uberlagern, was die Bedingung y′(0) = 0gibt. Wir haben daher

a = 0, b = `, α = 0, α = 1, β = 1, β = 0

und das Fundamentalsystem

f1(x) = sin(ωx), f2(x) = cos(ωx).

Die Randbedingungen y′(0) = 0 und y(`) = 0 geben fur y = c1f1 + c2f2 das lineareGleichungssystem

f ′1(0)c1 + f ′2(0)c2 = 0,

f1(`)c1 + f2(`)c2 = 0,

also (ω 0

sin(ω`) cos(ω`)

)(c1

c2

)=

(00

)Genau dann ist die Matrix nicht invertierbar, wenn cos(ω`) = 0, d.h. wenn ω` =(2k+ 1)π

2mit einem k ∈ N∪{0}. (k ∈ Z nur deshalb nicht, weil wir ω, ` > 0 angenom-

men haben.) Nur dann gibt es Losungen, die nicht konstant 0 sind. Die auftretendenWellenlangen sind also 2π/ω = 4`/(2k + 1) (und die horbaren Frequenzen sind damituber die Schallgeschwindigkeit korreliert). �

Naturlich konnen wir auch inhomogene Randwertaufgaben stellen, dann sind die Rand-bedingungen von der Form

αy(a) + αy′(a) = γa,

βy(b) + βy′(b) = γb,

mit gegebenen (α, α) 6= (0, 0), (β, β) 6= (0, 0) und γa, γb ∈ R. Dann gilt wieder dasUberlagerungsprinzip: Jede Losung ist Summe einer speziellen Losung der inhomoge-nen Randwertaufgabe und der allgemeinen Losung der homogenen Randwertaufgabe.Demnach gibt es zwei Moglichkeiten:

(1) Die homogene Randwertaufgabe hat nur die triviale Losung, dann ist die inho-mogene Randwertaufgabe eindeutig losbar. (Eindeutigkeit ist aus dem Gesagten klar,Losbarkeit zeigt man wie im Existenzsatz.)

(2) Die homogene Randwertaufgabe hat einen eindimensionalen Losungsraum, dannbilden die Losungen der inhomogenen Randwertaufgabe einen eindimensionalen affinenVektorraum (falls es eine spezielle Losung gibt) oder es gibt keine Losung.

Mit dem Fall leerer Losungsmengen mussen wir immer rechnen, wenn wir ein Glei-chungssystem mit nicht invertierbarer Matrix losen.

140

Page 141: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

2 Differentialrechnung in Rn (Fortsetzung)

2.7 Umkehrsatz und Satz uber implizite Funktionen

Wir haben gesehen, dass Jf−1(f(a)) = Jf (a)−1, wenn die Ableitung der Umkehrfunkti-on einer differenzierbaren Abbildung existiert. Aber im Eindimensionalen in Analysis Ihaben wir mehr gesehen, namlich: Ist f ′(a) 6= 0, dann existiert die Umkehrfunktionlokal und ist differenzierbar bei f(a) mit (f−1)′(a) = 1/f ′(a). Das wollen wir im Fol-genden fur Abbildungen Rn → Rn verallgemeinern: Aus der Invertierbarkeit von Jf (a)folgt schon lokale Existenz einer in f(a) differenzierbaren Umkehrfunktion. Haben wirdas, so haben wir Existenz einer Losung des nichtlinearen n× n-Gleichungssystems

f(x) = y

fur jedes y ∈ Rn nahe a. Wir erhalten somit (zumindest lokal) eine weitreichendeVerallgemeinerung der Aussage “Ist A invertierbar, dann ist Ax = y fur alle y”.

Hauptsatz (Umkehrsatz) Es sei U ⊆ Rn offen und f : U → Rn stetig differenzier-bar. Ist a ∈ U und Df(a) invertierbar (d.h. Isomorphismus von Rn auf sich), dann gibtes Umgebungen V von a in U und W von f(a) in Rn, so dass f|V : V → W bijektivund die Umkehrabbildung (f|V )−1 : Rn ⊇ W → V ⊆ Rn differenzierbar ist.

Anders formuliert: Zu jedem y ∈ W gibt es genau eine Losung x ∈ V der Gleichung(genauer: des Gleichungssystems) f(x) = y, und die Losung x hangt differenzierbarvon y ab (soll heißen y 7→ x ist differenzierbare Abbildung).

Zusatz (Hohere Differenzierbarkeit im Umkehrsatz) Ist f von der Klasse Ck

(mit k ∈ N∪ {∞, ω}), so ist auch (f|V )−1 von der Klasse Ck. (Dabei schreiben wir Cω

fur “analytisch”, also lokal durch die Taylorreihen darstellbar.)

Bemerkung: Die Invertierbarkeit von Df(a) ist naturlich aquivalent zur Invertier-barkeit der Matrix Jf (a), was bei konkret gegebenem f die Bedingung ist, die mannachrechnet. �

Beweis des Umkehrsatzes: Statt f konnen wir Df(a)−1 ◦ f betrachten, dies hat dieIdentitat id : Rn → Rn als Ableitung bei a. Wir konnen auch mit a = 0 und f(a) = 0rechnen nach geeigneten Verschiebungen.

Wir nehmen also zusatzlich zu den Voraussetzungen des Satzes noch a = 0, f(0) = 0undDf(0) = id an. DaDf stetig ist, existiert zu κ ∈ ]0, 1[ ein r > 0 mit ‖Df(x)−id ‖ ≤κ fur |x| ≤ r.

Zu vorgegebenem y ∈ Rn betrachten wir nun gy := x− f(x) + y und finden

‖Dgy(x)‖ = ‖ id−Df(x)‖ ≤ κ fur |x| ≤ r.

Nach dem Schrankensatz ist also gy strikt kontrahierend auf der Kugel Br(0) in Rn.Außerdem wird diese Kugel fur |y| < (1 − κ)r in sich (sogar in ihr Inneres Ur(0)

141

Page 142: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

abgebildet, denn

|gy(x)| ≤ |gy(x)− gy(0)|+ |gy(0)| ≤ κ|x− 0|+ |y| < r

fur |x| ≤ r. Damit lasst dich der Banachsche Fixpunktsatz anwenden, und wir fin-den einen eindeutigen Fixpunkt x ∈ Ur(0) von gy; dieser erfullt also gy(x) = x, wasgleichbedeutend ist mit f(x) = y.

Wir durfen also W := U(1−κ)r(0) und V := f−1V ∩Ur(0) setzen, dann ist f|V : V → Wbijektiv und V,W sind offene Nullumgebungen. Der Kurze halbe schreiben wir f−1 :W → V fur die Umkehrabbildung. Die Stetigkeit von f−1 zeigen wir, indem wir eineLipschitz-Bedingung nachrechnen: Fur x, v ∈ V gilt

|x− v| = |g0(x)− g0(v) + f(x)− f(v)| ≤ κ|x− v|+ |f(x)− f(v)|,

also |x− v| ≤ 11−κ |f(x)− f(v)|. Mit y := f(x) und w := f(v) schreiben wir das um zu

|f−1(y)− f−1(w)| ≤ 1

1− κ|y − w|,

und das ist die behauptete Lipschitz-Stetigkeit von f−1 : W → V .

Als letzten Schrit beweisen wir noch die Differenzierbarkeit von f−1. Dazu erinnernwir an die Neumannsche Reihe in der folgenden Form: Ist ` : Rn → Rn eine lineareAbbildung mit ‖`− id ‖ < 1, dann ist ` invertierbar mit

`−1 = id +∞∑k=1

(id−`)k,

wobei die Potenzen rechts als Hintereinanderausfuhrungen zu lesen sind. Denn dass dasProdukt beider Seiten gleich id ist, rechnet man formal wie bei der geometrischen Reihenach, und dass die Reihe absolut konvergiert, sieht man mit der geometrischen Reihe∑

k ‖ id−`‖k als Majorante. Das wenden wir auf ` := Df(x) fur irgendein x ∈ Br(0)an, was erlaubt ist wegen ‖ id−Df(x)‖ ≤ κ < 1. Damit ist Df(x) fur jedes x ∈ Br(0)eine invertierbare Abbildung, und fur y, w ∈ W rechnen wir die Differenzierbarkeit vonf−1 einfach mit der Definition nach. (Der dritte Summand in der folgenden Rechnungerklart sich daraus, dass wir nach der Umkehrregel schon D(f−1)(f(x)) = Df(x)−1

wissen, wenn die linke Seite existiert. Wieder y = f(x) und w = f(v).)

|f−1(w)− f−1(y)−Df(x)−1(w − y)|= | −Df(x)−1[w − y −Df(x)(v − x)]|≤ ‖Df(x)−1‖ |f(v)− f(x)−Df(x)(v − x)|≤ ‖Df(x)−1‖ |v − x|R(|v − x|) mit lim

t↘0R(t) = 0

≤ 1

1− κ‖Df(x)−1‖ |w − y| sup

{R(t) : 0 < t ≤ |w − y|

1− κ

},

wobei wir in der vorletzten Zeile die Differenzierbarkeit von f in x benutzt haben. Daszeigt die behauptete Differenzierbarkeit von f−1 bei y. �

142

Page 143: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Beweisidee des Zusatzes: Im Fall k 6= ω induktiv mit der Neumannschen Reihe undder Tatsache, dass A 7→ A−1 fur n × n-Matrizen eine rationale Abbildung, also glattauf ihrem Definitionsbereich ist. Fuhren wir hier nicht weiter aus.

Fur analytische Funktionen, also fur den Fall k = ω, wird es ziemlich technisch. Mankann z.B. direkt eine konvergente Potenzreihe als Umkehrfunktion zu definieren versu-chen, aber das erfordert einiges Geschick. �

Bemerkungen: (1) Sorgfaltige Inspektion des Beweises zeigt, dass dieser gar nichtvon Rn abhangt, sondern auf jedem Banachraum E funktioniert; man braucht einfachnur | · | durch ‖ · ‖E ersetzen und muss von Df(x) zusatzlich endliche Operatornormvoraussetzen (gehort ublicherweise zur Definition von “stetig differenzierbar” auf Ba-nachraumen). Die Volllstandigkeit von E (deshalb Banachraum) braucht man, um denBanachschen Fixpunktsatz anwenden zu konnen.

(2) Auch wenn man weiß, dass f−1 existiert, darf man auf die Forderung der Inver-tierbarkeit von Df(a) fur die Existenz einer differenzierbaren Umkehrfunktion nichtverzichten. Zwar ist f(x) = x3 auf jeder Umgebung von 0 invertierbar, aber der Um-kehrsatz lasst sich wegen f ′(0) = 0 nicht anwenden, und f−1(y) = 3

√y ist nicht diffe-

renzierbar in 0. �

Definition (Diffeomorphismen) Eine Abbildung f : Rn ⊇ U → Rm (U offen)heißt ein heißt ein Ck-Diffeomorphismus von U auf f(U), wenn f(U) offen ist, finjektiv ist (d.h. eine Umkehrabbildung f−1 : f(U)→ Rn zu f existiert) und sowohl fals auch f−1 k-fach stetig differenzierbar sind. Man sagt dann auch, dass U und f(U)diffeomorph zueinander sind. Im Fall k = 0 sagt man homoomorph und nennt f einenHomoomorphismus.

Eine Abbildung f : Rn ⊇ U → Rm heißt ein lokaler Ck-Diffeomorphismus oder lokalCk-umkehrbar (bei a ∈ U), falls jeder Punkt in U (bzw. a ∈ U) eine Umgebung V inRn hat, so dass f|V ein Ck-Diffeomorphismus ist.

Bemerkung: Der Umkehrsatz zeigt, dass eine Ck-Abbildung k ≥ 1) f ein lokalerCk-Diffeomorphismus ist, genau dann, wenn Df(x) fur jedes x ∈ U invertierbar ist.Die Eigenschaft “lokaler Diffeomorphismus” ist also recht leicht nachzurechnen. Undein lokaler Diffeomorphismus ist (globaler) Diffeomorphismus, wenn er injektiv ist (wasaber manchmal aufwandig zu zeigen ist). �

Beispiele: (1) Die Polarkoordinatenparametrisierung Φ : R>0×R→ R2 (eine analyt-tische Abbildung) mit

Φ(r, ϕ) := (r cosϕ, r sinϕ)

ist wegen detDΦ(r, ϕ) = r 6= 0 ein lokaler Cω-Diffeomorphismus. Sie ist nicht injektivwegen Φ(r, ϕ + 2π) = Φ(r, ϕ). Die Einschrankung von Φ z.B. auf R>0× ] − π, π[ istinjektiv und damit (globaler) Diffeomorphismus R>0× ]− π, π[→ R2 \ R<0.

143

Page 144: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

(2) Die komplexen Potenzfunktionen pk(z) := zk (k ∈ Z) sind fur k 6= 0 lokale Diffeo-morphismen, wenn man sie auf C \ {0} definiert. Denn

Dpk(z)v =d

dt |t=0(z + tv)k = kzk−1v,

also ist Dpk(z) : C → C invertierbar fur z 6= 0. (Man beachte, dass wir hier nicht dieJacobi-Matrix ausrechnen mussten, was etwas technischer geworden ware.)

Fur k = ±1 ist pk sogar globaler Diffeomorphismus C \ {0} → C \ {0}, da injektiv.

Fur k ≥ 2 konnte man pk auf ganz C definieren. Dann handelt es sich nicht einmalum einen lokalen Diffeomorphismus, denn jedes z 6= 0 hat genau k Urbilder (die k-tenWurzeln von f); pk ist auf keiner Umgebung von 0 injektiv. Dazu passt Dpk(0) = 0(nicht invertierbar). �

Die globale Losbarkeit eines Gleichungssystems y = f(x) in der hier behandelten Formerfordert globale Diffeomorphismen. Da die Injektivitat wie gesagt nicht immer ganzleicht zu sehen ist, hier einige hinreichende Kriterien:

Satz (Hinreichende Bedingungen fur globale Umkehrbarkeit) Sei f : Rn ⊇U → Rn (U offen) eine Ck-Abbildung mit k ≥ 1. Ist eine der folgenden Bedingungenerfullt, so ist f ein (globaler) Ck-Diffeomorphismus U → f(U).

(i) f ist lokaler Diffeomorphismus und injektiv.

(ii) U ist konvex und f hat “Dreiecksgestalt”, d.h. fj(x1, . . . , xn) = gj(xj, . . . , xn) fur

alle j ∈ {1, . . . , n}, mit Funktionen gj, die∂gj∂xj6= 0 fur alle x ∈ U erfullen.

(iii) f ist “kleine Storung der Identitat”, d.h. U = Rn und ‖Df(x)− id ‖ ≤ κ fur allex ∈ Rn mit einem κ < 1; dann ist auch f(Rn) = Rn.

(iv) U ist konvex und Df positiv auf U , d.h. 〈v,Df(x)v〉 > 0 fur alle x ∈ U und allev ∈ Rn \ {0}.(v) U = Rn und f ist lokaler Diffeomorphismus und erfullt die Wachstumsbedingung|f(x)| → ∞ bei |x| → ∞; dann ist auch f(Rn) = Rm.

Beweis: (i) wurde schon fruher bemerkt.

(ii) Die Dreiecksgestalt und die Annhamen uber∂gj∂xj

zeigen, dass det Jf (x) 6= 0 fur alle

x ∈ U gilt. Nach dem Umkehrsatz ist also f lokaler Diffeomorphismus. Zum Nachweisder Injektivitat nehmen wir f(x) = f(y) fur x, y ∈ U an. Dann ist gn(xn) = gn(yn),und da g′n das Vorzeichen nicht wechseln kann, ist gn streng monoton, also injektiv; esfolgt xn = yn. Benutze nun die Monotonie von gn−1( · , xn), um xn−1 = yn−1 zu folgern,und induktiv so weiter. Man erhalt schließlich x = y. Die Konvexitat von U habenwir benutzt, um die Funktionen gj( · , xj+1, . . . , xn) nur auf Intervallen auswerten zumussen (sonst folgt aus g′ 6= 0 nicht ohne weiteres Monotonie).

(iii) liest man am Beweis des Umkehrsatzes mit ab. Der zeigt, dass f auf Br(0) injektivist, mit Bild, das mindestens B(1−κ)r(f(0)) enthalt; und das fur alle r > 0.

144

Page 145: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

(iv) Ist 〈v,Df(x)v〉 > 0 fur alle v 6= 0, dann ist KernDf(x) = {0}, also Df(x) bijektivfur alle x ∈ U ; folglich ist f lokaler Diffeomorphismus. Zum Nachweis der Injektivitatrechnen wir fur x 6= y wie folgt: Weil jeder Zwischenpunkt (1 − t)x + ty (0 < t < 1)auf [x, y] in U ist, ist d

dt〈y−x, f((1− t)x+ ty)〉 = 〈y−x,Df((1− t)x+ ty)(y−x)〉 > 0

und deshalb 〈y − x, f(y)〉 > 〈y − x, f(x)〉, also f(x) 6= f(y).

(v) ist zwar ein nutzliches Kriterium, der Beweis ist aber recht aufwandig, insbeson-dere fur die Injektivitat. Lassen wir hier einfach mal weg. �

Beispiele: (1) f(x, y) = (arctan(x+y), tanh y) erfullt f1(x, y) = g1(x, y) = arctan(x+y) mit ∂xg1(x, y) = 1

1+(x+y)2> 0 fur alle x, y, sowie f2(x, y) = g2(y) = tanh y mit

∂yg2(y) = 1 − (tanh y)2 > 0 fur alle y. Damit ist das Kriterium (ii) erfullt, und f istglobaler Diffeomorphismus zwischen R2 und f(R2) = ]− π

2, π

2[× ]− 1, 1[ .

Wir haben also einen Diffeomorphismus zwischen R2 und einem Rechteck gefunden.Zueinander diffeomorphe Mengen konnen immer noch recht verschieden aussehen!

(2) f(x, y) = (x+ 14

sin y, 45y + 1

5x) hat Jacobi-Matrix

Jf (x, y) =

(1 1

4cos y

15

45

).

Es ist also

Jf (x, y)− E2 =

(0 1

4cos y

15−1

5

)mit

|(Jf (x, y)− E2)v| =∣∣∣∣( 1

4v2 cos y

15(v1 − v2)

)∣∣∣∣ ≤ 9

20|v2|+

1

5|v1| ≤

13

20|v|.

Es folgt

‖Df(x, y)− id ‖ = ‖Jf (x, y)− E2‖ ≤13

20

fur alle (x, y) ∈ R2, also ist f kleine Storung der Identitat und damit globaler Diffeo-morphismus R2 → R2.

Es gilt ubrigens auch

v · Jf (x, y)v = v21 +

4

5v2

2 +(1

4cos y +

1

5

)v1v2

≥ v21 +

4

5v2

2 −9

20|v1v2|

≥ v21 +

4

5v2

2 −9

40(v2

1 + v22)

=31

40v2

1 +23

40v2

2

> 0

fur alle v 6= 0, so dass f auch das Positivitatskriterium aus (iv) erfullt. �

145

Page 146: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Soweit zur Losung von nichtlinearen Gleichungssystemen mit n Gleichungen und nUnbekannten. Wir wenden uns nun unterbestimmten Gleichungssystemen zu, d.h. esgibt weniger (sagen wir m) Gleichungen als Unbekannte (nennen wir ihre Anzahl n).Die Lineare Algebra sagt, dass Ax = y fur A ∈ Rm×n im Allgemeinen einen (n −m)-dimensionalen Losungsraum hat fur jedes y ∈ Rm, wenn die Matrix A maximalenRang m hat. Was wir nun suchen, ist eine (lokale) Verallgemeinerung fur nichtlineareAbbildungen f . Wie beim Umkehrsatz sollte sich die Rangbedingung an A in eine anDf(a) ubersetzen lassen.

Zunachst etwas Notation: Wir schreiben Vektoren in Rn als

x = (x′, x′′) mit x′ = (x1, . . . , xm) ∈ Rm, x′′ = (xm+1, . . . , xn) ∈ Rn−m.

Wir betrachten nun die beiden Blocke von Unbekannten x′ und x′′ getrennt und bildenfur jeden die “totale Ableitung”, d.h. wir definieren die partiellen totalen Ableitungen(die existieren, wenn Df(a) existiert) df

dx′(a) : Rm → Rm und df

dx′′(a) : Rn−m → Rm

durch

df

dx′(a)v′ = Df(a)(v′, 0) fur v′ ∈ Rm,

df

dx′′(a)v′′ = Df(a)(0, v′′) fur v′′ ∈ Rn−m.

Die lineare Abbildung dfdx′

(a) wird durch die aus den ersten m Spalten von Df(a)

gebildete m × m-Matrix dargestellt, und die lineare Abbildung dfdx′′

(a) durch die ausden letzten n−m Spalten gebildete Matrix. Naturlich haben wir

Df(a)(v′, v′′) = Df(a)[(v′, 0) + (0, v′′) =df

dx′(a)v′ +

df

dx′′(a)v′′

fur alle (v′, v′′) ∈ Rn. Der Satz, der nun die Auflosbarkeit von f(x) = y nach den erstenm Unbekannten auf das analoge Problem der Linearen Algebra zuruckfuhrt, ist derfolgende:

Hauptsatz (Satz uber implizite Funktionen) Sei n > m, U ⊆ Rn offen, f :U → Rm eine Funktion der Klasse Ck (1 ≤ k ≤ ω), a = (a′, a′′) ∈ U . Ist df

dx′(a)

invertierbar, dann ist das Gleichungssystem f(x) = y lokal bei a nach den ersten mUnbekannten auflosbar. Das heißt es gibt Umgebungen V von a in Rn, V ′′ von a′′ inRn−m und W von f(a) in Rm sowie eine Ck-Funktion g : W × V ′′ → Rm mit

(x′, x′′) ∈ V, f(x′, x′′) = y ⇔ x′′ ∈ V ′′, y ∈ W, x′ = g(y, x′′).

Bemerkungen: (1) g heißt lokal auflosende Funktion fur f(x) = y bei a. Sie istcharakterisiert durch

(g(y, x′′), x′′) ∈ V und f(g(y, x′′), x′′) = y fur x′′ ∈ V ′′.

Man sagt auch, dass g bei a implizit durch f(g(y, x′′), x′′) = y definiert wird .

146

Page 147: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

(2) Geometrische Interpretation: Sind die Voraussetzungen des Satzes erfullt, so sinddie Losungsmengen der Gleichung f(x) = y lokal bei a Graphen {gy(x′′), x′′ : x′′ ∈ U ′′}differenzierbarer Funktionen gy(x

′′) := g(y, x′′). Vergleich zu linearen Abbildungen f :dort sind diese Graphen parallele (m−n)-dimensionale affine Unterraume; lokal habenwir im nichtlinearen Fall eine “verbogene” Version dieser einfachen Losungsmengen.

(3) Global braucht die Losungsmenge kein Graph zu sein. Zum Beispiel ist die Losungs-menge von x′2 +x′′2 = y in R2 fur jedes y > 0 ein Kreis mit Radius

√y und deshalb kein

Graph. Lokal konnen wir aber, in Ubereinstimmung mit der Aussage des Satzes nachx′ auflosen: Schreiben wir f(x′, x′′) := x′2 +x′′2. Fur x′ 6= 0 ist df

dx′(x′, x′′) = 2x′ 6= 0 (ei-

gentlich als Abbildung v 7→ 2x′v zu lesen) invertierbar, also kann lokal nach x′ aufgelostwerden, z.B. durch x′ = g(y, x′′) :=

√y − x′2 oder durch x′ = g(y, x′′) := −

√y − x′′2,

je nach Vorzeichen des ursprunglich gegebenen a′.

(4) Formal erhalt man mit m = n den Umkehrsatz als Spezialfall. Die lokal auflosendeFunktion g hangt dann nicht von x′′ (ware in R0) ab und heißt f−1. �

Beweis des Satzes: Die Idee ist, f durch zusatzlich redundante Eintrage zu einerAbbildung Rn → Rn zu machen, auf die man dann den Umkehrsatz anwenden kann.Dazu definieren wir h : Rn → Rn durch h(x) = h(x′, x′′) := (f(x), x′′). Dann ist

Dh(a)v =d

dt |t=0(f(a+ tv), a′′ + tv′′)) = (Df(a)v, v′′)

fur v = (v′, v′′) ∈ Rm×Rn−m. Wegen Df(a)v = dfdx′

(a)v′ + dfdx′′

(a)v′′, wird Dh(a) durcheine Block-Dreiecksmatrix der Form(

dfdx′

(a) dfdx′′

(a)0 idRn−m

)(bei Identifikation von Ableitungen mit ihren Jacobi-Matrizen) dargestellt. Nach Vor-aussetzung ist df

dx′(a) invertierbar, hat also Determinante 6= 0, und die Rechenregeln

fur Determinanten ergeben dieselbe Determinante fur Dh(a). Folglich ist auch Dh(a)invertierbar, und wir konnen den Umkehrsatz auf h nahe a anwenden. Dadurch erhal-ten wir Umgebungen V von a und Y von h(a) = (f(a), a′′) in Rn, so dass h|V : V → Wbijektiv ist mit einer Ck-Umkehrabbildung (h|V )−1. O.B.d.A. konnen wir nach Ver-kleinerung annehmen, dass Y = W × V ′′ Produktgestalt hat mit einer UmgebungW von f(a) in Rm und einer Umgebung V ′′ von a′′ in Rn−m. Die Umkehrabbildung(h|V )−1 : W × V ′′ → V hat offensichtlich die Form

(h|V )−1(y, x′′) = (g(y, x′′), x′′)

mit einer Ck-Funktion g : W × V ′′ → Rm, denn wie h muss (h|V )−1 die x′′-Variablenfestlassen. Die Rechnung

x ∈ V, f(x) = y ⇔ x ∈ V, y ∈ W, h(x) = (y, x′′)

⇔ x′′ ∈ V ′′, y ∈ W, x = (h|V )−1(y, x′′) = (g(y, x′′), x′′)

⇔ x′′ ∈ V ′′, y ∈ W, x′ = g(y, x′′)

147

Page 148: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

zeigt, dass g die gesuchte “implizite Funktion” ist. �

Zusatz (Ableitungen der auflosenden Funktion) Unter den Voraussetzungen desSatzes uber die implizite Funktion gelten die Ableitungsformeln

dg

dy(y, x′′) =

df

dx′(g(y, x′′), x′′)−1,

dg

dx′′(y, x′′) = − df

dx′(g(y, x′′), x′′)−1 df

dx′′(g(y, x′′), x′′).

Beweis: Mit der Kettenregel berechne

idRm =d

dy[f(g(y, x′′), x′′)]

=df

dx′(g(y, x′′), x′′)

dg

dy(y, x′′),

0 =d

dx′′[f(g(y, x′′), x′′)]

=df

dx′(g(y, x′′), x′′)

dg

dx′′(y, x′′) +

df

dx′′(g(y, x′′), x′′),

woraus man die Behauptungen abliest. �

In der bisherigen Version des Satzes uber implizite Funktionen haben wir die Gleichungf(x) = y nahe a ∈ Rn immer nach den ersten m Variablen x′ aufgelost, d.h. x′ =g(y, x′′) ausgedruckt. Dazu musste die partielle totale Ableitung df

dx′(a) invertierbar

sein. In diesem Fall ist die Losungsmenge der Gleichung lokal ein Graph der Funktionx′′ 7→ g(y, x′′) uber einer Teimenge von Rn−m.

Aber es ist ja nicht unbedingt notig, die Losungsmenge so darzustellen. Es ware jaschon genug, sie als Graph uber irgendeiner (m−n)-dimensionalen Koordinatenebenezu schreiben. Dazu muss ja nur die partielle totale Ableitung zu irgendwelchen mVariablen bei a invertierbar sein. Das bedeutet nichts anderes, als dass Df(a) Rang m(also maximalen Rang) hat. Das fassen wir in einem Satz zusammen:

Satz (Satz uber implizite Funktionen mit Rangbedingung) Sei m < n, U ⊆Rn offen, f : Rn ⊇ U → Rm von der Klasse Ck (mit k ≥ 1) und a ∈ U . Ist dieAbleitung Df(a) : Rn → Rm surjektiv, also RangDf(a) = m, so gibt es eine ZerlegungRn = E ′⊕E ′′ in eine direkte Summe von Unterraumen der Dimensionen m und n−m(x = x′ + x′′ mit x′ ∈ E ′, x′′ ∈ E ′′ fur alle x ∈ Rn) und Umgebungen V von a inRn, V ′′ von a′′ in E ′′ und W von f(a) in Rm, so dass gilt: Es gibt eine Ck-Funktiong : W × V ′′ → E ′′ mit

x = x′ + x′′ ∈ U, f(x) = y ⇔ y ∈ W, x′′ ∈ V ′′, x′ = g(y, x′′).

Dabei kann E ′ als der von ej1 , . . . , ejm erzeugte Unterraum von Rn gewahlt werden,wenn die m Spalten mit den Nummern j1, . . . , jm von Df(a) linear unabhangig sind.

148

Page 149: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Beweis: Es gibt die zuletzt erwahnten Spalten, wenn RangDf(a) = m erfullt ist.Nummeriere die Koordinaten in Rn so um, dass dies die Spalten mit den Nummern1, . . . ,m werden, und wende den Satz uber implizite Funktionen an. Identifiziere denvon em+1, . . . , en aufgespannten Unterraum mit E ′′. �

Bemerkungen: (1) Ist die Rangbedingung also erfullt, so sind die Losungsmengen zuf(x) = y lokal bei a Graphen einer Funktion x′′ 7→ g(y, x′′) nach geeigneter Umnum-merierung der Koordinatenrichtungen.

(2) Ist die Bedingung verletzt, dann kann es passieren, dass die Losungsmenge “auskeiner Richtung gesehen” Graph einer Funktion von n−m Variablen ist. Zum Beispielweil sich verschiedene “Zweige” von solchen Graphen in a schneiden. Man kann dannanhand der Ableitung Df(a) nicht genau voraussagen, was passiert.

Als Beispiel betrachten wir f(x1, x2) = xk1 − x22 = 0 (also m = 1, n = 2). Wir haben

verschiedenes Verhalten in verschiedenen Fallen:

k = 1 : Es ist Jf (0, 0) = (2 0) mit Rang 1. Lokale Auflosung von x1−x22 = y nach einer

der beiden Variablen x1 oder x2 sollte also moglich sein, und da die zweite Spalte vonDf(0, 0) Null ist, versuchen wir Auflosung nach x1. Das geht naturlich: x1 = y + x2

2.Dagegen gibt es bei Auflosung nach x2 fur y nahe f(0, 0) = 0 Probleme (zwei Losungenoder keine oder eine je nach Vorzeichen von y; Wurzelfunktion nicht differenzierbar).

k ≥ 2 : Hier ist Jf (0, 0) = (0 0), was definitiv nicht den Rang 1 hat. Deshalb ist dieBedingung fur den Satz nicht erfullt, und wir mussen uns auf “alles” gefasst machen.Die Bilder fur k = 2, 3, 4 zeigen ein sehr unterschiedliches Verhalten:

(...siehe Vorlesung...) �

Durch den vorigen Satz lasst sich also das Konzept einer “glatten d-dimensionalenFlache in Rn” ganz gut beschreiben. Wir fassen das zusammen in der folgenden Cha-rakterisierung:

Satz und Definition (Differenzierbare Untermannigfaltigkeiten) Es sei n ∈N, d ∈ {1, . . . , n}, k ∈ N ∪ {∞, ω}. Fur Teilmengen M ⊆ Rn sind die folgendenBedingungen aquivalent. Falls eine dieser Bedingungen erfullt ist (und damit alle erfulltsind), nennen wir M eine d-dimensionale Ck-Untermannigfaltigkeit von Rn, oft aucheinfach eine differenzierbare Untermannigfaltigkeit.

(i) M besitzt lokal eine regulare implizite Darstellung der Klasse Ck durch n− d Glei-chungen, d.h. zu jedem x ∈M gibt es eine Umgebung U in Rn und eine Ck-Abbildungf : U → Rn−d, so dass M ∩U = f−1{0} und RangDf(x) = n−d (“maximaler Rang”)fur alle x ∈ U .

(ii) M besitzt lokal eine regulare Parametrisierung der Klasse Ck, d.h. zu jedem x ∈Mgibt es eine Umgebung U in Rn, eine offene Menge V ⊆ Rd und eine Ck-Abbildungg : V → Rn mit RangDϕ(ξ) = d (“maximaler Rang”) fur alle ξ ∈ V , so dass g : V →M ∩ U Homoomorphismus ist (d.h. bijektiv und g und g−1 stetig).

(iii) M besitzt lokal eine explizite Darstellung der Dimension d und Klasse Ck, das ist

149

Page 150: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

nach Bewegung eine lokale Darstellung als Funktionsgraph. Genauer gibt es zu jedemx ∈ M eine Umgebung U in Rn, eine offene Menge V ∈ Rd, eine Ck-Funktion ϕ :V → Rn−d und eine Bewegung T des Rn (d.h. Tx = Ox + y mit einer orthogonalenn×n-Matrix O und einem festen Vektor y ∈ Rn), so dass M ∩U = T (Graphϕ). Dabeiist Graphϕ = {(ξ, ϕ(ξ)) : ξ ∈ V } ⊆ Rd × Rn−d = Rn.

Beweis(skizze): (i)⇒(iii) ist der vorige Satz.

(iii)⇒(ii) folgt einfach, indem man g(ξ) := T ((ξ, ϕ(ξ))) setzt.

(ii)⇒(iii) geht, indem man U so klein wahlt, dass M∩U Graph uber einem d-dimensio-nalen Unterraum BildDg(ξ0) von Rn ist.

(iii)⇒(i) beweist man so: Jedes x ∈ U ist von der Form T ((ξ, η)) mit ξ ∈ Rd, η ∈ Rn−d.Definiere z.B. f(x) := η − ϕ(ξ). �

Beispiele: (0) Die n-dimensionalen Untermannigfaltigkeiten von Rn sind genau dieoffenen Mengen.

(1) Jeder Funktionsgraph einer differenzierbaren Funktion Rd → R` ist d-dimensionaledifferenzierbare Untermannigfaltigkeit von Rd+` nach (iii).

(2) Die Einheitssphare Sn−1 in Rn ist differenzierbare (sogar analytische, d.h. von derKlasse Cω) Untermannigfaltigkeit von Rn. Denn sie wird (sogar global) explizit durcheine Gleichung |x|2 = 1 beschrieben. Setzen wir also f : Rn → R mit f(x) := |x|2 − 1,dann ist f(x) = x2

1 + . . .+x2n+1 eine (abbrechende) Potenzreihe und damit analytisch.

Es gilt Jf (x) = 2xtr, d.h. Df(x) hat fur jedes x außer 0 den maximalen Rang 1 (undwegen 0 /∈ Sn−1 konnen wir U := Rn \ {0} fur das Nachrechnen der Definition (i)wahlen). Folglich ist die Rangbedingung aus (i) erfullt, und Sn−1 ist eine analytischeUntermannigfaltigkeit der Dimension n− 1 (da mit 1 Gleichung beschrieben).

(3) Auch die Halbsphare

Sn−1+ := {x ∈ Rn : |x| = 1, xn > 0}

ist differenzierbare Untermannigfaltigkeit der Klasse Cω, denn hier gilt die impliziteDarstellung aus (2) lokal; zu x ∈ Sn−1

+ wahle zum Beispiel U := Uxn/2(x).

(4) Die Menge

M := {(w, x, y, z) ∈ R4 : x2 + y2 = w2 + z2, 6z + 4w = −3} ⊆ R4

wird implizit durch zwei Gleichungen beschrieben, konnte also zweidimensionale Un-termannigfaltigkeit in R4 sein. Um das nachzuprufen, setzen wir f : R4 → R2 mit

f(w, x, y, z) :=

(x2 + y2 − w2 − z2

6z + 4w + 3

),

dann ist M = f−1{0}. Wir berechnen

Jf (w, x, y, z) =

(−2w 2x 2y −2z

4 0 0 6

).

150

Page 151: Analysis II - uni-due.dehm0131/ana2/ana2.pdf · Analysis II Andreas Gastel Duisburg, Sommersemester 2011 Dieses Skript ist haupts achlich zu meiner eigenen Vorbereitung auf die Vorlesung

Diese Matrix hat maximalen Rang, wenn die beiden Zeilen linear unabhangig sind. Siesind nur dann linear abhangig, wenn (−w, x, y,−z) und (4, 0, 0, 6) linear abhangig sind,aber das kann in M mit Sicherheit nicht passieren: Denn das wurde der ersten Glei-chung widersprechen, außer in (0, 0, 0, 0), welches aber wegen der zweiten Gleichungnicht in M liegt. Folglich ist U := R4 \{(4t, 0, 0, 6t) : t ∈ R} eine offene Umgebung vonM , auf der RangDf = 2 gilt. Damit ist M tatsachlich Untermannigfaltigkeit von R4

der Dimension 2 (und von der Klasse Cω). �

Allen viel Erfolg bei den Klausuren und Prufungen, und trotzdemschone Ferien!

151