Numerische Mathematik II
Gunter Barwolff
15. Marz 2010
Skript, geschrieben parallel zur Vorlesung Numerische Mathematik imWS2009/10 an der TU Berlin,Stand nach Berucksichtigung der Korrekturhinweise von K. Peisert und A.Heydt
i
Inhaltsverzeichnis
0 Vorwort 1
1 Numerische Losung von AWPs gewohnlicher Dgln. 21.1 Methoden zur geschlossenen Losung von Dgln. . . . . . . . . . 3
1.1.1 Trennung der Veranderlichen . . . . . . . . . . . . . . . 31.1.2 Variation der Konstanten . . . . . . . . . . . . . . . . 41.1.3 Homogene Systeme mit konstanten Koeffizienten . . . . 51.1.4 Existenz- und Eindeutigkeitsaussagen . . . . . . . . . . 7
1.2 Theorie der Einschrittverfahren . . . . . . . . . . . . . . . . . 101.3 Spezielle Einschrittverfahren . . . . . . . . . . . . . . . . . . . 14
1.3.1 Euler-Verfahren . . . . . . . . . . . . . . . . . . . . . . 141.3.2 Einschrittverfahren der Konsistenzordnung p = 2 . . . 15
1.4 Verfahren hoherer Ordnung . . . . . . . . . . . . . . . . . . . 161.4.1 Mehrstufige Runge-Kutta-Verfahren . . . . . . . . . . . 16
1.5 Einige konkrete Runge-Kutta-Verfahren und deren Butcher-Tabellen 201.6 Asymptotische Entwicklungen . . . . . . . . . . . . . . . . . . 231.7 Schrittweitensteuerung . . . . . . . . . . . . . . . . . . . . . . 33
1.7.1 Einbettungsverfahren . . . . . . . . . . . . . . . . . . . 331.7.2 Schrittweitensteuerung durch Extrapolation . . . . . . 35
1.8 Mehrschrittverfahren . . . . . . . . . . . . . . . . . . . . . . . 371.8.1 Technische Hilfsmittel zur Konstruktionvon linearen Mehrschrittverfahren 431.8.2 Adams-Verfahren . . . . . . . . . . . . . . . . . . . . . 461.8.3 Konsistenzordnung linearer Mehrschrittverfahren . . . 511.8.4 Stabilitat von Losungsverfahren . . . . . . . . . . . . . 551.8.5 BDF-Verfahren . . . . . . . . . . . . . . . . . . . . . . 60
1.9 Steife Differentialgleichungen . . . . . . . . . . . . . . . . . . . 631.10 Weitere klassische lineare Mehrschrittverfahren . . . . . . . . . 68
2 Zweipunkt-Randwertaufgaben 702.1 Theoretische Grundlagen . . . . . . . . . . . . . . . . . . . . . 70
2.1.1 Einfuhrendes Beispiel und Definitionen . . . . . . . . . 70
ii
2.1.2 Losbarkeit des 1. RWP im symmetrischen Fall . . . . . 722.1.3 Maximum-Prinzip fur lineare RWP . . . . . . . . . . . 74
2.2 Finite- Differenzen- Verfahren . . . . . . . . . . . . . . . . . . 772.2.1 Definition der klassischen FDM . . . . . . . . . . . . . 772.2.2 Losung des diskreten Problems . . . . . . . . . . . . . 782.2.3 Stabilitats- und Konvergenzanalyse . . . . . . . . . . . 80
2.3 Ritz-Galerkin-Verfahren fur RWP . . . . . . . . . . . . . . . . 862.3.1 Variationsgleichungen . . . . . . . . . . . . . . . . . . . 862.3.2 Verallgemeinerte Ableitungen . . . . . . . . . . . . . . 882.3.3 Ritz-Galerkin-Verfahren . . . . . . . . . . . . . . . . . 912.3.4 Finite-Element-Methode fur Zweipunkt-RWP . . . . . 942.3.5 Weitere mogliche Basisfunktionen . . . . . . . . . . . . 98
2.4 Kollokationsverfahren . . . . . . . . . . . . . . . . . . . . . . . 992.5 Schießverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 101
2.5.1 Das einfache Schießverfahren fur skalare Gleichungen . 1012.5.2 Schießverfahren fur Dgl.-Systeme . . . . . . . . . . . . 1042.5.3 Schießverfahren fur lineare Randwertaufgaben . . . . . 1052.5.4 Mehrzielverfahren (linearer Fall) . . . . . . . . . . . . . 1082.5.5 Mehrzielverfahren (allgemeiner Fall) . . . . . . . . . . . 110
3 Partielle Differentialgleichungen und deren numerische Losung1123.1 Beispiele partieller Differentialgleichungen der math. Physik . 1123.2 Numerische Losungsmethoden fur part. Dgln. . . . . . . . . . 118
3.2.1 Finite-Differenzen-Methoden . . . . . . . . . . . . . . . 1183.2.2 Finite-Volumen-Methode . . . . . . . . . . . . . . . . . 129
4 Matrix-Eigenwertprobleme 1394.1 Problembeschreibung und algebraische Grundlagen . . . . . . 1394.2 Abschatzungen und Lokalisierung von Eigenwerten . . . . . . 1434.3 Numerische Methoden zur Eigenwertberechnung . . . . . . . . 149
4.3.1 Transformation auf Hessenberg- bzw. Tridiagonalform . 1494.3.2 Newton-Verfahren zur Berechnung von Eigenwerten von Hessenberg-Matrizen1524.3.3 Das Newtonverfahren fur tridiagonale Matrizen . . . . 1534.3.4 Jacobi-Verfahren zur Eigenwertberechnung . . . . . . . 1544.3.5 Von-Mises-Vektoriteration . . . . . . . . . . . . . . . . 1594.3.6 QR-Verfahren . . . . . . . . . . . . . . . . . . . . . . . 164
iii
Kapitel 0
Vorwort
Diese Skript entsteht parallel zur Vorlesung im Wintersemester 2009/10 undenthalt die wesentlichen Inhalte wie z.B. alle Definitionen und Satze, wobeibei den Beweisen in der Regel nur Verweise auf Textbucher oder Beweisskiz-zen angegeben werden. Als Lehrbucher seien z.B.
• Robert Plato: Numerische Mathematik kompakt. Grundlagenwissen furStudium und Praxis
• Stoer/Bulirsch: Numerische Mathematik 1/2
• Deuflhard/Hohmann/Bornemann: Numerische Mathematik 1/2
• Hans R. Schwarz, Norbert Kockler: Numerische Mathematik
• Gunter Barwollf: Numerik fur Ingenieure, Physiker und Informatiker
• Walter Oevel: Einfuhrung in die numerische Mathematik
empfohlen.
1
Kapitel 1
Numerische Losung von AWPsgewohnlicher Dgln.
1. Vor-lesungam13.10.2009
Im Ergebnis mathematischer Modellierungen entstehen oft Differentialglei-chungen, die nicht geschlossen losbar sind. Z.B. erhalt man Dgln. der Form
x = αx − βxy
(1.1)
y = γxy − δy
wobei x(t) z.B. eine ”Beutepopulation” und y(t) eine ”Rauberpopulation”beschreiben (α, β, γ, δ > 0, reelle Konstanten). Mit vorgegebenen Anfangs-werten, z.B.
x(0) = x0 , y(0) = y0 (1.2)
hat man mit (1.1), (1.2) ein Anfangswertproblem mit einem System von Dgln.1. Ordnung gegeben, dass nur numerisch losbar ist.Als weitere Beispiele von AWP seien hier mathematische Modelle fur denradioaktiven Zerfall
dm
d t= −k(t) m , m(t0) = m0 ∈ R ,
wobei k(t) eine positive vorgegebene Funktion ist, bzw. das Modell fur dieAbkuhlung eines ”idealen” Korpers
d T
d t= −k(T − Tu) , T (t0) = T0 ∈ R ,
mit einer positiven reellen Konstanten k und der Umgebungstemperatur Tu
genannt.
2
1.1 Methoden zur geschlossenen Losung von
Dgln.
Bevor man numerische Methoden zur Losung von Dgln. bemuht, sollte mangegebenenfalls prufen, ob eine Losung auf analytischem Weg bestimmt wer-den kann. Im Folgenden sollen einige wichtige Methoden der geschlossenenLosung von gewohnlichen Dgln. kurz dargestellt werden.
1.1.1 Trennung der Veranderlichen
Hat man eine homogene Dgl. der Form
y′ = g(y)h(t) (1.3)
zu losen, dann kann man unter der Voraussetzung, dass g(y) 6= 0 ist, unterNutzung der Substitutionsregel den folgenden Losungsweg beschreiben:
y′
g(y)= h(t) =⇒
∫dy
g(y)=
∫
h(t) dt =⇒ G(y) = H(t) + c ,
wobei hier davon ausgegangen wurde, dass mit G(y) und H(t) Stammfunk-tionen von 1
g(y)und h(t) vorliegen. Vorausgesetzt, dass der Teil des Definiti-
onsbereiches von G(y), auf dem G injektiv ist, nichtleer ist, kann man mit
y(t) = G−1[H(t) + c]
die allgemeine Losung der Differentialgleichung bestimmen. c ist hierbei einefreie Konstante, die man bei Vorgabe einer Anfangsbedingung y(t0) = y0
durchc = G(y0) − H(t0)
bestimmen kann. Als Beispiel betrachten wir das AWP
y′ =2ty
t2 + 1, y(0) = 1 .
Nach Trennung der Veranderlichen y und t erhalt man
y′
y=
2t
t2 + 1=⇒
∫dy
y=
∫2t
t2 + 1dt =⇒ ln |y| = ln(1 + t2) + c ,
und nach Integration erhalt man
y(t) = ± exp(c)(1 + t2) =: c∗(1 + t2)
und die Berucksichtigung des AWs ergibt mit c∗ = 1 die Losung des AWPs
y(t) = 1 + t2 .
3
1.1.2 Variation der Konstanten
Hat man es mit einer linearen Differentialgleichung der Form
y′ + a(t)y = f(t) (1.4)
zu tun, dann gehen wir nun davon aus, dass man mit der Methode der Tren-nung der Veranderlichen die allgemeine Losung yh(t) der zugehorigen homo-genen Dgl. y′ + a(t)y = 0 bestimmt hat. Mit yh ist auch c yh eine Losung derhomogenen Dgl. y′ + a(t)y = 0 und durch den Ansatz der Variation derKonstanten
yp(t) = c(t)yh(t)
kann nun eine partikulare Losung yp der Dgl. (1.4) bestimmt werden. Mit
y′p(t) = c′(t)yh(t) + c(t)y′
h(t)
erhalt man durch Einsetzen in (1.4)
c′(t)yh(t) + c(t)y′h(t) + a(t)c(t)yh(t) =
c′(t)yh(t) + c(t)[y′h(t) + a(t)yh(t)] = c′(t)yh(t) = f(t) ,
da yh Losung der homogenen Dgl. ist. Unter der Voraussetzung, dass yh 6= 0gilt, erhalt man mit
c(t) =
∫f(t)
yh(t)dt
die ”variierte” Konstante und erhalt schließlich mit
y(t) = c0yh(t) + yp(t) , c0 ∈ R ,
die allgemeine Losung der Dgl. (1.4). Die freie Konstante c0 erlaubt dieErfullung einer Anfangsbedingung.Hat man die mit
yh(t) = c1y1(t) + · · · + cnyn(t)
die allgemeine Losung des linearen homogenen Dgl.-Systems 1. Ordnung
y′ = A(t)y , (1.5)
wobei A(t) eine (n×n)-Matrix stetiger Koeffizientenfunktionen ist, gegeben,dann kann man fur das lineare inhomogene Dgl.-System
y′ = A(t)y + f(t)
4
ebenfalls durch Variation der Konstanten eine partikulare Losung bestim-men. Der Ansatz
yp(t) = c1(t)y1(t) + · · · + cn(t)yn(t) =: W (t)c(t)
ergibt nach Differentiation
y′p(t) = W ′(t)c(t) + W (t)c′(t) = A(t)W (t) + f(t) =⇒ W (t)c′(t) = f(t) ,
da die Spalten yk der Matrix W (t) Losungen des homogenen Systems sind.Bilden yk, k = 1, . . . , n, eine Losungsbasis, handelt es sich bei der Matrix Wum die Wronski-Matrix und man erhalt nach Integration
c(t) =
∫
W−1(t)f(t) dt
mity(t) = c1y1(t) + · · · + cnyn(t) + W (t)c(t)
die allgemeine Losung des linearen inhomogenen Dgl.-Systems (1.5) (W−1(t)existiert, da yk, k = 1, . . . , n, eine Losungsbasis ist).
1.1.3 Homogene Systeme mit konstanten Koeffizien-ten
Im vorigen Abschnitt wurde von einer allgemeinen Losung eines homogenenDgl.-Systems 1. Ordnung ausgegangen. Im Allg. ist die Bestimmung einersolchen allgemeinen Losung nicht ohne Weiteres moglich. Recht einfach wirdes jedoch im Fall eines Systems mit konstanten Koeffizienten, d.h. Systemender Form
y′ = Ay , (1.6)
mit einer konstanten (n × n)-Matrix. Besonders einfach wird es, wenn dieMatrix A diagonalisierbar ist, d.h. in der Form
A = BΛB−1
mit einer Diagonalmatrix Λ darstellbar ist. Die Spalten von B bestehen dabeiaus den Eigenvektoren von A und die Diagonalmatrix Λ enthalt die Eigen-werte λk, wobei auch mehrfache EW moglich sind, bei denen allerdings diealgebraische und geometrische Vielfachheit im Falle der Diagonalisierbarkeitubereinstimmt. Mit der Hilfsfunktion z = B−1y erhalt man aus (1.5)
y′ = BΛB−1y =⇒ z′ = Λz
5
mit den Losungen
zk(t) = ckeλk t , k = 1, . . . , n, ck ∈ R,
fur die einzelnen Komponenten von z. Fur die allgemeine Losung von (1.5)erhalt man schließlich
y(t) = c1eλ1 tb1 + · · · + cne
λn tbn .
Die Losung von (1.5) ist also gleichbedeutend mit der Losung des Eigenwert-problems fur die Matrix A.Etwas komplizierter ist der allgemeine Fall einer Matrix A, die nicht dia-gonalisierbar ist. Hier wird die Jordansche Normalform benotigt, d.h. eineregulare Matrix B und eine Matrix D (Jordansche Normalform)
D =
J1
. . .
Jk
, Ji =
λi 1λi 1
0. . . 1
λi
,
mit den (ni × ni)-Jordan-Kastchen Ji, so dass
A = BDB−1 ⇐⇒ B−1AB = D
gilt. Wie oben fuhren wir die Hilfsfunktion z = B−1y ein, wobei
z(t) = (z(1)(t), . . . , z(k)(t))T
mit z(i)(t) ∈ Rni partitioniert ist. Das Gleichungssystem (1.6) lasst sich zer-
legen in die separaten Systeme
[z(i)(t)]′ = Jiz(i)(t) , 1 ≤ i ≤ k .
Es ist nun leicht festzustellen, dass das Gleichungssystem
w′ = Jw , J =
λ 1λ 1
0. . . 1
λ
∈ Rs×s ,
also
w′1 = λw1 + w2
...
w′s−1 = λws−1 + ws
w′s = λws
6
die allgemeine Losung
ws(t) = cseλt
ws−1(t) = (cs−1 + cst)eλt
... (1.7)
w1(t) = (c1 + c2t + · · · + csts−1
(s − 1)!eλt
hat. Die allgemeine Gestalt von z(i) entnimmt man jeweils aus (1.7) fur λ = λi
und s = ni. Mit y = Bz erhalt man schließlich die allgemeine Losung desursprunglichen Problems.Alles in allem lasst sich die Losung eines linearen homogenen Dgl.-Systemsmit konstanten Koeffizienten auf die Losung eines EW-Problems der Koeffizi-entenmatrix oder allgemeiner auf die Bestimmung der Jordanschen Normal-form der Koeffizientenmatrix A zuruckfuhren (die Bestimmung der Jordan-schen Normalform fallt mit der Diagonalisierung zusammen, wenn bei allenEW von A die algebraische mit der geometrischen Vielfachheit ubereinstimmt).
1.1.4 Existenz- und Eindeutigkeitsaussagen2. Vor-lesungam14.10.2009
Wenn man Losungen nicht wie in den diskutierten Fallen ”ausrechnen” kann,dann sollte vor einer evtl. numerischen Losung klar sein, ob uberhaupt eineLosung existiert, und wenn ja, ob es die einzige ist.Im Folgenden werden die wichtigsten Aussagen zur Existenz und Einzigkeitder Losung von Anfangswertproblemen der Form
y′ = f(t, y) , y(t0) = y0 , (1.8)
Die wichtigsten Anforderungen an die Funktion
f : [t0, T ] × Rn → R
n
sollen an Beispielen herausgearbeitet werden.Betrachtet man die Dgl.
y′ = sgn(t) ,
d.h. man hat als rechte Seite eine unstetige Funktion, dann gibt es in jedemIntervall, das Null enthalt, keine Losung, denn fur t > 0 hatte man mity(t) = t und fur t < 0 mit y(t) = −t eine Losung, und das ergibt eineFunktion, die an der Stelle t = 0 nicht diff’bar ist, was aber fur eine Losungeiner Dgl. zutreffen sollte. Damit ist die Stetigkeit zumindest eine notwendigeVoraussetzung fur die Existenz einer Losung. Diesen Sachverhalt beschreibtder
7
Satz 1.1 (Peano). Fur das AWP (1.8) sei f : Za,b → Rn stetig auf
Za,b := [t0 − a, t0 + a] × Unb (y0)
(mit Unb (y0) = y ∈ R
n | ||y − y0|| ≤ b, a, b > 0). Dann existiert mindestenseine Losung des AWPs (1.8) auf dem Intervall [t0 − α, t0 + α], wobei
α := mina,b
M , M := max||f(t, y)|| | (t, y) ∈ Za,b .
Dieser Satz wird auch Existenzsatz von Peano genannt. Der Beweis wirdunter Zuhilfenahme von Euler-Polygonen, die uns spaeter bei der numeri-schen Losung von AWPs begegnen werden, unter wesentlicher Nutzung derStetigkeitsvoraussetzung gefuhrt.Aber nicht hier. Zum Nachlesen sei z.B. auf das Buch von B. Aulbach ”Gew.Dgln.” verwiesen.Nach dem Satz von Peano existiert also bei Stetigkeit der rechten Seite einLosung. Wir werden aber mit dem folgenden Beispiel sehen, dass die Stetig-keit keine Eindeutigkeit garantiert.Wir betrachten das Beispiel
y′ = 3√
y2 , y(0) = 0 .
Mit der Trennung der Veranderlichen findet man die allgemeine Losung derForm
y(t) =1
27(t − c)3
mit c ∈ R. Als Losungen des AWPs findet man mit
yα,β(t) =
127
(t − α)3 , t ≤ α0 , t = 0127
(t − β)3 , t ≥ β,
wobei α ≤ 0 ≤ β beliebige reelle Zahlen sind. Man findet damit unendlichviele Losungen des AWPs. Die rechte Seite f(t, y) = 3
√
y2 ist offensichtlichstetig. Allerdings ist die rechte Seite in der Nahe von y = 0 nicht Lipschitz-stetig. Grob gesprochen liegt das daran, dass die Ableitung fy(t, y) = 2
3y1/3
fur kleine y groß wird, d.h. man findet keine Lipschitz-Konstante L, so dass
|f(t, y1) − f(t, y2)| ≤ L|y1 − y2|
fur alle t und y1, y2 ∈ R gilt. Im folgenden Satz von Picard-Lindelof wird ge-zeigt, dass im Falle der Lipschitz-Stetigkeit von f bezugl. y die Eindeutigkeiteiner Losung gesichert ist.
8
Satz 1.2 (Picard-Lindelof). Fur das AWP (1.8) sei f : Za,b → Rn stetig auf
Za,b := [t0 − a, t0 + a] × Unb (y0)
(mit Unb (y0) = y ∈ R
n | ||y − y0|| ≤ b, a, b > 0). Außerdem gebe es eineKonstante L ≥ 0 mit der Eigenschaft
||f(t, y) − f(t, z)|| ≤ L||y − z|| fur alle (t, y), (t, z) ∈ Za,b . (1.9)
Dann existiert genau eine Losung des AWPs (1.8) auf dem Intervall [t0 −α, t0 + α], wobei
α := mina,b
M , M := max||f(t, y)|| | (t, y) ∈ Za,b .
Beweis. Im folgenden werden die wesentlichen Beweis-Schritte skizziert.Schritt 1: Auf [t0 − α, t0 + α] wird die Folge der Picard-Iterierten
λ0(t) := y0
λk+1(t) := y0 +
∫ t
t0
f(s, λk(s)) ds , k ∈ N (1.10)
konstruiert, wobei mit dem Nachweis der Ungleichung
||λk(t) − y0|| ≤ b
und damit (s, λk(s)) ∈ Za,b, also im Def.-Bereich von f , die Konstruktiongerechtfertigt wird.
2. Schritt: Mit vollst. Induktion wird fur alle t ∈ [t0 − α, t0 + α] und allek ∈ N die Ungleichung
||λk+1(t) − λk(t)|| ≤ MLk |t − t0|k+1
(k + 1)!
gezeigt, wobei wesentlich die Voraussetzung (1.9) benutzt wird.
3. Schritt: Es wird die gleichmaßige Konvergenz der Funktionenfolge (λk(t))k∈N
auf dem Intervall [t0 − α, t0 + α] gezeigt. Die Grenzfunktion wird mit λ∞(t)bezeichnet.
4. Schritt: Es wird gezeigt, dass die Grenzfunktion λ∞(t) Losung des AWPist, d.h. dass
λ∞(t) = y0 +
∫ t
t0
f(s, λ∞(s)) ds
gilt. Dazu wird gezeigt, dass mit (λk(t))k∈N auch f(t, λk(t))k∈N gleichmaßigauf [t0 − α, t0 + α] konvergiert.
9
5. Schritt: Die Eindeutigkeit wird gezeigt, indem man annimmt, dass mit µ(t)eine weitere Losung des AWP existiert. Durch vollst. Induktion zeigt man,dass
||λk(t) − µ(t)|| ≤ MLk |t − t0|k+1
(k + 1)!
gilt, und damit mit dem Grenzubergang k → ∞ die Gleichheit von λ∞(t)und µ(t) gezeigt wird.
Aus dem Satz 1.2 folgt fur jedes n ∈ N die folgende Fehlerabschatzung furdie Picard-Iterierten
||λk(t) − λ∞(t)|| ≤ MLk αk+1
(k + 1)!(1.11)
fur alle t ∈ [t0 − α, t0 + α].
Mit dem Satz von Picard-Lindelof liegt somit nicht nur ein qualitatives Ergeb-nis vor, sondern mit den Picard-Iterierten (1.10) ein Algorithmus zur Kon-struktion von Naherungslosungen sowie mit (1.11) eine Fehlerabschatzung(vorausgesetzt, man kann M und L quantifizieren).
1.2 Theorie der Einschrittverfahren3. Vor-lesungam20.10.2009
Definition 1.3. Unter dem Richtungsfeld der Differentialgleichung
y′ = f(t, y)
versteht man das Vektorfeld
r(t, y) =
1√1+f2(t,y)f(t,y)√1+f2(t,y)
d.h. das Vektorfeld der normierten Steigungen
Betrachtet man um einen beliebigen Punkt (t0, y0) der (t, y)- Ebene, kannman Losungskurven y(t) durch diesen Punkt annahern:
Beispiel.
y′ = y2 + t2, r(t, y) =
1√1+(y2+t2)2
y2+t2√1+(y2+t2)2
10
(I) y′(t0) = y20 + t20, (t0 = a entspricht Start in Anfangspunkt (a, y0))
t-Achse wird durch tk = t0 + hk aquidistant unterteilt
(II) mit dem Schritt von Punkt
(t0, y0) zu (t0 + h, y0 + hy′(t0)) =: (t1, y1)
bzw. allgemein vom Punkt
(tk, yk) zu (tk + h, yk + hf(tk, yk)) =: (tk+1, yk+1)
erhalt man mit h = b−aN
nach m Schritten mit
y0, y1, . . . , yN
unter “gunstigen” Umstanden eine Approximation der Losung y(t) anden Stellen
a = t0, t1, . . . , tN = b
(III) D.h. man fahrt das Richtungsfeld geeignet ab, um eine numerischeLosung yk, k = 0, 1, . . . , N zu erhalten
Die Polygonzuge, die man beim durchlaufen des Richtungsfeldes erzeugt,nennt man auch Eulerpolygone. Diese Polygonzuge finden z.B. Verwendungbei dem Beweis des Existenzsatzes von Peano. Im Folgenden werden wir sieaber auch bei den numerischen Losungsverfahren fur Anfangswertprobleme(1.8) verwenden.
Definition 1.4. Ein Einschrittverfahren zur naherungsweisen Bestim-mung einer Losung des AWP (1.8) hat die Form
yk+1 = yk + hkΦ(tk, yk, yk+1, hk), k = 0, 1, . . . , N − 1 (1.12)
mit einer Verfahrensfunktion
Φ : [a, b] × R × R × R+ → R
und einem (noch nicht naher spezifizierten) Gitter bzw. Schrittweiten
∆ = a = t0 < t1 < . . . < tN ≤ b, hk := tk+1 − tk, k = 0, 1, . . . , N − 1(1.13)
Bemerkung. Hangt die Verfahrensfunktion nicht von yk+1 ab, ist die Be-rechnungsvorschrift (1.12) eine explizite Formel zur Berechnung von yk+1 undman spricht von einem expliziten Einschrittverfahren.
11
Zur Klassifizierung und Bewertung von numerischen Losungsverfahren furAWP benotigen wir im Folgenden einige Begriffe (y(t) bezeichnet hier dieexakte Losung).
Definition 1.5. Unter dem lokalen Diskretisierungsfehler an der Stelletk+1 des Verfahrens (1.12) versteht man den Wert
dk+1 := y(tk+1) − y(tk) − hkΦ(tk, y(tk), y(tk+1), hk) (1.14)
Bemerkung 1.6. Benutzt man die Darstellung
yk+1 = y(tk) + hkΦ(tk, y(tk), y(tk+1), hk)
fur die an der Stelle t = tk+1 berechnete Naherung mit einem Einschrittver-fahren mit der Verfahrensfunktion Φ, dann kann man den lokalen Diskreti-sierungsfehler auch in der Form
dk+1 := y(tk+1) − yk+1 (1.15)
darstellen. Da man tk+1 beliebig aus [a, b] durch die Wahl eines geeignetenh wahlen kann, kann man den lokalen Diskretisierungsfehler an der Stelle tauch in der Form
τ(t, h) = y(t + h) − y(t) − hΦ(t, y(t), y(t + h), h)
aufschreiben.
Definition 1.7. Unter dem globalen Diskretisierungsfehler gk an derStelle tk versteht man den Wert
gk := y(tk) − yk
Definition 1.8. Ein Einschrittverfahren (1.12) besitzt die Fehlerordnung
p, falls fur seinen lokalen Diskretisierungsfehler dk die Abschatzungen
|dk| ≤ Chp+1k , k = 1, . . . , N
max1≤k≤N
|dk| ≤ D = Chp+1max = O(hp+1
max) (1.16)
mit einer Konstanten C >= und hmax = maxk=0,...,N−1 tk+1 − tk gilt. (StattFehlerordnung verwendet man auch den Begriff Konsistenzordnung.) Ist p ≥1, dann heißt das Verfahren konsistent.
12
Die Bedingungen
|Φ(t, u1, u2, h) − Φ(t, v1, u2, h)| ≤ L1 |u1 − v1||Φ(t, u1, u2, h) − Φ(t, u1, v2, h)| ≤ L2 |u2 − v2| (1.17)
fur t ∈ [a, b], 0 < h ≤ b − t, uj, vj ∈ R, mit positiven Konstanten L1, L2
sind fur die folgenden Konvergenzuntersuchungen von Einschrittverfahrenvon Bedeutung
Satz 1.9. Ein Einschrittverfahren (1.12) zur Losung des AWP (1.8) besitzedie Konsistenzordnung p ≥ 1 und die Verfahrensfunktion erfulle die Bedinung(1.17). Dann liegt die Konvergenzordnung p vor, d.h. es gilt
maxk=0,...,N
|yk − y(tk)| ≤ Khpmax
Mit einer Konstanten K, die vom Intervall [a, b], Konstanten C aus derAbschatzung (1.16) und L1, L1 aus (1.17) herruhrt.
Bewiesen werden soll der Satz 1.9 fur ein explizites Einschrittverfahren (Be-weise von allgemeinen Einschrittverfahren in Barwolff oder Schwarz).Benotigt wird das
Lemma 1.10. Fur Zahlen L > 0, ak ≥ 0, hk ≥ 0 und b ≥ 0 sei
ak+1 ≤ (1 + hkL)ak + hkb, k = 0, 1, . . . , N − 1
erfullt. Dann gelten die Abschatzungen
ak ≤ eLtk − 1
Lb + eLtka0 mit tk :=
k−1∑
j=0
hj (k = 0, . . . , N)
Beweis. (vollstandige Induktion)Induktionsanfang ist fur k = 0 offensichtlich gewahrleistet. Der Schritt k →k + 1 ergibt sich wie folgt:
ak+1 ≤ (1 + hkL)
(eLtk − 1
Lb + eLtka0
)
+ hkb
≤(
eL(tk+hk) − 1 − hkL
L+ hk
)
b + eL(tk+hk)a0
=eLtk+1 − 1
Lb + eLtk+1a0
13
Beweis von Satz 1.9. Mit den Festlegungen
ek = yk − y(tk), k = 0, 1, . . . , N
gilt fur k = 0, 1, . . . , N − 1
y(tk+1) = y(tk) + hkΦ(tk, y(tk), hk) − dk+1
yk+1 = yk + hkΦ(tk, yk, hk)
und damit
ek+1 = ek + hk(Φ(tk, yk, hk) − Φ(tk, y(tk), hk)) + dk+1
bzw.
|ek+1| ≤ |ek| + hk |Φ(tk, yk, hk) − Φ(tk, y(tk), hk)| + |dk+1|≤ (1 + hkL1) |ek| + hkChp
max
Die Abschatzung des Lemmas 1.10 liefert wegen e0 = 0 die Behauptung desSatzes 1.9
1.3 Spezielle Einschrittverfahren
1.3.1 Euler-Verfahren
Mit der Verfahrensfunktion
Φ(t, y, hk) = f(t, y)
erhalt man mit
yk+1 = yk + hkf(tk, yk), k = 0, . . . , N − 1 (1.18)
das Euler-Verfahren.Fur eine stetig partiell diff’bare Funktion f : [a, b]×R → R besitzt das Euler-Verfahren die Konsistenzordnung p = 1, denn mit der Taylorentwicklung
y(t + h) = y(t) + y′(t)h +h2
2y′′(ξ), ξ ∈ [a, b]
erhalt man
dk+1 = y(tk+1) − y(tk) − hkf(tk, y(tk)) =h2
k
2y′′(ξ)
bzw.
|dk+1| ≤ Ch2k mit C =
1
2maxξ∈[a,b]
|y′′(ξ)|
14
1.3.2 Einschrittverfahren der Konsistenzordnung p = 2
Um ein explizites Einschrittverfahren der Konsistenzordnung p = 2 zu erhal-ten, machen wir den Ansatz
Φ(t, y, h) = a1f(t, y)+a2f(t+b1h, y+b2hf(t, y)), t ∈ [a, b], h ∈ [0, b−t], y ∈ R
(1.19)mit noch festzulegenden Konstanten aj, bj ∈ R. Es gilt nun der
Satz 1.11. Ein Einschrittverfahren (1.12) mit einer Verfahrensfunktion derForm (1.19) ist konsistent mit der Ordnung p = 2, falls f : [a, b] × R → R
zweimal stetig partiell diff’bar ist und fur die Koeffizienten
a1 + a2 = 1, a2b1 =1
2, a2b2 =
1
2(1.20)
gilt.
Beweis. Taylorentwicklung von Φ(t, y(t), ·) im Punkt h = 0 und von derLosung y in t ergeben
Φ(t, y(t), h) = Φ(t, y(t), 0) + hdΦ
dh(t, y(t), 0) + O(h2)
= (a1 + a2)f(t, y(t)) + h
(
a2b1∂f
∂t(t, y(t))
+a2b2f(t, y(t))∂f
∂y(t, y(t))
)
+ O(h2)
= f(t, y(t)) +h
2
∂f
∂t(t, y(t)) +
h
2f(t, y(t))
∂f
∂y(t, y(t)) + O(h2)
y(t + h) = y(t) + hy′(t) +h2
2y′′(t) + O(h3)
= y(t) + h
[
f(t, y(t)) +h
2y′′(t)
]
+ O(h3)
= y(t) + h
[
f(t, y(t)) +h
2
∂f
∂t(t, y(t))
+f(t, y(t))∂f
∂y(t, y(t))
]
+ O(h3)
= y(t) + hΦ(t, y(t), h) + O(h3)
und damit folgt
dk+1 = y(tk+1) − y(tk) − hkΦ(tk, y(tk), hk) = O(h3k)
also p = 2
15
Mit der konkreten Wahl a1 = 0, a2 = 1, b1 = b2 = 12
erhalt man mit
yk+1 = yk + hkf
(
tk +hk
2, yk +
hk
2f(tk, yk)
)
, k = 0, . . . , N − 1 (1.21)
das modifizierte Euler-Verfahren (verbesserte Polygonzugmethode) mitder Konsistenzordnung p = 2Mit der Wahl a1 = a2 = 1
2, b1 = b2 = 1 erhalt man mit
yk+1 = yk +hk
2[f(tk, yk) + f(tk + hk, yk + hkf(tk, yk))] , k = 0, . . . , N − 1
(1.22)das Verfahren von Heun mit der Konsistenzordnung p = 2
1.4 Verfahren hoherer Ordnung
1.4.1 Mehrstufige Runge-Kutta-Verfahren
Die bisher besprochenen Methoden (Euler, Heun) haben wir weitestgehendintuitiv ermittelt. Um systematisch Einschrittverfahren hoherer Ordnung zukonstruieren, betrachten wir die zum AWP y′ = f(t, y), y(a) = y0 aquivalenteGleichung (nach Integration)
y(t) = y0 +
∫ t
a
f(s, y(s))ds (1.23)
bzw. fur eine Diskretisierung des Intervalls [a, b]
y(tk+1) = y(tk) +
∫ tk+1
tk
f(s, y(s))ds (1.24)
Das letzte Integral aus (1.24) approximieren wir durch eine Quadraturformel
∫ tk+1
tk
f(s, y(s))ds (1.25)
wobei die sl zu einer Zerlegung von [tk, tk+1] gehoren. (1.24) und (1.25) erge-ben
y(tk+1) ≈ y(tk) + hk
m∑
l=1
γlf(sl, y(sl)) (1.26)
wobei wir die Werte y(sl) nicht kennen. Sie mussen naherungsweise aus y(tk)bestimmt werden, damit (1.26) als Integrationsverfahren benutzt werdenkann.
16
Wahlt man z.B. m = 2 und γ1 = γ2 = 12
sowie s1 = tk und s2 = tk+1, dannbedeutet (1.26)
y(tk+1) ≈ y(tk) +hk
2[f(tk, y(tk)) + f(tk+1, y(tk+1))]
und mit der Approximation
y(tk+1) ≈ y(tk) + hkf(tk, y(tk))
ergibt sich mit
y(tk+1) ≈ y(tk) +hk
2[f(tk, y(tk)) + f(tk+1, y(tk) + hkf(tk, y(tk)))]
die Grundlage fur das Verfahren von Heun.Im Weiteren wollen wir mit yk die Verfahrenswerte zur Naherung der exaktenWerte y(tk) bezeichnen und als Naherungen von f(sl, y(sl))
f(sl, y(sl)) ≈ kl(tj, yj)
verwenden. Mit 4. Vor-lesungam21.10.2009
sl = tk + αlhk, αl =l−1∑
r=1
βlr
werden die kl rekursiv definiert:
k1(tk, yk) = f(tk, yk)
k2(tk, yk) = f(tk + α2hk, yk + hkβ21k1(tk, yk))
k3(tk, yk) = f(tk + α3hk, yk + hk(β31k1 + β32k2)) (1.27)
...
km(tk, yk) = f(tk + αmhk, yk + hk(βm1k1 + · · · + βmm−1km−1))
Ausgehend von (1.26) und (1.27) wird durch
yk+1 = yk + hk(γ1k1(tk, yk) + · · · + γmkm(tk, yk)) (1.28)
ein explizites numerisches Verfahren zu Losung des AWP y′ = f(t, y), y(a) =y0 definiert.
Definition 1.12. Das Verfahren (1.28) heißt m-stufiges Runge-Kutta-
Verfahren mit kl aus (1.27) und die kl heißen Stufenwerte.
17
Bemerkung. Wir haben oben schon festgestellt, dass im Fall m = 2 mitγ1 = γ2 = 1
2, α2 = 1, β21 = 1 (1.28) gerade das Heun-Verfahren ergibt, also ein
Verfahren mit der Konsistenzordnung p = 2. Wir werden nun Bedingungenfur die freien Parameter im Verfahren (1.28) formulieren, sodass einmal einkonsistentes Verfahren (p ≥ 1) entsteht und andererseits eine moglichst großeKonsistenzordnung erhalten wird.
Aus der Verwendung der Quadraturformel
hk
m∑
l=1
γlf(sl, y(sl)) ≈∫ tk+1
tk
f(s, y(s))ds
folgt die sinnvolle Forderung
1 = γ1 + γ2 + · · · + γm (1.29)
also haben die γl die Funktion von Gewichten.Fordert man vom Verfahren (1.28), dass die Dgl y′ = 1 (y linear) exaktintegriert wird, ergibt sich die Bedingung
αl = βl1 + · · · + βll−1 (1.30)
Es ist namlich f(t, y) ≡ 1 und damit kl ≡ 1 fur alle l. Ausgangspunkt war
kl(tk, yk) ≈ f(sl, y(sl))
undkl ≈ f(tk + αlhk, y(tk) + hk(βl1k1 + · · · + βll−1kl−1))
Also steht das y-Argument fur y(sl) = y(tk + αlhk). Wir fordern, dass diesbei f ≡ 1 exakt ist, also
y(sl) = y(tk) + hk(βl1 + · · · + βll−1) (1.31)
da alle kr = 1 sind. Andererseits ist y als exakte Losung linear, d.h.
y(sl) = y(tk) + αlhk (1.32)
und aus dem Vergleich von (1.31),(1.32) folgt
αl = βl1 + · · · + βll−1
18
Definition 1.13. Die Tabelle mit den Koeffizienten αl, βlr, γr in der Form
0α2 β21
α3 β31 β32...
......
. . .
αm βm1 βm2 . . . βmm−1
γ1 γ2 . . . γm−1 γm
(1.33)
heißt Butcher-Tabelle und beschreibt das Verfahren (1.28). α1 ist hiergleich 0, weil explizite Verfahren betrachtet werden.
Satz 1.14. Ein explizites Runge-Kutta-Verfahren (1.28), dessen Koeffizien-ten die Bedingungen (1.29) und (1.30) erfullen, ist konsistent.
Beweis. Es ist zu zeigen, dass der lokale Diskretisierungsfehler die OrdnungO(hp+1
k ) mit p ≥ 1 hat. Wir setzen hk =: h, da k jetzt fixiert ist.
|dk+1| = |y(tk+1) − y(tk) − hΦ(tk, y(tk), h)|
=
∣∣∣∣∣y(tk+1) − y(tk) − h
m∑
r=1
γrkr(tk, y(tk))
∣∣∣∣∣
(1.29)=
∣∣∣∣∣y(tk+1) − y(tk) − hf(tk, y(tk)) − h
m∑
r=1
γr(kr(tk, y(tk)) − f(tk, y(tk)))
∣∣∣∣∣
≤ |y(tk+1) − y(tk) − hy′(tk)|︸ ︷︷ ︸
∈O(h2)
+h
∣∣∣∣∣∣∣
m∑
r=1
γr (kr(tk, y(tk)) − f(tk, y(tk)))︸ ︷︷ ︸
∈O(h) (1.30)
∣∣∣∣∣∣∣
also|dk+1| ≤ Ch2
Bemerkung. Butcher hat bewiesen, wie groß die maximale Ordnung ist,welche mit einem m-stufigen Runge-Kutta-Verfahren erreichbar ist, was inder folgenden Tabelle notiert ist:
m 1 2 3 4 5 6 7 8 9 fur m ≥ 9p 1 2 3 4 4 5 6 6 7 p < m − 2
19
1.5 Einige konkrete Runge-Kutta-Verfahren
und deren Butcher-Tabellen
(i) Euler-Verfahren0
1m = 1, γ1 = 1
yk+1 = yk + hkf(tk, yk), p = 1
(ii) Modifiziertes Euler-Verfahren
012
12
0 1m = 2, γ1 = 0, γ2 = 1, α2 =
1
2, β21 =
1
2
k1 = f(tk, yk)
k2 = f(tk +1
2hk, yk +
1
2hkk1)
yk+1 = yk + hkk2, p = 2
(iii) Verfahren von Runge von 3. Ordnung
012
12
1 0 10 0 1
m = 3, γ1 = γ2 = 0, γ3 = 1, α2 =1
2, α3 = 1, β21 =
1
2, β31 = 0, β32 = 1
k1 = f(tk, yk)
k2 = f(tk +1
2hk, yk +
1
2hkk1)
k3 = f(tk + hk, yk + hkk2)
yk+1 = yk + hkk3, p = 3
(iv) Klassisches Runge-Kutta-Verfahren 4. Ordnung
012
12
12
0 12
1 0 0 116
13
13
16
20
k1 = f(tk, yk)
k2 = f(tk +1
2hk, yk +
1
2hkk1)
k3 = f(tk +1
2hk, yk +
1
2hkk2)
k4 = f(tk + hk, yk + hkk3)
yk+1 = yk + hk
(1
6k1 +
1
3k2 +
1
3k3 +
1
6k4
)
, p = 4
Bemerkung. Die Ordnung eines konkreten Runge-Kutta-Verfahrens kannmit Hilfe von Taylor-Entwicklungen ermittelt werden, wobei man dabei voneiner geeigneten Glattheit von f(t, y) ausgeht.
Im Folgenden soll die Ordnung eines 3-stufigen expliziten Runge-Kutta-Verfahrensbestimmt werden.
Satz 1.15. Sei f dreimal stetig partiell diff’bar und gelte fur die Parameter
α2 = β21
α3 = β31 + β32
γ1 + γ2 + γ3 = 1
sowie
α2γ2 + α3γ3 =1
2
α2γ3β32 =1
6
α22γ2 + α2
3γ3 =1
3
Dann hat das Runge-Kutta-Verfahren (explizit, 3-stufig) die Fehlerordnungp = 3
Beweis. Grundlage fur den Beweis ist die Taylor-Approximation
f(t + ∆t, y + ∆y) = f(t, y) +
(∂f∂t
(t, y)∂f∂t
(t, y)
) (∆t∆y
)
+1
2(∆t, ∆y)
(∂2f∂t2
(t, y) ∂2f∂t∂y
(t, y)∂2f∂y∂t
(t, y) ∂2f∂y2 (t, y)
)(∆t∆y
)
+ O(∆3)
(1.34)
21
der Funktion f , wobei ∂2f∂t∂y
= ∂2f∂y∂t
aufgrund der Glattheit von f gilt. Mit
k1 = f(tk, y(tk))
k2 = f(tk + α2h, y(tk) + α2hk1)
k3 = f(tk + α3h, y(tk) + h(β31k1 + β32k2))
gilt es, den lokalen Diskretisierungsfehler
dk+1 = y(tk+1) − y(tk) − h(γ1k1 + γ2k2 + γ3k3)
abzuschatzen, wobei schon α2 = β21 verwendet wurde (h = hk). Mit ∆t =α2h und ∆y = α2hf(tk, y(tk)) ergibt (1.34) fur k2
k2 = f(tk + ∆t, y(tk) + ∆y)
= f + α2hft + α2hffy +1
2α2
2h2ftt + α2
2h2ffty +
1
2α2
2h2f 2fyy + O(h3)
=: f + α2hF +1
2α2
2h2G + O(h3) (1.35)
f, ft, . . . , fyy sind dabei die Funktions- bzw. Ableitunswerte an der Stelle(tk, y(tk)). Fur k3 erhalt man unter Nutzung von (1.35) und (1.34)
k3 = f(tk + α3h, y(tk) + h(β31k1 + β32k2))
= f + α3hft + h(β31k1 + β32k2)fy +1
2α2
3h2ftt
+ α3(β31k1 + β32k2)h2fty +
1
2(β31k1 + β32k2)
2h2fyy + O(h3)
= f + h(α3ft + [β31 + β32]ffy) + h2(
α2β32Ffy
+1
2α2
3ftt + α3[β31 + β32]ffty +1
2(β31 + β32)f
2fyy
)
+ O(h3)
= f + α3hF + h2(α2β32Ffy +1
2α2
3G) + O(h3) (1.36)
Mit (1.35) und (1.36) folgt fur den lokalen Diskretisierungsfehler
dk+1 = h(1 − γ1 − γ2 − γ3)f + h2
(1
2− α2γ2 − α3γ3
)
F
+h3
([1
6− α2γ3β32
]
Ffy +
[1
6− 1
2α2
2γ2 −1
2α2
3γ3
]
G
)
+ O(h4)
(1.37)
Aufgrund der Voraussetzungen werden die Klammerausdrucke gleich Nullund es gilt
dk+1 = O(h4)
also hat das Verfahren die Fehlerordnung p = 3
22
1.6 Asymptotische Entwicklungen5. Vor-lesungam27.10.2009
Um zu einer Methode mit einer Fehlerordnung großer als 1 zu gelangen,nehmen wir an, mit dem expliziten Eulerverfahren seien bis zu einer gege-benen Stelle t = tk+1 zwei Integrationen durchgefuhrt worden, zuerst mitder Schrittweite h[0] = h und dann mit der Schrittweite h[1] = h
2. Fur die
erhaltenen Werte yh[0] und yh[1] nach k bzw. 2k Integrationsschritten giltnaherungsweise (wird weiter unten erlautert)
yh[0]= y(t) + c1h[0] + O(h2)
yh[1]= y(t) + c1h[1] + O(h2) . (1.38)
Durch Linearkombination der beiden Beziehungen erhalt man nach der sogenannten Richardson-Extrapolation den extrapolierten Wert
y = 2yh[1]− yh[0]
= y(t) + O(h2) , (1.39)
dessen Fehler gegenuber y(t) von zweiter Ordnung in h ist. Anstatt ei-ne Differentialgleichung nach der Euler-Methode zweimal mit unterschied-lichen Schrittweiten parallel zu integrieren, ist es besser, die Extrapolationdirekt auf die Werte anzuwenden, die einmal von einem Integrationsschrittmit der Schrittweite h[1] und andererseits von einem Doppelschritt mit halberSchrittweite h[2] stammen. In beiden Fallen startet man vom Naherungspunkt(tk, yh(tk)).Der Normalschritt mit der Euler-Methode mit der Schrittweite h[0] ergibt
yh[0]= yh(tk) + h[0]f(tk, yh(tk)) . (1.40)
Ein Doppelschritt mit der Schrittweite h[2] ergibt sukzessive die Werte
yk+ 12
= yh(tk) + h[1]f(tk, yh(tk)) ,
yh[1] = yk+ 12
+ h[1]f(tk + h[1], yk+ 12) . (1.41)
Die Richardson-Extrapolation, angewandt auf yh[1] und yh[0], ergibt mit h[0] =h, h[1] = h/2
yk+1 = 2yh(1) − yh(0)
= 2yk+ 12
+ hf(tk +h
2, yk+ 1
2) − yk − hf(tk, yk)
= 2yk + hf(tk, yk) + hf(tk +h
2, yk+ 1
2) − yk − hf(tk, yk)
= yk + hf(tk +h
2, yk +
h
2f(tk, yk)) . (1.42)
23
Wir fassen das Ergebnis (1.42) algorithmisch zusammen
k1 = f(tk, yk)
k2 = f(tk +h
2, yk +
h
2k1) (1.43)
yk+1 = yk + h k2
und nennen die Rechenvorschrift (1.43) verbesserte Polygonzugmethodevon Euler. Fur die Funktion Φ ergibt sich im Falle der verbesserten Polygon-zugmethode
Φ(tk, yk, yk+1, h) = f(tk +h
2, yk +
h
2f(tk, yk)) .
k1 stellt die Steigung des Richtungsfeldes im Punkt (xk, yk) dar, mit der derHilfspunkt (tk + h
2, yk + h
2k1) und die dazugehorige Steigung k2 berechnet
wird. Schließlich wird yk+1 mit der Steigung k2 berechnet. Die geometri-sche Interpretation eines Verfahrensschrittes ist in Abb. 1.1 dargestellt. PerKonstruktion hat diese Methode die Ordnung p = 2. Die eben beschriebene
tk
tk+h/2 t
k+1t
yk
yk+1/2
yk+1
y y(t)
k1
k2
Abbildung 1.1: Verbesserte Polygonzug-Methode
Methode kann man naturlich sukzessiv fortsetzen, indem man z.B. 4 Schrittedes Eulerverfahrens mit der Schrittweite h[2] = h/4 mit dem Ergebnis y
(3)k+1
durchfuhrt. Man geht dann von der naherungsweisen Gultigkeit der Entwick-lungen
yh[0] ≈ y(t) + c1h + c2h2 + O(h3)
yh[1] ≈ y(t) + c1h
2+ c2
h2
4+ O(h3) (1.44)
yh[2] ≈ y(t) + c1h
4+ c2
h2
16+ O(h3)
24
aus. Und mit der Richardson-Extrapolation erhalt man ausgehend von denWerten yh[2], yh[1] und yh[0] eine Approximation
yk+1 =1
3[yh[0] − 6yh[1] + 8yh[2])] (1.45)
des Losungswertes y(tk+1). Das entstehende 3-stufige Einschrittverfahren hatdann die Ordnung p = 3.Fur eine folgende allgemeine Darstellung der Extrapolationsverfahren gebenwir die Schrittweitenabhangigkeit der Approximationen eines Einschrittver-fahrens wie folgt explizit an:
yh(tk+1) := yh(tk) + hΦ(tk, yh(tk), h) , k = 0, 1, . . . , N − 1, yh(a) = y0 ,(1.46)
wobei der Einfachheit halber ein aquidistantes Gitter mit h > 0 und tk =a+k h fur k =, 1, . . . , N , mit 0 < N ≤ b−a
hverwendet wird. Grundlage fur die
eben skizzierte Methode zur Konstruktion von Verfahren hoherer Ordnungsind asymptotische Entwicklungen (1.38), (1.44) von Diskretisierungsfehlernvon Einschrittverfahren. Es gilt der
Satz 1.16 (Gragg). Es sei yh die von einem Einschrittverfahren der Ordnungp gelieferte Naherungslosung der Losung y(t) des AWPs y′ = f(t, y), y(a) =y0, mit der Schrittweite h, wobei f und die Verfahrensfunktion des Einschritt-verfahrens Φ als p + r mal stetig partiell differenzierbar vorausgesetzt wurde.Dann besitzt yh eine asymptotische Entwicklung der Form
yh(t) = y(t)+cp(t)hp +cp+1(t)h
p+1 + · · ·+cp+r−1(t)hp+r−1 +O(hp+r) , (1.47)
mit cp+j(a) = 0 und cp+j ∈ Cr+1−j([a, b], R) fur alle j = 0, . . . , r−1, und h =hi = t−a
i, i = 1, 2, . . . , wobei die angegebenen Konvergenzraten gleichmaßig
in t auftreten.
Auf den Beweis des Satzes 1.16 kommen wir etwas spater noch einmal zuruck(s.auch Plato oder Deuflhard/Bornemann).Die Ergebnisse (1.42) und (1.44) kann man auch durch folgende Uberlegungerhalten. Wir definieren
Ht = t − a
m, m = 1, 2, . . . ,
so dass man nach m Schritten eines Einschrittverfahrens mit der Schrittwei-te h ∈ Ht eine Naherung yh(t) des Losungswertes y(t) erreicht. Bei einemVerfahren der Ordnung p gilt
yh(t) = y(t) + O(hp) fur h → 0, h ∈ Ht .
25
Unter Nutzung der asymptotischen Entwicklung (1.47) betrachtet man zurApproximation von y(t) fur die feste Stelle t ∈ [a, b] Schrittweiten h[0] >h[1] > h[2] > . . . aus Ht und eine Zahl 0 ≤ m ≤ r (fur den Fall (1.44) warendas h[0] = h, h[1] = h/2, h[2] = h/4 und r = 2) das Polynom
P0,...,m(h) = d0 + dphp + dp+1h
p+1 + · · · + dp+m−1hp+m−1 , h ∈ R (1.48)
mit Koeffizienten d0, dp, dp+1, . . . , dp+m−1, wobei diese m + 1 Koeffizienten sozu bestimmen sind, dass die m + 1 Interpolationsbedingungen
P0,...,m(h[k]) = uh[k](t) fur k = 0, . . . ,m , (1.49)
erfullt sind. Fur die Wahl der Schrittweiten gilt bezuglich einer Grundschritt-weite h ∈ Ht
h[k] = h/nk fur k = 0, 1, . . . , mit 1 ≤ n0 ≤ n1 ≤ . . . . (1.50)
Als Naherung fur y(t) wird schließlich P0,...,m(0) herangezogen, d.h. man ex-trapoliert von h[0] > h[1] > h[2] > . . . auf 0. Durch diese Extrapolation nachh → 0 erhalt man ein Verfahren der Ordnung m + p, es gilt
P0,...,m(0) = y(t) + O(hm+p) .
Die Berechnung von P0,...,m(0) erfolgt mit dem Schema von Neville/Aitkenzur Polynomwertberechnung an der Stelle 0.
h[0] uh[0]= P0
h[1] uh[1]= P0 P0,1
h[2] uh[2]= P0 P0,1 P0,1,2
...h[m] uh[m]
= P0 P0,1 P0,1,2 . . . P0,...,m
Dabei ist das Tableau so zu verstehen, dass z.B. in der dritten Spalte undder dritten Zeile mit P0,1 der Wert des Polynoms 1. Grades zu verstehenist, das die Werte (h[1], uh[1]
) und (h[2], uh[2]) interpoliert. Entscheidend ist
das letzte Element der letzten Zeile, wo mit P0,...,m der gewunschte WertP0,...,m(0) steht. Fur den Fall (1.44) erhalten wir konkret das Schema
yh[0]
yh[1]
(0−h[0])yh[1]−(0−h[1])yh[0]
h[1]−h[0]= 2yh[1]
− yh[0]
yh[2]
(0−h[1])yh[2]−(0−h[2])yh[1]
h[2]−h[1]= 2yh[2]
− yh[1]
(0−h[0])[2yh[1]−yh[0]
]−(0−h[2])[2yh[2]−yh[1]
]
h[2]−h[0]
26
und mit
(0 − h[0])[2yh[1]− yh[0]
] − (0 − h[2])[2yh[2]− yh[1]
]
h[2] − h[0]
=8yh[2]
− 6yh[1]+ yh[0]
3
erhalt man das obige Resultat (1.45). Ist h[k] eine streng monoton fallendeNullfolge, so konvergiert die erste Spalte des obigen Neville/Aitken-Schemaswie h[k] gegen y(t), die zweite Spalte wie h2
[k] gegen y(t) und die dritte Spalte
wie h3[k] gegen y(t). Mittels Extrapolation hat man damit ein Verfahren der
Ordnung p + m = 1 + 2 = 3 konstruiert.Bei den besprochenen Extrapolationsverfahren haben wir pro Extrapolati-onsschritt aufgrund von (1.47) die Ordnung um eins erhoht. Besonders vor-teilhaft ist jedoch die Situation, wenn man fur ein Verfahren statt (1.47) eineasymptotische Entwicklung der Form
yh(t) = y(t)+cp(t)zp + cp+1(t)z
p+1 + · · ·+ cp+r−1(t)zp+r−1 +O(zp+r) , (1.51)
mit z = hγ mit γ ∈ N, γ ≥ 2 vorzuliegen hat. Dann wird pro Extrapolati-onsschritt die Ordnung des zugrunde liegenden Verfahrens um γ erhoht.
Bemerkung 1.17. Eine solche Situation liegt z.B. dem Rombergverfahrenzugrunde, denn fur die summierte Trapezregel
T (h) = h(1
2(f(a) + f(b)) +
n−1∑
i=1
f(a + i h)), h = (b − a)/n, (1.52)
zur naherungsweisen Berechnung des Integrals∫ b
af(x) dx gibt es eine asym-
ptotische Entwicklung der Form
T (h) = τ0 + τ1h2 + τ2h
4 + · · · + τmh2m + Rm+1(h) (1.53)
mit
τ0 =
∫ b
a
f(x) dx , τk =B2k
(2k)![f (2k−1)(b) − f (2k−1)(a)] ,
wobei B2k die Bernoullizahlen sind, und fur das Restglied Rm+1(h) = O(h2m+2)fur h → 0 gilt (außerdem muss f die Glattheitsforderung f ∈ C(2m+2)([a, b])erfullen). Man berechnet nun T (hk) nach (1.52) fur h[0] > h[1] > . . . (z.B.h[k] = (b − a)/nk, nk = 1, 2, . . . ) und legt ein Polynom Pm(z), z = h2,durch die Punkte (h2
[0], T (h[0])), (h2[1], T (h[1])), . . . , (h2
[m], T (h[m])) und findet
mit Pm(0) eine Naherung von τ0 =∫ b
af(x) dx vor, wobei
Pm(0) = τ0 + O(h2m+2)
gilt. Man erhoht damit pro Extrapolationsschritt die Ordnung von q auf q+2.
27
Im Folgenden sollen die Grundlagen fur den Nachweis der Existenz der asym-ptotischen Entwicklung (1.47) diskutiert werden. Wir betrachten ein Ein-schrittverfahren der Form (1.46), also
yh(tk+1) := yh(tk) + hΦ(tk, yh(tk), h) , k = 0, 1, . . . , N − 1, yh(a) = y0 .
Zuerst soll eine spezielle Darstellung des lokalen Verfahrensfehlers eines Ein-schrittverfahrens gezeigt werden.
Lemma 1.18. f und die Verfahrensfunktion Ψ eines Einschrittverfahrensder Ordnung p seien p + r-mal stetig partiell differenzierbar (wie in Satz1.16). Dann gilt fur den lokalen Diskretisierungsfehler eines Verfahrens mitder Ordnung p die Entwicklung
y(t+h)− y(t)−hΦ(t, y(t), h) = dp+1(t)hp+1 +O(hp+2) fur h → 0 , (1.54)
mit einer Funktion dp+1 ∈ Cr([a, b]), wobei die angegebenen Konvergenzratengleichmaßig in t sind.
Beweis. Eine Taylorentwicklung der Hilfsfunktion g(h) = y(t + h) − y(t) −hΦ(t, y(t), h) in h = 0 ergibt
y(t+h)−y(t)−hΦ(t, y(t), h) =
p+1∑
l=0
dl(t)hl+O(hp+2) = dp+1(t)h
p+1+O(hp+2)
da wegen der vorliegenden Konsistenzordnung p notwendigerweise d0(t) =· · · = dp(t) = 0 gilt, womit das Lemma bewiesen ist. Fur die Funktion dp+1(t)gilt die Darstellung
dp+1(t) =y(p+1)(t)
(p + 1)!− 1
p!
∂pΦ
∂hp(t, y(t), 0) .
Es gilt nun der folgende
Satz 1.19. Das Einschrittverfahren (1.46) habe die Konvergenzordnung p,d.h. es gilt
y(tk+1) − y(tk) − hΦ(tk, y(tk), h) = dp+1(tk) hp+1 + O(hp+2) . (1.55)
f und Φ seien p + 2-mal stetig partiell differenzierbar. Sei cp die Losung deslinearen, inhomogenen AWPs
c′p(t) =∂f
∂y(t, y(t))cp(t) + dp+1(t) (1.56)
cp(a) = 0 .
28
Dann isty∗
h(tk) = yh(tk) + cp(tk) hp (1.57)
Losung eines Einschrittverfahrens mit der Verfahrensfunktion
Φ∗(t, y∗, h) = Φ(t, y∗ − cp(t) hp, h) + (cp(t + h) − cp(t))hp−1 (1.58)
mit der Konsistenzordnung p + 1.
Beweis. Offensichtlich gilt y∗h(a) = yh(a) = y0 und man erhalt induktiv fur
t = a + h, a + 2h, . . .
y∗h(t + h) = y∗
h(t) + hΦ∗(t, y∗h(t), h)
= yh(t) + hpcp(t) + hΦ(t, yh(t), h) + [cp(t + h) − cp(t)]hp
= yh(t) + hΦ(t, yh(t), h)︸ ︷︷ ︸
=yh(t+h)
+cp(t + h)hp .
Fur den lokalen Diskretisierungsfehler (damit es keine Konfusion mit (1.56)gibt, bezeichnen wir ihn mit τ) gilt nun
τ ∗k+1 = y(tk+1) − y(tk) − hΦ∗(tk, y(tk), h)
= y(tk+1) − y(tk) − hΦ(tk, y(tk) − cp(tk)hp, h) − (cp(tk+1) − cp(tk))h
p
= y(tk+1) − y(tk) − hΦ(tk, y(tk), h) − [cp(tk+1) − cp(tk)]hp
+h[Φ(tk, y(tk), h) − Φ(tk, y(tk) − cp(tk)hp, h)] ,
wegen (1.55) und der Glattheitsvoraussetzungen an f und Φ gilt [cp(tk+1) −cp(tk)] = hc′p(tk) + O(h2) und
[Φ(tk, y(tk), h)−Φ(tk, y(tk)−cp(tk)hp, h)] = cp(tk)h
p ∂Φ
∂y(tk, y(tk), h)+O(h2) ,
so dass sich fur τ ∗k+1 unter Nutzung von (1.54)
τ ∗k+1 = (dp+1(tk) +
∂Φ
∂y(tk, y(tk), h)cp(t) − c′p(t))h
p+1 + O(hp+2)
ergibt. Da die Konsistenzordnung p vorliegt, gilt auch
∂Φ
∂y(tk, y(tk), h) − ∂f
∂y(tk, y(tk)) = O(h) ,
so dass sich letztendlich
τ ∗k+1 = dp+1(tk) +
∂f
∂y(tk, y(tk))cp(tk) − c′p(tk)hp+1 + O(hp+2)
ergibt, und da der Klammerausdruck wegen (1.56) verschwindet, ergibt sichals Ordnung p + 1.
29
6. Vor-lesungam27.10.2009
Die rekursive Anwendung des Satzes 1.19 ermoglicht durch die beschriebeneVeranderung der Verfahrensfunktion eine sukzessive Erhohung der Verfah-rensordnung und ergibt schließlich unter Nutzung des Lemma 1.18 auch eineasymptotische Entwicklung des lokalen Diskretisierungsfehlers. Bezeichnetman y0,h = yh und die durch Rekursion mit der Verfahrensfunktion (1.58)ausgehend von yl,h (Verfahren der Ordnung p + l) konstruierte Losung yl+1,h
(Verfahren der Ordnung p + l + 1, Losung im Satz 1.19 mit y∗h bezeichnet),
so erhalt man
yl+1,h(t) = yl,h + cp+l(t) hp+l, l = 0, . . . , r − 1,
beziehungsweise
yr,h(t) = yh(t) + cp(t)hp + cp+1(t)h
p+1 + · · · + cp+r−1(t)hp+r−1 . (1.59)
Das rekursiv definierte Verfahren mit der Losung yr,h(t) besitzt nun gemaßSatz 1.19 die Konvergenzordnung p + r, d.h. es gilt
yr,h(t) − y(t) = O(hp+r) . (1.60)
Aus (1.59) und (1.60) folgt direkt die asymptotische Entwicklung (1.47) unddamit der Beweis des Satzes 1.16.
Bemerkung 1.20. Die rekursive Anwendung des Satzes 1.19, speziell diemittels (1.56) sukzessiv konstruierten Verfahren mit wachsender Ordnung,hat nur eine theoretische beweistechnische Bedeutung fur den Nachweis derExistenz der asymptotischen Entwicklung (1.47), und keine praktische Be-deutung fur die numerische Losung eines AWPs.
Im Folgenden soll aus der Existenz einer asymptotischen Entwicklung (1.47)fur den globalen Diskretisierungsfehler auf die Existenz einer asymptotischenEntwicklung fur den lokalen Diskretisierungsfehler geschlossen werden.
Satz 1.21. f und die Verfahrensfunktion Ψ eines Einschrittverfahrens derOrdnung p seien p + r-mal stetig partiell differenzierbar. Dann gilt fur jedefixierte Zahl l ∈ N die folgende Entwicklung fur den lokalen Diskretisierungs-sfehler:
yh(a + lh) − y(a + lh) = bp+1hp+1 + · · · + bp+r−1h
p+r−1 + O(hp+r) (1.61)
fur h > 0, mit gewissen von l abhangigen Koeffizienten bp+1, . . . , bp+r−1 ∈ R.
30
Beweis. Aus Satz 1.16 erhalt man unter Verwendung der Taylorentwicklun-gen
cp+j(a + lh) =
r−j−1∑
k=0
c(k)p+j(a)
(lh)k
k!+ O(hr−j)
unter Berucksichtigung von cp(a) = 0 mit
yh(a + lh) = y(a + lh) +r−1∑
j=0
cp+j(a + lh)hp+j + O(hp+r)
=r−1∑
j=1
[
r−j−1∑
k=0
c(k)p+s−k(a)
lk
k!]
︸ ︷︷ ︸
=:bp+s
hp+s + O(hp+r)
die Aussage des Satzes.
Korollar 1.22. Unter den Bedingungen des Satzes 1.16 uber die Asymptotikdes globalen Verfahrensfehlers und mit jeder Zahl l ∈ N gilt fur den lokalenExtrapolationsfehler
P0,...,m(0) − y(a + lh) =
p+r−1∑
j=p+m+1
bjhj + O(hp+r) (1.62)
mit gewissen von l abhangigen Koeffizienten bp+m+1, . . . , bp+r−1 ∈ R. Insbe-sondere gilt fur r ≥ m+1 die Darstellung P0,...,m(0)−y(a+ lh) = O(hp+r+1).
Der Beweis erfolgt analog zum Beweis von Satz 1.21.
Wir haben schon darauf hingewiesen, dass man mit Entwicklung der Form(1.51) mit γ ≥ 2 durch Extrapolation die Verfahrensordnung nicht nur um 1sondern um γ erhohen kann. Es ist also sinnvoll nach Verfahren zu suchen,fur die eine asymptotische Entwicklung der Form (1.51) mit γ ≥ 2 existiert.Dazu benotigen wir einige Begriffe.
Definition 1.23 (Adjungiertes Verfahren). Sei mit
yh(tk+1) = yh(tk) + hΦ(tk, yh(tk), yh(tk+1), h) (1.63)
ein Einschrittverfahren gegeben, dann wird durch
y−h(tk) = y−h(tk+1) − hΦ(tk+1, y−h(tk+1), y−h(tk),−h)
31
oder umgeschrieben
y−h(tk+1) = y−h(tk) + hΦ(tk+1, y−h(tk+1), y−h(tk),−h) (1.64)
gespiegelt. Die Gleichung (1.64) wird als eine implizite Gleichung zur Bestim-mung von y−h(tk+1) betrachtet, die fur kleine Schrittweiten h nach dem Satzuber implizite Funktionen auch (lokal eindeutig) auflosbar ist. Wir schreibendann fur die Losung
y−h(tk+1) = y−h(tk) + hΦ∗(tk, y−h(tk),−h)
und bezeichnen mit Φ∗ die Verfahrensfunktion des gespiegelten oder adjun-
gierten Einschrittverfahrens von Φ.
In der Definition beschranken wir uns nicht auf explizite Verfahren, sondernbetrachten mit der Verfahrensfunktion Φ(tk, yh(tk), yh(tk+1), h) auch impliziteEinschrittverfahren.
Beispiel 1.24. Betrachten wir das explizite Eulerverfahren
yh(tk+1) = yh(tk) + hf(tk, yh(tk)) ,
die Spiegelung ergibt im ersten Schritt durch die Ersetzung von h durch −h
y−h(tk−1 = y−h(tk) − hf(tk, y−h(tk)) ,
und die Ersetzung von t durch t + h das gespiegelte Verfahren
y−h(tk) = y−h(tk+1) − hf(tk+1, y−h(tk+1)) ,
das umgeschrieben die Form
y−h(tk+1) = y−h(tk) + hf(tk+1, y−h(tk+1))
hat. Darin erkennen wir das implizite Eulerverfahren.
Definition 1.25. Ein Einschrittverfahren (1.63) heißt symmetrisch, fallsΦ = Φ∗ ist.
Wir erkennen am Beispiel, dass das Eulerverfahren offensichtlich nicht sym-metrisch ist.
Bemerkung 1.26. Das explizite Eulerverfahren ist leider kein Einzelfall.Man kann zeigen, dass es kein explizites Einschrittverfahren gibt, das sym-metrisch ist. Nur unter den impliziten Verfahren findet man symmetrischeVerfahren.
32
Beispiel 1.27. Sowohl die implizite Mittelpunktsregel
yh(tk+1) = yh(tk) + hf(tk+1/2,1
2[yh(tk) + yh(tk+1)]) (1.65)
als auch die implizite Trapezregel
yh(tk+1) = yh(tk) +h
2[f(tk, yh(tk)) + f(tk+1, yh(tk+1))] (1.66)
sind symmetrische Verfahren.
Bei den symmetrischen Verfahren ergibt sich fur den Schritt (tk, yh(tk)) zu(tk+1, yh(tk+1)), dass man mit dem adjungierten Verfahren ausgehend von(tk+1, yh(tk+1)) durch einen Schritt mit der Schrittweite −h, also einen Ruck-schritt (tk, yh(tk)) erhalt.Der Wert von symmetrischen Einschrittverfahren besteht darin, dass sie dieoben angesprochenen quadratischen asymptotischen Entwicklungen (1.51)mit z = γ, γ = 2 besitzen. Es gilt der
Satz 1.28. Der globale Diskretisierungsfehler von symmetrischen Einschritt-verfahren mit der Fehlerordnung p ≥ 1 besitzt unter den Vorausetzungen desSatzes 1.16 eine quadratische asymptotische Entwicklung der Form
yh(t) − y(t) = cp(t)zp + cp+1(t)z
p+1 + · · · + cp+r−1(t)zp+r−1 + O(zp+r)
mit z = h2.
Beweis. Beweis als Ubung.
1.7 Schrittweitensteuerung
1.7.1 Einbettungsverfahren
Bisher wurde die Schrittweite h = tk+1 − tk in der Regel aquidistant vor-gegeben. Lasst man hier eine Variabilitat zu, hat man die Moglichkeit, denlokalen Diskretisierungsfehler dk+1 durch die Wahl einer geeigneten Schritt-weite hk+1 = tk+1 − tk betragsmaßig zu beschranken. Man spricht hier vonSchrittweitensteuerung. Das Prinzip soll am Beispiel des Heun-Verfahrens(1.22) der Ordnung p = 2
k1 = f(tk, yk) , k2 = f(tk + h, yk + h k1) , yk+1 = yk +h
2[k1 + k2]
33
erlautert werden. Als lokaler Diskretisierungsfehler ergibt sich
d(H)k+1 = y(tk+1) − y(tk) −
h
2[k1 + k2] ,
wobei k1, k2 aus k1, k2 dadurch hervorgehen, dass yk durch y(tk) ersetztwird. Nun sucht man ein Verfahren hoherer, also mindestens dritter Ord-nung, dessen Steigungen k1 und k2 mit den Steigungen des Heun-Verfahrensubereinstimmen. Solch ein Runge-Kutta-Verfahren 3. Ordnung soll nun kon-struiert werden. Die Forderung der Gleichheit der Steigungen k1 und k2 mitden Steigungen des Heun-Verfahrens bedeutet α2 = β21 = 1. Die weiterenParameter ergeben sich aus dem Gleichungssystem aus dem Satz 1.15 bei derWahl von α3 = 1
2
γ3 =2
3, γ2 =
1
6, γ1 =
1
6, β32 =
1
4, β31 = α3 − β32 =
1
4,
so dass sich das Runge-Kutta-Verfahren 3. Ordnung (auch Heun-Verfahren3. Ordnung genannt)
k1 = f(tk, yk), k2 = f(tk + h, yk + h k1), k3 = f(tk +1
2h, yk +
h
4(k1 + k2))
yk+1 = yk +h
6[k1 + k2 + 4k3] (1.67)
ergibt. Fur den lokalen Diskretisierungsfehler des Verfahrens (1.67) ergibtsich
d(RK)k+1 = y(tk+1) − y(tk) −
h
6[k1 + k2 + 4k3] .
Damit kann man den lokalen Diskretisierungsfehler des Heun-Verfahrens inder Form
d(H)k+1 =
h
6[k1 + k2 + 4k3] −
h
2[k1 + k2] + d
(RK)k+1
darstellen. Berucksichtigt man d(RK)k+1 = O(h4), so erhalt man
d(H)k+1 =
h
6[k1 + k2 + 4k3] −
h
2[k1 + k2] + O(h4) =
h
3[2k3 − k1 − k2] + O(h4)
und benutzt man (unter Voraussetzung genugender Glattheit von f)
h
3[2k3 − k1 − k2] −
h
3[2k3 − k1 − k2] = O(h4) ,
so erhalt man schließlich
d(H)k+1 =
h
3[2k3 − k1 − k2] + O(h4)
34
und damit kann der lokale Diskretisierungsfehler des Heun-Verfahrens mit derzusatzlichen Steigungsberechnung von k3 durch den Ausdruck h
3[2k3 − k1 −
k2] recht gut geschatzt werden. Aufgrund der Kontrolle des Betrages diesesAusdrucks kann man eine vorgegebene Schranke ǫtol > 0 durch entsprechendeWahl von h = hk+1 = tk+1 − tk
hk+1
3|2k3 − k1 − k2| < ǫtol ⇐⇒ hk+1 <
3ǫtol
|2k3 − k1 − k2|
unterschreiten.Man spricht bei der dargestellten Methode der Schrittweitensteuerung auchvon einer Einbettung des Heun-Verfahrens (1.22) zweiter Ordnung in dasRunge-Kutta-Verfahren (1.67) dritter Ordnung.
1.7.2 Schrittweitensteuerung durch Extrapolation
Zur Losung des AWPs y′ = f(t, y), y(a) = y0 wird fur eine Verfahrensfunk-tion Φ mit der Konsistenzordnung p ≥ 1 die Vorschrift
w = yk + hk
2Φ(tk, yk,
hk
2),
yk+1 = w + hk
2Φ(tk + hk
2, w, hk
2),
tk+1 := tk + hk, k = 0, 1, . . . .
(1.68)
betrachtet. Nun wird eine adaptive Wahl der Schrittweiten hk diskutiert mitdem Ziel einer effizienten Fehlerkontrolle.Ausgehend von einer gegebenen Stelle tk ∈ [a, b] und einer gegebenen Nahe-rung yk ≈ y(tk) soll eine Schrittweite hk > 0 bestimmt werden, fur die
|yk+1 − z(tk + hk)| ≈ ǫtol (1.69)
erfullt ist, wobei yk+1 aus einem Schritt des Verfahrens (1.68) hervorgeht,ǫtol > 0 eine vorgegebene Fehlerschranke ist, und z : [tk, b] → R die Losungdes AWPs
z′ = f(t, z) , t ∈ [tk, b] ; z(tk) = yk , (1.70)
ist.
Bemerkung 1.29. Die Forderung (1.69) bedeutet, dass die angestrebteSchrittweitensteuerung auf einer Vorgabe des lokalen Verfahrensfehlers be-ruht.Die Losung des AWPs (1.70) ist nicht bekannt, also insbesondere z(tk + hk),und muss erst noch bestimmt werden.
35
Wie bei Plato fuhren wir zur Vereinfachung der Notation die Bezeichnungfur einen von dem Punkt (tk, yk) ausgehenden Verfahrensschritt (1.68) mitder Lange h ein,
y2×h/2 = w +hk
2Φ(tk +
hk
2, w,
hk
2) mit w = yk +
hk
2Φ(tk, yk,
hk
2) . (1.71)
Zur Bestimmung einer Schrittweite hk, mit der die Forderung (1.69) anna-hernd erfullt wird, geht man von einer nicht zu kleinen Startschrittweite h(0)
aus, und fur j = 0, 1, . . . , fuhrt man den folgenden Algorithmus aus:
1) Berechnung von y2×h/2.
2) Ermittelung einer Schatzung fur den Fehler |y2×h/2 − z(tk + h)| undAbbruch des Iterationsprozesses mit jǫtol
= j, falls die Schatzung kleinergleich ǫtol ausfallt.
3) Anderenfalls, falls diese Schatzung großer als ǫtol ist, wird eine neueTestsschrittweite h(s+1) < h(s) bestimmt.
Wie man den unbekannten Wert z(tk + h) schatzt und im Falle von 3) dieneue Testschrittweite h(s+1) bestimmt, soll im Folgenden beschrieben werden.Der Wert z(tk +hk) wird mittels lokaler Extrapolation entsprechend Korollar1.22 mittels zh(s) geschatzt, wobei man mit vh = yk +hΦ(tk, yk, h), also einemSchritt mit der Schrittweite h = h(s), und y2×h/2
zh = y2×h/2 −vh − y2×h/2
2p − 1︸ ︷︷ ︸
z(tk+h(s))+O(hp+2)
.
Der Fehler y2×h(s)/2 − z(tk + h(s))| berechnet sich dann naherungsweise zu
δ(s) = |y2×h(s)/2 − z(tk + h(s))| =|vh − y2×h(s)/2|
2p − 1. (1.72)
Zur Bestimmung der neuen Testschrittweite h(s+1) benutzt man die nahe-rungsweise Darstellung des Fehlers y2×h/2 − z(tk + h):
Lemma 1.30. Mit den Notationen (1.70)-(1.72) gilt unter den Bedingungendes Satzes 1.16 uber die Asymptotik des globalen Verfahrensfehlers (fur r = 2)
|y2×h/2 − z(tk + h)| = (h
h(s))p+1δ(s) + O((h(s))p+2), 0 < h ≤ h(s) . (1.73)
36
Gilt also (h(s))p+2 ≪ ǫtol, so gewinnt man aus der Darstellung (1.73) unterVernachlassigung des Restgliedes die neue Testschrittweite
h(s+1) = (ǫtol
δ(s))1/(p+1)h(s) (1.74)
und wiederholt damit den oben beschriebenen Algorithmus mit s um einserhoht.
Beweis. Der Beweis des Satzes beruht im Wesentlichen auf den Darstellungen
y2×h/2 − z(tk + h) = bp+1hp+1 + O(hp+2), h > 0, (1.75)
undzh − z(tk + h) = O(hp+2) .
Damit hat man
y2×h/2 − zh = bp+1hp+1 + O((h(s))p+2) . (1.76)
Wegen δ(s) = |y2×h(s)/2 − z(tk + h(s))| bedeutet (1.76) insbesondere
|bp+1|(h(s))p+1 = δ(s) + O((h(s))p+2) bzw. |bp+1| =δ(s)
(h(s))p+2+ O(h(s)) .
(1.77)Und die Darstellung (1.77) eingesetzt in (1.75) ergibt die Behauptung desLemmas.
1.8 Mehrschrittverfahren7. Vor-lesungam03.11.2009
Die Klasse der Mehrschrittverfahren zur Losung von Anfangswertproblemenist dadurch gekennzeichnet, dass man zur Berechnung des Naherungswertesyk+1 nicht nur den Wert yk verwendet, sondern auch weiter zuruckliegendeWerte, z.B. yk−1, yk−2, yk−3. Ausgangspunkt fur die Mehrschrittverfahrenbildet die zur Differentialgleichung y′ = f(t, y) aquivalente Integralgleichung
y(tk+1) = y(tk) +
∫ tk+1
tk
f(t, y(t)) dt . (1.78)
Kennt man z.B. die Werte fk = f(tk, yk), . . . , fk−3 = f(tk−3, yk−3), dannkann man das Integral auf der rechten Seite durch eine interpolatorischeQuadraturformel i.d.R. besser approximieren als bei den Einschrittverfahrenunter ausschließlicher Nutzung des Wertes fk. Das ist die Grundidee der
37
Mehrschrittverfahren. Man bestimmt das Interpolationspolynom durch dieStutzpunkte (tj, fj) (j = k − 3, . . . , k)
p3(t) =3∑
j=0
fk−jLk−j(t)
mit den Lagrange’schen Basispolynomen
Lj(t) =k∏
i=k−3i6=j
t − titj − ti
(j = k − 3, k − 2, k − 1, k)
und bestimmt das Integral in (1.78) unter Nutzung der Naherung von f durchp3. Man erhalt
yk+1 = yk +
∫ tk+1
tk
3∑
j=0
fk−jLk−j(t) dt = yk +3∑
j=0
fk−j
∫ tk+1
tk
Lk−j(t) dt .
Im Fall aquidistanter Stutzstellen und h = tk+1 − tk erhalt man fur denzweiten Integralsummanden (j = 1)
I1 =
∫ tk+1
tk
Lk−1(t) dt =
∫ tk+1
tk
(t − tk−3)(t − tk−2)(t − tk)
(tk−1 − tk−3)(tk−1 − tk−2)(tk−1 − tk)dt
und nach der Substitution ξ = t−tkh
, dt = hdξ,
I1 = h
∫ 1
0
(ξ + 3)(ξ + 2)ξ
2 · 1 · (−1)dξ = −h
2
∫ 1
0
(ξ3 + 5ξ2 + 6ξ) dξ = −59
24h .
Fur die restlichen Summanden erhalt man
I0 =55
24h, I2 =
37
24h, I3 = − 9
24h ,
so dass sich schließlich mit
yk+1 = yk +h
24[55fk − 59fk−1 + 37fk−2 − 9fk−3] (1.79)
das Verfahren ergibt.Bei Verwendung von m Stutzwerten (tk, fk), . . . , (tk−m+1, fk−m+1) zur Berech-nung eines Interpolationspolynoms pm−1 zur Approximation von f zwecksnaherungsweiser Berechnung des Integrals (1.78) spricht man von einem li-nearen m-Schrittverfahren. Im Folgenden werden wir uns in der Darstel-lung und Diskussion der Verfahren auf aquidistante Gitter, d.h. hk = h =const. beschranken.
38
Definition 1.31. (allgemeine lineare Mehrschrittverfahren)Unter einem linearen m-Schrittverfahren (m > 1) versteht man eineVorschrift
m∑
j=0
ajyl+j = hm∑
j=0
bjf(tl+j , yl+j), l = 0, 1, . . . , n − m (1.80)
wobei am 6= 0 ist und aj, bj geeignet zu wahlende reelle Zahlen sind. Diekonkrete Wahl der Koeffizienten aj, bj entscheidet uber die Ordnung des Ver-fahrens (1.80). Als Gitterpunkte oder Schrittweiten werden tl = a + lh, l =0, . . . , n, mit h = b−a
nbetrachet. y0, . . . , ym−1 sind nicht naher spezifizierte
Startwerte.
In Verallgemeinerung zur Definition der Fehler eines Einschrittverfahrens de-finieren wir den lokalen und globalen Verfahrensfehler.
Definition 1.32. Ein lineares Mehrschrittverfahren (1.80) besitzt die Kon-
vergenzordnung p ≥ 1, falls sich zu jeder Konstanten c ≥ 0 und beliebigenStartwerten y0, . . . , ym−1 ∈ R mit |yk − y(tk)| ≤ c hp fur k = 0, . . . ,m− 1 derglobale Verfahrensfehler in der Form
maxl=m,...,n
|yl − y(tl)| ≤ K hp (1.81)
mit einer von der Schrittweite h unabhangigen Konstanten K ≥ 0 abschatzenlasst.
Definition 1.33. Fur ein lineares Mehrschrittverfahren zur Losung des AWPsy′ = f(t, y), y(a) = y0 bezeichnet
τ(t, h) := [∑m
j=0 ajy(t + jh)] − h[∑m
j=0 bjf(t + jh, y(t + jh))] ,
0 < h ≤ b−tm
,
(1.82)
den lokalen Verfahrensfehler im Punkt (t, y(t)) bezuglich der Schrittweiteh.
Nun kann man wie bei den Einschrittverfahren die Fehlerordnung eines m-Schrittverfahrens definieren.
Definition 1.34. (Fehlerordnung eines m-Schrittverfahrens)Ein m-Schrittverfahren hat die Fehler- oder Konsistenzordnung p, fallses eine Konstante C und eine hinreichend kleine Zahl H > 0 gibt, so dassfur seinen lokalen Diskretisierungsfehler τ die Abschatzung
|τ(t, h)| ≤ Chp+1 , a ≤ t ≤ b , 0 ≤ h ≤ H
gilt.
39
Fur das spezielle lineare 4-Schritt-Verfahren (1.79) erhalt man durch Taylor-Reihenentwicklung und entsprechender Glattheit (sechsfache stetige Diffe-renzierbarkeit von y(t)) den lokalen Diskretisierungsfehler
τ =251
720h5y(5) + O(h6) . (1.83)
Das sogenannte Adams-Bashforth-Verfahren (1.79) besitzt aufgrund derAbschatzung (1.83) die Fehlerordnung 4.Bevor wir weiter konkrete m-Schrittverfahren konstruieren, sollen allgemeineKonvergenzaussagen gemacht werden. Eine wichtige Voraussetzung fur dieKonvergenz eines m-Schrittverfahrens ist die Nullstabilitat.
Definition 1.35. Ein m-Schrittverfahren zur Losung von y′ = f(t, y), y(a) =y0 heißt nullstabil, falls das erzeugende Polynom
ρ(ξ) := amξm + am−1ξm−1 + · · · + a0 ∈ Πm (1.84)
die folgende Dahlquistsche Wurzelbedingung erfullt,
ρ(ξ) = 0 =⇒ |ξ| ≤ 1
ρ(ξ) = 0, |ξ| = 1 =⇒ ξ ist einfache Nullstelle von ρ .
An dieser Stelle sei darauf hingewiesen, dass alle Einschrittverfahren nullsta-bil sind, da sie das triviale erzeugende Polynom
ρ(ξ) = ξ − 1
haben, das die Dahlquistsche Wurzelbedingung offensichtlicht erfullt.Es gilt nun der
Satz 1.36. Ein m-Schrittverfahren (1.80) fur das AWP y′ = f(t, y), y(a) =y0 sei nullstabil und die Funktion f genuge der Lipschitzbedingung
|f(t, y) − f(t, z)| ≤ L|y − z| , L∗ ≥ 0, t ∈ [a, b], y, z ∈ R .
Dann existieren Konstanten K ≥ 0 und H > 0, so dass fur 0 < h = (b −a)/n ≤ H die Abschatzung
maxl=0,...,n
|yl − y(tl)| ≤ K[ maxk=0,...,m−1
|yk − y(tk)| + ( maxa≤t≤b−mh
|τ(t, h)|)/h] (1.85)
gilt.
40
Beweis. O.B.d.A. nehmen wir am = 1 an, und setzen
el = yl − y(tl) , l = 0, 1, . . . , n
τl = τ(tl, h) , l = 0, 1, . . . , n − m ,
es gelten dann fur l = 0, . . . , n − m die Darstellungen
m∑
j=0
ajyl+j = h[m∑
j=0
bjf(tl+j, yl+j)] ,
m∑
j=0
ajy(tl+j) = h[m∑
j=0
bjf(tl+j, y(tl+j))] + τl ,
und damit
m∑
j=0
ajel+j = hm∑
j=0
bj[f(tl+j, yl+j) − f(tl+j, y(tl+j))]
︸ ︷︷ ︸
=:δl
−τl . (1.86)
(1.86) kann man nun wie folgt schreiben,
el+1
el+2...
el+m
︸ ︷︷ ︸
=:El+1
=
0 1. . . . . .
0 1−a0 . . . . . . −am−1
︸ ︷︷ ︸
=:A
el
el+1...
el+m−1
︸ ︷︷ ︸
=:El
+
00...
δl − τl
︸ ︷︷ ︸
=:Fl
(1.87)mit der reellen Matrix A vom Typ m × m und den Vektoren El, Fl ∈ R
m.Mit vollstandiger Induktion schlussfolgert man aus (1.87) die Beziehung
El = AlE0 +l−1∑
ν=0
Al−1−νFν , l = 0, 1, . . . , n − m + 1 . (1.88)
An dieser Stelle berucksichtigen wir, dass die Eigenwerte der Matrix A mitden Nullstellen des erzeugenden Polynoms des m-Schrittverfahrens uberein-stimmen, die aufgrund der vorausgesetzten Nullstabilitat die DahlquistscheWurzelbedingung erfullen. Daraus folgt die Potenzbeschranktheit der MatrixA (die als Ubung bewiesen werden sollte!), d.h.
||Ak||∞ ≤ C , k = 0, 1, . . . , (1.89)
41
mit einer Konstanten C > 0. Aus (1.88) und (1.89) ergibt sich dann dieAbschatzung
||El||∞ ≤ C[||E0||∞ +l−1∑
ν=0
||Fν ||∞] , l = 0, 1, . . . , n − m + 1 . (1.90)
Wegen (1.86) und (1.87) gilt mit L := L∗ ∑mj=0 |bj|
||Fν ||∞ = |δν − τν | ≤ |τν | + hLm∑
j=0
|eν+j|
≤ maxj=0,...,n−m
|τj| + hLm||Eν ||∞ + hL||Eν+1||∞ ,
die Summation ergibt dann
l−1∑
ν=0
||Fν ||∞ ≤ n[ maxj=0,...,n−m
|τj|] + hc1
l−1∑
ν=0
||Eν ||∞ + hL||El||∞ (1.91)
mit c1 := L(m+1). Dieses Ergebnis eingesetzt in (1.90) fuhrt fur 0 < h < Hmit einer Konstanten H < 1/(CL) auf die Abschatzung
||El||∞ ≤ C
1 − CLH(||E0||∞ + n[ max
j=0,...,n−m|τj|])
+Cc1
1 − CLHh
l−1∑
ν=0
||Eν ||∞
≤ max1, C
1 − CLH(||E0||∞ + n[ max
j=0,...,n−m|τj|])
︸ ︷︷ ︸
=:α
+Cc1
1 − CLH︸ ︷︷ ︸
=:β
hl−1∑
ν=0
||Eν ||∞ , l = 1, 2, . . . , n − m + 1 .
bzw.
||El||∞ ≤ α + βhl−1∑
ν=0
||Eν ||∞ , l = 1, 2, . . . , n − m + 1
mit ||E0||∞ ≤ α. Aus dem diskreten Gronwallschen Lemma
|v0| ≤ α, |vl| ≤ α + βhl−1∑
j=0
|vj|, l = 1, . . . , r =⇒ |vl| ≤ α eβlh, l = 0, . . . , r
42
und aufgrund von
||E0||∞ = maxl=0,...,m−1
|yl − y(tl)| , |yl − y(tl)| ≤ ||El||∞
folgt die Behauptung des Satzes.
Der Satz zeigt wie in vielen Fallen der Numerik die Gultigkeit des Prinzips
Stabilitat + Konsistenz =⇒ Konvergenz .
Satz 1.37. (Konvergenz von Mehrschrittverfahren)Konsistente und nullstabile Mehrschrittverfahren sind konvergent, falls f(t, y)bezugl. y Lipschitz-stetig ist. D.h., die berechneten Naherungswerte an einerfesten Stelle t = t0 + hk fur h → 0 mit kh = t − t0 konvergieren gegen denWert der Losung y(t) der Differentialgleichung.
1.8.1 Technische Hilfsmittel zur Konstruktionvon linearen Mehrschrittverfahren
Beim obigen AB-Verfahren haben wir die Integration des LagrangeschenInterpolationspolynoms konkret durchgefuhrt und damit die Verfahrensvor-schrift (1.79) hergeleitet. Um die Berechnung der Gewichte der Verfahrens-vorschrift (1.79) etwas zu erleichtern und um auch schneller zu Abschatzungenvon Diskretisierungsfehlern zu gelangen, sollen nun ein paar Hilfsmittel bereitgestellt werden.
Definition 1.38 (Ruckwartsdifferenzen). Fur einen gegebenen Datensatzg0,..., gr ∈ R sind die Ruckwartsdifferenzen ∇kgj ∈ R fur 0 ≤ k ≤ j ≤ rrekursiv durch
∇0gj = gj , j = 0, 1, . . . , r,
∇kgj = ∇k−1gj −∇k−1gj−1 , j = k, k + 1, . . . , r (k = 1, 2, . . . , r)
erklart.
Man kann die rekursive Ruckwartsdifferenzenberechnung durch das folgende
43
Schema beschreiben:
∇0g0 = g0
ց∇0g1 = g1 → ∇1g1
ց ց∇0g2 = g2 → ∇1g2 → ∇2g2
......
.... . .
∇0gr−1 = gr−1 → ∇1gr−1 → . . . . . . ∇r−1gr−1
ց ց ց∇0gr = gr → ∇1gr → . . . . . . ∇r−1gr → ∇rgr
Zur Berechnung der Ruckwartsdifferenzen benutzen wir das
Lemma 1.39. Fur die Ruckwartsdifferenzen ∇kgj ∈ R eines gegebenen Da-tensatzes g0, ..., gr ∈ R gilt
∇kgj =k∑
i=0
(−1)i
(k
i
)
gj−i , j = 1, 2, . . . , r . (1.92)
Beweis. Wenn man mit S den Ruckwartsshift
Sgj := gj−1 , j = 1, 2, . . . , r ,
bezeichnet, und (I − S)k und Si ebenso rekursiv erklart, d.h.
(I−S)gj = gj −gj−1, (I−S)2gj = (I−S)(I−S)gj, Sigj = S(Si−1gj) . . .
dann erhalt man mit dem binomischen Satz
∇kgj = (I − S)kgj =k∑
i=0
(−1)i
(k
i
)
Ik−iSigj
=k∑
i=0
(−1)i
(k
i
)
Sigj =k∑
i=0
(−1)i
(k
i
)
gj−i .
Lemma 1.40. Gegeben seien r + 1 aquidistante Stutzstellen tl = t0 + l h furl = 0, 1, . . . , r, mit Zahlen t0 ∈ R und h > 0. Dann besitzt das zu den Werteng0, . . . , gr ∈ R gehorende eindeutug bestimmte interpolierende Polynom P ∈Πr (Polynome r-ten Grades) die Darstellung
P(tr + s h) =r∑
k=0
(−1)k
(−s
k
)
∇kgr , s ∈ R . (1.93)
44
Dabei gelten die Identitaten(−s
k
)
=(−s)(−s − 1) . . . (−s − k + 1)
k!=
(−1)k
k!s(s + 1) . . . (s + k − 1) .
(1.94)
Beweis. Unter Verwendung von (1.94) erhalt man fur P mit der Newton-Interpolation
P(tr + s h) = a0 + a1(tr + sh − tr) + · · · + ar(tr + sh − tr) . . . (tr + sh − t1)
=r∑
k=0
akΠk−1j=0(tr + sh − tr−j) =
r∑
k=0
akΠk−1j=0(tr + sh − (tr − jh))
=r∑
k=0
akhkΠk−1
j=0(s + j) =r∑
k=0
akhkk!
(−s
k
)
(1.95)
mit den dividierten Differenzen
ak = g[tr, . . . , tr−k] ∈ R , k = 0, 1, . . . , r . (1.96)
Mittels vollstandiger Induktion erhalt man fur die dividierten Differenzen(1.95) die Darstellung
g[tl, . . . , tr−l] =∇kgl
k!hk0 ≤ k ≤ l ≤ r ,
die zusammen mit (1.95) die Aussage des Lemmas ergibt.
Lemma 1.41. Zu einer gegebenen Funktion g ∈ Cr+1([c, d]) und zu gegebe-nen Stutzstellen tl = t0 + l h ∈ [c, d], l = 0, 1, . . . , r, bezeichne P ∈ Πr das zu-gehorige interpolierende Polynom. Der Interpolationsfehler in tr + sh ∈ [c, d]besitzt die Darstellung
g(tr + sh) − P(tr + sh) = (−1)r+1( −s
r+1
)F (s)hr+1
F (s) = g(r+1)(ξ(s)) ∈ R ,
(1.97)
mit einer geeigneten Zwischenstelle ξ(s) ∈ [c, d] .
Beweis. Mit der (aus der Polynominterpolation...) bekannten Fehlerdarstel-lung
g(tr + sh) − P(tr + sh) =ω(tr + sh)g(r+1)(ξ(s))
(r + 1)!,
wobei ω(t) = (t − t0) · · · (t − tr) gilt, erhalt man mit der Darstellung (1.94)
ω(tr + sh) = Πrj=0(tr + sh − (tr − jh)) = hr+1Πr
j=0(s + j)
= hr+1(−1)r+1
( −s
r + 1
)
(r + 1)! ,
also die Aussage des Lemmas.
45
1.8.2 Adams-Verfahren
Wir hatten oben die Integralgleichung
y(tl+m) − y(tl+m−1) =
∫ tl+m
tl+m−1
f(t, y(t)) dt , l = 0, 1, . . . , n − m (1.98)
als Ausgangspunkt fur die Konstruktion von Mehrschrittverfahren betrach-tet. Adams-Verfahren gewinnt man durch Ersetzen des Integranden durchgeeignete Polynome P
yl+m − yl+m−1 =
∫ tl+m
tl+m−1
P(t) dt , l = 0, 1, . . . , n − m . (1.99)
P ist dabei ein Interpolationspolynom, dass unter Nutzung der Werte
(tj, f(tj, yj)), j = l, l + 1, . . . , l + m − 1
bestimmt wird. Je nach spezieller Wahl von P erhalt man explizite oderimplizite Mehrschrittverfahren.
Adams-Bashforth-Verfahren
Wir beginnen mit explizitenen Adams-Verfahren.
Definition 1.42. Fur m ≥ 1 erhalt man das m-schrittige Adams-Bashforth-
Verfahren durch den Ansatz (1.99) mit
P ∈ Πm−1, P(tj) = fj(:= f(tj, yj)), j = l, l + 1, . . . , l + m − 1 . (1.100)
Der folgende Satz liefert eine formelmaßig explizite Darstellung fur das Adams-Bashforth-Verfahren.
Satz 1.43. Das m-schrittige Adams-Bashforth-Verfahren hat die Gestalt
yl+m − yl+m−1 = hm−1∑
k=0
γk∇kfl+m−1 , l = 0, 1, . . . , n − m , (1.101)
mit den von m unabhangigen Koeffizienten
γk = (−1)k
∫ 1
0
(−s
k
)
ds , k = 0, 1, . . . . (1.102)
die sich rekursiv berechnen durch
1
k + 1γ0 +
1
kγ1 +
1
k − 1γ2 + · · ·+ 1
2γk−1 + γk = 1 fur k = 0, 1, . . . . (1.103)
46
Beweis. Darstellung (1.101) mit den Koeffizienten (1.102) folgt aus Lemma1.40, man erhalt
∫ tl+m
tl+m−1
P(t) = h
∫ 1
0
P(tl+m−1+sh) ds = hm+1∑
k=0
(−1)k
∫ 1
0
(−s
k
)
ds
︸ ︷︷ ︸
γk
∇kfl+m−1 .
(1.104)Fur den Nachweis der Rekursionsvorschrift (1.103) betrachtet man
G(t) :=∞∑
k=0
γktk =
∞∑
k=0
(−t)k
∫ 1
0
(−s
k
)
ds =
∫ 1
0
[∞∑
k=0
(−s
k
)
(−t)k]ds
=
∫ 1
0
(1 − t)−sds = − 1
ln(1 − t)(1 − t)−s|s=1
s=0
= − t
(1 − t) ln(1 − t), −1 < t < 1 . (1.105)
Die dabei vorgenommene Vertauschung von∫
und∑
war moglich, da dieReihe
∑∞k=0(−t)k
(−sk
)fur s ∈ [0, 1] gleichmaßig konvergiert. Die Darstellung
fur G(t) ergibt
G(t)− ln(1 − t)
t=
1
1 − t, |t| < 1 ,
bzw. unter Nutzung der Reihen fur − ln(1−t)t
und 11−t
(γ0 + γ1t + γ2t2 + . . . )(1 +
t
2+
t2
3+ . . . ) = (1 + t + t2 + . . . ) , (1.106)
und ein Koeffizientenvergleich ergibt die Rekursionsvorschrift (1.103).
Bemerkung 1.44. Aufgrund von
m−1∑
k=0
γk∇kfl+m−1−j =m−1∑
k=0
k∑
j=0
(−1)j
(k
j
)
γkfl+m−1−j =m−1∑
j=0
[(−1)j
m−1∑
k=j
(k
j
)
γk]
︸ ︷︷ ︸
=:βm,m−1−j
fl+m−1
kann man das m-schrittige Adams-Bashforth-Verfahren (1.101) auf eindeu-tige Weise in der Form
yl+m − yl+m−1 = hm−1∑
j=0
βm,jfl+j , l = 0, 1, . . . , n − m , (1.107)
schreiben.
47
Die Rekursion (1.103) ergibt fur die ersten Koeffizienten
γ0 = 1, γ1 =1
2, γ2 =
5
12, γ3 =
3
8, γ4 =
251
720.
Mit etwas Rechenarbeit kann man unter Nutzung der Koeffiezienten und derdividierten Differenzen die folgenden 3-, 4-, 5- und 6-Schritt-Verfahren vomAdams-Bashforth-Typ herleiten.
yk+1 = yk +h
12[23fk − 16fk−1 + 5fk−2] , (1.108)
yk+1 = yk +h
24[55fk − 59fk−1 + 37fk−2 − 9fk−3] , (1.109)
yk+1 = yk +h
720[1901fk − 2774fk−1
+2616fk−2 − 1274fk−3 + 251fk−4] , (1.110)
yk+1 = yk +h
1440[4277fk − 7923fk−1
+9982fk−2 − 7298fk−3 + 2877fk−4 − 475fk−5].
Die Formeln der Mehrschrittverfahren funktionieren erst ab dem Index k =m, d.h., bei einem 3-Schrittverfahren braucht man die Werte y0, y1, y2, umy3 mit der Formel (1.108) berechnen zu konnen. Die Startwerte y1, y2 werdenmeistens mit einem Runge-Kutta-Verfahren berechnet, wobei evtl. auch meh-rere Schritte mit kleineren Schrittweiten h < h, z.B. 4 Runge-Kutta-Schrittemit der Schrittweite h = h/2 zur Berechnung von y1/2, y1, y3/2, y2 benutztwerden.
Adams-Moulton-Verfahren
Es ist offensichtlich moglich, die Qualitat der Losungsverfahren fur das An-fangswertproblem y′ = f(t, y), y(a) = y0 , zu erhohen, indem man das Inte-gral in der Beziehung (1.78) genauer berechnet. Das soll nun durch die Hin-zunahme des Stutzpunktes (tk+1, fk+1), also die Benutzung des unbekanntenFunktionswertes fk+1 := f(tk+1, yk+1) getan werden. Analog zur Herleitungder Formel (1.79) erhalt man mit dem Ansatz
p4(t) =3∑
j=−1
fk−jLk−j(t)
bei Verwendung der Lagrange’schen Basispolynome Lk+1, ..., Lk−3
yk+1 = yk +
∫ tk+1
tk
3∑
j=−1
fk−jLk−j(t) dt = yk +3∑
j=−1
fk−j
∫ tk+1
tk
Lk−j(t) dt
48
bzw. nach Auswertung der Integrale
yk+1 = yk +h
720[251f(tk+1, yk+1) + 646fk − 264fk−1 + 106fk−2 − 19fk−3] .
(1.111)Das Verfahren (1.111) heißt Methode von Adams-Moulton (kurz AM-Verfahren) und ist eine implizite 4-Schritt-Methode, da die Formel (1.111)auf beiden Seiten yk+1 enthalt und die 4 Werte yk, . . . , yk−3 zur Berechnungvon yk+1 benutzt werden. Fur ein implizites 3-Schritt-Verfahren vom Adams-Moulton-Typ erhalt man auf analogem Weg
yk+1 = yk +h
24[9f(tk+1, yk+1) + 19fk − 5fk−1 + fk−2] . (1.112)
Allgemein kann man das Adams-Moulton-Verfahren wie folgt beschreiben.
Definition 1.45. Fur m ≥ 1 erhalt man das m-schrittige Adams-Moulton-
Verfahren durch den Ansatz (1.99) mit
P ∈ Πm, P(tj) = fj(:= f(tj, yj)), j = l, l + 1, . . . , l + m . (1.113)
Genau wie beim Adams-Bashforth-Verfahren gibt es pragnante Darstellun-gen des Verfahrens, es gelten die Aussagen:
Satz 1.46. Das m-schrittige Adams-Moulton-Verfahren hat die Gestalt
yl+m − yl+m−1 = h
m∑
k=0
γ∗k∇kfl+m , l = 0, 1, . . . , n − m , (1.114)
mit den von m unabhangigen Koeffizienten
γ∗k = (−1)k
∫ 0
−1
(−s
k
)
ds , k = 0, 1, . . . . (1.115)
die sich rekursiv berechnen durch γ∗0 = 1 und
1
k + 1γ∗
0 +1
kγ∗
1 +1
k − 1γ∗
2 + · · · + 1
2γ∗
k−1 + γ∗k = 1 fur k = 1, . . . . (1.116)
Fur die ersten Koeffizienten findet man
γ∗0 = 1, γ∗
1 = −1
2, γ∗
2 = − 1
12, γ∗
3 =1
24, .
Zur Bestimmung von yk+1 bei den impliziten Verfahren (1.111) bzw. (1.112)kann man z.B. eine Fixpunktiteration der Art
y(s+1)k+1 = yk +
h
24[9f(tk+1, y
(s)k+1) + 19fk − 5fk−1 + fk−2]
49
zur Losung von (1.112) durchfuhren (als Startwert empfiehlt sich y(0)k+1 = yk).
Bestimmt man den Startwert y(0)k+1 als Resultat eines expliziten 3-Schritt-
Adams-Bashforth-Verfahrens und fuhrt nur eine Fixpunktiteration durch,dann erhalt man in Analogie zum Heun-Verfahren das Pradiktor-Korrektor-Verfahren
y(p)k+1 = yk +
h
12[23fk − 16fk−1 + 5fk−2] ,
yk+1 = yk +h
24[9f(tk+1, y
(p)k+1) + 19fk − 5fk−1 + fk−2] . (1.117)
Diese Kombination von Adams-Bashforth- und Adams-Moulton-Verfahrenbezeichnet man als Adams-Bashforth-Moulton-Verfahren (kurz alsABM-Verfahren). Das ABM-Verfahren (1.117) hat ebenso wie das Verfahren(1.112) den lokalen Diskretisierungsfehler τ = O(h5) und damit die Fehler-ordnung 4. 8. Vor-
lesungam04.11.2009
Generell kann man mit dem Lemma (1.47) zeigen, dass m-Schritt-Verfahrenvom AM- oder ABM-Typ durch die geeignete Wahl der Koeffizienten ak, bk
jeweils die Fehlerordnung p = m + 1 haben. Im folgenden Abschnitt werdenwir Konstruktionsvorschriften fur allgemeine lineare Mehrschrittverfahrenmit maximaler Fehlerordnung besprechen.
Bei den bisher betrachteten konkreten Mehrschrittverfahren haben wir diezuruckliegenden Werte yk, . . . , yk−m+1 nur benutzt, um das Integral in (1.78)moglichst genau zu approximieren. Schreibt man das 3-Schritt-Adams-Bashforth-Verfahren (1.108) in der Form
yk+1 − yk
h=
1
12[23fk − 16fk−1 + 5fk−2]
auf, dann ist die rechte Seite eine Approximation des Funktionswertes vonf an der Stelle (tk, yk) von der Ordnung O(h3). Die linke Seite ist allerdingsnur eine Approximation der Ordnung O(h) von y′ an der Stelle tk. Da mandie Werte yk, yk−1, yk−2 sowieso benutzt, kann man sie auch verwenden, umdie Ableitung y′ genauer zu approximieren. Das ist die Grundidee der allge-meinen linearen Mehrschrittverfahren. In den bisher behandelten Verfahrenwar jeweils am = 1 und am−1 = −1 sowie am−2 = · · · = a0 = 0. Bei explizi-ten Verfahren ist bm = 0 und bei impliziten Verfahren ist bm 6= 0. Ohne dieAllgemeinheit einzuschranken, setzen wir im Folgenden am = 1. Die anderen2m−1 freien Parameter aj, bj sind so zu wahlen, dass die linke und die rechteSeite von (1.80) Approximationen von
α[y(tk+1) − y(tk)] bzw. α
∫ tk+1
tk
f(t, y(t)) dt
50
sind, wobei α eine von Null verschiedene Zahl ist. Spater werden wir mit denBDF-Verfahren spezielle lineare Mehrschrittverfahren behandeln, bei denennur der Koeffizient bm 6= 0 ist und alle anderen Koeffizienten bk gleich Nullsind.
1.8.3 Konsistenzordnung linearer Mehrschrittverfah-ren
Im Folgenden sollen Vorschriften zur Konstruktion konsistenter Mehrschritt-verfahren, d.h. Verfahren mit einer Fehlerordnung p ≥ 1 erarbeitet werden.Dazu betrachten wir das folgende
Lemma 1.47. Sind fur das lineare m-Schrittverfahren
m∑
j=0
ajyl+j = hm∑
j=0
bjf(tj+l, yj+l) , l = 0, 1, . . . , n − m,
mit einer (p + 1)-mal stetig differenzierbaren Funktion f : [a, b] × R → R
(p ≥ 1) die Gleichungen
m∑
j=0
[jνaj − νjν−1bj] = 0 , ν = 0, 1, . . . , p, (1.118)
erfullt, so ist das m-Schrittverfahren konsistent mit der Fehlerordnung p. Esgilt die Darstellung
τ(t, h) = Cp+1y(p+1)(t)hp+1 + O(hp+2) fur h → 0,
mit Cp+1 =∑m
j=0[jp+1aj
(p+1)!− jpbj
p!] .
(1.119)
Beweis. Die Losung y(t) des AWPs ist (p+ 2)-mal stetig differenzierbar auf-grund der Voraussetzung uber f . Taylorentwicklungen von y und y′ im Punktt ∈ [a, b − mh] ergeben
y(t + jh) =∑p+1
ν=0(jh)ν
ν!y(ν)(t) + O(hp+2)
y′(t + jh) =∑p
ν=0(jh)ν
ν!y(ν+1)(t) + O(hp+1) .
(1.120)
51
Fur den lokalen Verfahrensfehler folgt daraus
τ(t, h) =m∑
j=0
[ajy(t + jh) − hbjf(t + jh, y(t + jh))]
=m∑
j=0
[ajy(t + jh) − hbjy′(t + jh)]
=
p+1∑
ν=0
[m∑
j=0
[jνaj − νjν−1bj]]y(ν)
ν!hν + O(hp+2), (1.121)
0 < h ≤ b − t
m.
Da nach Voraussetzung die ersten p + 1 Faktoren
cν := [m∑
j=0
[jνaj − νjν−1bj] , ν = 0, 1, . . . , p,
gleich Null sind, ergibt (1.121) die Aussage des Lemmas.
Mit dem Lemma erhalt mit der Bedingung c0 = · · · = cp = 0 Bestim-mungsgleichungen fur die Koeffizienten des Mehrschrittverfahrens. Damit dasMehrschrittverfahren (1.80) uberhaupt zur numerischen Losung des Anfangs-wertproblems taugt, muss es konsistent sein, d.h. die Fehlerordnung mussmindestens gleich 1 sein.Fur die Koeffizienten cj ergibt sich konkret
c0 = a0 + a1 + · · · + am ,c1 = a1 + 2a2 + · · · + mam − (b0 + b1 + · · · + bm) ,c2 = (a1 + 22a2 + · · · + m2am) − 2(b1 + 2b2 + · · · + mbm) ,...cr = (a1 + 2ra2 + · · · + mram) − r(b1 + 2r−1b2 + · · · + mr−1bm)
(1.122)fur r = 2, 3, . . . , p.
Beispiel 1.48. Es soll ein explizites 2-Schritt-Verfahren
a0yk−1 + a1yk + a2yk+1 = h[b0fk−1 + b1fk]
der Ordnung 2 bestimmt werden. Mit der Festsetzung a2 = 1 ergibt sich furc0, c1, c2
c0 = a0 + a1 + 1 = 0 ,c1 = a1 + 2 − (b0 + b1) = 0 ,c2 = (a1 + 4) − 2b1 = 0 .
52
Zur Bestimmung von 4 Unbekannten stehen 3 Gleichungen zur Verfugung,also ist eine Unbekannte frei wahlbar. Die Festlegung von a1 = 0 fuhrt aufdie Losung a0 = −1, b0 = 0 und b1 = 2, so dass das 2-Schritt-Verfahren dieForm
yk+1 = yk−1 + h 2 fk (1.123)
hat.
Es wurde schon darauf hingewiesen, dass nur konsistente Verfahren (Ordnungmindestens gleich 1) von Interesse sind. Aus dem Gleichungssystem (1.122)kann mit dem ersten und zweiten charakteristischen Polynom
ρ(z) =m∑
j=0
ajzj , σ(z) =
m∑
j=0
bjzj (1.124)
des Mehrschrittverfahrens (1.80) eine notwendige und hinreichende Bedin-gung fur die Konsistenz formulieren.
Satz 1.49. (notwendige und hinreichende Bedingung fur die Konsistenz)Notwendig und hinreichend fur die Konsistenz des Mehrschrittverfahrens(1.80) ist die Erfullung der Bedingungen
c0 = ρ(1) = 0 , c1 = ρ′(1) − σ(1) = 0 . (1.125)
Macht man außer der Wahl von a2 = 1 keine weiteren Einschrankungen andie Koeffizienten des expliziten 2-Schritt-Verfahrens
a0yk−1 + a1yk + a2yk+1 = h[b0fk−1 + b1fk] ,
dann erreicht man die maximale Ordnung p = 3 durch die Losung des Glei-chungssystems (1.122) fur q = 3, also cj = 0 (j = 0, 1, 2, 3). Man findet dieeindeutige Losung
a0 = −5 , a1 = 4 , b0 = 2 , b1 = 4
und damit das Verfahren
yk+1 = 5yk−1 − 4yk + h[4fk + 2fk−1] . (1.126)
Obwohl das Verfahren die maximale Fehlerordnung p = 3 hat, ist es imVergleich zum Verfahren (1.123) unbrauchbar, weil es nicht nullstabil ist.Das soll im Folgenden genauer untersucht werden. Wir betrachten dazu dieTestdifferentialgleichung
y′ = λy , y(0) = 1 λ ∈ R, λ < 0 , (1.127)
53
von der wir die exakte abklingende Losung y(t) = eλt kennen. Von einembrauchbaren numerischen Losungsverfahren erwartet man mindestens dieWiderspiegelung des qualitativen Losungsverhaltens. Mit f = λy folgt furdas Verfahren (1.126)
(−5 − λh2)yk−1 + (4 − λh4)yk + yk+1 = 0 . (1.128)
Macht man fur die Losung yk der Differenzengleichung (1.128) den Ansatzyk = zk, z 6= 0, dann erhalt man durch Einsetzen in (1.128) nach Divisiondurch zk−1
(−5 − λh2) + (4 − λh4)z + z2 = 0 ⇐⇒ φ(z) = ρ(z) − λhσ(z) = 0 (1.129)
mit den ersten und zweiten charakteristischen Polynomen der Methode(1.126). Die Nullstellen z1,2 = −2 + λh2 ±
√
(2 − λh2)2 + 5 + λh2 von φ(z)aus (1.129) liefern die allgemeine Losung von (1.128)
yk = c1zk1 + c2z
k2 (c1, c2 beliebig) . (1.130)
Die Konstanten c1, c2 sind mit den vorzugebenden Startwerten der 2-Schritt-Methode y0, y1 eindeutig als Losung des linearen Gleichungssystems
c1 + c2 = y0 ,z1c1 + z2c2 = y1
festgelegt. Notwendig (nicht unbedingt hinreichend) fur das Abklingen derLosung yk in der Form (1.130) fur wachsendes k ist die Bedingung |z1,2| ≤ 1.Da fur h → 0 die Nullstellen von φ(z) in die Nullstellen des ersten charakteris-tischen Polynoms ubergehen, durfen diese dem Betrage nach nicht großer als1 sein. Im Fall einer doppelten Nullstelle z von φ(z) eines 2-Schritt-Verfahrenshat die Losung yk der entsprechenden Differenzengleichung die Form
yk = c1zk + c2kzk ,
so dass das Abklingen der Losung yk unter der starkeren Bedingung |z| < 1erreicht wird. Die Uberlegungen zeigen die Bedeutung der Nullstabilitat furQualitat von Mehrschrittverfahren.Man erkennt, dass aufgrund der Nullstellen z1,2 = −2 ± 3 des ersten cha-rakteristischen Polynoms ρ(z) das Verfahren (1.126) der Ordnung 3 nichtnullstabil ist. Im Unterschied dazu ist das Verfahren (1.123) der Ordnung 2mit dem ersten charakteristischen Polynom ρ(z) = −1 + z2 und den Null-stellen z1,2 = ±1 nullstabil.Generell erkennt man leicht an den ersten charakteristischen Polynomen, dassAdams-Bashforth- und Adams-Moulton-Verfahren nullstabil sind.
54
1.8.4 Stabilitat von Losungsverfahren
Im vorangegangenen Abschnitt wurde die Nullstabilitat von m-Schritt-Ver-fahren als Kriterium fur die Tauglichkeit der Verfahren zur korrekten Wieder-gabe des Abklingverhaltens der numerischen Losung im Vergleich zur Losungder Testaufgabe (1.127) behandelt. Nun soll der Begriff der absoluten Stabi-litat von Verfahren eingefuhrt werden. Ausgangspunkt ist wiederum eine imVergleich zu (1.127) leicht modifizierte Testaufgabe
y′ = λy , y(0) = 1 , λ ∈ R oder λ ∈ C , (1.131)
mit der Losung y(t) = eλt. Die Zulassigkeit von komplexen Zahlen λ bein-haltet z.B. auch den Fall von Losungen der Form eαt cos(βt). Eine solcheSituation kann entstehen, wenn man es mit Differentialgleichungen hohererOrdnung oder Systemen erster Ordnung zu tun hat. Das Differentialglei-chungsystem
y′ = Ay
mit der reellen (n × n)-Matrix A und y : [a, b] → Rn kann man unter der
vereinfachenden Annahme der Diagonalisierbarkeit von A mit einer orthogo-nalen Matrix C uberfuhren in das aquivalente System
Cy′ = CAC−1Cy ⇐⇒ z′ = Dz (z := Cy) ,
wobei die Diagonalmatrix D = CAC−1 = (dij) mit djk = λk die Eigenwerteder Matrix A enthalt, die im Allg. komplex sind. Die entkoppelten Diffe-rentialgleichungen z′k = λkzk, i = 1, . . . , n haben dann die Form unsererTestaufgabe (1.131) (s. auch obige Diskussion von (1.6)).Die numerischen Verfahren sollen auch in diesem Fall im Allg. komplexerZahlen λ fur α = Re(λ) < 0 den dann stattfindenden Abklingprozess korrektwiedergeben. Betrachtet man das Euler-Verfahren
yk+1 = yk + hf(tk, yk) ,
dann erhalt man mit f(t, y) = λy
yk+1 = yk + hλyk ⇐⇒ yk+1 = (1 + hλ)yk =: F (hλ)yk .
Falls λ > 0 und reell ist, wird die Losung, fur die y(tk+1) = y(tk + h) =ehλy(tk) gilt, in jedem Fall qualitativ richtig wiedergegeben, denn der FaktorF (hλ) = 1 + λh besteht ja gerade aus den ersten beiden Summanden der e-Reihe, und es wird ein Fehler der Ordnung 2 gemacht, was mit der Ordnung1 des Euler-Verfahrens korreliert. Im Fall eines reellen λ < 0 wird nur unter
55
der Bedingung |F (hλ)| = |1 + hλ| < 1 das Abklingverhalten der Losungbeschrieben. Der Fall λ < 0 und reell ist deshalb im Folgenden von Interesse.Beim Kutta-Verfahren 3. Ordnung
k1 = f(tk, yk), k2 = f(tk +1
2h, yk + h
1
2k1), k3 = f(tk + h, yk − hk1 + 2hk2)
yk+1 = yk +h
6[k1 + 4k2 + k3] .
ergeben die gleichen Uberlegungen
k1 = λyk , k2 = λ(yk +1
2hk1) = (λ +
1
2hλ2)yk ,
k3 = λ(yk − hk1 + 2hk2) = (λ + hλ2 + h2λ3)yk ,
yk+1 = yk +h
6[k1 + 4k2 + k3] = (1 + hλ +
1
2h2λ2 +
1
6h3λ3)yk ,(1.132)
also yk+1 als Produkt von yk mit dem Faktor
F (hλ) = 1 + hλ +1
2h2λ2 +
1
6h3λ3 . (1.133)
Der Faktor (1.133) enthalt gerade die ersten 4 Summanden der e-Reihe und eswird ein Fehler der Ordnung 4 gemacht, so dass die Losung y(t) = eλt qualita-tiv durch (1.132) beschrieben wird. Fur reelles λ < 0 muss die Losung abklin-gen, was nur bei |F (hλ)| < 1 erreicht wird. Wegen limhλ→−∞ F (hλ) = −∞ist die Bedingung |F (hλ)| < 1 nicht fur alle negativen Werte von hλ erfullt.Auch im Fall einer komplexen Zahl λ sollte fur den Fall α = Re(λ) < 0 durchdas numerische Verfahren das Abklingverhalten qualitativ korrekt beschrie-ben werden. Das ist der Fall, wenn die Bedingung |F (hλ)| < 1 erfullt ist.Offensichtlich arbeiten die numerischen Verfahren genau dann stabil, wenndie Bedingung |F (hλ)| < 1 erfullt ist. Damit ist die folgende Definition ge-rechtfertigt.
Definition 1.50. (Gebiet der absoluten Stabilitat eines Einschrittverfahrens)Fur ein Einschrittverfahren, das fur das Testanfangswertproblem (1.131) aufyk+1 = F (hλ)yk fuhrt, nennt man die Menge
B = µ ∈ C | |F (µ)| < 1 (1.134)
Gebiet der absoluten Stabilitat. Enthalt das Gebiet der absoluten Sta-bilitat B eines Verfahrens die gesamte linke Halbebene G = z = a + i b ∈C, a < 0, dann nennt man das Verfahren A-stabil.
56
Um mit einem Einschrittverfahren im Fall Re(λ) < 0 das Abklingen desBetrages der Losung zu sichern, ist also eine Schrittweite h zu wahlen, sodass µ = hλ ∈ B gilt. Hat man es mit mehreren Abklingkonstanten λj
mit Re(λj) < 0 zu tun, muss hλj ∈ B fur alle j gelten. Das Gebiet derabsoluten Stabilitat liefert also eine Information zur Wahl der Schrittweiteh. Da man allerdings in den meisten Fallen evtl. Abklingkonstanten des vonder zu losenden Differentialgleichung beschriebenen Modells nicht kennt, hatman in der Regel keine quantitative Bedingung zur Wahl der Schrittweitezur Verfugung.In der Abbildung 1.2 sind die Gebiete der absoluten Stabilitat fur das expli-zite Euler-Verfahren 1. Ordnung (F (µ) = F (hλ) = 1+hλ) und ein explizitesRunge-Kutta-Verfahren 2. Ordnung (F (µ) = F (hλ) = 1 + hλ + h2λ2/2)skizziert. Den Rand des Gebietes der absoluten Stabilitat des Runge-Kutta-
−2 −1 0 1
−2
−1
1
Runge−Kutta− Verfahren
Euler−Verfahren
Abbildung 1.2: Gebiete der absoluten Stabilitat
Verfahrens (1.132) erhalt man wegen |eiθ| = 1 uber die Parametrisierung
F (µ) = 1 + µ +1
2µ2 = eiθ (θ ∈ [0, 2π]) ,
so dass die Losungen der quadratischen Gleichung µ2 + 2µ + 2 − 2eiθ = 0
µ(θ) = −1 ±√
1 − 2 + 2eiθ (θ ∈ [0, 2π])
gerade die Randpunkte ergeben. Die Gebiete der absoluten Stabilitat furexplizite Verfahren hoherer Ordnung werden großer als in den betrachtetenFallen, wobei die Bestimmung der Gebiete recht aufwendig ist. In der folgen-den Tabelle sind die reellen Stabilitatsintervalle, d.h. die Schnittmenge derGebiete der absoluten Stabilitat mit der Re(µ)-Achse, fur explizite r-stufige
57
r Stabilitatsintervall1 ] − 2, 0[2 ] − 2, 0[3 ] − 2, 51, 0[4 ] − 2, 78, 0[5 ] − 3, 21, 0[
Tabelle 1.1: Stabilitatsintervalle expliziter Runge-Kutta-Verfahren
Runge-Kutta-Verfahren angegeben.
Besonders komfortabel ist die Situation, wenn das Gebiet der absoluten Sta-biltat eines Verfahrens mindestens aus der gesamten linken Halbebene, d.h.B ⊇ µ ∈ C |Re(µ) < 0, besteht, also im Falle der A-Stabilitat. Dann gibtes keine Einschrankungen fur die Schrittweite.Unter den Einschrittverfahren sind die folgenden impliziten Runge-Kutta-Verfahren A-stabil.
k1 = f(tk + 12h, yk + 1
2hk1)
yk+1 = yk + hk1 ,(1.135)
k1 = f(tk + 3−√
36
h, yk + 14hk1 + 3−2
√3
12hk2)
k2 = f(tk + 3+√
36
h, yk + 3+2√
312
hk1 + 14hk2)
yk+1 = yk + h2[k1 + k2] .
(1.136)
Fur (1.135) erhalt man mit f = λy
k1 = λ(yk +1
2hk1) =⇒ k1 =
λ
1 − 12hλ
yk ,
yk+1 = yk + hk1 = yk +hλ
1 − 12hλ
yk =1 + 1
2hλ
1 − 12hλ
yk = F (hλ)yk .
Der Faktor F (hλ) ist fur λ mit negativem Realteil α = Re(λ) < 0 demBetrage nach kleiner als 1, denn es gilt fur negatives a offensichtlich
|1 + a + b i| < |1 − a − b i| . (1.137)
Fur das implizite Runge-Kutta-Verfahren 2. Ordnung (1.136) erhalt man aufahnliche Weise
F (hλ) =1 + 1
2hλ + 1
12h2λ2
1 − 12hλ + 1
12h2λ2
und stellt ebenso wie bei (1.135) die absolute Stabilitat fest, weil |F (hλ)| < 1aus (1.137) folgt.
58
Fur die Trapezmethode yk+1 = yk + h2(f(tk, yk) + f(tk+1, yk+1) erhalt man
den gleichen Faktor F (hλ) wie im Fall des Runge-Kutta-Verfahrens (1.135)so dass die absolute Stabilat folgt.
9. Vor-lesungam10.11.2009
Bei den Mehrschrittverfahren (1.80) versteht man unter Stabilitat ebenfallsdie Verfahrenseigenschaft, dass im Fall Re(λ) < 0 die numerische Losung derTestaufgabe (1.131) das Abklingverhalten der analytischen Losung der Auf-gabe hat. Wir erhalten mit den Nullstellen z1, . . . , zm der charakteristischenGleichung φ(z) = ρ(z)−hλσ(z) des jeweiligen Verfahrens fur die Testaufgabeim Fall paarweise verschiedener Nullstellen
yk = c1zk1 + c2z
k2 + · · · + cmzk
m
als numerische Losung. yk klingt mit wachsendem k genau dann ab, wenn|zj| < 1 fur alle j gilt. Das fuhrt auf die
Definition 1.51. (Gebiet der absoluten Stabilitat eines Mehrschrittverfah-rens)Das Gebiet der absoluten Stabilitat eines Mehrschrittverfahrens (1.80)besteht aus den Zahlen µ = h λ, fur die die charakteristische Gleichungρ(z)−hλσ(z) = 0 nur Losungen zj ∈ C aus dem Inneren des Einheitskreiseshat.
Die Lokalisierung des Randes des Gebietes der absoluten Stabilitat ist durchdie Gleichung |z| = 1 moglich. Man bestimmt µ = hλ aus der charakteris-tischen Gleichung mit den Punkten des Einheitskreises z = eiθ, θ ∈ [0, 2π]und erhalt mit
µ(z(θ)) =ρ(z)
σ(z)=
ρ(eiθ)
σ(eiθ)
die Randpunkte. Fur das Adams-Bashforth-Verfahren (1.79) ergibt sich kon-kret
µ(z(θ)) =24z4 − 24z3
55z3 − 59z2 + 37z − 9=
24ei4θ − 24ei3θ
55ei3θ − 59ei2θ + 37eiθ − 9
als Randkurve, die in der Abb. 1.3 skizziert ist. Bei der Bestimmung der Ge-biete der absoluten Stabilitat zeigt sich, dass die Adams-Moulton-Methodengroßere Stabilatsbereiche als die Adams-Bashforth-Methoden haben. Fur das3-Schritt-AM-Verfahren (1.112) ergibt sich mit dem ersten und zweiten cha-rakteristischen Polynom
ρ(z) = z3 − z2 und σ(z) =9
24z3 +
19
24z2 − 5
24z +
1
24
59
−3 −2 −1 0 1
−2
−1
1
Adams−Bashforth− VerfahrenAdams−Moulton− Verfahren
Abbildung 1.3: Gebiete der absoluten Stabilitat von AB- und AM-Verfahren
der Rand des Gebietes der absoluten Stabilitat als
µ(z(θ)) =24z3 − 24z2
9z3 + 19z2 − 5z + 1=
24ei3θ − 24ei2θ
9ei3θ + 19ei2θ − 5eiθ + 1(θ ∈ [0, 2π]) ,
der in der Abb. 1.3 im Vergleich zum AB-Verfahren skizziert ist.
1.8.5 BDF-Verfahren
Mehrschritt-Verfahren (1.80), bei denen bis auf den Koeffizienten bm alleanderen b-Koeffizienten gleich null sind, also Verfahren der Form
m∑
j=0
ajyl+j = hbmf(tl+m, yl+m) , (1.138)
werden Ruckwartsdifferentiationsmethoden oder kurz BDF-Verfahren(backward differentiation formula) genannt. Die Idee dieser Verfahren be-steht darin, ausgehend von den Wertepaaren (tl, yl), . . . , (tl+m, yl+m) ein In-terpolationspolynom P zur Approximation von y(t) zu bestimmen, wobeiyl, . . . , yl+m− bekannte Werte sind, und durch P ′(tl+m) = f(tl+m, yl+m), alsodie Nutzung der Differentialgleichung, eine Gleichung zur Berechnung vonyl+m zu verwenden.
Definition 1.52. Fur m ≥ 1 erhalt man das m-schrittige BDF-Verfahren,indem man ausgehend von yl, . . . , yl+m fur das Interpolationspolynom
P ∈ Πm, P(tj) = yj, j = l, l + 1, . . . , l + m , (1.139)
die Erfullung der Bedingung
P ′(tl+m) = fl+m (= f(tl+m, yl+m)) (1.140)
fordert.
60
Bei der Konstruktion von BDF-Verfahren hilft der
Satz 1.53. Das m-schrittige BDF-Verfahren hat die Gestalt
m∑
k=1
1
k∇kyl+m = hfl+m, l = 0, 1, . . . , n − m . (1.141)
Beweis. Das Polynom P nach (1.139) hat wie fruher gezeigt die Darstellung
P(tl+m + sh) =m∑
k=0
(−1)k
(−s
k
)
∇kyl+m , s ∈ R, (1.142)
wobei yl+m als Parameter noch frei ist. Zur Anpassung an die Bedingung(1.140) wird (1.142) differenziert, man erhalt
P ′(tl+m) =1
h
d
dsP(tl+m + sh)|s=0 =
1
h
m∑
k=0
(−1)k d
ds
(−s
k
)
|s=0∇kyl+m ,
und wegen(−s
0
)= 1 und der Definition des verwendeten Binomialkoeffizien-
ten
d
ds
(−s
k
)
|s=0 =d
ds
(−s)(−s − 1) · · · (−s − k + 1)
k!|s=0 =
(−1) · · · (−k + 1)
k!
= (−1)k 1 · 2 · · · (k − 1)
k!=
(−1)k
k!.
Fur k ≥ 1 erhalt man die Aquivalenz von (1.141) und (1.139), (1.140).
Bemerkung 1.54. Das m-schrittige BDF-Verfahren (1.141) kann man auchauf eindeutige Weise in der Form
m∑
k=1
αm,jyl+m = hfl+m , l = 0, 1, . . . , n − m,
schreiben, wobei sich fur die von m abhangigen Koeffizienten αm,j
m∑
k=1
1
k∇kyl+m =
m∑
k=1
1
k
k∑
j=0
(−1)j
(k
j
)
yl+m−j =m∑
j=0
[(−1)j
m∑
k=maxj,1
1
k
(k
j
)
]
︸ ︷︷ ︸
=:αm,m−j
yl+m−j
ergibt.
61
Die einfachsten 2- und 3-Schritt-BDF-Verfahren 2. und 3. Ordnung habendie Form
3
2yk+1 − 2yk +
1
2yk−1 = hf(tk+1, yk+1) , (1.143)
11
6yk+1 − 3yk +
3
2yk−1 −
1
3yk−2 = hf(tk+1, yk+1) . (1.144)
Das einfachste BDF-Verfahren ist das so genannte Euler-ruckwarts-Verfahren
yk+1 − yk = hf(tk+1, yk+1) . (1.145)
Fur das Euler-ruckwarts-Verfahren findet man fur das Testproblem y′ = λyschnell mit der Beziehung
yk+1 =1
1 − hλyk = F (hλ)yk
heraus, dass |F (hλ)| < 1 fur Re(λ) < 0 ist. D.h., das Euler-ruckwarts-Verfahren ist absolut stabil. Das BDF-Verfahren (1.143) hat die charakte-ristische Gleichung
φ(z) =3
2z2 − 2z +
1
2− µz2 = 0 ⇐⇒ µ(z) =
3z2 − 4z + 1
2z2.
Fur die Punkte z = eiθ, θ ∈ [0, 2π] erhalt man die in der Abb. 1.4 skizzierteRandkurve µ(z(θ)) des Gebiets der absoluten Stabilitat. Da man z.B. fur µ =−1
2die Losung z1,2 = 1
2mit |z1,2| < 1 findet, kann man schlussfolgern, dass
der Bereich der absoluten Stabilitat im Außenbereich der Randkurve liegt.Damit ist das Verfahren (1.143) absolut stabil. Das Verfahren (1.144) ist nichtabsolut stabil, weil das Gebiet der absoluten Stabilitat nicht die gesamte linkekomplexe Halbebene enthalt. In der Abb. 1.4 ist der Rand des Gebietes derabsoluten Stabilitat des Verfahrens skizziert. Das Gebiet liegt wiederum imAußenbereich der Randkurve. In solchen Situationen kann man den Winkelα zwischen der reellen Achse und einer Tangente an die Randkurve durchden Ursprung legen. Bei dem BDF-Verfahren (1.144) ist der Winkel α = 88o,so dass das Verfahren A(88o)-stabil ist. A(90o)-Stabilitat bedeutet absoluteStabilitat. Liegt der Winkel α nahe bei 90o, dann liegt zwar kein absolutstabiles, jedoch ein ”sehr” stabiles Verfahren vor. Bei BDF-Verfahren hohererOrdnung wird der Winkel α kleiner, so dass die Stabilitat der BDF-Verfahrennachlasst, jedoch zumindest noch A(α)-stabil sind. Zur Illustration ist dasGebiet der absoluten Stabilitat des 4-Schritt-BDF-Verfahrens
25
12yk+1 − 4yk + 3yk−1 −
4
3yk−2 +
1
4yk−3 = hf(tk+1, yk+1) , (1.146)
62
−4 0 4 8
−8
−4
4
BDF−Verfahren
2.Ordnung3.Ordnung4.Ordnung
72°
Abbildung 1.4: Gebiete der absoluten Stabilitat der BDF-Verfahren (1.143),(1.144) und (1.146)
also die Kurve
µ(z(θ)) =2512
z4 − 4z3 + 3z2 − 43z + 1
4
z4=
2512
ei4θ − 4ei3θ + 3ei2θ − 43eiθ + 1
4
ei4θ,
θ ∈ [0, 2π], in der Abbildung 1.4 im Vergleich zu den Verfahren (1.143) und(1.144) skizziert. Das Verfahren (1.146) ist A(72o)-stabil.Zur Konvergenz von BDF-Verfahren notieren wir den
Satz 1.55. Das m-schrittige BDF-Verfahren ist genau fur 1 ≤ m ≤ 6 null-stabil. Fur hinreichend glatte Funktionen f besitzt es die Konvergenzordnungp = m.
1.9 Steife Differentialgleichungen
Differentialgleichungssysteme, die physikalische oder chemische Prozesse be-schreiben, haben oft Losungen, die sich aus sehr unterschiedlich schnell ab-klingenden Komponenten zusammensetzen. Das passiert dann, wenn Teilpro-zesse mit stark unterschiedlichen Geschwindigkeiten ablaufen. Man sprichthier auch von Teilprozessen mit sehr unterschiedlichen Zeitkonstanten.Als Beispiel soll hier das lineare Differentialgleichungssystem
y′1 = −y1 + 50y2
y′2 = −70y2
mit den Anfangswerten y1(0) = 1 und y2(0) = 10 betrachtet werden. AlsLosung findet man mit der Eigenwertmethode mit den Eigenwerten λ1 = −1,
63
λ2 = −70 und den dazugehorigen Eigenvektoren ~v1 = (1, 0)T bzw. ~v2 =(−50, 69)T unter Berucksichtigung der Anfangsbedingungen
y1(t) = 8, 24638e−t − 7, 2464e−70t , y2(x) = 10e−70t .
Um die am schnellsten abklingende Komponente mit einer Genauigkeit vonǫ = 10−4 durch ein numerisches Losungsverfahren zu erfassen, muss man dieSchrittweite h so wahlen, dass e−70h mit F (−70h)e0 = F (−70h) auf funfStellen ubereinstimmt. Bei dem Runge-Kutta-Verfahren 3. Ordnung (1.132)mit
F (λh) = 1 + hλ +1
2h2λ2 +
1
6h3λ3
bedeutet das aufgrund des Restglieds der Taylor-Reihenentwicklung der e-Reihe die Erfullung der Ungleichung
|e−70h − F (−70h)| ≤ 1
24(70h)4 ≤ 10−6 ,
was mit h = 0, 001 moglich ist. Nach 100 Schritten ist dieLosungskomponente mit der Abklingfunktion e−70t gegenuber der langsa-mer abklingenden Komponente e−t schon sehr klein geworden (e−70·0,1 =0, 00091188 < e−0,1 = 0, 90484). Deshalb kann man im weiteren Verlauf dernumerischen Integration die Schrittweite erhohen durch die Forderung derUbereinstimmung von e−h mit F (−h) auf funf Stellen. Die entsprechendeUngleichung
|e−h − F (−h)| ≤ 1
24h4 ≤ 10−6
wird mit h = 0, 069 erfullt. Da −70h = −4, 8995 < −2, 17 außerhalb des In-tervalls der absoluten Stabilitat des 3-stufigen Runge-Kutta-Verfahrens liegt(s. dazu Tab. 1.1), kann man die numerische Integration aber zumindest mitder Schrittweite h = −70
−2,17= 0, 031 stabil fortsetzen. Allerdings ist dieses
Beispiel mit S = |λ2/λ1| = 70 (s. dazu Def. 1.56) nicht sehr steif. Von steifenSystemen spricht man etwa ab S = 103.Das Beispiel zeigt in etwa die Problematik der Losung von Differential-gleichungen bzw. Systemen, mit denen Prozesse mit stark unterschiedli-chen abklingenden Teilprozessen beschrieben werden. Um uberhaupt etwasvon dem Abklingprozess mit der Konstanten λ2 = −70 im numerischenLosungsprozess wiederzuerkennen, darf man auf keinen Fall mit maxima-len Schrittweiten h gemaß Stabilitatsintervall des Verfahrens am Beginn derRechnung arbeiten. Die Schrittweiten mussen zum jeweils relevanten Ab-klingverhalten der Losung passen.
Der Begriff der Steifheit soll fur ein lineares Differentialgleichungssystem er-klart werden.
64
Definition 1.56. (Steifheit eines Differentialgleichungssystems)Das lineare Differentialgleichungssystem mit der Matrix A vom Typ n × n
~y ′(t) = A~y(t) +~b(t) (~y(t),~b ∈ Rn) (1.147)
heißt steif, falls die Eigenwerte λj (j = 1, . . . , n) von A sich sehr starkunterscheidende negative Realteile besitzen. Als Maß S der Steifheit des Dif-ferentialgleichungssystems (1.147) gilt der Quotient der Betrage der absolutgroßten und kleinsten Realteile der Eigenwerte
S =max1≤j≤n |Re(λj)|min1≤j≤n |Re(λj)|
. (1.148)
Das oben beschriebene Phanomen der Steifheit tritt sehr haufig bei nichtli-nearen Differentialgleichungssystemen
~y ′(t) = ~F (t, ~y(t)) (~y(t) ∈ Rn) (1.149)
auf und es entsteht das Problem, dass man die Abklingkonstanten nicht apriori kennt. Man kann aber versuchen, die Steifheit von (1.149) durch eineschrittweise Linearisierung zu analysieren. Ausgehend von einer bekanntenNaherung ~yk an der Stelle tk kann man den Ansatz ~y(t) = ~yk + ~z(t) furtk ≤ t ≤ tk +h fur eine kleine Schrittweite h und einen Anderungsvektor ~z(t)mit einer kleinen Lange machen. Aus (1.149) folgt dann
~y ′(t) = ~z ′(t) = ~F (t, ~y(t)) = ~F (tk +(t− tk), ~yk +~z(t)) (~z(t) ∈ Rn) . (1.150)
In Verallgemeinerung der Linearisierung einer Funktion zweier Veranderlicher
f(t + ∆t, y + ∆y) ≈ f(t, y) +∂f
∂t(t, y)∆t +
∂f
∂y(t, y)∆y
erhalt man fur (1.150) die Linearisierung
~z ′(t) ≈ ∂ ~F
∂t(tk, ~yk)(t − tk) + ~F ′(tk, ~yk)~z(t) , (1.151)
wobei
∂ ~F
∂t(tk, ~yk) =
∂f1
∂t(tk, ~yk)...
∂fn
∂t(tk, ~yk)
=: ~q, ~F ′(tk, ~yk) =
∂f1
∂y1
(tk, ~yk) . . . ∂f1
∂yn
(tk, ~yk)∂f2
∂y1
(tk, ~yk) . . . ∂f2
∂yn
(tk, ~yk)...
...∂fn
∂y1
(tk, ~yk) . . . ∂fn
∂yn
(tk, ~yk)
=: Ak
(1.152)
65
gilt. Mit dem Vektor ~b(t) = (t − tk)~q und der Matrix Ak nach (1.152) ist(1.151) ein lineares Differentialgleichungssystem der Form (1.147), also
~z ′(t) ≈ Ak~z(t) +~b(t) ,
fur das man die Steifheit durch Betrachtung der Eigenwerte von Ak ermittelnkann. In der Regel kann man somit im k-Integrationsschritt durch eine Ei-genwertbetrachtung der Matrix Ak Informationen fur die Wahl einer Schritt-weite h erhalten, die eine Berucksichtigung aller Losungskomponenten mitunterschiedlichem Abklingverhalten sichert.Bei der praktischen Anwendung dieser Methode stellt man fest, dass die Steif-heit eines Differentialgleichungssystems an unterschiedlichen Stellen tk vari-iert. Speziell bei der Beschreibung von chemischen Reaktionen durch nicht-lineare Differentialgleichungssysteme nimmt die Steifheit mit wachsendem toft ab. 10.
Vorle-sungam11.11.2009
Als Integrationsverfahren benotigt man Verfahren, die die Wahl großerSchrittweiten h ermoglicht. In Frage kommen hauptsachlich die absolutstabilen impliziten Runge-Kutta-Methoden und die A(α)-stabilen BDF-Methoden. Bei Verwendung anderer Methoden muss man bei der Schritt-weitenwahl immer die aufgrund eines endlichen Stabilitatsintervalls existie-rende untere Schranke fur hλ im Fall einer reellen Abklingkonstante λ < 0berucksichtigen.
Beispiel 1.57. In Schwarz[1997] wurde das Gleichungssystem
y′1 = −0, 1y1 + 100y2y3
y′2 = 0, 1y1 − 100y2y3 − 500y2
2 (1.153)
y′3 = 500y2
2 − 0, 5y3
zur Beschreibung der kinetischen Reaktion von drei chemischen SubstanzenY1, Y2, Y3 mit den Anfangsbedingungen y1(0) = 4, y2(0) = 2, y3(0) = 0, 5untersucht. Die Losungskomponenten y1(t), y2(t), y3(t) bedeuten dabei dieKonzentrationen der Substanzen zum Zeitpunkt t. Eine genauere Analyseder Eigenwerte der Jacobi-Matrizen ~F ′ der Linearisierung (1.151) ergab ab-nehmende Steifheiten im Laufe der Zeit.
Im Zusammenhang mit steifen Differentialgleichungen wurde mit der soge-nannten L-Stabilitat ein Stabilitatsbegriff eingefuhrt, der die absolute Sta-bilitat umfasst, aber speziell auf das Problem von Losungskomponenten mitstark unterschiedlichem Abklingverhalten ausgerichtet ist. Man betrachtetwiederum das Testproblem
y′ = λy , y(0) = 1, λ ∈ C .
66
Von einem L-stabilen Verfahren
yk+1 = F (hλ)yk
erwartet man, dass im Falle von Re(λ) < 0 auch fur beliebig große Schritt-weiten h
limk→∞
yk = 0
gilt, d.h. das qualitative Losungsverhalten der exakten Losung y(t) = eλt
auch fur große h durch das numerische Verfahren beschrieben wird. Fur li-neare Mehrschrittverfahren ergibt sich die
Definition 1.58. Ein lineares Mehrschrittverfahren heißt L-stabil, wenndie Wurzeln zj der charakteristischen Gleichung
ρ(z) − hλσ(z) = 0
auch fur hRe(λ) → −∞ die Eigenschaft |zj| < 1 haben.
Die A-stabile Trapezregel
yk+1 = yk +h
2[f(tk+1, yk+1) + f(tk, yk)]
ergibt fur die Testaufgabe
yk+1
yk
=1 + hλ
2
1 − hλ2
= F (hλ)
und man erhaltlim
hRe(λ)→−∞|yk+1
yk
| = 1 ,
und damit ist das Verfahren nicht L-stabil. Fur große Schrittweiten h undλ < 0, reell, ist der Faktor F (hλ) negativ, so dass das Vorzeichen von yk furwachsendes k alterniert, was auch nicht fur das Losungsverfahren spricht.Aus
yk+1
yk
=1
1 − hλ
folgt dagegen fur das implizite Euler-Verfahren die L-Stabilitat.
67
1.10 Weitere klassische lineare Mehrschritt-
verfahren
Geht man bei der Konstruktion von linearen Mehrschrittverfahren von derBeziehung
y′ = f(t, y) ⇐⇒ y(tl+m)−y(tl+m−2) =
∫ tl+m
tl+m−2
f(t, y(t)) dt , l = 0, 1, . . . , n−m ,
(1.154)aus so kann man mit dem Ansatz
yl+m − yl+m−2 =
∫ tl+m
tl+m−2
P(t) dt , (1.155)
durch eine geeignete Wahl des Polynoms P die Nystrom- bzw. Milne-Simpson-Verfahren konstruieren.
Definition 1.59. Fur m ≥ 1 erhalt man das m-schrittige Nystrom-
Verfahren durch den Ansatz (1.155) mit
P ∈ Πm−1, P(tj) = fj(:= f(tj, yj)), j = l, l + 1, . . . , l + m − 1 . (1.156)
Das Nystrom-Verfahren ist damit ein explizites Mehrschrittverfahren. Bei-spiele von Nystrom-Verfahren sind
m = 2 : yl+2 = yl + 2hfl+1 , (1.157)
m = 3 : yl+3 = yl+1 +h
3[7fl+2 − 2fl+1 + fl] , (1.158)
m = 4 : yl+4 = yl+2 +h
3[8fl+3 − 5fl+2 + 4fl+1 − fl] . (1.159)
Es ist offensichtlich, dass die Nystrom-Verfahren nullstabil sind. Es giltdaruberhinaus der
Satz 1.60. Das m-schrittige Nystrom-Verfahren ist nullstabil. Fur genugendglatte Funktionen f hat es die Konsistenzordnung p = m.
Approximiert man die ”rechte” Seite von (1.154) genauer, dann erhalt mandas Milne-Simpson-Verfahren.
Definition 1.61. Fur m ≥ 1 erhalt man das m-schrittige Milne-Simpson-
Verfahren durch den Ansatz (1.155) mit
P ∈ Πm, P(tj) = fj(:= f(tj, yj)), j = l, l + 1, . . . , l + m . (1.160)
68
Die Bedingung (1.160) bedeutet, dass das Milne-Simpson-Verfahren ein im-plizites lineares Mehrschrittverfahren ist. Der damit erhohte Berechnungs-aufwand fur yl+m wirkt sich positiv auf die Konsistenzordnung aus. Es giltder
Satz 1.62. Das m-schrittige Milne-Simpson-Verfahren ist nullstabil. Furgenugend glatte Funktionen f gilt bezuglich der Konsistenzordnung:
• Fur m = 2, also ein zweischrittiges Milne-Simpson-Verfahren, erhaltman die Konsistenzordnung p = 4.
• Fur m ≥ 4 besitzt das m-schrittige Milne-Simpson-Verfahren die Kon-sistenzordnung p = m + 1.
Beispiele von Milne-Simpson-Verfahren sind
m = 2 : yl+2 = yl +h
3[fl+2 + 4fl+1 + fl] ,
m = 4 : yl+4 = yl+2 +h
90[29fl+4 + 124fl+3 + 24fl+2 + 4fl+1 − fl] .
Das zweischrittige Verfahren heißt auch Verfahren von Milne und entsprichtder Simpson- bzw. Keplersche Fassregel der numerischen Integration.Die Bestimmung der Bereiche der absoluten Stabilitat der angegebenenNystrom bzw. Milne-Simpson-Verfahren sei ebenso wie der Nachweis der re-sultierenden Konsistenzordnungen (durch Taylorapproximationen) als Ubungempfohlen.
69
Kapitel 2
Zweipunkt-Randwertaufgaben
11.Vorle-sungam17.11.2009
Wir setzen in den folgenden drei Kapiteln die Einfuhrung in die numerischeBehandlung gewohnlicher Differentialgleichungen mit Randwertaufgaben 2.Ordnung fort. Dabei sucht man die Losung einer Differentialgleichung zweiterOrdnung. Deren eindeutige Festlegung erfolgt durch Randbedingungen, d.h.Bedingungen an die Losung am Randes des betrachteten Losungsintervalls.
2.1 Theoretische Grundlagen
2.1.1 Einfuhrendes Beispiel und Definitionen
Beispiel 2.1. Wir betrachten einen isothermen Stromungsreaktor mit konti-nuierlicher Zufuhr bzw. Abfuhr der Reaktionsmasse bzw. des Reaktionspro-duktes. Die Konzentrationsverteilung C(x1, x2, x3, t) im Reaktor ergibt sichaus der Stoffbilanzgleichung
∂c
∂t= −
3∑
i=1
∂
∂xi
(wic) +3∑
i=1
∂
∂xi
(D∂c
∂xi
) + r(c) .
Dabei sind w = (wi)i=1,2,3 das Geschwindigkeitsfeld der Stromung im Re-aktor, D der Diffusionskoeffizient und r(c) der Reaktionsterm. Zur Verein-fachung nehmen wir einen stationaren Reaktorbetrieb, d.h. ∂c
∂t= 0, einen
konstanten Diffusionskoeffizienten D und ein konstantes Geschwindigkeits-feld w = (w, 0, 0) an. Ferner sollen Anderungen der Konzentration c nur inaxialer Richtung x des rotationssymmetrischen Reaktors betrachtet werden.Dann vereinfacht sich die Stoffbilanzgleichung zur gewohnlichen Differential-gleichung 2. Ordnung
−Dd2c
dx2+ w
dc
dx+ r(c) = 0, 0 < x < L .
70
Durch Entdimensionierung mittels ξ := xL, u = c
c0mit der Anfangskonzen-
tration c0 erhalten wir mit der Peclet-Zahl P := wLD
− 1
P
d2u
dξ2+
du
dξ+ R(u) = 0 , 0 < ξ < 1 .
Die Losung kann vereinfachend durch die Randbedingungen
u(0) − 1
P
du
dξ|ξ=0 = 1 ,
du
dξ|ξ=1 = 0
festgelegt werden.
Wir geben nachfolgend eine Klassifikation gewohnlicher Differentialgleichun-gen 2. Ordnung
F (x, u(x), u′(x), u′′(x)) = 0. (2.1)
Definition 2.2. Eine Differentialgleichung 2. Ordnung heißt quasilinear,falls
F (x, u, u′, u′′) := −u′′ + B(x, u)u′ + C(x, u) = 0,
semilinear , falls
F (x, u, u′, u′′) := −u′′ + b(x)u′ + C(x, u) = 0,
bzw. linear, falls
F (x, u, u′, u′′) := −u′′ + b(x)u′ + c(x)u − f(x) = 0.
Offenbar ist die im Beispiel 2.1 betrachtete Gleichung semilinear. Die Rand-bedingungen sind im allgemeinen Fall
Gi(a, b, u(a), u(b), u′(a), u′(b)) = 0, i = 1, 2
nicht linear und gekoppelt. In Anwendungen ist es oft ausreichend, Randbe-dingungen in linearer und entkoppelter Form zu betrachten. Dies vereinfachtauch die Untersuchung entsprechender Randwertprobleme (RWP) erheblich.
Definition 2.3. Lineare und entkoppelte Randbedingungen der Form
u(a) = α, u(b) = β (2.2)
u′(a) = α, u′(b) = β (2.3)
c1u(a) + u′(a) = α, c2u(b) + u′(b) = β (2.4)
heißen Randbedingungen 1. Art (oder vom DIRICHLET-Typ), 2. Art
(oder vom NEUMANN-Typ) bzw. 3. Art (oder vom ROBIN-Typ).
71
Man spricht von gemischten Randbedingungen, wenn auf x = a und x = bunterschiedliche Typen von Randbedingungen gestellt werden. Dies trifft inBeispiel 2.1 zu. Bei den weiteren Betrachtungen werden wir in der Regelvereinfachend lineare RWP 1. Art, d.h.
(Lu)(x) := −u′′(x) + b(x)u′(x) + c(x)u(x) = f(x), a < x < b, (2.5)
u(a) = α, u(b) = β , (2.6)
betrachten. Mittels
u(x) = v(x) + αx − b
a − b+ β
x − a
b − a
kann man die Untersuchung auf den Fall homogener Randbedingungen, d.h.α = β = 0 zuruckfuhren. Uber x = (b − a)ξ transformiert man das RWPauch oft auf das Einheitsintervall, d.h.
(Lu)(x) := −u′′(x) + b(x)u′(x) + c(x)u(x) = f(x), 0 < x < 1 (2.7)
u(0) = u(1) = 0 . (2.8)
2.1.2 Losbarkeit des 1. RWP im symmetrischen Fall
Das nachfolgendes Beispiel zeigt, dass RWP 2. Ordnung nicht in jedem Falllosbar oder eindeutig losbar sind.
Beispiel 2.4. Die allgemeine Losung der Schwingungsgleichung
−u′′(x) − u(x) = 0, 0 < x < b
hat die Form u(x) = cl cos x + c2 sin x. Die beiden Konstanten sind so zubestimmen, dass jeweils die folgenden Randbedingungen u(0) = α, u(b) = βerfullt werden. Daraus ergibt sich das lineare System
cos(0) c1 + sin(0) c2 = α,
cos(b) c1 + sin(b) c2 = β .
Im Ergebnis der Losungstheorie linearer Gleichungssysteme zeigt sich, dassdas entstehende System in Abhangigkeit von b sowie α und β entweder eineeindeutige, keine oder unendlich viele Losungen hat.
Wir betrachten noch einen wichtigen Spezialfall, in dem die Losung in Inte-gralform angebbar ist. Die mehrdimensionale Verallgemeinerung ist das furAnwendungen wichtige POISSON-Problem.
72
Lemma 2.5. Die Funktion
u(x) =
∫ 1
0
G(x, t)f(t) dt, x ∈ [0, 1]
mit der sogenannten Greenschen Funktion
G(x, t) :=
t(1 − x), 0 ≤ t ≤ x ≤ 1,x(1 − t), 0 ≤ x ≤ t ≤ 1
lost das 1. RWP der POISSON-Gleichung
−u′′(x) = f(x), x ∈ (0, 1); u(0) = u(1) = 0.
Zur Klarung der Losbarkeit des RWP (2.7), (2.8) betrachten wir hier zunachstden allgemeinen symmetrischen Fall mit b(x) = 0. Hier gilt der
Satz 2.6. Gelte c, f ∈ C[0, 1] sowie b(x) = 0, c(x) ≥ 0 in [0, 1]. Dannexistiert eine und nur eine Losung u ∈ C2[0, 1] des RWP (2.7), (2.8).
Beweis. (i) Eindeutigkeit: Wir nehmen an, u1, u2 sind Losungen des RWP(2.7), (2.8). Dann genugt u := u1 − u2 dem homogenen RWP
−u′′ + cu = 0, 0 < x < 1; u(0) = u(1) = 0.
Multiplikation der Differentialgleichung mit u, Integration uber [0, 1] undpartielle Integration des Integralterms mit u′′u fuhrt unter Beachtung derRandbedingungen auf
0 =
∫ 1
0
(−u′′ + cu)u dx =
∫ 1
0
[(u′)2 + cu2] dx.
Wegen c ≥ 0 und u ∈ C[0, 1] folgt daraus u(x) = 0 in [0, 1] und damit dieEindeutigkeit der Losung von (2.7), (2.8).(ii) Existenz: Die allgemeine Losung des RWP (2.7), (2.8) hat die Gestalt
u(x) = α1u1(x) + α2u2(x) + up(x) .
Dabei bilden ul, u2 ein Fundamentalsystem aus zwei linear unabhangigenLosungen der homogenen Differentialgleichung (d.h. mit f(x) = 0). up ist eine(beliebige partikulare) Losung der Gleichung (2.7). Die Aussage lasst sich mitHilfe des Satzes von PICARD-LINDELOF zeigen, der im Zusammenhang mitder Losbarkeit von Anfangswertproblemen behandelt wurde. Zur Erfullungder Randbedingungen entsteht das lineare Gleichungssystem
ul(0)α1 + u2(0)α2 = α − up(0)
ul(1)α1 + u2(1)α2 = β − up(1)
73
fur die Koeffizienten α1 und α2. Dieses System ist eindeutig losbar. Sindnamlich αi, i = 1, 2 Losung des zugehorigen homogenen Systems, ware u =αlul + α2u2 Losung des entsprechenden homogenen RWP und damit u = 0nach Teil (i). Wegen der linearen Unabhangigkeit von u1, u2 impliziert diesα1 = α2 = 0.
Bemerkung 2.7. Die Existenz- und Eindeutigkeitsaussage von Satz 2.6 lasstsich unter Verwendung Greenscher Funktionen ausdehnen auch auf den se-milinearen Fall
−u′′(x) = g(x, u(x)), x ∈ (0, 1), u(0) = u(1) = 0.
2.1.3 Maximum-Prinzip fur lineare RWP
Wir betrachten nun das (eventuell nichtsymmetrische ) RWP
(Lu)(x) := −u′′(x) + b(x)u′(x) + c(x)u(x) = f(x), 0 < x < 1 (2.9)
u(0) = α, u(1) = β. (2.10)
Zunachst gelingt eine Transformation auf den symmetrischen Fall mittels
u(x) = v(x) exp(1
2
∫ x
0
b(t)dt).
Nach kurzer Rechnung erhalt man fur v das RWP
(Lv)(x) := −v′′(x) + c(x)v(x) = f(x), 0 < x < 1; v(0) = α, v(1) = β
mit
c(x) := c(x) +1
4b2(x) − 1
2b′(x), f(x) := f(x) exp(−1
2
∫ x
0
b(t)dt)
und entsprechend modifizierten Randwerten α, β. Unter der Voraussetzungc(x) ≥ 0, x ∈ [0, 1] erhalt man sofort nach Satz 2.6 Existenz und Eindeutig-keit der Losung des RWP (2.9), (2.10), sofern b ∈ C[0, 1] gilt. Allgemeinergilt der folgende
Satz 2.8. (i) Hat das (2.9), (2.10) zugeordnete homogene RWP (d.h. f(x) =0, α = β = 0) nur die triviale Losung, so hat das RWP (2.9), (2.10) eineund nur eine Losung in
X := v ∈ C2[0, 1] : v(0) = α, v(1) = β.
(ii) Ist c(x) ≥ 0, so hat das (2.9), (2.10) zugeordnete homogene RWP nurdie triviale Losung.
74
Wir beweisen hier nur das Resultat (ii) des Satzes mittels des wichtigenMaximum-Minimum Prinzips.
Lemma 2.9. Gelte b, c ∈ C[0, 1] sowie c(x) ≥ 0. Dann gelten fur u ∈C[0, 1] ∩ C2(0, 1) die Aussagen:
(i) (Lu)(x) ≤ 0 in (0, 1) =⇒ u(x) ≤ max0; u(0), u(1)(ii) (Lu)(x) ≥ 0 in (0, 1) =⇒ u(x) ≥ min0; u(0), u(1).Beweis. (1) Fur den Differentialoperator Lu := −u′′ + bu′, d.h. c = 0, bewei-sen wir zuerst die Aussagen
(i’) (Lu)(x) ≤ 0 in (0, 1) =⇒ u(x) ≤ maxu(0), u(1)(ii’) (Lu)(x) ≥ 0 in (0, 1) =⇒ u(x) ≥ minu(0), u(1).Wir beschranken uns beim Nachweis auf (i’).
(i′1) Sei (Lu)(x) < 0 in (0, 1). Wir nehmen an, dass u ein Maximum inx0 ∈ (0, 1) annimmt. Wegen u′(x0) = 0 folgt
(Lu)(x0) = −u′′(x0) < 0
im Widerspruch zur Bedingung u′′(x0) < 0 fur ein Maximum.(i′2) Sei nun (Lu)(x) ≤ 0 in (0, 1). Fur die Hilfsfunktion v(x) := δ eλx mitδ > 0 gilt
(Lv)(x) = λ(b − λ)δ eλx < 0
fur geeignetes λ. Wegen L(u + v)(x) < 0 ergibt (i′1)
(u + v)(x) ≤ max(u + v)(0), (u + v)(1).
Im Grenzfall δ → 0 folgt die gesuchte Aussage (i’).
(2) Sei jetzt c(x) ≥ 0 in (0, 1). Die Punktmenge
G+ := x ∈ (0, 1) : u(x) > 0
ist wegen u ∈ C[0, 1] offen. Ferner ist
(Lu)(x) ≤ −c(x)u(x) ≤ 0 auf G+.
Anwendung von (1) auf jeder Zusammenhangskomponente Gi von G+ zeigt
u(x) ≤ maxx∈∂Gi
u(x), f.a. x ∈ G+ .
Dabei ist ∂Gi der Rand von Gi. Nach Definition von G+ impliziert das diegewunschte Aussage
u(x) ≤ max0, u(0), u(1) .
(3) Die Minimumaussage (ii) wird analog bewiesen.
75
Als Folgerung beweisen wir folgendes Resultat uber die Stabilitat der Losungbezuglich der Problemdaten f, α, β.
Satz 2.10. Seien b, c ∈ C[0, 1] und c(x) ≥ 0. Fur Losungen u ∈ C2(0, 1) ∩C[0, 1] des RWP
Lu(x) = f(x), x ∈ (0, 1); u(0) = α, u(l) = β
gilt||u||C[0,1] ≤ C||f ||C[0,1] + maxu(0), u(1) .
Beweis. Fur die Hilfsfunktion
v(x) := A − B eλx , A,B > 0
mit hinreichend großer Konstante λ > 0 gilt
Lv(x) = −B eλxc(x) + b(x)λ − λ2 + c(x)A
≥ B eλxλ2 − λb(x) − c(x) ≥ B .
Mit B := ||f ||C[0,1] folgert man daraus
L(v ± u)(x) ≥ B ± f(x) ≥ B − ||f ||C[0,1] = 0 .
Ferner gilt fur die Randwerte x = 0 und x = 1
(v ± u)(x) = A − B eλx ± u(x) ≥ A − B eλ − maxu(0), u(1) = 0 ,
sofern A := maxu(0), u(1)+B eλ. Wegen L(v±u) ≥ 0 in (0, 1) und v±u ≥ 0fur die Randpunkte x = 0 und x = 1 erhalten wir nach Lemma 2.9 (ii)
(v ± u)(x) ≥ 0 ,
d.h. ±u(x) ≤ v(x) und damit
|u(x)| ≤ v(x) ≤ A − B
≤ maxu(0), u(1) + B(eλ − 1)
≤ maxu(0), u(1) + (eλ − 1)||f ||C[0,1] ,
also die Behauptung des Satzes.
Korollar 2.11. Die Aussage des Satzes 2.10 impliziert nun die Eindeutigkeitder Losung, d.h. die Aussage von Satz 2.8 (ii).Nach Aussage (i) des Satzes 2.8 ergibt sich daraus auch eine Existenzaussagefur das RWP (2.9), (2.10).
76
2.2 Finite- Differenzen- Verfahren12.Vorle-sungam18.11.2009
Im vorliegenden Kapitel besprechen wir das klassische Finite Differenzen Ver-fahren (FDM) zur Losung von Zweipunkt-Randwertaufgaben. Bei der Finite-Differenzen Methode ersetzt man Ableitungen in der Differentialgleichungdurch Differenzenquotienten. Dies fuhrt dann zu einem linearen Gleichungs-system fur Naherungswerte uh, an die gesuchten Werte u der Losung in vor-gegebenen Knotenpunkten.
2.2.1 Definition der klassischen FDM
Ausgangspunkt ist das lineare Randwertproblem (RWP)
− u′′(x) + b(x)u′(x) + c(x)u(x) = f(x), 0 < x < 1, (2.11)
u(0) = u(1) = 0 . (2.12)
Wir betrachten vereinfachend eine aquidistante Zerlegung Ωh = xi = ih, i =0, ..., n+1 mit der Schrittweite h = 1
n+1, n ∈ N. Zur Approximation der ers-
ten Ableitung u′(xi) betrachten wir drei Varianten, die auf dem sogenanntenDreipunktestern xi−1, xi, xi+1 basieren.
• Vorwartsdifferenzenquotient: D+u(xi) := u(xi+1)−u(xi)h
• Ruckwartsdifferenzen-Quotient: D−u(xi) = u(xi)−u(xi−1)h
• Zentraler Differenzen-Quotient: D0u(xi) = u(xi+1)−u(xi−1)2h
.
Zur Approximation von u′′(xi) nutzen wir den zentralen Differenzenquotien-ten 2. Ordnung
D+D−u(xi) :=u(xi+1) − 2u(xi) + u(xi−1)
h2.
Fur die Naherungswerte uh(xi) an die gesuchten Losungswerte u(xi) in denKnotenpunkten xi erhalten wir bei Approximation der ersten und zweitenAbleitungen in der Differentialgleichung (2.11) durch die zentralen Differen-zenquotienten 1. bzw. 2. Ordnung das System
−uh(xi+1) − 2uh(xi) + uh(xi−1)
h2+b(xi)
uh(xi+1) − uh(xi−1)
2h+c(xi)uh(xi) = f(xi) .
Mit der Notation
ui = uh(xi), bi := b(xi), ci := c(xi), fi := f(xi)
77
erhalten wir das System von Differenzengleichungen
1
h2[−(1 +
bih
2)ui−1 + (2 + cih
2)ui − (1 − bih
2)ui+1] = fi, i = 1, ..., n . (2.13)
Hinzu kommen wegen der Randbedingungen (2.12) die Forderungen
u0 = un+1 = 0. (2.14)
Mit den Bezeichnungen
A :=1
h2tridiag−(1 +
bih
2); (2 + cih
2);−(1 − bih
2)
und U = (u1, ..., un)T , F = (f1, ..., fn)T ergibt sich aus (2.13),(2.14) daslineare Gleichungssystem
AU = F . (2.15)
Bemerkung 2.12. Im Fall inhomogener Randbedingungen 1. Art u(0) =α, u(1) = β setzt man u0 = α, un+1 = β und bringt die entsprechendenMatrixeintrage 1
h2 (1 + b1h2
)α fur i = 1 und 1h2 (1 − b1h
2)β fur i = n auf die
rechte Seite. Die Diskretisierung von Randbedingungen 2. und 3. Art werdenin den Ubungen behandelt.
Von Interesse sind nun folgende Fragen:
• Losbarkeit des diskreten Problems (2.15).
• Konvergenz der Losung von (2.15) fur h → 0 gegen die Losung desZweipunkt-RWP (2.11), (2.12).
2.2.2 Losung des diskreten Problems
Eine hinreichende Losbarkeitsbedingung fur das diskrete Problem (2.15) gibt
Satz 2.13. Fur das Problem (2.11), (2.12) gelte
ci = c(xi) ≥ 0, |bih
2| ≤ 1, i = 1, ..., n. (2.16)
Dann hat das zugehorige klassische Finite-Differenzen Schema (2.13), (2.14)bzw. (2.15) eine und nur eine Losung U = (u1, . . . , un)T .
Bemerkung 2.14. Fur bi 6= 0 ergibt Bedingung (2.16) eine Schrittweiten-beschrankung h ≤ h0. Darauf wird spater nochmal eingegangen.
78
Beweis. (von Satz 2.13) Die Matrix A ist unter Voraussetzung (2.16) schwachdiagonal-dominant, denn es ist
|aii| := |2 + cih2| ≥
n∑
j=1,j 6=i
|aij| := |1 +bih
2| + |1 − bih
2| = 2 , i = 1, ..., n .
Außerdem ist A irreduzibel. Die schwache Diagonaldominanz und die Irredu-zibilitat von A ergeben die Invertierbarkeit von A und damit die eindeutigeLosbarkeit des Systems (2.15).
Unter den Voraussetzungen von Satz 2.13 ist das diskrete Problem durch dieeinfachsten iterativen Verfahren (wie Gesamt- und Einzelschritt Verfahren,SOR) losbar. Ein derartiger Zugang ist auch beim allgemeineren Problem vonRandwertaufgaben bei partiellen Differentialgleichungen fur die dort entste-henden sehr großen und schwachbesetzten linearen Gleichungssysteme erfor-derlich. Aufgrund der sehr speziellen Tridiagonalstruktur der Matrix A er-weist sich aber hier die direkte Losung mittels LU -Zerlegung als wesentlichefffizienter. Wir betrachten dazu allgemeiner Tridiagonalmatrizen
A = tridiag(bi, ai, ci) ∈ Rn×n , b1 = cn = 0 .
Fur die LU -Zerlegung setzen wir an
A = LU , L = tridiag(bi, αi, 0) ∈ Rn×n, U = tridiag(0, 1, γi) ∈ R
n×n .
Ausmultiplizieren auf der Hauptdiagonalen ergibt die Beziehungen
a1 = α1 , ai = αi + biγi−1 , i = 2, . . . , n ,
auf der oberen Nebendiagonalen entsteht
ci = γiαi, i = 1, ..., n − 1 .
Dies ermoglicht eine rekursive Berechnung der Großen αi und γi uber
α1 = a1, γi−1 =ci−1
αi−1
, αi = ai − biγi−1, i = 2, ..., n .
Die Realisierbarkeit dieses Verfahrens ist bei αi 6= 0, i = 1, ..., n gesichert, wasetwas spater noch gezeigt wird. Wir erhalten damit den folgenden THOMAS-Algorithmus oder Methode des Vertreibens genannt:
1. LU -Zerlegung von A, d.h. Bestimmung von αi, γi
79
2. Lose das gestaffelte System Lz = F durch Vorwartseinsetzen
z1 =f1
α1
, zi =1
αi
(fi − bizi−1), i = 2, . . . , n
3. Lose das gestaffelte System UU = z durch Ruckwartseinsetzen
un = zn, ui = zi − γiui+1, i = n − 1, ..., 1 .
Eine hinreichende Losbarkeitsbedingung liefert das
Lemma 2.15. Fur die Matrix A = tridiag(bi, ai, ci) ∈ Rn×n gelte
|a1| > |c1| > 0 , |an| > |bn| > 0 ,
|ai| > |bi| + |ci| > 0 , bici 6= 0 , i = 2, . . . , n − 1 . (2.17)
Dann ist die Matrix A nichtsingular und fur die Koeffizienten der LU-Zerlegung gilt
|γi| < 1 , i = 1, ..., n − 1 , αi 6= 0 , i = 1, . . . , n .
Beweis sei als Ubung empfohlen.
Bemerkung 2.16. Fur den THOMAS-Algorithmus benotigt man O(n) we-sentliche Operationen, d.h. der Rechenaufwand ist asymptotisch fur n → ∞optimal.
2.2.3 Stabilitats- und Konvergenzanalyse
Wir fuhren hier die fur die Fehleranalyse des Verfahrens wesentlichen Begriffeein. Sie sind so allgemein gehalten, dass sich die Analyse auf allgemeinereDiskretisierungsverfahren fur Randwertaufgaben ubertragen lasst.Seien Ωh := x1, ..., xn die inneren Knotenpunkte im Intervall (0, 1) undΓh := Ωh \Ωh = x0, xn die Randpunkte. Rhv bezeichne die Einschrankungvon v ∈ C[0, 1] auf Ωh und L den Differentialoperator des Randwertpro-blems. u bzw. uh sind die Losung des Randwertproblems bzw. des diskretenProblems. Dann gilt fur den Diskretisierungsfehler Rhu − uh
A(Rhu − uh) = ARhu − Auh = ARhu − F = ARhu − RhLu ,
wobei der letzte Term auch als Defekt bezeichnet wird.Zur Fehlerabschatzung sind nun sowohl eine Abschatzung des Defekts nachoben (Konsistenzanalyse) als auch eine Abschatzung des links stehenden
80
Terms (Stabilitatsanalyse) in einer geeigneten Norm erforderlich. Bei unserenUntersuchungen verwenden wir die folgende (diskrete) Maximum-Norm
||vh||∞,Ωh:= max
i=1,...,n|vi| fur vh = (v1, . . . , vn)T .
Dies fuhrt auf die
Definition 2.17. (i) Eine FDM heißt konsistent in der Maximum-Norm,falls
limh→0
||ARhu − RhLu||∞,Ωh= 0 .
(ii) Die FDM hat die Konsistenzordnung p, falls mit einer von h un-abhangigen Konstanten Ck > 0 gilt
||ARhu − RhLu||∞,Ωh≤ Ckh
p .
Der Konsistenzbegriff beschreibt, wie gut der Differentialoperator durch dasDifferenzenverfahren approximiert wird. Konsistenz liegt demnach immerdann vor, wenn p > 0 ist.
Definition 2.18. Eine FDM heißt stabil in der Maximum-Norm, falls furden Vektor W aus
AW = F in Ωh , W |Γh= 0
die Existenz einer von h unabhangigen Konstanten CS folgt mit
||W ||∞,Ωh= ||A−1F ||∞,Ωh
≤ CS||F ||∞,Ωh.
Definition 2.19. (i) Eine FDM heißt konvergent in der Maximum-Norm,falls
limh→0
||Rhu − uh||∞,Ωh= 0 .
(ii) Die FDM hat die Konvergenzordnung p, falls mit einer von h un-abhangigen Konstanten M > 0 gilt
||Rhu − uh||∞,Ωh≤ Mhp .
Wir beginnen mit der Analyse des Konsistenzfehlers:
Die Abschatzung des Konsistenzfehlers der klassischen FDM (2.13), (2.14)fur das Zweipunkt-RWP (2.11), (2.12) erfolgt mittels des Taylorschen Satzes.Zunachst betrachten wir die Genauigkeit der Approximation der auftretendenAbleitungen durch zentrale Differenzenquotienten.
81
Lemma 2.20. Es gilt
(i) (D0u)(x) = u′(x) + h2R, |R| ≤ 1
6||u(3)||C[0,1], falls u ∈ C3[0, 1]
bzw.
(ii) (D+D−u)(x) = u′′(x)+h2R, |R| ≤ 1
12||u(4)||C[0,1], falls u ∈ C4[0, 1] .
Beweis. Aus der Taylor-Entwicklung an der Stelle x folgt
u(x ± h) = u(x) ± hu′(x) + h2u′′(x)
2± R±
3
u(x ± h) = u(x) ± hu′(x) + h2u′′(x)
2± h3u(3)(x)
6+ R±
4
mit den Restgliedern R±3 = O(h3) und R±
4 = O(h4) (z.B. in der Lagrange-Form). Die Aussage (i) erhalt man durch die Kombination der Entwicklungen
(D0u)(x) =u(x + h) − u(x − h)
2h= u′(x) + (R+
3 − R−3 )/h = u′(x) + O(h2) .
Die Aussage (ii) wird analog bewiesen.
Damit finden wir
Lemma 2.21. Unter der Voraussetzung u ∈ C4[0, 1] an die Losung des RWP(2.11), (2.12) hat die FDM (2.13), (2.14) die Konsistenzordnung 2.
Beweis. Aus (2.13), (2.14) bzw. (2.11), (2.12) haben wir unter Beachtungder eingefuhrten Bezeichnungen
(ARhu − RhLu)(xi) = (−D+D−u(xi) + biD0u(xi) + ciu(xi))
−(−u′′(xi) + biu′(xi) + ciu(xi)) .
Lemma 2.20 ergibt daraus
|(ARhu−RhLu)(xi)| ≤1
12h2||u(4)||C[0,1] +
1
6h2||b||C[0,1]||u(3)||C[0,1] , xi ∈ Ωh .
Maximumbildung uber alle Gitterpunkte xi liefert die Behauptung.
Bemerkung 2.22. Die Glattheits-Voraussetzung an die Losung u des RWPist in der Regel nicht realistisch. Eine sorgfaltige Abschatzung zeigt
||ARhu − RhLu||∞,Ωh≤
Chα, u ∈ C2;α[0, 1]Ch1+α, u ∈ C3;α[0, 1]
mit 0 ≤ α ≤ 1 und den Holder-Raumen
Ck;α[0, 1] :=
v ∈ Ck[0, 1] : supx,y∈(0,1);x 6=y
|v(k)(x) − v(k)(y)||x − y|α < ∞
.
82
Wir kommen nun zur Stabilitatsanalyse der klassischen FDM:
Die oben angegebene Stabilitatsdefinition ist aquivalent zu
||A−1||∞ ≤ CS mit ||B||∞ := maxi=1,...,n
n∑
j=1
|bij|
(Zeilensummennorm von B). 13.Vorle-sungam24.11.2009
Bei den weiteren Untersuchungen nutzen wir die Halbordnungsrelation x ≥0 fur Vektoren x, falls komponentenweise gilt xi ≥ 0. Entsprechend giltx ≥ y, falls x − y ≥ 0 gilt. Ferner schreiben wir fur Matrizen A ≥ 0, fallskomponentenweise gilt aij ≥ 0.
Definition 2.23. Eine Matrix A heißt inversmonoton, falls aus der Hal-bordnungsrelation Ax ≤ Ay auch x ≤ y folgt.
Zur Inversmonotonie von A ist die Existenz von A−1 mit A−1 ≥ 0 aquivalent.
Lemma 2.24. Unter den Voraussetzungen von Satz 2.13 ist A inversmono-ton, d.h. A−1 ≥ 0.
Beweis. Wir betrachten die iterative Losung des linearen GleichungssystemsAz = r mit dem Gesamtschritt- oder Jacobi-Verfahren. Aus der ZerlegungA = AD + AL + AR mit der Diagonalmatrix AD und den strikten unterenbzw. oberen Dreiecksmatrizen AL und AR ergibt sich die Iteration
zk+1 = −A−1D (AL + AB)zk + A−1
D r, k = 0, 1, . . . . (2.18)
Das Jacobi-Verfahren konvergiert unter den Voraussetzungen des Satzes 2.13,denn dann ist die Matrix A sowohl schwach diagonaldominant als auch unzer-legbar (außerdem gilt akk > 0 und ajk ≤ 0, j 6= k). Man vergleiche hierzu dieErgebnisse aus dem Kurs ”Einfuhrung in die Numerische Mathematik”. Furdie Spalten der inversen Matrix A−1 = (a1, ..., an) gilt Aai = ei, i = 1, ..., nmit den kartesischen Einheitsvektoren ei. Damit entsteht ai als Grenzelementder Iteration (2.18) mit r = ei und dem Startvektor z0 = 0. Nach den Vor-aussetzungen von Satz 2.13 sind die Elemente von A−1
D und −A−1D (AL + AR)
nichtnegativ. Daraus folgt die Aussage A−1 ≥ 0.
Nun besteht das Ziel darin, die Stabilitatskonstante CS abzuschatzen. Wirnutzen dazu das
Lemma 2.25. (M-Kriterium)Sei A ∈ R
n×n L0-Matrix, d.h. gelte akj ≤ 0 fur k 6= j. Dann ist A invers-monoton genau dann, wenn ein (majorisierender) Vektor e > 0 existiert mitAe > 0. Ferner gilt dann die Abschatzung
||A−1||∞ ≤ ||e||∞mink(Ae)k
. (2.19)
83
Man spricht hier vom M -Kriterium, weil man inversmonotone L0-Matrizenauch M-Matrizen nennt.
Beweis. (i) Sei A inversmonoton. Dann wahle man e = A−1(1, ..., 1)T . Esist offensichtlich aufgrund der Inversmonotonie e > 0 und auch Ae =(1, . . . , 1)T > 0.(ii) Sei e > 0 ein Vektor mit Ae > 0, d.h.
(Ae)k =n∑
j=1
akjej > 0 fur alle k ,
daraus folgt akk > 0, da nach Voraussetzung akj ≤ 0 fur k 6= j gilt, und damitist AD := diag(akk) invertierbar. Wir setzen (E ist die Einheitsmatrix)
P := A−1D (AD − A) ⇐⇒ A = AD(E − P ) .
Nach Konstruktion gilt P ≥ 0. Damit ergibt sich
(E − P )e = A−1D Ae > 0 also Pe < e .
Wir definieren mit
||x||e := maxk
|xk|ek
eine spezielle Vektornorm und bezeichnen mit || · ||e die induzierte Ma-trixnorm. Aus
||P ||e = sup||x||e=1
||Px||e
und P ≥ 0 folgt ||P ||e = ||Pe||e. Mit
||P ||e = ||Pe||e = maxk
|(Pe)k|ek
und Pe < e, was oben gezeigt wurde, erhalt man ||P ||e < 1. Daher existiert(E − P )−1 mit
(E − P )−1 =∞∑
j=0
P j .
Da A = AD(E −P ) gilt, existiert mit A−1D und (E −P )−1 auch A−1 und aus
P ≥ 0 folgt A−1 ≥ 0.
Zum Nachweis der Stabilitatsschranke fur ||A−1||∞ betrachten wir die Glei-chung Aw = f . Dann ist
±w = ±A−1f ≤ ||f ||∞A−1(1, . . . , 1)T .
84
Die Ungleichung Ae ≥ mink(Ae)k(1, . . . , 1)T ergibt
A−1(1, . . . , 1)T ≤ e
mink(Ae)k
.
Beide Ungleichungen ergeben nun
||w||∞ ≤ ||e||∞mink(Ae)k
||f ||∞ ,
woraus die Behauptung (2.19) folgt.
Die gesuchte Abschatzung der Stabilitatskonstanten CS gelingt nun bei ge-eigneter Wahl eines majorisierenden Vektors e zur Matrix A gemaß Lemma2.25.
Korollar 2.26. (i) Unter der Voraussetzung c(x) ≥ c∗ > 0 gilt
||A−1||∞ ≤ 1
mink(akk −∑
j 6=k |ajk|).
(ii) Bei c(x) ≥ 0 existiert eine Konstante CS > 0 mit
||A−1||∞ ≤ CS .
Beweis. (i) Bei c(x) ≥ c∗ > 0 ist A streng diagonaldominant. Die Behaup-tung folgt aus Lemma 2.25 mit e = (1, 1, ..., 1)T .(ii) Die Matrix A ist eine L0-Matrix und nach Lemma 2.24 inversmonoton.Damit folgt aus Lemma 2.24 die Existenz eines majorisierenden Vektors e > 0mit Ae > 0, woraus
CS =||e||∞
mink(Ae)k
folgt.
Bemerkung 2.27. Auf die folgende Weise kann man einen majorisierendenVektor e konstruieren. Sei e(x) Losung des RWP
−e′′(x) + b(x)e′(x) = 1, 0 < x < 1; e(0) = e(1) = 0 .
Aus dem Maximumprinzip (vgl. Lemma 2.9) folgt e(x) > 0, 0 < x < 1.Ferner ist nach Konstruktion (Le)(x) ≥ 1, 0 < x < 1. Nun wahlen wir denVektor
e := (e(x1), ..., e(xn))T .
85
Aus Konsistenzgrunden ist Ae ≥ 12
fur h ≤ h0, denn in der Darstellung
Ae = ARhe = (ARh − RhL)e + RhLe
konvergiert der erste Term der rechten Seite nach Lemma 2.21 gegen 0. Furden zweiten Term ist RhLe ≥ 1. Diese Argumentation erfordert allerdingse(x) ∈ C4[0, 1], was wir nur unter bestimmten Anforderungen an b(x) zeigenkonnen.e := (e(x1), ..., e(xn))T ist damit ein majorisierender Vektor mit dem man CS
ausrechnen kann.
Wir kombinieren die Ergebnisse zum folgenden Konvergenzsatz.
Satz 2.28. Unter den Voraussetzungen von Satz 2.13 liege die Losung u desRWP (2.11), (2.12) in C4[0, 1]. Ferner sei h hinreichend klein. Dann gilt furden Diskretisierungsfehler der klassischen FDM (2.13), (2.14)
||Rhu − uh||∞,Ωh= max
k|u(xk) − uk| ≤ M h2 ,
d.h. das Verfahren hat die Konvergenzordnung 2.
Beweis. Nach Konstruktion ist Rhu − uh = 0 auf Γh. Nach Lemma 2.21 istferner
||ARhu − RhLu||∞,Ωh≤ CKh2 .
Mittels Korollar 2.26 folgt
C−1S ||Rhu − uh||∞,Ωh
≤ ||ARhu − RhLu||∞,Ωh≤ CKh2 ,
und damit die Konvergenzaussage mit M = CSCK .
2.3 Ritz-Galerkin-Verfahren fur RWP
Im vorliegenden Kapitel schwachen wir den bisher verwendeten ”klassischen”Losungsbegriff fur Zweipunkt-Randwertaufgaben ab. Dies erlaubt zugleicheinen naturlichen Zugang zu der Finite-Elemente Methode (FEM) und ver-einfacht die Konvergenzanalyse.
2.3.1 Variationsgleichungen
Betrachtet wird die Zweipunkt-Randwertaufgabe
− u′′(x) + b(x)u′(x) + c(x)u(x) = f(x), 0 < x < 1, (2.20)
u(0) = u(1) = 0. (2.21)
86
Zunachst streben wir eine Abschwachung des klassischen Losungsbegriffs,d.h. von u ∈ C2(0, 1) ∩ C[0, 1], an. Sei etwa b = c = 0 sowie f /∈ C(0, 1).Dann liegt die Losung nicht in C2(0, 1). Wir wollen aber auch im Fall vonf /∈ C(0, 1) von Losungen sprechen.Multiplikation von Gleichung (2.20) mit einer beliebigen Testfunktion
v ∈ X := w ∈ C1(0, 1) ∩ C[0, 1] : w(0) = w(1) = 0 (2.22)
und Integration uber (0, 1) ergibt
∫ 1
0
(−u′′ + bu′ + cu)vdx =
∫ 1
0
fvdx .
Partielle Integration des Terms −∫ 1
0u”vdx liefert unter Beachtung der Rand-
werte v(0) = v(1) = 0
∫ 1
0
u′v′dx +
∫ 1
0
(bu′ + cu)vdx =
∫ 1
0
fvdx , ∀v ∈ X . (2.23)
Klassische Losungen u ∈ C2(0, 1) ∪ C[0, 1] von (2.20), (2.21) losenoffenbar auch (2.23). Ebenso sind (bei hinreichend glatten Daten)nach Ruckwartsausfuhrung der vorgenommenen Umformungen klassischeLosungen von (2.23) auch Losungen von (2.20), (2.21). Offenbar reicht aberz.B. schon die Forderung u ∈ X fur die Losungen von (2.23) aus. Daherbezeichnet man die Aufgabe
Finde u ∈ X, so dass a(u, v) = f(v), ∀v ∈ X (2.24)
mit
a(u, v) :=
∫ 1
0
u′v′dx +
∫ 1
0
(bu′ + cu)vdx (2.25)
f(v) :=
∫ 1
0
fvdx (2.26)
auch als verallgemeinerte Aufgabenstellung zu (2.20), (2.21) bzw. als zu-gehorige Variationsgleichung.Wir vertiefen diesen Gedanken im folgenden Abschnitt weiter. Zuvor betrach-ten wir noch den Zusammenhang mit Variationsproblemen. Seien vereinfa-chend b(x) = 0 und c(x) ≥ 0. Mit dem Funktional
J(u) :=1
2a(u, u) − f(u) (2.27)
=1
2
∫ 1
0
[(u′)2 + cu2] dx −∫ 1
0
fu dx, u ∈ X
87
betrachten wir das Variationsproblem
Finde u ∈ X, so dass J(u) ≤ J(v), ∀v ∈ X . (2.28)
Dann gilt
Lemma 2.29. Notwendige Losbarkeitsbedingung fur das Variationsproblem(2.28) ist im Fall b(x) = 0, c(x) ≥ 0 die Variationsgleichung (2.24).
Beweis. Wir setzen fur festes u, v ∈ X und t ∈ R
Ψ(t) := J(u + tv) .
Notwendige Minimumbedingung fur die reellwertige Funktion Ψ ist wegen
J(u + tv) =1
2
∫ 1
0
[(u′ + tv′)2 + c (u + tv)2]dx −∫ 1
0
f(u + tv)dx
dann
Ψ′(0) =1
2
∫ 1
0
[2(u′ + tv′)v′ + c (u + tv)v] dx|t=0 −∫ 1
0
fv dx
= a(u, v) − f(v) = 0 .
14.Vorle-sungam25.11.2009
Bemerkung 2.30. Man kann zeigen, dass unter gewissen Glattheitsforde-rungen an die Daten (z.B. c, f ∈ C[0, 1]) eine Losung u ∈ X der Variations-gleichung (2.24) auch Minimum von (2.28) ist.
Variationsprobleme treten sehr oft in Naturwissenschaften und Technik alsbekannte Grundprinzipien (z.B. Prinzip der minimalen Energie usw.) auf undbilden einen wesentlichen Zugang zur mathematischen Modellierung realerVorgange. Es sei hervorgehoben, dass die Variationsgleichung (2.24) als ver-allgemeinerte Aufgabenstellung zu (2.20), (2.21) auch im allgemeinen Fallsinnvoll bleibt, wenn nicht b(x) = 0 gilt.
2.3.2 Verallgemeinerte Ableitungen
Wir untersuchen jetzt Eigenschaften des Raumes X (vgl. (2.22)) in Verbin-dung mit der SOBOLEV-Norm
||u||H1 := [
∫ 1
0
[u′(x)]2 dx +
∫ 1
0
[u(x)]2 dx]1/2 . (2.29)
88
Der Raum X; || · ||H1 ist offenbar normierter Raum, jedoch keinvollstandiger Raum, d.h. kein BANACH-Raum. Die Norm (2.29) ist auchnoch fur messbare Funktionen u, u′ sinnvoll, die quadratisch uber (0, 1) imLEBESGUE-Sinne integrierbar sind, d.h. fur Funktionen im LEBESGUE-Raum
L2(0, 1) := v : (0, 1) → R messbar :
∫ 1
0
[v(x)]2dx < ∞ . (2.30)
Im Hinblick auf die Naherungslosung von Zweipunkt-Randwertaufgaben mit-tels FEM ist eine weitere Abschwachung des klassischen Losungsbegriffssinnvoll. Wir wollen den entsprechenden Gedankengang hier nur skizzieren:Zunachst benotigen wir einige Begriffe. Es bezeichnet clV (A) die Abschlie-ßung der Teilmenge A von V in der Topologie des Raumes V . Dann heißt
supp v := clRx ∈ (0, 1) : v(x) 6= 0
Trager von v ∈ C[0, 1]. Sei
C∞0 (0, 1) := v ∈ C∞(0, 1) : supp v ⊂ C(0, 1) ,
d.h. Elemente dieser Menge verschwinden von beliebiger Ordnung bei x = 0und x = 1. Ferner sei
L1loc(0, 1) := v : (0, 1) → R; messbar :
∫
A
|v(x)| dx < ∞ ∀A ⊂⊂ (0, 1) .
A ⊂⊂ B bedeutet dabei, dass A abgeschlossene Teilmenge von B ist. PartielleIntegration ergibt fur u ∈ C1[0, 1] und beliebige Testfunktionen v ∈ C∞
0 (O, 1)
∫ 1
0
u′v dx = −∫ 1
0
uv′ dx . (2.31)
Nach der HOLDER’schen Ungleichung
|∫ 1
0
uv′dx| = |∫
supp v
uv′dx| ≤ ||v′||C[0,1]
∫
supp v
|u|dx
bzw.
|∫ 1
0
u′vdx| = |∫
supp v
u′vdx| ≤ ||v||C[0,1]
∫
supp v
|u′|dx
ergeben die Integrale in (2.31) noch Sinn fur u, u′ ∈ L1loc(0, 1).
89
Definition 2.31. w ∈ L1loc(0, 1) heißt verallgemeinerte erste Ableitung
von u ∈ L1loc(0, 1), falls
∫ 1
0
wv dx = −∫ 1
0
uv′ dx, ∀v ∈ C∞0 (0, 1)
gilt. Man schreibt w = u′.
Wir erklaren nun
Definition 2.32. Die Menge
H1(0, 1) := v ∈ L2(0, 1) : ∃v′ ∈ L2(0, 1)
heißt SOBOLEV-Raum der Funktionen mit verallgemeinerten und qua-dratisch auf (0, 1) integrierbaren Ableitungen. Ferner ist
H10 (0, 1) := clH1(0,1)C
∞0 (0, 1) .
Bemerkung 2.33. Man kann zeigen, dass auch gilt
H1(0, 1) := clH1(0,1)C∞(0, 1) .
Ohne Beweis zitieren wir
Satz 2.34. Die Raume H1(0, 1); || · ||H1(0,1) und H10 (0, 1); || · ||H1(0,1)
sind HILBERT-Raume mit dem Skalarprodukt
(u, v)Hl :=
∫ 1
0
uvdx +
∫ 1
0
u′v′dx.
Offenbar ist X := H10 (0, 1) der geeignete Funktionenraum, um eine verallge-
meinerte Aufgabenstellung zu (2.20), (2.21) zu formulieren:
Finde u ∈ H10 (0, 1) : a(u, v) = f(v) ∀v ∈ H1
0 (0, 1) . (2.32)
Vertiefende Kenntnisse uber die hier zum Teil nur heuristisch eingefuhrten In-halte, insbesondere zur Existenz verallgemeinerter Losungen (Satz von LAX-MILGRAM) kann man in einer Vorlesung uber partielle Differentialgleichun-gen oder uber Funktionalanalysis erwerben.
90
2.3.3 Ritz-Galerkin-Verfahren
Im vorliegenden Kapitel fuhren wir Naherungsverfahren zur approxima-tiven Losung von Variationsgleichungen ein. Die Darstellung ist dabeizunachst moglichst allgemein gehalten. Erst im abschließenden Teil be-trachten wir speziell eine Finite-Elemente-Methode (FEM) fur Zweipunkt-Randwertaufgaben. Ausgangspunkt ist die Variationsgleichung
Finde u ∈ X : a(u, v) = f(v) ∀v ∈ X . (2.33)
im HILBERT-Raum X. Dabei verwenden wir die im Kapitel vorne ein-gefuhrten Bezeichnungen und Voraussetzungen an die Bilinearform a(·, ·) so-wie die Linearform f(·). Gesucht ist nun eine Naherung un an die Losung uvon (2.33) im endlich-dimensionalen Teilraum Xn ⊂ X mit dim Xn = n < ∞.Offenbar ist dann Xn; || · ||X BANACH-Raum.
Definition 2.35. Die Aufgabe
Finde un ∈ Xn : a(un, v) = f(v) ∀v ∈ Xn . (2.34)
heißt RITZ-GALERKIN-Verfahren zur Variationsgleichung (2.33).
Wir zeigen nun, dass das RITZ-GALERKIN-Verfahren stets einem linearenGleichungssystem entspricht. Sei φin
i=1 Basis von Xn. Es bezeichne P :R
n → Xn ⊂ X die durch
Pv =n∑
i=1
viφi, v = (v1, . . . , vn)T
erklarte Abbildung. Offensichtlich ist P ein Isomorphismus zwischen Rn und
Xn. Unter Beachtung der Basisdarstellung in Xn = spanφ1, ..., φn erhaltman das
Lemma 2.36. Das RITZ-GALERKIN- Verfahren (2.34) ist aquivalent zudem System der Gleichungen
Finde un ∈ Xn : a(un, φi) = f(φi) i = 1, . . . , n . (2.35)
Mit den Bezeichnungen
u = (u1, ..., un)T ∈ Rn, un := Pu ,
A = (aij) ∈ Rn×n , aij := a(φi, φj) ,
f = (f1, ..., fn)T ∈ Rn , fi := f(φi)
formulieren wir
91
Satz 2.37. Das RITZ-GALERKIN-Verfahren (2.34) ist aquivalent zu demlinearen Gleichungssystem
Au = f. (2.36)
Beweis. Nach Lemma 2.36 sind (2.34) und (2.35) aquivalent. Die Behauptungfolgt nun mit un = Pu =
∑nj=1 ujφj aus
a(un, φi) =n∑
j=1
uja(φj, φi) =n∑
j=1
aijuj = f(φi) , i = 1, ..., n .
Bemerkung 2.38. (i) Mit dem Skalarprodukt
〈u, v〉 :=n∑
j=1
ujvj
im Rn sowie u = Pu, v = Pv gilt
a(u, v) = 〈Au, v〉, f(v) = 〈f, v〉 .
(ii) Das lineare Gleichungssystem (2.36) besitzt genau dann eine eindeutigbestimmte Losung un ∈ Xn, wenn die Matrix A nicht singular ist.
Folgende Aufgaben sind nun zu losen:
• Konstruktion geeigneter Unterraume Xn
• Generierung und Losung des linearen Gleichungssytems
• Fehlerabschatzung.
Nachfolgend geben wir hinreichende Losbarkeitsbedingungen fur das RITZ-GALERKIN-Verfahren sowie eine a-priori Abschatzung der Losung an.
Satz 2.39. Seien Xn ⊂ X, dim Xn = n < ∞ und X HILBERT-Raum.Ferner sei a(·, ·) : X × X → R X-elliptische, stetige Bilinearform, d.h. gelte
∃γ > 0 : a(v, v) ≥ γ||v||2X ∀v ∈ X (2.37)
sowie∃M > 0 : |a(u, v)| ≤ M ||u||X ||v||X ∀u, v ∈ X (2.38)
und f : X → R sei linear und stetig, d.h.
∃K > 0 : |f(v)| ≤ K||v||X ∀v ∈ X . (2.39)
Dann gilt
92
(i) Die Matrix A = (a(φj, φi)) ∈ Rn×n ist nicht singular. (Daraus folgt die
eindeutige Losbarkeit von (2.36).)
(ii) Fur die Losung un ∈ Xn des RITZ-GALERKIN- Verfahrens gilt diea-priori Abschatzung
||un||X ≤ K
γ. (2.40)
Beweis. (i) Mit u 6= 0 folgt Pu 6= 0 sowie wegen der X-Elliptizitat von a(·, ·)die Aussage
〈Au, u〉 = a(Pu, Pu) ≥ γ||Pu||2X > 0 ,
d.h. Au 6= 0.(ii) Wegen (2.38) und (2.39) gilt
γ||Pu||2X ≤ a(Pu, Pu) = f(Pu) ≤ K||Pu||X ,
also (2.40).
Eine Abschatzung zwischen den Losungen u ∈ X der Variationsgleichung(2.33) und un ∈ Xn des RITZ-GALERKIN-Verfahrens (2.34) liefert der
Satz 2.40. Seien Xn ⊂ X, dim Xn = n < ∞, X HILBERT-Raum unda(·, ·) : X ×X → R X-elliptische, stetige Bilinearform, d.h. gelte (2.37) und(2.38). Dann folgt
||u − un||X ≤ M
γinf
v∈Xn
||u − v||X . (2.41)
Beweis. Aus (2.33) und (2.34) folgern wir zunachst die sogenannte Fehler-gleichung
a(u − un, w) = a(u,w) − a(un, w) = 0 ∀w ∈ Xn . (2.42)
Man nennt (2.42) auch GALERKIN-Orthogonalitat. Unter Beachtung von(2.33),(2.34) und (2.38) ergibt sich
γ||u − un||2X ≤ a(u − un, u − un) = a(u − un, u − w)
≤ M ||u − un||X ||u − w||X , ∀w ∈ Xn .
Daraus folgt durch Bildung des Infimums in Xn die Behauptung (2.41).
Mit dem Satz 2.40 ist die Fehlerabschatzung auf eine Abschatzung des In-terpolationsfehlers zuruckgefuhrt. Auf Details dieser Interpolationstheorie inSOBOLEV-Raumen konnen wir hier nicht eingehen. Es gilt zumindest
93
Lemma 2.41. Seien
X1 ⊂ ... ⊂ Xn−1 ⊂ ... ⊂ X
sowie X = ∪∞n=1Xn.
Dann istlim
n→∞inf
w∈Xn
||u − w||X = 0 . (2.43)
Beweis. Die Aussage ergibt sich aus der Dichtheit von ∪∞n=1Xn in X.
2.3.4 Finite-Element-Methode fur Zweipunkt-RWP
Wir betrachten jetzt speziell die zum Zweipunkt-RWP
− u′′(x) = f(x), x ∈ (0, 1); u(0) = u(1) = 0 (2.44)
gehorige Variationsgleichung
Finde u ∈ X = H10 (0, 1) : a(u, v) = f(v) ∀v ∈ X . (2.45)
mit
a(u, v) :=
∫ 1
0
u′(x)v′(x) dx, f(v) :=
∫ 1
0
f(x)v(x)dx . (2.46)
Man kann einfach zeigen, dass durch die Halbnorm
||v||X := (a(v, v))1/2 = (
∫ 1
0
u′(x)v′(x)dx)1/2
sogar eine Norm auf dem Raum X = H10 (0, 1) erklart wird. Hierbei sind
die (verallgemeinerten) homogenen Randbedingungen wesentlich. Dann istdie Bilinearform a offenbar X-elliptisch mit der Konstanten γ = 1 und stetigmit der Konstanten M = 1. Beide Konstanten sind optimal. Wir konstruierennun passende Unterraume Xn ⊂ X. Unter Zerlegung des Intervalls
[0, 1] = ∪n+1i=1 Mi , Mi := [xi−1, xi]
mit der Gitterweite hi := xi−xi−1 betrachten wir den endlich-dimensionalenRaum
Xn := v ∈ C[0, 1] : v(0) = v(1) = 0, v|Mi∈ Π1(Mi), i = 1, ..., n + 1.
(2.47)
94
Mittels stuckweise linearer LAGRANGE’scher Basisfunktionen (finite Ele-mente)
φi(x) :=
x−xi−1
xi−xi−1, x ∈ Mi
xi+1−xxi+1−xi
, x ∈ Mi+1 , i = 1, . . . , n
0 , sonst
ergibt sichXn = spanφ1(x), . . . , φn(x) ⊂ X . (2.48)
Man beachte hierbei, dass die Funktionen aus Xn per Konstruktion die ho-mogenen DIRICHLET-Randbedingungen erfullen.
Lemma 2.42. Jede Funktion vn ∈ Xn ist durch die Knotenwerte vi = v(xi)eindeutig festgelegt und besitzt die Darstellung
vn =n∑
j=1
vjφj(x) .
Wir kommen nun zur Generierung des linearen Gleichungssystems: Wegensupp φi = [xi−1, xi+1] ist
aij =
∫ 1
0
φ′iφ
′j dx = 0, |i − j| ≥ 2 .
Fur die Nichtnullelemente der Matrix A erhalten wir nach kurzer Rechnung
ai,i−1 =−1
xi − xi−1
, ai,i−1 =1
xi − xi−1
+1
xi+1 − xi
, ai,i+1 =−1
xi+1 − xi
,
d.h.
A = tridiag− 1
hi
;1
hi
+1
hi+1
;− 1
hi+1
. (2.49)
Fur die rechte Seite des Gleichungssystems folgt
fi =
∫ 1
0
fφi dx =
∫ xi
xi−1
fφi dx +
∫ xi+1
xi
fφi dx . (2.50)
Die Koeffizienten aij sind in diesem Spezialfall exakt integrierbar. 15.Vorle-sungam1.12.2009
Im allgemeinen Fall interpoliert man die Daten durch Splines und/oder inte-griert mit passenden Quadraturformeln. Dadurch entsteht dann in der Regelein kleiner Konsistenzfehler. Die bei der klassischen Finite-Differenzen Me-thode entstehende Matrix A fur Problem (2.44) stimmt mit der bei stuckweiselinearen finiten Elementen entstehenden Matrix A im aquidistanten Fall
95
h = hi, i = 1, ..., n + 1 bis auf den Skalierungsfaktor 1h
uberein. Unter-schiede entstehen jedoch ggf. bei der rechten Seite. Zur Losung des linearenGleichungssystems fur die FEM konnen damit der Thomas-Algorithmus oderStandard-Iterationsverfahren herangezogen werden.
Es verbleibt die Ableitung einer Fehlerabschatzung.
Satz 2.43. Unter der Voraussetzung u′ ∈ H1(0, 1) gilt
||u − un||L2(0,1) ≤1
2√
2h||u′||H1(0,1) . (2.51)
Beweis.Sei v := Πhu die lineare LAGRANGE-Interpolierende. Fur e := u−Πhu mite(xi) = 0, i = 0, ..., n + 1 gilt dann unter Verwendung der SCHWARZ’schenUngleichung
|e(x)|2 = |∫ x
xj
e′(ξ) dξ|2 ≤∫ x
xj
12 dξ ·∫ x
xj
|e′(ξ)|2 dξ
≤ |x − xj|∫ xj+hj+1/2
xj
|e′(ξ)|2 dξ ,
falls x ∈ [xj, xj + hj+1/2]. Integration liefert
∫ xj+hj+1/2
xj
|e(x)|2 dx ≤∫ xj+hj+1/2
xj
|e′(x)|2 dx
∫ xj+hj+1/2
xj
|x − xj| dx
=
∫ xj+hj+1/2
xj
|e′(x)|2 dx · 1
8h2
j+1 .
und sinngemaß
∫ xj
xj−hj/2
|e(x)|2 dx ≤∫ xj
xj−hj/2
|e′(x)|2 dx · 1
8h2
j .
Aufsummation uber j = 1, . . . , n + 1 ergibt mit h := maxj hj
||e||2L2(0,1) ≤n+1∑
j=1
1
8h2
j
∫ xj
xj−1
(e′(x))2 dx ≤ 1
8h2
j ||e′||2L2(0,1) ,
also
||e||L2(0,1) ≤1
2√
2h||e′||L2(0,1) . (2.52)
96
Weiterhin gilt fur den Interpolationsfehler mittels partieller Integration daher
||(u − Πhu)′||2L2(0,1) − ||u′||2L2(0,1) + ||(Πhu)′||2L2(0,1)
= 2
∫ 1
0
(Πhu)′[(Πhu)′ − u′] dx
= 2n+1∑
j=1
∫ xj
xj−1
(Πhu)′[(Πhu)′ − u′] dx
= 2n+1∑
j=1
(Πhu)′(Πhu − u)|xjxj−1
−∫ xj
xj−1
(Πhu)′′[(Πhu) − u] dx = 0 ,
daher
||e′||L2(0,1) = ||(u − Πhu)′||2L2(0,1) = ||u′||2L2(0,1) − ||(Πhu)′||2L2(0,1) ≤ ||u′||2L2(0,1) .
Unter Beachtung von (2.52) ergibt sich daraus
||e||L2(0,1) ≤1
2√
2h||u′||L2(0,1) . (2.53)
Eine weitere Nebenrechnung (mit mehrfacher partieller Integration und derBerucksichtigung von (Πhu)′′ = 0) liefert unter Beachtung der vorherigenBerechnung und von (2.52)
||e′||2L2(0,1) = ||(u − Πhu)′||2L2(0,1) =
∫ 1
0
(u − Πhu)′(u − Πhu)′ dx
=
∫ 1
0
u′(u − Πhu)′ dx
= −∫ 1
0
u′′(u − Πhu) dx
≤ ||u′′||L2(0,1)||u − Πhu||L2(0,1)
≤ 1
2√
2h||(u − Πhu)′||L2(0,1)||u′′||L2(0,1) .
Damit hat man
||e||L2(0,1) ≤1
2√
2h||u′||L2(0,1) und ||e′||L2(0,1) ≤
1
2√
2h||u′′||L2(0,1) (2.54)
Es gilt bekanntlich
||u − un||L2(0,1) ≤ ||u − un||H1(0,1)
97
und unter Nutzung des Satzes 2.40 folgt
||u − un||2L2(0,1) ≤ ||e||2H1(0,1) = ||e||2L2(0,1) + ||e′||2L2(0,1) ,
und mit (2.54) folgt mit
||u − un||L2(0,1) ≤1
2√
2h||u′||H1(0,1)
die Behauptung.
Bemerkung 2.44. Die Forderung der Existenz der verallgemeinerten zwei-ten Ableitung u′′ ∈ L2(0, 1) ist recht stark. Man vergleiche jedoch die hierverwendeten Regularitatsannahmen an die Losung des RWP mit denen, diefur die Konvergenzanalyse bei der schon behandelten klassischen Finite-Differenzen-Methode gestellt wurden.
Die Darlegungen in diesem Abschnitt konnen in mehrfacher Hinsicht verall-gemeinert werden:
• Zunachst kann die Methode auf den Fall des RWP (2.20), (2.21) sowiefur gemischte Randbedingungen erweitert werden. Die Voraussetzungender Existenz- und Konvergenzsatze gelten zum Beispiel beim 1. RWPunter der Voraussetzung c(x) − 1
2b′(x) ≥ 0.
• Bei der Generierung des entsprechenden linearen Gleichungssystemsmuss man bei variablen Daten b, c, f aber numerisch integrieren.
• Schließlich kann man allgemeiner global stetige und stuckweise polyno-miale Basisfunktionen hoheren Grades verwenden.
FEM-Programmpakete erlauben in der Regel alle hier beschriebenen Verall-gemeinerungen.
2.3.5 Weitere mogliche Basisfunktionen
Aus der Fourier-Analysis wissen wir, dass eine stetige, ungerade 1-periodischeFunktion f : R → R auf dem Intervall [0, 1] beliebig gut durch Fourier-Polynome
n∑
k=1
bk sin(kπx) ,
also mit den Basisfunktionen
φk(x) = sin(kπx) (2.55)
98
annahern kann, d.h. der Raum
Xn = spansin(πx), sin(2πx), . . . , sin(nπx)
hat die Eigenschaft X = ∪∞n=1Xn. Mit den hier angegebenen Basisfunktionen
erhalt man fur RWP −y′′ + c(x)y = f(x), y(0) = y(1) = 0, aufgrund derOrthogonalitat der Funktionen φk(x) = sin(kπx) Diagonalmatrizen A.
Neben einer trigonometrischen Basis kann man z.B. mit der polynomialenBasis
φk(x) = xk(1 − x), k = 1, 2, . . . (2.56)
arbeiten. Die Unterraume Xn = spanx(1−x), x2(1−x), . . . , xn(1−x) habenauch die Eigenschaft X = ∪∞
n=1Xn. Hier erhalt man allerdings aufgrundfehlender Ortogonalitat keine schwach besetzte Matrix A des zugehorigenRitz-Galerkin-Verfahrens.
2.4 Kollokationsverfahren
Neben den bisher besprochenen klassischen Finite-Differenzen-Verfahrenund den Ritz-Galerkin-Verfahren, die auf der Basis von Variationsgleichun-gen gewonnen werden, kann man Naherungslosungen von RWP auch mitdem Kollokationsverfahren bestimmen, das zumindest hinsichtlich desLosungsansatzes dem Ritz-Galerkin-Verfahren ahnelt.Betrachten wir das RWP −y′′ + q(x)y = f(x), y(0) = y(1) = 0. Wie beimRitz-Galerkin-Verfahren geht man von Basis- oder Ansatz-Funktionen φk(x)aus, die mindestens 2-mal differenzierbar sein sollen und die Randbedingun-gen φk(0) = φk(1) = 0 erfullen sollen. Nun macht man den Ansatz
u(x) =n∑
k=1
ckφk(x) (2.57)
fur die Naherungslosung und fordert fur die zu wahlenden Kollokationspunktex1, . . . , xn ∈]0, 1[, dass Naherungslosung u(x) die Differentialgleichung in denKollokationspunkten exakt erfullt. Das bedeutet
− d2
dx2[
n∑
k=1
ckφk(x)]|xj+ q(xj)
n∑
k=1
ckφk(xj) = f(xj) , j = 1, . . . , n, bzw.
n∑
k=1
ck[−φ′′k(xj) + q(xj)φk(xj)] = f(xj) .
99
Mit A = (ajk) = (−φ′′k(xj) + q(xj)φk(xj)) und c = (c1, . . . , cn)T bzw. f =
(f1, . . . , fn)T erhalt man das lineare Gleichungssystem
Ac = f
zur Bestimmung von c und damit schließlich auch die Naherungslosung u(x).Betrachtet man als Ansatzfunktionen z.B. (2.55), dann ergibt sich mit
A = (ajk) , ajk = (kπ)2 sin(kπxj) + q(xj) sin(kπxj)
eine vollbesetzte bzw. zumindest nicht schwach besetzte Koeffizienten-Matrix. Fur die Ansatzfunktionen (2.56) erhalt man mit
φ′k(x) = xk−1[k − (k + 1)x] , φ′′
k(x) = kxk−2[k − 1 − (k + 1)x]
die Matrix
A = (ajk) , ajk = −kxk−2j [k − 1 − (k + 1)xj] + q(xj)(1 − xj) ,
also ebenfalls eine nicht schwach besetzte Koeffizienten-Matrix.Der Grund fur starke Besetzung der Koeffizienten-Matrizen A liegt anden Tragern supp φk der gewahlten Basisfunktionen (2.55) bzw. (2.56),die nicht h-lokal sind. Eine Moglichkeit der Erzeugung schwach besetzterKoeffizienten-Matrizen A von Kollokationsverfahren besteht in der Wahl so-genannter h-lokaler Ansatz- bzw. Basisfunktionen. In Frage kommen dabeikubische B-Splines, die bei gleichabstandigen Knoten x1 = 0, x2, . . . , xn = 1und h = xi+1 − xi durch
Bi(x) =
14h3 (x − xi−2)
3 xi−2 ≤ x ≤ xi−114
+ 34h
(x − xi−1) + 34h2 (x − xi−1)
2 − 34h3 (x − xi−1)
3 xi−1 ≤ x ≤ xi14
+ 34h
(xi+1 − x) + 34h2 (xi+1 − x)2 − 3
4h3 (xi+1 − x)3 xi ≤ x ≤ xi+11
4h3 (xi+2 − x)3 xi+1 ≤ x ≤ xi+2
0 x ≤ xi−2, xi+2 ≤ x
erklart sind. Man rechnet nach, dass Bi(xi) = 1, Bi(x±i) = 14
und Bi(xj) =0 fur |i − j| > 1 gilt. Mit den ”Hilfs”-Gitterpunkten x−2, x−1, x0 undxn+1, xn+2, xn+3, die man geeignet vor x1 = 0 und nach xn = 1 platziert,kann man nun Bi(x) fur i = 0, . . . , n + 1 bestimmen. Ausgehend von denBi(x) erhalt man mit
φ1(x) = B1(x) − 4B0(x)
φ2(x) = 4B2(x) − B1(x)
φi(x) = Bi(x) , i = 3, . . . , n − 2,
φn−1(x) = 4Bn−1(x) − Bn(x)
φn(x) = Bn(x) − 4Bn+1(x)
100
Ansatzfunktionen (Basis), die ebenso wie deren Linearkombinationen dieRandbedingung φi(0) = φi(1) = 0, i = 1, . . . , n, erfullen. Außerdem habendiese Ansatzfunktionen einen sogenannten h-lokalen Trager, denn es gilt
supp φi ⊂ [xi−2, xi+2] ,
was zu einer schwach besetzten Koeffizienten-Matrix eines Kollokationsver-fahrens fuhrt. Die Matrix ist in unserem Beispiel tridiagonal. Allerdingserhalt man in unserem Beispiel-RWP wie auch im Allgemeinen beim Kol-lokationsverfahren keine symmetrische Koeffizienten-Matrix.Die eben eingefuhrten Ansatzfunktionen kann man selbstverstandlich auchals Grundlage fur ein Finite-Element-Verfahren ausgehend von einer Varia-tionsgleichung verwenden.
2.5 Schießverfahren16.Vorle-sungam2.12.2009
Ziel soll es im Folgenden sein, RWP der Art
y′′ = f(x, y, y′) , y(a) = ηa , y(b) = ηb (2.58)
fur eine skalare Funktion y : [a, b] → R, oder allgemeiner
y′ = f(x, y) , r(y(a), y(b)) = 0 (2.59)
fur y = (y1, . . . , yn)T , yk : [a, b] → R zu losen. Beim Problem (2.59) be-schreibt r eine moglicherweise nichtlineare Randbedingung.
2.5.1 Das einfache Schießverfahren fur skalare Glei-chungen
Das Grundprinzip des Schießverfahrens soll fur das spezielle erste RWP
y′′ = f(x, y) , y(a) = ηa , y(b) = ηb (2.60)
erlautert werden. Schießverfahren zur Losung von Zweipunkt-Randwertproblemen basieren auf Methoden zur Losung von Anfangs-wertproblemen. Beim ersten Randwertproblem (2.60) nutzt man dabei z.B.die Randbedingung y(a) = ηa als Anfangsbedingung und versucht durcheine geeignete Wahl von sa = y′(a) als Anfangsbedingung fur die Ableitungmit einer Losung des Anfangswertproblems
y′′ = f(x, y) , y(a) = ηa , y′(a) = s (2.61)
101
die Randbedingung y(b) = ηb zu treffen. Fur vorgegebenes s sei y(x, s) dieLosung von (2.61). y(x, s) ist dann Losung des Zweipunkt-Randwertproblems(2.60), wenn s Nullstelle der Funktion
g(s) = y(b, s) − ηb (2.62)
ist. Fur eine Funktionswertberechnung von g ist ein Anfangswertproblem(2.60) zu losen. Eine Moglichkeit zur Bestimmung der Nullstelle von g ist mitdem Bisektionsverfahren gegeben. Allerdings ist es durchaus moglich, dassdurch Fehler bei der Losung des Anfangswertproblems das Vorzeichen von gnicht immer korrekt berechnet werden kann, so dass das Bisektionsverfahrenunbrauchbar wird.Eine andere Moglichkeit zur Bestimmung der Nullstelle von g bietet dasNewton-Verfahren. Die Differentiation von g nach s ergibt
g′(s) = ys(b, s) , (2.63)
wobei ys(b, s) die partielle Ableitung von y(x, s) nach s ausgewertet an derStelle x = b ist. Die Differentiation der Gleichung y′′(x, s) = f(x, y(x, s))nach s ergibt
∂
∂s[y′′(x, s)] = fy(x, y(x, s))ys(x, s) . (2.64)
fy bedeutet dabei die partielle Ableitung von f(x, y) nach y. Mit der Vor-aussetzung der Vertauschbarkeit der Ableitungen nach s und x erhalt manaus (2.64) die Differentialgleichung 2. Ordnung
y′′s (x, s) = fy(x, y(x, s))ys(x, s) (2.65)
fur ys(x, s). Durch Differentiation der Anfangsbedingungen der Aufgabe(2.61) nach s erhalt man die Anfangsbedingungen
ys(a, s) = 0 , y′s(a, s) = 1 . (2.66)
Mit (2.65), (2.66) liegt ein Anfangswertproblem zur Berechnung von ys(x, s),also auch zur Berechnung der Ableitung von g vor (gemaß (2.63)). Da-mit kann man durch Losung der Anfangswertprobleme (2.61) und (2.65),(2.66) Funktionswert und Ableitung von g(s) berechnen und kann somit einNewton-Verfahren zur Nullstellenberechnung von g durchfuhren. Hierzu istanzumerken, dass man zur Losung von (2.65), (2.66) die Funktion y(x, s) alsLosung des Anfangswertproblems (2.61) benotigt, um die Funktionswerte vonfy(x, y(x, s)) berechnen zu konnen. Da man die exakte Losung y(x, s) nichtzur Verfugung hat, verwendet man die Naherungswerte yk an den Stutzstellenxk des Intervalls [a, b] zur Berechnung von fy an den Stutzstellen xk. Beim
102
Schießverfahren ist es in jedem Fall sinnvoll, ein recht genaues Verfahren zurerforderlichen Losung der Anfangswertprobleme (2.61) und (2.65), (2.66) zuverwenden, da speziell bei wachsenden Losungen die Sensibilitat der Losungy(x, s) von s sehr groß sein kann und somit kleine Anderungen von s großeAuswirkungen auf y(b, s) haben konnen.Beim Schießverfahren fur das RWP mit der Differentialgleichung y′′ =f(x, y, y′) erhalt man statt dem AWP (2.65) durch Differentiation der Dgl.y′′(x, s) = f(x, y(x, s), y′(x, s)) und Vertauschung der Ableitungsreihenfolge
y′′s (x, s) = fy(x, y(x, s), y′(x, s))ys(x, s) + fy′(x, y(x, s), y′(x, s))y′
s (2.67)
und nach Differentiation der Randbedingungen
ys(a, s) = 0 , y′s(a, s) = 1 . (2.68)
Mit der Losung der AWP (2.65),(2.66) bzw. (2.67),(2.68) hat man g′(s) =ys(b, s) zur Verfugung und wenn man mit dem Newtonverfahren
s(i+1) = s(i) − g(s)
g′(s)
erfolgreich eine Nullstelle von g bestimmen kann auch die Losung des ur-sprunglichen RWPs bestimmt.Das erfordert aber in jedem Fall eine recht genaue Losung der AWP (2.61)und (2.67),(2.68), deren Losung man ja zur Berechnung von g(s) und g′(s)braucht.Mogliche Grunde fur das Scheitern des Schießverfahrens sollen am folgendenBeispiel dargestellt werden.
Beispiel 2.45. Man betrachte das Problem
y′′ − 100y = 0 , y(0) = 1 , y(1) = 0 . (2.69)
Die exakte Losung dieses Randwertproblems lasst sich aus der allgemeinenLosung y(x) = c1e
−10x + c2e10x unter der Beachtung der Randbedingungen
zu
y(x) =1
1 − e−20e−10x − e−20
1 − e−20e10x
bestimmen. Beim Schießverfahren arbeitet man statt der Randbedingungy(1) = 0 mit der Anfangsbedingung y′(0) = s und findet fur das entspre-chende AWP die exakte Losung
y(x; s) =10 − s
20e−10x +
10 + s
20e10x .
103
Am zweiten Summanden erkennt man, dass am Intervallendpunkt x = 1 derWert y(1; s) sehr empfindlich auf Anderungen von s reagiert. Man findet mit
se = −101 + e−20
1 − e−20≈ −10
den s-Wert, der zur exakten Losung des RWPs (2.69) gehort. Selbst einegeringfugige Abweichung von se, z.B. mit s = se+0.001 ergibt statt y(1; se) =0 den Wert y(1; se + 0.001) = 1, 1014, und mit s = se + 0.01 den Werty(1; se + 0.01) = 11.013. Der Grund fur dieses Verhalten liegt in der Großeder Lipschitzkonstanten fur die rechte Seite der Differentialgleichung.
2.5.2 Schießverfahren fur Dgl.-Systeme
Es werden nun Randwertprobleme der Form (2.59) betrachtet. Man versuchtwieder einen Startvektor s ∈ R
n so zu bestimmen, dass die Losung des RWPs
y′ = f(x, y) , y(a) = s (2.70)
y(x) = y(x, s) den Randbedingungen
r(y(a, s), y(b, s)) ≡ r(s, y(b, s)) = 0
genugt. Dazu ist eine Losung s = (σ1, σ2, . . . , σn)T der Gleichung
G(s) = 0 (2.71)
mit G(s) := r(s, y(b, s)) zu finden. Ein Newton-Verfahren zur Losung von(2.71) lautet
s(i+1) = s(i) − [G′(s(i))]−1G(s(i)) ,
wobei in jedem Schritt G(s(i)) mittels der Losung des AWPs (2.70) zu be-stimmen ist, und die Ableitungsmatrix
G′(s(i)) = [∂Gj
∂σk
]s=s(i)
zu berechnen ist. Zur Berechnung von G′ findet man durch Differentiation
G′(s) = Dur(s, y(b)) + Dvr(s, y(b, s))Z(b, s)
mit den Matrizen
Dur(u, v) = [∂ri(u, v)
∂uj
] ,
Dvr(u, v) = [∂ri(u, v)
∂vj
] ,
Z(b, s) = Dsy(b, s) = [∂yi(b, s)
∂σj
] .
104
Sowohl beim Schießverfahren fur skalare Probleme, als auch beim eben darge-stellten Schießverfahren fur Systeme kann man statt des Newton-Verfahrensauch mit Sekanten-Verfahren arbeiten, d.h. die Ableitung g′ oder die Ablei-tungsmatrix G′ durch Differenzenquotienten ersetzen und damit die aufwen-dige Losung des AWPs (2.67),(2.68) bzw. die aufwendige Berechnung vonDu, Dv und Z vermeiden um den Preis der mehrfachen Losung der AWP(2.61) bzw. (2.70).
2.5.3 Schießverfahren fur lineare Randwertaufgaben17.Vorle-sungam8.12.2009
Satz 2.46. (Losungsdarstellung)Mit der Fundamentalmatrix Y : I → R
n x n und der speziellen (partikularen)Losung y0 : I → R
n als Losungen der AWP
y′0(x) − A(x)y0(x) = f(x), x ≥ a, y0(a) = 0,
Y ′(x) − A(x)Y (x) = 0, x ≥ a, Y (a) = E (2.72)
kann man die Losung des RWPs
y′(x) − A(x)y(x) = f(x) , x ∈ I = [a, b],
Bay(a) + Bby(b) = g,
durchy(x) = y0(x) + Y (x)s (2.73)
mit der Losung s ∈ Rn des linearen Gleichungssystems
[Ba + BbY (b)]︸ ︷︷ ︸
=Q
s = g − Bby0(b) , (2.74)
darstellen, vorausgesetzt, die Matrix Q ist regular.Mit anderen Worten, die Funktion y(x) = y(x; s) lost das AWP
y′(x; s) − A(x)y(x; s) = f(x), y(a; s) = s,
wobei gerade die Randbedingung
Bay(a; s) + Bby(b; s) = g
erfullt ist.
105
Beweis. Fur y(x) = y(x; s) und s = y(a) ist die Randbedingung genau dannerfullt, wenn
g = Bay(a) + Bby(b)
= Ba(Y (a)s + y0(a)) + Bb(Y (b)s + y0(b))
= [BaY (a) + BbY (b)]s + Bby0(b)
gilt, also (2.74). Dass (2.73) eine Losung des AWPs ist, bestatigt man durchDifferenzieren und Einsetzen.
Fur das ”Einfache Schießverfahren” ergibt sich i.d.Regel der folgende Algo-rithmus:
1. Zur Schrittweite h = (b − a)/N werden mit einem konsistenten Ein-schrittverfahren die n + 1 Naherungen (yh
i,k)0≤k≤N , 0 ≤ i ≤ n, zu denLosungen yi(x) der AWP (2.72) bestimmt (Stutzstellen xk = a + kh).
2. Mit der MatrixQh := Ba + BbY
hN (2.75)
wird, falls sie regular ist, das Gleichungssystem
Qhsh = g − Bbyh0,N (2.76)
gelost.
3. Die eindeutige Losung sh des Gleichungssystems (2.76) ergibt dieLosung
yhk := yh
0,k + Y hk sh, k = 0, 1, 2, . . . , N.
Bemerkung 2.47. Naturlich kann ebenfalls mit variabler Schrittwei-te operiert werden. Dann bietet es sich an, anstelle von Schritt 3 dieNaherungslosung als Losung des AWP
y′(x; sh) − A(x)y(x; sh) = f(x), y(a; sh) = sh,
erneut mit variabler Schrittweite zu berechnen. Bei diesem Vorgehen kannauf das Speichern aller Zwischenwerte yh
i,k, k < N , verzichtet werden.
Zur Frage der Invertierbarkeit der Matrix Qh in (2.75) und der Konvergenzfur h → 0 dient der folgende Satz.
106
Satz 2.48. (Konvergenz des einfachen Schiessverfahrens)A(x) und f(x) seien stetig differenzierbar und die Matrix Q = Ba + BbY (b)sei regular. Zur Berechnung der yh
i,k, 0 ≤ i ≤ n,werde jeweils ein Verfahren
der Ordnung m eingesetzt. Dann ist fur hinreichend kleines h die Matrix Qh
ebenfalls regular und das Verfahren konvergiert mit der Ordnung m, also
max0≤k≤N
|yhk − y(xk)| = O(hm), h → 0.
Beweis. Die Lipschitzkonstante der (homogenen und inhomogenen) Differen-tialgleichungen in (2.72) ist
L := maxx∈I
||A(x)||.
Fur die Naherungslosungen an der Stelle x = b gilt also
||yhi,N − yi(b)|| ≤ KeL(b−a)hm,
wobei die Konstante K im Wesentlichen nur von den gegebenen Daten A(t)und f(t) abhangt. Hieraus ergibt sich sofort
||Q − Qh|| = ||Bb(Y (b) − Y hN)|| ≤ ||Bb|| max
1≤i≤n||yi(b) − yh
i,N || = O(hm).
Fur hinreichend kleines h ist also Qh regular und
||Q − Qh|| < 1/||Q−1|| =⇒ ||Q−1(Qh − Q)|| < 1,
und dies impliziert die Regularitat von Qh = Q(E + Q−1(Qh −Q)) sowie dieAbschatzung
||(Qh)−1|| ≤ ||Q−1||1 − ||Q−1|| · ||Qh − Q|| .
Wegen
Q−1 − (Qh)−1 = Q−1(Qh −Q)(Qh)−1, (Qh)−1 = (E + Q−1(Qh −Q))−1Q−1
folgt weiter
||Q−1 − (Qh)−1|| ≤ ||Q−1||21 − ||Q−1|| · ||Qh − Q|| ||Q
h − Q|| = O(hm).
Daraus konnen wir nun folgern, dass
||s − sh|| = ||Q−1[g − Bby0(b)] − (Qh)−1[g − Bbyh0,N ]||
≤ ||Q−1 − (Qh)−1|| · ||g|| ++||Q−1 − (Qh)−1|| · ||Bb|| · ||y0(b)|| ++||(Qh)−1|| · ||Bb|| · ||y0(b) − yh
0,N ||= O(hm)
107
gilt. Mit den Bezeichnungen
ek = yhk − y(xk) , e
(1)k = yh
0,k − y0(xk) , e(2)k = Y h
k − Y (xk)
und den Konsistenzeigenschaften der Verfahren zur Losung der AWP
||e(ν)|| = O(hm) , ν = 1, 2,
folgt
||ek|| = ||yhk − y(xk)|| = ||yh
0,k − y0(xk) + Y hk sh − Y (xk)s||
= ||[e(1)k + e
(2)k s] + Y h
k (sh − s)||≤ ||e(1)
k || + ||e(2)k || · ||s|| + ||Y h
k || · ||sh − s||= O(hm) ,
also die Behauptung.
2.5.4 Mehrzielverfahren (linearer Fall)
Entscheidend fur eine Fehlerverstarkung bei Losungsverfahren von AWP istdie Konstante
M = eL(b−a) ,
wobei L eine Lipschitzkonstante ist, z.B.
L = maxx∈[a,b]
||A(x)||
fur ein AWP y′ = A(x)y+f(x), y(a) = s. Wenn L groß ist, dann (siehe obigesBeispiel 2.45), dann kann das einfache Schießverfahren scheitern. Zur Abhilfedieser Probleme fuhrt man die Mehrfachschießmethode (Mehrzielverfahren)ein, das im Folgenden fur lineare RWP
y′ = A(x)y + f(x), Bay(a) + Bby(b) = g ,
beschrieben werden soll. Dazu diskretisiert man das Intervall I = [a, b] durch
a = x1 < x2 < · · · < xr+1 = b .
Fur gegebene Vektoren sj ∈ Rn, 1 ≤ j ≤ r, seien
y(x; xj, sj) , 1 ≤ j ≤ r ,
die Losungen der AWP
y′ = A(x) + f(x) , x ∈ [xj, xj+1], y(xj) = sj .
108
Im Unterschied zum einfachen Schießverfahren hat man es bei der Losung derlokalen AWP nicht mehr mit der Fehlerverstarkungskonstante M , sondernmit der kleineren Konstante M1/r zu tun, so dass die begrundete Hoffnungbesteht, dass das Mehrzielverfahren stabiler als das einfache Schießverfahrenist.Das Problem besteht darin, die r Vektoren sj so zu bestimmen, dass diezusammengesetzte Funktion
y : [a, b] → Rn , y(x) = y(x; xj, sj) fur x ∈ [xj, xj+1], 1 ≤ j ≤ r, (2.77)
stetig auf I = [a, b] ist und die Randbedingung Bay(a) + Bby(b) = g erfullt.Man kann zeigen, dass aus der Stetigkeit von y gemaß (2.77) und derErfullung der Randbedingung die Differenzierbarkeit folgt.Die Forderung nach Stetigkeit von y und die Erfullung der (globalen) Randb-dingung bedeuten die Bedingungen
y(xj+1; xj, sj) = sj+1 , j = 1, 2, . . . , r − 1 (2.78)
Bas1 + Bby(b; xr, sr) = g .
Wie beim einfachen Schießverfahren werden auf jedem Teilintervall (1 ≤ j ≤r) die partikulare Losung yj und die Fundamentalmatrix Yj als Losungen derAWP
y′j = A(x)yj + f(x) , x ∈ [xj, xj+1], yj(xj) = 0, (2.79)
Y ′j = A(x)Yj , x ∈ [xj, xj+1], Yj(xj) = E (2.80)
bestimmt. Die lokale Losung hat dann wie beim einfachen Schießverfahrendie Form
y(x; xj, sj) = yj(x) + Yj(x)sj , j = 1, . . . , r . (2.81)
Die Bedingungen (2.78) erhalten so die Form eines linearen Gleichungssys-tems fur die Parametervektoren s1, . . . , sr:
Bas1 + BbYr(b)sr = g − Bbyr(b)−Y1(x2)s1 + s2 = y1(x2)
− Y2(x3)s2 + = y2(x3)...
−Yr−1(xr)sr−1 + sr = yr−1(xr)
Dies ist ein lineares Gleichungssystem mit der (r n × r n)-Matrix Ar, die die
109
Faktorisierung
Ar =
Q1 Q2 . . . Qr
E. . .
E
︸ ︷︷ ︸
R
·
E . . .−Y1(x2) E
. . . . . .
−Yr−1(xr) E
︸ ︷︷ ︸
L
besitzt, wobei die Matrizen Q1, . . . , Qr−1 die Rekursion
Qr = BbYr(b) ,
Qj = Qj−1Yj(xj+1) , j = r − 1, r − 2, . . . , 2 ,
Q1 = Ba + Q2Y1(x2)
erfullen. Insbesondere ist
Q1 = Ba + BbYr(b) · · ·Y2(x3)Y1(x2) . (2.82)
Offensichtlich ist die Matrix Ar genau dann regular, wenn die Matrix Q1 re-gular ist. Man kann nun zeigen, dass Q1 dann regular ist, wenn die MatrixQ = Ba+BbY (b) des einfachen Schießverfahrens regular ist, also ist die Mehr-fachschießmethode immer durchfuhrbar, wenn es die einfache Schießmethodeist.
2.5.5 Mehrzielverfahren (allgemeiner Fall)18.Vorle-sungam9.12.2009
Statt dem oben betrachteten linearen Randwertproblem soll das Mehrziel-verfahren fur nichtlineare RWP, also
y′ = f(x, y) , r(y(a), y(b)) = 0 (2.83)
fur y = (y1, . . . , yn)T , yk : [a, b] → R. Wie beim Mehrzielverfahren fur lineareRWP betrachtet man AWP auf den Teilintervallen [xj, xj+1], und zwar
y′ = f(x, y) , y(xj) = sj, j = 1, . . . , r ,
und fordert, dass
y : [a, b] → Rn , y(x) = y(x; xj, sj) fur x ∈ [xj, xj+1], 1 ≤ j ≤ r, (2.84)
110
stetig auf I = [a, b] ist und die Randbedingung r(y(a), y(b)) =r(s1, y(b; xr, sr)) = 0 erfullt ist. Das bedeutet ein i.Allg. nichtlineares Glei-chungssystem fur s = (s1, . . . , sr)
T der Form
F (s) :=
F1(s1, s2)F2(s2, s3)
...Fr−1(sr−1, sr)
Fr(s1, sr)
:=
y(x2; x1, s1) − s2
y(x3; x2, s2) − s3...
y(xr−1; xr−2, sr−2) − sr−1
r(s1, y(b; xr, sr))
= 0 , (2.85)
wobei die Bedingung y(xr+1; xr, sr) = y(b; xr, sr) = y(b) undr(s1, y(b; xr, sr)) = 0 zusammengefasst wurden. Eine Nullstelle von F bzw.die Losung von (2.85) wird i.d.Regel mit einem Sekantenverfahren (regulafalsi) durchgefuhrt, d.h. man muss fur das Verfahren Differenzenquotientenbestimmen, also F an den Stellen
s(j)1...
s(j)k...
s(j)n
und
s(j)1...
s(j)k + ∆s
(j)k
...
s(j)n
k = 1, . . . , n
berechnen, dann die Differenzenquotienten berechnen, eine ApproximationF∆(s(j)) der Funktionalmatrix F ′(s(j)) berechnen, und schließlich das System
F∆(s(j))∆s = −F (s(j)) mit ∆s = s(j+1) − s(j)
losen. Aufgrund der konkreten Form der Komponenten Fk von F ist dieMatrix F∆(s(j)) schwach besetzt und hat eine ahnliche Blockdiagonalstrukturwie die Matrix Ar im linearen Fall. Mit s(j+1) = s(j) + ∆s erhalt man danndie neue Iterierte. Auf die wichtige Wahl geeigneter Startiterationen sei hiernur hingewiesen.
111
Kapitel 3
PartielleDifferentialgleichungen undderen numerische Losung
3.1 Beispiele partieller Differentialgleichun-
gen der math. Physik
Im Ergebnis der mathematischen Modellierung bzw. Beschreibung von tech-nischen Prozessen oder physikalischen Phanomenen entstehen partielle Diffe-rentialgleichungen. Als Beispiel seien hier die Kontinuitatsgleichung als Re-sultat einer Massenbilanz
∂ρ
∂t+ div(ρ v) = 0 (3.1)
und die Navier-Stokes-Gleichung
∂v
∂t+ (v · ∇)v = −1
ρ∇p + ν[
4
3∆v −∇× (∇× v)] + F (3.2)
als Ergebnis der Bilanzierung des Impulses genannt. Die Differentiationen inder Gleichung sind dabei auf alle Komponenten des Vektorfeldes v anzuwen-den und (3.2) besteht aus 3 skalaren Gleichungen fur die 3 Geschwindigkeits-komponenten. Die Funktionen bzw. Vektorfelder
ρ : [0, T ] × Ω → R, p : [0, T ] × Ω → R, v : [0, T ] × Ω → R3
bezeichnen die Dichte, den Druck und das Geschwindigkeitsfeld. Ω ⊂ R3 ist
das raumliche Gebiet, in dem der jeweilige Prozess betrachtet wird, und [0, T ]
112
ist das interessierende Zeitintervall. ν bezeichnet die kinematische Viskositatund F steht fur ein außeres Kraftfeld.Im Fall eines inkompressiblen Fluids gilt ρ = const. und die Konti-nuitatsgleichung (3.1) vereinfacht sich zu
div v = 0 . (3.3)
Unter Nutzung von (3.3) vereinfacht sich die Navier-Stokes-Gleichung (3.2)zu
∂v
∂t+ (v · ∇)v = −1
ρ∇p + ν∆v + F . (3.4)
Als Ergebnis der Energiebilanz erhalt man fur ein inkompressiblesMedium als Spezialfall die parabolische Warmeleitungsgleichung mitBerucksichtigung des konvektiven Transports
∂θ
∂t+ (v · ∇)θ = a∆θ + Q (3.5)
fur das Temperaturfeld θ : [0, T ] × Ω → R (a ist die Temperaturleitzahl undQ beschreibt Warmequellen oder -senken in Ω).In der Navier-Stokes-Gleichung (3.2) beschreiben der Term
ρ[∂v
∂t+ (v · ∇)v]
die Beschleunigungskrafte,∇p
die Druckkraft und
νρ[4
3∆v −∇× (∇× v)]
die Reibungskrafte. Z.B. bei der Modellierung der Umstromung eines Trag-flugels spielen die Reibungskrafte nur eine untergeordnete Rolle, so dass beidiesem Stromungsproblem die Impulsbilanz als Spezialfall der Navier-Stokes-Gleichung (ohne Reibungsterme) durch die hyperbolische Euler-Gleichung
∂v
∂t+ (v · ∇)v = −1
ρ∇p + F (3.6)
beschrieben wird.Bei den zeitabhangigen Problemen sind Anfangsbedingungen fur die zu be-rechnenden Felder, z.B. fur die Temperatur etwa
θ(0, x) = θ0(x) , x ∈ Ω, (3.7)
113
vorzugeben. Handelt es sich bei den beschreibenden Differentialgleichungenum Gleichungen mit raumlichen zweiten Ableitungen, sind Randbdingungen,als Beispiel
θ(t, x) = θr(t, x) , x ∈ Γ = ∂Ω, (3.8)
zum Abschluss des jeweiligen Modells vorzugeben. Bei Vorgabe einesGeschwindigkeitsfeldes v sowie von a und Q ist durch (3.5), (3.7), (3.8)ein Anfangs-Randwert-Problem zur Bestimmung des zeitlich veranderlichenTemperaturfeldes θ(t, x) in [0, T ] × Ω gegeben, dessen Losung i.d.Regelnumerische erfolgen muss.
19.Vorle-sungam15.12.2009
Im Folgenden sollen noch 2 Randwertprobleme im Rahmen der Bestimmungdes Minimums eines Funktionals bzw. der thermischen Kontrolle eines tech-nologischen Prozesses angegeben werden.Es soll das sogenannte Mumford-Shah-Funktional
E(f) =
∫
Ω
[(f − d)2 + α2(R − I)2] dF (3.9)
minimiert werden. Dabei ist d ein gegebenes, i.d.Regel verrauschtes Daten-feld einer raumlichen Kontur (Flache S im Raum), dass durch irgendwelcheSensoren generiert wurde. I beschreibt ein Intensitatsfeld R ist der Reflekti-onsgrad. Die gesuchte glatte Funktion f beschreibt die entrauschte geglatteteFlache S. Wenn l den Einheitsvektor in Richtung der Lichtquelle, die das zuerfassende Objekt mit der Oberflache S beleuchtet, bezeichnet, und n denaußeren Normalvektor, ergibt sich fur R
R = n · l =(−fx,−fy, 1)√
1 + |∇f |2· (l1, l2, l3) , (3.10)
wobei fx, fy die partiellen Ableitunge von f bedeuten. Mit den Setzungen
∇fx,fyR = − (l1, l2)√
1 + |∇f |2− n · l
√
1 + |∇f |2∇f , (3.11)
V = α2(R − I)∇fx,fyR (3.12)
erhalt man aus der notwendigen Extremalbedingung fur die VariationδE(f ; v) = 0 fur alle Richtungen v die Euler-Lagrange-Differentialgleichung
∇ · V + (d − f) = 0 auf Ω (3.13)
mit der Randbedingung
n · V = 0 ,∂2f
∂n2= 0 auf Γ = ∂Ω . (3.14)
114
Bei genauerem Hinsehen erkennt man in (3.13) eine biharmonische Differen-tialgleichung mit Ableitungen von f bis zur Ordnung 4.
Im zweiten Beispiel zur Optimierung mit partiellen Differentialgleichungensoll in einem Bereich Ω durch eine bestimmte Heiz- bzw. Kuhlstrategie (reali-siert durch eine vorzugebenden Warmestromdichte am Rand) eine bestimm-te vorgegebene Temperaturverteilung T eingestellt oder sehr gut angenahertwerden. Denkbar ware hier die Bearbeitung eines Stahlblockes oder das Auf-schmelzen von Ausgangsstoffen zur Erzeugung eines homogenen Gemischs.Auf einem Teil des Randes Γd von Ω sei eine fixierte Temperatur vorgegebenund auf dem verbleibenden Rand Γc wird geheizt.
Ω
ΓΓ C
Abbildung 3.1: Bereich Ω und Heizungsrand Γc
Bemerkung 3.1. Fur die nun folgenden Betrachtungen verabreden wir, dasswir von den beteiligten Funktionen soviel Regularitat fordern, dass die vor-kommenden Integrale existieren!
Es ist eine vorzugebende Warmestromdichte (Heizstrategie) gesucht, die inΩ eine Temperaturverteilung zur Folge hat, die den um ein Kostenglied er-weiterten quadratischen Abstand
J(T, q) =1
2
∫
Ω
(T − T )2 dV +α
2
∫
Γc
q2 dF (3.15)
minimiert. Im Ergebnis der mathematischen Modellierung erhalt man zurBerechnung der Temperaturverteilung T in Ω das elliptische Randwertpro-blem
− ∆T = f in Ω, T = 0 auf Γd,∂T
∂n= q auf Γc , (3.16)
wobei f vorgegeben ist und q die gesuchte optimale Warmestromdichte ist.Die Randbedingung T = 0 auf Γc stellt keine Einschrankung der Allgemein-heit dar, da man von Null verschiedene Randtemperaturen Td auf Γd auf Ω
115
zu T0 fortsetzen kann, und fur die Differenz T − T0 auf Γd eine homogeneRandbedingung erhalt. Statt der Warmeleitungsgleichung −∆T = g wurdeman dann fur die Differenz die Gleichung −∆(T − T0) = g + ∆T0 =: f er-halten.Wir definieren das Lagrange-Funktional
L(T, κ, q, χ) =1
2
∫
Ω
(T − T )2 dV +α
2
∫
Γc
q2 dF (3.17)
−∫
Ω
(∆T + f)κ dV +
∫
Γc
(∂T
∂n− q)χdF
und man erkennt, dass fur eine Losung T von (3.16)
L(T, κ, q, χ) =1
2
∫
Ω
(T − T )2 dV +α
2
∫
Γc
q2 dF = J(T, q)
gilt. Wir suchen das Minimum von L fur auf Ω definierten Funktionen T undκ.Fur die Frechet-Ableitung von L findet man an der Stelle w = (T, κ, q, χ)T
in Richtung h = (T , κ, q, χ)T
L′[w](h) =
∫
Ω(T − T )T dV −
∫
Ω∆T κ dV +
∫
Γc
∂T∂n
χdF
−∫
Ω(∆T + f)κ dV
∫
Γcαqq dF −
∫
Γcqχ dF
∫
Γc(∂T
∂n− q)χ dF
. (3.18)
Beachtet man, dass∫
Ω
∆T κ dV =
∫
Ω
∆κ T dV +
∫
Γ
∂T
∂nκ dF −
∫
Γ
∂κ
∂nT dF ,
aufgrund der zweiten Greenschen Integralformel gilt, und variiert die Test-funktionen T , κ, q, χ, dann ergibt sich mit der speziellen Wahl χ = κ auf Γc,aus (3.18)
L′[w](h) =
∫
Ω[(T − T ) − ∆κ]T dV +
∫
Γc
∂κ∂n
T dF
−∫
Ω(∆T + f)κ dV
∫
Γc[αq − κ]q dF
∫
Γc(∂T
∂n− q)χ dF
. (3.19)
Aus (3.19) wird deutlich, dass man mit der Losung T des Randwertproblems(3.16) und der Losung κ des dazu adjungierten Problems
− ∆κ = −(T − T ) in Ω, κ = 0 auf Γd,∂κ
∂n= 0 auf Γc , (3.20)
116
sowie der Warmestromdichte
q =1
ακ auf Γc (3.21)
einen stationaren Punkt des Funktionals L gefunden hat, denn dann gilt
L′[w](h) = L′[T, κ, q, χ](T , κ, q, χ) = 0 .
Fur die Berechnung eines stationaren Punktes sind damit zwei gekoppelte el-liptische Randwertprobleme (3.16) und (3.20) zu losen, und mit den Wertenvon κ auf Γc hat man letztendlich durch die Beziehung (3.21) eine optima-le Heizstrategie gefunden. Die Diskussion der Existenz und Einzigkeit einerLosung dieser Optimierungsaufgabe wurde den Rahmen dieser Darstellungdeutlich sprengen, da dazu umfassende funktionalanalytische Untersuchun-gen erforderlich werden. Deshalb wird darauf nicht eingegangen.
Abschließend sei mit der Wellengleichungen zweiter Ordnung
∂2u
∂t2= a2∆u (3.22)
bzw. Wellengleichunger erster Ordnung
∂u
∂t+ a
∂u
∂x= 0 , (3.23)
aus der die Gleichung (3.22) im raumlich eindimensionalen Fall folgt, aufdie Klasse der hyperbolischen Differentialgleichungen hingewiesen. Die Glei-chung (3.23) ist ein Spezialfall der Erhaltungsgleichung
∂~u
∂t+ ∇ · f(~u) = 0 , (3.24)
die fur
~u =
ρρuρv
, f(~u) =
(f1(~uf2(~u)
)
mit
f1 =
ρuρu2 + p
ρuv
und f2 =
ρvρuv
ρv2 + p
.
auch die Eulergleichungen umfasst.Mit hyperbolischen Differentialgleichungen werden Wellenphanomene ausdem Gebiet der Akustik, der Elektromagnetik, der Seismik, der Optik bzw.der Stromungsmechanik beschrieben.
117
3.2 Numerische Losungsmethoden fur part.
Dgln.
Im Folgenden wird eine Ubersicht uber numerische Losungsmethoden furpartielle Differentialgleichungen gegeben. Dabei werden klassische Finite-Differenzen-Methoden (FDM), Finite-Element-Methoden (FEM) und Finite-Volumen-Methoden (FVM) behandelt.
3.2.1 Finite-Differenzen-Methoden
Die FDM soll am Beispiel eines elliptischen RWPs
− ∆u + cu = f in Ω ∈ R2, u = 0 auf Γ = ∂Ω , (3.25)
erlautert werden. Es handelt sich hierbei um eine Verallgemeinerung derLosung eines Zweipunktrandwertproblems −u′′ + cu = f , u(0) = u(1) = 0,das ein eindimensionales elliptisches Problem ist.Mit den Differenzenquotienten
D+x u =
u(x + h, y) − u(x, y)
h, D−
x u =u(x, y) − u(x − h, y)
h
und
D+y u =
u(x, y + k) − u(x, y)
k, D−
y u =u(x, y) − u(x, y − k)
k
wird durch∆hu = D+
x D−x u + D+
y D−y u
der Laplace-Operator diskretisiert. Fur den Fall eines Rechteckgebietes Ω =]0, b[×]0, d[ wird mit h = b/(N + 1), k = d/(M + 1) , N,M ∈ N, und
R2h = (ih, jk) | i ∈ Z, j ∈ Z
durchΩh = Ω ∩ R
2h , Γh = Γ ∩ R
2h , Ωh = Ωh ∪ Γh
Differenzengitter eingefuhrt und die numerische Losung von (3.25) wird alsGitterfunktion
uh : Ωh → R
gesucht, und zwar als Losung von
− ∆huh + cuh = fh in Ωh, u = 0 auf Γh . (3.26)
118
Zur vereinfachenden Darstellung verabreden wir
ui,j = uh(xi, yj) und fi,j = f(xi, yj) .
(3.26) entspricht dann mit
Uh = (u1,1, . . . , uN,1, u1,2, . . . , uN,2, . . . , u1,M , . . . , uN,M )T
undFh = (f1,1, . . . , fN,1, f1,2, . . . , fN,2, . . . , f1,M , . . . , fN,M )T
dem linearen Gleichungssystem
AhUh = Fh (3.27)
mit der (N M × N M)-Block-tridiagonalen Koeffizientenmatrix
Ah =
D BB D B
. . . . . . . . .
B D BB D
und der (N × N)-Tridiagonalmatrix
D =
α −β−β α −β
. . . . . . . . .
−β α −β−β α
sowie der (N × N)-Diagonalmatrix
B =
−γ−γ
. . .
−γ
mit
β =1
h2, γ =
1
k2, α = 2β + 2γ + c .
Man erkennt, dass Ah zumindest eine schwach diagonal dominante irreversi-ble Matrix ist, die außerdem symmetrisch und positiv definit ist. Damit ist
119
(3.27) eindeutig losbar und damit die Existenz und Eindeutigkeit der nume-rischen Losung Uh gezeigt.Konsistenz und Stabilitat im obigen Sinn konnen sowohl in der Maximum-Norm als auch in der diskreten L2-Norm gezeigt werden, woraus die Konver-genz von Uh gegen die Losung u von (3.25) (deren Existenz und erforderlicheRegularitat wir voraussetzen) folgt.
Numerische Losung von hyperbolischen Differentialgleichungen
Als Modellproblem betrachten wir das Cauchy-Problem
∂u
∂t+ a
∂u
∂x= 0 , t > 0 , u(x, 0) = u0(x) , (3.28)
fur x ∈ R.Man uberpruft schnell, dass bei entsprechender Glattheit von u0
u(x, t) = u0(x − a t)
eine Losung ist. Das Problem (3.28) wird oft als Referenzproblem fur dieBewertung numerischer Losungverfahren betrachtet.Betrachtet man die Gleichung ∂u
∂t+ a∂u
∂x= 0 fur x aus einem endlichen oder
halbendlichen Intervall, z.B. auf ]0, b], dann ist in Abhangigkeit vom Vorzei-chen von a eine Randbedingung vorzugeben, und zwar im Fall a > 0 etwa
u(0, t) = g0(t) . (3.29)
Wir wollen das Anfangs-Randwert-Problem (3.28), (3.29) fur den Fall g0(t) =0 numerisch losen und betrachten dazu das Raum-Gitter
Ωh = xj = j h , h = b/N, j = 1, . . . , N − 1 , Ωh = Ωh ∪ x0, xN
und bezeichnen durch
uh : Ωh × R≥0 → R uj(t) = uh(xj, t)
eine zeitabhangige Gitterfunktion.Die raumliche Diskretisierung von (3.28) ergibt mit denVorwartsdifferenzenquotienten D+ das semi-diskrete Verfahren
duj
dt(t) = −a
h(uj+1(t) − uj(t)) , j = 1, . . . , N − 1 , (3.30)
mit dem Ruckwartsdifferenzenquotienten D− das Verfahren
duj
dt(t) = −a
h(uj(t) − uj−1(t)) , j = 1, . . . , N − 1 , (3.31)
120
und mit dem Zentraldifferenzenquotienten (D+ + D−)/2 das Verfahren
duj
dt(t) = − a
2h(uj+1(t) − uj−1(t)) , j = 1, . . . , N − 1 . (3.32)
Beim Vorwartsdifferenzenquotienten und beim Zentraldifferenzenquotienten,also bei den Verfahren (3.30) und (3.32) erkennt man Probleme mit derRandbedingung, denn man benotigt uN(t) = uh(b, t). Beim Verfahren (3.31)hat man u0 = 0 aufgrund der Randbedingung (3.29) gegeben und kann dasAnfangswertproblem
du1
dt(t) = −a
hu1(t) , u1(0) = u0(x1)
losen und findet die Losung
u1(t) = ae−t/hu0(x1) .
Die weiteren Gleichungen lassen sich auch explizit losen und man erhalt in-duktiv
uj(t) = ae−t/h
j∑
i=1
u0(xi)1
(j − i)!(t
h)j−i .
Es gilt nun
|uj(t)| ≤ ae−t/h
j∑
i=1
|u0(xi)|1
(j − i)!(t
h)j−i
≤ a maxi
|u0(xi)|e−t/h
j∑
i=1
1
(j − i)!(t
h)j−i ≤ a max
i|u0(xi)| ≤ a||u0||∞ ,
und das bedeutet die Stabilitat des Verfahrens in der Supremum-Norm.Man uberpruft, das durch
uj(t) = a1
het/h
j∑
i=1
u0(xi)1
i!(− t
h)j−i −
∫ t
0
(s − t)n−jet−sh uN(s) ds (3.33)
eine Losung des semi-diskreten Problems
duj
dt(t) = −a
h(uj+1(t) − uj(t)) , uj(0) = u0(x1)
mit dem Vorwartsdifferenzenquotienten gegeben ist. Allerdings erkennt man,dass die Losung (3.33) durch den Faktor et/h instabil wird und uj(t) nichtgleichmaßig beschrankt werden kann.
121
Die eben durchgefuhrte Diskussion zeigt, dass man immer in Richtung bzw.entlang der Charakteristiken
x = t + a ,
die man als Losung der charakteristischen Gleichungen
dt
ds= 1 ,
dx
ds= a
erhalt, auf denen die Losung der hyperbolischen Differentialgleichung kon-stant ist, rechnen muss. Fur den Fall a < 0 wurde man mit t < 0, alsodurch eine Rechnung ruckwarts in der Zeit, fur (3.33) die Stabilitat in derSupremum-Norm zeigen konnen, wobei man dann den Randwert fur x = b,also uN+1(t) = uh(b, t) vorzugeben hatte.
Im Folgenden sollen nun Losungsverfahren auf dem Raum-Zeit-Gitter 20.Vorle-sungam16.12.2009
Σh,τ = (xj, tn) | xj = jh, tn = nτ, n = 0, 1, . . .
betrachten werden, wobei τ die Zeitschrittweite bedeutet. Als numerischeLosung betrachten wir Gitterfunktionen uh : Σh,τ → R und fuhren die Be-zeichnung
unj = uh(xj, tn)
ein. Bevor wir auf konkrete Verfahren eingehen, soll der Begriff der Stabilitateines Differenzenverfahrens zur Losung eines zeitabhangigen (hyperbolisch,parabolisch) Problems definiert werden.
Definition 3.2. (Lax/Richtmyer)Sei durch
Bun+1 = Cun + fn ⇐⇒ un+1 = Aun + dn , n = 0, 1, . . . , N,
A := B−1C, dn := B−1fn, ein Anfangsrandwertproblem durch ein FD-Verfahren diskretisiert, wobei die Invertierbarkeit der Matrix B, also dieExistenz der Differenzenlosung vorausgesetzt wird. Dann ist das Verfahren imSinne von Lax/Richtmyer stabil in der Norm || ||, wenn eine von den Dis-kretisierungsparametern n, h, k, τ etc. unabhangige Konstante M existiert, sodass
||An|| ≤ M , n = 1, 2, . . . , N,
gilt.
122
Wegen||An|| = ||AAn−1|| ≤ ||A|| ||An−1|| ≤ · · · ≤ ||A||n
ist dann die Stabilitat immer gegeben, wenn
||A|| ≤ 1
gilt.
Im Folgenden sollen nun konkrete FD-Verfahren diskutiert werden. Auf derBasis der Approximation von Ableitungen durch Differenzenquotienten erge-ben sich die folgenden Verfahren.
• Upwind-Verfahren (Forward Time Backward Space, FTBS), a > 0
un+1j − un
j
τ+ a
unj − un
j−1
h= 0 ,
bzw.un+1
j = unj − σ(un
j − unj−1) (3.34)
mit der CFL-Zahl (Courant-Friedrichs-Levy-Zahl)
σ = aτ
h, (3.35)
die fur die Stabilitat der Verfahren von Bedeutung ist.
• Downwind-Verfahren (Forward Time Forward Space, FTFS), a > 0
un+1j − un
j
τ+ a
unj+1 − un
j
h= 0 ,
bzw.un+1
j = unj − σ(un
j+1 − unj ) (3.36)
• Centered-Verfahren (Forward Time Centered Space, FTCS)
Die Nutzung des zentralen Differenzenquotienten zur Approximationder raumlichen Ableitung ergibt
un+1j = un
j − σ
2(un
j+1 − unj−1) (3.37)
• Leapfrog-Verfahren
un+1j − un−1
j
2τ+ a
unj+1 − un
j−1
2h= 0 ,
bzw.un+1
j = un−1j − σ(un
j+1 − unj−1) (3.38)
123
• Lax-Wendroff-Schema
Hier wird die Cauchy-Kowalewski-Technik angewandt. Man betrachtetdie zeitliche Taylor-Entwicklung von u
u(x, t + τ) = u(x, t) + τ∂u
∂t(x, t) +
τ 2
2
∂2u
∂t2(x, t) + O(τ 3) . (3.39)
Aus der Gultigkeit der Differentialgleichung
∂u
∂t= −a
∂u
∂x
folgt fur genugend glattes u durch die iterative Nutzung der Differen-tialgleichung die Wellengleichung
∂2u
∂t2= a2∂2u
∂x2. (3.40)
Aus (3.39) und (3.40) folgt
u(x, t + τ) = u(x, t) − τ a∂u
∂x(x, t) +
τ 2
2a2∂2u
∂x2(x, t) + O(τ 3) . (3.41)
Die Approximation der raumlichen Ableitungen durch zentrale Diffe-renzenquotienten und durch forward differencing in der Zeit folgt mit
un+1j = un
j − σ
2(un
j+1 − unj−1) +
σ2
2(un
j+1 − 2unj + un
j−1) (3.42)
das Lax-Wendroff-Schema.
Wir werden spater feststellen, dass keines der eben dargestellten explizi-ten Verfahren unbedingt stabil in dem Sinne ist, dass die Werte von un
j
gleichmaßig beschrankt werden konnen. In jedem Fall sind hierfur Bedin-gungen fur die CFL-Zahl σ und damit Einschrankungen fur die Wahl derDiskretisierungsparameter τ und h erforderlich.Um diese Einschrankungen zu uberwinden, sind implizite Verfahren zu be-tracheten. Wir wollen 2 implizite Verfahren angeben.
• Backward-Centered (Backward Time Centered Space, BTCS)
Wie bei der expliziten FTCS-Methode verwendet man die Approxima-tion der raumlichen Ableitung durch zentrale Differenzen, betrachtetdiese allerdings zum Zeitpunkt tn+1 und erhalt implizite Verfahren
un+1j = un
j − σ
2(un+1
j+1 − un+1j−1 ) . (3.43)
124
• Crank-Nicolson-Verfahren
Ausgangspunkt ist die Mittelung der raumlichen Ableitung in der Zeit,d.h.
∂u
∂x≈ 1
2[un
j+1 − unj−1
2h+
un+1j+1 − un+1
j−1
2h] .
Das Crank-Nicolson-Verfahren lautet dann
un+1j = un
j − σ
4[un
j+1 − unj−1 + un+1
j+1 − un+1j−1 ] . (3.44)
Der folgende Satz sollte als Ubung durch entsprechende Taylor-Entwicklungen nachgewiesen werden.
Satz 3.3. (Konsistenz)Alle aufgefuhrten Verfahren (3.34)-(3.38) bzw. (3.42), (3.44) sind konsistent,d.h. bei Einsetzen der hinreichend glatten exakten Losung u betrachtet anden relevanten Gitterpunkten des Raum-Zeit-Gitters ergibt sich eine lokalerDiskretisierungsfehler der Form
O(τα + hβ)
mit α ≥ 1, β ≥ 1.21.Vorle-sungam5.1.2010
von Neumann-Stabilitatsanalyse von FDM
Im Folgenden wird eine Stabilitatsanalyse vorgestellt, die zur Untersu-chung der Stabilitat von Losungsverfahren fur zeitabhangige Probleme, alsoLosungsverfahren fur hyperbolische oder parabolische Aufgabenstellungen,benutzt werden kann.Die Methode wird am Beispiel der oben dargestellten Verfahren zur Losunghyperbolischer Aufgaben erlautert.
Ausgangspunkt fur die von Neumann-Stabilitatsanalyse ist die Uberlegung,dass instabile Losungen oszillieren. Deshalb entwickelt man numerischeLosungen in eine Fourier-Reihe und untersucht Stabilitat, indem man diezeitliche Entwicklung der Koeffizienten untersucht.Ohne die Allgemeinheit der Stabilitatsuntersuchung einzuschranken, nehmenwir der Einfachheit halber die Periodizitat der Losung mit der Periode b an,gehen also von periodischen Randbedingungen u(0, t) = u(b, t) aus, so dassun
0 = unN fur alle n ∈ N gelten soll.
Die Methode soll am Beispiel des expliziten FTCS-Schemas dargestellt wer-den. Die Entwicklung der Werte un
j in eine Fourier-Reihe ergibt
unj =
N/2∑
k=−N/2
Cnk e2πk i j/N (3.45)
125
mit i2 = −1. k bezeichnet die Wellenzahl der entsprechenden Mode. Formelnfur un+1
j und unj±1 ergeben sich analog zur Formel (3.45). Das Einsetzen der
Entwicklungen (3.45) in das FTCS-Schema (3.37) ergibt nach Ausklammernvon e2πkij/N
∑
k
[Cn+1k − Cn
k +σ
2(Cn
k e2πi/N − Cnk e−2πi/N)]e2πkij/N = 0 .
Mit eix = cos x + i sin x und θk = 2πk/N erhalt man fur Cnk 6= 0 fur das
FTCS-Schema∑
k
Cnk [
Cn+1k
Cnk
− 1 + iσ sin θj]eiθkj = 0 ,
also eine Linearkombination von linear unabhangigen trigonometrischenFunktionen, d.h. es muss
Cn+1k
Cnk
= 1 − iσ sin θk (3.46)
fur alle k gelten. Fur das Quadrat des Verhaltnis der Amplituden zu denbeiden Zeitschichten tn und tn+1 folgt
|Cn+1k
Cnk
|2 = 1 + σ2 sin2 θk > 1 , (3.47)
so dass|Cn+1
k | > |Cnk |
fur alle k mit −π < θk < π folgt, und damit ist das Verfahren generell instabilfur beliebige Zeitschrittweiten τ .Die eben beschriebene Methode kann man auch vereinfachen. Anstatt immerdas ganze Fourier-Polynom einzusetzen, kann man aufgrund des Superposi-tionsprinzips auch nur einen Term der Summe verwenden, also
unj = Cn
k eiθkj . (3.48)
Fur lineare Gleichungen kann man zeigen, dass das Verhaltnis Cn+1k /Cn
k furalle n gleich ist, so dass man durch
Vk =Cn+1
k
Cnk
(3.49)
einen von n unabhangigen Verstarkungsfaktor definieren kann. Man findetnun
unj =
Cnk
Cn−1k
. . .C2
k
C1k
C1k
C0k
C0ke
iθkj
126
bzw.un
j = V nk C0
keiθkj ,
wobei der obere Index von V hier die n-te Potenz bedeutet. C0k kann man
der Einfachheit halber gleich 1 setzen, so dass man Stabilitatsuntersuchungenmit der Darstellung
unj = V n
k eiθkj (3.50)
durchfuhren kann. Als Beziehung zwischen k und θk gilt
θk =2πk
N=
2πkh
b, (3.51)
wobei b die raumliche Periode ist. Aus (3.51) erkennt man, dass Stabilitatdurch |Vk| ≤ 1 fur alle θk ∈ [−π, π] gesichert ist. Statt (3.50) kann man mitdem von der Wellenlange θ abhangigen Verstarkungsfaktor V auch
unj = V neiθj (3.52)
schreiben und Stabilitat liegt vor, wenn |V | ≤ 1 gilt fur alle θ ∈ [−π, π].Nach diesen Uberlegungen soll nun die Stabilitat der Upwind-Methode un-tersucht werden. Mit der Losungsdarstellung (3.52) folgt fur die Upwind-Methode
un+1j = un
j − σ(unj − un
j−1)
nach Einsetzen
V n+1eiθj = V neiθj + σV n[eiθ(j−1) − eiθj] .
Division durch V n und eiθj ergibt
V n+1
V n= 1 + σ(e−iθ − 1) .
Fur das Betragsquadrat erhalt man nach kurzer Rechnung
λ(θ) := |Vn+1
V n|2 = (1 + σ(e−iθ − 1))(1 + σ(eiθ − 1))
= 1 + σ(e−iθ + eiθ − 2) − σ2(e−iθ + eiθ − 2)
= 1 − 4σ(1 − σ) sin2(θ
2) .
Der Faktor σ(1 − σ) wird auf dem Intervall ]0, 1[ fur σ = 12
mit 14
maximalund wegen −π ≤ θ ≤ π bzw. sin2( θ
2) ≤ 1 folgt mit |λ(θ)| ≤ 1 die Stabilitat
des Upwind-Verfahrens, wobei daran erinnert sei, dass wir hier a > 0 voraus-gesetzt hatten.
127
Die Stabilitatsanalyse der anderen oben angegebenen Verfahren wird alsUbung empfohlen. Die von Neumann-Stabilitatsanalyse ist nicht auf denraumlich eindimensionalen Fall beschrankt. Hat man es mit 2 oder 3 Raumdi-mensionen zu tun, dann muss man z.B. im zweidimensionalen Fall von einerEntwicklung der numerischen Losung un
j,k = uh(xj, yk, tn) in der Form
unj,k = V neiθjeiκk (3.53)
ausgehen, wobei θ und κ die Wellenlangen in x- bzw. y-Richtung sind, undV ein von θ und κ abhangiger Verstarkungsfaktor ist.
Bemerkung 3.4. Obwohl die von Neumann-Stabilitatsanalyse nur furlineare Probleme gultig ist, wird sie auch oft auf nichtlineare Probleme ange-wandt. Das gleiche gilt fur nicht-periodische Randbedingunen und oft reichtdie lokale Analyse im Innern aus, um notwendige Bedingungen fur die Sta-bilitat zu erhalten oder Instabilitat zu zeigen.Probleme treten bei sehr kleinen und sehr großen Wellenlangen b
k(θ ≈ π, θ ≈
0) auf. Bei kleinen Wellenlangen ”hilft” eine Dampfung durch die Einfuhrungeiner kunstlichen Viskositat, um Verfahren zu stabilisieren.
Numerische Losung von parabolischen Differentialgleichungen
Wir betrachten ein Anfangs-Randwertproblem (Warmeleitung/Diffusion)der Form
∂u
∂t= a∆ u + f , in Ω×]0, T ], Ω ⊂ R
2, (3.54)
u(x, t) = ur(x, t) , auf Γ = ∂Ω, u(x, 0) = u0(x) , x ∈ Ω , (3.55)
wobei u(x, t) als orts- und zeitveranderliche Temperatur gesucht ist. a ist Ma-terialparameter (z.B. die Warmeleitzahl) und f beschreibt Warmequellenoder -senken. Statt der Dirichlet-Randbedingung sind auch Neumann-Randbedingungen oder Robin-Randbedingungen (gemischte RB) denkbar.Es gibt nun unterschiedliche Moglichkeiten der numerischen Losung von(3.54),(3.55) mit FD-Methoden. Diskretisiert man in der Zeit, d.h. man dis-kretisiert das Zeitintervall [0, T ] durch
t0 < t1 < · · · < tM , tn = nτ, τ = T/M, M ∈ N ,
und approximiert die Zeitableitung etwa durch
uτ (x, tn) − uτ (x, tn − τ)
τ≈ ∂u
∂t(tn, x)
128
dann hat man in jeder Zeitschicht ein elliptisches Problem der Form
− τa∆ uτ + uτ = uτ (x, tn−1) + τf(x, tn), x ∈ Ω, (3.56)
uτ (x, tn) = ur(x, tn) , auf Γ , (3.57)
fur n = 1, . . . ,M zu losen. Die Gleichung (3.56) ist von der Form −a∆u +c u = f , fur die zu Beginn des Abschnitts 3.2.1 ein FD-Verfahren besprochenwurde.Im Ergebnis erhalt man dann eine implizite Methode, bei der man pro Zeit-schritt ein lineares Gleichungssystem zu losen hat.
Approximiert man die Zeitableitung durch
uτ (x, tn + τ) − uτ (x, tn)
τ≈ ∂u
∂t(tn, x) ,
dann erhalt man bei einer geeigneten Ortsdiskretisierung von Ω bzw. Γ durchΩh bzw. Γh sowie des Laplace-Operators
Lhu := D+x D−
x u + D+y D−
y u
=u(x + h, y, t) − 2u(x, y, t) + u(x − h, y, t)
h2+
+u(x, y + k, t) − 2u(x, y, t) + u(x, y − k, t)
k2≈ ∆u
und die Betrachtung einer Gitterfunktion unj,i = uh,τ (xj, yi, tn) und fn
j,i =f(xj, yi, tn) durch
un+1j,i = un
j,i + τaLhunj,i + τfn
j,i fur (xj, yi) ∈ Ωh (3.58)
unter Berucksichtigung der diskretisierten Randbedingungen fur n =0, 1, . . . ,M −1 ein explizites Verfahren zur Berechnung von un
j,i. Als Ubungsollte mit der von Neumann-Stabilitatsanlyse die Stabilitat des Verfahrensuntersucht werden.
3.2.2 Finite-Volumen-Methode
Im Folgenden wird eine Bilanzmethode zur Losung von Gleichungen der Form
− div (λ(~x)grad u) = f(~x) (~x ∈ Ω ⊂ Rn) . (3.59)
mit den Randbedingungen
u(~x) = ud(~x), ~x ∈ Γd, λ∂u
∂~n(~x) + µu(~x) = qn(~x), ~x ∈ Γn (3.60)
129
betrachet. Fur den Rand von Ω soll Γd ∪Γn = Γ gelten, wobei Γd ∩Γn gleichder leeren Menge oder einer Menge vom Maß Null (im R
1 konnen das endlichviele einzelne Punkte sein, im R
2 endlich viele Kurven usw.) ist.
Der Gauß’sche Integralsatz (auch Divergenz-Theorem oder Satz von Gauß-Ostrogradski genannt) fur die Bereiche Ων ⊂ R
ν , ν gleich 2 oder 3, mitstuckweise glatter Berandung ∂Ων und ein stetig differenzierbares Vektorfeld~v : D → R
ν , D offene Menge und Ων ⊂ D,
∫
Ων
div~v dV =
∫
∂Ων
~v · ~n dF , (3.61)
ist das wesentliche Hilfsmittel bei der Konstruktion von Finite-Volumen-Diskretisierungen. ~n ist dabei der außere Normalenvektor auf dem Rand ∂Ων .Im zweidimensionalen Fall (ν = 2) ist das Integral auf der rechten Seite von(3.61) ein Linienintegral und im dreidimensionalen Fall ein Flussintegral.Die Beziehung (3.61) bedeutet eine Flussbilanz uber den Rand von Ω unterBerucksichtigung der Quelldichte div~v in Ω.Aus Grunden der besseren Anschauung betrachten wir den zweidimensiona-len Fall Ω ⊂ R
2. Der Bereich Ω wird mit einem Gitter uberzogen und damitin quadrilaterale Elemente ωij unterteilt (im R
3 finite Volumen, daher derName Finite-Volumen-Methode). In der Abb. 3.2 ist die Unterteilungnebst Position der diskreten Stutzwerte skizziert. Die Begriffe Stutzwerte,Gitterfunktion, diskrete Losung (FV-Losung) oder Differenzenlosung werdensynonym verwendet und bezeichnen an Stutzstellen (Gitterpunkten) zu be-rechnende oder vorgegebene Werte.
i ju
i j -1u
i+1 j-1ui-1 jujy
i-1x
j-1y
ix
ωωωωij
i+1x
j+1y i j+1u
j∆∆∆∆y
i∆∆∆∆x
Abbildung 3.2: Diskretisierung des Bereichs Ω mit dem Element ωij
Die Integration des (−1)-fachen der linken Seite der Gleichung (3.59) uberdas Element ωij und die Anwendung des Gauß’schen Satzes in der Ebene
130
ergibt∫
ωij
[div (λgrad u)] dF =
∫
∂ωij
λgrad u · ~n ds =
∫
∂ωo
λgrad u · ~n ds
+
∫
∂ωw
λgrad u · ~n ds +
∫
∂ωn
λgrad u · ~n ds +
∫
∂ωs
λgrad u · ~n ds
=
∫
∂ωo
λ∂u
∂xdy −
∫
∂ωw
λ∂u
∂xdy +
∫
∂ωn
λ∂u
∂ydx −
∫
∂ωs
λ∂u
∂ydx , (3.62)
wobei ~n der außere Normalenvektor ist und ∂ωw, ∂ωo, ∂ωn, ∂ωs westlicher,ostlicher, nordlicher und sudlicher Rand von ωij sind. Z.B. ist ~n auf ∂ωo gleich(−1
0
), so dass grad u · ~n = −∂u
∂xist. Gemaß der Abb. 3.2 werden ausgehend
von den Stutzpunkten (xi, yj) die Vereinbarungen
xi+1/2j = (xi+1 + xi)/2, yij+1/2 = (yj+1 + yj)/2, ∆xi = (xi+1 − xi−1)/2,
∆yj = (yj+1 − yj−1)/2, ∆xi+1/2 = xi+1 − xi, ∆yj+1/2 = yj+1 − yj,
λi+1/2j = λ(xi+1/2j, yj), λij+1/2 = λ(xi, yj+1/2), fij = f(xi, yj)
getroffen. Unter Nutzung der Stutzwerte uij approximiert man die Linienin-tegrale (3.62) in kanonischer Weise durch
∫
∂ωo
λ∂u
∂xdy ≈ λi+1/2j
ui+1j − uij
∆xi+1/2
∆yj ,
∫
∂ωw
λ∂u
∂xdy ≈ λi−1/2j
uij − ui−1j
∆xi−1/2
∆yj ,
∫
∂ωn
λ∂u
∂ydx ≈ λij+1/2
uij+1 − uij
∆yj+1/2
∆xi ,
∫
∂ωs
λ∂u
∂ydx ≈ λij−1/2
uij − uij−1
∆yj−1/2
∆xi ,
bzw. im Fall eines Randstucks ∂ω als Teil eines Neumann-Randes durch∫
∂ω
λ∂u
∂~nds ≈ L(∂ω)q
mit L(∂ω) als Lange des Randstucks ∂ω. Die Integration der rechten Seiteder Gleichung (3.59) ergibt
∫
ωij
f dF ≈ ∆xi∆yjfij ,
so dass die Bilanz der Gleichung (3.59) uber das Element ωij insgesamt
(λi+1/2jui+1j − uij
∆xi+1/2− λi−1/2j
uij − ui−1j
∆xi−1/2)∆yj
+(λij+1/2uij+1 − uij
∆yj+1/2− λij−1/2
uij − uij−1
∆yj−1/2)∆xi = ∆xi∆yjfij ,
131
bzw. nach Division mit ∆xi∆yj die Gleichung
(λi+1/2jui+1j − uij
∆xi+1/2− λi−1/2j
uij − ui−1j
∆xi−1/2)/∆xi
+(λij+1/2uij+1 − uij
∆yj+1/2− λij−1/2
uij − uij−1
∆yj−1/2)/∆yj = fij (3.63)
fur alle Elemente, die keine Kanten als Teile eines Neumann-Randes besitzen,liefert. Fur Elemente, deren rechte Kante ∂ωo Teil eines Neumann-Randes ist,erhalt man statt (3.63) die Gleichung
qi+1/2j − λi−1/2juij − ui−1j
∆xi−1/2)/∆xi
+(λij+1/2uij+1 − uij
∆yj+1/2− λij−1/2
uij − uij−1
∆yj−1/2)/∆yj = fij . (3.64)
In den Gleichungen (3.63), (3.64) fur Elemente ωij, die an einen Dirichlet- 22.Vorle-sungam12.1.2010
Rand grenzen, wird auf Stutzwerte ui+1j, ui−1j, uij+1 oder uij−1 zuruck ge-griffen, die außerhalb von Ω liegen (s. dazu die Abb. 3.3). Diese Stutzwertebezeichnet man als Ghost-Werte. Nimmt man Linearitat von u in Richtungder außeren Normalen ~n von Γd an, dann kann man mit Bedingungen derArt
(ui+1j + uij)/2 = ud(xi+1/2, yj), (xi+1/2, yj) ∈ Γd,
(ui−1j + uij)/2 = ud(xi−1/2, yj), (xi−1/2, yj) ∈ Γd,
(uij+1 + uij)/2 = ud(xi, yj+1/2), (xi, yj+1/2) ∈ Γd, (3.65)
(uij−1 + uij)/2 = ud(xi, yj−1/2), (xi, yj−1/2) ∈ Γd
die Dirichlet-Randbedingungen (3.60) approximieren und das Gleichungssys-tem zur Berechnung der unbekannten Stutzwerte uij abschließen. In der Abb.3.3 sind die Orte mit unbekannten Stutzwerten durch •-Punkte gekennzeich-net. -Punkte bezeichnen Orte, an denen die Randwerte von u oder q-Wertevorgegeben sind.Die Ghost-Werte kann man mit Hilfe der Randgleichungen (3.65) eliminie-ren. Damit liegt mit (3.63) bzw. (3.64) unter Berucksichtigung von (3.65)ein Gleichungssystem zur Bestimmung der uij fur (xi, yj) ∈ Ω ∪ Γ vor. Ver-wendet man die in der Abb. 3.3 vorgenommene aquidistante Diskretisierungvon Ω (h = ∆x = ∆xi+1/2 = ∆xi, h = ∆y = ∆yj+1/2 = ∆yj) und gibtauf Γj, j = 2, 3, 4, Dirichlet-Randbedingungen vor, und auf Γ1 Neumann-Randbedingungen, dann erhalt man bei konstantem λ fur die gesuchten
132
j=0
ΓΓΓΓ4
i=0
ΓΓΓΓ2
ΓΓΓΓ3 ΓΓΓΓ1
i=4
j=4
h
h
24u
13u
22u 42u
01u 21u 31u
30u
42ωωωω
21ωωωω
13ωωωω ΩΩΩΩ
Abbildung 3.3: Rechteck Ω als Integrationsbereich mit den RandstuckenΓ1, . . . Γ4
Stutzwerte uij das Gleichungssystem
6−1 0 0−1 0 0 0 0 0 0 0−1 5−1 0 0−1 0 0 0 0 0 0
0−1 5−1 0 0−1 0 0 0 0 00 0−1 6 0 0 0−1 0 0 0 0
−1 0 0 0 5−1 0 0−1 0 0 00−1 0 0−1 4−1 0 0−1 0 00 0−1 0 0−1 4−1 0 0−1 00 0 0−1 0 0−1 5 0 0 0−1
0 0 0 0−1 0 0 0 6−1 0 00 0 0 0 0−1 0 0−1 5−1 00 0 0 0 0 0−1 0 0−1 5−10 0 0 0 0 0 0−1 0 0−1 6
u11
u21
u31
u41
u12
u22
u32
u42
u13
u23
u33
u43
=
f11 + 2u1 1/2 + 2u1/2 1
f21 + 2u2 1/2
f31 + 2u3 1/2
f41 + 2u4 1/2 +hq4+1/2 1
λ
f12 + 2u1/2 2
f22
f32
f42 +hq4+1/2 2
λ
f13 + 2u1/2 3 + u1 3+1/2
f23 + 2u2 3+1/2
f33 + 2u3 3+1/2
f43 + 2u4 3+1/2 +hq4+1/2 3
λ
(3.66)
mit fij = h2
λfij. Dabei wurden die Randgleichungen (3.65) eliminiert, so
dass ein Gleichungssystem zur Berechnung von uij, i = 1, . . . , 4, j = 1, 2, 3entsteht. Man erkennt die Symmetrie der Koeffizientenmatrix und die Diago-naldominanz, so dass das Gleichungssystem eindeutig losbar ist. Die Matrix(3.66) hat eine Blockstruktur und 5 Nichtnull-Diagonalen.Aus der Abb. 3.3 und den durchgefuhrten Bilanzierungen uber die Elementeωij, i = 1, . . . , 4, j = 1, 2, 3 ist zu ersehen, dass die Finite-Volumen-Methodesamtliche lokalen Bilanzen uber alle ωij ⊂ Ω im Diskreten erfullt, d.h.,−
∫
ωijdiv (λgrad u) dF =
∫
ωijf dF und die Summation uber alle Elemente
133
ergibt mit
−∑
ωij∈Ω
∫
ωij
div (λgradu) dF =∑
ωij∈Ω
∫
ωij
f dF ⇐⇒ −∫
Ωdiv (λgradu) dF =
∫
Ωf dF
die globale Bilanz, wobei allerdings ∪ijωij = Ω gesichert sein muss. Dieselokale und globale Erhaltungseigenschaft ist der Hauptgrund, weshalb dieFinite-Volumen-Methode in den Ingenieurwissenschaften und der Physik oftanderen Diskretisierungsmethoden vorgezogen wird.Die Finite-Volumen-Methode ergibt fur Rechteckgebiete Ω klar strukturierteGleichungssysteme der Form (3.66). Fur FV-Diskretisierungen auf krummli-nig berandeten Bereichen sei auf die Ausfuhrungen in den Numerik-Buchernvon Dahmen/Reusken und Barwolff verwiesen.
Konsistenz, Stabilitat und Konvergenz von FV-Verfahren
Die Konsistenz der FV-Methoden lasst sich unter der Voraussetzung ausrei-chender Glattheit der Losung und der Daten vollig analog zur Konsistenzvon FD-Methoden durch Taylor-Approximationen zeigen.Z.B. wird bei elliptischen Randwert-Problemen die Stabilitat in derMaximum-Norm unter Nutzung von Maximum-Prizipien gezeigt und Sta-bilitat in der Spektralnorm durch Abschatzung der Eigenwerte derKoeffizienten-Matrix des im Ergebnis der Diskretisierung zu losenden linea-ren Gleichungssystems wie bei den FD-Methoden gezeigt.Aus Konsistenz und Stabilitat folgt dann die Konvergenz der FV-Methodenbezugl. der entsprechenden Norm.
FV-Diskretisierung des Stokes-Problems
Zum Abschluss der FV-Thematik soll mit der Diskretisierung des Stokes-Problems (o.B.d.A. hier als 2d-Problem), d.h. den Gleichungen
− ν∆ ~u = −∇p + ~f (3.67)
∇ · ~u = 0 (3.68)
im Gebiet Ω, wobei mit~u = ~φ (3.69)
Dirichlet-Randbedingungen auf Γ = ∂Ω vorgegeben sein sollen. ~u = (u, v)T
und p seien Geschwindigkeits- und Druckfeld einer Stromung eines Mediumsmit sehr hoher Viskositat, ν = const. > 0, ~f und ~φ seien vorgegebene Daten.
134
Die Gleichungen (3.67) und (3.68) ergeben sich aus der Impuls- bzw. Masse-nerhaltung. Grundlage der FV-Diskretisierung ist die Zerlegung von Ω durch
Ω = ∪ijωij , ωij ∩ ωi′j′ = N ,
fur i 6= i′ oder j 6= j′ und N Menge vom Maß Null. Aus Darstellungsgrundenverwenden wir Ω und ωij als Rechteckgebiete, wobei die ωij alle die Breite hund die Hohe k haben sollen. In der Abb. 3.4 ist ein finites Kontrollelementωij dargestellt.
u
v
v
x x
o
o
i−1/2ju i+1/2j
ij+1/2
ij−1/2
xPij
ωij
Abbildung 3.4: Rechteck ωij und die Stutzstellen fur numerische Losung derGeschwindigkeit u und des Drucks p
Die lokale Bilanzierung der Gleichung (3.68) uber ωij ergibt mit dem Gaus-sschen Satz ∫
ωij
∇ · ~u dF =
∫
∂ωij
~u · ~n dγ ,
und mit γo, γw, γn, γs als ostlichen, westlichen, nordlichen und sudlichen Randvon ωij erhalt man weiter
∫
∂ωij
~u · ~n dγ =
∫
γo
u dy −∫
γw
u dy +
∫
γn
v dx −∫
γs
v dx .
Die Approximation der Linienintegrale durch∫
γo
u dy ≈ ui+1/2jk,
∫
γw
u dy ≈ ui−1/2jk,
∫
γn
v dx ≈ vij+1/2h,
∫
γs
v dx ≈ vij−1/2h
ergibt mit
(ui+1/2j − ui−1/2j)k + (vij+1/2 − vij−1/2)h = 0 ⇐⇒ui+1/2j − ui−1/2j
h+
vij+1/2 − vij−1/2
k= 0 (3.70)
135
die diskretisierte Massenbilanz.Zur FV-Diskretierung der Impulsbilanz betrachten wir exemplarisch die ersteKomponente der Gleichung (3.67)
−ν∆ u = −∇p + fu .
Im Unterschied zur Diskretisierung der Massenbilanz betrachten wir die lo-kalen Kontrollelemente ωi+1/2j, d.h. Elemente mit dem Stutzwert ui+1/2j imZentrum und den Druckwerten pi bzw. pi+1j am westlichen und ostlichenRand (s.a. Abb. 3.4). Man erhalt
∫
ωi+1/2j
−ν∆ u dF = −∫
ωi+1/2j
∇p dF +
∫
ωi+1/2j
fu dF
= −∫
ωi+1/2j
∇ · (p, 0)T dF +
∫
ωi+1/2j
fu dF ,
und die Anwendung des Gaussschen Integralsatzes ergibt (γo etc. bezeichnenwieder die entsprechenden Rander von ωi+1/2j)
−ν
∫
∂ωi+1/2j
∇u · ~n dγ = −∫
∂ωi+1/2j
(p, 0)T · ~n dγ +
∫
ωi+1/2j
fu dF .
Approximiert man die beispielsweise die Flussintegrale∫
γo
∇u · ~n dγ =
∫
γo
∂u
∂xdy durch
ui+3/2j − ui+1/2j
hk
und die anderen Integrale entsprechend, sowie∫
∂ωi+1/2j
(p, 0)T · ~n dγ =
∫
γo
p dy −∫
γw
p dy durch (pi+1j − pij)k
und ∫
ωi+1/2j
fu dF durch fu,i+1/2jh k
dann erhalt man nach Division durch h k die FV-Diskretisierung
− ui+3/2j − 2ui+1/2j + ui−1/2j
h2− ui+1/2j+1 − 2ui+1/2j + ui+1/2j−1
k2
= −pi+1j − pij
h+ fu,i+1/2j (3.71)
der u-Gleichung. Fur die v-Gleichung erhalt man auf analoge Weise
− vij+3/2 − 2vij+1/2 + vij−1/2
k2− vi+1j+1/2 − 2vij+1/2 + vi−1j+1/2
h2
= −pij+1 − pij
k+ fv,ij+1/2 , (3.72)
136
wobei man uber das Kontrollelement ωij+1/2 bilanziert, d.h. das Elementmit dem Stutzwert vij+1/2 im Zentrum und pij bzw. pij+1 am sudlichen undnordlichen Rand (s.a. Abb. 3.4).Zu den Gleichungen (3.71) und (3.72) ist anzumerken, dass nur
∫
Ω
dF =∑
∫
ωi+1/2j
dF + O(h) =∑
∫
ωij+1/2
dF + O(k)
gilt, wahrend ∫
Ω
dF =∑
∫
ωij
dF
erfullt wird. D.h. beim Impuls wird nicht uber ganz Ω sondern nur uberΩh ≈ Ω bilanziert.Da zur Konstruktion der FV-Diskretisierungen (3.70), (3.71), (3.72) mitωij, ωi+1/2j und ωij+1/2 jeweils unterschiedliche Kontrollelemente verwendetwerden, die ausgehend von ωij jeweils um h/2 bzw. k/2 verschoben sind,spricht man bei der dargelegten Diskretisierung auch von der staggered-Grid-Methode.Mit der Berucksichtigung der Geschwindigkeitsrandbedingungen erhalt manausgehend von (3.70), (3.71), (3.72) ein Gleichungssystem der Form
Lu 0 Gu
0 Lv Gv
GTu GT
v 0
uvp
=
ru
rv
rp
. (3.73)
Lu und Lv sind Ergebnis des Diskretiserungen der viskosen Glieder, Gu, Gv
sind Ergebnis der Diskretisierung des Druckgradienten und GTu , GT
v ergebensich aus der Diskretisierung der Geschwindigkeitsdivergenz.An dieser Stelle sei darauf hingewiesen, dass das Gleichungsystem (3.73)losbar ist, allerdings nicht eindeutig. Die (N × N)-Koeffizienten-Matrix Avon (3.73) hat den Rang N − 1. Das liegt daran, dass beim Stokes-Problemzwar die Geschwindigkeit eindeutig bestimmt ist, allerdings der Druck nurbis auf eine Konstante (der Druckgradient ist eindeutig bestimmt).Ausgehend von (3.73) kann man durch Linksmultiplikation der ersten bei-den Block-Gleichungen mit GT
u L−1u bzw. GT
v L−1v und die Kombination des
Ergebnisses mit der dritten Blockgleichung das Gleichungssystem
(GTu L−1
u Gu + GTv L−1
v Gv)p = GTu L−1
u ru + GTv L−1
v rv − rp ⇐⇒ Sp = r (3.74)
erhalten. Dabei bezeichnet S die sogenannte Schur-Komplement-Matrix.Statt der Losung des Systems (3.73) kann man auch mit der Gleichung (3.74)zuerst den Druck bestimmen, und damit dann durch die seperate Losung der
137
ersten beiden Blockgleichungen von (3.73) die Geschwindigkeiten. Man lostalso statt eines sehr großen linearen Gleichungssystems mit etwa N Gleichun-gen drei lineare Gleichungssysteme mit je ca. N/3 Gleichungen.
Die eben dargelegte FV-Diskretisierung des Stokes-Problems kann auch aufdas Navier-Stokes-Problem mit den Gleichungen
(~u · ∇)~u − ν∆ ~u = −∇p + ~f (3.75)
∇ · ~u = 0 (3.76)
angewandt werden. Allerdings erfordert die Diskretisierung der konvektivenGlieder
(~u · ∇)~u =
∇ · (u2, uv)T
∇ · (uv, v2)T
im Fall der versetzten Gitter (staggered grids) zusatzlich Interpolationen undman erhalt letztendlich im Ergebnis der Diskretisierung ein nichtlineares al-gebraisches Gleichungssystem.
138
Kapitel 4
Matrix-Eigenwertprobleme
23.Vorle-sungam13.01.2010
In vielen natur- und ingenieurwissenschaftlichen Disziplinen sind Eigenwert-wertprobleme zu losen. Zur Bestimmung von Eigenschwingungen von Bau-werken oder zur Ermittlung von stabilen statischen Konstruktionen sind Ei-genwerte zu berechnen. Aber auch bei der Berechnung des Spektralradiusbzw. der Norm einer Matrix sind Eigenwerte erforderlich.Sowohl bei der Losung von Differentialgleichungssystemen als auch bei Ex-tremwertproblemen sind Eigenwerte von Matrizen Grundlage fur die Kon-struktion von Losungen von Differentialgleichungen oder entscheiden uberdie Eigenschaften von stationaren Punkten.Bei der Berechnung von Eigenwerten und Eigenvektoren werden wir Ergeb-nisse aus vorangegangenen Semestern, speziell die QR-Zerlegung einer Ma-trix, als wichtiges Hilfsmittel nutzen konnen.
4.1 Problembeschreibung und algebraische
Grundlagen
Gegeben ist eine reelle Matrix A vom Typ n × n, zum Beispiel die Koeffizi-entenmatrix eines linearen Differentialgleichungssystems
x′ = 2x +y −zy′ = x +2y +3zz′ = −x +3y +2z
⇐⇒ ~x′ = A~x, A =
2 1 −11 2 3
−1 3 2
. (4.1)
Wir werden sehen, dass man mit den Eigenwerten und Eigenvektoren derMatrix A die Losung des Differentialgleichungssystems (4.1) sehr schnell er-mitteln kann.Das Matrix-Eigenwertproblem ist wie folgt definiert.
139
Definition 4.1. (Matrix-Eigenwertproblem)Sei A eine Matrix vom Typ n × n. Der Vektor ~x 6= ~0 und die Zahl λ heißenEigenvektor bzw. Eigenwert der Matrix A, falls
A~x = λ~x (4.2)
gilt. ~x bezeichnet man als Eigenvektor zum Eigenwert λ. Die Menge allerEigenwerte eine Matrix A heißt Spektrum von A und wird durch σ(A) be-zeichnet. Die Gleichung (4.2) heißt Eigengleichung.
Zur Definition 4.1 ist anzumerken, dass auch im Fall einer reellen MatrixA die Eigenwerte und Eigenvektoren durchaus komplex sein konnen. Wirwerden das spater bei der Behandlung von Beispielen noch sehen.Aus der Eigengleichung (4.2) folgt mit der Einheitsmatrix E
A~x − λ~x = A~x − λE~x = (A − λE)~x = ~0 (4.3)
ein homogenes lineares Gleichungssystem, das nur dann eine Losung ~x 6= ~0hat, wenn die Matrix A − λE singular ist. Damit gilt zur Bestimmung derEigenwerte einer Matrix der
Satz 4.2. (Eigenwertkriterium)Fur die Eigenwerte λ einer Matrix A gilt
χA(λ) := det(A − λE) = 0 . (4.4)
χA heißt charakteristisches Polynom der Matrix A. Die Nullstellen vonχA sind die Eigenwerte der Matrix A.Die Eigenvektoren zu den Eigenwerten λ ergeben sich dann als Losung deshomogenen linearen Gleichungssystems (A − λE)~x = ~0.
Beispiel 4.3. Fur Matrix A aus (4.1) erhalt man das charakteristische Po-lynom
det(A − λE) =
∣∣∣∣∣∣
2 − λ 1 −11 2 − λ 3
−1 3 2 − λ
∣∣∣∣∣∣
= (2 − λ)(2 − λ)(2 − λ) − 3 − 3 − 9(2 − λ) − (2 − λ) − (2 − λ)
= −λ3 + 6λ2 − λ − 20
und mit etwas Gluck durch Probieren die Nullstelle λ1 = 5 sowie nach Po-lynomdivision die weiteren Nullstellen λ2,3 = 1
2±
√172
. In der Regel hat mannicht immer solches Gluck bei der Eigenwertbestimmung, sondern man mussdie Nullstellen numerisch berechnen.
140
Dabei stellt man bei dem Weg uber die Nullstellen des charakteristischenPolynoms sehr schnell fest, dass die Berechnung nicht stabil ist, sondern dasskleine Fehler in den Polynomkoeffizienten mitunter zu gestorten Nullstellen,die sich wesentlich von den exakten unterscheiden, fuhren konnen. Im Fol-genden werden iterative Methoden zur Bestimmung von Eigenwerten undEigenvektoren behandelt, ohne das Kriterium 4.2 zu verwenden.Bevor wir zu den konkreten Berechnungsmethoden von Eigenwerten und Ei-genvektoren kommen, fassen wir an dieser Stelle einige wichtige und nutzlicheGrundlagen der linearen Algebra zum Spektralverhalten von Matrizen zu-sammen. Eine wichtige Rolle spielen die im Folgenden definierten Begriffe.
Definition 4.4. (ahnliche Matrizen)Die (n×n)-Matrix A ist der Matrix A ahnlich, wenn eine regulare (n×n)-Matrix C existiert, so dass
A = C−1AC
gilt. Man sagt dann, dass A aus A durch eine regulare Transformation mit Chervorgegangen ist. Ist die Matrix C eine orthogonale Matrix, dann bezeichnetman A auch als Orthogonaltransformation von A und mit C−1 = CT
gilt dannA = CT AC .
Gibt es eine regulare Matrix C, so dass die Transformation von A
D = C−1AC
mit D eine Diagonalmatrix ergibt, dann heißt A diagonalisierbar.
Fur das Spektrum bzw. die Eigenwerte spezieller Matrizen kann man aus derDefinition 4.1 folgende Eigenschaften zeigen.
Satz 4.5. (Eigenwerte spezieller Matrizen)Sei A eine (n × n)-Matrix uber C. Dann gilt:
a) Ist A eine Dreiecksmatrix, dann sind die Diagonalelemente gerade dieEigenwerte.
b) Ist A eine regulare Transformation der Matrix A mit der regularenMatrix C, dann haben A und A die gleichen Eigenwerte.
c) Sind λ1, . . . , λr die Eigenwerte von A, so besitzt die Matrix Aǫ = A+ǫEdie Eigenwerte µj = λj + ǫ (j = 1, . . . , r).
d) Ist A regular mit den Eigenwerten λ1, . . . , λr, dann sind die Eigenwerteverschieden von null und die Inverse A−1 hat die Eigenwerte 1
λ1, . . . , 1
λr.
141
e) Die transponierte Matrix AT hat die gleichen Eigenwerte wie die MatrixA.
Die Aussagen des Satzes 4.5 sind einfach zu zeigen und der Nachweis wirdzur Ubung empfohlen. Oben wurde schon darauf hingewiesen, dass auch beiMatrizen mit ausschließlich reellen Elementen komplexe Eigenwerte auftretenkonnen. Als Beispiel betrachten wir die Matrix
A =
(1 5
−1 3
)
und finden als Nullstellen des charakteristischen Polynoms χA(λ) = λ2−4λ+8 die Eigenwerte λ1,2 = 2± 2i. An dieser Stelle sei daran erinnert, dass Poly-nome mit ausschließlich reellen Koeffizienten, was bei den charakteristischenPolynomen reeller Matrizen der Fall ist, immer eine gerade Zahl (0, 2, 4, . . . )von komplexen Nullstellen haben. Denn wenn uberhaupt komplexe Nullstel-len auftreten, dann immer als Paar der komplexen Zahl λ mit der konjugiertkomplexen Zahl λ.Allerdings gibt es eine große Klasse von reellen Matrizen, die ausschließlichreelle Eigenwerte besitzen. Es gilt der
Satz 4.6. (Eigenschaften symmetrischer reeller Matrizen)Fur jede reelle symmetrische (n × n)-Matrix S gilt:
a) Alle Eigenwerte von S sind reell.
b) Eigenvektoren ~qk, ~qj, die zu verschiedenen Eigenwerten λk 6= λj von Sgehoren, stehen senkrecht aufeinander, d.h., ~qT
k ~qj = 〈~qk, ~qj〉 = 0.
c) Es gibt n Eigenvektoren ~q1, . . . , ~qn von S, die eine Orthonormalbasisdes R
n bilden.
d) Die Matrix S ist diagonalisierbar.
e) Die spezielle symmetrische Matrix S = AT A, wobei A eine beliebigereelle (n × n)-Matrix ist, hat nur nichtnegative Eigenwerte.
Zum Nachweis von a). Wir bezeichnen mit x∗ den Vektor xT , wobei x derkonjugiert komplexe Vektor zu x ist. Sei nun λ ein Eigenwert von S und xein zugehoriger Eigenvektor. Damit ist x∗x = |x|2 =: r > 0 reell und es folgt
x∗Sx = x∗λx = λx∗x = λr .
Fur jede komplexe Zahl z, aufgefasst als (1 × 1)-Matrix gilt z = zT . Damitund aus der Symmetrie von S folgt fur die komplexe Zahl x∗Sx
x∗Sx = (x∗Sx)T = xT Sx∗T = x∗Sx = x∗Sx = λr = λr
142
Es ergibt sich schließlich λr = λr, d.h., λ ist reell.Wegen der Voraussetzung λk 6= λj fur die Aussage b) muss einer dieserEigenwerte von null verschieden sein, z.B. λk 6= 0. Aus S~qk = λk~qk folgt
~qk =1
λk
S~qk sowie ~qTk =
1
λk
~qTk ST =
1
λk
~qTk S .
Daraus folgt
~qTk ~qj =
1
λk
~qTk S~qj =
1
λk
~qTk λj~qj =
λj
λk
~qTk ~qj
und aus dieser Gleichung folgt
(1 − λj
λk
)~qTk ~qj = 0 ⇐⇒ ~qT
k ~qj = 〈~qk, ~qj〉 = 0 .
Zu c) sei nur angemerkt, dass man im Fall eines Eigenwerts λk, der ins-gesamt σk-mal auftritt (algebraische Vielfachheit gleich σk), als Losung deshomogenen linearen Gleichungssystems (S−λkE)~q = ~0 immer σk orthogonaleEigenvektoren ~qk1, . . . , ~qkσk
finden kann, so dass man auch im Fall mehrfacherEigenwerte der symmetrischen (n×n)-Matrix S immer n orthogonale bzw.nach Normierung orthonormierte Eigenvektoren ~q1, . . . , ~qn finden kann.Die mit den orthonormierten Eigenvektoren gebildete Matrix
Q =
| | |~q1 ~q2 . . . ~qn
| | |
ist wegen 〈~qk, ~qj〉 = δkj orthogonal und es gilt fur k = 1, . . . , n
S~qk = λk~qk (k = 1, . . . , n) ⇐⇒ SQ = QD ⇐⇒ D = QT SQ ,
wobei die Diagonalmatrix D = diag(λ1, . . . , λn) genau die Eigenwerteλ1, . . . , λn als Hauptdiagonalelemente hat, also ist S diagonalisierbar.e) ergibt sich durch die einfache Rechnung mit dem Eigenvektor ~q von S zumEigenwert λ
λ||~q||2 = 〈λ~q, ~q〉 = 〈S~q, ~q〉 = 〈AT A~q, ~q〉 = 〈A~q,A~q〉 = ||A~q||2 ≥ 0 .
4.2 Abschatzungen und Lokalisierung von Ei-
genwerten
Zur Lokalisierung der Eigenwerte einer (n × n)-Matrix A = (aij) dient derfolgende
143
Satz 4.7. (Lokalisierung von Eigenwerten in Gerschgorin-Kreisen)Sei A = (aij) eine (n × n)-Matrix mit den Gerschgorin-Kreisen
Kj = z ∈ C | |z − ajj| ≤n∑
k=1k 6=j
|ajk| .
a) Dann gilt fur das Spektrum σ(A) von A
σ(A) ⊂n⋃
j=1
Kj ,
d.h., samtliche Eigenwerte von A liegen in der Vereinigung der Gerschgorin-Kreise.b) Es sei i1, . . . , ik ∪ ik+1, . . . , in =: I1 ∪ I2 = 1, 2, . . . , n. Sind dieGerschgorin-Kreise Ka = ∪i∈I1Ki und Kb = ∪i∈I2Ki disjunkt, dann liegen inKa genau k und in Kb genau n − k Eigenwerte von A.
Beweis. Zum Nachweis von a) betrachten wir einen zum Eigenwert λgehorenden Eigenvektor ~u. uj sei eine Koordinate von ~u mit
|uj| = ||~u||∞ = maxk=1,...,n
|uk| .
Die j-te Gleichung der Eigengleichung A~u = λ~u ist
n∑
k=1
ajkuk = λuj
und es ergibt sich
|ajj − λ| |uj| = |n∑
k=1k 6=j
ajkuk| ≤ ||~u||∞n∑
k=1k 6=j
|ajk| = |uj|n∑
k=1k 6=j
|ajk| .
Daraus folgt |ajj − λ| ≤ ∑nk=1k 6=j
|ajk|, d.h., λ liegt in Kj.
Zum Nachweis von b) betrachten wir mit D die Diagonale von A und N =A − D. Sei A(ǫ) = D + ǫN mit den Eigenwerten λ(ǫ). Fur ǫ = 0 bestehendie Kreise Ki(ǫ) aus den durch die Diagonalelemente gegebenen Punkten,die beim steigen Vergroßern von ǫ = 0 zu ǫ = 1 zu den Gerschgorin-KreisenKi = Ki(1) von A anwachsen (die Radien sind proportional zu ǫ und esgilt Ki(ǫ1) ⊂ Ki(ǫ2) fur ǫ1 ≤ ǫ2). Die Eigenwerte hangen stetig von denMatrixelementen und damit von ǫ ab und konnen aufgrund der Aussage a)wegen der Disjunktheit nicht zwischen Ka und Kb wechseln.
144
Beispiel 4.8. 1) Die Matrix A =(
1 5−1 3
)hat die Gerschgorin-Kreise
K1 = z ∈ C | |z − 1| ≤ 5 und K2 = z ∈ C | |z − 3| ≤ 1 .
Die oben berechneten Eigenwerte λ1,2 = 2 ± 2i liegen in K1 ∪ K2 = K1, wiein der Abb. 4.1 zu erkennen ist.
2) Die Matrix B =
4 1 01 2 11 0, 5 7
hat die Gerschgorin-Kreise
K1 = z ∈ C | |z−4| ≤ 1, K2 = z ∈ C | |z−2| ≤ 2, K3 = z ∈ C | |z−7| ≤ 1, 5,
die in der Abb. 4.2 dargestellt sind (Eigenwerte λ1 = 4, 26, λ2 = 7, 1681, λ3 =1, 5791).
1
K 1
K 2
6
λλλλ 2
λλλλ 1
Abbildung 4.1: Gerschgorin-Kreiseund Eigenwerte von A
2
2 2
1 3
4 7
KK
K
Abbildung 4.2: Gerschgorin-Kreisevon B
Definition 4.9. Der Rayleigh-Quotient von ~x 6= 0 bezugl. der Matrix Aist durch
rA(~x) =〈~x,A~x〉〈~x, ~x〉
definiert.
Der Rayleigh-Quotient ist ein wichtiges Hilfsmittel zur Eigenwert-abschatzung. Es gilt der
Satz 4.10. Sei A reell und symmetrisch, ~x ∈ Rn \ 0 beliebig.
a) Mit dem kleinsten bzw. großten Eigenwert λmin bzw. λmax von A gilt
λmin ≤ rA(~x) ≤ λmax .
Die Extremwerte werden fur die entsprechenden Eigenvektoren ~x angenom-men.
145
b) Eigenwertabschatzung durch den Rayleigh-Quotienten eines Testvektors:es existiert ein Eigenwert λ von A mit
|λ − rA(~x)|2 ≤ rA2(~x) − [rA(~x)]2︸ ︷︷ ︸
Ausloschungsgefahr
=||(A − rA(~x)E)~x||22
〈~x, ~x〉︸ ︷︷ ︸
numerisch stabil
.
Beweis.a) Sei ~x1, . . . , ~xn eine Orthonormalbasis von Eigenvektoren (A~xi = λi~xi). Mit~x =
∑
i xi~xi folgt
rA(~x) =〈∑
i xi~xi,∑
i λixi~xi〉〈∑i xi~xi,
∑
i xi~xi〉=
∑
i λix2i
∑
i x2i
≤ λmax
≥ λmin.
b) Sei µ nicht Eigenwert von A, dann gilt
1 =||(A − µE)−1(A − µE)~x||22
||~x||22≤ ||(A − µE)−1||22
||(A − µE)~x||22||~x||22
,
und damit
||(A − µE)~x||22||~x||22
≥ 1
||(A − µE)−1||22=
1
ρ((A − µE)−1)2
=1
maxi |λi − µ|−2= min
i=1,...,n|λi − µ|2 .
Außerdem folgt fur beliebiges µ auch
〈(A − µE)~x, (A − µE)~x〉〈~x, ~x〉 =
||(A − µE)~x||22||~x||22
≥ mini=1,...,n
|λi − µ|2 .
Aufgrund von
〈(A − µE)~x, (A − µE)~x〉〈~x, ~x〉 =
〈A~x,A~x〉〈~x, ~x〉
︸ ︷︷ ︸
rA2 (~x)
−[〈~x,A~x〉〈~x, ~x〉
︸ ︷︷ ︸
rA(~x)
]2 + [µ − 〈~x,A~x〉〈~x, ~x〉 ]2
wird die Abschatzung optimal fur µ = rA(~x) und b) gilt.
Bemerkung 4.11. Wenn ~x ein Eigenvektor ist, dann ergibt der Rayleigh-Quotient rA(~x) den entsprechenden Eigenwert. Rayleigh-Quotienten werdenals Hilfsmittel benutzt, um aus einer Approximation eines Eigenvektors eineApproximation eines Eigenwerts abzuleiten.
146
Bemerkung 4.12. Es stellt sich die Frage, wann ~x ∈ Rn (bzw. C
n) Approxi-mation eines Eigenvektors ist. Es sei E der Eigenraum zum Eigenwert λ undF der von der restlichen Eigen- bzw. Hauptvektoren aufgespannte Raum, sodass R
n = E ⊕ F (bzw. Cn = E ⊕ F ) gilt. Mit der Zerlegung ~x = ~xE + ~xF
mit ~xE ∈ E, ~xF ∈ F vereinbart man:
~x ist approximativer Eigenvektor zum Eigenwert λ
⇐⇒ ~x ≈ ~xE ⇐⇒ ||~xF || << ||~xE|| .
Fur symmetrische Matrizen ist F das orthogonale Komplement von E(〈~xE, ~xF 〉 = 0). Der Winkel φ zwischen ~x und seiner orthogonalen Projektion~xE auf den Eigenraum E, definiert durch
cos2 φ =〈~xE, ~xE〉〈~x, ~x〉 bzw. sin2 φ =
〈~xF , ~xF 〉〈~x, ~x〉 ,
ist ein Maß fur den Abstand von ~x zum Eigenraum E.
Satz 4.13. Fur eine symmetrische Matrix A mit den Eigenwerten λi gilt
(minλi 6=λ
|λ − λi|) sin2 φ ≤ |λ − rA(~x)| ≤ (maxλi 6=λ
|λ − λi|) sin2 φ .
Beweis.
λ − rA(~x) = λ − 〈~xE + ~xF , A(~xE + ~xF )〉〈~x, ~x〉
= λ − 〈~xE, A~xE〉〈~x, ~x〉 − 2
〈~xF , A~xE〉〈~x, ~x〉 − 〈~xF , A~xF 〉
〈~x, ~x〉
= λ − 〈~xE, A~xE〉〈~x, ~x〉 − 〈~xF , A~xF 〉
〈~x, ~x〉
= λ(1 − 〈~xE, ~xE〉〈~x, ~x〉 ) − 〈~xF , ~xF 〉
〈~x, ~x〉〈~xF , A~xF 〉〈~xF , ~xF 〉
= sin2 φ(λ − 〈~xF , A~xF 〉〈~xF , ~xF 〉
) .
Der auf F eingeschrankte Rayleigh-Quotient nimmt in Analogie zu Satz 4.10a) als Extremwerte einen der von λ verschiedenen Eigenwerte von A an, d.h.
minλi 6=λ
λi ≤〈~xF , A~xF 〉〈~xF , ~xF 〉
≤ maxλi 6=λ
λi ,
und damit folgt die Aussage des Satzes.
147
Bemerkung 4.14. Der Satz 4.13 zeigt aufgrund des Faktors sin2 φ, dass imFalle von symmetrischen Matrizen verhaltnismaßig schlechte Eigenwertap-proximationen durch den Rayleigh-Quotienten trotzdem gute Eigenwertap-proximationen geliefert werden.
Satz 4.15. Sei A = TΛT−1 mit Λ = diag(λ1, . . . , λn) eine diagonalisierbareMatrix mit den Eigenwerten λ1, . . . , λn. Fur einen beliebigen Eigenwert λeiner gestorten Matrix A = A + ∆A gilt
mini=1,...,n
|λi − λ| ≤ condp(T )||∆A||p .
Beweis. λ sei nicht Eigenwert von A (ansonsten wird es trivial). Es folgt
||(A − λE)−1||p = ||T (Λ − λE)−1T−1||p ≤ condp(T )||(Λ − λE)−1||p .
Da die p-Norm einer Diagonalmatrix gleich dem maximalen Betrag der Dia-gonalelemente ist, gilt
||(Λ − λE)−1||p = maxi=1,...,n
1
|λi − λ|=
1
mini=1,...,n |λi − λ|.
Es folgt nun
mini=1,...,n
|λi − λ| ≤ condp(T )
||(A − λE)−1||p. (4.5)
Mit einem Eigenvektor ~y von A zum Eigenwert λ ergibt sich
A~y = λ~y =⇒ (A − A)~y = (A − λ)~y =⇒ (A − λE)−1(A − A)~y = ~y
und weiter
1 ≤ ||(A − λE)−1(A − A)||p ≤ ||(A − λE)−1||p||A − A||p ,
also 1/||(A− λE)−1||p ≤ ||∆A||p. Unter Nutzung von (4.5) folgt die Behaup-tung.
Da man symmetrische Matrizen mit orthogonalen Matrizen (bestehend ausden orthogonalen Eigenwerten) diagonalisieren kann, gilt fur symmetrischeMatrizen A und beliebige Matrizen A = A + ∆A
mini=1,...,n
|λi − λ| ≤ ||∆A||2 ,
da man eine Transformationsmatrix T mit cond2(T ) = 1 findet.Ohne Beweis wird noch ein Vergleichssatz fur Eigenwerte symmetrischer Ma-trizen angegeben.
148
Satz 4.16. Fur symmetrische reelle (n × n)-Matrizen A und A mit denEigenwerten
λ1 ≤ · · · ≤ λn von A bzw. λ1 ≤ . . . λn von A
gilt|λi − λi| ≤ ρ(A − A) ≤ ||A − A||
fur beliebige Matrixnormen.
Einen Beweis dieses Satzes findet man z.B. im Numerik-Buch von W. Oevel.
4.3 Numerische Methoden zur Eigenwertbe-
rechnung
Es geht zuerst darum, die Aufgabe der Eigenwertberechnung zu vereinfachen.Dazu werden ausgehend von A einfachere ahnliche Matrizen konstruiert.Zur Eigenwertberechnung werden dann Newtonverfahren, Jacobi-Verfahrenund die Givensrotation besprochen.Am Ende werden wir die sukzessive Konstruktion von zu A ahnlichen Ma-trizen zur naherungsweisen Eigenwertberechnung mit dem sogenannten QR-Verfahren nutzen.
4.3.1 Transformation auf Hessenberg- bzw. Tridiago-nalform
24.Vorle-sungam19.01.2010
Das Ziel der nachsten Uberlegungen ist die Konstruktion einer Matrix H, dieder Matrix A, von der wir Eigenwerte suchen, ahnlich sind, allerdings einewesentlich einfachere Gestalt als A haben. Die einfachere Bestimmung derEigenwerte von H ergibt dann die Losung des Eigenwertproblems von A.
Definition 4.17. Unter einer Hessenberg-Matrix versteht man eine MatrixH = (hij), fur die hij = 0 fur i > j + 1 gilt, also eine Matrix der Form
H =
h11 h12 . . . h1 n−1 h1n
h21 h22 . . . h2 n−1 h2n
0 h32 . . . h3 n−1 h3n...
. . . . . ....
...0 . . . 0 hn n−1 hnn
,
die unter der Hauptdiagonale nur ein Band besitzt.
149
Wir werden nun zeigen, dass man jede Matrix A durch eine orthogonaleAhnlichkeitstransformation auf Hessenberg-Form transformieren kann, d.h.,dass es eine orthogonale Matrix Q mit
H = QT AQ
gibt. Betrachten wir dazu mit ~a1 die erste Spalte von A. Wir suchen nun eineHouseholder-Matrix
H1 = E − 2~u1~u
T1
〈~u1, ~u1〉,
so dass sich mit ~a(1)1 = H1~a1 = (a11, ∗ , 0, . . . , 0)T ein Vektor ergibt, der bis
auf die ersten beiden Komponenten nur Null-Komponenten besitzt. Analogzum Vorgehen bei der Erzeugung von QR-Zerlegungen leistet der Vektor
~u1 = (0, c + a21, a31, . . . , an1)T
mit c = sign(a21)√
a221 + · · · + a2
n1 das Geforderte. Es ergibt sich
~a(1)1 = H1~a1 = (a11,−c, 0, . . . , 0)T .
Fur die j-te Spalte ~aj von A erzeugt die Householder-Matrix
Hj = E − 2~uj~u
Tj
〈~uj, ~uj〉(4.6)
mit
~uj = (0, . . . , 0, c + aj+1 j, . . . , anj)T und c = sign(aj+1 j)
√
a2j+1 j + · · · + a2
nj
einen Vektor ~a(j)j = Hj~aj = (a1j, . . . , ajj,−c, 0, . . . , 0)T , der bis auf die ersten
j + 1 Komponenten nur Null-Komponenten besitzt. Die Multiplikation einerMatrix A mit der Householder-Matrix Hj (4.6) lasst alle Spalten der Form
~s = (s1, s2, . . . , sj, 0, . . . , 0)T
invariant, d.h., es gilt Hj~s = ~s. Damit bleiben durch die Multiplikation von Amit Householder-Matrizen H1, . . . , Hj−1 erzeugte Nullen im unteren Dreieckerhalten, d.h., mit den Householder-Matrizen H1, . . . , Hn−2 erhalt man mit
G = Hn−2Hn−3 . . . H1A =
a11 a12 . . . a1 n−1 a1n
g21 g22 . . . g2 n−1 g2n
0 g32 . . . g3 n−1 g3n...
. . . . . ....
...0 . . . 0 gn n−1 gnn
150
eine Hessenberg-Matrix. Man uberpruft durch Nachrechnen, dass dieMultiplikation der Matrix G von rechts mit den Householder-MatrizenH1, . . . , Hn−2 die Hessenberg-Form nicht zerstort. Man erkennt nun, dassdie Matrix H1AH1 wieder eine Hessenberg-Matrix ist. Insgesamt erhalt manmit
H = Hn−2Hn−3 . . . H1AH1H2 . . . Hn−2 =
a11 h12 . . . h1 n−1 h1n
h21 h22 . . . h2 n−1 h2n
0 h32 . . . h3 n−1 h3n...
. . . . . ....
...0 . . . 0 hn n−1 hnn
die gewunschte Hessenberg-Matrix, die aufgrund der Orthogonalitat derHouseholder-Matrizen Hi eine orthogonale Transformation von A ist. Es gilt
H = QT AQ mit Q = H1H2 . . . Hn−2, QT = Hn−2Hn−3 . . . H1 .
H ist ahnlich zu A und deshalb haben H und A die gleichen Eigenwerte.
Beispiel 4.18. Fur die Transformation der Matrix
A =
2 3 43 2 34 1 6
ergibt sich mit ~u1 = (0, 3 + 5, 4)T die Householder-Matrix
H1 = E − 2~u1~u
T1
〈~u1, ~u1〉=
1 0 00 −3
5−4
5
0 −45
35
.
Weiter gilt
G = H1A =
2 3 4−5 −2 −33
5
0 −1 65
und H = H1AH1 =
2 −5 0−5 162
25−59
25
0 − 925
3825
.
H = H1AH1 = HT1 AH1 ist offensichtlich eine Hessenberg-Matrix und eine
orthogonale Transformation von A.
Fordert man von der zu transformierenden Matrix A die Symmetrie, dannfuhrt der eben dargelegte Algorithmus zur Transformation auf eine symme-trische Hessenberg-Matrix, die folglich eine symmetrische Tridiagonal-Matrixist.
151
4.3.2 Newton-Verfahren zur Berechnung von Eigen-werten von Hessenberg-Matrizen
Das charakteristische Polynom χ(µ) einer Hessenbergmatrix und die zu-gehorige Ableitung χ′(µ) lassen sich jeweils uber die Auflosung speziellergestaffelter linearer Gleichungssysteme berechnen. Dazu betrachten wir den
Satz 4.19. Sei H = (hij) ∈ RN×N eine Hessenbergmatrix mit hi i+1 6= 0 fur
i = 1 . . . , N−1 und charakteristischem Polynom χ(µ) = det (H−µE), µ ∈ R.Im Folgenden sei µ ∈ R fest gewahlt und kein Eigenwert von H, und esbezeichne ~x = ~x(µ) = (xj(µ)) ∈ R
N den eindeutig bestimmten Vektor mit
(H − µE)~x = ~e1 , (4.7)
mit ~e1 = (1, 0, . . . , 0)T ∈ RN . Dann gelten die folgenden Darstellungen
χ(µ) =(−1)N−1h21h32 · · ·hN N−1
xN(µ),
χ(µ)
χ′(µ)=
1
xn(µ)
d
dµ(
1
xn(µ)) . (4.8)
Beweis. Die Anwendung der Cramerschen Regel auf die Gleichung (4.7) er-gibt die erste Aussage in (4.8),
xN = det
h11 − µ h12 · · · h1 N−1 1
h21 h22 − µ... 0
h32. . .
......
. . . hN−1 N−1 − µ...
hN N−1 0
/χ(µ)
= (−1)N−1 det
h21 h22 − µ...
h32. . .
.... . . hN−1 N−1 − µ
hN N−1
︸ ︷︷ ︸
=h21h32···hN N−1
/χ(µ) ,
wobei die Determinate durch die Entwicklung nach der letzten Spalte be-rechnet wurde. Damit wurde die erste Aussage von (4.8) gezeigt. Eine an-schließende Differentiation ergibt die zweite Aussage.
Bemerkung 4.20. Die Forderung hi i+1 6= 0 im letzten Satz ist keine wirk-liche Einschrankung, da anderenfalls die Hessenbergmatrix in Teilmatrizenzerfallt, die ebenfalls Hessenbergmatrizen sind und dann ebenso behandeltwerden konnen wie die Matrix H im Satz.
152
Satz 4.21. Mit den Bezeichnungen aus Satz 4.19 erhalt man die Werte1/xN(µ) und d
dµ( 1
xN (µ)) aus den folgenden (durch Umformung und Differen-
tiation von (4.7) entstandenen) gestaffelten linearen Gleichungssystemen
(h11 − µ)v1 + h12v2 + · · · + h1 N−1vN−1 + h1N = 1xN (µ)
h21v1 + (h22 − µ)v2 + · · · + h2 N−1vN−1 + h2N = 0
.
.
.
.
.
.
.
.
.
.
.
.
hN−1 N−2vN−2 − (hN−1 N−1 − µ)vN−1 + hN−1 N = 0hN N−1vN−1 + hNN − µ = 0
9
>
>
>
>
>
>
=
>
>
>
>
>
>
;
(4.9)
beziehungsweise
(h11 − µ)z1 + h12z2 + · · · + h1 N−1zN−1 − v1 = ddµ
1xN (µ)
h21z1 + (h22 − µ)z2 + · · · + h2 N−1zN−1 − v2 = 0
.
.
.
.
.
.
.
.
.
.
.
.
hN−1 N−2zN−2 − (hN−1 N−1 − µ)zN−1 − vN−1 = 0hN N−1zN−1 − 1 = 0
9
>
>
>
>
>
>
=
>
>
>
>
>
>
;
(4.10)
die man rekursiv nach den Unbekannten vN−1, . . . , v1, 1/xN(µ) beziehungs-weise zN−1, . . . , z1,
ddµ
1xN (µ)
auflost.
Beweis. Die Aussage (4.9) erhalt man (fur vj = xj(µ)/xN(µ)), indem mandie einzelnen Zeilen des Gleichungssystems (4.7) durch xN(µ) dividiert. Die
Differentiation der Gleichungen in (4.9) nach µ liefert fur zj = (dvj
dµ)(µ) un-
mittelbar (4.10).
4.3.3 Das Newtonverfahren fur tridiagonale Matrizen
Die Transformation einer symmetrischen Matrix auf Hessenbergform ergibteine tridiagonale Matrix. Deshalb ist es sinnvoll, das Newtonverfahren furtridiagonale Matrizen betrachten, denn χ(µ) = det (H−µE) und χ′(µ) lassensich dann auf einfache Weise rekursiv berechnen.
Lemma 4.22. Zu gegebenen Zahlen δ1, . . . , δN ∈ R und γ2, . . . , γN ∈ R
gelten fur die charakteristischen Polynome
χk(µ) = det (Jk − µE) , Jk =
δ1 γ2
γ2. . . . . .. . . . . . γk
γk δk
, k = 1, . . . , N,
die folgenden Rekursionsformeln
χ1(µ) = δ1 − µ ,χk(µ) = (δk − µ)χk−1(µ) − γ2
kχk−2(µ) , k = 2, . . . , N,
(4.11)
153
mit der Notation χ0(µ) := 1. Fur die Ableitungen gelten
χ′1(µ) = −1 ,
χ′k(µ) = −χk−1 + (δk − µ)χ′
k−1(µ) − γ2kχ
′k−2(µ) , k = 2, . . . , N .
Beweis. Die Darstellung fur χ1 ergibt sich unmittelbar, und fur χ2 ist
χ2(µ) = det
([δ1 − µ γ2
γ2 δ2 − µ
])
= (δ1 − µ)︸ ︷︷ ︸
=χ1(µ)
(δ2 − µ) − γ22 ,
was die behauptete Darstellung von χ2 ist. Fur k ≥ 3 erhalt man durchEntwicklung der Determinate nach der letzten Spalte
χk(µ) = det
0
B
B
B
B
B
B
B
@
2
6
6
6
6
6
6
6
4
δ1 − µ γ2
γ2
. . .. . .
. . . δk−2 − µ γk−1
γk−1 δk−1 − µ γk
γk δk − µ
3
7
7
7
7
7
7
7
5
1
C
C
C
C
C
C
C
A
(4.12)
= (δk − µ)χk−1(µ) − γk det
0
B
B
B
B
B
B
B
@
2
6
6
6
6
6
6
6
4
δ1 − µ γ2
γ2
. . .. . .
. . . δk−3 − µ γk−2
γk−2 δk−2 − µ γk−1
0 γk
3
7
7
7
7
7
7
7
5
1
C
C
C
C
C
C
C
A
| z
=γkχk−2(µ)
, (4.13)
womit das Lemma bewiesen ware.
Mit den Ergebnissen zur Bestimmung des charakteristischen Polynoms χ(µ)
und des Quotienten χ(µ)χ′(µ)
und Informationen zur Lage von Eigenwerten (z.B.
nach dem Satz von Gerschgorin), kann man mit dem Newtonverfahren Ei-genwerte berechnen.
4.3.4 Jacobi-Verfahren zur Eigenwertberechnung
Im Unterschied zum Newtonverfahren geht es beim Jacobi-Verfahren darum,durch die sukzessive Konstruktion von zu A ahnlichen Matrizen A(k) mitReduktion der Nichtdiagonalelemente die Eigenwerte durch die Diagonalein-trage von A(k) zu approximieren.
Approximation der Eigenwerte durch Diagonaleintrage
Um zu verabreden, was unter Konvergenz eines solchen Verfahrens zu verste-hen ist, braucht man ein Maß zur Große des Nichtdiagonalteils einer Matrix.
154
Definition 4.23. Fur eine Matrix B = (bij) ∈ RN×N ist die Zahl S(B) ∈ R+
folgendermaßen erklart,
S(B) :=N∑
i,j=1,i6=j
b2ij . (4.14)
Offensichtlich gilt fur S(B) mit der Frobeniusnorm || · ||F
S(B) := ||B||2F −N∑
j=1
b2jj = ||B − D||2F , mit D := diag (b11, . . . , bNN) .
(4.15)Ist S(B) klein, dann stellen die Diagonalelemente Approximationen fur dieEigenwerte dar. Es gilt der
Satz 4.24. Seien λ1 ≥ λ2 ≥ · · · ≥ λN die Eigenwerte der symmetrischenMatrix B = (bij) ∈ R
N×N , und seien bk1k1 ≥ bk2k2 ≥ · · · ≥ bkNkNdie der
Große nach geordneten Diagonalelemente von B. Dann gilt
|bkjkj− λj| ≤
√
S(B) , j = 1, . . . , N .
Beweis. Mit D := diag (b11, . . . , bNN) erhalt man
maxj=1,...,N
|bkjkj− λj| ≤ ||B − D||2 ≤ ||B − D||F =
√
S(B) ,
wobei erstens ein Storungsresultat aus Satz 4.16 benutzt wurde, und zweitens|| · ||2 ≤ || · ||F verwendet wurde.
Givensrotation zur Reduktion der Nichtdiagonaleintrage
Das Verfahren von Jacobi zur approximativen Bestimmung der Eigenwertesymmetrischer Matrizen A ∈ R
N×N durch die Konstruktion von A(k) mitS(A) = S(A(1)) > S(A(2)) > . . . beruht auf der sogenannten Givensrotation.Es werden zu A ahnliche Matrizen
A(k+1) = S−1k A(k)Sk , k = 1, 2, . . . mit A = A(1)
155
konstruiert, wobei die einzelnen Ahnlichkeitstransformationen von der allge-meinen Form
B := Ω−1pq BΩpq , Ωpq =
1. . .
1c −s
1. . .
1s c
1. . .
1
∈ RN×N
(4.16)sind mit einer symmetrischen Matrix B ∈ R
N×N und mit speziell zuwahlenden Indizes p 6= q und reellen Zahlen
c, s ∈ R , c2 + s2 = 1 . (4.17)
Die Spalte mit den Zahlen c und s ist die p-te Spalte, die Spalte mit denZahlen −s und c ist die q-te Spalte, woraus die entsprechenden Zeilen folgen.Ausgehend von B = (bij) erhalt man durch die Transformation
bpp = c2bpp + 2csbpq + s2bqq , (4.18)
bqq = s2bpp − 2csbpq + c2bqq , (4.19)
bpq = bqp = cs(bqq − bpp) + (c2 − s2)bpq , (4.20)
bij = bij , i, j /∈ p, q . (4.21)
Weiter gilt fur die Eintrage der p-ten und q-ten Spalten und Zeilen
bkp = bpk = cbkp+sbkq , bkq = bqk = −sbkp+cbkq , fur k /∈ p, q . (4.22)
Bevor der Zusammenhang zwischen S(B) und S(B) hergestellt wird, soll einHilfsresultat hergeleitet werden.
Lemma 4.25. Fur jede Matrix B ∈ RN×N und jede orthogonale Matrix
Q ∈ RN×N gilt
||Q−1BQ||F = ||B||F .
156
Beweis. Unter der Spur einer Matrix A verstehen wir spur (A) =∑N
j=1 ajj.Es gelten nun die elementaren Identitaten
||A||F = spur (AT A) , spur (ST ) = spur (TS) fur alle A, S, T ∈ RN×N ,
woraus die Aussage des Lemmas folgt.
Fur den Zusammenhang zwischen S(B) und S(B) gilt der
Satz 4.26. Fur eine symmetrische Matrix B = (bij) ∈ RN×N gilt mit den
Beziehungen aus (4.16)
S(B) = S(B) − 2(b2pq − b2
pq) .
Beweis. Man rechnet
S(B) = ||B||2F −N∑
j=1
b2jj = (||B||2F −
N∑
j=1
b2jj)
︸ ︷︷ ︸
=S(B)
+b2pp + b2
qq − b2pp − b2
qq (4.23)
aus. Die letzten 4 Summanden in (4.23) kann man in der Form
[bpp bpq
bpq bqq
]
︸ ︷︷ ︸
=:b
=
[c s−s c
] [bpp bpq
bpq bqq
]
︸ ︷︷ ︸
=:b
[c −ss c
]
darstellen. Die Matrizen b und b ∈ R2×2 sind orthogonal ahnlich zueinander,
und damit folgt aus Lemma 4.25
b2pp + b2
qq + 2b2pq
︸ ︷︷ ︸
=||b||2F
= b2pp + b2
qq + 2b2pq
︸ ︷︷ ︸
=||b||2F
, (4.24)
und die Identitaten (4.23) und (4.24) ergeben die Behauptung.
Mit Satz 4.26 wird offensichtlich, dass bei festem Index (p, q) im Fall bpq = 0
die Zahl S(B) die großtmogliche Verringerung gegenuber S(B) erfahrt.
Korollar 4.27. Wahlt man in (4.16) die Zahlen c und s so, dass bpq = 0erfullt ist, dann gilt
S(B) = S(B) − 2b2pq .
25.Vorle-sungam20.01.2010
157
Satz 4.28. In (4.16) erhalt man den Eintrag bpq = bqp = 0 durch die Wahlder Zahlen c und s (o.B.d.A. sei bpq 6= 0)
c =
√
1 + C
2, s = sign (bpq)
√
1 − C
2mit C =
bpp − bqq√
(bpp − bqq)2 + 4b2pq
.
(4.25)
Beweis. Mit den Beziehungen (4.20) folgt
bpq = sign (bpq)
√
1 − C2
4(bqq − bpp) + Cbpq
=sign (bpq)|bpq|(bqq − bpp)√
(bpp − bqq)2 + 4b2pq
+bpp − bqq
√
(bpp − bqq)2 + 4b2pq
bpq = 0 ,
wobei der Schritt von der ersten zur zweiten Zeile aus
√
1 − C2
4=
1
2
√
(bpp − bqq)2 + 4b2pq − (bpp − bqq)2
(bpp − bqq)2 + 4b2pq
=|bpq|
√
(bpp − bqq)2 + 4b2pq
folgt.
Das Korollar 4.27 und der folgende Satz liefern einen Hinweis zur jeweiligenWahl der Indizes p und q.
Satz 4.29. Fur Indizes (p, q) mit p 6= q sei
|bpq| ≥ |bij| fur i, j = 1, . . . , N, i 6= j , (4.26)
erfullt. Mit den Bezeichnungen aus (4.16) und c und s aus Satz 4.28 gilt dieAbschatzung
S(B) ≤ (1 − η)S(B) , mit η :=2
N(N − 1).
Beweis. Wegen (4.26) gilt die Abschatzung
S(B) =N∑
i,j=1,...,N,i 6=j
b2ij ≤ N(N − 1)b2
pq ,
da die Anzahl der Nichtdiagonalelemente gleich N(N − 1) ist. Die Aussagedes Satzes folgt unter Nutzung des Korollars 4.27.
158
Bemerkung 4.30. Nach Satz 4.29 gilt fur die Messgroßen S(A(k)) des Ja-cobiverfahrens
S(A(k)) ≤ (1 − η)kS(A) , fur k = 1, 2, . . . (η =2
N(N − 1), A = A(1)) .
Bei Vorgabe einer Genauigkeit ǫ > 0 fur S(A(k)) ergibt sich
S(A(k)) ≤ (1 − η)kS(A) < ǫ ⇐⇒ k ≥ 2log(
√
S(A)/ǫ)
− log(1 − η)≈ N2 log((
√
S(A)/ǫ)
fur die durchzufuhrenden Givensrotationen bei jeweiliger Wahl des betrags-großten Nichtdiagonalelements zur Ermittlung vom Indexpaar (p, q).
4.3.5 Von-Mises-Vektoriteration
Bei vielen angewandten Aufgabenstellungen ist der betragsgroßte Eigenwertvon besonderer Bedeutung. Bei Schwingungsproblemen ist oft die Grund-schwingung von Interesse und fur deren Berechnung benotigt man den be-tragsgroßten Eigenwert. Fur den Fall, dass die Matrix A Eigenwerte mit derEigenschaft
|λ1| > |λ2| ≥ · · · ≥ |λN | (4.27)
besitzt, kann man ausgehend von einem geeigneten Startvektor ~u0 mit derIteration
~u1 = A~u0, ~u2 = A~u1, . . . , ~uk+1 = A~uk, . . . (4.28)
den betragsgroßten Eigenwert und den dazugehorigen Eigenvektor berech-nen. Betrachten wir als Startvektor
~u0 = ~q1 + ~q2 + · · · + ~qN ,
wobei ~q1, . . . , ~qN die Eigenvektorbasis einer als diagonalisierbar vorausgesetz-ten Matrix A sind. Mit A~qk = λk~qk erhalt man mit der Iteration (4.28)
~uk = A~uk−1 = Ak~u0 = λk1~q1 + · · · + λk
N~qn (4.29)
und bei der Iteration setzt sich die Vektorkomponente mit dem betragsgoßtenEigenwert durch, so dass die Iteration in gewisser Weise gegen den Eigen-vektor ~q1 strebt. Multipliziert man (4.29) mit einem Testvektor ~z, von dem〈~z, ~q1〉 6= 0 gefordert wird, dann erhalt man
〈~uk, ~z〉 ≈ λ1〈~uk−1, ~z〉
159
fur genugend große k und es gilt
λ1 = limk→∞
〈~uk, ~z〉〈~uk−1, ~z〉
,
wobei wir die gesicherte Existenz des Grenzwerts nicht zeigen. Ist ~q1 alsEigenvektor mit einer positiven ersten von null verschiedenen Komponentezum betragsgroßten Eigenwert λ1 normiert, dann konvergiert die Folge
~vk := ζk~uk
||~uk||(4.30)
gegen ~q1, wobei ζk ∈ +1,−1 so zu wahlen ist, dass die erste von null ver-schiedene Komponente von ~vk positiv ist. Die durchgefuhrten Betrachtungenkonnen wir zusammenfassen.
Satz 4.31. (Von-Mises-Vektoriteration)Sei A eine diagonalisierbare (N×N)-Matrix, deren Eigenwerte die Bedingung(4.27) erfullen. ~qj seien die Eigenvektoren zu λj. Seien ~uk und ~vk durch (4.29)bzw. (4.30) erklart und gelte 〈~u0, ~q1〉 6= 0, 〈~z, ~q1〉 6= 0 fur die Vektoren ~z, ~u0.Dann konvergiert die Folge ~vk gegen den Eigenvektor ~q1 und der betragsgroßteEigenwert λ1 ergibt sich als Grenzwert
λ1 = limk→∞
〈~uk, ~z〉〈~uk−1, ~z〉
= limk→∞
〈~vk, ~z〉〈~vk−1, ~z〉
. (4.31)
Fur die Konvergenzgeschwindigkeit gilt
|〈~uk+1, ~z〉〈~uk, ~z〉
− λ1| ≤ K|λ2
λ1
|k , (4.32)
wobei die Konstante K von der Wahl von ~z, ~u0 abhangt.
Zum Satz 4.31 ist anzumerken, dass man auch im Fall
λ1 = · · · = λr, |λ1| = · · · = |λr| > |λr+1| ≥ · · · ≥ |λN |, r > 1
mit der Von-Mises-Iteration (4.29), (4.30), (4.31) den mehrfachen Eigenwertλ1 bestimmen kann. Allerdings konvergiert die Folge (4.30) nur gegen irgend-einen Eigenvektor aus dem Unterraum der Losungen des linearen Gleichungs-systems (A − λ1E)~v = ~0. Eventuelle weitere Eigenvektoren zum mehrfachenEigenwert λ1 muss man dann auf anderem Weg, z.B. durch die Bestimmungweiterer Losungen von (A − λ1E)~v = ~0, berechnen.Nach der Bestimmung von λ1 weiß man, dass fur eine symmetrische MatrixA alle Eigenwerte auf jeden Fall im Intervall [a, b] := [−|λ1|, |λ1|] liegen, da
160
sie reell sind. Evtl. kann man das Intervall [a, b] durch die Betrachtung derGerschgorin-Kreise noch verkleinern.Mit der folgenden Uberlegung kann man unter Umstanden Eigenwerte vonA schneller bestimmen als mit der Von-Mises-Iteration nach Satz 4.31. Ist λein Eigenwert von A und ~u ein zu λ gehorender Eigenvektor von A, dann istfur µ 6= λ wegen
A~u = λ~u ⇐⇒ (A − µE)~u = (λ − µ)~u ⇐⇒ (A − µE)−1~u =1
λ − µ~u
die Zahl 1λ−µ
ein Eigenwert von (A − µE)−1. Wendet man den Satz 4.31 auf
das Eigenwertproblem der Matrix (A − µE)−1 an, dann ergibt sich mit demfolgenden Satz eine effiziente Methode zur Eigenwert- und Eigenvektorbe-stimmung.
Satz 4.32. (inverse Von-Mises-Vektoriteration)Sei A eine Matrix vom Typ N × N mit den Eigenwerten λ1, . . . , λN undsei µ ∈ C eine komplexe Zahl ungleich allen Eigenwerten von A, so dassdie Matrix A einen Eigenwert hat, der naher bei µ als bei allen anderenEigenwerten liegt, d.h.
0 < |λ1 − µ| < |λ2 − µ| ≤ · · · ≤ |λN − µ|
gilt (λ1 ist der Eigenwert, der µ am nachsten liegt). Mit der Iterationsfolge
~uk := (A − µE)−1~uk−1 (k = 1, 2, . . . ) (4.33)
gilt
limk→∞
〈~uk, ~z〉〈~uk−1, ~z〉
=1
λ1 − µ⇐⇒ λ1 = lim
k→∞
〈~uk−1, ~z〉〈~uk, ~z〉
+ µ ,
wobei 〈~u0, ~qµ〉 6= 0, 〈~z, ~qµ〉 6= 0 fur den Startvektor ~u0 und den Testvektor~z mit ~qµ als dem zu 1
λ1−µgehorenden Eigenvektor der Matrix (A − µE)−1
gelten muss. Die normalisierten Vektoren ~vk = ~uk
||~uk|| konvergieren gegen den
Eigenvektor ~qµ. Die Iteration (4.33) heißt inverse Von-Mises-Iteration. Furdie Konvergenzgeschwindigkeit gilt
|〈~uk+1, ~z〉〈~uk, ~z〉
− 1
λ1 − µ| ≤ K|1/(λ2 − µ)
1/(λ1 − µ)|k = K|λ1 − µ
λ2 − µ|k .
Der Satz 4.32 ist in zweierlei Hinsicht von Bedeutung. Zum einen kann mandurch eine gunstige Wahl von µ in der Nahe eines Eigenwertes λ1 die Kon-vergenzgeschwindigkeit der inversen Von-Mises-Iteration groß machen undschnell zu diesem Eigenwert gelangen. Zweitens kann man bei Kenntnis des
161
Intervalls [λmin, λmax] durch die Wahl von µ =λmin+λmax
2und die Berech-
nung des Eigenwertes λµ von A, der µ am nachsten liegt, mit
µ1 =λmin + λµ
2, µ2 =
λµ + λmax
2
die Iteration (4.33) fur µ1 und µ2 durchfuhren. Die sukzessive Fortsetzung die-ses Algorithmus liefert nach evtl. Aussortierung von Punkten, fur die (4.33)nicht konvergiert, alle Eigenwerte von A. Bei der Wahl der Parameter µ kannman naturlich auch Informationen zur Lage der Eigenwerte aus dem Satz 4.7nutzen.Ein weiterer Weg, samtliche von null verschiedenen Eigenwerte einer MatrixA durch Von-Mises-Vektoriterations-Methoden zu bestimmen, ist mit Hilfeder Deflation moglich. Kennt man einen Eigenwert λ1 6= 0 der symmetri-schen Matrix A und mit ~x1 den dazugehorenden Eigenvektor und bezeichnetdie restlichen Eigenwerte von A mit λ2, . . . , λN , dann hat die Matrix
A = (E − ~x1~xT1
〈~x1, ~x1〉)A = A − λ1
〈~x1, ~x1〉~x1~x
T1
die Eigenwerte 0, λ2, . . . , λN . Außerdem ist jeder Eigenvektor von A auchEigenvektor von A und umgekehrt. Mit der Deflation transformiert man denEigenwert λ1 auf 0.
Beispiel 4.33. Fur die Matrix
A =
2 −1 0−1 2 −1
0 −1 2
findet man die Eigenwerte λ1 = 2, λ2 = 2 −√
2, λ3 = 2 +√
2 mit denEigenvektoren
~x1 =
− 1√2
01√2
, ~x2 =
12
1√212
, ~x3 =
−12
1√2
−12
.
Fur A ergibt sich
A = A − λ1
〈~x1, ~x1〉~x1~x
T1 =
1 −1 1−1 2 −1
1 −1 1
mit den Eigenwerten 0, λ2 = 2 −√
2, λ3 = 2 +√
2 und den Eigenvektoren
~x1 =
− 1√2
01√2
, ~x2 =
12
1√212
, ~x3 =
−12
1√2
−12
.
162
Fur den allgemeineren Fall der nicht notwendigerweise symmetrischen MatrixA gilt der folgende
Satz 4.34. (Deflation)Sei ~z 6= ~0 ein beliebiger Vektor und es sei ~x1 mit 〈~x1, ~z〉 6= 0 ein Eigenvektorder Matrix A zum Eigenwert λ1. Dann liefert jeder weitere von ~x1 linearunabhangige Eigenvektor ~x von A zum Eigenwert λ mit
~y = ~x − 〈~x, ~z〉〈~x1, ~z〉
~x1 (4.34)
einen Eigenvektor der Matrix
A = (E − ~x1~zT
〈~x1, ~z〉)A
zum gleichen Eigenwert λ. Der Eigenvektor ~x1 ist ebenfalls Eigenvektor derMatrix A zum Eigenwert 0. Umgekehrt liefert jeder Eigenvektor ~y von A zumEigenwert λ einen Eigenvektor
~x′ = (A − λ1E)~y = (λ − λ1)~y +〈A~y, ~z〉〈~x1, ~z〉
~x1 (4.35)
von A zum selben Eigenwert. Alle Eigenvektoren von A zu nichtverschwin-denden Eigenwerten stehen senkrecht auf ~z.
A~y = λ~y und A~x′ = λ~x′ rechnet man durch Einsetzen nach. Die Multiplika-tion von ~zT A mit (4.34) ergibt
~zT A~y = 〈A~y, ~z〉 = 〈A~x, ~z〉 − λ1〈~x, ~z〉 ⇐⇒ 〈A~y, ~z〉 = (λ − λ1)〈~x, ~z〉
und Einsetzen von 〈~x, ~z〉 = 1λ−λ1
〈A~y, ~z〉 in (4.34) liefert (4.35) mit dem Ei-
genvektor ~x′ = (λ − λ1)~x. Die skalare Multiplikation von A~y mit ~z ergibtunter Nutzung von A~y = λ~y
〈A~y, ~z〉 = 〈A~y, ~z〉 − 〈A~y, ~z〉〈~x1, ~z〉
〈~x1, ~z〉 = 〈A~y, ~z〉 − 〈A~y, ~z〉 = λ〈~y, ~z〉 ,
woraus 〈~y, ~z〉 fur λ 6= 0 folgt. Damit ist der Satz 4.34 bewiesen.Mit dem Satz 4.34, d.h., der sukzessiven Deflation, kann man also mit Von-Mises-Iterationen samtliche Eigenwerte einer Matrix, beginnend mit dem be-tragsgroßten, und die dazugehorenden Eigenvektoren berechnen.
163
4.3.6 QR-Verfahren26.Vorle-sungam26.01.2010
Das QR-Verfahren zur Berechnung der Eigenwerte der Matrix A basiertauf der sukzessiven Konstruktion von QR-Zerlegungen. Bevor das Verfah-ren erlautert und Konvergenzbetrachtungen angestellt werden, sind einigeAussagen zu QR-Zerlegungen bereitzustellen.
Lemma 4.35. (Eindeutigkeit der QR-Zerlegung)Fur Orthogonalmatrizen Q1, Q2 ∈ R
N×N und regulare rechte Dreiecksmatri-zen R1, R2 ∈ R
N×N seiQ1R1 = Q2R2
erfullt. Dann existiert eine Vorzeichenmatrix S = diag (σ1, . . . , σN) ∈ RN×N
mit σj ∈ −1, 1, so dass
Q2 = Q1S , R2 = SR1
gilt.
Beweis. Nach Voraussetzung gilt
Q−11 Q2 = R1R
−12 =: S .
Produkte und Inverse von orthogonalen Matrizen sind wieder orthogonal,und Gleiches gilt fur Dreiecksmatrizen. Folglich ist S sowohl rechte Dreiecks-matrix als auch orthogonal, d.h.
S−1 = ST , S =
∗ ∗ · · · ∗∗ · · · ∗
. . ....∗
∈ R
N×N . (4.36)
Damit kann S nur eine Diagonalmatrix sein, also eine Matrix S =diag (σ1, . . . , σN) ∈ R
N×N . Aus
S−1 = ST ⇐⇒ ST S = E
folgt σj = 1/σj fur j = 1, . . . , N , also σj ∈ −1, 1.
Definition 4.36. Fur Matrizen Ak = (a(k)ij ) ∈ R
N×N und A = (aij) ∈ RN×N
schreibt man
Ak → A fur k → ∞ :⇐⇒ a(k)ij → aij fur k → ∞ (i, j = 1, . . . , N)
(Ak → A fur k → ∞ gilt genau dann, wenn ||Ak − A|| → 0 fur k → ∞,wobei || · || irgendeine Matrixnorm ist).
164
Fur die folgenden Konvergenzbetrachtungen des noch zu erklarenden QR-Verfahren soll unter O(∆k) fur eine Matrix ∆k als O(||∆k||2) fur die Matri-xeintrage verstanden werden.
Lemma 4.37. (Stetigkeit der QR-Zerlegung)Fur Orthogonalmatrizen Qk, Q ∈ R
N×N und rechte DreiecksmatrizenRk, R ∈ R
N×N sei
=:∆k︷ ︸︸ ︷
QkRk − QR → 0 fur k → ∞ (4.37)
erfullt, und die Matrix QR ∈ RN×N sei regular. Dann existieren Vorzeichen-
matrizen
Sk = diag (σ(k)1 , . . . , σ
(k)N ) ∈ R
N×N mit σ(k)j ∈ −1, 1 , (4.38)
mit
QkSk = Q + O(∆k) , SkRk = R + O(∆k) fur k → ∞ . (4.39)
Beweis. Der Beweis dieses Lemmas zur Stetigkeit der QR-Faktorisierung istrecht aufwendig und soll in den wesentlichen Beweisschritten dargestellt wer-den.Da R, Q und QR regulare Matrizen sind, existiert
Rk := RkR−1 .
Mit
RTk Rk = (R−1)T RT
k RkR−1 = (RT )−1(QkRk)
T (QkRk)R−1
= (RT )−1[(QR)T + O(∆k)](QR + O(∆k))R−1
= (RT )−1RT RR−1
︸ ︷︷ ︸
=E
+O(∆k) fur k → ∞
wurdeRT
k Rk = E + O(∆k) fur k → ∞ , (4.40)
gezeigt. Nun wird mit Hilfe von (4.40) gezeigt, dass fur gewisse Vorzeichen-matrizen Sk ∈ R
N×N der Form (4.38)
SkRk = E + O(∆k) fur k → ∞ , (4.41)
165
gilt. Zum Nachweis der Konvergenzaussage (4.41) betrachtet man die Zerle-gung von Rk
Rk =
r(k)11 ∗ . . . ∗
r(k)22
. . ....
. . . ∗r(k)NN
=: diag (r(k)11 , . . . , r
(k)NN)
︸ ︷︷ ︸
=:Dk
+
0 ∗ . . . ∗...
. . . . . ....
.... . . ∗
0 . . . . . . 0
︸ ︷︷ ︸
=:Uk
,
(4.42)die dadurch begrundet ist, dass Inverse und Produkte von oberen Dreiecks-matrizen wieder Dreicksmatrizen sind. Mit Dk und Uk aus (4.42) wird nun
D2k = E + O(∆k) , Uk = O(∆k) fur k → ∞ (4.43)
gezeigt. Dazu stellt man als erstes
Rk = (RTk )−1 + Bk mit Bk := (RT
k )−1(RTk Rk − E)
fest. Aus (4.40) folgtBk = O(∆k)
wobei außerdem anzumerken ist, dass (4.40) die Beschranktheit der Matrix-
folge R−10 , R−1
1 , . . . impliziert (||R−1k ||2 = ||(RT
k Rk)−1||1/2
2 → 1 fur k → ∞).
Da RTk eine untere Dreiecksmatrix ist, ist auch (RT
k )−1 eine untere Dreiecks-matrix. Damit stimmt notwendigerweise das strikte obere Dreieck (ohne dieHauptdiagonale) von Bk mit dem strikten oberen Dreieck von Uk uberein.Insgesamt erhalt man damit die Darstellung
Bk =
∗∗ ∗...
. . .
∗ · · · · · · ∗
+ Uk = O(∆k) ,
also gilt der zweite Teil von (4.43). Zum Nachweis des ersten Teils von (4.43)findet man
D2k = DT
k Dk = (RTk − UT
k )(Rk − Uk)
= RTk Rk
︸ ︷︷ ︸
=E+O(∆k)
− RTk Uk
︸ ︷︷ ︸
=O(∆k)
− UTk Rk
︸ ︷︷ ︸
=O(∆k)
+ UTk Uk
︸ ︷︷ ︸
O(∆k)
= E + O(∆k)
fur k → ∞. Aus (4.43) folgt nun mit den Vorzeichenmatrizen
Sk = diag (sign(r(k)11 ), . . . , sign(r
(k)NN))
166
(4.41) unmittelbar.
Mit (4.41) folgt nun mit
SkRk = SkRkR = R + O(∆k) ,
QkSk(∗)= (QkRk)(SkRk)
−1 (∗∗)= (QR + O(∆k))(R
−1 + O(∆k))
= Q + O(∆k) fur k → ∞ ,
der Nachweis des Aussage (4.39) des Lemmas, wobei man bei (*)berucksichtigt, dass nach Voraussetzung S2
k = E gilt, und dass fur hinrei-chend große k die Matrix Rk regular ist (ergibt sich aus (4.37), der Regula-ritat von QR und aus ||Q−1
k ||2 = 1). (**) folgt aus dem Storungsresultat furMatrizen
||(A + ∆A)−1 − A−1|| ≤ c||∆A|| fur ||∆A|| ≤ 1
2||A−1|| , mit c = 2||A−1||2 .
Nun soll das QR-Verfahren erklart werden. Fur eine beliebige Matrix A ∈R
N×N wird durch
QR-Algorithmus
A(1) := A ,
bestimme Qk, Rk durch die Faktorisierung A(k) = QkRk ,(4.44)
A(k+1) := RkQk = RkA(k)R−1
k
eine Folge A(1), A(2), . . . erklart, die, wie spater gezeigt wird, fur k → ∞gegen eine Diagonalmatrix konvergiert, die aufgrund der Ahnlichkeit von Aund A(k) die Eigenwerte von A enthalt (oder fur wachsendes k approximierendie Diagonaleintrage von A(k) die Eigenwerte von A).
Fur die weitere Untersuchung des QR-Verfahrens werden einige spezielle Dar-stellungen fur A(k) und Ak benotigt.
Lemma 4.38. Mit den Bezeichnungen aus (4.44) sowie den Festlegungen
Q1...k := Q1Q2 · · ·Qk , Rk...1 := RkRk−1 · · ·R1 , (4.45)
gilt
A(k+1) = Q−1k A(k)Qk ,
A(k+1) = Q−11...kAQ1...k ,
Ak = Q1...kRk...1 ,
fur k = 1, 2, . . . .
167
Der (einfache) Beweis sei als Ubung empfohlen. Zum Konvergenzverhaltendes QR-Verfahrens betrachten wir den
Satz 4.39. Die Matrix A ∈ RN×N sei regular und diagonalisierbar mit be-
tragsmaßig einfachen Eigenwerten λ1, . . . , λN ∈ R, die o.B.d.A. betragsmaßigfallend angeordnet seien,
|λ1| > |λ2| > · · · > |λN | > 0 , (4.46)
und die Inverse der Matrix T = [v1| . . . |vN ] ∈ RN×N der Eigenvektoren
vj ∈ RN zu λj besitze ohne Zeilenvertauschung eine LR-Faktorisierung.
Dann gilt fur den QR-Algorithmus (4.44)
A(k) = SkUSk + O(qk) fur k → ∞, mit q := maxj=1,...,N−1
|λj+1
λj
| ,
mit geeigneten Matrizen von der Form
Sk = diag (σ(k)1 , . . . , σ
(k)N ) ∈ R
N×N , U =
λ1 ∗ . . . ∗λ2
. . ....
. . . ∗λN
∈ R
N×N ,
(4.47)
mit σ(k)j ∈ −1, 1. Insbesondere approximieren die Diagonalelemente von
A(k) = (a(k)ij ) die betragsmaßig fallend sortierten Eigenwerte von A,
maxj=1,...,N
|a(k)jj − λj| = O(qk) fur k → ∞ .
Beweis. Fur die Eigenvektormatrix T wird eine QR-Zerlegung wie folgt be-trachtet
T = QR , Q orthogonal, R =
∗ ∗ · · · ∗∗ · · · ∗
. . ....∗
∈ R
N×N . (4.48)
Nun wirdA(k) = Sk(RDR−1)Sk + O(qk) fur k → ∞ (4.49)
mit einer Matrix Sk ∈ RN×N der Form (4.38) und der Diagonalmatrix
D := diag (λ1, . . . , λN) ∈ RN×N (4.50)
168
gezeigt. Die Aussage des Satzes erhalt man schließlich mit der Matrix U :=RDR−1. Fur den Nachweis von (4.49) wird die vorausgesetzte Faktorisierung
T−1 = LR , L =
1
∗ . . ....
. . . . . .
∗ . . . ∗ 1
∈ R
N×N , R =
∗ ∗ · · · ∗∗ · · · ∗
. . ....∗
∈ R
N×N ,
(4.51)benotigt. Nun gilt
Lk := DkLD−k = E + O(qk) fur k → ∞ , (4.52)
denn mit L = (lij) ergibt sich Lk = ((λi/λj)klij), und dann folgt (4.52)
aus der Ungleichung |λi/λj| ≤ q fur i ≥ j + 1. Weiterhin braucht man eine
QR-Zerlegung von RLk ∈ RN×N , etwa
RLk =: QkRk , Qk ∈ RN×N orthogonal, Rk =
∗ ∗ · · · ∗∗ · · · ∗
. . ....∗
∈ R
N×N .
Aus (4.52) erhalt man die Konvergenz
QkRk = R + O(qk) = E R + O(qk) fur k → ∞ ,
und Lemma 4.37 uber die Stetigkeit der QR-Zerlegung liefert mit einer ent-sprechenden Vorzeichenwahl in den Spalten der Matrix Qk bzw. in den Zeilender Matrix Rk
Qk = E + O(qk) , Rk = R + O(qk) fur k → ∞ . (4.53)
Die Aussage (4.53) ist der erste Schritt zum Nachweis von (4.49). Im zweitenSchritt erhalt man fur die Potenzen Ak, k ≥ 1, die beiden folgenden QR-Zerlegungen,
Ak = TDkT−1 (∗)= QRDkLR
(∗∗)= Q RLk
︸︷︷︸
QkRk
DkR = QQk︸︷︷︸
orthog.
RkDkR
︸ ︷︷ ︸
Dreieck
, (4.54)
Ak = Q1...kRk...1 , (4.55)
wobei (*) aus (4.48), (4.51) folgt, und (**) aus (4.52). Die Eindeutigkeit derQR-Zerlegung (Lemma 4.35) liefert nun
Q1...k = QQkSk+1 ,
Rk...1 = Sk+1RkDkR , mit Sk+1 = diag (σ
(k+1)1 , . . . , σ
(k+1)N ) ∈ R
N×N ,
169
mit geeigneten σ(k+1)j ∈ −1, 1. Daraus folgt
Qk = Q−11...k−1Q1...k = SkQ
−1k−1
=E︷ ︸︸ ︷
Q−1Q QkSk+1 ,
Rk = Rk...1R−1k−1...1 = Sk+1Rk DkRR−1(D−1)k−1
︸ ︷︷ ︸
=D
R−1k−1Sk ,
und daraus schließlich
A(k) = QkRk = Sk Q−1k−1
︸ ︷︷ ︸
→E
Qk︸︷︷︸
→E
S2k+1
︸︷︷︸
=E
Rk︸︷︷︸
→R
D R−1k−1
︸ ︷︷ ︸
→R−1
Sk ,
wobei man aus (4.53) erkennt, dass die angegebenen Konvergenzeigenschaf-ten mit der Rate O(qk) gelten. Die letzten Betrachtungen ergeben nun dieBehauptung (4.49), also
SkA(k)Sk = RDR−1 + O(qk) fur k → ∞ ,
was den Beweis des Satzes abschließt.
Analog zur Uberlegung, die zur inversen Von-Mises-Vektoriteration gefuhrthat, kann man auch bei der QR-Iteration die Konvergenz verbessern, indemman das QR-Verfahren zur Bestimmung der Eigenwerte einer geshiftetenMatrix A − κE mit geeignet zu wahlenden spektralen Shifts κ anwendet.Bei der Berechnung der Folge A(k+1) = Q(k)T
A(k)Q(k) waren Q(k), R(k) dieFaktoren der QR-Zerlegung von A(k), wobei mit A(1) = A gestartet wurde.Fur geeignet zu wahlende Shifts κk ∈ C (Verschiebungen) wird die Folge A(k)
(k = 1, 2, . . . ) durchA(k+1) = R(k)Q(k) + κkE , (4.56)
wobei Q(k), R(k) die Faktoren der QR-Zerlegung von (A(k) − κkE) sind, unddie Wahl von A(1) = A, konstruiert. Eine kurze Rechnung zeigt, dass diedurch (4.56) definierten Matrizen A(k+1) ahnlich zu A sind, denn es gilt
A(k) − κkE = Q(k)R(k) ⇐⇒ R(k) = Q(k)T
(A(k) − κkE) =⇒A(k+1) = R(k)Q(k) + κkE = Q(k)H
(A(k) − κkE)Q(k) + κkE
= Q(k)H
A(k)Q(k) − κkQ(k)H
Q(k) + κkE = Q(k)H
A(k)Q(k) .
Fur die Orthogonalmatrix P (k) = Q(1)Q(2) . . . Q(k) ergibt sich dann dieMatrixaquivalenz A(k) = P (k)H
AP k. Der obere Index H kennzeichnet hierdie Hermite’sche Matrix PH , die durch
PH = P T
mit P = (pij) (pij konjugiert komplex zu pij) definiert ist. Fur reelle Shiftsist PH = P T . Es gilt nun fur das QR-Verfahren mit Shifts der
170
Satz 4.40. (QR-Verfahren mit Shifts)Sei A eine reelle Matrix vom Typ (N × N) mit Eigenwerten λ1, . . . , λN , furdie |λ1| > |λ2| > · · · > |λN | gilt. Dann konvergiert die durch (4.56) definierteFolge A(k) gegen eine obere Dreiecksmatrix Λ, die als Diagonalelemente dieEigenwerte von A(1) = A besitzt. Fur die orthogonalen Matrizen P (k) =Q(1)Q(2) . . . Q(k) gilt P = limk→∞ P (k) und Λ = P T AP .Ist A symmetrisch, dann ist die Matrix Λ eine Diagonalmatrix.Die Geschwindigkeit der Konvergenz gegen die obere Dreiecksmatrix bzw. ge-gen die Diagonalmatrix Λ ist exponentiell und fur ein Element des unterenDreiecks durch
a(k)ij = O(|λi − κk
λj − κk
|k) fur i > j (4.57)
gegeben.
Aus der Beziehung (4.57) wird deutlich, dass man die Geschwindigkeit derKonvergenz gegen die obere Dreiecksmatrix bzw. gegen die DiagonalmatrixΛ durch eine gute Wahl der Shifts κk erhohen kann.Zu den beiden Satzen 4.39 und 4.40 ist anzumerken, dass die QR-Verfahrenauch fur den Fall von mehrfachen Eigenwerten λ1 = · · · = λr (r > 1) von Aim Grenzprozess eine obere Dreiecksmatrix bzw. eine Diagonalmatrix Λ mitden geschilderten Eigenschaften erzeugen.Durch eine geschickte Wahl der Shifts κk kann man |λN −κk| ≪ |λj−κk| undsomit die Konvergenzgeschwindigkeit betrachtlich erhohen. Als gute Wahlhat sich fur den Fall reeller Eigenwerte
κk = a(k)NN
erwiesen. Fur den Fall komplexer Eigenwerte wahlt man als Shift κk denEigenwert λ der (2 × 2)-Matrix
(
a(k)N−1 N−1 a
(k)N−1 N
a(k)N N−1 a
(k)N N
)
,
fur den |a(k)N N − λ| kleiner ist. Diesen Shift bezeichnet man auch als
Wilkinson-Shift (s. dazu weitere Ausfuhrungen in den Buchern vonSchwarz und Barwolff).
Zum Abschluss sei noch darauf hingewiesen, dass es fur das QR-Verfahrenzur Berechnung der Eigenwerte von A offensichtlich von Vorteil ist, wenn dieMatrix wenig Nichtnull-Eintrage im unteren Dreieck hat, so dass ein vorge-schaltete Transformation von A auf eine ahnliche Hessenbergmatrix sinnvollist.
171
Top Related