LINEARE ALGEBRA II · W des affinen Raumes A = p+U, wenn W ein Teilraum von U und q ∈A ist. BCA...
Transcript of LINEARE ALGEBRA II · W des affinen Raumes A = p+U, wenn W ein Teilraum von U und q ∈A ist. BCA...
LINEARE ALGEBRA II
Ao.Univ.-Prof. Mag. Dr. H. KautschitschInstitut fur MathematikUniversitat Klagenfurt
4. Mai 2007
ii
Inhaltsverzeichnis
Einleitung v
IV Geometrie in Vektorraumen 1
14 Affine Geometrie 1
14.1 Affine Raume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
14.2 Affine Eigenschaften von Geraden und Ebenen . . . . . . . . . . . . . . . . . . . 10
14.3 Koordinatensysteme in affinen Raumen . . . . . . . . . . . . . . . . . . . . . . . 17
14.3.1 Affine und kartesische Koordinatensysteme . . . . . . . . . . . . . . . . . 18
14.3.2 Affine Koordinatentransformation . . . . . . . . . . . . . . . . . . . . . . 24
14.4 Konvexe Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
15 Metrische Geometrie 33
15.1 Abstands– und Winkelmessung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
15.2 Volumina von Simplices und Spaten . . . . . . . . . . . . . . . . . . . . . . . . . 37
16 Lineare Optimierung 40
16.1 Geometrische Losung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
16.2 Geometrische Eigenschaften der zulassigen Menge Z . . . . . . . . . . . . . . . . 48
16.3 Hauptsatz der linearen Optimierung . . . . . . . . . . . . . . . . . . . . . . . . . 60
V Linearitat 68
17 Lineare Abbildungen 68
17.1 Elementare Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
17.2 Rang und Defekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
17.3 Anwendung: Lineare Operatorgleichungen . . . . . . . . . . . . . . . . . . . . . . 84
17.4 Rechnen mit linearen Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . 91
17.5 Faktorraume (Quotientenraume) . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
18 Matrizen und Lineare Abbildungen 101
18.1 Matrixdarstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
18.2 Anderung der Matrixdarstellung bei Basiswechsel . . . . . . . . . . . . . . . . . . 106
18.3 Affine Abbildungen (Einschub) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
iii
19 Eigenwerte und Eigenvektoren 129
19.1 Grundlegende Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
19.2 Minimalpolynom einer Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
19.3 Eigenwerte und Eigenvektoren spezieller Matrizen . . . . . . . . . . . . . . . . . 143
20 Linearitat in Skalarproduktraumen 149
20.1 Orthogonale und unitare Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . 149
20.2 Adjungierte Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
20.3 Normale Operatoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
20.4 Projektionen und Orthogonalprojektionen . . . . . . . . . . . . . . . . . . . . . . 161
20.5 Geometrie linearer Operatoren im IR2 bzw. IR3 . . . . . . . . . . . . . . . . . . . 169
VI Vereinfachen von Matrizen 182
21 Diagonalisieren 184
21.1 Aquivalentes Diagonalisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
21.2 Ahnliches Diagonalisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
21.3 Orthogonales (Unitares) Diagonalisieren . . . . . . . . . . . . . . . . . . . . . . . 197
21.4 Anwendungen des Diagonalisierens . . . . . . . . . . . . . . . . . . . . . . . . . . 206
21.4.1 Berechnung von Matrixpotenzen . . . . . . . . . . . . . . . . . . . . . . . 206
21.4.2 Differenzengleichungen und Potenzen Ak . . . . . . . . . . . . . . . . . . . 207
21.4.3 Markovprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
21.4.4 Differentialgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
22 Triangulieren 220
23 Blockdiagonalisieren 226
23.1 Allgemeines Blockdiagonalisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
23.2 JORDAN’scher Normalformensatz . . . . . . . . . . . . . . . . . . . . . . . . . . 233
23.3 Verallgemeinerte Eigenvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
23.4 Matrizenfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
VII Quadratische Formen 252
iv
24 Bilinearformen und Quadratische Formen 252
24.1 Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
24.2 Matrixdarstellung von Bilinearformen . . . . . . . . . . . . . . . . . . . . . . . . 260
24.3 Kongruentes Diagonalisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
25 Hauptachsentransformation von Quadriken 269
25.1 Quadriken in Vektorraumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
25.2 Quadriken in Skalarproduktraumen . . . . . . . . . . . . . . . . . . . . . . . . . . 277
v
Einleitung
Zunachst wird das Kapitel der linearen Gleichungssysteme durch die Determinantentheorie
abgeschlossen. Der Begriff der Determinante entstand ja ursprunglich bei LEIBNIZ aus dem
Bedurfnis, Losungen von Gleichungssystemen durch eine Formel darzustellen.
Anschließend wird gezeigt, wie man Vektorraumtheorie und die Ergebnisse aus der Theorie der
Gleichungssysteme zum Aufbau einer Geometrie, nicht nur im Anschauungsraum, sondern auch
in abstrakten Vektorraumen verwenden kann. Diese geometrischen Begriffsbildungen werden
dann auf lineare Optimierungsproblemen angewendet.
Das fur die lineare Algebra wohl wichtigste Konzept, namlich die Linearitat, definiert als Ver-
traglichkeit mit den Vektorraumoperationen, wird in allgemeinen, wie auch in Skalarproduk-
traumen behandelt und der Zusammenhang mit den Matrizen aufgezeigt. Die Entwicklung der
Eigenwerttheorie und eine Klassifikation von linearen Operatoren, wobei insbesondere auf die
geometrischen Auswirkungen im Anschauungsraum hingewiesen wird, schließen dieses zentrale
Kapitel ab.
Die beiden nachsten Kapitel sind dem Vereinfachen gewidmet. Zunachst wird dargelegt, wie
man durch Links– bzw. Rechtsmultiplikation mit geeigneten Matrizen eine gegebene Matrix auf
eine moglichst ”einfache” Form transformieren kann. Als einfache Formen werden die Diagonal–,
Dreiecks- und Blockdiagonalmatrizen angesehen, insbesondere die JORDAN’sche Blockdiagonal-
form. Statt eines Beweises der letzten Normalform wird deren Erzeugung mittels unbestimmten
Ansatzes bzw. verallgemeinerter Eigenvektoren erlautert. Neben der Herleitung von Kriterien
fur die Vereinfachung und den Spektraldarstellungen wird die Anwendung von Diagonalmatrizen
fur das Losen von Differenzen– und Differentialgleichungen und die Berechnung von Matrizen-
funktionen demonstriert.
Nach den Matrizen werden quadratische Ausdrucke in n Variablen, sogenannten Quadriken, ver-
einfacht. Dazu wird die Theorie der Bilinearformen bzw. der quadratischen Form aufgebaut. Die
Diskussion der Quadriken erfolgt sowohl in allgemeinen Vektorraumen, als auch in Skalarpro-
duktraumen. Abschließend wird noch gezeigt, wie die Geometrie der Kegelschnitte vereinheitlich
und auf eine entsprechende Geometrie der Quadriken verallgemeinert werden kann und damit
gezeigt, wie auch quadratische Gebilde mittels linearer Methoden beschrieben und analysiert
werden konnen.
1
IV GEOMETRIE IN VEKTORRAUMENEs wird dargelegt, wie man die aus der Anschauung bekannten raumlichen Vorstellungen auf
abstrakte Raume verallgemeinern und rechnerisch behandeln kann. In der Linearen Optimierung
finden diese geometrischen Verallgemeinerungen eine nutzliche Anwendung.
14 Affine Geometrie
Bisher haben wir uns in Vektorraumen nur mit solchen Teilmengen beschaftigt, die fur sich selbst
wieder Vektorraume bildeten, also mit Teilraumen. Im Anschauungsraum, den man als einen
reellen Vektorraum auffassen kann, sind dies die unendlich ausgedehnten, nicht gekrummten
Punktmengen durch den Nullvektor 0.
Haufig benotigt man (und das nicht nur in der Geometrie) unendlich ausgedehnte, nicht ge-
krummte Punktmengen, die nicht durch den Nullvektor 0 gehen:
Fur Optimierungsprobleme benotigt man daruber hinaus beschrankte, nicht gekrummte
Punktmengen, die mit je zwei Punkten auch deren gesamte “Verbindungsstrecke” enthalten.
2
Solche Punktmengen sind mit den geometrischen Grundbegriffen (Punkt, Gerade, Ebene, Stre-
cke) verbunden und wir werden sehen, daß sie ebenfalls durch lineare Gleichungen bzw. Unglei-
chungen beschrieben werden konnen.
Wir wollen nun in beliebigen, nicht nur in reellen, Vektorraumen, Teilmengen untersuchen, die
sich so wie die anschaulichen Geraden, Ebenen, Strecken usw. verhalten und nachprufen, wann
und wie diese abstrakten Geraden und Ebenen sich schneiden oder wann sie parallel sind. Jenen
Teil der Geometrie, der sich nur mit solchen Inzidenzbeziehungen beschaftigt, heißt affine
Geometrie. In ihr wird von Abstandsuntersuchungen, Messungen und von “senkrecht stehen
auf” wird nicht gesprochen, dies geschieht in der metrischen Geometrie. Anders als in einer
Geometrievorlesung werden wir aber die Grundbegriffe Punkt, Gerade, Ebene nicht axiomatisch,
sondern mit Begriffen aus der Vektorraumtheorie einfuhren. Die erzielten Ergebnisse stimmen
mit denen der “Elementargeometrie” uberein, aber nur im IR2 bzw. IR3 sehen die abstrakten
Geraden und Ebenen auch wie anschauliche Geraden und Ebenen aus. Dagegen sind die Ergeb-
nisse in beliebigen, abstrakten Vektorraumen oft nicht vorstellbar, aber trotzdem fur Anwendun-
gen wichtig (→ CODIERUNG, APPROXIMATIONEN, LINEARE OPTIMIERUNGEN). Zum
leichteren Verstandnis sollte man sich aber immer die Verhaltnisse im Anschauungsraum (= 2–
oder 3–dimensionaler reeller Vektorraum) vor Augen halten.
Zunachst wollen wir “nichtgekrummte” Punktmengen, die nicht durch 0 gehen, mit Hilfe von
Begriffen aus der Vektorraumtheorie beschreiben:
Man beobachtet: Die Ebene ε entsteht aus U durch Verschieben um ~p.
3
14.1 Affine Raume
Definition 14.1 Affiner Teilraum
V sei ein Vektorraum uber dem Korper K, U sei ein Teilraum von V und p ∈ V .
(i) Ein affiner Teilraum bzw. eine lineare Mannigfaltigkeit von V in Richtung U ist
die Teilmenge
A := {x ∈ V|x = p + u,u ∈ U} = p + U ⊆ V.
Auch so: Ein affiner Teilraum in Richtung U ist eine Nebenklasse von U (ein um p “par-
allelverschobener” Teilraum U).
(ii) Die Dimension eines affinen Teilraumes ist die Dimension seiner Richtung:
dim(A) := dimU.
Bemerkung:
1. Die Differenz von 2 Punkten eines affinen Teilraumes A liegt stets in der Richtung U , diese
heißt daher auch Differenzenraum von A:
x1 − x2 = p + u1 − (p + u2) = u1 − u2 ∈ U
2. Ein affiner Teilraum ist wegen p ∈ A stets nichtleer. Jeder Teilraum ist ein affiner Teilraum
(mit p = 0), insbesondere kann jeder Vektorraum V als affiner Teilraum in Richtung V
aufgefaßt werden!.
Aber: Ein affiner Teilraum A ist nur dann ein Teilraum von V , wenn p ∈ U .
Beachte: im allgemeinen ist 0 6∈ A.
Beispiel: Sei A ∈ Km·n,~b ∈ Km und Rg(A) = r. Die Losungsmenge L = x0 + LH eines
losbaren, inhomogenen linearen Gleichungssystems A~x = ~b ist ein (n − r)−dimensionaler
affiner Teilraum im Kn mit der Losungsmenge des dazugehorigen homogenen Systems A~x = ~0
als Richtung. Die Losungsmenge LH eines homogenen linearen Gleichungssystems A~x = ~0
ist sogar ein (n− r)−dimensionaler Teilraum im Kn.
Die Darstellung von A = p + U ist unabhangig von der Wahl von p: Man kann fur p jeden
Vektor aus A nehmen und beschreibt damit dieselbe Punktmenge, denn es gilt:
4
Satz 14.1 Gleichheit von affinen Teilraumen
Zwei affine Teilraume A1 = p1+U1 und A2 = p2+U2 sind genau dann gleich, wenn sie denselben
Teilraum als Richtung besitzen und wenn die Differenz p1 − p2 in diesem liegt.
Formal:
A1 = A2 ⇔ U1 = U2 =: U und p1 − p2 ∈ U
(ohne Beweis)
Damit:
A = p + U = q + U ⇔ p− q ∈ U
Definition 14.2 Ein affiner Teilraum B = q + W heißt ein affiner Unterraum in Richtung
W des affinen Raumes A = p + U , wenn W ein Teilraum von U und q ∈ A ist.
B C A⇔W C U ∧ q ∈ A
Wir definieren nun die geometrischen Grundbegriffe Punkt, Gerade, Ebene in beliebigen Vek-
torraumen als spezielle affine Teilraume A = p + U :
a) Sei U = {0} :, dann ist
A = p + {0} = {p}, d.h., A enthalt p als einziges Element und es ist dim(A) = 0;
Definition 14.3 Punkt
Ein Punkt P eines Vektorraumes V ist ein nulldimensionaler affiner Teilraum von V .
Kurzschreibweise: P = {p}
Ist P = {p} und Q = {q} dann ist P = Q⇔ q − p ∈ U = {0} ⇔ q − p = 0⇔ q = p.
5
Vereinbarung: Ist P = {p}, dann kann man, um Klammern zu sparen, P mit p identifizieren:
P := p. Der entsprechende Kleinbuchstabe bezeichnet also stets den Vektor, durch den ein Punkt
dargestellt wird.
Jeder Vektor p ∈ V ist also auch ein Punkt P = {p}. Nach der Identifizierung konnen wir zu
den Vektoren aus V auch Punkte aus V sagen, aber strenggenommen gilt nur: P = {p} ⊂ V
und nicht P = {p} ∈ V .
Ist P = {p} und Q = {q} ⇒ q − p ∈ U , d.h., fur je zwei Punkte P,Q ist der Differenzenvektor
im Vektorraum U enthalten, also ein Vektor. Wir setzen:
PQ := q− p = Q−P (“Spitze–Schaft”–Regel)
b) Sei U =< a >:, dann ist
A = p+ < a >= {x ∈ V |x = p + λa, λ ∈ K} und es gilt dim(A) = 1.
Definition 14.4 Gerade
Eine Gerade g eines Vektorraumes V ist ein eindimensionaler affiner Teilraum von V .
Kurzschreibweise: g : x = p + λa, a heißt Richtungsvektor der Geraden g. (1)
Diese Gleichung heißt Punkt–Richtungsform der Geraden g durch P in Richtung < a >. Der
Parameter λ des Punktes X vergleicht die Lage des Punktes X mit jener des Punktes P .
(1) heißt daher auch Parametergleichung der Geraden g.
Eine Gerade g wird also durch eine Vektorgleichung mit einem Parameter beschrieben.
Eine Gerade ist aber auch durch 2 verschiedene Punkte P,Q festgelegt: Die Richtung ist dann
durch < ~PQ >=< q − p > bestimmt. Die Parametergleichung von g lautet dann:
g : x = p + λ(q− p), Zweipunktform der Geraden g durch P und Q.
Sie stellt die Verbindungsgerade g(P,Q) der Punkte P und Q dar: g(P,Q) : x = p+λ(q− p).
c) Sei U =< a,b > mit {a, b} l.u., dann ist
.A = p+ < a, b >= {x ∈ V |x = p + λa + µb, λ, µ ∈ K} und es ist dim(A) = 2.
6
Definition 14.5 Ebene
Eine Ebene ε eines Vektorraumes V ist ein zweidimensionaler affiner Teilraum von V .
Kurzschreibweise: ε : x = p + λa + µb. (2)
(2) heißt Punkt–Richtungsform der Ebene ε durch P in Richtung < a, b >.
Eine Ebene ε wird also durch eine Vektorgleichung mit zwei Parametern beschrieben.
Eine Ebene ist aber auch festgelegt durch 3 Punkte P,Q,R, die nicht auf einer Geraden liegen:
ε : x = p + λ(q− p) + µ(r− p): Dreipunktform der Ebene ε durch P,Q,R.
d) Verallgemeinerung: Sei dim(V ) = n und U =< v1, v2, . . . , vn−1 > mit {v1, v2, . . . , vn−1}
l.u., dann ist
A = {x ∈ V |x = p + λ1v1 + . . . + λn−1vn−1} = {x|x = p +∑n−1
i=1 λivi}.
Definition 14.6 Hyperebene
Eine Hyperebene H eines n−dimensionalen Vektorraumes V ist ein (n−1)−dimensionaler
affiner Teilraum von V .
Die Hyperebenen in einem 3–dimensionalen Vektorraum sind die Ebenen.
Die Hyperebene in einem 2–dimensionalen Vektorraum sind die Geraden.
Die Hyperebenen in einem 1–dimensionalen Vektorraum sind die Punkte.
e) Homogene Parameterdarstellung von affinen Teilraumen.
In den Beschreibungen g : x = p + λu, ε : x = p + λa + µb sieht es so aus, als ob p ausgezeichnet
ist, weil kein Parameter dabei steht. Dies ist jedoch nur scheinbar so:
g : x = p + λu = p− λp + λp + λu = (1− λ︸ ︷︷ ︸λ0
) p︸︷︷︸p0
+ λ︸︷︷︸λ1
(p + u︸ ︷︷ ︸p1
) =
= λ0p0 + λ1p1 mit p0 := p und p1 := p + u und λ0 + λ1 = 1− λ + λ = 1
Allgemein: A sei ein m−dimensionaler affiner Teilraum in Richtung U =< u1, . . . , um >.
Jedes x ∈ A kann als Linearkombination von m + 1 Punkten p0, p1, . . . , pm geschrieben werden,
wobei die Summe der Parameter 1 ist und die Differenzenvektoren ui := pi−p0(i = 1, . . . ,m)
l.u. sind.
A : x = p +m∑i=1
λiui =m∑i=0
µipi mitm∑i=0
µi = 1 und {p1 − p0, . . . ,pm − p0} l.u.
7
Definition 14.7 Affine Hulle
Seien p0, p1, . . . , pm ∈ V .
(i) Eine Affinkombination der Punkte (Vektoren) p0, p1, . . . , pm ist eine Linearkombination
dieser Punkte, wobei die Summe der Parameter 1 ist.
x =m∑
i=0
λipi mitm∑
i=0
λi = 1.
(ii) Die affine Hulle < p0, . . . , pm >A der Punkte (Vektoren) {p0, . . . , pm} ist die Menge aller
Affinkombinationen von p0, . . . , pm.
< p0, . . . , pm >A:=
{x =
m∑i=0
λipi mitm∑
i=0
λi = 1
}.
Es gilt: Die affine Hulle von {p0, . . . , pm} ist der kleinste affine Teilraum, der p0, . . . , pm
enthalt.
(iii) (p0, . . . , pm) heißen Punkte in allgemeiner Lage ⇔
{p1 − p0, . . . , pm − p0} l.u. ⇔ dim(< p0, . . . , pm >A) = m.
Es gilt:
1 Punkt ist immer in allgemeiner Lage.
2 Punkte sind in allgemeiner Lage ⇔ sie sind verschieden.
3 Punkte sind in allgemeiner Lage⇔ ihre Hulle ist eine Ebene. 3 Punkte sind nicht in allgemeiner
Lage ⇔ sie liegen auf einer Geraden.
4 Punkte sind in allgemeiner Lage ⇔ ihre Hulle ist ein 3–dimensionaler Raum. 4 Punkte sind
nicht in allgemeiner Lage ⇔ sie liegen in einer Ebene oder auf einer Geraden.
Damit gilt:
Jeder Punkt eines m−dimensionalen affinen Teilraumes A ist eine Affinkombination
8
von m + 1 Punkten p0, . . . , pm in allgemeiner Lage.
A =
{x|x =
m∑i=0
λipi
}mit
m∑i=0
λi = 1
f) Parallelitat:
Im Anschauungsraum sind 2 Geraden parallel, wenn ihre Richtungsvektoren kollinear, also l.a.
sind. Eine Gerade ist parallel zu einer Ebene, wenn sie zu einer Geraden in der Ebene parallel
ist.
Definition 14.8 Parallelitat
(i) Die affinen Teilraume A1 = p1 + U1 und A2 = p2 + U2 heißen parallel, wenn eine der
Richtungen in der anderen enthalten ist (im besonderen konnen die Richtungen gleich
sein).
(ii) Die affinen Raume A1 und A2 heißen windschief, wenn sie nicht parallel sind und ihr
Durchschnitt leer ist.
A1 windschief zu A2 ⇔ A1 6 ‖A2 und A1 ∩A2 = ∅.
Beispiel: A = K3
A1 =
0BBB@2
1
0
1CCCA+ λ
0BBB@1
0
−1
1CCCA U1 =<
0BBB@1
0
−1
1CCCA >
A2 =
0BBB@−1
2
1
1CCCA+ µ
0BBB@2
−1
1
1CCCA+ ν
0BBB@3
−1
0
1CCCA U2 =<
0BBB@2
−1
1
1CCCA ,
0BBB@3
−1
0
1CCCA >
Es ist U1 ⊂ U2 (RowReduce) ⇒ A1‖A2
A3 =
0BBB@−1
2
1
1CCCA+ r
0BBB@2
−1
1
1CCCA U3 =<
0BBB@2
−1
1
1CCCA >
Es ist U1 6⊂ U3, U3 6⊂ U1 ⇒ A1 6 ‖A3.
Bemerkung: In hoher als 2-dimensionalen Vektorraumen ist die Parallelitat nicht transitiv:
A1‖A2 ∧A2‖A3 6⇒ A1‖A3
g) Abschlußeigenschaften von affinen Raumen
9
Definition 14.9 Verbindungsraum
Ai = pi + Ui seien affine Teilraume in Richtung Ui.
Der Verbindungsraum (die Summe) der affinen Raume Ai ist die Menge aller Punkte.
n∑i=1
Ai := A1 + . . . + An := p +n∑
i=1
Ui +n∑
i=1
< PPi >,Pi ∈ Ai, P ∈n⋃
i=1
Ai
Satz 14.2 Abschlußeigenschaften affiner Raume
(i) Der Durchschnitt von affinen Teilraumen ist entweder leer oder ein affiner Teilraum mit
der Richtung U1 ∩ U2.
A1 ∩A2 = p + (U1 ∩U2),p ∈ A1 ∩A2⋂n1 Ai = p +
⋂ni=1 Ui
(ii) Die Vereinigung von affinen Teilraumen ist im allgemeinen kein affiner Teilraum.
(iii) Die Summe (der Verbindungsraum) von affinen Teilraumen ist der kleinste affine
Teilraum, der die mengentheoretische Vereinigung der gegebenen Teilraume enthalt.
Beispiel:
g = p+ < a >
h = q+ < b >seien 2 verschiedene Geraden in der Ebene (also {a, b} l.u.)
g + h = p+ < a > + < b >= p+ < a, b >= ε
Die eindimensionalen Teilraume < PP1 >,< PP2 > liefern keine neuen Beitrage.
Beispiel: g und h seien 2 verschiedene Geraden im Teilraum V 3 mit leerem Durchschnitt (wind-
schiefe Gerade): g = p + λa, h = q + µb.
g + h = p+ < a > + < b > + < ~PQ >=
= p+ < a, b, ~PQ >= Teilraum V 3.
Satz 14.3 Dimensionssatz fur affine Teilraume
dim(A1) + dim(A2) = dim(A1 + A2) + dim(A1 ∩A2), wenn A1 ∩A2 6= ∅
dim(A1) + dim(A2) = dim(A1 + A2) + dim(U1 ∩U2)− 1, wenn A1 ∩A2 = ∅
Folgt aus dem Dimensionssatz fur Teilraume (ohne Beweis).
10
14.2 Affine Eigenschaften von Geraden und Ebenen
“Affin” soll dabei bedeuten, daß wir uns nur auf Schnitt– und Parallelitatseigenschaften konzen-
trieren, nicht jedoch z.B. auf Abstande. Wir werden zeigen, daß sich die Geraden oder Ebenen
eines Vektorraumes V uber einem Korper K (bzw. die 1– oder 2–dimensionalen linearen Man-
nigfaltigkeiten) tatsachlich wie die “anschaulichen” Geraden oder Ebene verhalten. Aber nur in
reellen Vektorraumen kann man sich eine Gerade so vorstellen:
Im allgemeinen ist dies nicht der Fall: Eine Gerade g = p + U ist ein 1–dimensionaler affi-
ner Teilraum und geht daher durch Verschieben des 1–dimensionalen Vektorraumes U hervor,
U gleichmachtig mit K. In einem komplexen Vektorraum (K = IC) besteht eine Gerade daher
aus allen komplexen Zahlen, also aus allen Punkten der GAUSS’schen Zahlenebene (!) und fur
K = GF (2) besteht g nur aus 2 Punkten. Deshalb muß man sich schon sorgfaltig uberlegen,
daß affine Geraden sich auch tatsachlich so wie die Geraden des Anschauungsraumes verhal-
ten. Fur 3–dimensionale reelle Vektorraume erhalten wir so die ublichen Aussagen der
Elementargeometrie.
Satz 14.4 Punkte und Geraden
(i) Durch zwei verschiedene Punkte P und Q gibt es genau eine Gerade, namlich die Verbin-
dungsgerade
g(P,Q) : x = p + λ(q − p)
(ii) Durch einen Punkt Q, der nicht auf der Geraden g liegt, gibt es genau eine Gerade h, die
zu g parallel ist (EUKLIDISCHES AXIOM).
11
Beweis: (i) g(P,Q) : x = p + λ(q − p) enthalt fur λ = 0 den Punkt P und fur λ = 1 den Punkt
Q. Ist h : x = p+ < a > eine weitere Gerade, die P und Q enthalt, dann ist q−p ∈< a >, wegen
q − p 6= 0 ist < a >=< q − p >, also h : x = p+ < q − p >= p+ < a >= g
(iii) Sei g : x = p+λa und Q 6∈ g. h : x = q +λa enthalt Q (fur λ = 0) und ist parallel zu g. Ist
h1 : x = q + U eine weitere zu g parallele Gerade durch Q, dann ist U ⊆< a > und damit
wegen dim(U) = 1 = dim(< a >) : U =< a >, also ist h1 = h.
Bemerkung: Die durch die Vektorraumtheorie definierten Grundbegriffe Punkt, Gerade, Ebe-
ne erfullen die Axiome einer EUKLIDISCHEN GEOMETRIE. Grund: Die Vektorraumaxiome
entsprangen aus der anschaulichen (= euklidischen) Raumvorstellung.
Satz 14.5 Parallele Geraden
g und h seien zwei parallele Geraden einer Ebene mit dem gemeinsamen Richtungsvektor a
und P ∈ g,Q ∈ h. Dann gilt:
(i) g und h haben genau dann keinen gemeinsamen Punkt wenn {a, ~PQ} l.u.
(nicht kollinear) sind:
g ∩ h = ∅ ⇔ {a, ~PQ} l.u.
(ii) g und h fallen genau dann zusammen, wenn {a, ~PQ} l.a. (kollinear) sind
g = h⇔ {a, ~PQ} l.a.
Da {a, ~PQ} entweder l.u. oder l.a. sein konnen gillt also:
Zwei parallele Geraden fallen entweder zusammen oder sie sind elementfremd.
Beweis:g : x = p + λa, h : x = q + µa
g ∩ h haben gemeinsame Punkte ⇔ ∃λµ,∈ K : p + λa = q + µa ⇔ q − p = (λ− µ)a
1. Fall: {a, q − p} l.u. ⇔6 ∃λ, µ ∈ K mit : (λ− µ)a = q − p ⇔6 ∃ gemeinsame Punkte.
12
2. Fall: {a, q − p} l.a. ⇔ q − p = la ⇔ q = p + la oder p = q − la. Damit gilt: Ist R ein Punkt von g ⇒ r =
p + λa ⇒ r = q − la + λa ⇒ r = q + (λ − l)a ⇒ R ist auch ein Punkt von h. Ist S ein Punkt von
h ⇒ s = q + µa ⇒ s = p + la + µa ⇒ s = p + (λ + µ)a ⇒ S ist auch ein Punkt von g, insgesamt ist g mit
h identisch (zusammenfallend).
Beispiel:
Sind die beiden Geraden g, h im K3 parallel, verschieden oder zusammenfallend?
g : ~x =
135
!+ λ
−25
−3
!
h = ~x =
−182
!+ µ
4
−106
!
4−10
6
!= −2
−25
−3
!⇒< a >=< b >⇒ g‖h
q − p =
−25
−3
!∈< a >⇒ {a, q − p}l.a. ⇒ g = h.
Satz 14.6 Nichtparallele Geraden
g und h seien 2 nichtparallele Geraden eines zumindest 3−dimensionalen affinen Teilraum A
mit den nichtkollinearen Richtungsvektoren a, b und P ∈ g,Q ∈ h.
Damit gilt:
(i) g und h windschief ⇔ {a, b, ~PQ} nicht komplanar:
g ∩ h = ∅ ⇔ {a,b, PQ} l.u.
(ii) g und h haben genau einen Schnittpunkt ⇔ {a, b, ~PQ} komplanar:
g ∩ h = {S} ⇔ {a,b, PQ} l.a.
Also: Zwei nichtparallele Geraden in einem zumindest 3–dimensionalen Raum haben
entweder genau einen Schnittpunkt oder sie sind windschief.
Zwei nichtparallele Geraden einer Ebene schneiden einander in genau einem Punkt.
13
Beweis:g : x = p + λa, h : x = q + µb, {a, b} l.u.
g ∩ h = {S} ⇔ ∃λ, µ ∈ K : p + λa = q + µb ⇔ ∃λ, µ ∈ K : q − p = λa− µb (3)
1. Fall: {q − p, a, b} l.u. ⇔ (3) hat keine Losung (λ, µ) ⇔ g ∩ h = ∅.
2. Fall: {q − p, a, b} l.a. ⇒ q − p ist Lkbt. von a, b ⇒ (weil {a, b} l.u.)
∃ k, l ∈ K : q − p = ka + lb
(wegen {a, b} l.u. sind k und l eindeutig bestimmt) ⇔∃1 k, l ∈ K : p + ka = q − lb ⇔
∈ g ∈ h
g und h haben genau einen Punkt gemeinsam.
Folgerung: Zwei nichtparallele Geraden einer Ebene schneiden einander stets in genau einem
Punkt.
Beweis: {q − p, a, b} sind in einem 2–dimensionalen Raum stets l.a.
Flußdiagramm fur die Lage zweier Geraden g : p + λa und h : x = q + µb in einem zumindest
3–dimensionalen affinen Raum:
14
Zusammenfassung:
Satz 14.7 Verhalten von Geraden
(i) Zwei Geraden in einem zumindest 3–dimensionalen affinen Raum sind entweder parallel
(auch zusammenfallend) oder sie schneiden einander in genau einem Punkt oder sie sind
windschief.
(ii) Zwei Geraden in einer Ebene sind entweder parallel (auch zusammenfallend) oder sie
schneiden einander in genau einem Punkt.
Ahnlich kann man fur Ebenen zeigen:
Satz 14.8 Parallele Ebenen
ε1, ε2 seien 2 parallele Ebenen mit Richtung U =< a, b >, P ∈ ε1, Q ∈ ε2 und
ε1 : p + λ1a + µ1b, ε2 : q + λ2a + µ2b.
(i) Haben zwei parallele Ebenen auch nur einen Punkt gemeinsam, so fallen sie zusammen
(ii) ε1 = ε2 ⇔ {a, b, ~PQ} l.a. (komplanar)
(iii) ε1 ∩ ε2 = ∅ ⇔ {a, b, ~PQ} l.u. (nicht komplanar)
Satz 14.9 Nicht parallele Ebenen
Zwei nicht parallele Ebenen eines 3–dimensionalen affinen Raumes schneiden einander stets in
genau einer Geraden.
Beweis:ε1 : x = p + ka + lb (k, l) ∈ K
ε2 : x = q + rc + sd (r, s) ∈ K
ε1]ε2 ⇒< a, b > 6=< c, d >
ε1 ∩ ε2 6= ∅ ⇔ ∃ Skalare k, l, r, s ∈ K mit:
p + ka + ld = q + rc + sd ⇔ q − p = ka + lb− rc− sd (4)
{q − p, a, b, c, d} sind l.a., 2 von ihnen lassen sich durch 3 l.u. Vektoren, etwa a, b, c (wegen der Nichtparallelitat
mussen in einem 3–dimensionalen Raum 3 der Vektoren a, b, c, d l.u. sein) eindeutig darstellen:
+
8>>><>>>:q − p = ra + sb + tc
d = ua + vb + wc
λd = λua + λvb + λwc
| · λ
15
q − p + λd = (r + λu)a + (s + λv)b + (t + λw)c
∀λ : q − (t + λw)c + λd| {z }∈ε2
= p + (r + λµ)a + (s + λv)b| {z }∈ε1
(5)
Formt man (5) um:
(q − tc) + λ(d− wc) = (p + ra + sb) + λ(ua + vb) =: g.
Man sieht, daß die gemeinsamen Punkte auf einer Geraden, der Schnittgeraden von ε1 und ε2
liegen.
Bemerkung: In einem 4–dimensionalen Vektorraum konnen {a, b, c, d} auch l.u. sein. Dann
schneiden die Ebenen einander in genau einem Punkt!
Zusammenfassung:
Satz 14.10 Verhalten von Ebenen in 3–dimensionalen Raumen
Zwei Ebenen eines 3−dimensionalen affinen Raumes sind entweder parallel (konnen auch zu-
sammenfallen) oder sie schneiden einander in einer Geraden.
Flußdiagramm fur die Lage zweier Ebenen ε1 und ε2 in einem 3–dimensionalen Vektorraum:
Analog erhalt man:
Satz 14.11 Gerade und Ebene
Eine Gerade eines 3–dimensionalen Vektorraum V ist entweder parallel zu einer Ebene des
Raumes (kann auch ganz in der Ebene liegen) oder die Gerade schneidet die Ebene in genau
einem Punkt.
16
Flußdiagramm uber die Lage einer Geraden und einer Ebene in einem 3–dimensionalen Vek-
torraum:
Beispiel: V = K3
ε : x =
pz }| {0BBB@3
2
1
1CCCA+λ
az }| {0BBB@4
−1
6
1CCCA+µ
bz }| {0BBB@−3
−4
1
1CCCA
g : x =
qz }| {0BBB@1
3
1
1CCCA+r
cz }| {0BBB@1
−5
7
1CCCA1. Ist < c >⊆< a, b >⇔ {a, b, c} l.a.?
1 −5 7
4 −1 6
−3 −4 1
1 −5 7
0 19 −22
0 −19 22
1 −5 7
0 19 −22
0 0 0
⇒ l.a. ⇒ g‖ε
2. Ist g ganz in ε enthalten? ⇔ {q − p, a, b} l.a.?0BBB@−1
3
1
1CCCA−
0BBB@3
2
1
1CCCA =
0BBB@−4
1
0
1CCCA−4 1 0
4 −1 6
−3 −4 1
−4 1 0
0 0 6
0 19 −4
l.u. ⇒ g 6⊂ ε ⇒ g ∩ ε = ∅
17
Bemerkung: Abstrakte Geraden verhalten sich wie anschauliche Geraden.
Abstrakte Ebenen verhalten sich in 3–dimensionalen Raumen wie anschauliche Ebenen, in hoher-
dimensionalen Raumen treten unanschauliche Sachverhalte auf (z.B. zwei Ebenen schneiden
einander in einem Punkt!).
Beachte: Wir haben die Begriffe Punkt, Gerade und Ebene mit Hilfe der Vektorraumaxio-
me und den daraus abgeleiteten Begriffen definiert und durch Gleichungen beschrieben (→
ANALYTISCHE GEOMETRIE).
In der SYNTHETISCHEN Geometrie sind Punkt, Gerade und Ebene undefinierte Grund-
begriffe, die gewisse Spielregeln (→ Euklidische Axiome) erfullen. Unsere definierten Punkte,
Geraden und Ebenen erfullen dieselben Spielregeln, es sind dies aber Satze, die bewiesen wer-
den mussen (im Gegensatz zu den Axiomen).
Analog kann man alle ublichen geometrischen Satze aus den Vektoraxiomen herleiten. Die durch
den Vektorraum definierten Punkte, Geraden und Ebenen verhalten sich so wie die anschaulichen
Punkte, Geraden und Ebenen.
Grund: Die Vektorraumaxiome wurden aus der Anschauung entnommen.
Vorteil der analytischen Methode: Man braucht von einer Menge von (auch abstrakten) Objek-
ten (wie z.B. Funktionen, n−Tupel, ...) nur die 9 Vektorraumaxiome uberprufen und weiß dann,
daß auch fur diese abstrakten Objekte die ublichen geometrischen Satze gelten, also auch z.B. fur
Geraden aus Funktionen, n−Tupeln usw. Daruber hinaus kann das Herleiten bzw. der Umgang
rechnerisch, durch Auflosen von Gleichungen erfolgen (→ ANALYTISCHE GEOMETRIE), was
wesentlich bequemer ist, als das axiomatische Schließen (→ SYNTHETISCHE GEOMETRIE).
Wir zeigen im folgenden, daß auch in abstrakten, endlich dimensionalen Vektorraumen Punkt-
mengen durch Systeme von (meist linearen) Gleichungen und Ungleichungen beschrieben werden
konnen. (Bisher haben wir nur im Vektorraum Kn der n−Tupel Teilraumen und affine Raume
durch lineare Gleichungssysteme beschrieben.) Dazu werden, so wie in der anschaulichen Ebene
bzw. im anschaulichen Raum, Koordinatensysteme eingefuhrt.
14.3 Koordinatensysteme in affinen Raumen
Um affine Raume uber einem Korper K durch Gleichungen uber K beschreiben zu konnen, muß
man Punkten Korperelemente (Skalare) zuordnen konnen. Dies wird moglich durch Einfuhrung
von Koordinatensystemen. Sie entspricht der Einfuhrung von Basen in Vektorraumen.
18
14.3.1 Affine und kartesische Koordinatensysteme
Beispiel: In der 2−dimensionalen Ebene ε werden 3 Punkte P0(p0), P1(p1), P2(p2) allgemeiner
Lage ausgezeichnet, d.h. p1 − p0, p2 − p0 sind l.u,, also eine Basis der Richtung U der Ebene ε:
U =< p1 − p0, p2 − p0 >.
~P0X = x−p0 heißt Ortsvektor des Punktes X bezuglich des Koordinatensystems {P0, P1, P2}.
x− p0 = x1(p1 − p0) + x2(p2 − p0)
x = p0 + x1(p1 − p0) + x2(p2 − p0)⇔ X(x1|x2)
Weil p1 − p0, p2 − p0 l.u., sind x1, x2 eindeutig bestimmt. Sie heißen die Koordinaten
[X] = (x1|x2) des Punktes X bezuglich {P0, P1, P2}. Die Koordinaten von X bezuglich des
Koordinatensystem {P0, P1, P2} sind die Koordinaten (Komponenten) des Ortsvek-
tors bezuglich der Basis { ~P0, P1, ~P0P2} von U .
KOORDINATEN eines Punktes = KOMPONENTEN seines Ortsvektors.
Ein Koordinatensystem in einem affinen Raum einfuhren heißt, Punkte auszeichnen.
Es gilt:~QX = ~P0X − ~P0Q⇒ [ ~QX] = [ ~P0X]− [ ~P0Q] = [X]− [Q]
[ ~QX] = [X]− [Q] “Spitze–Schaft”–Regel
19
Allgemein:
Definition 14.10 Affine und kartesische Koordinatensysteme
A sei ein n−dimensionaler affiner Teilraum mit Richtung U in einem Vektorraum V uber K.
(Beachte, daß A auch ganz V sein kann, dann ist U = V ).
Ein Koordinatensystem von A ist ein geordnetes (n + 1)−Tupel
S := (P0, P1, . . . , Pn) von n + 1 Punkten aus A in allgemeiner Lage, d.h.
BS = ~{P0P1, ~P0P2, . . . , ~P0Pn} ist eine Basis der Richtung U .
P0 heißt Ursprung, P1, . . . , Pn heißen Einheitspunkte von S, die Geraden
ki : x = p0 + λ(pi − p0), i = 1, . . . , n
heißen die i−ten Koordinatenachsen des Koordinatensystems S.
BS heißt die zu S gehorige Basis von U .
Ist (V,<>) ein Skalarproduktraum, dann heißt S ein kartesisches Koordinatensystem von
A, wenn BS eine ON–Basis von V ist. Ist BS keine ON–Basis, dann heißt S ein affines Ko-
ordinatensystem von A.
Jeder Punkt X(x) ∈ A laßt sich dann eindeutig in der Form
x = p0 +n∑
i=1
xi(pi − p0)
darstellen.
Der Vektor ~P0X = x − p0 heißt Ortsvektor von X bezuglich S, die Skalare x1, . . . , xn heißen
Koordinaten des Punktes X bezuglich des Koordinatensystems S.
Das n−Tupel (x1|x2| . . . |xn) heißt Koordinatenvektor von X.
X(x1|x2| . . . |xn)⇔ ~P0X = (x1, x1, . . . , xn)⇔ ~P0X := x = p0 +n∑
i=1
xi(pi − p0)
Satz 14.12 Koordinatenvektor und Ortsvektor
Der Koordinatenvektor eines Punktes bezuglich eines Koordinatensystems ist gleich dem Kom-
ponentenvektor seines Ortsvektors bezuglich der zugehorigen Basis.
Weiters gilt: [QX]BS= [X]S − [Q]S.
Die Koordinaten eines Vektors bezuglich der zugehorigen Basis sind die Differenzen der Koor-
dinaten des Endpunktes und des Anfangspunktes des Vektors (“Spitze–Schaft”–Regel).
20
Gegeben sei nun ein inhomogenes lineares Gleichungssystem A~x = ~b uber K von m Gleichungen
in n Unbekannten vom Rang r also
A ∈ Kmn, Rg(A) = r.
Die Losungsmenge L ist gegeben durch
L = x0 + λ1 ~x1 + . . . + λn−r ~xn−r = x0+ < ~x1, . . . , ~xn−r >.
Wiederholung:
(i) Die Losungsmenge L eines linearen inhomogenen Gleichungssystems A~x = b von m Glei-
chungen in n Unbekannten vom Rang r ist ein (n − r)−dimensionaler affiner Unter-
raum des Kn (oder die leere Menge).
(ii) Die Losungsmenge eines homogenen linearen Gleichungssystems A~x = ~0 von m Gleichun-
gen in n Unbekannten vom Rang r ist ein (n− r)−dimensionaler Teilraum vom Kn.
Die Einfuhrung von Koordinatensystem in affinen Raumen ermoglicht es nun umgekehrt, die-
se durch inhomogene LGS zu beschreiben (Gleichungsdarstellung, parameterfreie Dar-
stellung affiner Raume). Analog gestattete die Einfuhrung von Basen in Vektorraumen die
Beschreibung von Teilraumen durch homogene LGS.
Satz 14.13 Gleichungsdarstellung von affinen Raumen
A sei ein n−dimensionaler affiner Raum uber dem Korper K mit einem Koordinatensystem S.
B sei ein m−dimensionaler affiner Unterraum von A.
Dann gibt es ein i.a. inhomogenes lineares Gleichungssystem vom Rang n − m, dessen
Losungsmenge gerade die Koordinatenvektoren der Punkte von B bezuglich S sind.
Dieses den affinen Unterraum beschreibende Gleichungssystem ist nicht eindeutig bestimmt.
Beweisidee: B = p + U = {x|x = p + λ1u1 + . . . + λmum},m = dim(B). Dabei sei {u1, . . . , um}
eine Basis von U . Dann besitzt x− p ∈ U eine eindeutige Darstellung:
x− p = λ1u1 + . . . + λmum, λi ∈ K. (6)
Nun berechnet man die Koordinaten [X] von X, [p] von p bezuglich des Koordinatensystems S
von A und die Komponenten [u1], . . . , [un] der Vektoren u1, . . . , un bezuglich der dazugehorigen
21
Basis BS von U : Es sind [X], [p], [ui] ∈ Kn!(6) ist wegen der Linearitat der Komponentenbildung aquivalent zu:
[x− p]BS= λ1[u1] + . . . + λm[um]
↓[ ~PX]BS
= [X]S − [P ]S
also: λ1[u1] + . . . + λm[um] = [X]− [P ]. (7)
Das ist ein inhomogenes LGS mit n Gleichungen in den m Unbekannten λ1, . . . , λm mit der
Koeffizientenmatrix ([u1], . . . , [um]), die wegen der linearen Unabhangigkeit von u1, . . . , um den
Rang m hat. Also hat (7) eine eindeutige Losung λ1, . . . , λm (Rang = ] Unbekannten). Setzt
man diese in (7) ein, so erhalt man n−m ubrigbleibende Gleichungen in
[x] = (x1, x2, . . . , xn) vom Rang n − m (weil dim(B) = m). Man erhalt diese bequem aus
(7) durch das Eliminationsverfahren (siehe folgendes Beispiel) bzw. mittels Z(A) = N(U) und−→b = A−→p .
Da das Eliminationsverfahren nicht eindeutig bestimmt ist, sind auch die Gleichungen nicht
eindeutig bestimmt.
Zusammenfassung:
(i) Ein m–dimensionaler Teilraum eines n–dimensionalen Vektorraumes kann durch ein ho-
mogenes Gleichungssystem in n Variablen vom Rang n–m beschrieben werden.
(ii) Ein m–dimensionaler affiner Raum eines n–dimensionalen Vektorraumes kann durch
ein inhomogenes lineares Gleichungssystem in n Variablen vom Rang n–m beschrieben
werden.
Beispiel: V = P2 = A P2 =< 1, x, x2 >, Standardbasis St, dim(P2) = 3
Sei p0 = 1 + x, p1 = x− x2, p2 = 3x + x2
a) p0, p1, p2 sind in allgemeiner Lage:
p1 − p0 = −1− x2, p2 − p0 = 1 + 2x + x2
[p1 − p0]St = (−1, 0,−1)
[p2 − po]St = (−1, 2, 1)
22
b) Ebene ε(p0, p1, p2) : durch p0, p1, p2
ε : f = 1 + x + λ(−1− x2) + µ(−1 + 2x + x2) = p + U
U =< −1− x2,−1 + 2x + x2 >
p = 1 + x
c) Koordinatensystem S = (0, 1, x, x2) von P2
1− 0 = 1
x− 0 = x
x2 − 0 = x2
l.u., [−1− x2]S =
−1
0
−1
=: ~u1, [−1 + 2x + x2]S =
−1
2
1
=: ~u2
[f ]S = [a0 + a1x + a2x2]S =
a0
a1
a2
, ε =
f |[f ] =
1
1
0
+ λ
−1
0
−1
+ µ
−1
2
1
[1 + x]S =
1
1
0
= ~x0
Z(A) = N(U) U =< (−1, 0,−1), (−1, 2, 1) >
NullSpace[{{−1, 0,−1}, {−1, 2, 1}}]
Z(A) = (−1,−1, 1)
~b = A · ~x0 = (−1,−1, 1)
1
1
0
= −2
LGS: −a0 − a1 + a2 = 2
a0 + a1 − a2 = 2
ε = {f = a0 + a1x + a2x2|a0 + a1 − a2 = −2}
Die Ebene ε wird durch 1 = 3 − 2 lineare Gleichungen in 3 = dim(P2) Unbekannten
beschrieben.
d) g(p,q)mit p = 3 + 2x + x2
q = 4 + x− 3x2
g =
f |[f ] =
3
2
1
+ r
1
−1
−4
g : f = 3 + 2x + x2 + λ(1− x− 4x2)
U = < (1,−1,−4) > ~x0 = (3, 2, 1)1
Z(A) = N(U) =< (4, 0, 1), (1, 1, 9) >
23
~b = A · x0 = (13, 5)
g :
4a0 + a2 = 13
ao + a1 = 5g = {f = a0 + a1x + a2x2|4a0 + a2 = 13,a0 + a1 = 5}
Die Gerade g wird durch 2 = 3−1 Gleichungen in 3 = dim(P2) Unbekannten beschrieben.
e) Nun bestimmen wir den Durchschnitt von ε mit g
ε ∩ g : 1− x− 4x2 l.u. von −1− x2,−1 + 2x + x2
1 −1 −4
−1 0 −1
−1 2 1
RowReduce
1 0 0
0 1 0
0 0 1
⇒ l.u.dabei haben wir benutzt:
{vi} l.u. ⇒ {[vi]} l.u.
ε ∩ g = {f = a0 + a1x + a2x2
∣∣∣∣∣∣∣∣∣a0 + a1 − a2 = 2
4a0 + 1a2 = 13
a0 + a1 = 5
Weil P der Rang dieses LGS 3 ist, erhalt man eine eindeutige Losung.
LinearSolve [A,~b] ~b = (2, 13, 5)t(52 , 5
2 , 3)
ε ∩ g = {P} mit P = 52 + 5
2x + 3x2
P ∈ g : 3 + 2x + x2 + λ(1− x− 4x2) = 52 + 5
2 + 3x2
3 + λ = 52
λ = −12
Koeffizientenmatrix
52 + 5
2x + 3x2 = 3 + 2x + x2 − 12(1− x− 4x2)
oder mit Koordinaten in K3:52
52
3
=
3
2
1
+ λ
1
−1
−4
Analog sieht man, daß P ∈ ε.
24
14.3.2 Affine Koordinatentransformation
So wie man die Anderung der Koordinaten von Vektoren bei Wechsel der Basis durch regulare
Matrizen beschreiben kann, kann man auch die Anderung der Punktkoordinaten bei Wechsel des
Koordinatensystems durch ein Matrix–Vektor–Paar beschreiben.
A sei ein n−dimensionaler affiner Raum in einem Vektorraum uber dem Korper K. Ein Wechsel
des Koordinatensystems in A ruft auch einen Wechsel der Koordinaten eines Punktes x ∈ A
hervor.
S = (P0, P1, . . . , Pn): “altes” Koordinatensystem
S′ = (P ′0, P
′1, . . . , P
′n): “neues” Koordinatensystem
[x]S = (x1| . . . |xn): “alte” Koordinaten des Punktes X
[x]s,= (x′1| . . . |x′n): “neue” Koordinaten des Punktes X
Wie beim Basiswechsel drucken wir die neuen Punkte durch die alten aus:
P ′0 = P0 +
∑ni=1 ti ~P0Pi ⇔ p′0 = p0 +
∑ni=1 ti(pi − p0)
P ′j = P ′
0 +∑n
i=1 tij ~P0Pi ⇔ p′j = p0 +∑n
i=1 tij(pi − p0)
Ausfuhrlich:p′1 − p′0 = t11(p1 − p0) + t21(p2 − p0) + . . . tn1(pn − p0)
p′2 − p′0 = t12(p1 − p0) + t22(p2 − p0) + . . . tn2(pn − p0)...
p′n − p′0 = t1n(p1 − p0) + t2n(p2 − p0) + . . . tnn(pn − p0)
T := (tij) =
t11 t12 . . . t1n
t21 t22 . . . t2n
...tn1 tn2 . . . tnn
(transponiert definiert!) ,~t = (t1, t2, . . . , tn)t
T ist regular, weil auch {p′1 − p′0, . . . , p′n − p′0} l.u. sind ((P ′
0, . . . , P′n) ist wieder ein Koordina-
tensystem).
25
T ist sogar orthogonal (unitar), wenn ein kartesisches Koordinatensystem wieder auf ein
solches transformiert werden soll.
x = p′0 +∑n
j=1 x′j(p′j − p′0) =
= p0 +∑n
i=1 ti(pi − p0) +∑n
j=1 x′j∑n
i=1 tij(pi − p0) =
= p0 +∑n
i=1 ti(pi − p0) +∑n
i=1(∑n
j=1 tijx′j)(pi − po) =
= p0 +∑n
i=1(∑n
j=1 tijx′j + ti)(pi − p0) =
= p0 +∑n
i=1 xi(p′j − p′0)
Weil {p1 − p0, p2 − p0, . . . , pn − po} l.u. ist, folgt aus der eindeutigen Darstellbarkeit:
xi =n∑
j=1
tijx′j + ti fur i = 1, . . . , n
Also:[X]S = T [X]S′ + ~t bzw.
[X]alt = T [X]neu + ~t
Da T regular ist, existiert T−1 und wir erhalten:
[X]alt − t = T [X]neu
[X]neu = T [X]−1([X]alt − t) = T−1[X]alt − T−1t
Satz 14.14 Affine und kartesische Koordinatentransformationen
A sei ein n−dimensionaler affiner Raum eines Vektorraumes V , X ∈ A.
S := (P0, P1, . . . , Pn) sei ein Koordinatensystem in A.
T := (tij) ∈ Kn·n, t := (t1, z2, . . . , tn)t ∈ Kn.
P ′0 := P0 +
∑i=1 ti ~P0Pi
P ′j := P ′
0 +∑n
i=1 +tij ~P0Pi fur j = 1, . . . , n.
Dann gilt: S′ := (P ′0, P
′1, . . . , P
′n) ist genau dann ein Koordinatensystem in A, wenn T regular
ist. Die zugehorige Koordinatentransformation wird dann beschrieben durch:
[X]alt = T[X]neu + t bzw. [X]neu = T−1[X]alt −T−1t.
Ist S ein kartesisches Koordinatensystem, dann ist S′ genau dann wieder ein kartesisches Ko-
ordinatensystem, wenn T eine orthogonale (unitare) Matrix ist. Fur die neuen Koordinaten
gilt dann insbesondere:
[X]neu = Tt[X]alt −Ttt
26
T heißt Koordinatentransformationsmatrix von S → S′. Sie ist die Transponierte jener
Matrix, die angibt, wie sich die neuen Ortsvektoren von P ′1, . . . , P
′n durch die alten ausdrucken
lassen.
t heißt der Translationsvektor von S → S′. Er ist der Koordinatenvektor des neuen Ursprungs
bezuglich S.
Affine Koordinatenformationen konnen also durch eine regulare Matrix + Translationsvektor
beschrieben werden.
Erinnerung: Basiswechsel werden nur durch eine regulare Matrix allein beschrieben.
Affiner Koordinatenwechsel Komponentenwechsel
[X]alt = T [X]neu + t [x]alt = P [x]neu
14.4 Konvexe Mengen
In diesem Kapitel werden die aus der Anschauung bekannten Punktmengen Strecke, Dreieck,
Pyramide, Halbstrahl u.a. auf abstrakte Vektorraume verallgemeinert. Sie sind keine Teilraume
oder affine Raume, werden aber speziell bei Optimierungsproblemen (→ Operations Research)
benotigt. Zu ihrer Definition benotigt man allerdings angeordnete Skalarkorper.
Einige Beobachtungen;
Strecke PQ:
Gerade durch P,Q : x = p + µ(q − p) = (1− µ)p + µq = λ1p + λ2q mit λ1 + λ2 = 1
(λ1 = 1− µ, λ2 = µ)
λ1 = 1⇒ λ2 = 0⇒ x = p
λ1 = 0⇒ λ2 = 1⇒ x = q
Fur einen Punkt x ∈ PQ gilt: x = p + µ(q − p) mit 0 < µ < 1⇒ λ1 = 1− µ > 0, λ2 = µ > 0.
Also: X ∈ PQ⇔ x = λ1p + λ2q mit λ1 + λ2 = 1, λ1, λ2 ≥ 0
27
Dreieck (PQR):
Ebene durch P,Q,R : x = p + µ(q − p) + ν(r − p)
= λ1p + λ2q + λ3r mit λ1 + λ2 + λ3 = 1
X1 ∈ QR⇒ x1 = µ2q + µ3r mit µ2 + µ3 = 1, µ2, µ3 ≥ 0
X ∈ PX1 ⇒ x1 = ν1p + ν2x1 mit ν1 + ν2 = 1, ν1, ν2 ≥ 0
x = ν1p + ν2µ2q + ν2µ3r
x = λ1p + λ2q + λ3r mit λ1 + λ2 + λ3 = ν1 + ν2µ2 + ν2µ3 =
= ν1 + ν2(µ2 + µ3︸ ︷︷ ︸1
) = ν1 + ν2 = 1 und
λ1 = ν1 ≥ 0, λ2 = ν2µ2 ≥ 0, λ3 = ν2µ3 ≥ 0.
Also: X ∈ Dreieck (P,Q,R)⇔ x = λ1p + λ2q + λ3r mit λ1 + λ2 + λ3 = 1 und λ1, λ2, λ3 ≥ 0.
P ist Ecke des Dreiecks 4⇔6 ∃X1, X2 ∈ 4 mit P ∈ X1X2.
X keine Ecke des Dreiecks 4⇔ ∃P,X1 ∈ 4 mit X ∈ PX1.
Definition 14.11 Konvexe und nicht beschrankte Mengen
V sei ein Vektorraum uber einem angeordneten Korper K.
T = {x1, x2, . . . , xr} ⊆ V,M ⊆ V .
(i) Eine Konvexkombination von x1,x2, . . . ,xr ist eine Linearkombination von x1, . . . , xr
der Form
λ1x1 + λ2x2 + . . . + λrxr mitr∑
i=1
λi = 1 und λi ≥ 0.
Sind alle λi > 0, dann spricht man von einer echten Konvexkombination.
(ii) Die konvexe Hulle H(T) von T ist die Menge aller Konvexkombinationen von T .
H(x1, . . . , xr) =
{x|x =
r∑i=1
λixi mit∑
λi = 1 und λi ≥ 0
}.
(iii) Eine Strecke PQ durch P und Q ist die konvexe Hulle von {P,Q}. P,Q heißen End-
punkte der Strecke PQ.
PQ = {x|x = λ1p + λ2q mit λ1 + λ2 = 1, λ1, λ2 ≥ 0}
(iv) Eine Teilmenge M von V heißt konvex, wenn sie mit je zwei Punkten x1, x2 ∈ M stets
auch alle Punkte der Strecke x1x2 enthalt.
M konvex ⇔x1 ∈M
x2 ∈M
⇒ {x|x = λ1x2 + λ2x2, λ1 + λ2 = 1, λ1, λ2 ≥ 0} ⊆M
28
(v) Ein Punkt x ∈ M heißt Ecke von M , wenn es keine verschiedenen Punkte x1, x2 ∈ M
gibt, so daß x echte Konvexkombination von x1, x2 ist.
(vi) Ein Strahl durch p in Richtung a ist die Menge der Punkte {x|x = p + λa, λ ≥ 0}.
(vii) M heißt nicht–beschrankt, wenn M einen Strahl umfaßt.
Andernfalls heißt M beschrankt.
Beachte: Es gibt also 3 Arten von Hullen: lineare, affine, konvexe.
Satz 14.15 Einfache Eigenschaften von konvexen Mengen
(i) Die konvexe Hulle H(x1, x2, . . . , xr) ist stets konvex.
(ii) Der Durchschnitt von konvexen Mengen ist stets konvex.
(iii) Die Vereinigung von konvexen Mengen ist i.a. nicht konvex.
(iv) Jeder m−dimensionale affine Raum A ist eine nichtbeschrankte, konvexe Menge ohne
Ecken.
Beweis fur die Eckenfreiheit: Sei x ∈ A ⇒ x = p +Pm
i=1 λiui ⇒ x1 := p +P
(λi + k)ui ∈ A und
x2 := p +P
(λi − k)ui ∈ A. Es ist x1 6= x2 und x = 12x1 + 1
2x2.
(v) Ist T1 = {x1, . . . , xr} und T2 = {xr+1, . . . , xn}, dann ist H(T1 ∪ T2) = Menge aller Kon-
vexkombinationen je eines Punktes von H(T1) und H(T2). Damit kann man die konvexe
Hulle einer endlichen Menge T = {x1, . . . , xm} induktiv aufbauen: Man geht aus von
der konvexen Hulle von {x1, x2} = x1x2 aus. Dann bildet man die konvexe Hulle von
{x1, x2} ∪ {x3} = {x1, x2, x3} als Menge aller Konvexkombinationen von Punkten aus
x1x2 und x3 usw.
29
Definition 14.12 Spezielle konvexe Mengen im Kn
{~e1, . . . , ~en} sei die Standardbasis des Kn.
(i)
K+ :=
{x|x =
n∑i=1
λiei, λi ∈ K, λi ≥ 0
}heißt der Positivitatskegel im Kn.
Auch so:
K+ := {~x|~x ∈ Kn und ~x ≥ 0}.
1. Quadrant 1. Oktant
(ii) ~m = (m1, . . . ,mn) ∈ Kn, ε > 0
W (~m, ε) :={~x/ ‖xi −mi‖ ≤
ε
2, i = 1, . . . , n
}W heißt Wurfel mit Mittelpunkt ~m und Kantenlange ε.
Mittels der Dreiecksungleichung kann man zeigen, daß W eine konvexe Menge ist.
30
Definition 14.13 Spezielle Punkte
M sei eine konvexe Menge.
x ∈ M heißt innerer Punkt, wenn es einen Wurfel W (x, ε) gibt, der ganz in M enthalten ist
(der nur Punkte aus M enthalt).
x ∈ M heißt Randpunkt, wenn jeder Wurfel W (x, ε) sowohl Punkte von M als auch Punkte
von M c enthalt.
M heißt offen, wenn jeder Punkt von M ein innerer Punkt ist.
M heißt abgeschlossen, wenn M c offen ist.
offenes Intervall abgeschlossenes Intervall
offene Halbebene abgeschlossene Halbebene
offener Halbraum abgeschlossener Halbraum
~at · ~x > b oder ~at · ~x < b ~at · ~x > b oder ~at · ~x < b
Jede Hyperebene zerlegt den Raum in 2 Halbraumen.
Definition 14.14 Konvexe Mengen, die keine affinen Raume sind
(i) Die Menge der positiven Losungen eines inhomogenen linearen Gleichungssystems ist
eine konvexe Menge mit Ecken.
Sei A ∈ Kmn,~b ∈ Km. Dann ist Z := {x ∈ Kn|Ax = b und x ≥ 0} = L ∩K+ konvex.
Z heißt zulassige Menge bezuglich des LGS A~x = ~b.
Z kann leer sein (wenn Rg(A) 6= Rg(A, b)).
31
Beweis der Konvexheit: Fur ~x1, ~x2 ∈ Z und λ1 ≥ 0, λ2 ≥ 0 mit λ1 + λ2 = 1 gilt:
A(λ1 ~x1 +λ2x2) = λ1A ~x1 +λ2A ~x2 = λ1~b+λ2
~b = (λ1 +λ2)~b = 1~b = ~b und λ1 ~x1 +λ2 ~x2 ≥ 0.
Die Bestimmung der Ecken ist in hoherdimensionalen Raumen lastig (→ Operations Re-
search).
Fur die weiteren Beispiele sei {u1, u2, . . . , ur} l.u. in V, p ∈ V , beliebig.
(ii) K :={x|x = x0 +
∑ki=1 λiui, λi ≥ 0
}K heißt k− dimensionaler Kegel in V mit Spitze x0. (Der Kegel ist eine Verallgemei-
nerung des Winkelfeldes.)
K ist nichtbeschrankt, x0 ist die einzige Ecke.
Strahlen sind 1−dimensionale Kegel.
(iii) Sp := {x|x = x0 +∑r
i=1 λiui, 0 ≤ λi ≤ 1}
Sp heißt das von den Kantenvektoren u1, u2, . . . , uk von x0 aus aufgespannte k−dimen-
sionale Parallelepiped (k−Spat). (Verallgemeinerung des Parallelogramms).
Strecken sind 1–dimensionale, Parallelo-
gramme sind 2–dimensionale Parallelepipede.Die Ecken sind genau die Punkte
e = x0 +k∑
i=1
λiui mit λi ∈ {0,1}.
(iv) Si ={x|x = x0 +
∑ki=1 λiui, λi ≥ 0,
∑ki=1 λi = 1
}Si heißt der von den Vektoren u1, . . . , uk von x0 aus aufgespannte
k−dimensionale Simplex (k−Simplex). (Verallgemeinerung des Dreiecks).
32
Si ist als Teilmenge von SP beschrankt.
{x0, x0 + u1, . . . , x0 + uk} sind die Ecken von S.
S kann man in homogener Darstellung schreiben als
Si ={
x|x =∑k
i=0 µivi, µi ≥ 0,∑k
i=0 µi = 1}
mit µi = λi, i = 1, . . . , k; µ0 = 1−∑k
i=1 λi
vi = x0 + ui, i = 1, . . . , k; v0 = x0
Der k−dimensionale Simplex ist daher die konvexe Hulle seiner k + 1 Ecken (in allgemeiner
Lage).
33
15 Metrische Geometrie
Neben der Untersuchung von Inzidenz– und Parallelitatseigenschaften werden in der Elemen-
targeometrie auch viele Aussagen uber Abstande, Langen, Inhalte, Winkel und Orthogonalitat
gemacht. Um diese Begriffe in die Sprache der linearen Algebra ubersetzen und damit einer rech-
nerischen Behandlung zuganglich machen zu konnen, benotigt man als zusatzliche Eigenschaften
in Vektorraumen nur das Skalarprodukt. In diesem Kapitel werden also generell Skalarprodukt-
raume vorausgesetzt. Die Inhaltsmessung von einigen konvexen Punktmengen wird mit Deter-
minanten behandelt.
Nachdem wir bisher affine Raume generell als Teilmengen von Vektorraumen aufgefaßt haben,
ubernehmen wir die ubliche Abstands– und Winkelmessung von Skalarproduktraumen.
15.1 Abstands– und Winkelmessung
Definition 15.1 Abstand und Winkel
(V,<, >) sei ein Skalarproduktraum, A sei ein affiner Raum in V .
(i) Unter dem Abstand zweier Punkte X,Y ∈ A, symbolisch d(X, Y ), versteht man die
reelle Zahl
d(X,Y) := ‖y − x‖ =√
< y − x,y − x >.
In reellen Skalarproduktraumen ist daruber hinaus eine Winkelmessung moglich:
(ii) Sind X, Y, Z ∈ A mit X 6= Y 6= Z, dann versteht man unter dem Winkel <)(X,Y,Z) mit
dem Scheitel Y die reelle Zahl
<)(X,Y,Z) := arccos< x− y, z− y >
‖x− y‖‖z− y‖
Besonders nutzliche Gleichungsdarstellungen von Punktmengen erhalt man mittels kartesischer
Koordinatensysteme (nach R. DESCARTES, 1596-1650).
Als Beispiel fur eine Gleichungsdarstellung untersuchen wir die Darstellung von Hyperebenen.
A sei ein n−dimensionaler affiner Raum in Richtung U . H sei eine Hyperebene in Richtung
W =< e1, e2, . . . , en−1 > mit der ON–Basis B = (e1, e2, . . . , en−1):
H = {x|x = p + λ1e1 + . . . + λn−1en−1}
34
{e1, . . . , en−1} kann zu einer ON–Basis von U erganzt werden (Satz uber die orthogonale Zerle-
gung):
U =< e1, e2, . . . , en−1, n0 >
n0 ist also ein normierter Vektor, der auf alle Vektoren aus W orthogonal steht. Dann gilt fur
jeden Punkt X ∈ H:
< x− p, n0 >=< λ1e1 + . . . + λnen, n0 >= λ1 < e1, n0 > + . . . + λn−1 < en−1, no >= 0
Damit ist n0 ⊥ x− p ∀x ∈ H und ebenso gilt: n ⊥ x− p ∀x ∈ H fur n := k · n0 mit k ∈ K.
n heißt daher Normalvektor der Hyperebene H.
Jeder Punkt x ∈ H erfullt < x − p, n0 >= 0. Ist umgekehrt x ∈ A mit < x − p, n0 >= 0 ⇒
x− p = λ1e1 + . . . λn−1en−1 + λnn0 und < x− p, n0 >= 0 ergibt:
< λ1e1 + λn−1en−1 + λnn0, n0 >= 0⇒
λ1 < e1, n0︸ ︷︷ ︸0
> + . . . + λn−1 < en−1, n0︸ ︷︷ ︸0
> +λn < n0, n0︸ ︷︷ ︸1
>= 0 ⇒ λn = 0 ⇒ x− p = λ1e1 + . . . +
λn−1en−1 ⇒ x = p + λ1e1 + . . . + λn−1en−1 ⇒ x ∈ H.
Die Hyperebene H durch den Punkt P (p) in Richtung W ist also die Menge aller Punkte X(x)
mit
< x− p,n0 >= 0⇔< x,n0 >=< p,n0 >=: c
oder auch
< x− p, n >= 0⇔< x, n >=< p, n > .
wobei n ∈W⊥.
Insbesondere gilt auch fur den Einheitsvektor n0 von n:
< x− p,n0 >= 0⇔< x,n0 >=< p,n0 >
Diese Darstellung von H heißt HESSEsche Normalvektorform von H. (O.L. HESSE, 1811–
1874).
Ihre Bedeutung liegt, so wie im anschaulichen Raum V 2 bzw. V 3 (siehe Kapitel ??) darin, daß
man den Abstand eines Punktes von einer Hyperebene leicht berechnen kann.
Definition 15.2 Abstand eines Punktes von einer Punktmenge
A sei ein affiner Raum, M ⊂ A und Y (y) ∈ A.
35
Unter dem Abstand d(Y,M) des Punktes Y von der Menge M versteht man das Infimum der
Abstande d(Y, X) mit X(x) ∈M .
d(Y, M) := inf{d(Y, X)|X ∈M} = inf{‖x− y‖/X ∈M}
Ist M ein affiner Teilraum, dann gibt es stets ein F (f) ∈M mit minimalem ‖f − y‖.
F heißt der zu Y gehorige Fußpunkt.
Nach dem Satz uber die beste Approximation gilt fur eine Hyperebene H in Richtung W durch
P:
‖y − f‖ minimal ⇔ ‖(y − p)− (f − p)‖ minimal ⇔ (y − p)− (f − p) = y − f ∈W⊥ =< n0 >
⇔ y − p = (1− p)︸ ︷︷ ︸∈W
+(y − f)︸ ︷︷ ︸∈W⊥
⇔ y − f = projn0(y − p) =< y − p, n0 > n0
⇒ ‖y − f‖ =< y − p, n0 > ‖n0‖︸︷︷︸1
Das heißt: Man erhalt den Abstand eines Punktes Y von einer Hyperebene H durch
P und dem Normalvektor n, wenn man in der Hesseschen Normalvektorform von
H :< x− p,n0 >= 0 fur x den Punkt y einsetzt: d(Y,H) =< y − p,no >.
Die Gerade l durch Y mit dem Richtungsvektor n heißt Lot auf H durch Y. Der Durchschnitt
des Lotes mit der Hyperebene enthalt genau einen Punkt F , genannt der Fußpunkt des Lotes:
{F} = l ∩H.
Es gilt: d(Y,F) = |d(Y,H)|
Der Fußpunkt ist also jener eindeutig bestimmte Punkt, fur den der Abstand angenommen wird.
Fur den Ortsvektor f von F gilt auch: f = y− < y − p,n0 > n0.
Vergleiche noch einmal Kapitel 3. Beachte, daß jetzt die Punkte auch Funktionen, Polynome,
Matrizen u.a. sein konnen!
Der Abstand d(P,Q) = ‖p − q‖ zwischen zwei Punkten P und Q kann wegen (N1) nur positiv
sein. Der Abstand d(Y, H) eines Punktes Y von einer Hyperebene H kann wegen d(Y, H) =<
y − p, n0 > aber auch negativ sein. Damit zerlegt die Hyperebene H den affinen Raum A in 2
Halbraume:
A+ := {Y |d(Y, H) > 0} heißt positiver Halbraum von A bezuglich H
A− := {Y |d(Y, H) < 0} heißt negativer Halbraum von A bezuglich H
Nach Satz 14.13 kann eine Hyperebene als (n−1)−dimensionaler Unterraum des n−dimensionalen
affinen Raumes A nach Einfuhrung eines Koordinatensystems durch eine inhomogene, lineare
36
Gleichung in n Variablen uber K dargestellt werden. (Koordinatenform der HESSEschen
Normalvektorform von H). Wahlt man insbesondere ein kartesisches Koordinatensystem aus,
kann man die Koeffizienten der n Variablen geometrisch schon deuten:
S = (O,E1, . . . , En) sei ein kartesisches Koordinatensystem von A mit Richtung U .
X ∈ H und P ∈ H haben die kartesischen Koordinaten
[X]S = (x1, . . . , xn), [P ]S = (p1, . . . , pn) und der Normalvektor n0 von H habe die Koordinaten
[n0]SU= (n1, n2, . . . , nn).
Bekanntlich laßt sich das Skalarprodukt bezuglich ON–Basen als Standardskalarprodukt schrei-
ben.
< x, y >= [y]∗[x]
Damit gilt fur die HESSEsche Normalvektorform:
0 =< x− p, n0 >= [n0]t · [x− p] = [n0]t · [x]t − [n0]t[p]︸ ︷︷ ︸=:c
Also: [n0]t · [x] = c⇔ n1x1 + . . . + nnxn = c
Die Koeffizienten von x1, . . . ,xn in der Koordinatendarstellung der HESSEschen
Normalvektorform einer Hyperebene H bezuglich eines kartesischen Koordinaten-
systems geben die Koordinaten des Normalvektors von H an.
Zusammenfassung:
Satz 15.1 HESSEsche Normalvektorform einer Hyperebene
(V,<>) sei ein Skalarproduktraum. H = p+W sei eine Hyperebene des n−dimensionalen affinen
Raumes A mit Richtung U ⊆ V , Y (y) ∈ A ein beliebiger Punkt.
(i) Ein Normalvektor n von H ist ein Element aus W⊥ =< n >.
(ii) H = {x ∈ A| < x− p, n >= 0}.
Bezeichnet n0 den Einheitsvektor von n, dann heißt
< x− p,n0 >= 0
die HESSEsche Normalvektorform von H.
(iii) d(Y,H) =< y − p,n0 > gibt den Abstand des Punktes Y von H an.
37
(iv) Bezuglich eines kartesischen Koordinatensystems S laßt sich H durch eine i.a. inhomogene
lineare Gleichung der Form
n1x1 + . . . + nnxn = c
darstellen, wobei (n1, n2, . . . , nn) die Koordinaten eines Normalvektors von H bezuglich SU
sind. Fur c gilt: c = [n]t[p].
(v) Die Hyperebene H teilt den affinen Raum in 2 Halbraume:
positiver Halbraum A+ = {X|d(X, H) > 0} = {(x1, . . . , xn)|n1x1 + . . . + nnxn > c}.
negativer Halbraum A− = {X|d(X, H) < 0} = {(x1, . . . , xn)|n1x1 + . . . + nnxn < c}.
Beispiel: Im (R4, <>St) ist die Hyperebene H gegeben durch
H = ~x =
0BBBBBB@1
0
2
1
1CCCCCCA+ λ1
0BBBBBB@1
0
0
1
1CCCCCCA+ λ2
0BBBBBB@0
1
1
0
1CCCCCCA+ λ3
0BBBBBB@1
−1
1
−1
1CCCCCCA ; Y =
0BBBBBB@1
2
−2
1
1CCCCCCA
Bezuglich des Standardkoordinatensystems erhalt man durch Elimination oder durch Bestim-
mung des Orthogonals (mittels NullSpace) die Koordinatengleichung:
H : x1 + x2 − x3 − x4 = −2
(1, 1,−1,−1)t ist ein Normalvektor von H.
HESSEsche Normalvektorform:
x1 + x2 − x3 − x4 + 2 = 0
d(Y, H) = 1+2+2−1+22 = 3
IR4,+ : x1 + x2 − x3 − x4 > −2
IR4,− : x1 + x2 − x3 − x4 < −2
15.2 Volumina von Simplices und Spaten
Soll eine Zahl µ den Inhalt einer k−dimensionalen Figur messen, so stellt man an diese Zahl
folgende “naturliche” Forderungen (Maßeigenschaften einer Figur):
1. Translationsinvarianz: Der Inhalt µ einer Figur soll sich nicht andern, wenn die Figur
verschoben wird:
Ist M ′ = M + v ⇒ µ(M ′) = µ(M)
38
2. Additivititat: Sind M1,M2 zwei disjunkte Mengen, so gilt:
µ(M1 ∪Ms) = µ(M1) + µ(M2)
3. Streckung: Ist X0 eine beliebige Ecke und ~X0Xi eine beliebige von X0 ausgehende Kante
von M und wird Xi ersetzt durch X1 = X0+λ ~X0Xi, wahrend die anderen Kanten erhalten
bleiben, so gilt fur die so in einer Richtung gestreckte Punktmenge Mλ : µ(Mλ) = µ(M).
4. Ausartung: Besitzt M statt k+1 nur k l.u. Punkte, so ist µ(M) = 0. (Der Inhalt ein und
derselben Figur andert sich, wenn man zu einer anderen Dimension des Inhalts ubergeht.)
So hat eine Strecke der Lange 3 den 1−dimensionalen Inhalt (= Lange) 3, jedoch den
2−dimensionalen Inhalt (= Flacheninhalt) 0.
5. Normierung: Fur den k−dimensionalen Einheitswurfel M0 gilt µ(M0) = 1
In der Analysis wird gezeigt, daß man durch das bestimmte Integral vielen Punktmengen so eine
Zahl als Maß zuordnen kann. Genauso, wie man aber im Rn(n > 3) nicht jeder Punktemenge eine
Zahl so zuordnen kann, daß 1)–5) gilt, kann man auch in Vektorraumen nicht jede Punktmenge
“messen”, es gelingt dies nur fur k−Spate und k−Simplexe. Die Translationsinvarianz erreicht
man dadurch, daß man das Volumen des k−Spates durch die k Kantenvektoren ~X0Xi definiert,
denn:
Es gelte: Xi = X0 + ~X0Xi(i = 1, . . . , k).
Durch eine Translation v ergeben sich die Punkte X∗0 = X0 + v und X∗
i = Xi + v mit X∗i =
X∗0 + ~X∗
0X∗i = X∗
0 + ( ~X0X0)︸ ︷︷ ︸−v
+ ~X0X∗i + ( ~XiX∗
i )︸ ︷︷ ︸v
= X∗0 + ~X0Xi also ist
~X0Xi = ~X∗0X∗
i
Wir werden also jedem Spat SP (X0, . . . , Xk) ein Element µ(Sp) ∈ K, genannt k−dimensionales
“Volumen” V, abhangig von den Kantenvektoren ui := ~X0Xi zuordnen:
SP (X0, . . . , Xk)→ µ( ~u1, . . . , ~uk) ∈ K
Die Maßeigenschaften
1. durch c) erhalten wir aus der Forderung der Multilinearitat an µ in −→u1, ~u2, . . . , ~ut
2. durch die Forderung bzw. Festsetzung µ( ~u1, . . . , ~ut) = 0 fur ~u, . . . , ~ut l.a.
39
3. erhalten wir durch die Forderung µ(~e1, . . . , ~ek) = 1 wobei ~e1, . . . , ~ek eine ON–Basis des
dem affinen Unterraum zugehorigen Vektorraumes U ist.
Diese Forderungen stimmen mit den Eigenschaften D1, D2, D3 einer Determinante uberein,
daher gilt nach Satz 13.1:
Satz 15.2 Volumsformel
B sei ein k−dimensionaler Unterraum eines affinen Raumes A.
X0, X1, . . . , Xk seien k + 1 l.u. Punkte und {b1, b2, . . . , bk} eine Basis der Richtung von B.
˜X0Xi =: ui =∑k
j=1 uijbj. Die vij sind also die Komponenten der von einem Punkt x0 ausge-
henden Kantenvektoren eines Spates. Dann gilt:
(i) Das Volumen V des k−Spates Sp(X0, X1, . . . , Xk) bezuglich der Basis {bi} ist gegeben
durch die Determinanten der Koordinaten der Kantenvektoren:
V =
∣∣∣∣∣∣∣∣∣u11 . . . u1k
...
uk1 . . . ukk
∣∣∣∣∣∣∣∣∣(ii) Das Volumen µ des k−Simplex Si(X0, X1, . . . , Xk) bezuglich der Basis {bi} ist gegeben
durch den k!−Teil der Determinante der Koordinaten der Kantenvektoren:
V =1k!
∣∣∣∣∣∣∣∣∣u11 . . . u1k
...
uk1 . . . ukk
∣∣∣∣∣∣∣∣∣Bemerkung: Der k−Spat kann in k! volumsgleiche k−Simplexe zerlegt werden: Das Parallelo-
gramm (k = 2) in k! = 2! = 2 flachengleiche Teildreiecke, das Parallelogramm in k! = 3! = 6
volumsgleiche Tetraeder.
Bemerkung:
Das 1−dimensionale Volumen heißt auch Lange,
Das 2−dimensionale Volumen heißt auch Flache.
40
16 Lineare Optimierung
Es werden die geometrischen Begriffsbildungen in abstrakten Vektorraumen (meistens ist es der
IRn, n auch sehr groß) auf Optimierungsfragen angewendet.
Bei einer Vielzahl wirtschaftlicher Entscheidungen steht das Optimieren bestimmter Großen im
Vordergrund.
Zu den Großen, bei denen ein Maximum angestrebt wird, gehoren: Gewinn, Umsatz, Ferti-
gungsmengen, Lebensdauer eines Produktes (mit Einschrankungen), Zahl der belieferten Kun-
den.
Zu den Großen, bei denen ein Minimum angestrebt wird, gehoren: Kosten, Preis, Abfallmenge,
Transportwege, Energieverbrauch, Zahl der wartenden Kunden.
In dem folgenden Beispiel wird bewußt ein kleiner Ausschnitt aus der okonomischen Wirklichkeit
gewahlt. Auch bei zukunftigen Beispielen wird in dieser Einfuhrung zur Wahrung der Ubersicht
im Unterschied zur Praxis eine Reihe von Aspekten unberucksichtigt bleiben, um die Beispiele
“von Hand” berechenbar zu machen.
Man kann nun bestimmten okonomischen Vorgangen unter Vernachlassigung unwesentlicher
Sachverhalte ein vereinfachtes mathematisches System zuordnen. Ein solches in der Linearen
Optimierung angewandtes System von Gleichungen und Ungleichungen heißt Modell, den Vor-
gang des Aufstellens der Gleichungen und Ungleichungen nennt man Modellieren.
16.1 Geometrische Losung
Um den Sachverhalt in der Zeichenebene veranschaulichen zu konnen, erfolgt eine Beschrankung
auf n = 2.
Beispiel: Maximumproblem im IR2 (aus KOHLER, Lineare Algebra)
In einem chemischen Betrieb werden aus drei Rohstoffen Ri(i = 1, 2, 3) zwei Fertigprodukte
Pk(k = 1, 2) hergestellt. In der Tabelle der Abbildung 1 sind fur beide Produkte die Rohstoffan-
teile je Einheit der Fertigprodukte angebeben.
41
Rohstoffe/Fertigprodukte P1 (ME) P2 (ME)
R1 1,5 3,0
R2 2,5 2,0
R3 0 1Abbildung 1: Materialverbrauchsnormen fur die Produkte P1 und P2
Außerdem betragen die pro Zeiteinheit (ZE) verfugbaren Rohstoffmengen fur R1 210 ME, fur
R2 200 ME und fur R3 60 ME. Der Stuckgewinn betragt bei P1 3 DM und bei P2 4 DM.
Aufgabe
a) Bei welcher Stuckzahl von P1 bzw. P2 ist der Gewinn maximal?
b) Wie hoch ist der maximale Gewinn?
Losung: Fur gesuchte Großen werden Variable eingesetzt.
Die pro ZE hergestellten Stuckzahlen von P1 sei x1, die von P2 sei x2.
Die Tabelle in Abbildung 2 wird um die Spalte V der verfugbaren Rohstoffmenge und um die
Zeile G der Stuckgewinne erganzt zu Abbildung 2.
Verfugbare Mengen
Rohstoffe/Fertigprodukte P1 (ME) P2 (ME) V (ME)
R1 1,5 3,0 210
R2 2,5 2,0 200
R3 0 1 60
Gewinn G 3 4Abbildung 2: Erweiterung von Abb. 1 um die Kapazitatsbeschrankungen
Da fur 1 ME P1 1,5 ME des Rohstoffes R1 und fur 1 ME des Produktes P2 3 ME des Rohstoffes R1
benotigt werden, sind fur x1 ME des Produktes P1 und x2 ME des Produktes P2 1,5 x1+3x2 ME
des Rohstoffes R1 erforderlich (das ist wieder die vereinfachende Proportionalitatsannahme).
Da jedoch in der Zeiteinheit nur 210 ME des Rohstoffes R1 zur Verfugung stehen, gilt die
Relation
1, 5x + 3x2 ≤ 210 (8)
Entsprechend erhalt man fur die beiden ubrigen Rohstoffmengen
2, 5x1 + 2x2 ≤ 200
x2 ≤ 60(9)
42
Die Ungleichungen (8) und (9) nennt man einschrankende Bedingungen (Restriktionen).
Außerdem durfen die Stuckzahlen nicht negativ sein:
x1 ≥ 0
x2 ≥ 0(10)
Die Ungleichung (10) stellt die sog. Nichtnegativitatsbedingung dar.
Da der Gewinn je ME des Produktes P1 3 DM, fur x1 ME des Produktes P1 somit 3x1 betragt
und der Gewinn je ME des Produktes P2 4 DM, fur x2 ME des Produktes P2 somit 4x2 betragt
(wieder die Proportionalitatsannahme), lautet die Funktionsgleichung fur den Gesamtgewinn
G = 3x1 + 4x2 (11)
Die Gleichung (11) heißt Zielfunktion des Optimierungsproblems oder im hier vorliegenden
Fall Gewinnfunktion. Zusammenfassend ergibt sich damit fur Beispiel (12) folgendes mathe-
matische Modell.
1. Restriktionen1, 5x1 + 3x2 ≤ 210
2, 5x1 + 2x2 ≤ 200
x2 ≤ 60
(12)
2. Zielfunktion
G = 3x1 + 4x2 → max (13)
3. Nichtnegativitatsbedingung
x1 ≥ 0
x2 ≥ 0(14)
Die Restriktionen (12) werden nun in einem zweidimensionalen Koordinatensystem dargestellt.
Jede Ungleichung charakterisiert eine Halbebene. Die Schnittmenge der drei Halbebenen ist zu
ermitteln. Um die Halbebenen darzustellen, lost man die drei Ungleichungen nach x2 auf und
zeichnet die drei Berandungsgeraden, indem man die dazugehorigen Gleichungen betrachtet.
Anschließend kennzeichnet man die jeweiligen Halbebenen durch Schraffur.
Da außerdem die Nichtnegativitatsbedingungen (14) gelten, kann die gesuchte Punktemenge,
d.h. der Bereich, in dem die moglichen Kombinationen der Stuckzahlen x1 und x2 liegen, nur
43
Abbildung 3
im ersten Quadranten sein. Die Schnittmenge der durch die Ungleichungen (12) und (14) darge-
stellten Punktmenge wird in Abbildung 3 geometrisch veranschaulicht. Diejenige Punktmenge,
die den Restriktionen und der Nichtnegativitatsbedingungen genugt, wird als zulassiger Be-
reich bezeichnet. Denkbar als mogliche Stuckzahlen, die die Restriktionen und die Nichtnega-
tivitatsbedingung erfullen, waren z.B.
Q1(20, 30) und Q2(30, 40)
Geht man von dem Unternehmensziel der Gewinnmaximierung aus, dann sind somit diejenigen
Stuckzahlen x1 und x2 zu bestimmen, fur die der Gewinn maximal wird.
Dazu betrachtet man zunachst alle Kombinationen der Stuckzahlen, bei denen der Gewinn
konstant ist. Bei konstantem G stellt Gleichung (13) eine Gerade un R2 dar.
Die Steigung dieser Geraden ermittelt man, indem man die Gleichung (13) nach x2 auflost.
x2 = −34x1 +
G
4(15)
Auf der Geraden mit der Gleichung (15) liegen alle Punkte, die als Mengenkombination der
Stuckzahlen x1 und x2 interpretiert, den gleichen Gewinn ergeben.
Mengenkombinationen bei gleichem Gewinn
44
Abbildung 4
Ist G = 40, so erhalt man auf (15) etwa folgende Kombinationen der Stuckzahlen:
x1 = 4, x2 = 7 bzw. x1 = 8, x2 = 4.
Die Gerade mit der Gleichung (15) heißt deshalb auch Isogewinngerade. Da alle Isogewinn-
geraden die gleiche Steigung besitzen, verlaufen sie parallel zueinander. Der Ordinatenabschnitt
der Geraden ist G4 . Der Gewinn wird somit um so hoher, je großer G
4 ist.
Die Isogewinngerade muß also moglichst weit vom Ursprung weg parallel verschoben werden,
jedoch so, daß sie mit dem schraffierten Bereich noch mindestens einen Punkt gemeinsam hat.
Fur G = 100(200, 300, 360) lauten die Isogewinngeraden
x2 = −34x1 + 25
x2 = −34x1 + 50
x2 = −34x1 + 75
x2 = −34x1 + 90
Diese Isogewinngeraden sind in Abbildung 4 eingezeichnet.
Die optimale Mengenkombination liegt im Punkt B(40, 50), d.h. bei Erzielung des maximalen
Gewinns mussen vom Produkt P1 40 Stuck und vom Produkt P2 50 Stuck hergestellt werden.
45
Die genauen Werte fur die Stuckzahlen erhalt man durch Bestimmung des Schnittpunktes der
entsprechenden Geraden.
Den maximalen Gewinn ermittelt man, indem man die Stuckzahlen x1 = 40 ME und x2 = 50
ME in Gleichung (13) einsetzt. Es ist Gmax = 3 [GE/ME]·40 ME +4 [GE/ME]·50 ME = 320
GE.
Da die Gerade mit G4 = 85 bzw. G = 340 keinen Punkt mit dem zulassigen Bereich gemeinsam
hat, scheiden die auf ihr liegenden Punkte fur die Mengenkombination aus.
Beispiel: Minimumproblem im R2
Fur ein Stuck Vieh seien folgende Mindestnahrungsrationen verbindlich:
3 Einheiten des Nahrstoffes A
6 Einheiten des Nahrstoffes B
2 Einheiten des Nahrstoffes C
Zur Verfugung stehen zwei Futtersorten S1 und S2. In 1 ME der Sorte S1 ist ME des Nahrstoffes
A und 1 ME des Nahrstoffes B enthalten. In 1 ME der Sorte S2 ist 0,5 ME des Nahrstoffes A, 2
ME des Nahrstoffes B und 2 ME des Nahrstoffes C enthalten. Die Kosten betragen fur die Sorte
S1 2,5 GE/ME und fur die Sorte S2 3 GE/ME.
Aufgabe
(a) Wie muß das Futter gemischt werden, damit die angegebenen Nahrstoffe darin enthalten
sind und die Gesamtkosten minimal werden?
b) Wie hoch sind die minimalen Kosten?
Losung
Die Angaben werden in der Tabelle der Abbildung 5 ubersichtlich dargestellt.
Nahrstoff/Futtersorte S1 S2 Mindestmengen in ME
A 1 0,5 3
B 1 2 6
C 0 2 2
Kosten 2,5 3Abbildung 5: Zusammensetzung der beiden Futtersorten
Es werden x1 ME der Sorten S1 mit x2 ME der Sorten S2 gemischt.
Aus der Abbildung 5 entnimmt man folgendes mathematisches Modell:
46
Abbildung 6: Isokostengeraden
1. Restriktionenx1 + 0, 5 ≥ 3
x1 + 2x2 ≥ 6
2x2 ≥ 2
(16)
2. Zielfunktion
K = 2, 5x1 + 3x2 → min (17)
3. Nichtnegativitatsbedingung
x1 ≥ 0
x2 ≥ 0(18)
Die durch die Ungleichungen (16) und (18) dargestellten Halbebenen werden in einem zweidi-
mensionalen Koordinatensystem geometrisch veranschaulicht.
Die Schnittmenge der entsprechenden Halbebenen ist nicht beschrankt. Der Graph der Zielfunk-
tion stellt bei konstantem K eine Gerade dar, die Isokostengerade.
Alle Isokostengeraden besitzen die gleiche Steigung. Man erhalt die Steigung aller paralleler
Isokostengeraden, indem man Gleichung (17) nach x2 auflost.
x2 −2,53 x1 + K
3
= −56x1 + K
3
(19)
47
Die Steigung aller Isokostengeraden betragt m = −56 . In Abbildung 6 sind vier Isokostengeraden
dargestellt.
(K = 3,K = 6,K = 11,K = 15)
Eine optimale (minimale) Losung ergibt sich fur diejenigen Wertepaare (x1, x2) der Punkte, die
auf einer Isokostengeraden liegen, deren Ordinatenabschnitt minimal ist. Die Isokostengerade
muß somit parallel verschoben werden, und zwar moglichst dicht an den Ursprung heran, jedoch
so, daß sie noch mindestens einen Punkt mit dem zulassigen Bereich gemeinsam hat. Der Punkt
B(2,2) gibt das Optimum an. Auf der Isokostengeraden mit K=3 bzw. K=6 liegt kein Punkt des
zulassigen Bereiches.
Antwort auf
a) Von Sorte S1 und S2 sind je 2 ME zu mischen.
b) Minimale Kosten: K=2,5 [GE/ME]· 2ME+3[GE/ME]· 2ME=11GE
Man sieht schon an diesen beiden Beispielen, wie geometrische Grundbegriffe und Vorstellungen
benutzt werden (zulassige Bereiche, Halbebenen, beschrankt und nicht beschrankt, Schnittmen-
gen). Unsere Verallgemeinerungen gestatten es, dasselbe Verfahren auch in hoher–dimensionalen
Vektorraumen anzuwenden.
48
16.2 Geometrische Eigenschaften der zulassigen Menge Z
Restriktionen in Ungleichungsform konnen durch Einfuhrung von Schlupfvariablen auf Glei-
chungsform gebracht werden. Man erhalt so i.a. m Gleichungen in n Unbekannten. Durch Weg-
lassen von uberflussigen (= l.a.) Gleichungen kann man erreichen, daß die Koeffizientenmatrix
dieses LGS vollen Zeilenrang hat.
Standardproblem der linearen Optimierung
K sei ein geordneter Korper. Gegeben seien eine (m× n)−Matrix A ∈ Km·n mit
Rg(A) = m, ein Vektor ~b ∈ Km mit ~b ≥ ~0. Mit dem Vektor ~lt = (l1, l2, . . . , ln) ∈ Kn werde die
lineare Funktion (Linearform) L : Kn → K mit
L(~x) := ~lt~x =n∑
i=1
lixi
gebildet. L(~x) heißt Zielfunktion.
Gesucht ist das Minimum Lmin der Zielfunktion L : Kn → K auf der zulassigen Menge
Z :={~x|A~x = ~b und ~x ≥ 0
}und jene Stellen ~x ∈ Z, an denen dieses Minimum angenommen wird, d.h., die Teilmenge
Mmin := {~x|~x ∈ Z und L(~x) = Lmin} ⊂ Z
der zulassigen Minimalpunkte von Z.
Das Problem ist losbar, wenn Mmin 6= 0.
Will man unter den gleichen Bedingungen das Maximum Lmax von L bestimmen, dann ist dies
gleichwertig mit der Bestimmung des Minimums von −L :
Lmax = (−L)min
~b ≥ 0 kann durch eventuelle Multiplikation mit (−1) stets erreicht werden.
Z ist eine konvexe Teilmenge des Kn. Ist Z 6= ∅, dann besitzt Z auch Ecken, aber es sind
hochstens endlich viele. Das soll die Hauptaussage der folgenden Uberlegungen sein. Dazu schrei-
49
ben wir das LGS A~x = ~b folgend um: ~x = (x1, x2, . . . , xn) ∈ Kn, A ∈ Km·n.
A~x = ~b⇔ x1 ·
a11
a21
...
am1
︸ ︷︷ ︸
~s1
+ . . . + xn ·
a1n
a2n
...
amn
︸ ︷︷ ︸
~sn
=
b1
b2
...
bm
⇔ x1 · ~s1 + . . . + xn · ~sn = ~b
also A = (~s1, ~s2, . . . , ~sn).
Der i−te Spaltenvektor ~si von A heißt der zur i−ten Koordinate xi von x gehorige Spal-
tenvektor.
Ein zulassiger Punkt ~x ∈ Z hat wegen ~x ≥ 0 keine negativen Koordinaten. Die Ecken in Z kann
man folgend charakterisieren:
Satz 16.1 Charakterisierung von Ecken
Ein Punkt ~x ∈ Z ist genau dann eine Ecke von Z, wenn die zu den positiven (> 0) Koordinaten
gehorigen Spaltenvektoren von A l.u. sind.
Beweis:
1. ⇒: Sei ~c eine Ecke von Z = {~x|A~x = ~b ∧ ~x ≥ 0}. Die Anzahl der positiven Koordinaten
von ~c sei p.
1. Fall: p = 0, d.h., alle Koordinaten sind 0 ⇒ ~c = ~0 (also ~b = ~0). Die Menge der
zugehorigen Spaltenvektoren ist leer, eine leere Menge ist definitionsgemaß l.u.
2. Fall: p > 0. Durch Umnumerierung kann man erreichen, daß die ersten p Koordinaten
von ~c positiv sind, die Spaltenvektoren von A werden gleichartig umgeordnet:
~c = (c1, c2, . . . , cp, 0, . . . , 0), A = (~s1, . . . , ~sp, ~sp+1, . . . , ~sn)
~b = A~c = (~s1, . . . ~sp, . . . ~sn) · (c1, . . . , cp, 0, . . . , 0)t = c1 ~s1 + . . . + cp ~sp =∑p
i=1 ci~si
Angenommen, {~s1, . . . , ~sp} waren l.a. ⇒ ∃λ1, . . . , λp, nicht alle 0 mit∑pi=1 λi~si = ~0 ⇒
∑pi=1(ci ~sp + δλi)~si = ~b∀δ ∈ K, d.h. die Punkte ~x1 und ~x2 mit
50
geeignetem δ0 > 0 (so daß c1 − δ0λ1 > 9).
~x1 =
c1 + δ0λ1
...
cp + δ0λp
0...
0
> ~0 und ~x2 =
c1 − δ0λ1
...
cp − δ0λp
0...
0
> ~0
sind verschiedene Elemente von Z und ~c = 12 ~x1 + 1
2 ~x2, d.h., ~c ist keine Ecke im
Widerspruch zur Annahme.
Die zu positiven Koordinaten von Ecken gehorigen Spaltenvektoren mussen l.u. sein.
2. ⇐: Sei ~x ∈ Z mit p positiven Koordinaten, o.B.d.A. sei ~x = (x1, x2, . . . , xp, 0, . . . , 0) und
{~s1, . . . , ~sp} l.u. Spaltenvektoren von A.
1. Fall: p = 0 ⇒ ~x = ~0. Ware ~x keine Ecke ⇒ ~x ist echte Konvexkombination von zwei
verschiedenen ~x1, ~x2 ∈ Z :
~x = λ1 ~x1 + λ2 ~x2 mit λ1, λ2 > 0, λ1 + λ2 = 1
Wegen ~x1 ≥ 0, ~x2 ≥ 0 folgt, daß ~x1 = ~0, ~x2 = ~0, Widerspruch.
2. Fall: p > 0. Ware ~x keine Ecke ⇒ ~x = λ1~a + λ2~c mit
λ1, λ2 > 0, λ1 + λ2 = 1,~a,~c ≥ 0 und ~a 6= ~c, also
x1
...
xp
0...
0
= λ1
≥ 0
a1
...
ap
ap+1
...
an
≥0
+λ2
≥ 0
c1
...
cp
cp+1
...
cn
≥0
⇒ap+1 = . . . = an = 0 und
cp+1 = . . . = cn = 0
Wegen A · ~a = ~b und A · ~c = ~c gilt auch A · (~a− ~c) = ~0, also wegen
A = (~s1, . . . , ~sp, . . . , ~sn):
(a1 − c1) · ~s1 + . . . + (ap − cp) · ~sp + 0 · ~sp+1 + . . . + 0 · ~sn = ~0.
51
Nun sind ~s1, . . . , ~spl.u.⇒ a1− c1 = 0, . . . , ap− cp = 0⇒ a1 = c1, . . . , ap = cp ⇒ ~a = ~b
(Widerspruch).
Daher ist ~x eine Ecke, wenn die zu positiven Koordinaten gehorigen Spaltenvektoren
l.u. sind.
Beim Standardproblem ist Rg(A) = m = dim < ~s1, . . . , ~sn >, d.h., m ist auch die Maximalanzahl
l.u. Spaltenvektoren von A. Daher gilt:
Bemerkung:
Unter den Voraussetzungen des Standardproblems (insbesondere Rg(A) = m und ~b ≥ 0) hat
jede Ecke der zulassigen Menge Z hochstens m positive Koordinaten. Damit kann man defi-
nieren:
Definition 16.1 Entartete und nichtentartete Ecken
(i) Eine Ecke der zulassigen Menge Z heißt entartet, wenn sie weniger als m positive
Koordinaten besitzt.
(ii) Eine Ecke der zulassigen Menge Z heißt nicht entartet, wenn sie genau m positive
Koordinaten besitzt. Dabei ist m = Rg(A).
Beispiel 1:
A =
2 −1 1 0 0
1 −1 0 1 0
1 1 0 0 1
,~b =
2
2
5
P sei das Bild der zulassigen Menge von
2 −1
1 −1
1 1
1 1
·(
x1
x2
)≤
2
2
5
,
(x1
x2
)≥ ~0,
nicht aber die zulassige Menge Z von A~x = ~b, ~x ≥ 0. Diese ist eine Teilmenge vom K5, wegen
rg(A) = 3 und n − Rg(A) = 5 − 3 = 2 ist Z aber in einer affinen Ebene ε vom K5 enthalten.
52
Eine Parameterdarstellung von ε ist z.B. gegeben durch
ε : ~x =
72
32
−72
0
0
+ λ1
−1
−1
1
0
2
+ λ2
−1
1
3
2
0
λ1 = 1, λ2 = 1 liefert ~xt =
(32 , 3
2 , 12 , 2, 2
)∈ ZZ aber die zugehorigen Spaltenvektoren
{~s1, ~s2, ~s3, ~s4, ~s5} sind l.a., also ist ~x keine Ecke von Z.
λ1 = 3, λ2 = 5 liefert ~x = (−92 , . . .) 6∈ Z.
Wie kann man Z beschreiben? Z ist ja nur eine konvexe Teilmenge von ε !
Wie erhalt man die Ecken von Z?
Wegen Rg(A) = 3 und n = 2 hat man 2 freie Variable, wir nehmen dafur die Nicht–Schlupf–
Variablen. Jeder Punkt
(x1|x2) ∈ P (die Koordinaten sind also gerade die Nicht-Schlupfvariablen) liefert mit den
Parametern t1 := x1, t2 := x2 einen Punkt (x1, x2, . . . , x5)t ∈ Z, namlich
(∗)
x1 = t1
x2 = t2
x3 = 2− 2t1 + t2
x4 = 2− t1 + t2
x5 = 5− t1 − t2
⇔ Z : ~x =
0
0
2
2
5
+ t1
1
0
−2
−1
1
+ t2
0
1
1
1
−1
, (t1, t2) ∈ P
z.B.: Fur (t1, t2) = (1, 1) ∈ P erhalt man
~x = (1, 1, 1, 2, 3) ≥ 0 und A~x = ~b, also ~x ∈ Z.
Wegen Satz 16.2 ist aber ~x auch keine Ecke von Z.
Die Ecken von Z erhalt man, wenn man fur die Parameter (t1, t2) gerade die Ecken
des “Parameterpolygons” P wahlt.
Die Ecken von P erhalt man durch alle moglichen Schnitte der das Polynom P begrenzenden
Geraden (= Hyperebenen im K2):
53
Polygonecken: (0, 0), (1, 0), (73 , 8
3), (0, 5)
↓ ↓ ↓ ↓
Ecken von Z : ~p1 =
0
0
2
2
5
~p2 =
1
0
0
1
4
~p3 =
73
83
073
0
~p4 =
0
5
7
7
0
↓ ↓ ↓ ↓
Test auf Ecken: {s2, s4, s5}, {s1, s4, s5}, {s1, s2, s3}, {s2, s3, s4} l.u. ?
(RowReduce) ja ja ja ja
{~p1, ~p2, ~p3, ~p4} sind nichtentartete Ecken von Z (wegen Rg(A) = 3).
Die Darstellung (*) zeigt, daß Z eine 2−parametrige Punkteschar enthalt und beschrankt ist.
Wegen (t1, t2) ∈ P , einem beschrankten Viereck, enthalt Z namlich keinen Strahl.
zu Beispiel 2: 1 −2 1 0 0
−2 1 0 1 0
1 1 0 0 −1
,~b =
2
2
1
Polygonecken: (1, 0), (2, 0), (0, 1), (0, 2)
↓ ↓ ↓ ↓
~p1 =
1
0
1
4
0
~p2 =
2
0
0
6
1
~p3 =
0
1
4
1
0
~p4 =
0
2
6
0
1
↓ ↓ ↓ ↓
Test auf Ecken: {s1, s3, s4}, {s1, s4, s5}, {s2, s3, s4}, {s2, s3, s5} l.u.?
ja ja ja ja
⇒ {~p1, ~p2, ~p3, ~p4} sind nichtentartete Ecken von Z.
Beispiel 3:
A ∈ Km·n, Rg(A) = m ≥ 1, Z = {~x|A~x = ~0 und ~x ≥ 0}, Dann ist ~x = ~0 eine entartete
54
Ecke von Z. (~0 ist nicht Konvexkombination von nichtnegativen Zahlen, ~0 hat keine positiven
Koordinaten).
Um die Eckenanzahl in der zulassigen Mengen Z abschatzen zu konnen, benotigt man den Begriff
der “Basis einer Ecke ~p ∈ Z”.
Sei Rg(A) = m.
~p
nichtentartet: ∃ genau m positive Koordinaten ⇒ die zugehorigen Spaltenvektoren
bilden eine Basis vom Spaltenraum
= Km
entartet: ∃p < m positive Koordinaten ⇒ die p l.u. zugehorigen Spalten–
vektoren lassen sich (i.a. auf
mehrere Arten) zu einer Basis von
Km erganzen
Definition 16.2 Basis einer Ecke
~p sei eine Ecke der zulassigen Menge Z = {~x|A~x = ~b ≥ 0, ~x ≥ 0} mit Rg(A) = m.
Eine Basis B~p der Ecke ~p ist eine Menge von m l.u. Spaltenvektoren von A, welche die zu
positiven Koordinaten von ~p gehorigen Spaltenvektoren von A umfaßt. Die zu den Vektoren
einer Basis B~p gehorigen Unbekannten des LGS A~x = b heißen Basisvariable (BV) von ~x zur
Basis B~p, die ubrigen Unbekannten heißen Nichtbasisvariable (NBV) von ~x.
Bemerkungen
1. Nach dem Basiserganzungssatz ist einer nichtentarteten Ecke eindeutig eine Basis vom Km
zugeordnet, einer entarteten Ecke dagegen mehrere.
2. Jede Basis einer Ecke ist auch eine Basis vom Km.
Es gilt nun der wichtige
Satz 16.2 Endlichkeit der Eckenanzahl
Die zulassige Menge Z = {~x ∈ Kn|A~x = ~b ≥ 0 und ~x ≥ 0} mit Rg(A) = m besitzt mindestens
eine und hochstens endlich viele Ecken.
Beweis fur die Existenz hochstens endlich vieler Ecken: Idee: Man zeigt, daß man jeder l.u.
Menge von m Spaltenvektoren von A hochstens eine (d.h. auch keine) Ecke zuordnen kann.
55
Damit gilt dann: Anzahl der Ecken ≤(
nm
), weil man aus n Elementen auf
(nm
)Arten m Elemente
herausgreifen kann (es kommt auf die Reihenfolge nicht an).
Sei ~p ∈ Z eine Ecke ⇔ die zu positiven Koordinaten gehorigen Spaltenvektoren von A sind l.u.
Sei { ~sk1 , ~sk2 , . . . , ~skm} eine Menge von m l.u. Spaltenvektoren von A. Dann hat das LGS
xk1 · ~sk1 + . . . + xkm · ~skm = ~b−n∑
i=m+1
xki· ~ski
(20)
in den m Unbekannten xk1 , . . . , xkm fur jede Wahl von xkm+1 , . . . , xkn , also auch fur
xkm+1 = . . . = xkn = 0
eine eindeutige Losung (Rg( ~sk1 , . . . , ~skm) = m = ] Unbekannten).
Sei xk1 = l1, . . . , xkm = lm.
Dann ist der Punkt ~p = (p1, p2, . . . , pn) mit
pki=
lkii = 1, . . . ,m
0 i = m + 1, . . . , n
eine Losung von A~x = ~b.
Sind alle lki≥ 0, dann ist ~p eine Ecke von Z (denn die zu lki
gehorigen Spaltenvektoren
~sk1 , . . . , ~skm sind nach Voraussetzung l.u.). Ist aber mindestens ein lki< 0, dann ist ~p 6∈ Z.
Der Vorgang:
(i) Wahle aus den n Spaltenvektoren von A m l.u. aus
(ii) Lose damit das LGS (20)
liefert also hochstens eine Ecke.
Durch diesen Vorgang werden aber auch alle Ecken von Z erfaßt (unter Umstanden hat man
nur zu viel gerechnet):
Sei ~p ∈ Z eine Ecke mit p ≤ m positiven Koordinaten xk1 , . . . , xkp (mehr als m kann es nach
Satz 16.2 nicht geben!). Dann sind die zugeordneten Spaltenvektoren von A: ~sk1 , . . . , ~skp nach
Satz 16.1. Nach dem Basiserganzungssatz kann man diese l.u. Menge von Vektoren aus Km zu
einer Basis von Km erganzen: Km =< ~sk1 , . . . , ~skp , . . . , ~skm >.
Geht man von dieser Basis aus, erhalt man mittels des obigen Vorganges gerade das vorgegebene
~p (ganz egal, wie man zu einer Basis erganzt hat, denn wegen Rg(A) = m =
] Unbekannten ist (20) eindeutig losbar).
56
Der Beweis liefert auch die Methode, wie man alle Ecken von Z erhalt. Allerdings wachst(
nm
)fur große n, m explosionsartig (= exponentiell) an.
Beispiel:
Berechne alle Ecken von Beispiel 1 (ohne Parameterpolygon P )
Rg(A) = 3, n = 5 ⇒ ∃ hochstens(
nm
)=
(53
)=
(53
)= 5·4
1·2 = 10 Moglichkeiten, um aus den 5
Spaltenvektoren eine Menge von 3 l.u. auszuwahlen.
(k1, k2, k3) l.u. NBV BV Ecke entartet
(1, 2, 3) ja x4 = 0, x5 = 0 (72 , 3
2 ,−72) nein
(1, 2, 4) ja x3 = 0, x5 = 0 (73 , 8
3 ,−73) (7
3 , 83 , 0, 7
3 , 0) nein
(1, 2, 5) ja (0,−2, 7) nein
(1, 3, 4) ja (5,−8,−3) nein
(1, 3, 5) ja (2,−2, 3) nein
(1, 4, 5) ja (1, 1, 4) (1, 0, 0, 1, 4) nein
(2, 3, 4) ja x1 = 0, x5 = 0 (5, 7, 7) (0, 5, 7, 7, 0) nein
(2, 3, 5) ja x1 = 0, x4 = 0 (−2, 0, 7) nein
(2, 4, 5) ja x1 = 0, x5 = 0 (−2, 0, 7) nein
(3, 4, 5) ja x1 = 0, x2 = 0 (2, 2, 5) (0, 0, 2, 2, 5) nein
Eingabe: s1, . . . , sn so, daß A = {s1, . . . , sn}, b;
Auswahl (k1, k2, k3)
aa = {sk1 , sk2 , sk3} ar = {sk4 , sk5}
RowReduce [aa]
Linear Solve [aa, b] gibt Werte der Basisvariablen.
Fur beschrankte zulassige Mengen Z gilt daruber hinaus:
Satz 16.3 Beschreibung zulassiger Mengen
Eine beschrankte zulassige Menge ist die konvexe Hulle ihrer (endlich vielen) Ecken.
Beweis:
Z besitzt mindestens eine und hochstens endlich viele Ecken. Da Z konvex ist, enthalt Z jede
57
Konvexkombination dieser Ecken. Wir mussen noch zeigen, daß durch Konvexkombinationen
der Ecken auch jedes Element ~x ∈ Z erfaßt wird:
Sei Rg(A) = m = n : Wegen Z 6= ∅ hat A~x = ~b genau eine Losung ~x0 ≥ 0⇒ Z = { ~x0} und ~x0
ist Konvexkombination von ~x0, namlich ~x0 = 1 · ~x0.
Sei Rg(A) = m < n :
Sei b = 0 : Dann ist die Losungsmenge LH von A~x = ~0 ein (n −m)−dimensionaler Teilraum
von Kn, d.h., mit einem ~x0 > ~0 liegen auch alle positiven Vielfache λ ~x0 ∈ LH , dann ware aber
Z im Gegensatz zur Annahme unbeschrankt. Es kann in Z also kein positives ~x0 > 0 geben
⇒ Z = {~0} und ~0 = 1 ·~0 ist Konvexkombination von ~0.
Sei b 6= 0 : Dann ist ~0 6∈ Z ⇒ jedes ~x ∈ Z hat mindestens eine positive Komponente. Sei
~x0 = (x1, . . . , xn)t ∈ Z mit p ≥ 1 positiven Komponenten, P sei die Menge jener Indices i
mit xi > 0, also P := {i|xi > 0} und S := {~si|i ∈ P} sei die Menge der dazugehorigen
Spaltenvektoren von A.
1. Fall: Sei S l.u. ⇒ nach 6.1 ist ~x0 eine Ecke und damit eine Konvexkombination der Ecken
von Z, namlich ~x0 = 1 · ~x0 + 0 · ~x1 + . . . + 0 · ~xm, wobei ~xi(i = 0, . . . ,m) Ecken von Z sind.
2. Fall: Sei S l.a. ⇒ ∃λi ∈ K, nicht alle 0, mit
∑i∈P
λi~si = ~0. (21)
Davon ist mindestens ein λi > 0, sonst multipliziert man (21) mit (−1). IP sei die Indexmenge
der positiven λi, IN sei die Indexmenge der negativen λi, also
IN := {i|λi < 0} ⊂ P, IP := {i|λi > 0} ⊂ P
Es ist IP 6= ∅, aber auch IN 6= ∅:
Fur jedes t ∈ K sind namlich die Punkte
~y(t) := (y1, . . . , yn) mit yi =
xi + tλi fur i ∈ P
0 fur i 6∈ P(22)
Losungen von A~x = ~b (wegen (21)):
A~y(t) = A ~x0 + t ·∑i∈P
λi~si + t · 0 ·∑j 6∈P
λj ~sj = ~b + t ·~0 +~0 = ~b.
58
Waren nun alle λi ≥ 0 ⇒ alle ~y(t) ≥ 0 ⇒ alle ~y(t) ∈ Z ⇒ Z ist unbeschrankt im Widerspruch
zur Beschranktheit. Also gilt es in (21) mindestens ein negatives λi.
Es gilt nun folgender Hilfssatz.
Jeder Punkt ~x0 ∈ Z mit r ≥ 1 positiven Koordinaten ist Konvexkombination zweier verschiede-
ner Punkte von Z mit je hochstens r − 1 positiven Koordinaten.
Da jeder Punkt aus Z hochstens n positive Koordinaten hat, kommt man mit diesem Hilfssatz
nach endlich vielen Schritten auf folgende Situation:
~x0 mit n ≥ r ≥ 1 positiven Koordinaten ist Konvexkombination von Punkten ~yi ∈ Z mit
hochstens r − 1 positiven Koordinaten, jedes ~yi ∈ Z ist wiederum Konvexkombination von
Punkten ~zi mit hochstens r− 2 positiven Koordinaten usw. Letztlich ist ~x0 Konvexkombination
von Punkten mit genau einer positiven Koordinate. Solche sind aber stets Ecken, denn:
Hat ~x0 genau eine positive Koordinate xp ⇒ S = {~sp}. Da A eine Nullspalte enthalt, ist {~sp}
l.u. ⇒ ~x0 ist eine Ecke.
~x0 ist also letztlich Konvexkombination von Ecken von Z. Damit ist auch der 2. Fall abgehandelt.
Beweis des Hilfssatzes:
Mit den Indizes aus IP und IN und den Koordinaten xi von ~x0 bilden wir die Skalare
t1 := −mini∈IP
xi
λi=:−xp
λp< 0 und t2 := min
i∈IN
xi
|λi|=
xq
−λq> 0
Damit gilt fur alle i ∈ IP und t ≥ t1 : xi + tλi ≥ 0 und fur alle i ∈ IN und t ≤ t2 : xi + tλi ≥ 0.
Fur t mit t1 ≤ t ≤ t2 gilt damit fur alle i ∈ P : xi + tλi ≥ 0, also ~y(t) ∈ Z.
Fur t = t1 = −xp
λpgilt fur die p−te Koordinate von ~y(t1) nach (22):
yp = xp + t1λp = xp−xp
λp· λp = 0
Fur t = t2 = xq
−λqgilt fur die q−te Koordinate von ~y(t2):
yq = xq + t2λq = xq −xq
λpλp = 0.
Die Punkte ~y(t1) ∈ Z und ~y(t2) ∈ Z sind also verschieden und haben hochstens r − 1 positive
Koordinaten, denn yp = 0 bzw. yq = 0.
Jedes t mit t1 ≤ t ≤ t2 kann man nur schreiben als t = l1t1 + l2t2 mit l1, l2,≥ 0 und l1 + l2 = 1.
Damit ist
~y(t) = l1~y(t1) + l2~y(t2)∀t : t1 ≤ t ≤ t2
59
Weil t1 < 0 und t2 > 0 gilt dies insbesondere fur t = 0:
~y(0) = (x1, . . . , xn) = ~x0
Also ist ~x0 Konvexkombination von 2 Punkten ~y1(t1), ~y2(t2) ∈ Z mit hochstens r − 1 positiven
Koordinaten.
Zusammenfassung:
Sei A ∈ Km·n,~b ∈ Km,~b ≥ 0 und Rg(A) = m.
Die zulassige Menge Z = {~x|A~x = ~b und ~x ≥ 0}.
(i) kann beschrankt oder nicht beschrankt sein
(ii) ist stets konvex
(iii) hat mindestens eine und hochstens endlich viele Ecken
(iv) ist die konvexe Hulle ihrer Ecken, falls sie beschrankt ist.
60
16.3 Hauptsatz der linearen Optimierung
Um einen anschaulichen Uberblick uber Losungsmoglichkeiten von linearen Optimierungsaufga-
ben zu erhalten, geben wir in den beiden nachsten Beispielen die Restriktionen in 2 Variablen
wieder in Ungleichungsform an.
Beispiel:
Gegeben sei das in Beispiel 1 in Standardform behandelte lineare Ungleichungssystem
2x1 −x2 ≤ 2
x1 −x2 ≤ 2
x1 +x2 ≤ 5
x1 ≥ 0
x2 ≥ 0
undc := L1(~x) := −x1 + x2
c := L2(~x) := 2x1 + x2
Gesucht ist jeweils das Minimum von L1 und L2 auf der zulassigen Menge Z und jene Stellen,
in denen dieser Minimalwert angenommen wird.
Losung: Das Bild von Z ist in Beispiel 1 durch die Menge P gegeben. Um den Minimalwert von
L1 geometrisch zu erhalten, gehen wir nach dem in 6.1 Gesagten folgend vor:
(i) Setze L1(~x) gleich einer Konstanten c. Dies ergibt die Geradenschar
−x1 + x2 − c = 0.
(ii) Ermittle aus dieser Geradenschar jene Gerade, die bei kleinstmoglichem c mit Z mindestens
einen Punkt gemeinsam hat.
Dies kann dadurch erfolgen, daß man eine Gerade aus der Schar, am zweckmaßigsten die
mit c = 0, so parallel verschiebt, daß der Abschnitt auf der x2−Achse moglichst klein wird.
Man erhalt L1 min = −1 in genau einem Punkt ~xmin = (1/0) (siehe Abb. 1) L2 min = −2,
angenommen in allen Punkten der Verbindungsstrecke von (1/0) zu (73 |
83) (siehe Abb. 2).
61
Abb. 1 Abb. 2
Beispiel 4:
Gegeben sei das in Beispiel 2 in Standardform behandelte lineare Ungleichungssystem:
x1 −2x2 ≤ 2
−2x1 +x2 ≤ 2
x1 +x2 ≥ 1
x1 ≥ 0
x2 ≥ 0
Die zulassige Menge Z ist unbeschrankt.
Bestimme die Minima und die zulassigen Minimalpunkte fur die folgenden Zielfunktionen:
a) L1(~x) := −x1 + x2 b) L2(~x) := −x1 + 4x2
c) L3(~x) := −x1 + x2 d) L4(~x) := −x1 + 2x2
Aus den folgenden Abb. 3 – Abb. 6 entnimmt man folgendes Losungsverhalten:
Abb. 3 Abb. 4
62
Abb. 5 Abb. 6
Abbildung 7
63
a) Abb. 3: Es existiert kein zulassiger Minimalpunkt und damit kein Minimum von L1 auf
Z.
b) Abb. 4: Es gibt genau einen Minimalpunkt (2/0), mit L2 min = L2(2/0) = −2.
c) Abb. 5: Es gibt unendlich viele zulassige Minimalpunkte, namlich die Punkte auf der
Verbindungsstrecke der Ecken P1(1|0) und P2(0|1) und
L2 min = L3(1, 0) = . . . = L3(0|1) = 1.
d) Abb. 6: Es gibt unendlich viele zulassige Minimalpunkte, die alle auf dem von der Ecke
P (2|0) ausgehenden Strahl in Richtung ~u = (2, 1) liegen.
L4 min = L2(2|0) = . . . = −2.
Zusammenfassung der Beobachtungen:
(i) Ein lineares Optimierungsproblem kann unlosbar sein. Dies ist trivialerweise der Fall,
wenn die zulassige Menge leer ist. Aber auch bei nichtleerer zulassiger Menge muß kein
zulassiger Minimalpunkt existieren. Dies kann jedoch nur bei unbeschrankter zulassiger
Menge auftreten (Abb. 3).
(ii) Falls ein Minimum der Zielfunktion existiert, kann es dazu genau einen (Abb. 1, Abb.
4) aber auch unendlich viele zulassige Minimalpunkte geben. Immer wird jedoch das
Minimum auch in einer Ecke angenommen (minimale Ecke). Die Verbindungsstrecke
von zwei zulassigen Minimalpunkten enthalt ebenfalls nur zulassige Minimalpunkte.
In den beiden folgenden Satzen werden diese Beobachtungen allgemein abgesichert.
Satz 16.4 Konvexkombination
Jede Konvexkombination endlich vieler zulassiger Minimalpunkte ist wieder ein zulassiger
Minimalpunkt.
H( ~x1, . . . , ~xr) ⊂Mmin fur ~x1, . . . , ~xr ∈Mmin.
Beweis: ~xi zulassiger Minimalpunkt ⇒ A~xi = ~b, ~xi ≥ 0 und
L(~xi) = m := min~x∈Z L(~x).
Sei ~x Konvexkombination von ~x1, . . . , ~xr ⇒
~x =r∑
i=1
λi ~xi mit λi ≥ 0 undr∑
i=1
λi = 1.
64
(i) A~x = A(∑
i λi ~xi) =∑
i λiA~xi =∑
i(λi~b) = (
∑·λi)~b = 1~b = ~b
(ii) ~x =∑
λi ~xi ≥ 0
(iii) L(~x) = L(∑
i λi ~xi) =∑
i λiL(~xi) =∑
i λic = c(∑
i λi) = c · 1 = c
(i)–(iii) zeigen, daß ~x wieder ein zulassiger Minimalpunkt ist.
Die vorhergehenden Bilder zeigen, daß das Minimum stets auch in einem Eckpunkt der zulassigen
Menge angenommen wird. Dies gilt tatsachlich auch allgemein:
Satz 16.5 Hauptsatz der linearen Optimierung.
Falls das lineare Optimierungsproblem losbar ist, wird das Minimum stets auch in mindestens
einer Ecke der zulassigen Menge angenommen.
Kurz: Es existiert eine minimale Ecke.
Voraussetzung: A ∈ Kmin, Rg(A) = m,~0 ≤ ~b ∈ Km,~l ∈ Kn
Z = {~x|A~x = b ∧ ~x ≥ 0}, L(~x) := ~lt · ~x
m := min~x∈Z L(~x),Mmin := {~x|~x ∈ Z ∧ L(~x) = m}.
Behauptung: Ist Mmin 6= ∅, dann enthalt Mmin mindestens eine Ecke von Z.
Beweis: Aus Mmin 6= ∅ ⇒ ∃ ~x0 ∈ Z : L( ~x0) = m.
Angenommen, dieses ~x0 := (x1, . . . , xn) besitze p ≥ 0 positive Koordinaten. P sei die Indexmenge
der positiven Koordinaten: P := {i|x0i > 0}. S sei die Menge der zu diesen positiven Koordinaten
gehorigen Spaltenvektoren von A : S : {~xi|i ∈ P}.
Ist p = 0, dann ist ~x0 = ~0 und daher eine Ecke:
~0 kann nicht echte Konvexkombination zweier verschiedener, nichtnegativer Punkte ~x1, ~x2 sein:
Aus ~0 = λ1 ~x1 + λ2 ~x2 mit λ1, λ2 > 0 und λ1 + λ2 = 1 folgt ~x1 = ~x2 = ~0.
65
Ist p > 0, dann unterscheiden wir 2 Falle:
1. Fall: S l.u. ⇒ ~x0 ist nach Satz 16.1 eine Ecke.
2. Fall: S la. ⇒ ∃ eine nichttriviale Linearkombination der Spaltenvektoren
~si(i ∈ P ), die den Nullvektor ergibt:
∑i∈P
ki~si = ~0 (23)
Mindestens einer der Skalare ki ist positiv, sonst multipliziert man (23) einfach mit (−1). IP sei
die Indexmenge der positiven, IN die Indexmenge der negativen Skalare in (23).
∅ 6= IP := {i|ki > 0} ⊂ P, IN := {j|kj < 0} ⊂ P
Vom zulassigen Minimalpunkt ~x0 = (x01, . . . , x
0n) mit p positiven Koordinaten ausgehend, kon-
struieren wir uns einen weiteren zulassigen Minimalpunkt, aber mit hochstens p − 1 positiven
Koordinaten:
Fur jedes δ ∈ K konstruieren wir mit ~x0 die Punkte ~x1(δ) und ~x2(δ) mit folgenden Koordinaten:
~x1(δ) :=
x0i − δki i ∈ P
0 i 6∈ Pund ~x2(δ) :=
x0i + δki i ∈ P
0 i 6∈ P(24)
(i) x1(δ), x2(δ) erfullen das LGS Ax = b (weil auch A ~x0 = ~b)
A ~x1(δ) =∑
i∈P (x0i − δki) · ~si =
∑i∈P x0
i ~si − δ ·∑
i∈P ki~si =∑
i∈P x0i ~si − δ ·~0 = ~b, wegen
~b =∑n
i=1 x0i ~si =
∑i∈P x0
i ~si +∑
i6∈P x0i ~si =
∑i∈P x0
i ~si +∑
0 · ~si =∑
i∈P x0i · ~si. Analog ist
A ~x2(δ) = ~b.
(ii) x1(δ0) ≥ 0 und x2(δ0) ≥ 0 fur bestimmte δ0
Wir bilden alle Quotienten x0i
ki> 0(i ∈ IP ) und
x0j
−kj> 0(j ∈ IN ).
Unter diesen endlich vielen Quotienten gibt es jeweils einen kleinsten, es sei dies der mit
dem Index i = r und j = s, also
x0r
kr:= min
i∈IP
x0i
kiund
x0s
−ks:= min
j∈IN
x0j
−kj.
Dann gilt fur alle 0 < δ ≤ xrkr
: x0i − δki ≥ 0 ∀i ∈ IP , denn man zieht von x0
i maximal ab:
x0i − xr
kr· ki ≥ x0
i −x0
iki
ki = 0.
66
Ebenso gilt fur alle 0 < δ ≤ xs−ks
: x0i + δki ≥ 0 ∀i ∈ IN , denn man gibt was Negatives
hinzu.
Somit sind alle Koordinaten von ~x1(δ ≤ xrkr
) ≥ 0, denn:
ist i ∈ IP ⊂ P , dann ist nach oben x0i − δki ≥ 0
ist i ∈ IN ⊂ P , dann ist ki < 0, also x0i − δki erst recht positiv (weil ja x0
i ≥ 0).
ist i 6∈ P , dann ist nach Definition (24) die Koordinate 0.
Analoges gilt fur ~x2(δ ≤ x0s
−ks). Wahlt man δ0 als die kleinere der beiden Zahlen
{x0
rkr
, x0s
−ks
},
also 0 < δ0 := min{
x0r
kr, x0
s−ks
}, dann gilt ~xn(δ0) ≥ 0 und ~x2(δ0) ≥ 0.
(iii) L(x1(δ0)) = L(x0) = Lmin und L(x2(δ0)) = L(x0) = Lmin
L(~x) =∑n
i=1 lixi ⇒ (wenn man die Summanden mit li = 0 weglaßt):
L( ~x1(δ0)) =∑
i∈P li(x0i − δ0ki) =
∑i∈P lix
0i − δ0
∑i∈P liki =
=∑n
i=1 lix0i − δ0
∑i∈P liki = L( ~xo)− δ0
∑i∈P liki
L( ~x2(δ0)) =∑
i∈P li(x0i + δ0ki) = L( ~x0) + δ0
∑i∈P liki.
Weil nun Lmin = L( ~x0) ≤ L(~x)∀~x ∈ Z ist, also auch fur ~x = ~x1(δ0) bzw. ~x = ~x2(δ0)),
erhalt man: L( ~x0) ≤ L( ~x1(δ0)) = L( ~x0) − δ0∑
i∈P liki, also∑
i∈P liki ≤ 0 und analog
L( ~x0) ≤ L( ~x2(δ0)) = L ~x0) + δ0∑
i∈P liki, also∑
i∈P liki ≥ 0.
Also muß∑
i∈P liki = 0 sein, also L( ~x1(δ0)) = L(x00) = Lmin und L( ~x2(δ0)) = Lmin und
damit sind mit (i) und (ii) ~x1(δ0) und ~x2(δ0) zulassige Minimalpunkte.
Sie haben aber weniger positive Koordinaten als ~x0, denn:
Ist δ0 = xrkr⇒ die r−te Koordinate von ~x1(δ0)) = x0
r − xrkr· kr = 0.
Ist δ0 = xs−ks⇒ die s−te Koordinate von ~x2(δ0) = x0
s+
xs−ks· ks = 0.
Von einem zulassigen Minimalpunkt ~x0 ausgehend erhalt man so auf alle Falle einen weiteren
zulassigen Minimalpunkt ~x1, aber mit weniger positiven Koordinaten. Die Menge S1 der zu den
positiven Koordinaten von ~x1 gehorigen Spaltenvektoren von A wird daher eine echte Teilmenge
von S sein: S1 ⊂ S. Ist S1 l.u., dann ist ~x1 eine Ecke. Ist S1 l.a., dann wendet man dasselbe
Verfahren wie oben auf ~x1 an usw. Spatestens nach p Schritten ist Sp die leere Menge, also l.u.,
und man hat eine Ecke erhalten, w.z.z.w.
Wann gibt es uberhaupt zulassige Minimalpunkte? Ist die zulassige Menge Z unbeschrankt, muß
es solche nicht geben (siehe Abb. 3). Bei beschrankten, zulassigen Mengen kann dies jedoch nicht
67
passieren (wir mussen allerdings K = IR voraussetzen).
Satz 16.6 Existenz zulassiger Minimalpunkte
Sei A ∈ IRm·n, Rg(A) = m,~0 ≤ ~b ∈ IRm,~l ∈ IRn, L(~x) := ~lt~x.
Z := {~x ∈ Kn|A~x = ~b und ~x ≥ 0} sei nichtleer und beschrankt.
Dann existiert mindestens ein ~x0 ∈ Z mit L( ~x0) = min~x∈Z L(~x).
Eine lineare Optimierungsaufgabe mit nichtleerer und beschrankter zulassiger
Menge ist losbar.
Beweis: Der Satz ist eine direkte Folgerung aus dem Satz das Maximum und Minimum aus der
mehrdimensionalen Analysis (nach WEIERSTRASS):
Die Teilmenge D ⊆ IRn sei nicht leer, abgeschlossen und beschrankt. Die Abbildung f : IRn → IR
sei stetig. Dann besitzt f auf D ein globales Maximum und ein globales Minimum.
Bei uns ist D = Z. Weil in Z in allen Ungleichungen das Gleichheitszeichen ≤ auftritt, ist Z
abgeschlossen (d.h. IRn\Z ist offen).
Lineare Abbildungen sind stets stetig, also insbesondere auch L(~x) = ~lt~x.
Um die lineare Optimierungsaufgabe zu losen, konnte man daher folgend vorgehen:
1. Entscheide, ob das Problem losbar ist.
Berechne dazu die zulassige Menge Z.
Ist Z 6= ∅ und beschrankt ⇒ Problem losbar.
Ist Z unbeschrankt, kann das Problem auch unlosbar sein (siehe SIMPLEXVERFAHREN
→ Operations Research).
2. Berechne alle Ecken ~x1, . . . , ~xr von Z.
Berechne L( ~xk) fur alle k = 1, . . . , r.
Dann ist nach c) Lmin = L(~x) = mink∈Ir L( ~xk).
Dieses Vorgehen ist praktisch unbrauchbar, denn n und m sind oft > 100.
Das von G.B. DANTZIG 1947 entwickelte SIMPLEXVERFAHREN gestattet es, nach endlich
vielen Schritten entweder die Nichtlosbarkeit des Problems erkennen bzw. eine minimale Ecke
finden zu konnen.
68
V LINEARITATBei der “Linearitat” handelt es sich wohl um den wichtigsten Begriff der Linearen Algebra, die
ja auch nach ihr benannt ist. Wenn man sich in einer Menge nicht genau auskennt, ist es in
der Mathematik ublich, sie in eine Menge “abzubilden”, in der man sich besser auskennt. In
der Linearen Algebra sind die zu Grunde liegenden Mengen stets Vektorraume. Damit bei den
Abbildungen nicht zu viel zerstort wird, ist es naheliegend, daß die Abbildungen die Vektorraum-
addition und das Vervielfahcen “respektieren”. Damit ist gemeint: Bilder von Linearkombinatio-
nen sollen wieder Linearkombinationen der Bilder sein. Diese Forderung erleichtert das mathe-
matische Leben essentiell, sie wird mit “Linearisierung” bezeichnet. Viele Erscheinungen in der
Physik, Technik, Wirtschaft und Sozialwissenschaft erlauben die Anwendung dieser Linearisie-
rung, viele auch nicht, dann wird oft zwangsweise “linearisiert”. Allerdings muß man dann den
Fehler kennen, den man dabei gemacht hat (siehe differenzierbare Funktionen) oder man muß
die Aussagen kritisch behandeln.
17 Lineare Abbildungen
Sie stellen jenes Werkzeug dar, mit denen “linearisiert” wird. Wir werden sehen, daß sie sich
uber weite Strecken wie Matrizen verhalten, man kann sie also als verallgemeinerte Matrizen
auffassen.
17.1 Elementare Eigenschaften
Ist A eine m× n−Matrix, dann kann man ein LGS A~x = ~b als eine Abbildung fA : Kn → Km
auffassen, die dem n−Tupel ~x ∈ Kn das m−Tupel ~b ∈ Km zuordnet:
Abbildungstheoretische Auffassung eines Linearen Gleichungssystems.
A~x = ~b⇔ ~x ∈ Kn → ~b ∈ Km
fA : Kn → Km mit fA~x := A~x
fA heißt die von der Matrix A induzierte Abbildung von Kn in Km oder die Multi-
plikation mit der Matrix A.
Sprechweise: fA von ~x ist A mal ~x.
Bemerkung: ~x,~b werden in Spaltenform geschrieben, die Abbildung fA wird oft mit demsel-
ben Buchstaben wie die Matrix bezeichnet (also fA = A).
69
Das Gleichungssystem A~x = ~b losen bedeutet bei dieser Auffassung:
Bestimme alle Urbilder von b unter der induzierten Abbildung fA.
Aufgrund der Rechenregeln fur Matrizen ist diese induzierte Abbildung vertraglich mit den Vek-
torraumoperationen:
fA(~x + ~y) = A(~x + ~y) = A~x + A~y = fA(~x) + fA(~y)
A(λ~x) = fA(λ~x) = λ(A~x) = λfA(~x)
Solche mit den Vektorraumoperationen vertraglichen Abbildungen haben wir schon mehrmals
angetroffen, z.B. beim Skalarprodukt oder bei der Determinante.
Wir verallgemeinern diesen Sachverhalt auf beliebige Vektorraume:
Definition 17.1 Lineare Abbildungen
V und W seien Vektorraume uber demselben Korper K. Eine lineare Abbildung
(linear map, Homomorphismus) von V in W ist eine Abbildung f : V →W mit
(L1) f(x + y) = f(x) + f(y)
(L2) f(λx) = λf(x)
Ein linearer Operator auf V (Endomorphismus) ist eine lineare Abbildung von V in V . (L1)
und (L2) bedeuten:
Das Bild einer Summe ist Summe der Bilder
Das Bild eines Vielfachen ist Vielfaches des Bildes
f vertraglich mit
Vektorraumoperationen
Weil in (L2) auf beiden Seiten dasselbe λ steht, mussen V und W Vektorraume uber demselben
Korper K sein.
(L1) und (L2) konnen zu einer Bedingung zusammengefaßt werden:
Satz 17.1 Charakterisierung von linearen Abbildungen
(i) V,W seien Vektorraume uber K.
f : V →W linear ⇔ f(λx + µy) = λf(x) + µf(y) ∀λ, µ ∈ K
(ii) Allgemein: f(∑n
i=1 λixi) =∑n
i=1 λif(xi)
In Worten: Das Bild einer Linearkombination ist Linearkombination der Bilder.
70
Beweis von (i):
1. ⇒: f(λx + µy) = f(λx) + f(µy) = λf(x) + µf(y)
2. ⇐: λ = µ = 1 : f(x + y) = f(1 · x + 1 · y) = 1 · f(x) + 1 · f(y) = f(x) + f(y) + µ = 0 :
f(λx) = f(λx + 0y) = λf(x) + 0f(y) = λf(x)
Beweis von (ii) durch Induktion nach n.
Definition 17.2 Spezielle lineare Abbildungen
Ist U ⊆ V , dann ist das Bild von U unter f die Menge f(U) := {f(u) | u ∈ U}. Speziell:
Das Bild von f (Image von f) ist das Bild von ganz V : im(f) := f(V).
Ein Epimorphismus von V auf W ist eine surjektive lineare Abbildung von V auf W .
Ein Monomorphismus von V in W ist eine injektive lineare Abbildung von V in W .
Ein Isomorphismus von V auf W ist eine bijektive lineare Abbildung von V auf W .
Ein Automorphismus auf V ist eine bijektive lineare Abbildung von V auf sich selbst.
Beachte: Das Wort Bild (image) wird
dreifach verwendet:
Bild eines Elementes: f(x)
Bild einer Teilmenge: f(U)
Bild einer Abbildung: im(f)
Satz 17.2 Matrixabbildungen
A sei eine m× n−Matrix uber dem Korper K.
(i) Jede m× n−Matrix A definiert eine lineare Abbildung
fA : Kn → Km durch fA(x) := Ax (~x Spaltenvektor).
Sie heißt die von A induzierte Abbildung oder die Multiplikation mit der Matrix A.
(ii) Jede m× n−Matrix A definiert eine weitere lineare Abbildung
gA : Kn → Km durch gA(~x) := (~xt ·A)t (~xt Zeilenvektor)
Es gilt: gA = fAt
Beweis: (i) siehe Einleitung
71
(ii) gA(~x + ~y) = ((~x + ~y)t ·A)t = (~xt ·A + ~yt ·A)t = (~xt ·A)t + (~yt ·A)t = gA(~x) + gA(~y)
gA(λ~x) = ((λ~x)t ·A)t = λ((~xt ·A))t = λgA(~x)
(iii) fAt(~x) = At · ~x = (~xt ·A)t = gA(~x) ∀~x ∈ Km ⇒ gA = fAt .
Man erhalt das m−Tupel ~xtA durch Anwendung der Matrix At auf den Spaltenvektor ~x.
Bemerkung: Eine Matrix kann also auf zwei Arten eine lineare Abbildung induzieren. Wegen
(iii) verwenden wir stets die Spaltenschreibweise (i): fA(x) = Ax
Satz 17.3 Elementare Eigenschaften von linearen Abbildungen
f sei eine lineare Abbildung von V in W und U ein Teilraum von V .
(i) Das Bild des Nullvektors ist stets der Nullvektor: f(0) = 0.
(ii) Das Bild eines Teilraumes U C V ist wieder ein Teilraum: f(U) C W.
Man sagt: Lineare Abbildungen sind teilraumtreu.
Insbesondere ist im (f) stets ein Teilraum von W .
(iii) Die Dimension des linearen Bildes eines Teilraumes wird hochstens kleiner:
U C V ⇒ dim(f(U)) ≤ dim(U).
(iv) Ist V =< b1, . . . , bn >⇒ f(V ) = < f(b1), . . . , f(bn) >= im(f)
Beweis:
(i) f(0) = f(0 + 0) = f(0) + f(0), d.h., f(0) hat die Neutraleneigenschaft, wegen der Eindeutigkeit ist es das
Neutrale.
(ii) f(U) 6= ∅ weil 0 = f(0) ∈ f(U)(U enthalt stets 0!) Seien x′, y′ ∈ f(U) ⇒ ∃x, y ∈ U : x′ = f(x),
y′ = f(y) ⇒ λx′ + µy′ = λf(x) + µf(y) = f(λx + µy) ∈ f(U), weil λx + µy ∈ U (U ist Teilraum).
(iii) Sei U k−dimensional: U =< u1, u2, . . . , uk > und sei x′ ∈ f(U) ⇒ ∃x ∈ U : f(x) = x′.
x ist Linearkombination von u1, . . . , uk ⇒ x′ := f(x) = f(λ1u2 + . . . + λkuk) = λ1f(u1) + . . . + λ1f(uk) ⇒
{f(u1), . . . , f(uk)} ist ein Erzeugendensystem von f(U), eine Basis von f(U) hat aber gleich viele oder
weniger Elemente.
(iv) 1. Sei x′ ∈< f(b1), . . . , f(bn) >⇒ x′ =Pn
i=1 λif(bi) ⇒ (nach 1.1): x′ = f(Pn
i=1 λibi) ⇒
fur x =Pn
i=1 λibi ∈ V gilt: x′ = f(x) ⇒ x′ ∈ f(V ) = im(f).
2. Sei x′ ∈ im(f) ⇒ ∃x =Pn
i=1 λibi ∈ V : fx′ = f(x) = f(Pn
i=1 λibi) =Pn
i=1 λif(bi) ∈<
f(b1), . . . , f(bn) >.
72
Bemerkung: Im Anschauungsraum sind die Teilraume Geraden bzw. Ebenen durch 0. (ii)
bedeutet, daß lineare Bilder von Geraden und Ebenen wieder solche sind, eventuell kann aus
einer Geraden ein Punkt bzw. aus einer Ebene eine Gerade oder ein Punkt werden. Auf keinen
Fall entstehen aber durch lineare Abbildungen gekrummte oder gar “aufgeloste” Punktmengen:
Salopp gesagt: Das lineare Bild einer “geraden Linie” ist wieder eine “gerade Linie” (daher auch
der Name “Lineare Abbildungen”).
Beispiele und Gegenbeispiele von linearen Abbildungen:
1. Geometrische Beispiele im Anschauungsraum:
a) Drehungen um den Ursprung 0 um den Winkel α sind linear
D0;α : V 2 → V 2 Beweis durch Konstruktion
b) Drehungen um den Punkt P 6= 0 sind nicht linear, weil DP (0) 6= 0
c) Parallelverschiebungen (Translationen) T um den Vektor ~t sind nicht linearT (0) = t 6= 0
außerdem: T (x + y) 6= T (x) + T (y)
2. Arithmetische Beispiele im Kn:
Bemerkung: Statt f((x1, x2, x3)) schreiben wir einfach f(x1, x2, x3).
a) f : K3 → K2 mit f(x1, x2, x3)t = (2x1 + 3x2 + x3, x1 + x2 + x3)t ist linear:
Grund: Die “Formel” fur f enthalt nur 1. Potenzen in x1, x2, x3.
Sei ~xt = (x1, x2, x3), ~yt = (y1, y2, y3)
73
f(~x + ~y) = f
0BBB@x1 + y1
x2 + y2
x3 + y3
1CCCA =
0@ 2(x1 + y1) + 3(x2 + y2) + (x3 + y3)
(x1 + y1) + (x2 + y2) + (x3 + y3)
1A =
=
0@ (2x1 + 3x2 + x3) + (2y1 + 3y2 + y3)
(x1 + x2 + x3) + (y1 + y2 + y3)
1A =
0@ 2x1 + 3x2 + x3
x1 + x2 + x3
1A+
+
0@ 2y1 + 3y2 + y3
y1 + y2 + y3
1A = f(~x) + f(~y)
f(λ~x) = f
0BBB@λx1
λx2
λx3
1CCCA =
0@ 2λx1 + 3λ2x2 + λx3
λx1 + λx2 + λx3
1A = λ
0@ 2x1 + 3x2 + x3
x1 + x2 + x3
1A = λf(~x)
b) g : K2 → K3 mit g(x, y) = (x + 1, 2y, x + y) ist nicht linear:
Grund: Die Formel fur g enthalt angehangte Konstanten (x + 1).
Sei ~xt = (x, y), ~yt = (x1, y1)
f(~x + ~y) = f
0@ x + x1
y + y1
1A =
0BBB@x + x1 + 1
2(y + y1)
x + x1 + y + y1
1CCCA ;
f(~x) + f(~y) =
0BBB@x + 1
2y
x + y
1CCCA+
0BBB@x1 + 1
2y1
x1 + y1
1CCCA =
0BBB@x + x1 + 2
2y + 2y1
x + y + x1 + y1
1CCCA 6= f(~x + ~y)
c) h : K2 → K2 mit h(x, y) = (x2, xy) ist nicht linear.
Grund: Die Formel fur f enthalt hohere Potenzen und Produkte in x, y.
Sei ~xt = (x, y), ~yt = (x1, y1)
h(~x + ~y) = h
0@ x + x1
y + y1
1A =
0@ (x + x1)2
(x + x1)(y + y1)
1A =
0@ x2 + 2x1x + x21
xy + x1y + xy1 + x1y1
1Ah(~x) + h(~y) =
0@ x2
xy
1A+
0@ x21
x1y1
1A =
0@ x2 + x21
xy + x1y1
1A 6= h(~x + ~y)
3. Beispiele in Funktionsraumen:
a) V = Vektorraum der differenzierbaren Funktionen
D : V → V Differentialoperator mit D(f) = f ′
D ist linear wegen der Differentiationsregeln:
D(f + g) = (f + g)′ = f ′ + g′ = D(f) + D(g)
D(λf) = (λf)′ = λf ′ = λD(f)
b) V = Vektorraum der auf [a, b] integrierbaren Funktionen.
J : V → IR Integraloperator mit J(f) =∫ ba f(x)dx
74
J ist linear wegen der Integrationsregeln:
J(f + g) =R b
a(f + g)dx =
R b
af(x)dx +
R b
ag(x)dx = J(f) + J(g)
J(λf) =R b
a(λf(x)dx = λ
R b
af(x)dx = λJ(f)
4. Die Nullabbildung und die identische Abbildung sind lineare Operatoren.0(x + y) = 0 = 0 + 0 = 0(x) + 0(x) id(x + y) = x + y = id(x) + id(y)
0(λx) = 0 = λ · 0 = λ · 0(x) id(λx) = λx = λid(x)
5. a) Das reelle Skalarprodukt <,>= V × V → IR ist nach S1 linear in beiden Variablen:
< λ1a1 + λ2a2, b > = λ1 < a1, b > +λ2 < a2, b >
< a, λ1b1 + λ2b2, b > = λ1 < a1, b1 > +λ2 < a, b2 >
Man sagt: Das reelle Skalarprodukt ist eine bilineare Abbildung von V × V in IR.
b) Das komplexe Skalarprodukt ist nur linear in der ersten Variablen, fur die zweite
Variable gilt bezuglich des Heraushebens von Skalaren: < a, λb >= λ < a, b >, sonst
gelten aber alle anderen “linearen” Eigenschaften. Man sagt:
Das komplexe Skalarprodukt ist eine semilineare Abbildung von V × V in IC.
c) Die Determinanteneigenschaft D1 sagt aus, daß det : V × . . . × V → K linear in
jeder Variablen ist: det(. . . λa + µb . . .) = λdet(. . . a . . .) + µdet(. . . b . . .). Man sagt:
Die Determinante ist eine multilineare Abbildung von V × . . .× V in K.
Allgemein definiert man:
Definition 17.3 Multilineare Abbildungen
V und W seien Vektorraume uber demselben Korper K, n ∈ IN.
Eine multilineare Abbildung f(x1, . . . , xi, . . . xn) von V in W ist eine Abbildung vom n−fachen
kartesischen Produkt V × V × . . .× V →W , die in jeder Variablen linear ist, d.h.:
f(. . . , xi + yi, . . .) = f(. . . , xi, . . .) + f(. . . , yi, . . .) i = 1, . . . , n
f(. . . , λxi, . . .) = λf(. . . , xi, . . .) i = 1, . . . , n
Fur n = 2 heißt f eine bilineare Abbildung von V in W .
Kurz: f(. . . , λxi + µyi, . . .) = λf(. . . , xi, . . .) + µf(. . . , yi, . . .) i = 1, . . . n
75
Definition 17.4 Semilineare Abbildungen
V und W seien komplexe Vektorraume.
Eine Abbildung f : V × V →W heißt semilinear, wenn gilt:
f(x1 + y1, x2) = f(x1, x2) + f(y1, x2)
f(x1, x2 + y2) = f(x1, x2) + f(x2, y2)
f(λx1, y1) = λf(x1, y1)
f(x1, λy1) = λfx1, y1)
17.2 Rang und Defekt
Die Teilraumtreue (17.3 (ii)) von linearen Abbildungen bedeuten im Anschauungsraum, daß
lineare Bilder von Geraden und Ebenen durch 0 nicht gekrummt oder in mehrere Bestandteile
aufgelost werden:
Dagegen sind lineare Abbildungen nicht dimensionstreu, allerdings kann die Dimension nach
17.3 (ii) hochstens kleiner werden. Das lineare Bild einer Geraden kann also nicht zu einer
Ebene aufgeblaht werden. Lineare Bilder von Teilraumen konnen also hochstens “schrumpfen”.
Als wichtige Kennzahlen fur “brave” lineare Abbildungen erweisen sich in diesem Zusammen-
hang die Begriffe Rang und der Defekt, die ebenfalls von Matrizen auf lineare Abbildungen
verallgemeinert werden konnen.
Wir wollen nun die Frage klaren, wann dies nicht der Fall ist, wann also lineare Abbildungen
auch dimensionstreu sind.
76
Satz 17.4 Bild einer induzierten Matrixabbildung
A sei eine m× n−Matrix und fA die von ihr induzierte lineare Abbildung, also fA : Kn → Km
mit fA(~x) = A~x. Dann ist
im(fA) = S(A) . . . Spaltenraum von A
im(fAt) = Z(A) . . . Zeilenraum von A
Damit gilt:
dim(im(fA)) = Spaltenrang von A = Rg(A)
dim(im(fAt)) = Zeilenrang von A = Rg(A)
Beweis: im(fA) ist die Menge der Bilder fA(~x) = A~x, mit ~x ∈ Kn.
Nun ist fur ~xt = (x1, x2, . . . , xn) und A = (~s1 . . . ~sn):
A~x = x1 · ~s1 + . . . + xn · ~sn ⇒ im(fA) =< s1, . . . , sn >= S(A)
(d.h., A~x ist Linearkombination der Spaltenvektoren von A).
Dann ist:
dim(im(fA)) = dim(S(A)) = Rg(A).
Analog ist im(fAt) die Hulle der Spaltenvektoren von At, also Hulle der Zeilenvektoren von A.
Da lineare Abbildungen Verallgemeinerungen von Matrizen sind, definiert man:
Definition 17.5 Rang einer linearen Abbildung
Der Rang (rank) einer linearen Abbildung f : V →W ist die Dimension ihres Bildes.
rg(f) := dim(im(f))
Es gilt: 0 ≤ rg(f) ≤ dim(W)
Beweis: rg(f) = dim(im(f)) = dim(f(V )) ≤ dim(W ).
Welchen großten und kleinsten Wert kann rg(f) uberhaupt annehmen?
(a) (b) (c)
77
Ist f surjektiv, dann wird jedes y ∈W erfaßt, also:
im(f) = W und rg(f)) = dim(im(f)) = dim(W ) (Abb. b).
dim(W ) ist also der großtmogliche Wert fur rg(f).
Ist rg(f) < W , dann ist im(f) ein echter Teilraum von W (Abb. a), im Extremfall kann im(f) =
{0} sein, wenn also alle x ∈ V auf 0 abgebildet werden, f also die Nullabbildung 0 ist (Abb. c).
Also: Je kleiner der Rang einer linearen Abbildung f : V → W , umso mehr wird W
degeneriert, umso schlechtere Eigenschaften hat f .
Der Rang einer Abbildung ist ein Maß fur die Surjektivitat. Je kleiner rg(f) ist, desto
mehr weicht f von der Surjektivitat ab.
Satz 17.5 Charakterisierung der Surjektivitat
f sei eine lineare Abbildung von V in W .
f : V →W surjektiv ⇔ rg(f) = dim(W).
Beweis:
1. ⇒: f(V ) = W ⇒ im(f) = W ⇒ rg(f) = dimW .
2. ⇐: Sei rg(f) = dim(W )⇒ im(f) = W , weil im(f) E W ⇒ f surjektiv.
Was kann als Maß fur die Injektivitat dienen?
Sei f : V →W injektiv, d.h.: Aus f(x) = f(y) folgt x = y : Nun ist f(x) = f(y)⇔ f(x)−f(y) =
0⇔ f(x−y) = 0 und x = y ⇔ x−y = 0. Die Injektivitatsbedingung lautet also: Aus f(x−y) = 0
folgt x − y = 0, daher: f injektiv ⇔ 0 wird auf 0 abgebildet. Es durfte also nur 0 auf 0
abgebildet werden!
Definition 17.6 Der Kern (kernel) oder der Nullraum (nullspace) einer linearen Abbildung
f : V →W ist die Menge aller jener Vektoren aus V , die auf 0 abgebildet werden.
ker(f) := {v ∈ V | f(v) = 0}.
78
Satz 17.6 Charakterisierung der Injektivitat
(i) Der Kern von f ist stets ein Teilraum von V : ker(f) C V .
(ii) f injektiv ⇔ ker(f) = {0}.
Je großer ker(f) ist, desto mehr weicht die lineare Abbildung f : V → W von der
Injektivitat ab.
Beweis:
(i) Weil f(0) = 0 ⇒ 0 ∈ ker(f) ⇒ ker(f) 6= ∅.
Sei x, y ∈ ker(f) ⇒ f(λx + µy) = λf(x) + µf(y) = λ · 0 + µ · 0 = 0 ⇒ λx + µy ∈ ker(f)
(ii) ⇐: Sei ker(f) = {0} und f(x) = f(y) ⇒ f(x− y) = f(x)− f(y) = 0 ⇒ x− y ∈ ker(f) = {0} ⇒ x− y =
0 ⇒ x = y ⇒ f injektiv
⇐: Sei f injektiv und x ∈ ker(f) ⇒ f(x) = 0 = f(0) ⇒ x = 0 ⇒ ker(f) = {0}
Definition 17.7 Defekt einer linearen Abbildung
(i) Der Defekt (nullity) einer linearen Abbildung ist die Dimension ihres Kernes
def(f) := dim(ker(f)).
(ii) Eine lineare Abbildung heißt singular, wenn sie einen positiven Defekt hat.
f singular ⇔ def(f) > 0.
(iii) Eine lineare Abbildung heißt regular (nichtsingular), wenn ihr Defekt 0 ist.
Auch so: f singular ⇔ ∃v 6= 0 : f(v) = 0
f nichtsingular ⇔ Nur 0 wird auf 0 abgebildet. ⇔ (aus f(v) = 0⇒ v = 0).
Spezialisierung auf Matrizen: Matrix A singular ⇔ induzierte Abbildung fA singular ⇔
Matrix A ist singular ⇔ ∃~x 6= ~0 : A~x = ~0
Matrix A ist nichtsingular (regular) ⇔ aus A~x = ~0⇒ ~x = ~0.
Satz 17.7 Charakterisierung von regularen Abbildungen
Eine lineare Abbildung f : V → W ist genau dann regular, wenn das Bild einer l.u. Menge
wieder l.u. ist.
79
Beweis:
1. ⇒: Sei f regular und {u1, . . . , uk} l.u. Dann ist auch {f(u1), . . . , f(uk)} l.u., sonst gabe es λ1, . . . , λk, nicht
alle 0, mit:
λ1f(u1) + . . . + λkf(uk) = 0 ⇒
f(λ1u1 + . . . + λkuk) = 0 ⇒
λ1u1 + . . . + λkuk ∈ ker/f) = {0} ⇒
λ1u1 + . . . + λkuk = 0 ⇒ {u1, . . . , uk} l.a. (Widerspruch).
2. ⇐: Sei das Bild jeder l.u. Menge wieder l.u. ⇒ f regular: Ware f singular ⇒ ∃v 6= 0 : f(v) = 0. Nun ist
{v} wegen v 6= 0 l.u., aber {f(v)} = {0} ist l.a. (Widerspruch).
Damit kann man zeigen, daß genau die regularen Abbildungen dimensionstreu sind, also z.B.
Ebenen bzw. Geraden nicht degenerieren.
Satz 17.8 Dimensionstreue regularer Abbildungen
U sei ein Teilraum von V und f : V ∈W linear. Dann gilt:
dimf(U) = dimU ⇔ f regular. →
Beweis: Sei {b1, . . . , bk} eine Basis von U ⇒ f(U) =< f(b1), . . . , f(bk) >.
Ist dimf(U) = dimU ⇔. Mit {un, . . . , uk} ist f(b1), . . . , f(bn)} ist l.u. ⇔ f regular.
Die Eingangs gestellte Frage nach der Dimensionstreue ist damit beantwortet: Genau die re-
gularen linearen Abbildungen sind dimensionstreu.
Obwohl Kern und Bild einer Abbildung f Teilraume von verschiedenen Vektorraumen (namlich
V bzw. W ) sind, besteht eine enge Beziehung zwischen den beiden Kennzahlen rg(f) und def(f)
einer linearen Abbildung f : Ihre Summe ist die Dimension des Urbildraumes, eine Zahl also, die
nicht von f abhangt! Der folgende Satz ist der Schlusselsatz fur alle Anwendungen der Theorie
der linearen Abbildungen und ein Analogen zum Dimensionssatz fur Matrizen.
Satz 17.9 Abbildungssatz (Dimensionssatz) fur lineare Abbildungen
Sei f : V →W eine lineare Abbildung und V endlichdimensional. Dann gilt:
rg(f) + def(f) = dim(V) = dim (Urbildraum (f))
Beweis: Sei dim(V ) = n. Wir zeigen: dim[im(f)] = n − dim(ker(f)). Als Teilraum von V hat ker(f) auch ein
endliche Dimension, namlich dim(ker(f)) =: k ≤ n.
80
Sei {b1, . . . , bk} eine Basis von ker(f). Nach dem Basiserganzungssatz kann man sie durch bk+1, . . . , bn zu einer
Basis {b1, . . . , bn} von V erganzen.
Es gilt nun: {f(bk+1), . . . , f(bn)} ist eine Basis von im(f), das sind aber gerade n− k Vektoren.
Beweis der Basiseigenschaft:
(i) im(f) =< f(bk+1), . . . , f(bn) >
Sei y ∈ im(f) ⇒ ∃x ∈ V : f(x) = y.
Weil x ∈ V ∃λ1, . . . λn ∈ K mitx = λ1b1 + . . . + λnbn.
Dann ist
y = f(x) = f(λ1b1 + . . . + λnbn) =
= λ1 f(b1)| {z }+ . . . + λk f(bk)| {z }+λk+1f(bk+1) + . . . + λnf(bn)
= λ1 · 0 + . . . . . . + λk · 0 + λk+1f(bk+1) + . . . + λnf(bn) ⇒
im(f) ⊆< f(bk+1), . . . , f(bn) >⊆ im(f), also gilt (i).
(ii) {f(bk+1), . . . , f(bn)} ist l.u. (mittels Unabhangigkeitskriterium):
Sei λk+1f(bk+1) + . . . + λnf(bn) = 0 ⇒ f(λk+1bk+1 + . . . + λnbn) = 0 ⇒
λk+1bk+1 + . . . + λnbn ∈ ker(f) ⇒ ∃µ1, . . . , µk ∈ K :
λk+1bk+1 + . . . , +λnbn = µ1b1 + . . . + µkbk ⇒
µ1b1 + . . . + µkbk + (−λk+1)bk+1 + . . . + (−λn)bn = 0.
Weil {b1, . . . , bn} als Basis l.u. ist, sind alle Koeffizienten, insbesondere
λk+1 = . . . = λn = 0, also gilt (ii).
dim(ker(f)) + dim(im(f)) = dim(V )
Je großer der Kern, desto kleiner ist das Bild: f hat “schlechte” Eigenschaften
Je kleiner der Kern, desto großer das Bild: f hat immer “bessere” Eigenschaften.
Im Grenzfall ist ker(f) = {0} und im(f) = W ⇔ f ist bijektiv und linear, also ist f ein Iso-
morphismus von V auf W . k−dimensionale Teilraume bleiben k−dimensional und l.u. Vektoren
bleiben l.u. Der zu V isomorphe Vektorraum W hat dieselben “linearen” Eigenschaften wie V
selbst. W ist im algebraischen Sinn nur eine “Kopie” von V , man schreibt: V ∼W . Musikalischer
Vergleich: Es ist so, als ob man ein Musikstuck statt in C-Dur in G-Dur spielt.
81
Zusammenfassende Bemerkung:
Die Begriffe Bild, Kern, Rang und Defekt lassen sich also auf Matrizen ubertragen, wenn man
diese als lineare Abbildung A : Kn → Km mit A(~x) = A~x auffaßt. Die so entstehenden Begriffe
fallen mit denen aus Kapitel 8.3 zusammen! Sei A eine m× n−Matrix uber dem Korper K.
im(A) = {~y ∈ Km|~y = A · ~x, ~x ∈ Km} = Spaltenraum von A = S(A)
ker(A) = {~x ∈ Kn|A~x = ~0} = Losungsmenge des homogenen
Gleichungssysteme A · ~x = ~0 = Nullraum von A = N(A)
rg(A) = dim(im(A)) = dimS(A) = Rg(A)
def(A) = dim(ker(A)) = dim(N(A))
Es gilt wieder: def(A)) + rg(A) = n
Auch hier gilt: Je kleiner der Defekt, desto bessere Eigenschaften hat die Matrix A, dies auch
in Hinblick auf die Invertierbarkeit:
Wir wissen: Die m×n−Matrix hat eine Linksinverse⇔ A hat Rang n; nach dem Abbildungssatz
ist dann def(A) = 0. Ein positiver Defekt hat die Nichtinvertierbarkeit zur Folge, also auch eine
“schlechte” Eigenschaft.
Die Linearitat einer Abbildung ist eine sehr starke Einschrankung. Tatsachlich ist eine linea-
re Abbildung bereits durch die Bilder der Basiselemente eindeutig festgelegt, d.h., kennt man
die Bilder der Basiselemente, so sind dadurch die Bilder der anderen Elemente bestimmt, die
Vorschrift laßt sich von den Basiselementen auf alle anderen Vektorraumelemente fortsetzen:
V =< b1, b2, b3 >,w1, w2, w2 ∈W
Satz 17.10 Fortsetzungssatz fur lineare Abbildungen
B = {b1, b2, . . . , bn} sei eine Basis von V und w1, w2, . . . , wn ∈W .
82
Es gibt genau eine lineare Abbildung f von V in W , die auf B vorgeschriebene Werte
w1 = f(b1), w2 = f(b2), . . . , wn = f(bn) annimmt, namlich
f(x) := λ1w1 + . . . + λnwn =∑
λiwi =∑
λif(bi) ∀x ∈ V
wobei λ1, λ2, . . . , λn die Koordinaten von x bezuglich der Basis B sind, also x =∑
λibi.
x =∑
λibi ⇒ f(x) =∑
λif(bi)
Bemerkung: Die vorgeschriebenen Werte konnen beliebige Vektoren sein, auch l.a. oder sogar
alle gleich.Beweis:
(i) Dieses f ist linear:
Seien x, y ∈ V ⇒ x =Pn
i=1 λibi, y =Pn
i=1 µibi ⇒
x + y =P
(λi + µi)bi ⇒ λiµi sind Koordinaten von x + y und
λx =P
(λλi)bi ⇒ λλi sind die Koordinaten von λx ⇒
f(x + y) =P
(λi + µi)f(bi) =P
(λif(bi) + µif(bi)) =
=P
λif(bi) +P
µif(bi) = f(x) + f(y)
f(λx) =P
(λλi)f(bi) =P
λ(λif(bi)) = λP
λif(bi) = λf(x)
(ii) Ist g eine andere lineare Abbildung mit g(bi) = f(bi) fur i = 1, 2, . . . , n ⇒ g = f :
Sei x =P
λibi ⇒
f(x) = f(P
λibi) =P
λif(bi) =P
λig(bi) =P
g(λibi) =
= g(P
λibi) = g(x) ∀x ∈ V
Beispiel:
Es sei f : K4 → K3 jene lineare Abbildung, fur die f(1, 1, 1, 1)(2, 2, 2), f(1, 1, 1, 0)(1, 3, 5),
f(1, 0, 1, 0)(2, 3, 4), f(1, 0, 0, 0)(1, 1, 1) gilt
(i) Gib f an
(ii) Berechne Basis und Dimension von im(f), ker(f).
1.1 1 1 11 1 1 01 0 1 01 0 0 01 1 1 10 0 0 −10 −1 0 −10 −1 −1 −1
1 1 1 10 1 1 10 −1 0 −10 0 0 −11 1 1 10 1 1 10 0 1 00 0 0 1
4 l.u. Vektoren bilden in K4 eine Basis. Damit ist f eindeutig bestimmt.
83
2. Stelle (x1, x2, x3, x4) als Linearkombination der Basis dar.
1 1 1 1 | x1
1 1 0 0 | x2
1 1 1 0 | x3
1 0 0 0 | x4
1 1 1 1 x1
0 0 −1 −1 x2 − x1
0 0 0 −1 x3 − x1
0 −1 −1 −1 x4 − x1
1 1 1 1 x1
0 1 1 1 x1 − x4
0 0 1 1 x1 − x2
0 0 0 1 x1 − x3
1 1 1 0 x3
0 1 1 0 x3 − x4
0 0 1 0 x3 − x2
0 0 0 1 x1 − x3
1 1 0 0 x2
0 1 0 0 x2 − x4
0 0 1 0 x3 − x2
0 0 0 1 x1 − x3
1 0 0 0 x4
0 1 0 0 x2 − x4
0 0 1 0 x3 − x2
0 0 0 1 x1 − x3
f
x1
x2
x3
x4
= x4 · f(b1) + (x2 − x4)f(b2)+
+(x3 − x2)f(b3) + (x1 − x3)f(b4) =
= x4 ·
222
+ (x2 − x4)
135
+
+(x3 − x2)
234
+ (x1 − x3)
111
=
2x4 + x2 − x4 + 2x3 − 2x2 + x1 − x3
2x4 + 3x2 − 3x4 + 3x3 − 3x2 + x1 − x3
2x4 + 5x2 − 5x4 + 4x3 − 4x2 + x3 − x3
=
=
x1 − x2 + x3 + x4
x1 + 2x3 − x4
x1 + x2 + 3x3 − 3x4
f(x1, x2, x3, x4) = (x1 − x2 + x3 + x4, x1 + 2x3 − x4, x1 + x2 + 3x3 − 3x4)
3.
im(f) =< f(b1), f(b2), f(b3), f(b4) >=<
222
,
135
,
234
,
111
>=
= <
222
,
135
>⇒ rg(f) = 2⇒ def(f) = 4− 2 = 2
4. ker(f) = {~x ∈ K4|f(~x) = 0}x1 − x2 + x3 + x4 = 0
x1 + 2x3 − x4 = 0x1 + x2 + 3x3 − 3x4 = 0
ker(f) =< (1, 2, 0, 1), (−2,−1, 1, 0) >
84
17.3 Anwendung: Lineare Operatorgleichungen
Nachdem wir Matrizen auf lineare Abbildungen verallgemeinert haben, wollen wir jetzt lineare
Gleichungssysteme verallgemeinern.
Bisher: A · ~x = ~b ~x ∈ Kn ~b ∈ Km
↓ ↓ ↓
Nun: f(v) = w v ∈ V w ∈W
Gegeben seien zwei Vektorraume V und W uber demselben Korper K und eine lineare Abbildung
f von V in W , insbesondere kann W = V sein, f heißt dann gerne auch linearer Operator
(= Endomorphismus). Weiters sei ein beliebiger Vektor w ∈ W gegeben. Gesucht sind jene
Vektoren v ∈ V mit:f(v) = w: lineare Operatorgleichung
f(v) = 0: dazugehorige homogene lineare
Operatorgleichung
L = {v ∈ V |f(v) = w} = f−1(w): Losungsmenge der Operatorgleichung
L ist die Urbildmenge von w unter f
v0 ∈ V mit f(v0) = w: spezielle Losung der Operatorgleichung
LH = ker(f) = f−1(0): Losungsmenge der dazugehorigen homogenen
Operatorgleichung
Ist T ⊆ V und v0 ∈ V , dann ist v0 + T := {v ∈ V |v = v0 + t mit t ∈ T}.
Satz 17.11 Losungsmenge einer linearen Operatorgleichung
(i) Die Losungsmenge L der linearen Operatorgleichung f(v) = w ist gegeben durch
L = v0 + ker(f) = v0 + LH
wobei v0 eine spezielle Losung ist: f(v0) = w.
(ii) Diese Darstellung der Losungsmenge ist unabhangig von der Wahl der speziellen Losung
v0.
85
Kurz: Die Losungsmenge einer linearen Operatorgleichung setzt sich zusammen aus
einer speziellen Losung und der Losungsgesamtheit der dazugehorigen homogenen
Gleichung.
Beweis:
(i) 1. Sei v eine beliebige Losung, also f(v) = w und v0 eine spezielle Losung, also auch f(v0) = w ⇒ f(v− v0) =
f(v)− f(v0) = w − w = 0 ⇒ v − v0 ∈ ker(f) ⇒ v = v0 + ker(f) ⇒ L ⊆ v0 + ker(f).
2. Sei v ∈ v0 + ker(f) ⇒ v = v0 + k mit k ∈ ker(f) ⇒ f(v) = f(v0 + k) = f(v0) + f(k) = w + 0 = w ⇒ v ∈ L ⇒
v0 + ker(f) ⊆ L.
(ii) Seien v0 und v1 zwei spezielle Losungen, also f(v0) = f(v1) = w. Dann gilt: v0 + ker(f) = v1 + ker(f).
Sei v ∈ v0 + ker(f) ⇒ v = v0 + k0 mit k0 ∈ ker(f) ⇒ f(v − v1) = f(v) − f(v1) = f(v0 + k0) − f(v1) =
f(v0) + f(k0)− f(v1) = f(v0) + 0− f(v1) = f(v0)− f(v1) = w − w = 0 ⇒ v − v1 ∈ ker(f) ⇒ v ∈ v1 + ker(f).
Sei v ∈ v1 + ker(f) ⇒ v = v1 + k1 mit k1 ∈ ker(f).Dannistf(v − v0) = f(v)− f(v0) = f(v1) + f(k1)− f(v0) =
f(v1)− f(v0) = 0 ⇒ v − v0 ∈ ker(f) ⇒ v ∈ v0 + ker(f).
Beispiele von linearen Operatorgleichungen:
1. Differentialgleichungen: Gesucht ist eine Funktion, deren Ableitungen eine Gleichung
erfullen (man sagt: Die gesuchte Funktion kommt unter dem Differentiationszeichen vor)
y(x) ∈ IRIR (reelle Funktion)
(z.B.: y(x) = xn, ex, sinx, . . .)
Gewohnliche Differentialgleichungen sind z.B.:
y′ = sinx · cos y
3y′′ + 4y′ + y = x3
x2 · y′′′ + (1− x)y′′ + x · y′ + 5x · y = tan x
Wie betrachten lineare Differentialgleichungen:
an(x)y(n) + . . . + a2(x)y′′ + a1(x) · y′ + a0(x) · y︸ ︷︷ ︸f(y)
= s(x)
f(y) := an(x)y(n) + . . . + a1(x) · y′ + a0(x) · y
f : C∞ → C∞ Vektorraum der beliebig oft differenzierbaren Funktion
f ist linearer Operator (oft mit L[y] bezeichnet):
f(y + z) = an(x)(y + z)(n) + . . .+a1(x)(y + z)′+a0(x)(y + z) = an(x)y(n) + . . .+a1(x)y′+
a0(x)y + an(x)z(n) + . . . + a1(x)z′ + a0(x)z = f(y) + f(z)∀y, z ∈ C∞.
f(λy) = an(x)(λy)(n)+ . . .+a1(x)λ ·y′+a0(x) ·λ ·y = λ ·(an)(x)y(n)+ ·+a1(x)y′+a0(x)) =
λ · f(x).
86
f ist linear wegen der Differentiationsregeln.
Siehe: Differentialgleichungen.
2. Integralgleichungen: Gesucht ist eine Funktion y(t) unter dem Integralzeichen, z.B:∫sin(x · t)y(x)dt = g(x) t Integrationsvariable
Fur jede Wahl von x erhalt man eine bestimmte Zahl =:g(x).
V := C[a, b] Vektorraum auf [a, b] stetigen Funktion
f(y) :=∫ ba sin(x · t)y(x)dt
f : C[a, b]→ C[a, b]
Wegen der Integrationsregeln ist f ein linearer Operator
Siehe: Funktionalanalysis
3. Differenzengleichungen: Gesucht ist das allgemeine Glied xn einer Folge (xn), z.B.:
x0 = 1, x1 = 0
xn+2 − 3xn+1 + xn = yn
xn “rekursiv” definiert
Man spricht von einer Differenzengleichung 2. Ordnung.
V = IRIN Vektorraum der unendlichen Zahlenfolgen (xn) uber IR, IC . . .
(xn) = (x0, x1, x2, x3, . . .)
f(xn) = xn+2 − 3xn+1 + xn
f : IRIN → IRIN
f ist wegen der Korpergesetze ein linearer Operator.
Differenzengleichungen werden in einem eigenen Kapitel behandelt.
4. Lineare Gleichungssysteme: Gesucht ist ein n−Tupel ~x ∈ Kn:
A · ~x = ~b A ∈ Km·n
f(~x) = A · ~x f : Kn → Km
f ist wegen der Matrizenregeln ein linearer Operator. Ein lineares Gleichungssystem ist
also eine spezielle lineare Operatorgleichung (siehe Kapitel 15).
Die Ergebnisse des Kapitels 15 kann man wie folgt verallgemeinern:
87
Satz 17.12 Hauptsatz uber lineare Operatorgleichungen
V und W seien zwei Vektorraume uber demselben Korper K (auch W = V zugelassen) und
f := V →W sei ein linearer Operator, w ∈W .
(i) f(v) = w ist genau dann losbar, wenn w ∈ im(f).
(ii) f(v) = w ist genau dann universell losbar, wenn f surjektiv ist. Ist W endlich dimen-
sional, dann ist dies genau dann der Fall, wenn rg(f) = dim(W ).
(iii) Im Falle der Losbarkeit ist f(v) = w genau dann eindeutig losbar, wenn f nicht singular
(regular) ist.
Ist f singular, dann ist f(v) = w mehrdeutig losbar und die Losungsmenge L ist gegeben
durch
L = v0 + ker(f)
wobei v0 eine spezielle Losung der Gleichung ist.
Beweis:
(i) = Definition von im(f).
(ii) L = W ⇔ im(f) = W ⇔ f surjektiv (rg(f) = dim(W )).
(iii) Nach 17.11 ist L = v0 + ker(f).
f nichtsingular ⇔ def(f) = 0 ⇔ ker(f) = {0} ⇔ L = {v0}
Bemerkung: Eine lineare Operatorgleichung hat also eine leere, eine einelementige oder ei-
ne unendliche Losungsmenge (wenn V unendlich), nicht jedoch eine Losungsmenge aus 2,3,...
Elementen.
Damit kann man auch die Frage nach der Invertierbarkeit (Umkehrbarkeit) einer linearen
Abbildung f : V →W beantworten.
In Kapitel 2 hatten wir ganz allgemein gesehen:
f invertierbar ⇔ f umkehrbar ⇔ f bijektiv.
Im Falle der Invertierbarkeit hat daher jedes w ∈W genau ein Urbild.
Fur lineare Abbildungen f : V →W gilt daruber hinaus:
f−1(w) = v0 + ker(f).
f singular ⇔ def(f) > 0⇔ ker(f) nicht trivial ⇔ w hat mehrere Urbilder ⇔
88
f nicht invertierbar.
Die Invertierbarkeit von f kann damit in der “Sprache der lineraen Abbildungen” folgend aus-
gedruckt werden:
Satz 17.13 Hauptsatz uber die Umkehrbarkeit von linearen Abbildungen
f sei eine lineare Abbildung von V in W .
(i) f ist genau dann invertierbar, wenn im(f) = W und f nichtsingular (regular) ist. D.h.,
genau die Isomorphismen sind die invertierbaren linearen Abbildungen.
(ii) Ist V endlichdimensional, dann ist f genau dann invertierbar, wenn dim(W ) = dim(V )
und f nichtsingular (regular) ist.
(iii) Ist dim(V ) = dim(W ) (Spezialfall V = W ), dann ist f genau dann invertierbar, wenn f
nichtsingular ist.
D.h.: In diesem Fall (aber sonst nicht) folgt aus der Injektivitat bereits die Surjektivitat
und umgekehrt (Analogon zu endlichen Mengen, siehe 1.)
Beachte: Die Regularitat ist im allgemeinen nicht hinreichend fur die Invertierbarkeit.
Beweis:
(i) 1. Sei f invertierbar ⇒ ∀w ∈ W∃ genau ein v ∈ V mit f(v) = w ⇒ im(f) = W und die lineare
Operatorgleichung f(v) = w hat genau eine Losung ⇒ def(f) = 0 ⇒ f nicht singular.
2. Sei im(f) = W und def(f) = 0 ⇒ ∀w ∈ W∃v ∈ V mit f(v) = W , wegen def(f) = 0 ist v eindeutig
bestimmt ⇒ f invertierbar.
(Auch so: def(f) = 0 ⇔ f injektiv, zusammen mit im(f) = W ist f bijektiv ⇒ invertierbar).
(ii) Sei dim(V ) = n < ∞.
1. f invertierbar ⇒ def(f) = 0, und im(f) = W ⇒ rg(f) = dim(W ) ⇒ wegen der Abbildungsgleichung
17.9 (anwendbar wegen dim(V ) = n) : rg(f) + def(f) = dim(V ) ⇔ dim(W ) + 0 = dim(V ).
2. Sei dim(W ) = dim(V ) und def(f) = 0 ⇒ rg(f) = dim(V ) − def(f) = dim(W ) − 0 = dim(W ) ⇒
(im(f)) = dim(W ) und im(f) C W ⇒ im(f) = W ⇒ f invertierbar.
(iii) Sei dim(V ) = dim(W ) = n.
f injektiv ⇔ def(f) = 0 ⇔ rg(f) = n − def(f) = n − 0 = n ⇔ rg(f) = dim(W ) ⇔ im(f) = w ⇔ f
surjektiv.
Bemerkung: Die endliche Dimension von V in (ii) ist wesentlich:
V = P . Vektorraum der Polynome, dim(P ) =∞.
f : P → P mit f(p(x)) = X · p(X).
89
f ist linear.
f ist nicht singular: Sei f(p()) = 0⇒ X · p(x) = 0∀X ⇒ p(x) = 0.
Trotzdem ist f nicht invertierbar: Die Konstanten in P werden nicht erfaßt.
Die Nichtsingularitat (Regularitat) kann zusammenfassend durch folgende aquivalente
Eigenschaften charakterisiert werden:
Satz 17.14 Charakterisierung der Nichtsingularitat
f sei eine lineare Abbildung von V in W .
(i) f nichtsingular ⇔ f injektiv ⇔ f Monomorphisms
(ii) f nichtsingular ⇔ Bild einer l.u. Menge ist wieder l.u.
Bei zusatzlicher Voraussetzung dim(V) = dim(W) = n (z.B. W = V ) gilt (iii) bis (vii):
(iii) f nichtsingular ⇔ f surjektiv ⇔ rg(f) = n.
(iv) f nichtsingular ⇔ f invertierbar.
(v) f nichtsingular ⇔ f Isomorphismus.
(vi) f nichtsingular ⇔ Bild einer Basis ist wieder eine Basis.
(vii) Eine quadratische (n× n)−Matrix A nichtsingular (regular) ⇔ rg(A) = n.
Nochmals Beweise:
(i) 1. f nichtsingular und f(x) = f(y) ⇒ f(x− y) = 0 ⇒ x− y = 0 ⇒ x = y ⇒ f injektiv.
2. f injektiv und f(v) = 0 ⇒ f(v) = 0 = f(0) ⇒ v = 0 ⇒ f nichtsingular. Der zweite Teil ist Definition.
(ii) 1. f nichtsingular und M ⊆ V l.u.. d.h. {v1, . . . , vn} l.u. ∀n ∈ IN. Sei λ1f(v1) + . . . + λnf(vn) = 0 ⇒
f(λ1v1 + . . . + λnvn) = 0 ⇒ λ1v1 + . . . + λnvn = 0 (Nur 0 auf 0) ⇒ λi0 = ∀i ⇒ {f(v1), . . . , f(vn)} l.u.
∀n ⇒ f(M) l.u.
2. Sei das Bildjeder l.u. Menge wieder l.u. und sei v 6= 0 beliebig aus v ⇒ {v} l.u. ⇒ {f(v)} = l.u. ⇒
f(v) 6= 0 ⇒ f nichtsingular.
(iii) 1. f nichtsingular ⇔ def(f) = 0 ⇔ rg(f) = n − def(f) = n ⇔ rg(f) = dim(W ) ⇔ im(f) = W ⇔ f
surjektiv.
2. Sei f surjektiv ⇔ rg(f) = n ⇔ def(f) = n− rg(f) = 0 ⇔ f injektiv ⇔ f nichtsingular.
(iv) f nichtsingular ⇔ f injektiv und f surjektiv ⇔ f bijektiv ⇔ f invertierbar.
(v) f nichtsingular ⇔ f invertierbar ⇔ f bijektiv ⇔ f Isomorphismus.
90
(vi) 1. f nichtsingular und {b1, . . . , bn} Basis von V ⇒ {f(b1), . . . , f(bn)} l.u. und
< f(b1), . . . , f(bn) >= im(f) = W , weil f auch surjektiv ist. Insgesamt: {f(b1), . . . , f(b1)} ist Basis von
W .
2. Sei {b1, . . . , bn} Basis von V und {f(b1), . . . , f(bn)} Basis von W . Sei v 6= 0 aus V und f(v) = 0 ⇒ v =
λ1b1 + . . . + λnbn ⇒ 0 = f(v) = λ1f(b1) + . . . + λnf(bn) ⇒ λ1 = . . . = λn = 0, weil f(b1), . . . , f(bn) l.u.
⇒ v = 0 ⇒ f nichtsingular.
(vii) A nichtsingular ⇔ ker(A) = {0} ⇔ def(A) = 0 ⇔ n− def(A) = n ⇔ Rg(A) = n ⇔ A invertierbar.
Mit (iv), (v) gilt auch:
Satz 17.15 Charakterisierung von Isomorphismen in endlich dimensionalen
Vektorraumen
Eine lineare Abbildung f : V → W ist genau dann ein Isomorphismus, wenn das Bild einer
Basis wieder eine Basis ist.
Sei dim(V ) = n
1. f : V → W Isomorphismus ⇒ dim(W ) = dim(V ) = n und f nichtsingular ⇒Bild einer Basis ist wieder Basis.
2. Sei {b1, . . . , bn} eine Basis von V ⇒ {f(b1), . . . , f(bn)} Basis von W ⇒ dim(W ) = dim(V ) = n ⇒ f
nichtsingular ⇒ f Isomorphismus.
Definition 17.8 Zwei Vektorraume V und W uber demselben Korper K heißen isomorph
(symbolisch V ∼= W ), wenn es einen Isomorphismus f : V →W gibt.
Satz 17.16 Isomorphie von endlichdimensionalen Vektorraumen
Jeder Vektorraum V der Dimension n ist isomorph zu Kn.
Die Isomorphie von Vektorraumen ist eine Aquivalenzrelation auf der Menge aller Vektorraume
uber K(V ∼= V, V ∼= W ⇒ W ∼= V, V ∼= W ∼= X ⇒ V ∼= X). Bis auf Isomorphie gibt es also nur
einen n−dimensionalen Vektorraum, namlich Kn.Beweis: Sei B = (b1, . . . , bn) eine Basis von V und x ∈ V .
f : V → Kn somit f(x) = [x]B.
Jedem Vektor werden also seine Koordinaten bezuglich einer festen Basis B zugeordnet.
1. f ist linear: f(x + y) = [x + y]B = [x]B + [y]B = f(x) + f(y)
f(λx) = [λx]B = λ[x]B
2. f ist injektiv ⇔ nichtsingular:
Sei f(x) = 0 ⇒ [x]B = 0 ⇒ x = 0
Damit ist f automatisch auch surjektiv.
91
Praktische Bedeutung:
Kommt es nur auf die “linearen” Eigenschaften an, also auf jene, die sich nur durch die Vektor-
raumoperation + und Vervielfachen ausdrucken lassen, genugt es, im Kn zu rechnen. Man ordnet
jedem Vektor seine Koordinaten bezuglich einer Basis zu (meistens die Standardbasis), rechnet
im Kn und transformiert das Ergebnis in V zuruck (f−1 ist mit f wieder ein Isomorphismus).
17.4 Rechnen mit linearen Abbildungen
In der elementaren Physik werden meßbare Großen wie Ort, Geschwindigkeit usw. mit reellen
Zahlen gemessen. In der Quantenmechanik werden diese meßbaren Großen durch lineare Ope-
ratoren angegeben. So wie mit Zahlen benotigt man dort ein Rechnen mit linearen Operatoren,
es entspricht dem Rechnen mit Matrizen.
Satz 17.17 Summe und Vielfaches von linearen Abbildungen
V und W seien Vektorraume uber K. f, g : V →W seien lineare Abbildungen.
(i) Summe (f + g) und Vielfaches (kf) von linearen Abbildungen sind wieder lineare Abbil-
dungen. Dabei ist rg(f + g) ≤ rg(f) + rg(g), rg(kf) = rg(f).
(ii) Die Menge aller linearen Abbildungen von V in W bildet bezuglich der Addition und der
Vielfachbildung einen Vektorraum uber K, bezeichnet mit L(V,W ) bzw. Hom (V,W ). Es
ist L(V,W) C WV.
(iii) Ist dim(V ) = n und dim(W ) = m, dann ist dim(L(V,W)) = m · n.
Ist {v1, v2, . . . , vn} eine Basis von V und {w1, w2, . . . , wm} eine Basis von W , dann bilden
die Abbildungen fij mit
fij(vi) = wj und fij(vk) = 0 fur k 6= i
eine Basis von L(V,W ).
Die Hintereinanderausfuhrung von linearen Abbildungen f, g bezeichnet man auch als Produkt
(g ◦ f)(x) := g(f(x)).
92
f : V →W
f(V ) = W
g : W → X
Beachte: Zuerst wird die innere Abbildung f ausgefuhrt.
Satz 17.18 Produkt von linearen Abbildungen
V,W,X seien Vektorraume uber demselben Korper K. f, f ′ : V →W, g, g′ : W → X seien solche
lineare Abbildungen, daß alle auftretenden Produkte definiert seien.
(i) Das Produkt g ◦ f von linearen Abbildungen ist wieder linear: g ◦ f ∈ L(V,W ).
(ii) Der Rang des Produktes zweier linearer Abbildungen ist kleiner oder gleich dem Rang eines
jeden Faktors:
rg(g ◦ f) ≤ rg(f), rg(g ◦ f) ≤ rg(g)⇔ rg(g ◦ f) ≤ min(rg(f), rg(g)).
Der Rang eines Produktes von Abbildungen kann nicht den Rang eines Faktors
ubertreffen.
(iii) Das Produkt von linearen Abbildungen (und nur von diesen) ist linksdistributiv bezuglich
der Addition:
g ◦ (f + f ′) = g ◦ f + g ◦ f ′.
Weiterhin gilt wie fur alle Abbildungen die Rechtsdistributivitat:
(g + g′) ◦ f = g ◦ f + g′ ◦ f
k(g ◦ f) = (kg) ◦ f = g ◦ (kf)
(iv) Im Falle der Existenz ist die Inverse einer linearen Abbildung wieder linear. Es gilt dann
so wie fur alle Abbildungen: (g ◦ f)−1 = g−1 ◦ f−1, aber die Summe von invertierbaren
linearen Abbildungen muß nicht invertierbar sein. Das Produkt von Abbildungen kann
nichtsingular sein, auch wenn ein Faktor singular ist.
93
(v) Fur den Spezialfall W = V , also L(V, V ) gilt (Summe und Produkt sind dann immer de-
finiert): Die Menge L(V, V ) der linearen Operatoren eines Vektorraumes auf sich selbst
bildet bezuglich der Addition und des Produktes von Abbildungen einen nicht kommuta-
tiven Ring mit 1 = idv.
Insgesamt gilt also:
L(V, V ) ist bezuglich Addition, Vervielfachen und Produkt Hintereinanderausfuhrung eine
nicht kommutative Algebra.
Beweis zu (ii):
Sei f : V → W mit rg(f) = r bzw. g : W → X mit rg(g) = s. f bildet V in den r−dimensionalen Teilraum im(f)
von W ab. g bildet W in den s−dimensionalen Teilraum im(g) von X ab. Nun ist
im(gf) = {(gf)(v)|v ∈ V } = {g(f(v))|v ∈ V } = {g(v′)|v′ ∈ im(f)} ⊆ im(g) ⇒
dim(gf) ≤ dim(im(g)) = s ⇒ rg(gf) ≤ s.
im(gf) ist nach (*) das Bild des Teilraumes im(f) unter g. Es ist dim(im(f)) = rg(f) = r. Nun wird die
Dimension eines Bildes eines Teilraumes unter einer linearen Abbildung hochstens kleiner, daher ist rg(gf) ≤ r.
Bemerkungen:
1. Ist f invertierbar, dann ist wegen im(f) = W : rg(g ◦ f) = rg(g).
2. Analog gilt fur Matrizen: rg(A ·B) ≤ min(rg(A), rg(B)).
3. Wegen des Assoziativgesetzes bezuglich ◦ ist in L(V, V ) eine Potenzrechnung moglich:
fn := f◦f◦ . . . ◦ f︸ ︷︷ ︸n aml
. Damit ist das Einsetzen von Abbildungen in Polynome moglich:
Ist p(x) = a0 + a1X + a2X2 + . . . + anXn, dann sei
p(f) := a0id + a1f + a2f2 + . . . + anfn.
94
17.5 Faktorraume (Quotientenraume)
Vektorraume enthalten im allgemeinen sehr viele Elemente. Sieht man von gewissen Eigenschaf-
ten der Elemente ab, konnen sie “verkleinert” werden. Dieses Verkleinern kann formal mittels
einer Aquivalenzrelation beschrieben werden.
Beispiel: Im Vektorraum der Ortsvektoren in der Ebene werden Vektoren, deren Endpunkte
auf einer Geraden (= Teilraum) liegen, als “gleich” (= aquivalent) angesehen:
v1 ∼ v2 ∼ v3 ∼ v4 ∼ . . .
Alle aquivalenten Vektoren haben die Eigen-
schaft, daß ihren Differenzen im Teilraum U lie-
gen.
v ∼u w := w − v ∈ U
Alle zu v aquivalenten Vektoren sind gegeben
durch v + U = {v + u|u ∈ U},
also durch die Nebenklasse v nach U.
Aquivalenzklasse [v] = {w|w ∼u v} = {w 6= v + u|n ∈ U} = v + U.
Alle zu v + U gehorende Vektoren werden mit der Geraden g = v + U “identifiziert”. g ist das
Bild (der Ersatz) fur die unendlich vielen Vektoren v1, v2, . . . mit Endpunkt auf g.
dimV 2 = 2
dimU = 1
V/U = “Faserraum” = Menge aller v + U =
Quotientenraum von V nach U .
Wann sind 2 Nebenklassen v1 + U, v2 + U gleich?
95
v1 + U = v2 + U ⇔ v2 − v1 ∈ U
Rechnen mit Nebenklassen:
Allgemein:
Gegeben sei ein Vektorraum V uber einen Korper K und ein Teilraum U C V .
Definition 17.9 Nebenklasse nach einem Teilraum
(i) 2 Vektoren v1, v2 ∈ V heißen aquivalent (modulo U), wenn ihre Differenz in U liegt:
v1 ∼U v2 ⇔ v2 − v1 ∈ U (oder v1 − v2 ∈ U)
∼U ist eine Aquivalenzrelation auf V .
(ii) Die Aquivalenzklasse [v] nach dieser Aquivalenzrelation modulo U ist die Menge v + U =
{v + u|u ∈ U}. v + U heißt die Nebenklasse von v nach U .
[v]∼U = {w ∈ V |w ∼U v} = {w|w − v ∈ U} = {w ∈ V |w = v + u, u ∈ U} = v + U
[v]∼U = v + U
v heißt ein Vertreter (Reprasentant) der Nebenklasse v + U .
96
(iii) Eine Nebenklasse kann durch verschiedene Vertreter angegeben werden.
Zwei Nebenklassen v1 + U und v2 + U sind genau dann gleich, wenn ihre Differenz in U
liegt:
v1 + U = v2 + U⇔ v2 − v1 ∈ U⇔ v1 ∼U v2.
Beweis:
1. Ist v2 − v1 ∈ U ⇒ v2 − v1 = u ⇒ v2 = v1 + u.
Damit: Ist x ∈ v2 + U ⇒ x = v2 + u′ = v1 + (u + u′) ∈ v2 + U , weil n + n′ + U = U
Ist y ∈ v1 + U ⇒ y = v1 + u′ = v2 − u + u′ = v2 + u′ − u ∈ v2 + U
2. Ist v1 + U = v2 + U ⇒ v2 = v2 + 0 ∈ v2 + U = v1 + U ⇒ v2 = v1 + u ⇒ v2 − v1 = u ∈ U .
Beachte insbesondere: U + U = U = 0 + U
Satz 17.19 Rechnen mit Nebenklassen
v1 + U und v2 + U seien 2 Nebenklassen nach U .
(i) Addition von 2 Nebenklassen:
2 Nebenklassen werden addiert, indem man ihre Vertreter addiert:
(v1 + U + (v2 + U) := (v1 + v2) + U
Diese Definition ist unabhangig von der Wahl der Vertreter (man sagt: wohldefiniert).
Seien v′1 ∈ v1 + U und v′2 ∈ v2 + U ⇒ (v′1 + U) + (v′2 + U) = (v′1 + v′2) + U = (v1 + u1) + (v2 + u2) + U =
(v1 + v2) + u1 + u2 + U = (v1 + v2) + U .
(ii) Vervielfachen einer Nebenklasse:
Eine Nebenklasse wird vervielfacht, indem man ihren Vertreter vervielfacht:
λ(v + U) := λv + U
Diese Definition ist wohldefiniert:
Sei v′ ∈ v + U ⇒ v′ = v + u mit u ∈ U ⇒ λ(v′ + U) = λv′ + U = λ(v + u) + U =
λv + (λu + U) = λv + U .
97
Satz 17.20 Faktorraum nach einem Teilraum
U sei ein Teilraum eines Vektorraumes uber einen Korper K.
(i) Die Menge der Nebenklassen nach U eines Vektorraumes V bildet bezuglich der Addition
und des Vervielfachens von Nebenklassen wieder einen Vektorraum uber K. Er heißt der
Faktorraum von V nach U .
Symbolisch: V/U := {v + U|v ∈ V}.
(ii) Ist V endlichdimensional, dann ist die Dimension des Faktorraumes die Differenz der
Dimension von V und U :
dim(V/U) = dimV − dimU.
Beweis:
(i) Die Rechengesetze (V1), (V2), (V5), (V6), (V7), (V8) gelten, weil sie fur die Reprasentanten gelten, z.B. das As-
soziativgesetz:
[(v1 + U) + (v2 + U)] + (v3 + U) = [(v1 + v2) + U ] + (v3 + U) = (v1 + v2) + v3 + U = v1 + (v2 + v3) + U =
(v1 + U) + (v2 + v3) + U = (v1 + U) + [(v2 + U) + (v3 + U)] oder
1.(v1 + U) = 1.v1 + U = v1 + U .
Der Nullvektor von V/U ist die Nebenklasse U :
(v + U) + U = (v + U) + (0 + U) = (v + 0) + U = v + U : 0 = U.
Das additive inverse Element zu v + U ist −v + U :
(v + U) + (−v + U) = v + (−v) + U = 0 + U = U .
Sei dim(V ) = n.
U ist ebenfalls endlichdimensional. Sei {v1, . . . , vk} eine Basis von U . Nach Basiserganzungssatz kann sie zu einer
Basis von V erganzt werden.
V = (v1, . . . , vk, vk+1, . . . , vn)
Behauptung: (vk+1 + U), . . . , (vn + U) ist eine Basis von V/U.
Das sind n− k Elemente, k = dim(U), daher ist dim(V/U) = n− k = dim(V )− dim(U).
Sei λ1(vk+1 + U) + . . . + λn−k(vn + U) = 0 = U ⇒ λ1vk+1 + . . . + λn−kvn + U = 0 + U ⇒
λ1vk+1+ . . .+λn−kvn ∈ U ⇒ λ1vk+1+ . . .+λn−kvk = µ1v1+ . . .+µkvk ⇒ µ1v1+ . . .+µkvk−λ1vk+1 . . . λn−kvn =
0 ⇒ λ1 = . . . = λn−k = 0 weil {v1 . . . , vn} l.u. ⇒ (vk+1 + U) . . . (vn + U) l.u.
98
Sei X eine beliebige Nebenklasse von V/U ⇒ X = x + U, x ∈ V ⇒ x = λ1v1 + . . . + λnvn ⇒
X = λ1v1 + . . . + λkvk| {z }∈U
+λk+1vk+1 + . . . + λnvn + U ⇒ X = λk+1vk+1 + . . . + λnvn + U = λk+1(vk+1 + U) +
. . . + λn(vn + U) ⇒ V/U ⊆< (vk+1 + U), . . . , (vn + U) >. Wegen (vk+1 + U) . . . (vn + U) ∈ V/U ist < (vk+1 +
U), . . . , (vn + U) >⊆ V/U ⇒ V/U < (vk+1 + U), . . . , (vn + U) > .
Die kanonische Projektion
Durch die Nebenklassen wird V in elementfremde Klassen zerlegt:
Satz 17.21 Kanonische Projektion
Die kanonische Projektion π ist jene Abbildung von V auf den Faktorraum V/U , die jedem
Vektor v aus V jene Nebenklassen zuordnet, in der v liegt.
π : V → V/U mit π(x) = x + U .
π ist eine surjektive lineare Abbildung auf V/U mit U als Kern, also:
ker(π) = U und im(π) = V/U
def(π) = dim(U) und rg(π) = dim(V )− dim(U)
π ist eine Projektion in Richtung U .
Beweis:
π(x + y) = x + y + U = (x + U) + (y + U) = π(x) + π(g)
π(λx) = λx + U = λ(x + U) = λπ(x)
Sei v + U ∈ V/U beliebig ⇒ π(v) = v + U , also im(π) = V/U .
Sei u ∈ U ⇒ π(u) = u + U = U = Nullvektor von V/U ⇒ U ⊆ ker(π).
Sei x ∈ ker(π) ⇒ π(x) = 0 = U ⇒ x + U = U ⇒ x ∈ U ⇒ ker(π) ⊆ U .
99
Satz 17.22 Homomorphiesatz fur Vektorraume
f : V → W sei eine surjektive lineare Abbildung von V auf W . Dann ist W isomorph zum
Faktorraum V/ker(f).
f : V →W ⇒W ∼= V/ker(f)
Auch so: Alle epimorphen Bilder von V sind gegeben durch die Faktorraume von V
nach allen Teilraumen von V !
Beweis: Setzen U := ker(f);V/U = {v + U/v ∈ V }.
1. Die Abbildung α : V/U → W sei definiert durch:
α(v + U) := f(v)
Diese Definition von α ist wohldefiniert (unabhangig von der Wahl des Vertreters v):
Sei v1 + U = v2 + U ⇒ v2 − v1 ∈ U = ker(f) ⇒ f(v2 − v1) = 0 ⇒ f(v2) − f(v1) = 0 ⇒ f(v2) = f(v1) ⇒
α(v2 + U) = α(v1 + U).
2. α ist injektiv:
Sei α(v1 + U) = α(v2 + U) ⇒ f(v1) = f(v2) ⇒ f(v1)− f(v2) = 0 ⇒ f(v1 − v2) = 0 ⇒ v1 − v2 ∈ ker(f) =
U ⇒ v1 + U = v2 + U .
3. α ist surjektiv auf W :
Sei w ∈ W ⇒ ∃v ∈ V : f(v) = w, weil f surjektiv ist. Fur v + U ∈ V/U gilt dann: α(v + U) = f(v) = w ⇒
jedes w ∈ W hat ein Urbild in V/U .
4. α ist linear
α[(v1 + U) + (v2 + U)] = α[(v1 + v2) + U ] = f(v1 + v2) = f(v1) + f(v2) = α(v1 + U) + α(v2 + U).
α[λ(v + U)] = α[λv + U ] = f(λv) = λf(v) = λα(v + U).
α ist also ein Isomorphismus und damit V/U ∼= W .
100
Zusammenfassung:
Es gibt insgesamt 4 Methoden, um aus gegebenen Vektorraumen einen neuen Vektorraum zu
erhalten:
1. durch Teilraumbildung: U C V
2. durch direkte Summenbildung (Produktbildung)
V1 × V2 = {(v1, v2)|v1 ∈ V1, v2 ∈ V2}
3. durch homomorphe (lineare) Abbildungen: f(V ) = {f(v)|v ∈ V }
4. durch Faktorbildung nach einem Teilraum U :
V/U = {v + U/v ∈ V }
101
18 Matrizen und Lineare Abbildungen
In diesem Kapitel wird gezeigt, daß in endlich dimensionalen Vektorraumen lineare Abbildungen
und Matrizen einander umkehrbar eindeutig entsprechen. Die Verwendung von Matrizen hat
jedoch 2 Vorteile:
1. Aus der Gestalt der Matrixdarstellung kann man auf die Wirkung (die Struktur) der li-
nearen Abbildung schließen.
2. Man kann die Bilder von Vektoren unter einer linearen Abbildung durch Multiplizieren mit
einer Matrix berechnen. Das ist praktisch (besonders mit einem Computer).
18.1 Matrixdarstellungen
Bisher wissen wir: Eine m× n−Matrix A induziert eine lineare Abbildung vom Kn in den Km
durch die Festsetzung
A : Kn → Km
A(~x) := A · ~x ~x ∈ Kn
A nennen wir die durch die Matrix A induzierte Matrixabbildung.
Nun wollen wir umgekehrt beliebige lineare Abbildungen zwischen endlich–dimensionalen Vek-
torraumen durch Matrizen darstellen: Matrixdarstellung einer linearen Abbildung. Dies ge-
lingt dadurch, daß man anstelle der abstrakten Vektoren x ihre Koordinatendarstellungen [x]B
bezuglich einer vorgegebenen Basis B betrachtet.
Sei f : V → W eine lineare Abbildung von V in W , dim(V ) = n, dim(W ) = m (auch m = n
und W = V sind moglich).
B = {b1, . . . , bn} sei eine Basis von V, B′ = {b′1, . . . , b′m} eine Basis von W .
[x]B sei der Koordinatenvektor von x : [x]B ∈ Kn.
[f(x)]B′ sei der Koordinatenvektor des Bildvektors f(x) : [f(x)]′B ∈ Km.
V ∈ xf−→ f(x) ∈W
↓ ↓
Kn ∈ [xB][f ]B′B−→ [f(x)]B′ ∈ Km
102
[f ]B′B die Matrixdarstellung von f (bezuglich der Basen B′, B), sie moge die Lucke von
Kn → Km schließen, und zwar in der Weise, daß man den Koordinatenvektor [f(x)]B′ durch
einfache Multiplikation von [x]B mit der Matrixdarstellung erhalt, d.h.:
Ist
[f ]B′B =
f11 f12 . . . f1n
f21 f22 . . . f2n
...
fn+1 fn+2 . . . fmn
=: A
dann soll gelten:
[f(x)]B′ = [f ]B′B · [x]B
[f(x)] =
Kurz: [f ] · [x].
Dies gelingt dann, wenn man [f ] wie folgt definiert:
SPALTEN von [f ] = KOORDINATEN der BILDER der BASISVEKTOREN
also
[f ]B′B := ([f(b1)]B′ , [f(b2)]B′ , . . . , [f(bn)]B′).
Ist [x]B = (x1, . . . , xn)⇔ x = x1b1 + . . . + xnbn, dann gilt
f(x) = x1f(b1) + . . . + xnf(bn), also
[f(x)]B′ = x1[f(b1)]B′ + . . . + xn[f(bn)]B′ .
Es ist dann:
[f ][x] = ([f(b1)], [f(b2)], . . . , [f(bn)]) ·
x1
...
xn
= x1 · [f(b1)] + . . . + xn[f(bn)] = [f(x)],
also gilt fur das so definierte [f ] :
[f ] · [x] = [f(x)]
Koordinaten des Bildes von x = Matrixdarstellung × Koordinaten von x
Die so definierte Matrixdarstellung ist eindeutig:
Waren A und B zwei solche Matrizen, also mit
A · [x] = B · [x] = [f(x)].
103
Dann gilt insbesondere fur x = bi, dem i−ten Basisvektor:
(wegen [bi] = (0, . . . , 1, . . . , 0)):
A ·
0...
1...
0
︸ ︷︷ ︸
= B ·
0...
1...
0
︸ ︷︷ ︸
i− te Spalte von A = i− te Spalte von B ⇒ A = B.
Insgesamt: Hat man einmal Basen von V bzw. W ausgewahlt, dann kann man eine lineare
Abbildung f : V →W durch m · n Skalare eindeutig angeben.
Satz 18.1 Matrixdarstellung einer linearen Abbildung
f : V →W sei eine lineare Abbildung eines n−dimensionalen Vektorraumes V in einen m−dimensionalen
Vektorraum W . B sei eine Basis von V und B′ eine Basis von W .
(i) Es gibt genau eine m× n− Matrix A =: [f ]B′B mit
A · [x]B = [f ]B′B[x]B = [f(x)]B′
[f ]B′,B heißt Matrixdarstellung von f bezuglich der Basen B′ und B. Die Spalten von
[f ]B′,B sind gegeben durch die Koordinaten der Bilder der Basisvektoren von V .
Insbesondere ist die Matrixdarstellung eines linearen Operators f : V → V
gegeben durch eine quadratische n× n−Matrix [f ]B.
Also: A ist Matrixdarstellung von f: V →W bezuglich der Basen B und B′ ⇔
[f(x)]B′ = A · [x]B.
(ii) Die m× n−Matrizen und die linearen Abbildungen von f : V in W entsprechen einander
umkehrbar eindeutig.
(iii) Die Zuordnung f → [f ] ist vertraglich mit den Rechenoperationen; d.h.:
104
[λf ] = λ[f ]
[f + g] = [f ] + [g]
[f ◦ g] = [f ] · [g] , wenn f ◦ g definiert
[id] = In
[0] = On
(iv) Ist f eine invertierbare lineare Abbildung (dann ist dim(W ) = dim(V ) = n),
dann gilt:
[f−1] = [f ]−1
Spezialfall: Lineare Abbildungen vom Kn in den Km
Ist A eine m×n−Matrix, dann definiert ~x→ A·~x, wie wir gesehen haben, eine lineare Abbildung
TA : Kn → Km mit TA(~x) := A · ~x.
Dabei wird ~x als Spaltenvektor aufgefaßt.
Die Gleichung ~y = A~x heißt Abbildungsgleichung der Abbildung TA.
Beispiel: A =
1 2 3 4
5 8 7 2
TA(~x) =
1 2 3 4
5 8 7 2
x1
x2
x3
x4
=
x1 + 2x2 + 3x3 + 4x4
5x1 + 8x2 + 7x3 + 2x4
Abbildungsgleichung von TA : K4 → K2
y1 = x1 + 2x2 + 3x3 + 4x4
y2 = 5x1 + 8x2 + 7x3 + 2x4
⇔(
y1
y2
)=
1 2 3 4
5 8 7 2
x1
x2
x3
x4
Die Matrixdarstellung von TA bezuglich der Standardbasen (auch Standarddarstellungsma-
trix genannt) ist A selbst:
TA(~e1) = A · ~e1 = ~a1 1. Spalte von A...
TA( ~en) = A · ~en = ~an n− te Spalte von A
105
Damit:
[TA]{ei},{ei} = ([TA(~e1)] . . . [TA( ~en)]) = ( ~a1 . . . ~an) = A.
Die Standarddarstellungsmatrix kann direkt aus den Abbildungsgleichungen abge-
lesen werden.
Beachte insgesamt: Ist A eine regulare n× n−Matrix, dann kann die Gleichung
~y = A~x
aufgefaßt werden als
(i) die Matrixabbildung A : Kn → Kn mit A(~x) = A~x
(ii) ein bijektiver Operator f : V → V eines n−dimensionalen Vektorraumes mit A als Matri-
zendarstellung von f
(iii) eine Koordinatentransformation in einem n−dimensionalen Vektorraum.
Beispiel: Gegeben sei die regulare Matrix A =
1 −1
1 2
und es sei y = A · ~x.
B = {b1, b2} sei die alte Basis von V
B′ = {b′1, b′2} sei gegeben durch
b′1 = b1 + b2
b′2 = −b1 + 2b2
⇒Ubergangsmatrix
|A| = 3 6= 0A =
1 −1
1 2
Weil |A| 6= 0, ist B′ = {b′1, b′2} wieder eine Basis vom K2.
1. Deutung von ~y = A~x als Basistransformation:
[x]alt = C · [x]neu(x1
x2
)=
(1 −11 2
)(x′1x′2
)⇔
x1 = x′1 − x′2
x2 = x′1 + 2x′2
[x]neu = C−1[x]alt(x′1x′2
)= 1
3
2 1
−1 1
(x1
x2
)⇔
x′1 = 23x1 − 1
3x2
x′2 = −x13 + x2
3
106
2. Deutung von ~y = A~x als (bijektive) lineare Abbildung f : V 2 → V 2:
f(b1) = b′1Durch die Bilder der Basisvektoren
ist f eindeutig bestimmt!
f(b2) = b′2
[f(b1)]B′ =(11
)[f(b2)]B =
(−12
)⇒
[f ]B′B =
1 −1
1 2
und
[f(x)]B′ =
1 −1
1 2
(x1
x2
)=
x1 − x2
x1 + 2x2
3. Deutung von ~y = A~x als Abbildung A : K2 → K2 :(
y1
y2
)=
(1 −11 2
)(x1
x2
)⇔
y1 = x1 − x2
y2 = x1 + 2x2
18.2 Anderung der Matrixdarstellung bei Basiswechsel
Nach Definition der Matrixdarstellung einer linearen Abbildung f : V → W andert sich diese,
wenn man in V bzw. W die Basis wechselt. Man wird daher bestrebt sein, solche Basen
in V und W zu finden, daß die Matrixdarstellung von f moglichst einfach (= viele Nullen,
schwachbesetzte Matrix, Diagonalmatrix, Dreiecksmatrix) wird. Bezuglich der Standardbasen laßt
sich die Matrixdarstellung zwar leicht ablesen, man erhalt aber nicht unbedingt die einfachste
Matrix:
Beispiel: Sei f : K2 → K2( es ist also W = V ) gegeben durch: f(x1
x2
)=
(x1+x2
−2x1+4x2
)Bezuglich der Standardbasis B = {~e1, ~e2} gilt: [f ]B =
(1 1−2 4
)Bezuglich der Basis B′ = {
(11
),(12
)} gilt wegen
f(11
)=
(22
)= 2 ·
(11
); f
(12
)=
(36
)= 3 ·
(12
)[f
(11
)]B′ =
(20
)und [f
(12
)]B′ =
(03
): [f ]B′ =
(2 00 3
).
Zwei Fragen tauchen auf:
(i) Wie andert sich die Matrixdarstellung von f bei Basiswechsel?
(ii) Wie erhalt man “gunstige” Basisvektoren? Was ist uberhaupt erreichbar?
107
In diesem Kapitel beantworten wir die erste Fragestellung. Die uberaus wichtige zweite Frage-
stellung wird in einem eigenen Kapitel (VII) behandelt.
Erinnerung: Sind B und B zwei Basen des n−dimensionalen Vektorraum V und P die Ubergangs-
matrix von B nach B (= neue Basisvektoren durch alte ausdrucken), dann ist V isomorph zu
Kn. Einen Isomorphismus erhalt man dadurch, daß man einem Vektor x ∈ V seine Koordinaten
[x] zuordnet:
x→ [x]B ∈ Knalt Kn
alt = Vektorraum der “alten” Koordinaten
x→ [x]B ∈ Knneu Kn
neu = Vektorraum der “neuen” Koordinaten
Fur die alten und neuen Koordinaten gilt nach 18.6 der Zusammenhang
[x]B = P · [x]B
Diese kann man nach der vorhergehenden Bemerkung auch als (bijektive) Abbildung P : Knneu →
Knalt auffassen, namlich durch die Festsetzung: P([x]B) = P · [x]B = [x]B.
Ist nun f : V n → Wm linear und sind B, B Basen von V und B′, B′, Basen von W mit den
Ubergangsmatrizen P bzw. Q, dann gilt fur die “alte” Matrixdarstellung [f ]B′B = [f ]alt von f
bzw. fur die “neue” Matrixdarstellung [f ]B′B =: [f ]neu
[f ]neu = Q−1 · [f ]alt ·P.
108
Spezialfall: W = V , d.h., f ist ein linearer Operator auf V :
[f ]neu = P−1 · [f ]alt ·P.
Beachte: Im Gegensatz zu vorhin steht links und rechts neben [f ]alt dieselbe Matrix P !
Satz 18.2 Anderung der Matrixdarstellung
P sei die Ubergangsmatrix von einer Basis B zu einer Basis B des n−dimensionalen Vektorrau-
mes V und Q die Ubergangsmatrix von einer Basis B′ zu einer Basis B′ des m−dimensionalen
Vektorraumes W . Dann gilt fur die Matrixdarstellung einer linearen Abbildung f : V →W .
(i) [f ]B′,B = Q−1 · [f ]B′,B ·P⇔ [f ]neu = Q−1[f ]altP.
Fur die Matrixdarstellung eines linearen Operators T : V → V gilt:
(ii) [T]B = P−1 · [T]B ·P⇔ []neu = P−1[f ]neu ·P.
Beobachtung:
Die neuen Matrixdarstellungen unterscheiden sich von den alten also “nur” durch Links– bzw.
Rechtsmultiplikation mit zwei verschiedenen regularen Matrizen oder auch nur mit ein– und
derselben Matrix
Definition 18.1 Aquivalenz und Ahnlichkeit von Matrizen
(i) Zwei m× n−Matrizen A,B heißen aquivalent (∼1), wenn es eine regulare
m×m)−Matrix Q und eine regulare n× n−Matrix P gibt, so daß gilt: B = QAP
A ∼1 B ⇔ ∃ regulare Q,P : B = QAP
109
(ii) Zwei quadratische n× n−Matrizen A und B heißen ahnlich (∼2), wenn es eine regulare
n× n−Matrix P gibt, so daß B = P−1AP
A ∼2 B ⇔ ∃ regular R : B = P−1AP
Satz 18.3 Aquivalente und ahnliche Matrixdarstellungen
(i) Aquivalenz und Ahnlichkeit sind Aquivalenzrelationen in der Menge der
m× n− bzw. n× n−Matrizen.
(ii) A und B sind genau dann Matrixdarstellungen der linearen Abbildung
f : V n →Wm, wenn sie aquivalent sind.
(iii) A und B sind genau dann Matrixdarstellungen eines linearen Operators
T : V n → V n, wenn sie ahnlich sind.
Zusammenfassung:
Alle Matrixdarstellungen ein– und derselben linearen Abbildung sind untereinander aquivalent.
Alle Matrixdarstellungen ein– und desselben linearen Operators sind untereinander ahnlich.
Wie kann man es Matrizen ansehen, ob sie aquivalent oder ahnlich ist?
Wir werden sehen: Es gibt eine Reihe von Eigenschaften, die bei Ubergang zu aquivalenten oder
ahnlichen Matrizen erhalten bleiben.
Definition 18.2 Invariante Eigenschaften von Matrizen
Eine Eigenschaft von Matrizen heißt aquivalenzinvariant (ahnlichkeitsinvariant), wenn
mit einer Matrix auch jede zu ihr aquivalente (ahnliche) Matrix diese Eigenschaft besitzt.
Haben damit zwei Matrizen nicht die besagte Eigenschaft, dann konnen sie nicht aquivalent
bzw. ahnlich sein. Sie sind notwendige Bedingungen fur die Aquivalenz bzw. Ahnlichkeit, aber
im allgemeinen nicht hinreichend, d.h., aus der Gultigkeit der Eigenschaft kann nicht auf die
Aquivalenz bzw. Ahnlichkeit geschlossen werden.
110
Satz 18.4 Aquivalenzinvarianz des Ranges
Aquivalente Matrizen haben denselben Rang.
Beweis:
Seien A,B aquivalent ⇒ ∃ regulare Q,P mit B = QAP ⇒ rg(B) = rg(QAP ) = rg[(QA)P ] = rg(QA) =
rgA.
Bemerkung:
1. Spater werden wir sehen, daß aus der Gleichheit des Ranges auch auf die Aquivalenz der
Matrizen geschlossen werden kann, aber
2. Aus der Gleichheit des Ranges kann nicht auf die Ahnlichkeit der Matrizen geschlossen
werden.
A =
0@ 1 0
0 1
1A = I und B =
0@ 0 1
1 0
1A haben beide Rang 2. Ware A ∼2 B ⇒ ∃ regulares P :
B = P−1n AP = P−1P = I 6= B.
Ahnliche Matrizen haben nicht nur den gleichen Rang, sondern auch die gleiche Determinante:
Sei B = P−1AP ⇒ |B| = |P−1AP | = |P−1||A||P | = |P |−1|A||P | = (|P |−1|P |)|A| == |A|.
Beispiel:
A =
1 2
3 4
, B =
1 1
0 1
−1 1 2
3 4
1 1
0 1
=
−2 −4
3 7
∼2 A
Es ist rg(A) = 2 = rg(B), |A| = 1 · 4− 2 · 3 = −2 = −2 · 7 + 3 · 4 = |B|.
Was bleibt bei ahnlichen Matrizen noch gleich? Im obigen Beispiel sieht man:
1 + 4 = 5 = −2 + 7 = Summe der Hauptdiagonalelemente.
Definition 18.3 Spur einer Matrix
Unter der Spur einer quadratischen Matrix versteht man die Summe ihrer Hauptdiagonalele-
mente: sp(A) :=∑n
i=1 aij.
Satz 18.5 Spureigenschaften
(i) sp(AB) = sp(BA)
(ii) Ahnliche Matrizen haben die gleiche Spur.
(iii) Die Spur eines linearen Operators ist die Spur irgendeiner Matrixdarstellung.
111
Beweis von (i):
Sei A = (aij) und B = (bij). Dann ist AB = (cik) mit cik =∑n
j=1 aijbjk und sp(AB) =∑
i cij =∑i
∑j aijbji.
Nun sei BA = (djk) mit djk =∑n
i=1 bjiaik. Dann ist sp(BA) =∑
j djj =∑
j
∑i bjiaij =∑
i
∑j aijbji = sp(AB).
Beweis von (ii):
Ist A ∼2 B ⇒ ∃P mit B = P−1AP ⇒ sp(B) = sp(P−1AP ) = sp(APP−1) = sp(A).
Zusammenfassend gilt folgender
Satz 18.6 Tabelle von Ahnlichkeitsinvarianten
A sei eine quadratische Matrix
Invariante Beschreibung
Determinante |A| = |P−1AP |
Rang rg(A) = rg(P−1AP )
Spur sp(A) = sp(P−1AP )
Defekt def (A) = def (P−1AP )
Invertierbarkeit A invertierbar ⇔ P−1AP invertierbar
Diese Liste von Ahnlichkeitsinvarianten wird noch erweitert werden!
Weil die Determinante eine Ahnlichkeitsinvariante ist, kann man jedem linearen Operator
T : V → V eine Zahl (einen Skalar) zuordnen:
Wahle irgendeine Matrixdarstellung [T ] von T und bilde det([T ]) = |[T ]|. Weil alle Matrixdar-
stellungen von T untereinander ahnlich sind, haben alle ihre Determinanten den gleichen Wert.
Diesen bezeichnet man als die Determinante von T .
Definition 18.4 Determinante eines Operators
T : V → V sei ein linearer Operator eines endlich–dimensionalen Vektorraumes V .
Unter der Determinante eines linearen Operators T versteht man die Determinante der Ma-
trixdarstellung [T ] von T bezuglich irgendeiner Basis B von V .
det(T ) = |T | = det([T ]B) = |[T ]B| fur irgendeine Basis B
Wie fur Matrizen liefert auch die Determinante eines Operators ein Invertierbarkeitskriterium.
112
Satz 18.7 Invertierbarkeitskriterium fur lineare Operatoren
Ein linearer Operator T eines endlich dimensionalen Vektorraumes ist genau dann invertierbar,
wenn |T | 6= 0.
Beweis:
T : V → V invertierbar ⇔ f bijektiv ⇔ rg(f) = n⇔ rg([f ]) = n⇔ |[f ]| 6= 0.
Zusammenfassend erhalt man folgende Liste von Invertierbarkeitskriterien:
Satz 18.8 Invertierbarkeit linearer Operatoren
V sei ein n−dimensionaler Vektorraum und T : V → V ein linearer Operator.
⇔ T injektiv ⇔ T surjektiv ⇔ ker(T ) = {0} ⇔
⇔ def(T ) = 0⇔ rg(T ) = n⇔ def(T ) 6= 0
113
18.3 Affine Abbildungen (Einschub)
Haufig benutzte Abbildungen (besonders in der Computergrafik) von der anschaulichen Ebene
auf sich selbst sind: Parallelverschiebung, Parallelprojektion, Zentrische Streckung, Spiegelung,
Drehung um einen Punkt M . Sie erzeugen entweder kongruente oder zumindest ahnliche Figuren
der Ausgangsfigur. Was ist allen diesen Abbildungen gemeinsam? (Siehe Beispiel 1 und 2)
Es gibt aber auch Vorschriften (z.B. Scherungen und Kollineationen), die nicht nur die Große,
sondern auch die Gestalt einer Figur ganzlich andern (siehe Beispiel 3).
Es sei daran erinnert, dass man die Punkte der anschaulichen Ebene sowohl als Elemente eines
Vektorraumes (mit den Operationen des Aneinanderfugens nach der Parallelogrammregel und
des Vervielfachens), als auch als elemente eines affinen Raumes auffassen kann.
Alle oben genannten Abbildungen sind, aufgefaßt als Abbildungen eines Vektorraumes, nicht
linear, denn das Bild des Nullvektors 0 ist i.a. verschieden von 0.
f(0) = 0 war aber eine notwendige Bedingung fur die Linearitat einer Abbildung f .
Eine Ausnahme bilden die Drehungen um 0 selbst.
Sie stehen aber mit linearen Abbildungen in einem engen Zusammenhang:
Jede ”Punktabbildung“ α : IR2 → IR2 mit α(P ) = P ∗”induziert“ eine ”Vektorabbildung“
α durch folgende Fortsetzung:
Sei ~u ein ”geometrischer“ Vektor mit Anfangspunkt P und Endpunkt Q, also ~u = ~PQ, dann sei
α(~u) := α( ~PQ) = α(~P )α( ~Q).
Die folgenden Abbildungen illustrieren diese von der Abbildung α induzierte Abbildung α.
114
Parallelprojektion in Richtung ~v:
~a = ~AD
α(~a) :=−−−−−−−→α(A)α(D)
α(~a +~b) = α(~a) + α(~b)
α(λ · ~a) = λ · α(~a)
⇒ α linear ⇒ α affin
parallel bleibt parallel
Teilverhaltnis invariant
Gerade bleibt Gerade
115
α: Zentrische Punktstreckung um Z mit Streckungsfaktor k = 2
α : IR2 → IR2 (IR2 affiner Punktraum)
α(P + Q) 6= α(P ) + α(Q)⇒ α nicht linear (IR2 als Vektorraum)
α ”induziert“ eine Abbildung f : IR2 → IR2 vom Vektorraum IR2 auf sich selbst:
Sei ~x = ~AB ein Vektor aus IR2 mit Anfangspunkt A und Endpunkt B.
Die durch die Abbildung α induzierte Abbildung f ist definiert durch:
f(~x) = f( ~AB) :=−−−−−−−→α(A)α(B)
Es gilt: f(~a +~b) = f(~a) + f(~b)⇒ f ist linear⇒ α ist eine lineare Abbildung
f(λ · ~a) = λ · f(~a)
116
Scherung
Parallelogramm bleibt Parallelogramm
Winkel verandert, Große verandert
117
α: Kollineation
118
Verallgemeinerung auf abstrakte Vektorraume und affine Raume
Gegeben sei ein Vektorraum V uber dem Korper K. U ,W seien zwei Teilraume von V (U,W / V ).
A und B seien zwei affine Raume in V mit Richtung U bzw. W , P sei ein Punkt von A mit
Ortsvektor p = ~OP , Q ein Punkte von B mit Ortsvektor q = ~OQ, also
A = p + U und B = q + W .
(Es kann auch A = B und B = A = V sein!) α sei eine Abbildung vom affinen Raum A auf den
affinen Raum B.
Ist X ein Punkt von A mit Ortsvektor X dann ist x = p + u⇔ u = x− p = ~PX.
Mit α kann durch die Festsetzung
α(u) = α( ~PX) :=−−−−−−−→α(P )α(X) ∈W
α(x− p) = α(x)− α(p) ∈W
eine Abbildung von der Richtung U auf die Richtung W definiert werden. α heißt die von der
Abbildung α induzierte Abbildung der Differenzraume.
Definition 18.5 :
Eine Abbildung α : A → B heißt affin, wenn die durch α induzierte Abbildung der
Differenzraume eine lineare Abbildung ist.
Geometrische Beispiele:
Die vorhergehenden Beispiele zeigen:
Parallelprojektionen, Scherungen, Parallelverschiebungen, Drehungen, Zentrische Streckungen,
Schubspiegelungen sind affine Abbildungen.
Kollineationen sind keine affinen Abbildungen.
119
Beobachtung: Affine Abbildungen konnen die
(i) Große und Gestalt von Figuren invariant lassen (Kongruenzabbildungen: Drehungen,
Parallelverschiebungen ...)
(ii) Große verandern und die Gestalt invariant lassen (Ahnlichkeitsabbildungen: Zentrische
Streckung, Schubspiegelung)
(iii) Große und Gestalt verandern (Scherungen)
ein arithmetisches Beispiel: K sei ein Korper
A = Kn , B = Km (Beachte: Jeder Vektorraum ist auch ein affiner Raum)
C ∈ Km·n, ~d ∈ Km
α : Kn → Km mit
α(~x) := C~x + ~d
Sei: ~x = ~p + u⇔ u = ~x− ~p. Die von α induzierte Abbildung α ist definiert durch:
α(u) : = α(~x− ~p) =−−−−−−→α(~p)α(~x) = α(~x)− α(~p) =
= C~x + ~d− (C~p + ~d) = C~x− C~p = C(~x− ~p) = Cu
Also: α(u) = C · u, das ist eine lineare Abbildung, also ist α eine affine Abbildung.
α selst ist fur ~d 6= ~0 nicht linear: α(~0) = C ·~0 + ~d = ~d 6= ~0
Spater werden wir sehen, dass sich jede affine Abbildung so darstellen lasst.
2 triviale Beispiele:
(a) Die identische Abbildung ist eine affine Abbildung:
id : A→ A, A = p + U, x ∈ A⇔ x = p + u⇔ u = x− p
idA(x) = x⇒ id(u) = id( ~PX) =−−−−−−−→id(p)id(x) = ~px = x− p = u⇔ id(~u) =
id(u) ∀u ∈ U ⇒ id = idu ⇒ id linear ⇒ idA ist affin.
(b) Die konstante Abbildung ist eine affine Abbildung:
α : A→ B, C ∈ B, x ∈ A
α(u) := c
α(u) = α( ~PX) =−−−−−−−→α(P )α(X) = c− c = 0 ∀u ∈ U ⇒ α = 0 (Nullabbildung)
⇒ α linear ⇒ α affin.
120
(c) Jede lineare Abbildung ist affine, aber nicht umgekehrt:
α : V →W V,W sind auch affine Raume mit Richtung V bzw. W .
α sei linear.
α(u) = α( ~PX) =−−−−−−−→α(P )α(X) = α(x)− α(p) = α(x− p) = α(u) ∀u ∈ V ⇒
α = α⇒ α linear ⇒ α affin.
Affine Abbildungen zwischen affinen Raumen sind also solche Abbildungen, die lineare Abbil-
dungen zwischen den Differenzenraumen hervorrufen. Umgekehrt ist durch die Vorgabe einer
linearen Abbildung und das Bild eines Punktes eine affine Abbildung eindeutig festgelegt.
Satz 18.9 A und B seien zwei affine Raume mit Richtungen (Differenzenraume) U bzw. W . f
sei eine lineare Abbildung von U nach W und P ∈ A und Q ∈ B mit Ortsvektor q.
Sei X ∈ A mit Ortsvektor x⇔ x = p + u⇔ u = x− p ∈ U .
Es gibt genau eine affine Abbildung α : A → B mit α(p) = q und f als induzierte lineare
Abbildung, namlich:
α(x) = f(x− p) + q = f(x− p) + α(p)
Kurz: Affine Abbildung = Lineare Abbildung + entsprechendes PunktepaarBeweis:
1. Dieses α bildet p auf q ab: α(p) = f(p− p) + q = f(0) + q = 0 + q = q.
2. Die von α induzierte Abbildung α ist f : α(u) = α(x − p) = α(x) − α(p) = α(x) − q = f(x − p) = f(u)
∀u ⇒ α = f .
3. α ist eindeutig bestimmt:
Seien α1, α2 zwei”solche“ Abbildungen ⇒ α1(x) − q = α1(x) − α1(p) = f(x − p) = α2(x) − α2(p) =
α2(x)− q ⇒ α1(x) = α2(x) ∀x ∈ A ⇒ α1 = α2.
Nun ist in einem n−dimensionalen Raum eine lineare Abbildung durch die Bilder von n l.u.
Vektoren eindeutig bestimmt (siehe 17.10).
Nach dem vorhin Gesagten ist daher eine affine Abbildung auf einem n−dimensionalen
affinen Raum durch die Bilder von n + 1 Punkten P0, . . . , Pn in allgemeiner Lage d.h.,
~P0P1, . . . , ~P0Pn l.u. eindeutig festgelegt.
Das heißt z.B. fur die Ebene: Kennt man die Bilder von 3 Punkten in allgemeiner Lage, so kennt
man die Bilder aller Punkte!
121
Beispiel: Bestimme eine Vektorgleichung jener ”affinen“ Abbildung α : K3 → K4, die durch
folgende ”Punktepaare“ gegeben ist:
P0(1, 0, 0)→ Q0(−1,−1, 3,−2)
P1(1, 1, 0)→ Q1(−1, 0,−2, 0)
P2(1, 1, 1)→ Q2(1,−1, 2,−3)
P3(0, 1, 1)→ Q3(0, 1,−1,−2)
Ist x ∈ K3 = p + u
α(x) = f( u︸︷︷︸x−p
) + α(p)︸︷︷︸=q
→ α(p0) = (−1,−1, 3,−2)
α(~x) = t(~x− ~p) + α(~p)
Nur mehr notwendig: λ1, λ2, λ3u1
u2
u3
= λ1
0
1
0
+ λ2
0
1
1
+ λ3
−1
1
1
LGS in λ1, λ2, λ3
0 0 −1 u1
1 1 1 u2
0 1 1 u3
1 1 1 u2
0 0 −1 u1
0 1 1 u3
1 1 1 u2
0 1 1 u3
0 0 −1 u1
1 1 0 u1 + u2
0 1 0 u1 + u3
0 0 +1 −u1
1 0 0 u2 − u3
0 1 0 u1 + u3
0 0 1 −u1
= λ1
= λ2
= λ3
f
u1
u2
u3
= (u2 − u3)
0
1
−5
2
+ (u1 + u3)
2
0
−1
−1
− u1
1
2
−4
0
=
u1 + 2u3
−2u1 + u2 − u3
3u1 − 5u2 + 4u3
u1 + 2u2 − 3u3
122
x = p + ux1
x2
x3
=
1
0
0
+
u1
u2
u3
=⇒
u1 = x1 − 1
u2 = x2
u3 = x3
α
x1
x2
x3
= f
x1 − 1 = u1
x2 = u2
x3 = u3
=
−1
−1
3
−2
+
x1 − 1 + 2x3 − 1
−2x1 + 2 + x2 − x3 − 1
3(x1 − 1)− 5x2 + 4x3 + 3
x1 − 1 + 2x3 − 3x3 − 2
=
=
1 0 2
−2 1 −1
3 −5 4
1 2 −3
·
x1
x2
x3
+
−2
1
0
−3
Geometrische Charakterisierung von affinen Abbildungen
1. Eine affine Abbildung α ist ”Unterraum-treu“ (Unterraume werden auf Unterraume ab-
gebildet!) Eigenschaft, Unterraum zu sein, ist eine Invariante von affinen Abbildungen.
Kurz: Ebene bleibt Ebene bzw. Gerade bleibt Gerade (bzw. Degeneration auf einen
Punkt!) Kollineare Punkte werden auf kollineare Punkte abgebildet.
Beweis: A = {x|x = p + U}, α : A→ B = {x|x = q + W}, U, W / V
α(A) = {y|y = α(x)} = {y|y = α(p)︸︷︷︸∈B
+f(U)}
Das ist eine Punktmenge der Form: {q + Teilraum von W}, also ein affiner Unterraum von B.
2. Eine affine Abbildung is parallelentreu. D.h.: A1||A2 ⇒ α(A1)||α(A2)
Beweis (im KV): α(A) = {y|y = α(p) + f(U)}, parallel heißt U1 ⊆ U2 oder U2 ⊆ U1
3. Eine injektive affine Abbildung ist teilverhaltnistreu.
D.h. ist λ = TV (a, x, b)⇒ λ = TV (αa, αx, αb) fur a 6= x 6= b
Beweis: Es ist αa 6= αx 6= αb. Ist λ = TV (a, x, b)⇔ x− a = λ(b− x)
⇒ αx− αa = f(x− a) = f(λ(b− x)) = λf(b− x) = λ(αb− αx)
⇒ TV (αa, αx, αb) = λ.
Insbesondere: Mittelpunkt bleibt Mittelpunkt.
123
Es gilt auch die Umkehrung: Eine Abbildung α : A → B, die kollineare Punkte auf
kollineare Punkte abbildet und dabei das Teilverhaltnis invariant laßt, muss eine affine
Abbildung sein!
Satz 18.10 Eine Abbildung ist genau dann affin, wenn sie Geraden auf Geraden abbildet und
teilverhaltnistreu ist.
Affine Abbildungen sind sehr verwandt zu linearen Abbildungen:
(i) α bijektiv ⇔ die von α induzierte lineare Abbildung α ist bijektiv.
(ii) Die inverse Abbildung einer bijektiven affinen Abbildung ist wieder affin.
(iii) Die Hintereinanderausfuhrung von affinen Abbildungen ist wieder affin.
(iv) Die identische Abbildung ist eine affine Abbildung.
Satz 18.11 Definition und Satz
Eine Affinitat ist eine bijektive affine Abbildung.
Die Affinitaten eines affinen Raumes auf sich selbst bilden eine nichtabelsche Gruppe.
Definition 18.6 Eine Affinitat α : A → A heißt Translation, wenn die induzierte lineare
Abbildung die identische Abbildung ist.
”Formel“ fur Translation: V sei ein Vektorraum uber K und U / V .
A = {x|x = p ∗ u, u ∈ U}
α(u) = α(x− p)︸ ︷︷ ︸id(~x−~p)=~x−~p
:= α(x)− α(p)
⇒ x− p = α(x)− α(p)
α(x) = x + α(p)− p︸ ︷︷ ︸=:~v
α(x) = x + v
(i) Translationen sind bijektiv, weil idA bijektiv!
(ii) idA ist Translation
(iii) Inverse einer Translation ist wieder eine Translation, weil id−1A = idA.
(iv) Zusammensetzung von Translationen ist wieder Translation, weil idA ◦ idA = idA
124
Satz 18.12 Die Translationen bilden eine abelsche Untergruppe in der Gruppe aller Affinitaten
eines affinen Raumes.
Affine Geometrie (= Menge aller Satze, die die Inzidenz betreffen) kann aufgefaßt werden als
Menge aller jener Eigenschaften, die bezuglich der Affinitaten invariant bleiben.
(FELIX) KLEIN’sche Erlanger Programm (1905):
Geometrie ordnen nach Invarianten gewisser Abbildungsgruppen.
Affine Geometrie = Invarianten gegenuber der Affinitatsgruppe.
Euklidsche Geometrie = Invarianten gegenuber der Bewegungsgruppe (Kongruenzabbildungen)
Projektive Geometrie = Invarianten gegenuber der Gruppe der projektiven Abbildungen.
Matrixdarstellung von affinen Abbildungen
Wir beschranken uns auf affine Abbildungen α : A → A eines affinen Raumes A in sich. Es sei
dim A = n. U sei die richtung von A (der Differenzenraum) also A = p + U . Dann ist auch
dim U = n. Da die affinen Abbildungen in sehr enger Beziehung zu den linearen Abbildungen
der Differenzenraume stehen, wird man erwarten, dass man auch affinen Abbildungen durch
Matrizen beschreiben wird konnen.
Um zu diesen Matrizen zu kommen, muss man in A ein Koordinatensystem einfuhren. Dann
kann man die ”Punkte“ des affinen Raumes durch n−Tupel und die affine Abbildung als eine
Abbildung zwischen diesen n−Tupeln beschrieben.
Sei S = (P0, P1, . . . , Pn) ein Koordinatensystem von A. Dann sind die Vektoren u1 := ~P0P1, . . . , un
:= ~P0Pn l.u., also eine Basis B = {u1, . . . , un} der Richtung U : U =< u1, . . . , un >.
Ist α affin, dann ist α : U → U mit α(u) = α( ~PX) =−−−−−−−→α(P )α(X) eine lineare Abbildung von U
in U . Daher gibt es nach 8.1 (??) genau eine (n× n)−Matrix C ∈ Kn·n mit
[α(u)]B = C · [u]B ∀u ∈ U
Damit erhalt man mit x = p + u⇔ u = x− p
[α(u)]B =[α( ~PX)
]B
=[−−−−−−−→α(P )α(X)
]B
= [α(X)− α(P )]S =
= [α(x)]S − [α(p)]S = C · [u]B = C · [x− p]B = C · [x]S − C · [p]S
125
Aus den unterstrichenen Teilen erkennt man
[α(X)]S = C · [X] + [α(P )]− C · [P ]︸ ︷︷ ︸=: ~c ∈ Kn·n
= C · [X]S + ~c
Damit: Bezuglich eines Koordinatensystems S laßt sich eine affine Abbildung α : A→ A durch
eine (n× n)−Matrix und ein n−Tupel beschreiben (durch ein Matrix-Vektor Paar). Umge-
kehrt ist jede so beschriebene Abbildung affin.
α : A→ A ist affin ⇔ [α(X)] = C · [X] + ~c mit ~c = [α(P )]− C · [P ]
C ist dabei die Matrixdarstellung von der durch die von α induzierten linearen Abbildung
bezuglich BS .
α : A→ A ist affin ↔
x′1...
x′n
=
c11 · · · c1n
......
cn1 · · · cnn
x1
...
xn
+
c1
...
cn
α ist bijektiv ⇔ α bijektiv ⇔ C invertierbar ⇔ |C| 6= 0.
Satz 18.13 (Matrixdarstellung von affinen Abbildungen)
Eine Abbildung α : A → A eines n−dimensionalen affinen Raumes ist genau dann affin, wenn
sie sich bezuglich eines Koordinatensystems S durch ein Matrix-Vektorpaar beschreiben lasst,
d.h., wenn es eine (n× n)−Matrix C und ein n−Tupel ~c gibt, mit:
[α(X)]S = C · [X]S + ~c
α ist genau dann eine Affinitat (regulare affine Abbildung), wenn |C| 6= 0.
Ist ~c = ~0, dann ist α eine lineare Abbildung.
So ein Matrix-Vektorpaar ~y = C · ~x + ~c mit |C| 6= 0 kann aber auch als Beschreibung einer
affinen Koordinatentransformation angesehen werden:
Ein Wechsel des Koordinatensystems in A ruft auch einen Wechsel der Koordinaten eines Punk-
tes X ∈ A hervor.
S = (P0, P1, . . . , Pn) ”altes“ Koordinatensystem
S′ = (P ′0, P
′1, . . . , P
′n) ”neues“ Koordinatensystem
[X]S . . . ”alte“ Koordinaten des Punktes X
[X]′S . . . ”neue“ Koordinaten des Punktes X.
126
Die neuen Punkte P ′0, . . . , P
′n lassen sich eindeutig durch die alten ausdrucken.
P ′0 = P0 +
∑ni=1 ti ~P0Pi = P0 +
∑ni=1 ti(pi − p0)
P ′j = P ′
0 +∑n
i=1 tij ~P0Pi = P ′0 +
∑ni=1 tij(pi − p0) j = 1, . . . , n
~A := (ty, . . . , tn)t;
T := (tij) Beachte: T ist schon transponiert definiert!
Nun ist S′ = (P ′0, P
′1, . . . , P
′n) genau dann ein Koordinatensystem, wenn
{~P ′0P
′1, . . . ,
~P ′0P
′n
}l.u.
ist, also genau dann, wenn obiges T regular ist, also |T | 6= 0 ist.
Nach Rechnung ergibt sich fur die alten und neuen Koordinaten des Punktes X:
[X]S = T · [X]S′ + ~t
Kurz: alte Koordinaten = Transformationsmatrix · neue Koordinaten.
Dabei druckt T die neuen Punkte durch die alten Punkte aus.
Weil T regular ist, existiert T−1 und man kann auch die neuen Koordinaten durch die alten
ausdrucken:
[X]S − ~t = T · [X]S′ ⇒ [X]S′ = T−1 · ([X]S − t) = T−1 [X]S −T−1t
Zusammenfassung:
(a) Ein Matrix-Vektorpaar (C,~c) mit einer regularen (n×n)−Matrix C und ~y = C ·~x+~c,|C| 6= 0
kann man auffassen als Beschreibung einer
(i) affinen Koordinatentransformation in einem n−dimenstionalen affinen Raum
A. Dann sind ~y und ~x Koordinatenvektoren ein und desselben Vektors bezuglich
zweier Koordinatensysteme.
(i) regularen affinen Abbildungen von einem affinen Raum A in sich selbst. Dann
sind ~y und ~x die Koordinatenvektoren zweier Punkte (Urbild und Bild) bezuglich
eines Koordinatensystems.
(b) Eine regulare Matrix C allein und ~y = C~x kann man auffassen als Beschreibung einer
(ii) Basistransformation in einem n−dimenstionalen Vektorraum V . Dann sind ~y und
~x Komponenten ein und desselben Vektors bezuglich zweier Basen oder
(ii) bijektiven linearen Abbildung (Automorphismus) f : V → V . Dann sind ~y
und ~x die Komponenten zweier Vektoren (Bild und Urbild) bezuglich einer Basis.
127
Deutung als Abbildung f : K2 → K2
Deutung als Basiswechsel B = {b1, b2} → {b′1, b′2}
C =
1 −1
1 2
128
Beispiel 1: Gegeben sei die regulare Matrix C =
1 −1
1 2
: ~y = C · ~x
B = {b1, b2} sei die alte Basis von V
B′ = {b′1, b′2} sei gegeben durch
(∗)b′1 = b1 + b2
b′2 = −b1 + 2b2
⇒Ubergangsmatrix
|C| = 3 6= 0C =
1 −1
1 2
Weil |C| 6= 0, ist B′ = {b′1, b′2} wieder eine Basis vom K2.
1. Deutung von (∗) als Basistransformation:
[X]alt = C [X]neu x1
x2
=
1 −1
1 2
x′1
x′2
⇔ x1 = x′1 − x′2
x2 = x′1 + 2x′2
[X]neu = C−1 [X]alt x′1
x′2
=13
2 1
−1 1
x1
x2
⇔ x′1 = 23x1 − 1
3x2
x′2 = −x13 + x2
3
2. Deutung von (∗) als (bijektive) lineare Abbilfung f : V 2 → V 2:
f(b1) = b′1Durch die Bilder der Basisvektoren
ist f eindeutig bestimmt!
f(b2) = b′2
[f(b1)]B′ =
1
1
[f(b2)]B′ =
−1
2
⇒[f ]B′B =
1 −1
1 2
und
[f(x)]B′ =
1 −1
1 2
x1
x2
=
x1 − x2
x1 + 2x2
129
19 Eigenwerte und Eigenvektoren
In diesem Kapitel untersuchen wir im Anschauungsraum Vektoren, deren Richtung unter einer
linearen Abbildung nicht verandert wird. Wie alle invarianten Großen spielen sie fur die Theorie
und die Anwendungen eine bedeutende Rolle. Ohne Ubertreibung kann man sagen, daß ohne
diese invarianten Vektoren ein weiterer Ausbau der Linearen Algebra nicht moglich ist. Wieder
verallgemeinern wir die anschauliche Invarianz der Richtung auf abstrakte Vektorraume.
19.1 Grundlegende Eigenschaften
Bildvektor und Urbildvektor eines linearen Operator T : V → V stehen normalerweise in keiner
geometrischen Beziehung zueinander.
Oft gibt es jedoch Vektoren, die mit ihrem Bildvektor kollinear, also nur skalare Vielfache von-
einander sind. Gerade sie erweisen sich als nutzlich bei der Beschreibung von Schwingungen,
chemischen Reaktionen, genetischen und okonomischen Vorgangen. Besonders bedeutsam sind
sie fur die Vereinfachung von Beschreibungen von Punktmengen in der Geometrie und fur die
Vereinfachung von Matrixdarstellungen bzw. von Matrizen.
Definition 19.1 1. Abbildungstheoretische Formulierung:
V sei ein Vektorraum uber K und T : V → V ein linearer Operator auf V .
(i) Ein Eigenvektor (eigenvector, EV) des linearen Operators T ist ein vom Nullvektor ver-
schiedener Vektor x ∈ V , dessen Bild T (x) ein skalares Vielfaches vom Urbild x ist.
Symbolisch:
x EV von T⇔ x 6= 0 ∧ ∃λ ∈ K : T(x) = λx
Dabei heißt der Skalar λ der zum Eigenvektor x gehorige Eigenwert von T .
(ii) Ein Eigenwert (eigenvalue, EW) des linearen Operators T ist ein Skalar λ, zu dem es
einen vom Nullvektor verschiedenen Vektor x gibt, dessen Bild T (x) gerade das λ−fache
130
von x ist.
λ EW von T⇔ ∃x 6= 0 : T(x) = λx
Dabei heißt der Vektor x ein zum EW λ gehoriger Eigenvektor von T .
(iii) Der Eigenraum ETλ von T zum EW λ ist die Menge aller Eigenvektoren von T zum
Eigenwert λ, zu der noch der Nullvektor 0 hinzugenommen wird. Damit ist der Eigenraum
ETλ ein Teilraum von V .
2. Matrizentheoretische Formulierung:
A sei eine quadratische n× n− Matrix uber dem Korper K.
(iv) Ein Eigenvektor x von A ist ein n−Tupel ~x 6= ~0, zu dem es einen Skalar λ ∈ K gibt,
mit A~x = λ~x. λ heißt der zum Eigenwert ~x gehorige Eigenwert von A. Symbolisch:
λ EW von A⇔ ∃x 6= 0 : Ax = λx
x EV von A⇔ x 6= 0 ∧ ∃λ ∈ K : Ax = λx.
(v) Der Eigenraum EAλ von A zum EW λ ist die Menge aller Eigenvektoren A zum EW λ
von A einschließlich des Nullvektors ~0.
Beachte: EV und EW sind nur fur lineare Operatoren bzw. nur fur quadratische Matrizen er-
klart. EV und EW von Matrizen sind zugleich die EV und EW des von der Matrix A induzierten
linearen Operators TA : Kn → Kn mit TA(~x) = A~x.
Geometrische Deutung: Im IR2 bzw. IR3 sind die EV von T jene Vektoren, die durch T
gestreckt bzw. gestaucht werden, eventuell mit einer Orientierungsumkehr. Die EW entsprechen
den Streckungs-(Stauchungs-)faktoren.
Beispiel: ~x =(12
)ist EV zum EW λ = 3 von A =
3 0
8 −1
, denn
A~x =
3 0
8 −1
(12
)=
(36
)= 3 ·
(12
)= 3 · ~x
~x =(11
)ist kein EV von A, denn
A~x =
3 0
8 −1
(11
)=
(37
)6= λ ·
(12
).
Beispiel: T : P1 → P1 mit T (c0 + c1x) = (c0 − 2c1) + (c0 + 4c1)X
p(x) = −2 + x ist EV zum EW λ = 2 von T , denn T (−2 + x) = −4 + 2x = 2 · (−2 + x).
131
Wie erhalt man alle EW und EV eines Operators T?
a) Berechnung von EW und EV von n× n−Matrizen A:
A~x = λ~x⇔ A~x− λ~x = ~0⇔ A~x = λIn~x = ~0⇔ (A− λIn)~x = ~0 (25)
Der Eigenvektor ~x ist also eine nichttriviale Losung des homogenen, quadratischen Gleichungs-
system (A− λIn)~x = ~0, nach der Fredholm’schen Alternative muß daher
|A− λIn| = 0
gelten.
λ EW zum EV ~x von A⇔ |A− λIn| = 0
Was ist |A− λIn|? Fur (2× 2)−Matrizen gilt:
|A− λI2| =
∣∣∣∣∣∣ a11 − λ a12
a21 a22 − λ
∣∣∣∣∣∣ = λ2 − (a11 + a22) · λ + (a11a22 − a12a21) =
= λ2 − sp(A) · λ + |A|
|A− λI2| ist also ein Polynom 2. Grades in λ.
Allgemein ist die Determinante
|A− λIn| =
∣∣∣∣∣∣∣∣∣a11 − λ
a22 − λ
ann − λ
∣∣∣∣∣∣∣∣∣ = (−1)nλn − sp(A) · λ + . . . + |A| =: pA(λ)
ein Polynom n−ten Grades in λ. In der folgenden Definition verwenden wir X statt λ:
Definition 19.2 (i) Das charakteristische Polynom der n×n−Matrix A ist das Polynom
n−ten Grades in X, definiert durch
pA(X) := |A−XIn|.
Die Gleichung |A−XIn| = 0 heißt charakteristische Gleichung von A.
(ii) Das charakteristische Polynom pT (X) eines Operators T : V → V ist das charakteristische
Polynom irgendeiner Matrixdarstellung von T .
pT(X) := |[T]−XIn| = p[T](X)
132
Die Definition (ii) ist wegen des folgendes Satzes moglich:
Satz 19.1 Ahnliche Matrizen besitzen dasselbe charakteristische Polynom.
Beweis: Ist B ∼2 A ⇒ ∃ ein regulares P : B = P−1AP ⇒ pB(X) = |B − XIn| = |P−1AP − P−1XInP | =
|P−1(A−XIn)P | = |P |−1|A−XIn||P | = |P |−1 · |P | · |A−XIn| = |A−XIn| = pA(X).
Spur und Determinante einer Matrix treten als Koeffizienten im charakteristischen Polynom auf:
Satz 19.2 Koeffizienten des charakteristischen Polynoms
pA(X) = (−1)nXn − sp(A) ·Xn−1 + . . . + |A|.
Bemerkung:
Manchmal ist pA(X) definiert als |XIn −A|, es andern sich dadurch aber nur Vorzeichen.
Die Aquivalenzkette (25) liefert folgenden Satz:
Satz 19.3 Charakterisierung von EW und EV einer Matrix A
(i) Die EW λ der Matrix A sind genau die Nullstellen ihres charakteristischen Polynoms.
λ EW von A⇔ pA(λ) = 0
(ii) Die EV ~x von A zum EW λ sind genau die nichttrivialen Losungen des homogenen Systems
(A− λIn)x = 0.
(iii) Der Eigenraum EAλ zum EW λ der Matrix A ist der Nullraum der Matrix A− λIn.
EAλ = N(A− λIn) = ker(A− λIn)
Damit
dimEλ = def(A− λIn)
b) Berechnung von EW und EV von linearen Operatoren T : V→ V,dim(V) = n
T (x) = λx⇔ T (x)− λx = 0⇔ T (x)− λid(x) = 0⇔ (T − λid)(x) = 0 (26)
Ist [T ]B die Matrixdarstellung von T zur Basis B ⇒ [T (x)]B = [T ]B[x]B, also
λ EW von T ⇔ T (x) = λx⇔ [T (x)]B = [λx]B ⇔ [T ]B[x]B = λ[x]B (27)
133
also: λ EW von T ⇔ λ EW von [T ]B ⇔ λ Nullstelle von p[T ](X).
Da nach 18.3 alle Matrixdarstellungen untereinander ahnlich sind und ahnliche Matrizen dassel-
be charakteristische Polynom besitzen, genugt es zur Bestimmung der EW von T , irgendeine
Matrixdarstellung zu wahlen.
x EV von T zum EW λ ⇔ T (x) = λx ⇔ [T ]B[x]B = λ[x]B ⇔ [x]B ist EV zum EW λ der
Darstellungsmatrix [T ]B.
Zusammenfassend ergibt sich
Satz 19.4 Charakterisierung von EW und EV eines linearen Operators T
(i) Die EW eines linearen Operators T : V → V eines n−dimensionalen Vektorraumes sind
genau die Nullstellen des charakteristischen Polynoms irgendeiner Matrixdarstellung [T ].
(ii) Die EV von T : V → V zum EW λ sind genau jene Vektoren x, deren Koordinatenvektor
[x]B bezuglich einer Basis B von V EV der Darstellungsmatrix [T ]B zum EW λ sind.
(iii) Der Eigenraum ETλ zum EW λ des Operator T ist der Kern von T − λid.
ETλ = ker(T− λid)
Damit:
dimETλ = def(T− λid)
Insgesamt ergibt sich folgender Algorithmus zur Berechnung der EW und EV:
Schritt 1: Berechne irgendeine Matrixdarstellung [T ] von T
Schritt 2: Berechne die Nullstellen des charakteristischen Polynoms p[T ](X) : p[T ](X) = 0
Das ist ein Polynom n−ten Grades, fur große n ist die Berechnung fast hoffnungslos. Man
verwendet geeignete Approximationsverfahren (→ Numerische lineare Algebra)
Schritt 3: Zu jeder Nullstelle λ lose das homogene LGS: ([T ]− λIn)~x = ~0
Bemerkung: Eine n× n−Matrix A bzw. ein linearer Operator eines n−dimensionalen
Vektorraumes hat hochstens n EW und hochstens n l.u. EV.
Bemerkung: Die EW konnen komplex sein, auch von reellen Matrizen. Dann konnen sie auch
komplexe EV besitzen (deshalb benotigt man eine Theorie komplexer Vektorraume).
Eine komplexe n× n−Matrix hat nach dem Fundamentalsatz der Algebra stets n EW.
134
Satz 19.5 Ahnlichkeitsinvarianz von EW
Das charakteristische Polynom, die Eigenwerte und die Eigenraumdimension von Matrizen sind
Ahnlichkeitsinvarianten, d.h., ist B ∼2 A, dann gilt
(i) pB(X) = pA(X)
(ii) λ ist EW von A⇔ λ ist EW von B
(iii) dim EAλ = dim EB
λ
Beweis von (ii) und (iii):
(ii) λ ist EW von A ⇔ pA(λ) = 0 ⇔ pB(λ) = 0 ⇔ λ ist EW von B
(iii) dim EBλ = def(B − λIn) = n− rg(B − λIn) = n− rg(p−1(A− λIn) = n− rg(A− λIn) = def(A− λIn) =
dim EAλ .
Zusammenfassung der bisherigen Ahnlichkeitsinvarianten:
Tabelle der Ahnlichkeitsinvarianten
Invariante Beschreibung
Determinante det A = det(P−1AP )
Invertierbarkeit A invertierbar ⇔ P−1AP invertierbar
Rang rg(A) = rg(P−1AP )
Defekt def(A) = def(P−1AP )
Spur sp(A) = sp(P−1AP )
Charakteristisches Polynom det(A−XI) = det(P−1AP −XI)
Eigenwerte λ EW von A⇔ λ EW von P−1AP
Eigenraumdimension dim(EAλ ) = dim(EP−1AP
λ )
135
Satz 19.6 Eigenwert und Invertierbarkeit
(i) Eine quadratische Matrix ist genau dann invertierbar, wenn 0 kein EW von A ist.
(ii) Ein linearer Operator T : V → V eines n−dimensionalen Vektorraumes V ist genau dann
invertierbar, wenn 0 kein EW von T ist.
Beweis: (i) A invertierbar ⇔ |A| 6= 0.
Sei λ EW von A ⇒ pA(λ) = (−1)nλn + . . . + |A| = 0. Ware λ = 0 EW von A ⇒
pA(0) = |A| = 0 ⇒ A nicht invertierbar.
(ii) T invertierbar ⇔ [T ]B invertierbar fur irgendeine Basis B (Invertierbarkeit ist eine Ahnlichkeitsinvariante)
⇔ 0 ist kein EW von [T ]B ⇔ 0 ist kein EW von T .
Zusammenfassung der bisherigen Invertierbarkeitskriterien:
Tabelle der wichtigsten Invertierbarkeitskriterien
Die quadratische Der lineare Operator T eines
n× n−Matrix A n−dimensionalen Vektorraumes
ist genau dann invertierbar, wenn gilt
det(A) 6= 0 det(T ) 6= 0
rg(A) = n rg(T ) = n
def(A) = 0 def(T ) = 0
λ = 0 ist kein EW von A λ = 0 ist kein EW von T
A~x = ~0 ist nur trivial losbar ker(T ) = {0}
A~x = ~b ist fur alle ~b T (v) = w ist fur alle w
eindeutig losbar eindeutig losbar
A∗A ist invertierbar T ist injektiv
Spaltenvektoren von A sind l.u. T ist surjektiv
Zeilenvektoren von A sind l.u.
136
19.2 Minimalpolynom einer Matrix
Neben dem charakteristischen Polynom spielt das Minimalpolynom einer Matrix eine wichtige
Rolle, besonders fur das Vereinfachen von Matrizen. Beide stehen in einem engen Zusammen-
hang zueinander. Grundlage ist der folgende Satz:
Satz 19.7 von CAYLEY–HAMILTON
Jede quadratische n× n−Matrix A ist Nullstelle ihres charakteristischen Polynoms:
pA(A) = 0
Beispiel: A =(1 23 2
)pA(X) =
∣∣∣∣∣∣ 1−X 2
3 2−X
∣∣∣∣∣∣ = X2 − 3X − 4
X ↔ A,X2 ↔ A2, 4↔ 4In
A2 − 3A− 4E =(7 69 10
)− 3
(1 23 2
)− 4
(1 00 1
)=
(0 00 0
)Beweis: pA(X) = |A−XIn| = (−1)nXn + an−1X
n−1 + . . . + a1X + a0
Die Elemente der Adjungierten (A−XIn)adj sind Kofaktoren von A−XIn, also Determinanten
von (n − 1) × (n − 1)−Determinanten und damit Polynome in X vom Grad hochstens n − 1.
(A−XIn)adj = Bn−1Xn−1 + . . . + B1X + B0, wobei die Bi m× n−Matrizen uber K sind z.B.:
X2 X2 − 1 X2 + X + 1
X X2 + 1 X2 + 1
X + 1 X2 X2 − 1
= X2 ·
B2︷ ︸︸ ︷1 1 1
0 1 1
0 1 1
+ X
B1︷ ︸︸ ︷0 0 1
0 0 0
1 0 0
+
B0︷ ︸︸ ︷0 −1 1
0 1 1
1 0 −1
Fur die Adjungierte gilt:
(A−XIn) · (A−XIn)adj = |A−XIn| · In
(A−XIn)(Bn−1Xn−1 + . . . + B1X + V0) = ((−1)nXn + an−1X
n−1 + . . . + a1X + a0) · In
137
Ausmultiplizieren und Ordnen nach Potenzen von X ergibt:
−Bn−1 = (−1)nIn ·An
−Bn−2 + ABn−1 = an−1In ·An−1
−Bn−3 + ABn−2 = an−2In ·An−2
......
−B0 + AB1 = a1In ·A
AB0 = a0In ·In
−AnBn−1 = (−1)nAn
−An−1Bn−2 + AnBn−2 = an−1An−1
An−2Bn−3 + An−1Bn−2 = an−2An−2
...
−AB0 + A2B1 = anA
AB0 = a0In
0 = (−1)nAn + an−1An−1 + . . . + a1A + aoIn = pA(A).
Eine n× n−Matrix erfullt also zumindest eine Polynomgleichung n−ten Grades. Es kann aber
sein, daß eine Matrix A eine Polynomgleichung niedrigeren Grades erfullen kann.
Beispiel:
A =
2 0
0 2
: pA(X) = X2 − 4X + 2X,
pA(A) = A2 − 4A + 4I2 =
4 0
4 0
− 8 0
0 8
+
4 0
0 4
=
0 0
0 0
.
Es gilt aber auch fur p(X) = X − 2 : p(A) =
2 0
0 2
− 2 0
0 2
=
0 0
0 0
Definition 19.3 Minimalpolynom einer Matrix bzw. eines Operators
Das Minimalpolynom mA(X) der quadratischen n×n− Matrix A ist das eindeutig bestimmte
normierte Polynom kleinsten Grades mit mA(A) = 0.
Das Minimalpolynom mT (X) des linearen Operators T : V → V ist das normierte Polynom
kleinsten Grades mit mT(T) = 0.
138
Satz 19.8 Eigenschaften des Minimalpolynoms
(i) Das Minimalpolynom der Matrix A ist stets Teiler des charakteristischen Polynoms
mA(X)/pA(X).
Es teilt uberhaupt alle jene Polynome f(X), die A als “Nullstelle” besitzen, fur die also
f(A) = O. Also: f(A) = O ⇒ mA(X)/f(X). Umgekehrt gilt: pA(X)/[m(X)]n.
(ii) Das charakteristische Polynom und das Minimalpolynom einer Matrix A haben dieselben
unzerlegbaren Faktoren (irreduziblen Faktoren). Insbesondere haben sie dieselben Linear-
faktoren, daher gilt:
(iii) λ EW von A⇔ λ ist Nullstelle des Minimalpolynoms von A.
(iv) T : V → V invertierbar ⇔ Der konstante Koeffizient des Minimalpolynoms m(X) ist von
Null verschieden, als m(0) 6= 0.
(v) Sei T : V → V , linear und invertierbar und dim(V ) = n. Dann laßt sich T−1 als Polynom
hochstens (n− 1)−ten Grades in T darstellen.
139
Beweis:
(i) Sei f(X) ein Polynom mit f(A) = O. Nach dem Euklidischen Divisionsalgorithmus gibt es Polynome
q(X), r(X) mit f(X) = mA(X)q(X) + r(X) und r(X) = O ∨ [r] < [mA]. Ist r(X) = O ⇒ mA(X)/f(X).
Andernfalls erhalt man durch Einsetzen von X = A : f(A) = mA(A)q(A)+r(A). Wegen f(A) = O = m(A)
erhalt man r(A) = O. A ware also Nullstelle eines Polynoms von kleinerem Grad als der des Minimal-
polynoms, da ist ein Widerspruch zur Minimalitat, also muß r(X) = O sein und damit gilt: f(X) =
mA(X) · q(X) ⇔ mA(X)/f(X). Insbesondere gilt die Aussage fur f(X) = pA(X).
Zum Beweis von pA(X)/[mA(X)]n:
Sei mA(X) = Xr + m1Xr−1 + . . . + mr−1X + mr
Wir definieren folgende Matrizen:
B0 := I, B1 := A + m1I, B2 := A2 + m1A + m2I, . . . ,
Br−1 := Ar−1 + m1Ar−2 + . . . + mr−1 · I
und B(X) := Xr−1B0 + Xr−1B1 + . . . + XBr−2 + Br−1
Dann ist
(A−XI)B(X)=Xr−1AB0 + Xr−2AB1 + . . . + ABr−1 − (XrB0 + Xr−1B1 + . . . + XBr−1) =
=XrB0 −Xr−1(B1 −AB0)−Xr−2(B2 −AB1)− . . .−X(Br−1 −ABr−2) + ABr−1
=XrI −Xr−1m1I −Xr−2m2I − . . .−Xmr−1I −mrI = −m(X) · I
Nach dem Produktsatz fur Determinanten gilt:
|A−XI|| {z }pA(X)
· |B(X)|| {z }∈K[X]
= (−1)n[m(X)]n · |I| = (−1)n[mA(X)]n,
also teilt pA(X) die n−te Potenz des Minimalpolynoms.
(ii) Sei p(X) ein irreduzibles Polynom, das m(X) teilt. Aus p(X)/m(X)/pA(X) folgt dann p(X)/pA(X). Ist
p(X) ein Teiler von pA(X), dann folgt aus pA(X)/m(X)n, daß p(X)/[m(X)]n, wegen der Irreduzibilitat
von p(X) also auch p(X)/m(X).
(iii) λ EW von A ⇔ pA(λ) = 0 ⇔ (X−λ)/pA(X) ⇔ (X−λ)/mA(X) ⇔ mA(X) = (X−λ)q(X) ⇔ mA(λ) = 0.
(iv) T invertierbar ⇔ T nichtsingular ⇔ 0 kein EW von T ⇔ 0 keine Nullstelle von m[T ] ⇔ m(0) 6= 0.
(v) Sei mT (X) das Minimalpolynom von T ⇒ mT (X) = Xr + m1Xr−1 + . . . + mr−1X + mr mit r ≤ n.
T invertierbar ⇔ mr 6= 0.
mT (T ) = T r + m1Tr−1 + . . . + mr−1T + mrI ⇒ I = − 1
mr(T r−1 + m1T
r−2 + . . . + mr−1I) · T ⇒
T−1 = − 1
mr(Tr−1 + m1T
r−2 + . . . + mrI)
Fur Blockmatrizen und Blockdiagonalmatrizen vereinfacht sich die Berechnung des charakteris-
tischen Polynoms und des Minimalpolynoms.
140
Satz 19.9 Blockmatrizen
(i) Es sei M =
A1 B . . . C
A2 . . . D...
0. . . An
, wobei A1, A2, . . . , An quadratische Matrizen sind.
Das charakteristische Polynom der triangularen Blockmatrix M ist das Produkt der cha-
rakteristischen Polynome der Ai:
pM(X) := pA1(X) · pA2(X) · . . . · pAr(X)
(ii) Es sei M =
A1 0
A2
0. . . An
, wobei A1, A2, . . . , An quadratische Matrizen sind.
Das Minimalpolynom der Blockdiagonalmatrix M ist das kleinste gemeinsame Vielfache
der Minimalpolynome der Ai.
mM(X) = kgV(mA1(X), . . . ,mAr(X)).
Ist λ ein EW von A, dann ist λ Nullstelle von pA(X), also ist das Polynom pA(X) durch den
Linearfaktor X − λ teilbar. Ist λ eine k−fache Nullstelle von pA(X), dann ist pA(X) teilbar
durch (X − λ)k ⇒ pA(X) = (X − λ)k · q(X).
Satz 19.10 Vielfachkeit eines Eigenwertes
(i) Die algebraische Vielfachheit des EW λ von A ist die Anzahl der Linearfaktoren (X−λ)
im charakteristischen Polynom pA(X). Symbolisch:
algebraische Vielfachheit von X ist
k ⇔ (X − λ)k/pA(X)⇔ pA(X) = (X − λ)k · q(X).
(ii) Die geometrische Vielfachheit des EW λ von A ist die Anzahl der zu λ l.u. EV. Sym-
bolisch:
geometrische Vielfachheit von λ ist r⇔ dim(EAλ ) = r
(iii) Die geometrische Vielfachheit eines EW von der Matrix A bzw. des Operators T ist
nicht großer als seine algebraische Vielfachheit.
141
Beweis: Sei r die geometrische Vielfachheit des EW λ von f ⇒ dim(Eλ) = r ⇒ ∃r l.u. EV
{x1, . . . , xr} zum EW λ. Nach dem Basiserganzungssatz kann man sie zu einer Basis von V
erganzen:
V =< x1, . . . , xr, w1, . . . , wn−r > .
Bezuglich dieser Basis gilt:
f(x1) = λx1
f(x2) = λx2
...
f(xr) = λxr
f(wi) = ai1x1 + . . . + airxr + air+1w1 + . . . + ainwn−r i = 1, . . . , n− r
Die Matrixdarstellung von f sieht daher folgend aus:
[f ] = M =
λ 0 0
0... 0 A
0 0 λ
O B
Damit ist:
pM (X) = |M − XIn| =
∣∣∣∣∣∣∣∣∣λ−X
. . .
λ−X
∣∣∣∣∣∣∣∣∣ · |B − XIn−r| = (λ − X)r · |B − XIn−r| ⇒
(λ−X)r/pM (X)⇒ (X − λ)r/pM (X).
Ist k die algebraische Vielfachheit von λ⇒ pM (X) = (X −X)k · q(X)⇒ r ≤ k.
Das folgende Beispiel soll zeigen, daß jedes normierte Polynom bis auf das Vorzeichen als cha-
rakteristisches Polynom einer Matrix auftreten kann.
142
Beispiel: a0, a1, . . . , an−1 ∈ K = IR, IC.
Die Matrix F ∈ Kn·n der folgenden Form heißt FROBENIUS–Matrix.
F :=
0 1 0 . . . 0
0 0 1 . . . 0
0 0 0 . . . 1
−a0 −a1 −a2 . . . −an−1
(Manchmal ist sie auch transponiert definiert).
Das charakteristische Polynom pF (x) = (−1)n(a0 + a1x + a2x2 + . . . + an−1x
n−1 + xn) und ist
λ ein EW von F , dann ist
~x = (1λ, λ2, . . . , λn−1)
zugehoriger EV.
Wegen rg(F − λIn) = n− 1 ist die geometrische Vielfachheit eines jeden EW (unabhangig von
der algebraischen Vielfachheit) stets 1.
pf (X) =
∣∣∣∣∣∣∣∣∣∣∣∣
−1 1 0 . . . 0 0
0 −x 1 . . . 0 0
0 0 0 . . . −x 1
−a0 −a1 −a2 . . . −an−2 −an−1
∣∣∣∣∣∣∣∣∣∣∣∣= Entwicklung nach der letzten Zeile
= (−1)n+1(−a0) + (−1)n+2(−a1)(−x) + (−1)n+3(−a2)(−x2) + . . . +
+ (−1)2n−1(−an−2)(−x)n−2 + (−1)2n(−an−1 − x)(−x)n−1 =
= (−1)n (a0 + a1x + . . . + an−1xn−1 + xn)︸ ︷︷ ︸
f(x)∈K[x]
.
Zu jeden normierten Polynom f(x) ∈ K[x] gibt es eine Matrix, namlich die FROBENIUS–
Matrix aus den Koeffizienten des normierten Polynoms, das bis auf das Vorzeichen f(x) als
charakteristisches Polynom besitzt.
f(x) = x3 − 5x2 + 3x + 2⇔ Af =
0 1 0
0 0 1
−2 −3 5
Die Begleitmatrix Af eines normierten Polynoms f(x) = a0 + a1x + . . . + an−1x
n−1 + xn ist
die Frobenius–Matrix seiner Koeffizienten.
143
19.3 Eigenwerte und Eigenvektoren spezieller Matrizen
Satz 19.11 Eigenwerte von speziellen Matrizen
A,B seien quadratische n× n−Matrizen, T : V → V linear, dim(V ) = n
(i) AB und BA haben dieselben EW.
(ii) Die Transponier At hat dieselben EW wie W .
(iii) Die Eigenwerte einer Dreiecksmatrix sind die Elemente in der Hauptdiagonale.
(iv) Die Eigenwerte einer Blockdiagonalmatrix bzw. einer Block-Dreiecksmatrix (blocktrian-
gulare Matrix) sind die Eigenwerte der Matrizen in der Hauptdiagonalen.
(v) Eine hermitesche Matrix (A∗ = A) hat nur reelle Eigenwerte. Insbesondere sind alle
Eigenwerte einer symmetrischen Matrix reell.
(vi) Eine schiefhermitesche Matrix (A∗ = −A) hat nur rein imaginare Eigenwerte.
(vii) Eine unitare Matrix (A∗ = A−1) hat nur Eigenwerte mit Betrag 1, also nur EW der
Form: (λ = eiϕ cos ϕ + i sinϕ). Insbesondere hat eine orthogonale Matrix nur ±1 als
Eigenwerte.
(viii) Ist A eine regulare Matrix, dann hat A∗A nur positive, reelle Eigenwerte.
Beweis:
(i) 1. Sei λ = 0 ein EW von AB ⇔ AB singular ⇔ A oder B singular (weil das Produkt von regularen
Matrizen wieder regular ist) ⇔ BA singular ⇔ λ = 0 ist auch EW von BA.
2. Sei λ 6= 0 ein EW von AB ⇒ ∃~x 6= ~0 : AB~x = λ~x. Wir setzen mit diesem ~x : ~y := B~x. Dafur gilt:
A~y = A(B~x) = (AB)~x = λ~x 6= ~0 (weil λ 6= ~0 ∧ ~x 6= 0) ⇒ ~y = ~0 (sonst ware A~y = ~0). Dieses ~y 6= ~0 ist
EV von BA zum EW λ, denn: (BA)~y = BAB~x = B(AB~x) = B(λ~x) = λ(B~x) = λ~y. Also ist λ EW
von BA. Analog ist jeder von Null verschiedene EW von BA auch EW von AB.
(ii) At und A haben dieselben charakteristischen Polynome, denn: (A −XIn)t = At −XItn = At −XIn. Da
die Determinante beim Transponieren gleich bleibt, gilt:
pA(X) = |A−XIn| = |(A−XIn)t| = |At −XIn| = pAt(X).
Damit haben At und A auch dieselben EW.
144
(iii) Die Matrix A−XIn ist wieder eine Dreiecksmatrix:
A−XIn =
0BBBBBB@a11 −X a12 a1n
0 a22 −X a2n
.... . .
...
0 0 . . . ann −X
1CCCCCCADamit ist pA(X) = |A−XIn| = (a11 −X)(a22 −X) . . . (ann −X) ⇒ die EW sind gegeben durch
a11, a22, . . . , ann.
(iv) Induktionsanfang:
M :=
0@ A1 B
0 A2
1A , A1, A2 quadratische Matrizen
pM (X) =
˛˛ A1 −XI B
A2 −XI
˛˛ = |A1 −XI| · |A2 −XI| nach S 311.2.
Durch Induktion zeigt man die Behauptung.
(v) Sei λ EW von A = A∗ mit EV ~x : A~x = λ~x.
Beweis mittels der Verschiebungsformel:
λ < ~x, ~x >=< λ~x, ~x >=< A~x, ~x >=< ~x, A∗A~x >=< ~x, λ~x >= λ < ~x, ~x >⇒ λ = λ ⇒ λ ∈ IR.
(vi) Beweis mittels der Verschiebungsformel: λ < ~x, ~x >=< λ~x, ~x >< A~x, ~x >=< ~x, A∗~x >=< ~x, (−A)~x >=
− < ~x, A~x >= −λ < ~x, ~x >⇒ λ = −λ ⇒ λ imaginar.
(vii) Sei λ EW von A mit A∗ = A−1 mit EV ~x 6= 0 : A~x = λ~x.
λλ < ~x, ~x >=< λ~x, λ~x >=< A~x, A~x >=< ~x, A∗A~x >=< ~x, A−1A~x >=< ~x, ~x >.
Wegen < ~x, ~x > 6= 0 gilt damit λλ = 1 ⇒ |λ| = 1.
(viii) Sei ~x 6= ~0 EV von A∗A zum EW λ. Dann ist auch A~x 6= ~0 (sonst ware A singular), daher ist < A~x, A~x >
großer als 0.
λ < ~x, ~x >=< λ~x, ~x >=< A∗A~x, ~x >=< A~x, A~x >.
Weil < ~x, ~x > und < A~x, A~x > beide positive sind, ist auch λ positiv.
Satz 19.12 Lineare Unabhangigkeit von Eigenvektoren
T : V → V , linear, dim(V ) = n.
A sei eine quadratische n× n−Matrix.
(i) Eigenvektoren von T zu verschiedenen Eigenwerten sind l.u.
(ii) Eigenvektoren zu verschiedenen Eigenwerten einer hermiteschen (symmetrischen)
Matrix stehen orthogonal aufeinander.
(iii) Eine reelle, symmetrische Matrix hat mindestens einen reellen Eigenvektor!
145
Beweis:
(i) λ1, . . . , λm seien paarweise verschiedene EW von T (d.h., λi 6= λj fur i 6= j) und x1, . . . , xm die dazu-
gehorigen EV. Beweis durch vollstandige Induktion nach m:
m = 1 : x1 6= 0 als EV ⇒ x1 l.u.
Seien {x1, . . . , xr} l.u., dann sind auch {x1, . . . , xr+1} l.u.
Sei k1x1 + . . . + krxr + kr+1 + xr+1 = 0. (28)
a) Multiplikation von (28) mit λr+1 ergibt:
λr+1k1x1 + . . . + λt+1krxr + λr+1kr+1xr+1 = 0 (29)
b) Anwenden von T auf (28) ergibt:
T (k1x1 + . . . + krxr + kr+1xr+1 = T (0) = 0
k1T (x1) + . . . + krT (xr) + kr+1T (xr+1) = 0
k1λ1x1 + . . . krλrxr + kr+1λr+1xr+1 = 0 (30)
Subtrahiert man (29) von (30), so erhalt man (die letzten Summanden sind gleich und fallen weg):
k1(λ1 − λr+1)x1 + . . . + kr(λr − λr+1)xr = 0.
Weil {x1, . . . , xr} l.u. ⇒ ki(λi − λr+1) = 0 i = 1, . . . , r ⇒ ki = 0 fur i = 1, . . . , r, weil λi − λr+1 6= 0
nach Voraussetzung.
Aus (28) folgt dann: kr+1xr+1 = 0. Wegen xr+1 6= 0 (als EV) muß kr+1 = 0 sein. Damit ist (28) nur
moglich, wenn alle Koeffizienten ki = 0(i = 1, . . . , r + 1) ⇒ {x1, . . . xr, xr+1} l.u.
(ii) Sei A ~x1 = λ1 ~x1 und A ~x2 = λ2 ~x2 mit λ1 6= λ2 und At = A ⇒< A~x, ~y >=< x, A~y > (Verschiebungsformel).
Damit ist λ1 < ~x1, ~x2 >=< λ1 ~x1, ~x2 >=< A ~x1, ~x2 >=< ~x1, A ~x2 >=< ~x1, λ2 ~x2 >= λ2 < ~x1, ~x2 >
⇒ (λ1 − λ2· < ~x1, ~x2 >⇒< ~x1, ~x2 >= 0 (weil λ1 − λ2 6= 0).
(iii) Eine reelle symmetrische Matrix hat nur reelle EW. Aus λ reell ⇒ A−λIn reell und singular ⇒ ∃~x ∈ IRn :
(A− λIn)~x = ~0 ⇒ ~x reeller EV.
Satz 19.13 Basen aus Eigenvektoren
(i) Hat ein linearer Operator T : V → V mit n = dim(V ) verschiedene EW, dann hat V eine
Basis aus Eigenvektoren.
(ii) Die Summe von Eigenraumen zu verschiedenen Eigenwerten ist eine direkte:
Eλ1 + . . . + Eλr = Eλ1 ⊕ . . .⊕ Eλr
146
Beweis:
(i) n verschiedene EW ⇒ n l.u. EV. Je n l.u. Vektoren bilden eine Basis.
(ii) Sei x1 + x2 + . . . + xr = x′1 + x′2 + . . . + x′r mit xi, x′i ∈ Eλi
(x1 − x′1) + (x2 − x′2) + . . . + (xr − x′r) = 0 (31)
Ware xi−x′i 6= 0, dann waren xi−x′i EV zu λi(i = 1, . . . , r). (31) ist eine nichttriviale Linearkombination,
die 0 ergibt, also waren xi − x′i l.a. EV zu den verschiedenen EW λi, Widerspruch.
Die Eigenschaft der Orthogonalitat der Eigenvektoren einer Matrix ist nicht nur eine Spezialitat
der symmetrischen Matrizen. Im folgenden werden wir sehen, daß sie allen jenen Matrizen A
zukommt, die mit ihrer Transponiert–Konjugierten A∗ vertauschbar sind, wie z.B.:
A =
1 i
1 2 + 1
A∗ =
1 1
−i 2− i
AA∗ =
1 i
1 2 + i
1 1
−i 2− i
=
2 2 + 2i
2− 2i 6
A∗A =
1 1
−i 2− i
1 i
1 2 + i
=
2 2 + 2i
2− 2i 6
Definition 19.4 Normale Matrizen
Eine quadratische Matrix A heißt normal, wenn sie mit ihrer Konjugiert–Transponierten A∗
vertauschbar ist. A normal ⇔ AA∗ = A∗A
Satz 19.14 Beispiele normaler Matrizen
Jede unitare (orthogonale), hermitesche (symmetrische) und jede schiefhermitesche Matrix ist
normal.
Beweis:
A unitar ⇒ AA∗ = AA−1 = A−1A = A∗A
A hermitesch ⇒ AA∗ = AA = A∗A
A schiefhermitesch ⇒ AA∗ = A(−A) = −AA = (−A)A = A∗A
147
Alle unsere bisherigen Typen von Matrizen sind also Spezialfalle von normalen Matrizen. Es
gibt aber auch andere normale Matrizen (auch im Reellen), die nicht vom obigen Typ sind, z.B.
A =
1 2
−2 1
⇒ A∗ = At =
1 −2
2 1
und AAt = AtA =
5 0
0 5
Satz 19.15 Eigenschaften normaler Matrizen
A sei eine normale n× n−Matrix uber K = IC bzw IR, λ ∈ K,~x ∈ Kn.
(i) A~x = ~0⇔ A∗~x = ~0
(ii) Mit A ist auch A− λIn normal
(iii) A~x = λ~x⇔ A∗~x = λ~x.
Jeder EV von A ist auch EV von A∗, allerdings zum konjugiert–komplexen EW (im Reellen
also wieder zum gleichen EW).
(iv) Eigenvektoren von normalen Matrizen zu verschiedenen Eigenwerten sind orthogonal.
Beweis:
(i) Es gilt: < A~x, A~x >=< A∗~x, A∗~x >. Nach der Verschiebungsformel gilt:
< A~x, A~x >=< ~x, A∗A~x >=< ~x, AA∗~x >=< A∗~x, A∗~x >.
Also ist A~x = ~0 ⇔< A~x, A~x >=< ~0,~0 >= 0 =< A∗~x, A∗~x >⇔ A∗~x = 0 wegen (S4).
(ii) (A− λIn)(A− λIn)∗ = (A− λIn)(A∗ − λIn) = AA∗ − λA∗ − λA + λλIn = A∗A− λA− λA∗ + λλIn
(A− λIn)∗(A− λIn) = (A− λIn)(A− λIn) = A∗A− λA− λA∗ + λλIn = AA∗ − λA− λA + lλIn.
(iii) Sei A~x = λ~x ⇒ (A− λIn)~x = 0 ⇒ (wegen der Normalitat von A− λIn und (i))
(A∗ − λIn)~x = ~0 ⇒ A∗~x = λ~x.
(iv) Sei A ~x1 = λ ~x1 und A ~x2 = λ2 ~x2 mit λ1 6= λ2.
λ1 < ~x1, ~x2 >=< λ ~x1, ~x2 >=< A ~x1, ~x2 >=< ~x1, a∗ ~x2 >=< ~x1, λ2 ~x2 >= λ2 < ~x1, ~x2 >= λ2 < ~x1, ~x2 >.
Dann ist:
λ1 < ~x1, ~x2 > −λ2 < ~x1, ~x2 >= 0 ⇒ (λ1 − λ2)· < ~x1, ~x2 >= 0. Wegen λ1 6= λ2 ist dann < ~x1, ~x2 >= 0 ⇒
~x1 ⊥ ~x2.
148
Zusammenfassung der bisherigen Typen von quadratischen Matrizen:
Tabelle verschiedener quadratischer Matrizen A
Bezeichnung Definition Besonderheiten
A normal A∗A = AA∗ orthogonale EV zu verschiedenen EW
A symmetrisch At = A nur reelle EW
A hermitesch A∗ = A nur reelle EW
A schiefhermitesch A∗ = −A nur imaginare EW
A schiefsymmetrisch At = A−1 nur imaginare EW
A orthogonal At = A−1 nur ±1 als EW
A unitar A∗ = A−1 nur EW vom Betrag 1: λ = cos ϕ + i sinϕ
149
20 Linearitat in Skalarproduktraumen
Lineare Abbildungen sind vertraglich mit den Vektorraumoperationen. In Skalarproduktraumen
(V,<, >) wird man daruber hinaus an solchen Abbildungen interessiert sein, die zusatzlich noch
das Skalarprodukt respektieren bzw. eine “Verschiebungsformel” wie bei Matrizen erlauben. Da-
mit erhalt man weitere Losbarkeitsbedingungen fur lineare Operatorgleichungen.
20.1 Orthogonale und unitare Abbildungen
Es werden jene aus der Anschauung bekannten Abbildungen auf abstrakte Skalarproduktraume
verallgemeinert, die Abstand und Winkel invariant lassen, wie z.B. Drehungen und Spiegelungen.
Leider haben sie uber komplexe bzw. reelle Vektorraume ganzlich verschiedene Namen.
Definition 20.1 Orthogonale bzw. unitare Abbildungen
(V,<, >) und (W,<,>) seien Skalarproduktraume uber K, K = IR oder K = IC.
Eine orthogonale (unitare) Abbildung ist eine lineare Abbildung f : (V,<, >) → (W,<,>),
die das Skalarprodukt invariant laßt:
f orthogonal (unitar) ⇔< f(x), f(y) >=< x,y >
Bemerkung: Das Wort unitar wird nur bei Verwendung von komplexen Zahlen benutzt. Ver-
wendet man nur reelle Zahlen, spricht man von orthogonal.
Beispiel: Der durch eine orthogonale (unitare) Matrix A induzierte Operator
TA : IRn → IRn(ICn → ICn) mit TA(~x) = A · ~x ist ein orthogonaler (unitarer) Operator. Nach ??
(iv) gilt namlich: < A(~x), A(~y) >=< A~x, A~y >=< ~x, ~y >.
Beispiel: Die Drehungen um ±90◦,±180◦,±270◦ um den Ursprung 0 sind orthogonal.
Satz 20.1 Eigenschaften von orthogonalen (unitaren) Abbildungen
(i) Orthogonale (unitare) Abbildungen sind stets injektiv. Damit: Orthogonale (unitare) Ab-
bildungen von endlich–dimensionalen Vektorraumen sind stets Isomorphismen.
(ii) f orthogonal (unitar) ⇔ ‖f(x)‖ = ‖x‖. Orthogonale (unitare) Abbildungen f lassen die
Norm unverandert. Orthogonale Abbildungen lassen damit auch Winkel invariant.
150
(iii) f : V → W ist genau dann orthogonal (unitar), wenn das Bild einer ON–Basis wieder
eine ON–Basis ist.
f orthogonal ⇔ ((e1, . . . , en) ON–Basis ⇒ (f(e1), . . . , f(en)) ON–Basis)
(iv) f : V → W ist genau dann orthogonal (unitar), wenn die Matrixdarstellung [f ] von f
bezuglich ON–Basen eine orthogonale (unitare) Matrix ist.
f orthogonal (unitar) ⇔ [f ] orthogonal (unitar).
(v) Die Determinante eines orthogonalen (unitaren) Operators hat stets den Betrag 1:
det(f) = ±1 im Reellen bzw. |det(f)| = 1 im Komplexen.
Beweis:
(i) Sei x ∈ ker(f) ⇔ f(x) = 0 ⇒< x, x >=< f(x), f(x) >=< 0, 0 >= 0 ⇒ x = 0.
(ii) ‖f(x)‖2 < f(x), f(x) >=< x, x >= ‖x‖2
cos < (f(x), f(y)) = <f(x),f(y)>‖f(x)‖·‖f(y)‖ = <x,y>
‖x‖·‖y‖ = cos < (x, y)
(iii) 1. Sei f orthogonal (unitar) ⇒< f(ei), f(ej) >=< ei, ej >= δij
2. Sei < f(ei), f(ej) >= δij ⇒ fur x =P
λiei und y =P
µiei gilt:
< f(x), f(y) >=< f(P
i λiei), f(P
j µjej) >=P
i,j λiµj < f(ei), f(ej) >=
=P
i,j λiµjδij =P
i,j λiµj < ei, ej >=<P
i λiei,P
j µjej >=< x, y >
(iv) Bezuglich ON–Basen gilt:
< x, y > = [y]∗[x]
< f(x), f(y) = [f(y)]∗[f(x)]
Aus < f(x), f(y) = < x, y > folgt dann:
[f(y)]∗[f(x)] = [y]∗[x], also
([f ][y])∗([f ][x]) = [y]∗[x]
y∗([f ]∗[f ])[x] = [y]∗In[x] ∀x, y,
insbesondere fur die Basisvektoren, daher ist:
[f ]∗[f ] = In ⇒ [f ] ist unitar
Ist umgekehrt [f ] unitar bezuglich einer ON–Basis:
< f(x), f(y) = [f(y)]∗[f(x)] = ([f ][y])∗([f ][x]) = [y]∗([f ]∗[f ])[x] = [y]∗In[x] = [y]∗[x] =
< x, y >, also ist f unitar.
(v) det(f) = det([f ]). Da [f ] unitar ist, folgt die Behauptung aus Kapitel ?? (5).
151
Definition 20.2 Spezielle orthogonale Abbildungen
Die Menge der orthogonalen (unitaren) Isomorphismen eines Skalarproduktraumes V wird mit
O(V ) bzw. U(V ) bezeichnet. Statt O(IRn) schreibt man kurz O(n), analog U(n). Orthogonale Iso-
morphismen bzw. orthogonale Matrizen mit Determinante +1 heißen auch spezielle orthogonale
Abbildungen bzw. Matrizen, bezeichnet mit O+(n) bzw. O+(V )).
Satz 20.2 Die orthogonale Gruppe
(i) O(V ) bzw. U(V ) bildet bezuglich der Hintereinanderausfuhrung eine Gruppe:
Sie heißt die orthogonale (unitare) Gruppe.
(ii) O+(n) bzw. O+(V ) bildet eine Untergruppe von O(n) bzw. O(V ) bezuglich ◦.
O+(n) C O(n);O+(V ) C O(V )
Beweis: (i) Produkt und Inverse von orthogonalen (unitaren) Abbildungen sind wieder orthogo-
nal (unitar):
< (f ◦ g)(x), (f ◦ g)(x) >=< f(g(x)), f(g(y)) >=< g(x), g(y) >=< x, y >.
Sei f−1(x) = x′ ⇔ f(x′) = x
< f−1(x), f−1(y) >=< x′, y′ >=< f(x′), f(y′) >=< x, y >.
(ii) gilt nach dem Produktsatz fur Determinanten.
20.2 Adjungierte Abbildungen
Der 4–Teilraumesatz fur Matrizen, eine Folgerung aus der Verschiebungsformel, hat sich fur li-
neare Gleichungssysteme als ein wichtiges Werkzeug erwiesen. Da nun lineare Abbildungen ver-
allgemeinerte Matrizen sind, versucht man, die Verschiebungsformel fur Matrizen < A~x, ~y >=<
~x,A∗~y > auf lineare Abbildungen zu verallgemeinern. Die der konjugiert–transponierten Matrix
A∗ (nicht der adjungierten Matrix Xadj!) entsprechenden Abbildung heißt die adjungierte Abbil-
dung. Dadurch erhalt man einen entsprechenden 4–Teilraume–Satz fur lineare Operatoren und
damit ein wichtiges Werkzeug zur Untersuchung von linearen Operatorgleichungen in Skalarpro-
duktraumen. Durch das Verhalten beim Ubergang T → T ∗ konnen weiters spezielle Operatoren
charakterisiert werden. Zum Schluß zeigen wir, daß dem Adjungieren der Operatoren das Kon-
jugieren der komplexen Zahlen entspricht.
152
Beispiel:
Gegeben sei T : IC3 → IC3 mit
T (x1, x2, x3) = (2x1 + ix2, x2 − 5ix3, x1 + (1− i)x2 + 3x3)
Dazu definieren wir einen Operator T ∗ auf folgende Art und Weise:
1. Berechne die Matrixdarstellung [T ] bezuglich einer ON–Basis.
2. Bilde die Konjugiert–Transponierte [T ]∗.
3. T ∗ sei nun jener Operator, der [T ]∗ als Matrixdarstellung besitzt:
[T ]St =
2 i 0
0 1 −5i
1 1− i 3
⇒ [T ]∗St =
2 0 1
−i 1 1 + i
0 5i 3
Damit ist T ∗ = IC3 → IC3 mit
T ∗(x1, x2, x3) = (2x1 + x3,−ix1 + x2 + (1 + i)x3, 5ix2 + 3x3)
Fur das so definierte T ∗ gilt die Verschiebungsformel
< T (~x), ~y >=< ~x, T ∗(~y) >:
< T (~x), ~y >=<
2x1 + ix2
x2 − 5ix3
x1 + (1− i)x2 + 3x3
,
y1
y2
y3
>=
= 2x1y1 + 2x2y1 + x2y2 − 5ix3y2 + x1y3 + (1− i)x2y3 + 3x3y3
< ~x, T ∗(~y) >=<
x1
x2
x3
,
2y1 + y3
−iy1 + y2 + (1 + i)y3
5iy2 + 3y3
>=
= 2x1y1 + x1y3 + ix2y1 + x2y2 + (1− i)x2y3 − 5ix3y2 + 3x3y3
Es ist: < T (~x)~y >=< ~x, T ∗(~y) >.
153
Definition 20.3 Die Adjungierte einer linearen Abbildung
f : V →W sei eine lineare Abbildung der Skalarproduktraume V in W .
Die Adjungierte f∗ von f ist jene Abbildung f∗ : W → V , fur die die Verschiebungsformel
< f(x),y >=< x, f∗(y) > ∀x ∈ V und ∀y ∈W
gilt.
Satz 20.3 Existenz und Eindeutigkeit der Adjungierten
f : V →W , linear und f∗ : W → V sei die zu f adjungierte Abbildung.
(i) Falls eine lineare Abbildung f eine Adjungierte f∗ besitzt, ist sie eindeutig bestimmt.
(ii) Die Adjungierte f∗ von f ist wieder eine lineare Abbildung, und zwar von W in V .
(iii) Zwischen endlich–dimensionalen Vektorraumen existiert zu jeder linearen Abbildung f
stets die dazu Adjungierte f∗ : f∗ ist die von der Matrix [f ]∗ induzierte lineare Abbil-
dung, wobei [f ] die Matrixdarstellung von f bezuglich einer ON–Basis ist.
(iv) In unendlich–dimensionalen Vektorraumen muß es keine Adjungierte geben.
Beachte: Bei f∗ sind Definitions– und Wertemenge gegenuber f vertauscht.
Beweis:
Wir werden im folgenden oft folgende Eigenschaft des Skalarproduktes verwenden:
Ist < x,A >=< x,B > ∀x⇒ A = B :
< x, A >=< x, B >⇒< x, A > − < x, B >= 0⇒< x, A−B >= 0∀x⇒ A−B = 0⇒ A = B
(i) Seien f∗ und f ′ zwei Adjungierte, dann gilt:
< f(x), y >=< x, f∗(y) >=< x, f ′(y) > ∀x, y ⇒ f∗(y) = f ′(y)∀y ⇒ f∗ = f ′.
(ii) < f(x), λ1y1 + λ2y2 >=< x, f∗(λ1y1 + λ2y2) > und
< f(x), λ1y1 + λ2y2 >= λ1 < f(x), y1 > +λ2 < f(x), y2 >=
= λ1 < x, f∗(y1) > +λ2 < x, f∗(y2) >=< x, λ1f∗(y1) + λ2f
∗(y2) >.
Damit ist
< x, f∗(λ1y1 + λ2y2) >=< x, λ1f∗(y1) + λ2f
∗(y2)∀x ∈ V ⇒
f∗(λ1y1 + λ2y2) = λ1f∗(y1) + λ2f
∗(y2) ⇒ f∗ ist linear
154
(iii) Sei f∗ : W → V mit [f∗] = [f ]∗ bezuglich ON–Basen. Fur diese Abbildung f∗ gilt die Verschiebungsformel
(beachte die Definition der Matrixdarstellung [f ] : [f(x)] = [f ][x]).
< f(x), y > = [y]∗[f(x)] = [y]∗[f ][x]
< x, f∗(y) > = [f∗(y)]∗[x] = ([f ]∗[y])∗[x] = [y]∗[f ][x]
Beachte: Ist [f ] die Matrixdarstellung von f bezuglich einer ON–Basis, dann ist die Ma-
trixdarstellung von f∗ bezuglich einer ON–Basis gegeben durch die Konjugiert–Transpo-
nierte von [f ]: [f∗] = [f ]∗.
(iv) Gegenbeispiel: V = P [x], < f, g >=R 1
0f(x)g(x)dx.
D sei der Differentialoperator auf P [x] : D(f(x)) = f ′(x).
D hat keine Adjungierte D∗, d.h.:
< D(f), g >=R 1
0f ′ · gdt 6=
R 1
0fg′dt =< f, D(g) >.
Satz 20.4 Algebraische Eigenschaften der Adjungierten
S und T seien lineare Operatoren auf V, λ ∈ K = IR, IC. Dann gilt:
(i) (S + T )∗ = S∗ + T ∗ (ii) (λT )∗ = λT ∗
(iii (ST )∗ = T ∗S∗ (iv) (T ∗)∗ = T
Beweis:
(i)
< (S + T )(x), y > = < S(x) + T (x), y >=< S(x), y > + < T (x), y >=
= < x, S∗(y) > + < x, T ∗(y) >=< x, (S∗ + T ∗)(y) > ∀x, y.
S∗ + T ∗ besitzt die Adjungierteneigenschaft von (S + T ), weil diese eindeutig bestimmt ist, ist S∗ + T ∗ die
Adjungierte von S + T , also (S + T )∗ = S∗ + T ∗
(ii)
< T ∗(x), y > = < x, (T ∗)∗(y) > und
< T ∗(x), y > = < y, T ∗(x) > = < T (y), x > = < x, T (y) > =< x, T (y) >
Also ist: < x, (T ∗)∗(y) >=< x, T (y) > ∀x, y ⇒ (T ∗)∗(y) = T (y)∀y ⇒ (T ∗)∗ = T
Mittels der Adjungierten laßt sich nun auch der Vier–Teilraumesatz fur Matrizen auf lineare
Abbildungen verallgemeinern:
155
Satz 20.5 Vier–Teilraume–Satz fur lineare Operatoren
f : V →W sei eine lineare Abbildung zwischen endlichdimensionalen Vektorraumen.
(i) [im(f)]⊥ = ker(f∗) (ii) im(f) = (ker(f∗))⊥
(iii) [ker(f)]⊥ = im(f∗) (iv) ker(f) = [im(f∗)]⊥
Beweis wie fur Matrizen.
Zusammen mit dem Dimensionssatz kann man damit die Ranggleichheit von f auf f∗ zeigen.
Dies stellt die Verallgemeinerung der Eigenschaft des gleichen Zeilen– und Spaltenranges dar.
Satz 20.6 Ranggleichheit von f und f∗
In endlich–dimensionalen Vektorraumen haben f : V →W und f∗ : W → V denselben Rang.
Beweis:
rg(f) = dim(im(f)) = dim[(ker(f∗))]⊥ = dim(W )− dim(ker(f∗)) = dim(im(f∗)) = rg(f∗).
Der Vier–Teilraume–Satz gilt nicht ganz in unendlich–dimensionalen Vektorraumen, wohl aber:
Satz 20.7 Orthogonalitat von Bild und Kern
f : V →W sei linear und besitze eine Adjungierte f∗ : W → V .
(i) im(f) ⊥ ker(f∗) (ii) ker(f) ⊥ im(f∗)
Beweis:
Sei y ∈ im(f) und W ∈ ker(f∗) ⇒ ∃x ∈ V : y = f(x). Dann ist
< y, w >=< f(x), w >=< x, f∗(w) >=< x, 0 >= 0 ⇒ im(f) ⊥ ker(f∗). Analog folgt (ii).
Damit kann man auch in unendlich–dimensionalen Vektorraumen Losbarkeitsbedingungen fur
lineare Operatorgleichungen angeben:
inhomogene lineare Operatorgleichung: f(x) = y (I)
homogene adjungierte Operatorgleichung: f∗(u) = 0 (H∗)
Satz 20.8 Losbarkeitsbedingungen fur Operatorgleichungen
f : V →W sei linear und habe eine Adjungierte f∗.
(i) f(x) = y hat nur dann eine Losung, wenn y ⊥ ker(f∗).
Sind V,W endlich–dimensional, dann gilt sogar:
(ii) f(x) = y hat genau dann eine Losung, wenn y auf jede Losung von f∗(u) = 0 steht.
Also: (I) losbar ⇔ y ⊥ (H∗).
156
Beweis:
(i) f(x) = y hat Losung ⇔ y ∈ im(f) ⊥ ker(f∗) nach (20.7 (i)).
(ii) (I) losbar ⇔ y ∈ im(f) = [ker(f∗)]⊥ nach (20.7 (ii)).
So wie fur quadratische Gleichungssysteme gilt auch fur lineare Operatoren T : V → V (aller-
dings nur in endlich–dimensionalen Skalarproduktraumen) die FREDHOLM–Alternative, wenn
folgende Bezeichnungen eingefuhrt werden:
T (x) = y (I) inhomogene Operatorgleichung
T (x) = 0 (H) dazugehorige homogene Operatorgleichung
T ∗(u) = v (I∗) inhomogene adjungierte Operatorgleichung
T ∗(u) = 0 (H∗) dazugehorige homogene adjungierte Operatorgleichung
Satz 20.9 FREDHOLMsche Alternative fur Operatorgleichungen
Entweder sind (H) und (H∗) nur trivial losbar, wobei dann (I) und (I∗) eindeutig losbar sind
oder (H) und (H∗) haben beide nichttriviale Losungen, wobei dann (I) genau dann losbar ist,
wenn y auf alle Losungen von (H∗) orthogonal steht
und (I∗) genau dann losbar ist, wenn v auf alle Losungen von (H) orthogonal steht.
Beweis:
Aus rg(f) = rg(f∗) folgt nach dem Dimensionssatz def(f) = def(f∗) ⇒ (H) und (H∗) haben beide keine
nichttrivialen Losungen oder beide haben nichttriviale Losungen. Das andere folgt aus (20.7).
20.3 Normale Operatoren
Mit Hilfe der Adjungierten konnen nun verschiedene Klassen von linearen Operatoren
T : V → V charakterisiert (= definiert) werden. So gilt z.B. fur unsere orthogonalen (unitaren)
Operatoren aus 20.1 in der “Sprache der Adjungierten”:
T unitar ⇔< T (x), T (y) >=< x, y >.
Wegen < T (x), T (y) >=< x, T ∗T (y) > ist dies gleichbedeutend mit:
T unitar ⇔< x, (T ∗T )(y) >=< x, y >⇔
< x, (T ∗T )(y) >=< x, id(y) > ∀x, y ⇔ (T ∗T )(y) = id(y)∀y ⇔ T ∗T = id⇔ T∗ = T−1
T unitar bedeutet also in der Sprache der adjungierten Abbildung T ∗ :
T unitar ⇔ T ∗ = T−1 (T−1 existiert, weil unitare Abbildungen stets invertierbar sind.)
Genauso werden wir in 20.4 mittels der Adjungierten T ∗ weitere Operatoren definieren.
157
Da weiters die Matrixdarstellung vertraglich bezuglich den Rechenoperationen ist, (bezuglich
einer ON–Basis gilt auch (siehe 20.1(iii)) [T ∗] = [T ]∗ ) fur ON–Basen:
T unitar ⇔ [T ∗] = [T−1]⇔ [T ]∗ = [T ]−1 ⇔ [T ]∗[T ] = In ⇔ [T] unitar.
Bezuglich ON–Basen ist also die Matrixdarstellung vom selben Typ (namlich unitar) wie die Ab-
bildung. Dieses Verhalten werden wir auch bei den folgenden Abbildungen beobachten konnen.
Definition 20.4 Charakterisierung von Operatoren
(V,<>) sei ein n−dimensionaler Skalarproduktraum uber K = IR, IC.
Name ⇔ Verhalten bei ⇔ Matrixdarstellung
Adjungation bez. einer ON–Basis
T normal TT ∗ = T ∗T [T ] normal
T unitar T ∗ = T−1 [T ] unitar
T orthogonal T t = T [T ] orthogonal
T selbstadjungiert T ∗ = T [T ] hermitesch
(hermitesch in IC (symmetrisch)
symmetrisch in IR T t = T
T schiefadjungiert T ∗ = −T [T ] schiefsymmetrisch
schiefhermitesch in IC
schiefsymmetrisch in IR T t = −T
T positiv definit ∃ regulares S mit [T ] positiv definit
T = S∗S
T positiv semidefinit ∃S : T = S∗S [T ] positiv semidefinit
Diese Tabelle ist folgend zu lesen:
Ein Operator T : V → V heißt normal, wenn er mit seiner Adjungierten vertauschbar ist. T ist
genau dann normal, wenn seine Matrixdarstellung bezuglich einer ON–Basis normal ist.
Bemerkung: Alle aufgezahlten Typen sind normale Operatoren. Positiv (semi) definite Ope-
ratoren und orthogonale Projektionen sind sogar Sonderfalle von selbstadjungierten Operatoren
(siehe 20.10) und (20.14 (i)).
158
Damit ergibt sich folgende Hierarchie:
Satz 20.10 Charakterisierungen von positiven Operatoren
(i) Folgende Bedingungen sind aquivalent:
a) P = T 2 fur irgendeinen selbstadjungierten Operator T
b) P = S∗S fur irgendeinen Operator S
c) P ist selbstadjungiert und < P (x), x >≥ 0 ∀x ∈ V .
(ii) a) P = T 2 fur irgendeinen regularen selbstadjungierten Operator T
b) P = S∗S fur irgendeinen regularen Operator S
c) P ist selbstadjungiert und < P (x), x > 0 ∀x ∈ V .
Beweis: (a) ⇒ (b) ⇒ (c) ⇒ (a)
a) ⇒ b): Sei P = T 2 mit T = T ∗ ⇒ P = TT = T ∗T, also gilt b) mit S = T
b) ⇒ c): P = S∗S ⇒ P ∗ = S∗(S∗)∗ = S∗S = P ⇒ P selbstadjungiert
< P (x), x >=< (S∗S)(x), x >=< S(x), S(x) ≥ 0
c) ⇒ a): Wir werden in Satz 21.8 zeigen:
Ist P selbstadjungiert, dann gibt es eine ON–Basis (e1, . . . , en) von V aus EV von P , also: P (ei) = λiei.
Nach Satz 19.11 (v) sind die λi reell. Mittels c) gilt:
λi ≥ 0, denn: 0 ≤< P (ei), ei >=< λiei, ei >= λi < ei, ei| {z }≥0
>. Damit ist√
λi ist eine reelle Zahl.
159
Es sei T definiert durch T (ei) =√
λiei i = 1, . . . , n. Nach dem Fortsetzungssatz ist T eindeutig festgelegt. T ist
selbstadjungiert, weil [T ] = diag(√
λ1, . . . ,√
λn). Weiters ist
T 2(ei) = T (T (ei)) = T (√
λiei) =√
λiT (ei) =√
λi
√λiei = λiei = P (ei),⇒ T 2 = P (Fortsetzungssatz).
T heißt auch die positive Quadratwurzel von P.
Damit kann man zeigen:
Satz 20.11 Produktdarstellung linearer Operatoren
T : V → V , V endlichdimensionaler Skalarproduktraum.
Zu jedem linearen Operator T existieren ein eindeutiger positiver Operator P und ein unitarer
(orthogonaler) Operator U mit
T = UP.
Ist T invertierbar, dann ist auch U eindeutig bestimmt.
Beweis fur invertierbares T : Nach 20.10 ist T ∗T ein positiver Operator⇒ ∃ positiven, selbstadjungierten Operator
P mit T ∗T = P 2.
‖P (x)‖2 =< P (x), P (x) >=< P 2(x), x >=< T ∗T (x), x >=< T (x), T (x) >= ‖T (x)‖2.
Wir setzen U := PT−1, dann ist U unitar:
U∗
= (PT−1)∗ = (T−1)∗P ∗ = (T ∗)−1P und
U∗U = (T ∗)−1PPT−1 = (T ∗)−1P 2T−1 = (T ∗)−1T ∗TT−1 = id.
Nun sei U := U−1 ⇒ U ist unitar und T = UP .
Dieser Satz zeigt eine gewisse Analogie zu den komplexen Zahlen:
z = reiϕ = r(cos ϕ + i sinϕ) r ≥ 0 = P
‖eiϕ| = | cos ϕ + sin ϕ| = 1 eiϕ = U
|U | = 1 z = T
Beobachtung: Die positiven Operatoren spielen die Rolle von positiven reellen Zahlen, die
unitaren die Rolle der komplexen Zahlen auf dem Einheitskreis.
Eine ahnliche Analogie zeigt auch folgender Satz:
160
Satz 20.12 Symmetrische Darstellung normaler Operatoren
T : V → V , V endlichdimensionaler Skalarproduktraum.
Zu jedem Operator T existieren hermitesche Operatoren A und B mit
T = A + iB und AB = BA.
Beweis: A := (T + T ∗)/2 und B = (T − T ∗)/2i
T = (T + T ∗)/2 + i(T − T ∗)/2i
A∗ = 12(T + T ∗)∗ = 1
2(T ∗ + T ∗∗ = 1
2(T ∗ + T ) = A
B∗ = 1−2i
(T − T ∗)∗ = − 12i
(T ∗ − T ∗∗) = 12i
(T − T ∗) = B
AB = 12(T + T ∗) 1
2i(T − T ∗) = 1
4i(T 2 + T ∗T − TT ∗ − T ∗2) =
= 14i
(T 2 − T ∗2) weil TT ∗ = T ∗T
BA = 12i
(T − T ∗) 12(T + T ∗) = 1
4i(T 2 − T ∗T + TT ∗ − T ∗2) =
= 14i
(T 2 − T ∗2).
Beobachtung: Die selbstadjungierten Operatoren spielen die Rolle von reellen Zahlen.
Damit konnen wir insgesamt folgende Analogien zwischen der Algebra der linearen Ope-
ratoren auf Skalarproduktraumen und dem Korper der komplexen Zahlen feststellen:
Hom(V, V )←→ IC
Verhalten bei Verhalten bei
IC Konjugation Hom(V, V ) Adjungation
z → z T → T ∗
Einheitskreis z = 1z = z−1 Unitare (orthogonale) T ∗ = T−1
|z| = 1 Operatoren
reelle Zahlen Selbstadjungierte
z = a z = z Operatoren T ∗ = T
(hermitesche Operatoren)
imaginare Achse Schiefadjungierte
z = bi z = −z Operatoren T ∗ = −T
(Schiefhermitesche)
Positive reelle Positiv definite T = S∗S
Halbachse z = ww,w 6= 0 Operatoren S regular
z ∈ (0,∞)
161
20.4 Projektionen und Orthogonalprojektionen
In diesem Kapitel werden die anschaulichen Begriffe Projektion und Orthogonalprojektion auf
abstrakte Vektorraume verallgemeinert und als idempotente bzw. selbstadjungierte lineare Abbil-
dungen “entlarvt”. Damit kann dann gezeigt werden, daß Projektionen als Bausteine beliebiger
Operatoren aufgefaßt werden konnen. Insbesondere konnen mit ihrer Hilfe Operatoren mit vor-
gegebenen EW und EV konstruiert werden!
Beispiel A Beispiel BV = U ⊕W
x = u + w mit u ∈ U und w ∈W
P (x) := u Q(x) := w
P : Projektion auf U in Richtung W
Die Projektion auf U in Richtung W gehtvon x aus parallel zu W auf U .Q: Projektion auf W in Richtung U
im(P ) = U ker(P ) = W
im(Q) = W, ker(P ) = U
rg(P ) = dim(U)rg(Q) = dim(W )P 2 = P,Q2 = Q: idempotentP,Q linearPQ = QP = 0 (Nullabbildung)P + Q = id
P Projektion auf U in Richtung W ⇔V = im(P )⊕ ker(P )V ist direkte Summe von Bild und Kernvon P
Also: Direkte Zerlegung von V ent-sprechen Zerlegungen der identischenAbbildung in vertauschbareProjektionen.
V = U©⊥ U⊥
x = u + u′ mit u ∈ U und u ∈ U⊥
P (x) := u Q(x) = u′
P : Orthogonalprojektion auf U in RichtungU⊥
Die Orthogonalprojektion auf U geht von x aussenkrecht auf UQ: Orthogonalprojektion auf U⊥ in Richtung U
U = im(P ) ⊥ im(Q) = U⊥
P 2 = P, Q2 = Q
P,Q linearPQ = QP = 0P + Q = id
P Orthogonalprojektion auf U ⇔V = im(P )©⊥ ker(P )V ist orthogonale Summe von Bild und Kern vonP .Also: Orthogonale Zerlegungen von Ventsprechen Zerlegungen der identi-schen Abbildung in vertauschbareOrthogonalprojektionen.
162
Definition 20.5 Projektionen
(i) U und W seien zwei direkte Komplemente von V . Die Projektion P : V → U auf U
in Richtung W ist jener Operator auf V , der jedem x ∈ V seine direkte Komponenten
bezuglich U zuordnet.
Symbolisch: Sei V = U ⊕W und x = u + w mit u ∈ U und w ∈W , dann ist P (x) := u.
(ii) Ist V ein endlichdimensionaler Skalarproduktraum, dann ist die orthogonale Projektion
auf U die Projektion in Richtung U⊥.
Bemerkung: Wegen der Direktheit der Summe ist u eindeutig bestimmt, daher ist P (x)
tatsachlich eine Abbildung. Wegen der Endlichdimensionalitat von V ist V = U ⊕ U⊥, also
eine Projektion in Richtung U⊥ moglich. Orthogonale Projektionen sind aber keine orthogona-
len Abbildungen! (Daraus sieht man wieder, wir unglucklich der Name “orthogonale Abbildung”
gewahlt wurde.)
Satz 20.13 Eigenschaften von Projektionen
U,W C V mit V = U ⊕W
P Projektion auf U in Richtung W, Q Projektion auf W in Richtung U .
(i) P ist linear
(ii) P ist idempotent, also P 2 = P
(iii) im(P ) = U, ker(P ) = W , also: V = im(P )⊕ ker(P )
(iv) Mit P ist auch id− P wieder eine Projektion und P (id− P ) = (id− P )P = 0
(v) ker(P ) = im(id− P ) und im(P ) = ker(id− P )
(vi) P singular ⇔ P 6= id, d.h., jede nichttriviale Projektion ist singular
(vii) P (x) = x ∀x ∈ im(P ), d.h., P ist auf im(P ) die identische Abbildung
(viii) PQ = QP = 0, d.h., P und Q sind vertauschbar
(ix) P + Q = id
163
Beweise:
(i) Sei x = u + w und y = u′ + w′ ⇒ x + y = (u + u′) + (w + w′) und λx = λu + λw ⇒ P (x + y) = u + u′ =
P (x) + P (y) und P (λx) = λu = λP (x)
(ii) P 2(x) = P (P (x)) = P (u) = u = P (x) ∀x ∈ V ⇒ P 2 = P
(iii) Sei u ∈ U ⇒ u = u + 0 mit 0 ∈ W ⇒ P (u) = u ⇒ u ∈ im(P ) ⇔ U ⊆ im(P )
Sei u ∈ im(P ) ⇒ ∃v ∈ V : P (v) = u ⇒ P (u) = P (P (v)) = P 2(v) = P (v) = u ⇒ u ∈ U ⇒ im(P ) ⊆ U ⇒
im(P ) = U
Sei w ∈ W ⇒ w = 0 + w mit 0 ∈ U ⇒ P (w) = 0 ⇒ w ∈ ker(P )
Sei y ∈ ker(P ) ⇒ P (y) = 0 ⇒ y = 0 + y mit y ∈ W ⇒ ker(P ) ⊆ W
Damit ist V = U ⊕W = im(P )⊕ ker(P )
(iv) id−p ist wieder linear. (id−p)(id−p) = id(id−p)−p(id−p) = id2−id ·p−p ·id+p2 = id−p−p+p = id−p
p(id− p) = p · id− p2 = p− p = 0
(id− p)p = id · p− p2 = p− p = 0
(v) x ∈ ker(p) ⇒ p(x) = 0 ⇒ (id− p)(x) = x− p(x) = x− 0 = x ⇒ x ∈ im(id− p)
x ∈ im(id− p) ⇒ ∃y : x = (id− p)(y) = y − p(y) ⇒ p(x) = p(y − p(y)) = p(y)− p2(y) =
p(y)− p(y) = 0 ⇒ x ∈ ker(p)
(vi) Ist ker(p) = {0} ⇔ im(id− p) = {0} ⇔ (id− p)(x) = 0∀x ∈ V ⇔ id(x)− p(x) = x− p(x) = 0
⇔ p(x) = x∀x ∈ V ⇔ p = id
(vii) Sei x ∈ im(p) ⇒ ∃y ∈ V : x = p(y) ⇒ p(x) = p(p(y)) ⇒ p(x) = p2(y) = p(y) = x
(viii) Q(x) ∈ W = ker(P ) nach (iii) ⇒ P (Q(x)) = 0 ⇒ PQ(x) = 0 ∀x ∈ V ⇒ PQ = 0
analog ist QP = 0
(ix) (P + Q)(x) = P (x) + Q(x) = u + w = x = id(x) ∀x ∈ V ⇒ P + Q = id
Definition 20.6 Projektion auf die i−te Koordinatenachse
Sei B = (b1, . . . , bn) eine Basis von V und x = k1b1 + . . . kibi + . . . + knbn.
Die Abbildung Pi : V → V mit Pi(x) := kibi heißt die Projektion auf die i–te Koordi-
natenachse.
Die Projektion Pi auf den i−ten Basisvektor ordnet jedem Vektor x die i−te Komponente
bezuglich B zu.
Wegen V =< b1 > ⊕ < b2 > ⊕ . . .⊕ < bn > sind diese Pi(i = 1, . . . , n) nach 20.13 Projektionen
auf < bi >, also Projektionen vom Rang 1 und P1 + P2 + . . . + Pn = id.
Anwendung: Konstruktion von Operatoren mit vorgegebenen EW λ1, . . . λr und da-
zugehorigen l.u. EV x1, . . . , xr.
164
Erganze (x1, . . . , xr) zu einer Basis B = (x1, . . . , xr+1, xr, . . . xn) und stelle x als Linearkombi-
nation der Basisvektoren dar: x =∑
i kixi von V .
Definiere Pi : V → V (i = 1, . . . , n) wie in Definition 20.6, also: Pi(x) := kixi und setze
P := λ1P1 + . . . + λnPn: V → V .
Fur dieses P gilt (wegen xi = 0 · x1 + . . . + 1 · xi + . . . + 0 · xn)
P (xi) = (λ1P1+. . .+λnPn)(xi) = λ1P1(xi)+. . .+λnPn(xr) = λ1 ·0+. . .+λi ·1·xi+. . .+λn ·0 =
= λixi, also ist xi EV von P zum EW λi.
Beispiel: Konstruiere in K3 einen Operator T , der ~x1 = (1, 2, 3) und ~x2 = (1, 0, 1) als EV zu
den EW λ1 = 6 λ2 = 2 besitzt.
1. Basis B vom K3 : B = ( ~x1, ~x2, (0, 0, 1))
2. Koordinaten des allgemeinen Vektors ~x = (x, y, z) bezuglich B:
1 1 0 x
2 0 0 y
3 1 1 z
1 1 0 x
0 −2 0 y − 2x
0 −2 1 z − 3x + 2x− y
1 1 0 x
0 2 0 2x− y
0 0 1 −x− y + z
2 2 0 2x
0 2 0 2x− y
0 0 1 −x− y + z
2 0 0 y
0 2 0 2x− y
0 0 1 −x− y + z
Also:
[x]B = (42 |
2x−y2 | − x− y + z)
3. Definition der P ′i s:
P1(x, y, z) = yz (1, 2, 3) =
(y2 , y, 3y
2
)P2(x, y, z) = 2x−y
2 (1, 0, 1) =(
2x−y2 |0|
2x−y2
)4. Definition von P := 6P1 + 2P2
P (x, y, z) = (3y, 6y, 9y) + (2x− y, 0, 2x− y) = (2x + 2y, 6y, 2x + 8y)
[P ]St =
2 2 0
0 6 0
2 8 0
165
Satz 20.14 Eigenschaften von Orthogonalprojektionen
V sei ein endlich–dimensionaler Skalarproduktraum, U C V .
(i) Jede Orthogonalprojektion P auf U ist selbstadjungiert.
(ii) im(P ) = U und ker(P ) = U⊥.
Beweis: Es ist V = U ⊕ U⊥
(i) Sei x = u1 + w1 mit u1 ∈ U, w1 ∈ U⊥ und
y = u2 + w2 mit u2 ∈ U, w2 ∈ U⊥. Dann gilt:
< P (x), y > = < u1, u2 + w2 >=< u1, u2 > + < u1, w2 >=< u1, u2 > +0 =< u1, u2 >
< x, P (y) > = < u1, w1, u2 >=< u1, u2 > + < w1, u2 >=< u1, u2 > +0 =< u1, u2 > .
(ii) gilt wegen V = U ⊕ U⊥.
Also: Der lineare Operator P : V → V ist Orthogonalprojektion ⇔ V ist orthogonale Summe
von im(P ) und ker(P ). Es ist dann P Orthogonalprojektion auf im(P ).
Aus 20.13 wissen wir, daß Projektionen linear und idempotent sind. Es gilt aber auch die Um-
kehrung:
Satz 20.15 Charakterisierung von Projektionen und Orthogonalprojektionen
(i) P : V → V ist Projektion auf im(P ) in Richtung ker(P )⇔ P ist linear und idempotent.
(ii) P : V → V ist Orthogonalprojektion auf im(P ) ⇔ P ist linear, idempotent und selbstad-
jungiert.
Also: die Projektionen sind genau die idempotenten linearen Abbildungen.
Die Orthogonalprojektionen sind genau die selbstadjungierten Projektionen.
Beweis:
Die Notwendigkeit folgt aus 20.13 und 20.14.
(i) Sei P linear und idempotent: P 2 = P und U := im(P ), W := ker(P ). Dann ist zu zeigen: V = U ⊕W .
1. Sei x ∈ V ⇒ x = P (x) + y mit y = x− P (x). Fur dieses y gilt:
P (y) = P (x− P (x)) = P (x)− P 2(x) = P (x)− P (x) = 0 ⇒ x ∈ W ⇒ V = U + W .
2. Sei x ∈ U ⇒ x ∈ U = im(P ) ⇒ ∃y ∈ V : x = P (y)
⇒ x ∈ W = ker(P ) ⇒ P (x) = 0 ⇒ P (P (y)) = 0 ⇒ P (y) = 0 ⇒
⇒ x = 0 ⇒ U ∩W = 0.
166
(ii) Sei P selbstadjungierte Projektion: P 2 = P und < P (x), y >=< x, P (y) >. Dann ist zu zeigen:
V = U©⊥ W mit U = im(P ), W = ker(P ). Sei x ∈ im(P ) und v ∈ ker(P ) ⇒ x = P (y) mit y ∈ V und
P (v) = 0 ⇒< x, v >=< P (y), v >=< y, P (v) >=< y, 0 >= 0 ⇒ U ⊥ W .
Zusammenfassung:
(i) Daß eine Abbildung P : V → V eine Projektion ist, kann man auf 2 Arten nachweisen:
1. P ist linear und
P ist idempotent⇔
2. P ist linear und
V = im(P )⊕ ker(P )
P ist dann Projektion auf im(P ) in Richtung ker(P ).
(ii) Daß eine Abbildung P : V → V eine Orthogonalprojektion ist, kann man auf 2 Arten
nachweisen.
1. P ist linear und
P ist idempotent und ⇔
P ist selbstadjungiert
2. P ist linear und
V = im(P )©⊥ ker(P )
P ist dann eine Orthogonalprojektion auf im(P ).
In Beispiel B galt fur P und Q: im(P ) ⊥ im(Q).
Im allgemeinen ist die Summe von zwei Orthogonalprojektionen keine solche mehr.
Definition 20.7 Orthogonale Mengen von Operatoren
a) Zwei Operatoren P,Q : V → V eines Skalarproduktraumes heißen ein orthogonales
Paar {P,Q} bzw. orthogonal zueinander, wenn gilt
(i) P,Q sind Orthogonalprojektionen
(ii) im(P ) ⊥ im(Q).
b) Eine Menge von Operatoren ist eine orthogonale Menge von Operatoren, wenn jedes
Paar ein orthogonales Paar ist. Fur ein orthogonales Paar {P,Q} gilt:
Satz 20.16 Summe von zwei Orthogonalprojektionen
(P,Q) sei ein orthogonales Paar von Orthogonalprojektionen. Dann gilt:
c) PQ = QP = 0 (Nullabbildung).
d) P + Q ist wieder eine Orthogonalprojektion.
167
Diese Eigenschaft ist auf endlich viele Summanden verallgemeinerbar.Beweis:
c) Ist x ∈ V ⇒ Q(x) ∈ im(Q) ⇒ Q(x) ∈ im(P )⊥ ⇒ Q(x) = 0 + Q(x) mit 0 ∈ im(P ) ⇒ Q(x) ⊥ im(P ) ⇒
(PQ)(x) = P (Q(x)) = 0 ⇒ PQ = 0 (Nullabbildung). Analog: QP = 0.
d) P + Q ist linear und selbstadjungiert, weil es P und Q sind und nach c) gilt: PQ + QP + P 2 = P 2 + Q2 =
P + Q. Also ist P + Q nach 20.15 (ii) Orthogonalprojektion.
Bemerkung: Ist (P,Q) kein orthogonales Paar, dann ist P + Q keine Orthogonalprojektion.
Beispiel: Die Projektionen Pi auf die i–ten Basisvektoren einer ON–Basis sind eine
orthogonale Menge von Projektionen.
V =< e1, . . . , en >= < e1 > ⊕ < e2 > ⊕ . . .⊕ < en >
| | | |
id = P1 + P2 + . . .+ Pn
Beobachtung: Der “n−Dimensionalitat” entspricht die Zerlegung von id in eine n−elementige
orthogonale Menge von Orthogonalprojektionen.
Es gilt: V =< ei > ⊕ . . .⊕ < ei > ⊕ . . .⊕ < en >=< ei > ⊕Wi, wobei Wi die direkte Summe
der ubrigen < ej > ist.
Pi sei die Projektion auf den i–ten Basisvektor ei:
Pi projiziert jeden Vektor x auf die Richtung des i−ten Basisvektors.
Pi ist ein orthogonaler Operator, weil Wi ⊥< ei >.
(P1, . . . , Pn) ist eine orthogonale Menge von Projektionen: Es ist im(Pi) =< ei >⊥< ej >=
im(Pj).
Bezuglich einer ON–Basis kann man Pi durch eine Formel angeben:
Es ist x =∑
i < x, ei > ei ⇒ Pi(x) =< x, ei > ei.
168
Damit gilt: P1 + P2 + . . . + Pn = id
denn: (P1 . . . + Pn)(x) = P1(x) + . . . + Pn(x) =< x, e1 > e1 + . . .+ < x, en > en = x = id(x).
Matrixdarstellung der Pi, bezuglich einer anderen ON–Basis F = (f1, . . . , fn).
Fur die r − s−te Eintragung der Matrixdarstellung [Pi]F gilt:
[Pi]rs = < Pi(fs), fr >=<< fs, ei > ei, fr >=
= < fs, ei >< ei, fr >=< ei, fr > · < ei, fs >.
Bezeichnet [ei]F = (ei1, ei2, . . . , ein)t den Koordinatenvektor von ei bezuglich F , dann gilt fur
die Matrix [Pi]F :
[Pi]F =
ei1ei1 ei1ei2 . . . ei1ein
...
einei1 einei2 . . . einein
=
ei1
...
ein
· (ei1, . . . , ein) = [ei]F [ei]∗F ,
Also: [Pi]F = [ei]F · [ei]∗F
Definition 20.8 Außeres Produkt von zwei n–Tupeln
[x] · [y]∗ heißt das außere Produkt (outer product) der Spaltenvektoren [x], [y].
Obige Uberlegungen zeigen folgenden
Satz 20.17 Matrixdarstellung von Orthogonalprojektionen
Die Matrixdarstellung der Orthogonalprojektion Pi auf den i–ten Basisvektor einer ON–Basis
ist gegeben durch das außere Produkt des Koordinatenvektors [ei] mit sich selbst:
[Pi] = [ei] · [ei]∗.
Spezialfall: Matrixdarstellung der Pi bezuglich derselben Basis B = (e1, . . . , en):
[ei]B = (0, . . . , 1, . . . 0)⇒
0...
1...
0
(0, . . . , 1, . . . 0)⇒
i
0 . . .... . . . 0
0 . . . 1 . . . 0
0 0
i
∑i[Pi] = diag(1, 1, . . . , 1), oder∑i Pi = id
169
Das ist wiederum die Zerlegung der identischen Abbildunge in eine Summe von Orthogonalpro-
jektionen.
Zusammenfassung: Formeln fur Orthogonalprojektionen:
1. Sei (e1, . . . , ek) eine ON–Basis von U und P Orthogonalprojektion auf U :
P(x) =< x, e1 > e1 + . . .+ < x, ek > ek
2. Spezialfall: U =< a >
Orthogonalprojektion von x auf a:
P = projax =< x,a >
‖a‖2· a
Denn: e1 = a/‖a‖
P (x) =< x, e1 > e1 =< x, a‖a‖ > a
‖a‖ = 1‖a‖ < x, a > · a
‖a‖ = <x,a>‖a‖2 a.
3. Spezialfall: U =< ~b1, ~b2, . . . ~bk > CKn.
Fasse U als Spaltenraum der Matrix A auf: U = S(A).
P Orthogonalprojektion von ~x auf U = S(A):
P = projS(A)x = A(AtA)−1Atx
[P ]St = A(AtA)−1At.
20.5 Geometrie linearer Operatoren im IR2 bzw. IR3
Es wird gezeigt, wie man aus der Gestalt der Matrixdarstellung auf die Wirkung eines linearen
Operators T : IR2 → IR3(IR3 → IR3) schließen kann. Umgekehrt kann man aus dem Wirkungsprofil
eines Operators seine Matrixdarstelung relativ leicht angeben. Dabei beschranken wir uns auf
Matrixdarstellungen bezuglich der Standardbasis, alle anderen sind ja dazu ahnlich. Je nach
Wirkung des Operators erhalten diese spezielle Namen.
Je nachdem, ob die geordneten Paare (Tupel) als Koordinaten von Punkten oder als Komponen-
ten von geometrischen Vektoren (Pfeilen) auffaßt, entspricht dem Operator T eine Umwandlung
von Punkten oder von Pfeilen. Beide Auffassungen sind mathematisch gleichwertig.
170
Um die Wirkung des Operators zu studieren, untersucht man am besten die Veranderung des
Einheitsquadrates (Einheitswurfels). Dadurch kann man auch die Bilder der Standard–ON–
Basisvektoren {(0, 1), (0, 1)} und damit die Matrixdarstellung leicht angeben. Im Raum erhalt
man die Standardmatrix am besten aus den Abbildungsgleichungen, die man durch geometrische
Uberlegungen aus der Definition erhalt oder indem man sich vorstellt, in welche Punkte die Ecken
des Einheitswurfels verandert werden.
Definition 20.9 Reflexionsoperatoren (Spiegelungen)
Spiegelungen sind Operatoren T auf IR2 bzw. IR3, die jeden Punkt auf sein “Spiegelbild” bezuglich
einer festen Geraden oder Ebene abbilden.
Beispiel: Spiegelung T : IR2 → IR2 an der y−Achse:
~y = T ((~x)
y1 = −x1 = −x1 + 0 · x2
y2 = x2 = 0 · x1 + 1 · x2
~y =
−1 0
0 1
~x
T (1, 0) = (−1, 0)
T (0, 1) = (0, 1)
Tst =
−1 0
0 1
Abbildungsgleichung
T :y1 = −x1
y2 = x2
171
Aus den Abbildungsgleichungen erkennt man, daß Spiegelungen lineare Operatoren sind (die
Variablen kommen nur in der ersten Potenz vor). Man sieht dies aber auch rechnerisch ganz
leicht ein:
Seien A = (a1, a2) und B = (b1, b2) zwei Punkte (Vektoren). Dann ist
A + B = (a1 + b1, a2 + b2), λA = (λa1, λa2) und
T (A + B) =
−(a1 + b1)
a2 + b2
=(−a1
a2
)+
(−b1b2
)= T (A) + T (B)
T (λA) =(−λa1
a2
)= λ
(−a1
a2
)= λT (A).
Oder geometrisch:
Ahnlich geht man bei den anderen Operatoren vor, deren Eigenschaften wir nur mehr tabellarisch
zusammenfassen.
172
Tabelle der Spiegelungen
Operator Wirkung Gleichung Standardmatrix
Spiegelung any −Achse
y1 = −x1
y2 = x2
(−1 0
0 1
)
Spiegelung anx−Achse
y1 = x1
y2 = −x2
(1 00 −1
)
Spiegelung any = x
y1 = x2
y2 = x1
(0 11 0
)
Spiegelung anxy − Ebene
y1 = x1
y2 = x2
y3 = −x3
1 0 00 1 00 0 −1
Spiegelung anxz − Ebene
y1 = x1
y2 = −x2
y3 = x3
1 0 00 −1 00 0 1
Spiegelung anyz − Ebene
y1 = −x1
y2 = x2
y3 = x3
−1 0 00 1 00 0 1
Definition 20.10 Projektionsoperatoren
Projektionsoperatoren sind Operatoren T auf IR2 bzw. IR3, die jeden Punkt seine “Orthogonal-
projektion” auf eine durch den Ursprung gehende Gerade oder Ebene abbilden.
173
Tabelle der Projektionen
Operator Wirkung Gleichung Standardmatrix
Orthogonalprojektionauf x−Achse
y1 = x1
y2 = 0
(1 00 0
)
Orthogonalprojektionauf y −Achse
y1 = 0y2 = x2
(0 00 1
)
Orthogonalprojektionauf xy − Ebene
y1 = x1
y2 = x2
y3 = 0
1 0 00 1 00 0 0
Orthogonalprojektionauf xz − Ebene
y1 = x1
y2 = 0y3 = x3
1 0 00 0 00 0 1
Orthogonalprojektionauf yz − Ebene
y1 = 0y2 = x2
y3 = x3
0 0 00 1 00 0 1
Definition 20.11 Rotationsoperatoren (Drehungen)
(i) Drehungen in der Ebene um den Ursprung 0 sind Operatoren auf IR2, die jeden Punkt
um einen festen Winkel ϕ drehen.
(ii) Rotationsoperatoren (Drehungen) im Raum um eine feste Rotationsachse durch
den Ursprung 0 sind Operatoren auf IR3, die jeden Punkt um einen festen Winkel ϕ
drehen. Die Rotationschase (Drehachse) wird durch einen Einheitsvektor u = (a, b, c) be-
schrieben.
Drehungen entgegen dem Uhrzeigersinn (im Raum erkennbar durch die Rechte–Hand–Regel)
werden als positiv bezeichnet und mit einem positiven Drehwinkel angegeben (sonst negativ).
174
Rechte–Hand–Regel:
Herleitung der Abbildungsgleichung in der Ebene:
x1 = r cos α y1 = r cos(α + ϕ)
x2 = r sinα y2 = r sin(α + ϕ)
Anwendung der Additionstheoreme ergibt:
y1 = r cos ϕ cos α− r sinϕ sinα = x1 cos ϕ− x2 sinαy2 = r sinϕ cos α + r cos ϕ sinα = x1 sinϕ + x2 cos ϕ
oder in vektorieller Form:
~y =(
y1
y2
)=
cos ϕ − sinϕ
sinϕ cos ϕ
(x1
x2
)=
cos ϕ − sinϕ
sinϕ cos ϕ
~x⇒ [T ] =
cos ϕ − sinϕ
sinϕ cos ϕ
Da die Gleichungen linear sind, sind Drehungen um 0 lineare Operatoren (nicht jedoch Drehun-
gen um M 6= 0). Dies ist auch konstruktiv einzusehen.
Zweite Methode zur Herleitung der Darstellungsmatrix [T ]:
Mittels der Definition von Sinus und Cosinus erkennt man sofort:
T (1, 0) =(cos ϕsin ϕ
)T (0, 1) =
(cos(ϕ+90◦)
cos ϕ
)=
(− sin ϕcos ϕ
)Damit ist [T ]st =
cos ϕ − sinϕ
sinϕ cos ϕ
Die Darstellungsmatrix [T ] einer Drehung um ϕ gegen den Uhrzeigersinn um die Rotationsachse
u = (a, b, c) (Einheitsvektor) ist gegeben durch:
[T ] =
a2(1− cos ϕ) + cos ϕ ab(1− cos ϕ)− c sinϕ ac(1− cos ϕ) + b sinϕ
ab(1− cos ϕ) + c sinϕ b2(1− cos ϕ) + cos ϕ bc(1− cos ϕ)− a sinϕ
ac(1− cos ϕ)− b sinϕ bc(1− cos ϕ) + a sinϕ c2(1− cos ϕ) + cos ϕ
Daraus oder auch mittels elementarer geometrischer Uberlegungen erhalt man folgende
175
Tabelle der Rotationen (Drehungen) (entgegengesetzt dem Uhrzeigersinn)
Operator Wirkung Gleichung Standardmatrix
Drehung um 0um den Winkel ϕ
y1 = x1 cos ϕ− x2 sin ϕy2 = x1 sinϕ + x2 cos ϕ
(cos ϕ − sinϕsinϕ cos ϕ
)
Drehung um ϕum x−Achse
y1 = x1
y2 = x2 cos ϕ− x3 sin ϕy3 = x2 sinϕ + x3 cos ϕ
1 0 00 cos ϕ − sinϕ0 sinϕ cos ϕ
Drehung um ϕum y −Achse
y1 = x1 cos ϕ + x3 sin ϕy2 = x2
y3 = −x1 sinϕ + x3 cos ϕ
cos ϕ 0 sinϕ0 1 0
− sinϕ 0 cos ϕ
Drehung um ϕum z −Achse
y1 = x1 cos ϕ− x2 sin ϕy2 = x1 sinϕ + x2 cos ϕy3 = x3
cos ϕ − sinϕ 0sinϕ cos ϕ 0
0 0 1
Allgemein gilt:
Satz 20.18 Drehungsmatrix
Sei A eine 2 × 2− bzw. 3 × 3−Matrix mit det(A) = +1, deren Spalten paarweise orthogonale
Einheitsvektoren sind. Die Multiplikation mit A beschreibt dann eine Drehung um den Winkel
ϕ mit cos ϕ = sp(A)−12 und (im Raum) um die
Rotationsachse: u = Ax + Atx + (1− sp(A))x
ohne Beweis.
Definition 20.12 Dilatations– bzw. Kontraktionsoperatoren
Dilatationen (Kontraktionen) sind Operatoren T , die jeden Punkt (Vektor) um den Faktor k ≥ 1
strecken bzw. um den Faktor 0 ≤ k ≤ 1 stauchen: T(x) = kx.
Bemerkung: Der gesamte Raum wird gleichzeitig bezuglich des Ursprungs 0 gestreckt bzw.
gestaucht.
176
Stauchung (Kontraktion) Streckung (Dilatation)
k = 0 : T ist Nulloperator
k = 1 : T ist identischer Operator
Tabelle der Kontraktionen und Dilatationen
Operator Wirkung Gleichung Standardmatrix
Kontraktion im IR2(IR3)um Faktor l(0 ≤ k ≤ 1)
y1 = kx1
y2 = kx2
(y3 = kx3)
(k 00 k
)
Dilatation im IR2(IR3)um Faktor k
(k ≥ 1)
y1 = kx1
y2 = kx2
(y3 = kx3)
k 0 00 k 00 0 k
Definition 20.13 Expansions– bzw. Kompressionsoperatoren
Eine Expansion bzw. Kompression in x–Richtung um den Faktor k ist ein Operator
T auf IR2, der die x−Koordinate eines Punktes mit einer positiven Konstanten k > 1 bzw.
0 < k < 1 multipliziert.
Multipliziert man die y−Koordinaten mit k erhalt man analog Expansionen bzw. Kompressionen
in y–Richtung.
Bemerkung: Rechnerisch (T (x1, x2) = (kx1, x2)) wie auch konstruktiv sieht man, daß Ex-
pansionen und Kompressionen linear sind. Die Bilder der Einheitsvektoren T(10
)=
(k0
)und
T(01
)=
(01
)liefern die Standardmatrizen.
177
Tabelle der Kompressionen und Expansionen
Operator Wirkung Gleichung Standardmatrix
Kompression im IR2
in x−Richtungum Faktor k(0 < k < 1)
y1 = kx1
y2 = x2
(k 00 1
)
Kompression im IR2
in y−Richtungum Faktor k(0 < k < 1)
y1 = x1
y2 = kx2
(1 00 k
)
Expansion im IR2
in x−Richtungum Faktor k
(k > 1)
y1 = kx1
y2 = x2
(k 00 1
)
Expansion im IR2
in y−Richtungum Faktor k
(k > 1)
y1 = x1
y2 = kx2
(1 00 k
)
Expansionin x−Richtungum Faktor k1
Kompressionin y−Richtungum Faktor k2
y1 = k1x1
y2 = k2x2
(k1 00 k2
)
Definition 20.14 Scherungen
Scherungen in x–Richtung um den Faktor k sind Operatoren T auf IR2, die jeden Punkt
(x1, x2) parallel in x−Richtung um kx2 in den Punkt (x1 + kx2, x2) verschieben.
Es ist T (x1, x2) = (x1 + kx2, x2), daher sind Scherungen linear. Je weiter man sich von der
x−Achse entfernt, umso mehr wird ein Punkt verschoben. Aus T (1, 0) = (1, 0) und T (0, 1) =
(k, 1) ergibt sich die Standardmatrix. Analog in y−Richtung.
178
Tabelle der Scherungen
Operator Wirkung Gleichung Standardmatrix
Scherung im IR2
in x−Richtungum Faktor k > 0
y1 = x1 + kx2
y2 = x2
(1 k0 1
)
Scherung im IR2
in y−Richtungum Faktor k > 0
y1 = x1
y2 = kx1 + x2
(1 0k 1
)
Expansion im IR3
in xy−Richtungum Faktor k
y1 = x1 + kx3
y2 = x2 + kx3
y3 = x3
k 0 k0 1 k0 0 1
Beispiel: Bestimme die Darstellungsmatrix jenes Operators auf IR2, der jeden Punkt zuerst um
den Faktor 3 in x−Richtung verzerrt (“schert”) und dann an y = x spiegelt.
Scherung [T1] =
1 3
0 1
,
Reflextion [T2] =
0 1
1 0
⇒ [T ] = [T2][T1] =
0 1
1 0
1 3
0 1
=
0 1
1 3
Beachte: Es ist [T2][T1] 6= [T1][T2], Reflexion und Scherung sind also nicht vertauschbar.
Satz 20.19 Geometrische Deutung von Elementarmatrizen
Die Multiplikation mit einer Elementarmatrix bedeutet geometrisch:
(i) Scherung in eine Koordinatenrichtung
(ii) Spiegelung an y = x
(ii) Kompression in eine Koordinatenrichtung
(iv) Expansion in eine Koordinatenrichtung
(v) Spiegelung an einer Koordinantenrichtung
(vi) Kompression oder Expansion in einer Koordinatenrichtung und anschließend eine Spiege-
lung an einer Koordinatenachse.
179
Beweis: Jede 2× 2−Elementarmatrix entsteht aus der I2 durch elementare Zeilenumformungen,
daher konnen nur folgende Elementarmatrizen auftreten: 1 0
k 1
︸ ︷︷ ︸Scherung
y−Richtung
1 k
0 1
︸ ︷︷ ︸Scherung
x−Richtung
0 1
1 0
︸ ︷︷ ︸
Spiegelung an
y = x
k 0
0 1
︸ ︷︷ ︸wenn k > 0
Kompression (k ≤ 1)
Expansion (k ≥ 1)
in x−Richtung
1 0
0 k
︸ ︷︷ ︸
k > 0
Kompression
Expansion
in y−RichtungIst bei den letzten beiden Matrizen k < 0, dann setzen wir k = −k1 mit k1 > 0 und formen um k 0
0 1
=
−k1 0
0 1
=
−1 0
0 1
︸ ︷︷ ︸Spiegelung an
y−Achse
k1 0
0 1
︸ ︷︷ ︸
Kompresion (k1 ≤ 1)
Expansion (k1 ≥ 1)
in x−Richtung 1 0
0 k
=
1 0
0 −k1
=
1 0
0 −1
︸ ︷︷ ︸Spiegelung an
x−Achse
1 0
0 k1
︸ ︷︷ ︸Kompresion
Expansion
in y−RichtungFur k = −1 ist:(−1 0
): Spiegelung an y−Achse und 1 0
0 −1
: Spiegelung an x−Achse
Damit sind alle Falle aufgezahlt.
180
Satz 20.20 Geometrische Deutung von invertierbaren Matrixabbildungen
Die Multiplikation mit einer invertierbaren Matrix bedeutet geometrisch eine geeignete Folge von
Scherungen, Kompressionen, Expansionen und Spiegelungen.
Beweis: A invertierbar ⇒ A ist zeilenaquivalent zur Einheitsmatrix ⇔ A ist Produkt von Elementarmatrizen
(siehe ??), die Behauptung folgt aus dem vorhergehenden Satz.
Beispiel: Beschreibe die geometrische Wirkung des Operators mit der Standardmatrixdarstel-
lung A =
1 2
3 4
oder aquivalent dazu: Beschreibe die geometrische Wirkung der Multipli-
kation mit der Matrix A.
Losung: Stelle A als Produkt von Elementarmatrizen dar, indem man sie auf die kanonische
Staffelform (= identische Matrix bei invertierbaren Matrizen).
1 2 −3
3 4
1 2
0 −2 : −2
1 2
0 1 −2
1 0
0 1
E1 =
1 0
−3 1
E2 =
1 0
0 −12
E3 =
1 −2
0 1
E3E2E1A = I2 ⇒
A = E−11 A−1
2 E−13 =
1 0
3 1
1 0
0 −2
1 2
0 1
=
1 0
3 1
︸ ︷︷ ︸Scherung in
y−Richtung
um k = 3
1 0
0 −1
︸ ︷︷ ︸Spiegelung an
y−Richtung
1 0
0 2
︸ ︷︷ ︸
Expansion in
y−Richtung
um k = 2
1 2
0 1
︸ ︷︷ ︸Scherung in
x−Richtung
um k = 2
Die durch invertierbare 2× 2−Matrizen induzierten linearen Abbildungen (= Matrixmultiplika-
tionen mit invertierbaren Matrizen) sind Isomorphismen auf IR2, daher gelten die Eigenschaften
der Teilraumtreue, Dimensionstreue, Parallelentreue, ...
Zusammenfassung fur die Ebene:
181
Satz 20.21 Geometrische Eigenschaften von invertierbaren Matrizen
Fur die Multiplikation TA mit einer invertierbaren 2× 2−Matrix A gilt:
(i) TA bildet Geraden auf Geraden ab.
(ii) Das Bild einer Geraden durch den Ursprung ist wieder eine solche.
(iii) Parallele Geraden werden auf parallele Geraden abgebildet.
(iv) Die Strecke PQ wird auf die Strecke TA(P )TA(Q) abgebildet.
(v) Drei Punkte sind genau dann kollinear, wenn ihre Bilder kollinear sind.
(vi) Dreiecke (Parallelogramme) werden auf Dreiecke (Parallelogramme) abgebildet.
Beispiel: Die invertierbare Matrix A =
1 2
3 4
bildet die Gerade g : y = 3x + 1 wieder auf
eine Gerade ab. Bestimme deren Gleichung.
Losung: (x, y) sei ein Punkt auf y = 3x + 1 und (x′, y′) sein Bild unter der Multiplikation mit
A. Es sit x′
y′
=
1 2
3 4
x
y
⇔ x
y
=
1 2
3 4
−1 x′
y′
=12
−4 2
3 −1
x′
y′
y = 3x + 1⇔ 3x− y = −1⇔ (3,−1)
x
y
= −1⇔ 12(3,−1)
−4 2
3 −1
x′
y′
= −1⇔
(−15, 7)
x′
y′
= −2⇔ −15x′ + 7y′ = −2⇔ g′ : 15x′ − 7y′ = 2 :
Probe: Es ist P (1/4) ∈ g. P ′ := TA(P ) =
1 2
3 4
1
4
=
9
19
⇔ P ′(9/19).
P ′ ∈ g′ : 9 · 15− 7 · 19 = 135− 133 = 2.
182
VI VEREINFACHEN VON MATRIZENIn diesem Kernstuck der Linearen Algebra wird gezeigt, wie man eine Matrix A durch Links–
und Rechtsmultiplikation mit regularen Matrizen P und Q auf “einfachere” Formen (die man
dann Normalformen nennt) transformieren kann. Mit “einfach” meint man, daß die neue
Matrix QAP als Eintragungen moglichst viele Nullen und sonst nur Einser, wenn moglich nur
in der Hauptdiagonale enthalten soll, denn mit Diagonalmatrizen laßt es sich besonders leicht
rechnen. Die Transformation A → QAP nennt man dann Diagonalisieren. P und Q sollen
deshalb regular sein, damit man durch die Transformation den Rang der Ausgangsmatrix, die
wichtigste Kennzahl einer Matrix, nicht verandert. Außerdem existieren dann auch die inversen
Matrizen P−1 und Q−1, durch die die Transformation wieder ruckgangig gemacht werden kann:
A→ QAP = B ⇒ Q−1BP−1 = A.
Wozu braucht man einfache Matrizen? Ein Hauptziel der Linearen Algebra ist es, lineare Glei-
chungssysteme, bzw. mehrere davon zusammengefaßt in Matrixgleichungen, zu losen. Eine be-
liebte Strategie dafur ist das Substituieren, um das Losen zu vereinfachen. Gegeben sei die
Matrixgleichung
Y = AX
(Oft sind Y und X “nur” Vektoren ~y, ~x, z.B. bei Differentialgleichungen ~y′ = A~x). Durch Sub-
stitution X = PX bzw. Y = PY oder Y = QY , erhalt man: PY = APX ⇔ Y = (P−1AP )X
oder QY = APX ⇔ Y = (Q−1AP )X.
Die “neue” Gleichung wird also durch eine zur “alten” Gleichung ahnlichen bzw. aquivalenten
Matrix beschrieben. Ist P−1AP bzw. Q−1AP moglichst einfach (z.B. eine Diagonalmatrix), dann
kann die neue Gleichung leichter als die alte gelost werden, aus den Losungen X, Y erhalt man
die ursprunglichen Losungen einfach durch Multiplikation mit P : X = PY , Y = PY oder
Y = QY .
Neben dem leichten Losen von Gleichungssystemen kann man mit einfachen Matrizen auch
leichter Matrixfunktionen berechnen, die ihrerseits wiederum beim Losen von Differential-
gleichungssystemen benotigt werden.
Das Vereinfachen kann dabei auf 4 Arten erfolgen, je nachdem, welche Matrizen P,Q vom Pro-
blem her zugelassen sind. Oft ist nur Q = P moglich (man spricht dann von Ahnlichkeitstransformationen),
oder P muß eine unitare Matrix sein (wenn Abstande oder Winkel erhalten bleiben sollen) oder
Q = P t. Man unterscheidet daher vier Transformationsarten von Matrizen.
183
Es wird sich zeigen, daß man jede Matrix durch eine Aquivalenztransformation auf eine Dia-
gonalmatrix mit hochstens Einsern in der Hauptdiagonalen transformieren kann (Normalfor-
mensatz), mit Ahnlichkeitstransformationen geht dies im allgemeinen nicht. Die nachst einfa-
cheren Matrizen nach den Diagonalmatrizen sind jene, die Blocke (mit vielen Nullen) langs
der Hauptdiagonale enthalten (Blockdiagonalisieren). Das beste Resultat, das man durch
Ahnlichkeitstransformation erreichen kann, ist wohl der Jordansche Normalformensatz. Oft
reicht es aus, Matrizen auf Dreiecksform zu bringen (Triangulieren).
Alle diese Fragen sind eng verbunden mit der Suche nach moglichst einfachen Matrixdarstel-
lungen von gewissen linearen Abbildungen, so daß es zu jedem matrizentheoretischem Satz auch
eine abbildungstheoretische Formulierung gibt (z.B. Spektralsatze fur selbstadjungierte bzw.
normale Operatoren). In der Regel werden wir die abbildungstheoretische Formulierung be-
weisen, die matrizentheoretische folgt dann als ein Spezialfall.
184
21 Diagonalisieren
Ist A eine Diagonalmatrix, dann werden nummerische Berechnungen besonders einfach:
A =
λ1 0
. . .
0 λn
⇒ A−1 =
λ−1
1 0. . .
0 λ−1n
und Ak =
λk
1 0. . .
0 λkn
Auch die Losungen von A~x = ~b konnen einfach abgelesen werden. Man wird daher bestrebt sein,
eine Matrix A durch Bildung von QAP auf Diagonalgestalt zu bringen. Leider geht dies nicht
immer.
Je nachdem, mit welchen Matrizen P,Q man eine gegebene Matrix con links und rechts multi-
pliziert, unterscheidet man folgende Arten von Matrixtransformation.
Definition 21.1 Matrixtransformationen
A sei eine rechteckige Matrix und P,Q entsprechende quadratische Matrizen.
(i) Der Ubergang von A zu QAP mit regularem P,Q heißt Aquivalenztransformation der
Matrix A. Im Folgenden seien A,P, Q quadratische n× n−Matrizen.
(ii) Der Ubergang von A zu P−1AP mit regularem P heißt Ahnlichkeitstransformation
der Matrix A.
(iii) Der Ubergang von A zu P−1AP mit orthogonalem (unitarem) P heißt orthogonale (unitare)
Ahnlichkeitstransformation der Matrix A.
(iv) Der Ubergang von A zu P ∗AP mit regularem P heißt Kongruenztransformation der
Matrix A.
Diesen vier Transformationen entsprechen vier Relationen zwischen Matrizen, von denen uns
die ersten beiden schon bekannt sind.
185
Definition 21.2 Matrixrelationen
A und B seien zwei m× n−Matrizen, Q sei eine m×m− und P eine n× n−Matrix.
1. B heißt aquivalent zu A, wenn B aus A durch eine Aquivalenztransformation hervorgeht.
Symbolisch:
B ∼1 A⇔ ∃ regulares Q,P : B = QAP
2. B heißt ahnlich zu A, wenn B aus A durch eine Ahnlichkeitstransformation hervorgeht.
Symbolisch:
B ∼2 A⇔ ∃ regulare P : B = P−1AP
3. B heißt orthogonal (unitar) ahnlich zu A, wenn B aus A durch eine orthogonale
(unitare) Ahnlichkeitstransformation hervorgeht. Symbolisch:
B ∼3 A⇔ ∃ orthogonales (unitares) P : B = P−1AP = P ∗AP
4. B heißt kongruent zu A, wenn B aus A durch eine Kongruenztransformation hervorgeht.
Symbolisch:
B ∼4 A⇔ ∃ regulares P : BP ∗AP
Unitar ahnliche Matrizen sind also ein Spezialfall von kongruenten Matrizen.
Da regulare bzw. orthogonale (unitare) Matrizen bezuglich der Multiplikation eine Gruppe bil-
den, handelt es sich bei allen Relationen um Aquivalentrelationen.
21.1 Aquivalentes Diagonalisieren
Mittels Aquivalenztransformationen erhalt man das Traumresultat: Jede Matrix kann auf Dia-
gonalform mit nur Einsern in der Hauptdiagonale gebracht werden.
Wir zeigen dazu, daß jede lineare Abbildung f : V → W durch eine geschickte Wahl von
Basisvektoren durch eine Diagonalmatrix dargestellt werden kann. Entscheidend dafur ist nur
der Rang von f . Wegen der entsprechenden Formeln uber die Anderung der Matrixdarstellung
bei Basiswechsel (siehe Satz 18.2) erhalt man dadurch eine Aussage uber die Moglichkeiten einer
Aquivalenztransformation von Matrizen.
186
Satz 21.1 Normalformensatz
(i) Abbildungstheoretische Formulierung:
f : V →W sei eine lineare Abbildung mit rg(f) = r. Dann existieren solche Basen von V
und W , bezuglich der die Matrixdarstellung [f ] von f folgende Form besitzt.
[f ] =
Ir O
O O
mit Ir =
1 0
...
0 1
︸ ︷︷ ︸
r
, d.h. Ir ist die r−stufige Einheitsmatrix
(ii) Matrizentheoretische Formulierung:
Jede m× n−Matrix A vom Rang r ist aquivalent zu
Ir O
O O
, d.h.,
rg(A) = r⇒ A ∼1
Ir O
O O
. Ir O
O O
heißt die Normalformendarstellung von f bzw. A.
Beweis zu (i):
Sei ker(f) =< u1, . . . , un−r > (moglich, weil rg(f) = r und dim(V ) = n). Nach dem Basiserganzungssatz kann
man {u1, . . . , un−r} zu einer Basis von V n erganzen, wir schreiben die erganzenden Vektoren zu Beginn:
V n =< v1, . . . , vr, u1, . . . , un−r > .
Es ist dann {f(v1), . . . , f(vr)} eine Basis von im(f). Diese kann zu einer Basis von W erganzt werden. Wir
schreiben die erganzenden Vektoren am Ende an:
W m =< f(v1), . . . , f(vr), w1, . . . , wm−r > .
Fur diese Basen gilt:
f(v1) = 1 · f(v1)+ . . . +0 · f(vr)+ . . . 0 · wm−r
......
......
f(v1) = 0 · f(v1)+ . . . +1 · f(vr)+ . . . 0 · wm−r
0 = f(u1) = 0 · f(v1)+ . . . +0 · f(vr)+ . . . 0 · wm−r
......
......
...
0 = f(un−r) = 0 · f(v1)+ . . . +0 · f(vr)+ . . . 0 · wm−r
Daraus folgt nach Definition der Matrixdarstellung die behauptete Normalform.
187
Beweis zu (ii):
Fasse A als Abbildung TA : Kn → Km mittels TA(~x) = A · ~x auf, dann ist A = [TA]st. Die Anwendung von (i)
ergibt (ii).
Damit erhalt man folgende Aquivalenzinvariante fur Matrizen:
Satz 21.2 Aquivalenzsatz fur Matrizen
Zwei Matrizen A und B sind genau dann aquivalent, wenn sie gleichen Rang haben.
Beweis:
1. Sei rg(A) = rg(B) = r ⇒ nach Satz 21.1
A ∼1
Ir 0
0 0
und B ∼1
Ir 0
0 0
⇒ A ∼1
Ir 0
0 0
∼1 B ⇒ A ∼1 B.
2. Seien A und B aquivalent ⇒ ∃ regulare Q und P mit B = QAP ⇒
rg(B) = rg(QAP ) = rg[(QA)P ] = rg(QA) = rg(A).
Bemerkung:
Aus der Gleichheit der Range folgt also die Aquivalenz der Matrizen, nicht aber die Ahnlichkeit
(siehe Satz 17.2).
Algorithmus zum aquivalenten Diagonalisieren:
Da jede regulare Matrix Produkt von Elementarmatrizen ist, erhalt man aus dem Normalfor-
mensatz:QAP = ErEr−1 . . . E2E1AE′
1E′2 . . . E′
s−1E′s =
= ErEr−1 . . . E2E1Im︸ ︷︷ ︸Q
A InE′1E
′2 . . . E′
s−1E′s︸ ︷︷ ︸
P
=
Ir 0
0 0
Nun ruft bekanntlich die Linksmultiplikation mit Elementarmatrizen eine Zeilenumformung, ei-
ne Rechtsmultiplikation eine Spaltenumformung hervor. Bringt man daher A durch elementare
Zeilen– und Spaltenumformungen auf die Normalform (dies ist moglich wegen des Normalfor-
mensatzes,) so erhalt man das gesuchte Q durch Anwenden derselben Zeilenumformungen auf
die Einheitsmatrix Im und P durch Anwenden derselben Spaltenumformungen auf In: Dies kann
simultan erfolgen, wenn man Im, A, In nebeneinander anschreibt:
188
Im A In
↓ ↓ ↓
Zeilenumformungen Zeilen– und Spaltenumformungen
Spaltenumformungen
↓ ↓ ↓
Q
Ir 0
0 0
P
Beispiel:
Transformiere A =
0@ 1 2 3
1 0 1
1A auf Normalform.
1 0 1 2 3 1 0 0 −Z1 + Z2
0 1 1 0 1 0 1 0
0 0 1
1 0 1 2 3 1 0 0 −2S1 + S2,−3S1 + S3
−1 1 0 −2 −2 0 0 1
0 0 1
1 0 1 0 0 1 −2 −3
−1 1 0 −2 −2 0 1 0 Z2 : (−2)
0 0 1
1 0 1 0 0 1 −2 −3
12
− 12
0 1 1 0 1 0 −S2 + S3
0 0 1
1 0 1 0 0 1 −2 −1
Q = 12
− 12
0 1 0 0 1 −1 = P
0 0 1
Probe:
0@ 1 0
12
− 12
1A0@ 1 2 3
1 0 1
1A0BBB@
1 −2 −1
0 1 −1
0 0 1
1CCCA =
0@ 1 0 0
0 1 0
1AEine andere Methode bestunde darin, die Basis des Kerns und des Bildes von A bzw. f wie
im Beweis zu 21.1 geeignet zu erganzen. Daraus sieht man auch, daß Q und P nicht eindeutig
bestimmt sind.
Durch zweimaliges Anwenden dieses Verfahrens erhalt man die Transformationsmatrizen Q und
P , die zwei aquivalente Matrizen B und A ineinander uberfuhren:
189
Ist rg(A) = r ⇒ ∃Q1, P1 : Q1AP1 =
Ir 0
0 0
Es ist aber auch rg(B) = r ⇒ ∃Q2, P2 : Q2BP2 =
Ir 0
0 0
⇒ B = Q−12
Ir 0
0 0
P−12
und damit
B = Q−12
Ir 0
0 0
P−12 = Q−1
2 Q1︸ ︷︷ ︸Q
A P1P−12︸ ︷︷ ︸
P
Beispiel:
A =
1 2 3
1 0 1
, B =
5 2 3
4 1 3
.
Wegen rg(A) = rg(B) = 2 sind A und B aquivalent.
Bestimme jene regularen Matrizen Q,P mit B = QAP .
Losung: Wie im obigen Beispiel erhalt man:
13
−1 2
2 −1
︸ ︷︷ ︸
Q2
5 2 3
4 1 3
0 1 −1
−1 0 1
1 −1 1
︸ ︷︷ ︸
P2
=
1 0 0
0 1 0
Damit ist Q = Q−12 Q1 =
1 2
2 1
1 012 −1
2
=
2 −152 −1
2
und
P = P1P−12 =
1 −2 −1
0 1 −1
0 0 1
1 0 1
2 1 1
1 1 1
=
−4 −3 −2
1 0 0
1 1 1
Probe:
B =
5 2 3
4 1 3
=
2 −152 −1
2
1 2 3
1 0 1
−4 −3 −2
1 0 0
1 1 1
= QAP
190
21.2 Ahnliches Diagonalisieren
In vielen Fallen hat man nicht zwei regulare Matrizen Q und P zum Diagonalisieren zur Verfugung.
Will man z.B. einen linearen Operator T : V → V , also eine Abbildung zwischen ein– und dem-
selben Vektorraum, durch eine Diagonalmatrix darstellen, dann hat man nur einen Basiswechsel,
beschreibbar durch eine regulare Matrix P , zur Verfugung. Was gilt nun fur solche Basisvektoren,
bezuglich der eine Diagonalmatrixdarstellung moglich ist?
Sei B = {b1, b2, . . . , bn} eine Basis von V so, daß fur T : V → V gilt:
[T ]B =
λ1
. . . 0
λ2
0. . .
λn
⇔
T (b1) = λ1b1
...
T (bn) = λnbn
(Dies gilt wegen der Definition der Matrixdarstellung: Spalten = Koordinaten der Bilder der
Basisvektoren.)
Also: Im Diagonalisierungsfall sind die Basisvektoren zugleich Eigenvektoren des Operators.
Die nachsten Satze werden zeigen, daß folgende zwei Probleme aquivalent sind:
Das Eigenwertproblem: Existiert zu einer gegebenen n× n− Matrix A n l.u. Eigenvektoren
bzw. zu einem gegebenen Operator T : V → V eine Basis aus Eigenvektoren?
Das Diagonalisierungsproblem:
abbildungstheoretisch formuliert: Existiert zu einem gegebenen Operator T : V → V eine
Basis von V , bezuglich der T durch eine Diagonalmatrix dargestellt werden kann?
matrizentheoretisch formuliert: Existiert zu einer gegebenen n × n−Matrix A eine regulare
Matrix P so, daß P−1AP Diagonalgestalt hat?
Definition 21.3 (i) Ein Operator T : V → V heißt diagonalisierbar, wenn es eine Basis
B = {b1, . . . , bn} von V gibt, bezuglich der sich T durch eine Diagonalmatrix beschreiben
laßt. Also:
191
[T ]B =
λ1 0
. . .
0 λn
= diag(λ1, . . . , λn)
(ii) Eine Matrix A ∈ M(n × n, K) heißt diagonalisierbar, wenn es eine regulare Matrix P
gibt, mit P−1AP = diag(λ1, . . . , λn).
Damit: A ist diagonalisierbar ⇔ A ist ahnlich zu einer Diagonalmatrix.
Bemerkung:
Das Wort “Diagonalisieren” ist reserviert fur das Diagonalisieren mittels einer Ahnlichkeitstransformation.
Satz 21.3 Erstes Diagonalisierbarkeitskriterium
(i) Ein linearer Operator T : V → V ist genau dann diagonalisierbar, wenn V eine Basis
B aus Eigenvektoren von T besitzt. Die Diagonalelemente der Matrixdarstellung [T ]B
sind die zugehorigen Eigenwerte von T :
[T]B = diag(λ1, . . . , λn), λi EW von T
(ii) A ∈M(n×n, K) ist genau dann diagonalisierbar, wenn A n l.u. Eigenvektoren besitzt.
Die Diagonalelemente sind die zugehorigen Eigenwerte. Die Spalten der Transformations-
matrix P sind gerade die Eigenvektoren.
P−1AP = diag(λ1, . . . , λn) mit P = (x1| . . . |xn), xi EV zum EW λi von A(i = 1, . . . ,n)
Beweis:
1. T sei diagonalisierbar ⇒ ∃ Basis B = (b1, . . . , bn) mit:
[T ]B = diag(λ1, . . . , λi, . . . , λn) ⇒
[T (bi)]B = [T ]B · [bi]B =
0BBBBBBBBBB@
λ1
. . .
λi
. . .
λn
1CCCCCCCCCCA
0BBBBBBBBBB@
0
...
1
...
0
1CCCCCCCCCCA=
0BBBBBBBBBB@
0
...
λi
...
0
1CCCCCCCCCCA⇒
T (bi) = λibi ⇒ bi ist EV von T zum EW λi.
192
2. Sei B = (b1, . . . , bn) eine Basis von V aus EV von T zu den EW λ1, . . . , λn ⇒ T (bi) = λibi(i = 1, . . . , n) ⇒
T (bi) = 0 ·b1 + . . .+λibi + . . .+0 ·bn ⇒ [T (bi)]B = (0, . . . , λi, . . . , 0) ⇒ [T ]B = diag(λ1, . . . , λi, . . . , λn) ⇒ T
ist diagonalisierbar.
3. Der Beweis fur Matrizen wird wie immer so gefuhrt, daß man A als Abbildung von Kn → Kn auffaßt:
TA : Kn → Kn mit TA(~x) = A · ~x; bezuglich der Standardbasis besitzt dann TA die Matrixdarstellung A.
Es gilt nun folgende Aquivalenzkette: Matrix A diagonalisierbar ⇔ Abbildung TA diagonalisierbar ⇔ Kn
besitzt Basis aus Eigenvektoren von A ⇔ A besitzt n l.u. EV ~x1, . . . , ~xn.
P sei die Ubergangsmatrix von der Standardbasis zur Basis aus EV, also sind die Spalten von P gerade
die EV von A : P = ( ~x1| ~x2| . . . | ~xn).
Beispiel: Ist A =(1 23 2
)diagonalisierbar?
pA(X) = X2 − 3X − 4 = (X − 4)(X + 1), EW: λ1 = 4, λ2 = −1
EV:
2
3
,
1
−1
l.u. ⇒ A diagonalisierbar
P =
1 2
−1 3
⇒ P−1 = 15
3 −2
1 1
⇒ P−1AP =
−1 0
0 4
Satz 21.4 Eine hinreichende Bedingung fur die Diagonalisierung:
(i) Ein linearer Operator T : V → V eines n−dimensionalen Vektorraumes V ist diagonali-
sierbar, wenn er n verschiedene Eigenwerte λ1, . . . λn besitzt.
(ii) Eine quadratische n×n−Matrix ist diagonalisierbar, wenn sie n verschiedene EW besitzt.
Beweis: Zu jedem EW ∃ EV, diese sind l.u. wegen der Verschiedenheit der EW, also hat V bzw.
Kn n l.u. EV, je n l.u. Vektoren bilden aber eine Basis, also gibt es unter diesen Bedingungen
eine Basis aus Eigenvektoren. Nach 21.3 folgt die Diagonalisierbarkeit.
193
Satz 21.5 Zweites Diagonalisierbarkeitskriterium
(Hauptsatz der Diagonalisierbarkeit)
Ein linearer Operator T : V → V eines n−dimensionalen Vektorraumes uber K bzw.
eine n× n−Matrix A uber einem Korper K ist genau dann diagonalisierbar, wenn
(i) das charakteristische Polynom in K[X] in Linearfaktoren zerfallt:
p(X) = (X − λ1)(X − λ2) . . . (X − λn) und
(ii) wenn fur jeden Eigenwert λ seine geometrische Vielfachheit mit seiner algebraischen
Vielfachheit ubereinstimmt. Das heißt, ist k die algebraische Vielfachheit des Eigen-
wertes λ, dann muß gelten:
k = dim Eλ ⇔ rg(T − λid) = n− k bzw. rg(A− λIn) = n− k.
Man sagt auch: Der Rangabfall von T beim Ubergang zu T − λid muß so groß wie die
algebraische Vielfachheit des EW λ sein.
Beweis: Daß das charakteristische Polynom in Linearfaktoren zerfallt, ist fur die Diagonalisier-
barkeit von T eine notwendige Bedingung. Sei dazu B irgendeine Basis von V und
Sei [T ]B =
λ1
. . . 0
λ2
0. . .
λn
⇒
pT [X] = |[T ]B −XIn| =
∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣
λ1 −X
. . . 0
λi −X
0. . .
λn −X
∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣= (λ1 −X) . . . (λn −X),
d.h. pT [X] ist ein Produkt von Linearfaktoren. Da das charakteristische Polynom eine Ahnlichkeitsvariante
ist, gilt dies fur jede Basis.
Zerfallt also das charakteristische Polynom von T nicht in Linearfaktoren, dann ist
T nicht diagonalisierbar.
Der Zerfallen in Linearfaktoren allein ist aber zu wenig, um die Diagonalisierbarkeit zu garan-
tieren, man muß ja nach 21.3 n l.u. EV erhalten. Dies garantiert aber gerade die Bedingung
194
(ii):
Seien λ1, . . . , λr die verschiedenen Eigenwerte von T bzw. A (moglich wegen des Zerfallens von
pT (x) in Linearfaktoren) und ni bzw. ki die geometrische bzw. algebraische Vielfachheit von
λi(i = 1, . . . , r):
{x(1)1 , . . . x
(1)n1 } sei Basis von Eλ1
{x(2)1 , . . . x
(2)n2 } sei Basis von Eλ2
......
{x(r)1 , . . . x
(r)nr } sei Basis von Eλr
ni = geom. Vielfachheit von λi
Dann ist
B = {x(1)1 , . . . , x(1)
n1, x
(2)1 , . . . , x(2)
n2, . . . , x
(r)1 , . . . x(r)
nr}
eine l.u. Menge von EV, denn:
Sei
(λ1x(1)1 , . . . , λn1x
(1)n1
+ µ1x(2)1 + . . . , +µn2x
(2)n2
+ . . . + ν1x(r)1 + . . . + νnrx
(r)nr
= 0 = 0 + . . . + 0.
Weil die Summe von Eigenraumen direkt ist (19.13), folgt
λ1x(1)1 + . . .+ λn1x
(1)n1 = 0 ⇒ alle λi = 0
......
...
ν1x(r)1 + . . .+ νnrx
(r)nr = 0 ⇒ alle νi = 0
Insgesamt ist also B l.u.
Nun sind die geometrischen Vielfachheiten ni ≤ ki (19.10.iii), daher gilt fur die Summe l der
geometrischen Vielfachheiten:
l := n1 + n2 + . . . + nr ≤ k1 + k2 + . . . + kr = Grad pT (λ) = dim V = n
Damit erhalten wir die entscheidende Schlußkette:
T diagonalisierbar ⇔ T besitzt Basis aus EV ⇔ B ist Basis in V (mehr l.u. EV gibt es nicht)
⇔ l = n1 + . . . + nr = dim V = n⇔ ni = ki ∀i. Ware namlich ein nj 6= lj , dann kann nj nach
19.10 (iii) nur kleiner als lj sein ⇒ l < n⇒ B ware keine Basis von V .
195
Die zweite Bedingung rg(T−λid) = n−k, d.h., der Rangabfall um die algebraische Vielfachheit,
garantiert, daß man genug, namlich n l.u. Eigenvektoren erhalt, so daß man eine Basis aus
Eigenvektoren konstruieren kann. Dies kann man auch so ausdrucken:
Satz 21.6 Drittes Diagonalisierbarkeitskriterium
Ein linearer Operator T : V → V bzw. eine quadratische n×n−Matrix A uber K ist genau dann
diagonalisierbar, wenn das charakteristische Polynom in Linearfaktoren zerfallt und V bzw. Kn
die direkte Summe seiner Eigenraume ist.
V = Eλ1 ⊕Eλ2 ⊕ . . .⊕Eλr .
Beweis: Die Bezeichnungen seien wie im vorigen Satz.
1. T diagonalisierbar ⇔ ni = ki ⇒ dim(Eλ1 ⊕ . . . ⊕ Eλr) = dim Eλ1 + . . . + dim Eλr =
n1 +n2 + . . .+nr = k1 +k2 + . . .+kr = n. Weil Eλ1⊕ . . .⊕Eλr CV ⇒ Eλ1⊕ . . .⊕Eλr = V .
2. Ist V = Eλ1 ⊕ . . . ⊕ Eλr ⇒ n1 + n2 + . . . + nr = n = k1 + . . . + kr. Wegen ni ≤ ki folgt
daraus ni = ki ⇒ T ist diagonalisierbar.
Algorithmus zur Diagonalisierung einer n × n−Matrix A oder eines linearen Operators T
eines n−dimensionalen Vektorraumes.
Schritt 1: Bestimme alle verschiedenen Eigenwerte λ1, . . . , λr von A bzw. T (z.B. als Nullstellen
des charakteristischen Polynoms; ist ein schwieriges Problem, weil eine Gleichung n−ten
Grades vorliegt).
Schritt 2: Bestimme n l.u. Eigenvektoren ~x1, . . . , ~xn von A als Losungen der homogenen LGS:
(A− λiIn)~x = ~0 fur i = 1, . . . , r (dies ist moglich wegen∑
ni = n).
Schritt 3: Bilde die Matrix P mit den Eigenvektoren als Spaltenvektoren:
P = ( ~x1| ~x2| . . . | ~xn) bzw. die Basis B = { ~x1, . . . , ~xn} von Kn.
Schritt 4: Das Produkt P−1AP ist dann eine Diagonalmatrix mit den Eigenwerten als Diago-
nalelemente, jeden sooft angeschrieben, wie die algebraische Vielfachheit angibt.
196
Beispiel A:
a={{2,2,1},{1,3,1},{1,2,2}};a//MatrixForm2 2 1
1 3 1
1 2 2
ew=Eigenvalues[a]
{1, 1, 5}
n1=NullSpace[a-1*IdentityMatrix[3]]
{{−1, 0, 1} , {−2, 1, 0}}
(* Der Eigenwert l1=1 hat algebraische und geometrische Vielfachheit gleich 2. *)
n2=NullSpace[a-5*IdentityMatrix[3]]
{{1, 1, 1}}
(* Der Eigenwert l2=5 hat algebraische und geometrische Vielfachheit gleich 1. *)
{ew,ev}=Eigensystem[a]
{{1, 1, 5} , {{−1, 0, 1} , {−2, 1, 0} , {1, 1, 1}}}
(* Transformationsmatrix p: *)
p=Transpose[{ev[[1]],ev[[2]],ev[[3]]}];p//MatrixForm−1 −2 1
0 1 1
1 0 1
d=Inverse[p].a.p;d//MatrixForm
1 0 0
0 1 0
0 0 5
Beispiel B:
a={{19,-9,-6},{25,-11,-9},{17,-9,-4}};
ew=Eigenvalues[a]
{1, 1, 2}
(* Der Eigenwert 1 hat die algebraische Vielfachheit 2 *)
n=NullSpace[a-ew[[1]]*IdentityMatrix[3]]
{{3, 4, 3}}
(* Die geometrische Vielfachheit des Eigenwertes 1
ist nur 1, a ist daher nicht diagonalisierbar. *)
197
Zum Schluß geben wir noch ein Kriterium mittels des Minimalpolynoms an:
Satz 21.7 Viertes Diagonalisierbarkeitskriterium
Ein linearer Operator T : V → V ist genau dann diagonalisierbar, wenn sein Minimalpolynom
uber dem Skalarkorper K in verschiedene Linearfaktoren zerfallt.
ohne Beweis
21.3 Orthogonales (Unitares) Diagonalisieren
Nachdem zweiten Diagonalisierbarkeitskriterium erhalt man genau dann genug Eigenvektoren,
wenn die geometrische Vielfachheit eines jeden Eigenwertes gleich der algebraischen Vielfachheit
ist. Es ist nun uberraschend, daß dies fur symmetrische bzw. hermitesche Matrizen stets
der Fall ist! Diese konnen also immer diagonalisiert werden und dies sogar mit orthogonalen
(unitaren) Matrizen. Dementsprechend gibt es zu selbstadjungierten Operatoren stets eine
Basis aus orthonormalen Eigenvektoren! Dies ist der eigentliche Hauptsatz der Linearen
Algebra.
Satz 21.8 Spektralsatz fur selbstadjungierte Operatoren
(Hauptsatz der Linearen Algebra)
T : V → V sei ein selbstadjungierter Operator eines endlichdimensionalen Skalarproduk-
traumes V uber K = IR bzw. IC mit den r verschiedenen EW λ1, . . . , λr und den Eigenraumen
Eλ1 , . . . , Eλr (wegen der Selbstadjungiertheit sind alle EW immer reell!)
(i) (Basisform):
V hat eine Basis B aus orthonormalen Eigenvektoren von T .
Oder: Jede hermitsche Matrix ist orthogonal bzw. unitar ahnlich zu einer reellen
Diagonalmatrix, je nachdem, ob K = IR oder K = IC ist.
[T]B = diag(λ1, . . . , λ1, . . . , λr, . . . , λr), λi ∈ IR
Auch so (Hauptsatz der Linearen Algebra):
Jede reell symmetrische Matrix kann orthogonal diagonalisiert werden.
Jede hermitsche Matrix kann unitar diagonalisiert werden.
198
(ii) (Direkte Zerlegungsform):
V ist die orthogonale Summe der Eigenraumen von T : V = Eλ1©⊥ . . .©⊥ Eλr.
(iii) (Projektionsform):
Sei Pi die Orthogonalprojektion auf den i−ten Eigenraum Eλi. Dann ist {P1, . . . , Pr} ein
orthogonale Menge von Projektionen mit P1 + . . . + Pr = id und
T = λ1P1 + . . . + λkPk mit PiPj = PjPi = 0 fur i 6= j
Oder: Jeder selbstadjungierte Operator ist Linearkombination von vertausch-
baren Orthogonalprojektionen, die sich wechselseitig annullieren.
Bemerkung: Der Name Spektralsatz ruhrt von der Projektionsform (iii) her. Die EW λi spielen
die Rolle der Spektrallinien. Die Menge der EW eines Operators nennt man auch sein Spek-
trum.
Zunachst zeigen wir folgendes
Lemma: Ist ein Teilraum W C V invariant gegenuber T , d.h. ist T (W ) ⊆ W , dann ist W⊥
invariant gegenuber T ∗, d.h. T ∗(W⊥) ⊆W⊥.Beweis des Lemmas: Sei y ∈ W⊥ und w ∈ W . Dann ist < w, T ∗(y) >=< T (w), y >= 0 weil T (w) ∈ W nach
Voraussetzung und y ∈ W⊥. Dies gilt fur alle w ∈ W , also ist mit jedem y ∈ W⊥ auch T ∗(y) wieder in W⊥.
Beweis des Spektralsatzes in der Basisform durch Induktion nach der Dimension von V :
1. Sei dim(V ) = 1. Dann ist die Matrixdarstellung [T ]B eine (1×1)−Matrix, also die Diagonalmatrix [T ]B = λ
fur B = (b1). Es ist daher T (b1) = λ1b1 mit b1 6= 0 und e1 = 1‖b1‖
b1 ist eine ON–Basis von V , wobei e1
wieder ein EV von T ist.
2. Annahme: Jeder (n− 1)−dimensionale Skalarproduktraum habe eine ON–Basis aus Eigenvektoren.
3. Sie dim(V ) = n. Nach 19.11 hat T nur reelle EW λ. Daher hat T , ganz egal ob V ein Vektorraum uber
K = IR oder K = IC ist, stets einen Eigenvektor (19.12) x ∈ V von T : T (x) = λx. Es sei: W :=< x > und
e1 ein Einheitsvektor in W , also e1 = x/‖x‖.
Da x EV von T ist, gilt: T (W ) ⊆ W, W ist invariant gegenuber T : T (kx) = kT (x) = kλx = (λk)x ∈ W .
Dann ist nach dem Lemma W⊥ invariant gegenuber T∗ = T, also ebenfalls invariant gegenuber T . Damit
ist die Einschrankung T = T/W⊥ von T auf W⊥ wieder ein selbstadjungierter Operator: T (W⊥) ⊆ W⊥,
also: T : W⊥ → W⊥ und T ∗ = T . Nach dem Hauptsatz uber orthogonale Zerlegung ist V = W ⊕W⊥, also
ist dim(W⊥) = n− 1, weil dim(W ) = 1. Nach Induktionsannahme besitzt W⊥ eine ON–Basis (e2, . . . , en)
aus EV von T , diese sind aber auch EV von T : T (ei) = T (ei) = λiei, weil ei ∈ W⊥. Dann ist aber
(e1, e2, . . . , en) eine ON–Basis von V aus EV von T , weil < e1, ei >= 0 ∀i = 2, . . . , n (wegen x ∈ W⊥).
Damit hat man auch fur n−dimensionale Skalarproduktraume eine ON–Basis aus EV von T gefunden.
199
Beweis der direkten Zerlegungsform
Nach 21.6 ist V direkte Summe seiner Eigenraume. Da EV zu verschiedenen EW eines selbstadjungierten Opera-
tors orthogonal sind, gilt Eλi ⊥ Eλj fur i 6= j, also ist die Zerlegung orthogonal.
Beweis der Projektionsform
Pi sei die Projektion auf den i−ten Eigenraum. Weil diese orthogonal aufeinander stehen, sind die P ′i s Orthogo-
nalprojektionen und eine orthogonale Menge von Projektionen. Es ist P1 + . . . + Pr = id, denn:
Aus V = Eλ1©⊥ . . .©⊥ Eλr folgt x = u1 + . . . + ur mit ui ∈ Eλi ⇒ Pi(x) = ui ⇒P
i Pi(x) =P
i ui = x = id(x) ⇒Pi Pi = id.
Es ist T = λ1P1 + . . . + λrPr, denn:
T (x) =X
i
T (ui) =X
i
λiui =X
i
λiPi(x) ∀x ∈ V ⇒ T =X
i
λiPi.
Die matrizentheoretische Formulierung der Basisform (i) des Spektralsatzes liefert nun den in
der Einleitung angekundigten Satz.
Satz 21.9 Orthogonales Diagonalisieren
(i) Jede reell–symmetrische Matrix kann durch eine orthogonale Matrix reell diagonalisiert
werden.
(ii) Jede hermitesche Matrix kann durch eine unitare Matrix reell diagonalisiert werden.
Beweis:
(i) Jede reelle symmetrische Matrix A stellt einen selbstadjungierten Operator TA definiert durch TA(~x) = A·~x
auf IRn dar. Bezuglich der Standardbasis ist die Matrixdarstellung von TA die Matrix A selbst: [TA]St = A.
Nach dem Spektralsatz gibt es eine ON–Basis B von (reellen) EV von TA, bezuglich der TA durch eine
reelle Diagonalmatrix beschrieben wird. Die Ubergangsmatrix P von der Standardbasis (welche auch eine
ON–Basis ist) zur ON–Basis B wird durch eine orthogonale Matrix beschrieben.
(ii) Analog wie in (i), nur ICn statt IRn.
Algorithmus zur orthogonalen (unitaren) Diagonalisierung einer reell–symmetri-
schen bzw. hermiteschen Matrix A:
Schritt 1: Bestimme alle verschiedenen reellen Eigenwerte λ1, . . . , λr von A.
Schritt 2: Orthonormalisiere die l.u. Eigenvektoren innerhalb eines Eigenraumes Eλi
(i = 1, . . . , r) z.B. mit dem GRAM–SCHMIDT’schen Verfahren. Die Eigenvektoren zu
verschiedenen EW sind automatisch orthogonal, sie brauchen nur normiert zu werden.
Insgesamt erhalt man n orthonormale Eigenvektoren ~x1, . . . , ~xn von A.
200
Schritt 3: Bilde die Matrix P mit den orthonormalen Eigenvektoren als Spaltenvektoren. Sie
ist eine orthogonale (unitare) Matrix: P = ( ~x1| ~x2| . . . | ~xn).
Schritt 4: P−1AP ist eine Diagonalmatrix mit den Eigenwerten als Hauptdiagonalelemente,
wobei man jeden EW so oft anschreibt, wie seine algebraische Vielfachheit angibt.
Beispiel:
a={{7,-2,1},{-2,10,-2},{1,-2,7}};
{ew,ev}=Eigensystem[a]
{{6, 6, 12} , {{−1, 0, 1} , {2, 1, 0} , {1,−2, 1}}}
<<LinearAlgebra ’Orthogonalization’
ev1=GramSchmidt[{ev[[1]],ev[[2]],ev[[3]]}]
p=Transpose[ev1];p//MatrixForm
p1=N[p]//MatrixForm
(* Probe *)
d=Inverse[p].a.p;d//MatriForm
201
(* Spektraldarstellung von a *)
l1=ew[[1]];l2=ew[[2]];l3=ew[[3]];
e1=ev1[[1]];e2=ev1[[2]];e3=ev1[[3]]
p1=Outer[Times,e1,e1];p1//MatrixForm
N[%]//MatrixForm
p2=Outer[Times,e2,e2];p2//MatrixForm]
p3=Outer[Times,e3,e3];p3//MatrixForm
a==l1*p1+l2*p2+l3*p3
True
a = 6(p1 + p2) + 12p3 ist wieder Orthogonalprojektion
202
Statt orthogonale (unitare) Diagonalisierung sagt man oft auch: Hauptachsentransformati-
on.
Fuhre fur A die Hauptachsentransformation durch, bedeutet: Bestimme ein orthogonales
(unitares) P , so daß P−1AP Diagonalgestalt besitzt.
Orthogonale (Unitare) Diagonalisierung (P−1AP ) bzw. P ∗AP ) hat einen entscheidenden nu-
merischen Vorteil: Die Inverse ist einfach die Transponierte (Konjugiert–Transponierte). Au-
ßerdem beschreiben orthogonale (unitare) Matrizen den Wechsel von ON–Basen, ein Fall, der
besonders wichtig ist.
In komplexen Skalarproduktraumen gibt es außer den selbstadjungierten (hermiteschen) Opera-
toren (Matrizen) noch andere Operatoren, die ebenfalls noch (sogar unitar) diagonalisierbar
sind (!); jedoch i.a. nicht mehr mit reellen Hauptdiagonalelementen.
Beispiel:
Sei A =
2 i
i 2
. Es ist dann A∗ =
2 −i
−i 2
6= A.
Beachte: A ist zwar symmetrisch, aber nicht hermitesch!
Trotzdem kann A durch das orthogonale P = 1√2
1 −1
1 1
diagonalisiert werden.
P ∗AP = P−1AP =
2 + i 0
0 2− i
.
Wir notieren jedoch: A ist eine (komplexe) normale Matrix
AA∗ =
2 i
i 2
2 −i
−i 2
=
2 −i
−i 2
2 i
i 2
=
5 0
0 5
.
Beispiel: A =
1 2
−2 1
ist eine reelle, nicht symmetrische, aber normale Matrix.
AAt =
1 2
−2 1
1 −2
2 1
=
5 0
0 5
=
1 −2
2 1
1 2
−2 1
= AtA
pA(X) = X2 − 2X + 5, EW: λ1 = 1 + 2i λ2 = 1− 2i
203
EV zu λ1 : −2ix + 2y = 0
x = 1
y = i
~x1 =(1i
)
EV zu λ2 : 2ix + 2y = 0
x = 1
y = −i
~x2 =(
1−i
)Transformationsmatrix P :
P = 1√2
1 1
i −i
, P−1 = P t = 1√2
1 −i
1 i
und P−1AP =
1 + 2i 0
0 1− 2i
A laßt sich also im Komplexen (unitar) diagonalisieren.
Wir werden im folgenden zeigen, daß die Klasse der normalen Operatoren (Matrizen) die großte
Klasse ist, die unitar diagonalisiert werden kann.
Satz 21.10 Spektralsatz fur normale Operatoren
Abbildungstheoretische Formulierung:
T sei ein normaler Operator auf einem endlich–dimensionalen Skalarproduktraum uber K = IC.
Dann gibt es eine ON–Basis von V aus Eigenvektoren von T .
Damit: Jeder normale Operator kann bezuglich einer ON–Basis durch eine Diagonalmatrix dar-
gestellt werden. Die Diagonalelemente sind aber im allgemeinen nicht mehr reell.
Matrizentheoretische Formulierung:
Jede normale Matrix kann durch eine unitare Matrix diagonalisiert werden. Die Hauptdiagonal-
elemente sind jedoch im allgemeinen nicht mehr reell.
Beweis durch Induktion nach dim(V ) (vergleiche mit dem Beweis zu 21.8)
1. dim(V ) = 1 : V =< e1 >, e1 ist EV.
2. Sei dim(V ) > 1. Nach dem Fundamentalsatz der Algebra besitzt T zumindest einen Eigenwert in IC und
somit einen Eigenvektor v. Wir setzen: W =< v > und e1 = v/‖v‖.
v ist EV von T ⇒ W ist invariant gegenuber T : T (W ) ⊆ W . Da T normal ist, ist v auch EV von T ∗
(siehe 19.15 iii), daher ist W auch bezuglich T ∗ invariant und nach dem Lemma ist W⊥ invariant bezuglich
(T ∗)∗ = T . Der restliche Beweis erfolgt so wie in 21.8.
Von den Matrizen mit reellen Eintragungen sind jedoch nur die symmetrischen orthogonal (d.h.,
nur unter Verwendung von reellen Zahlen) diagonalisierbar.
Insgesamt ergibt sich folgende Charakterisierung der orthogonalen (unitaren) Diagonalisierbar-
keit):
204
Satz 21.11 Charakterisierung von reell–symmetrischen bzw. normalen Matrizen
(i) Eine reelle Matrix ist genau dann orthogonal diagonalisierbar (uber IR), wenn sie symme-
trisch ist.
(ii) Eine (komplexe oder reelle) Matrix ist genau dann unitar diagonalisierbar (uber IC), wenn
sie normal ist.
Auch so formuliert:
Von den reellen Matrizen sind genau die symmetrischen orthogonal diagonalisierbar. Genau die
normalen Matrizen sind unitar diagonalisierbar.Beweis:
(i) a) Sei A orthogonal diagonalisierbar⇒ ∃ orthogonales P mit P−1AP = P tAP = D (D Diagonalmatrix)
⇒ A = PDP t ⇒ At = (PDP t)t = P ttDtP t = PDP t = A (wegen Dt = D), also ist A symmetrisch.
b) Nach 21.9(i) ist jede reell–symmetrische Matrix orthogonal diagonalisierbar.
(ii) a) Sei A unitar diagonalisierbar ⇒ ∃ unitares P mit P−1AP = P ∗AP = D ⇒ A = PDP ∗. Nun ist aber
D∗ 6= D (außer D ist reell), daher kann man nicht den obigen Beweis anwenden. Insbesondere mussen
nicht nur hermitesche Matrizen unitar diagonalisierbar sein. Notwendig ist jedoch AA∗ = A∗A:
AA∗ = PDP ∗(PDP ∗)∗ = PD(P ∗P )D∗P ∗ = PDD∗P ∗
A∗A = (PDP ∗)∗(PDP ∗) = PD∗(P ∗P )DP ∗ = PD∗DP ∗.
Wegen DD∗ = D∗D (Diagonalmatrizen sind stets normal), ist also AA∗ = A∗A notwendig fur die
unitare Diagonalisierung, also muß A normal sein.
b) Die Umkehrung gilt nach 21.10.
Nun noch zwei theoretische Anwendungen des Spektralsatzes:
Simultane Diagonalisierung
Sind mehrere Operatoren gegeben, ist es zweckmaßig, wenn man mit einer ON–Basis B aus-
kommen konnte, bezuglich der alle Operatoren diagonalisiert werden konnen. In der Physik
entsprechen solchen Operatoren Großen, die simultan gemessen werden konnen.
Notwendig fur die simultane Diagonalisierung ist die Vertauschbarkeit der Operatoren: Seien
T1, T2 bezuglich der Basis B diagonalisierbar ⇒ [T1]B · [T2]B = [T2]B[T1]B, (weil Diagonalmatri-
zen vertauschbar sind)⇒ T1◦T2 = T2◦T1. Fur selbstadjungierte Operatoren ist diese Bedingung
aber auch hinreichend.
205
Satz 21.12 Simultane Diagonalisierung
Zwei selbstadjungierte Operatoren eines endlich–dimensionalen Skalarpoduktraumes sind genau
dann simultan diagonalisierbar, wenn sie vertauschbar sind.
Beweis:
1. Notwendigkeit siehe oben.
2. Seien T1 und T2 vertauschbare, selbstadjungierte Operatoren. Eλ sei Eigenraum von T1 und x ∈ Eλ :
T1(T2(x)) = (T1 ◦ T2)(x) = (T2 ◦ T1)(x) = T2(T1(x)) = T2(λx) = λ(T2(x)). Damit ist T2(x) auch ein EV
von T1 zum EW λ ⇒ T2(x) ∈ Eλ, wenn x ∈ Eλ, d.h T2 : Eλ → Eλ ist ein selbstadjungierter Operator auf
Eλ. Nach dem Spektralsatz hat Eλ eine ON–Basis aus EV von T2. Diese sind auch EV von T1, weil sie aus
Eλ sind. Somit hat jeder Eigenraum Eλ von T1 eine ON–Basis von EV von beiden Operatoren T1 und T2.
Nachdem V die direkte Summe der Eigenraume ist, erhalt man durch Vereinigung dieser Basen eine Basis
von V aus EV von beiden Operatoren. Bezuglich dieser Basis konnen beide Operatoren diagonalisiert
werden.
Im allgemeinen ist die geometrische Vielfachheit ≤ algebraische Vielfachheit, aber:
Satz 21.13 Gleichheit von geometrischer und algebraischer Vielfachheit
Fur jeden Eigenwert einer hermiteschen oder einer reell–symmetrischen Matrix ist die geome-
trische Vielfachheit gleich der algebraischen Vielfachheit.
Beweis: Diese Matrizen induzieren selbstadjungierte Abbildungen. Nach dem Spektralsatz sind diese stets diago-
nalisierbar, nach dem zweiten Diagonalisierbarkeitskriterium folgt die Behauptung.
206
21.4 Anwendungen des Diagonalisierens
21.4.1 Berechnung von Matrixpotenzen
Zahlreiche Probleme fuhren auf die Berechnung hoher Matrixpotenzen. Mit diagonalisierbaren
Matrizen konnen solche Berechnungen vereinfacht werden.
Sei A eine diagonalisierbare n×n−Matrix⇒ ∃ regulare P mit P−1AP = D = diag(λ1, . . . , λn),
λi EW von A ⇒ (P−1AP )2 = P−1APP−1AP = P−1AEAP = P−1A2P , allgemein:
(P−1AP)k = P−1AkP ∀k ∈ ZZ
Beweis fur negative k ⇔ A ist invertierbar ⇔ alle EW λi 6= 0.
Fur k = −1 : (P−1AP )−1 = P−1A−1(P−1)−1 = P−1A−1P .
Fur k = −n(n ∈ IN) : (P−1AP )−n : [(P−1AP )n]−1 = (P−1AnP )−1 = P−1(An)−1(P−1)−1 =
P−1A−nP .
Damit gilt fur diagonalisierbare A⇔ D = P−1AP :
Dk = (P−1AP )k = P−1AkP = Dk, also
Ist A = PDP−1 ⇒ Ak = PDkP−1 ∀k ∈ ZZ
Fur D =
λ1
. . .
λn
gilt aber Dk =
λk
1
. . .
λkn
.
Fur negative k sind die EW λi 6= 0, weil A dann invertierbar ist.
Ist A eine diagonalisierbare n× n−Matrix mit den EW λ1, . . . , λn und EV ~x1, . . . , ~xn,
dann ist
Ak = P
λk
1
. . .
λkn
P−1
mit P = ( ~x1| . . . | ~xn). Fur k = −1 erhalt man so wieder eine Moglichkeit fur das Invertieren
einer Matrix.
Zusammenfassung fur die Berechnung der zu A inversen Matrix A−1:
1. Mittels elementarer Zeilenumformungen (RowReduce) (A|In) ∼1 (In|B)⇒ B = A−1
2. A−1 = Pdiag(λ−11 , . . . , λ−1
n )P−1 mit P = ( ~x1| . . . | ~xn), wobei λ1, . . . , λn die EW von A und
~x1, . . . , ~xn die dazugehorigen EV sind.
207
3. mittels der zu A adjungierten Matrix A−1 = 1|A|A
adj
4. mittels des charakteristischen Polynoms pA(X) = c0 + c1X + . . . + Xn.
A invertierbar ⇔ c0 6= 0 (weil alle EW 6= 0), dann ist wegen
An = −c0In − c1A− . . .− cn−1An−1, n ∈ IN
A−1 = −1c0
(c1In + c2A + . . . + An−1
)5. mittels des Minimalpolynoms mA(X) = m0 + m1X + . . . + Xr:
A invertierbar ⇔ m0 6= 0
A−1 = − 1m0
(m1In + m2A + . . . + Ar−1
)21.4.2 Differenzengleichungen und Potenzen Ak
1. Kapital K, Verzinsung 6%, Anfangskapital K0.
Kn+1 = 1, 06. ·Kn︸ ︷︷ ︸Differenzengleichung 1. Ordnung
rekursive Definition einer Folge
⇔Kn = 1, 06n. ·K0︸ ︷︷ ︸
Bildungsgesetz der Folge erlaubt direkte
Berechnung der Folgenglieder
2. Fibonacci–Folge (Botanik): 0, 1, 1, 2, 3, 5, 8, 13, . . . ,
F0 = 0, F1 = 1
Fk+2 = Fk+1 + Fk
Das ist eine Differenzengleichung 2. Ordnung
Frage: Wie sieht das Bildungsgesetz der Fibonacci–Folge aus? Wie groß ist F1000?
Wir setzen
~yk :=
Fk+1
Fk
⇒ ~yk+1 =
Fk+1
Fk+1
Fk+2 = Fk+1 + Fk
Fk+1 = Fk+1
⇔ ~yk+1 =
1 1
1 0
~yk
Aus der Gleichung der Ordnung n wird durch Kombination von n − 1 “trivialen Gleichungen”
(wie Fk+1 = Fk+1) ein Gleichungssystem. Das ist leichter losbar: Sei ~y0 der “Anfangswert”,
~y1 = A · ~y0, ~y2 = A · ~y1 = A · (A · ~y0) = A2 ~y0 . . .
~yk = Ak ~y0, ~y0 Anfangswert
208
Ist A diagonalisierbar ⇔ ∃P : A = PDP−1 ⇔
~yk = Ak ~y0 = PDkP−1 ~y0 = PDk ~C
Die Spalten von P sind EV ~xi von A:
~yk =
~x1| ~x2| . . . | ~xn|︸ ︷︷ ︸P
·
λk1
. . .
λkn
· P−1 ~y0︸ ︷︷ ︸=:~c
= c1λk1 ~x1 + . . . + cnλk
n ~xn
~y0 = c1λ01 ~x1 + . . . + cnλ0
n ~xn ⇔ ~y0 = P~c⇔ ~c = P−1 ~y0
~c := (c1, . . . , cn)
Beispiel: Fibonacci–Folge
A =
1 1
1 0
, λ2 − λ− 1 = 0 λ1 = 1+√
52 λ2 = 1−
√5
2
(λ− λ1)x + y = 0
x− λ1 · y = 0~x1 =
λ1
1
~x2 =
λ2
1
P =
λ1 λ2
1 1
, P−1 = 1λ1−λ2
1 −λ2
−1 λ1
F0 = 0, F1 = 1⇒ ~y0 =
1
0
⇒ ~c = P−1 ~y0 = 1λ1−λ2
1 −λ2
−1 λ1
1
0
= 1λ1−λ2
1
−1
~yk =
λ1 λ2
1 1
λk1
λk2
1 −λ2
−1 λ1
1
−1
1λ1−λ2
=
Fk+1
Fk
,
von ~yk interessiert uns nur die 2. Komponente Fk:
Fk =λk
1
λ1 − λ2− λk
2
λ1 − λ2= 1√
5
[(1+
√5
2
)k−
(1−
√5
2
)k]
Es ist(
1−√
52
)k/√
5 < 12 fur alle k ⇒ F1000 ≈
[1√5
(1+
√5
2
)1000]
F1001F1000
∼ 1+√
52 = 1, 618 . . .
λk2 kann gegenuber λk
1 vernachlassigt werden.Fk+1
Fk∼ λk+1
1
λk1
= λ1 (= goldener Schnitt!)
209
Zusammenfassung:
Gegeben sei eine Folge (a0, a1, . . . ak, ak+1, . . . , ak+n, . . .). Eine lineare Differenzengleichung der
Ordnung n ist eine Beziehung zwischen dem k−ten Glied einer Folge und den n aufeinander
folgenden Gliedern der Folge der Form
ak+n = r1ak+n−1 + . . . + rkak.
Durch die n vorgegebenen “Anfangswerte” a0, a1, . . . , an−1 ist die Folge eindeutig bestimmt.
Durch Einfuhren von “trivialen Gleichungen” kann die Differenzengleichung mit Matrizen ange-
schrieben werden:
~yk+1 = A · ~yk, ~y0 Anfangsvektor.
Das Bildungsgesetz der Folge kann aus
~yk = Ak ~y0
abgeleitet werden.
Ist A diagonalisierbar, dann gilt
~yk = c1λk1 ~x1 + . . . + cnλk
n ~xn
mit ~c := (c1, . . . , cn)t so, daß ~y0 = P · ~c⇔ ~c = P−1 · ~y0.
Dabei sind λ1, . . . , λn die EW von A und ~x1, . . . , ~xn die dazugehorigen EV. Die Spalten von P
sind gerade die EV, P := ( ~x1| ~x2| . . . | ~xn).
21.4.3 Markovprozesse
Beispiel: In ein Land wandern jedes Jahr 110 der Bevolkerung ein, und 2
10 wandern aus. Am
Anfang sind 200 Millionen außerhalb des Landes und 30 Millionen innerhalb des Landes. Stirbt
die Bevolkerung in diesem Land aus oder gibt es eine “Grenzverteilung”?
(Annahme: Gesamtbevolkerung bleibt konstant).
Bevolkerung außerhalb: y
Bevolkerung innerhalb: z
“Startvektor”
y0
z0
210
Am Ende des ersten Jahres gilt:
y1 = 0.9y0 + 0.2z0
z1 = 0.1y0 + 0.8z0
⇔
y1
z1
=
0.9 0.2
0.1 0.8
y0
z0
usw.
Allgemein fur ~yk =(ykzk
): ~yk+1 = A~yk.
Kennzeichnen eines Markovprozesses: ~yk+1 = P ~yk
1. Jeder Zustand ˜yk+1 hangt nur vom vorhergehenden Zustand yk ab.
2. Spaltensummen der Matrix P sind stets 1.
3. Matrix hat nur positive Eintragungen ≤ 1.
P = (pij) heißt eine stochastische Matrix⇔ alle Spaltensummen sind 1 und pij ∈ [0, 1].
~yk = (y1, . . . , yn)t heißt Zustandsvektor ⇔ y1 + . . . + yn = 1⇔ Koordinatensumme = 1.
Die Gleichung hat die Form einer Differenzengleichung, um ~yk fur sehr großes k zu berechnen,
versucht man, A zu diagonalisieren:
|A− λE| =λ2 − 1.7λ + 0.7 = 0
(λ− 1)(λ− 0.7) = 0λ1 = 1, λ2 = 0.7
Eigenvektoren:
−0.1y + 0.2z = 0
−x + 2y = 0
x = 2y = 1
~x1 =(21
)
0.2y + 0.2z = 0
0.1y + 0.1z = 0
y + z = 0
~x2 =(
1−1
)P =
2 1
1 −1
, P−1 = −13
−1 −1
−1 2
=13
1 1
1 −2
Probe:
13
1 +1
+1 2
0.9 0.2
0.1 0.8
2 1
1 −1
= 13
+1 +1
+1 −2
2 +0.7
1 −0.7
= 13
3 0
0 2.1
= 1 0
0 0.7
A = PDP−1 =
2 1
1 −1
· 1
0.7
· 1 1
1 −2
· 13
211
Damit ist:
~yk = Ak ~y0 = c1λk1 ~x1 + c2λ
k2 ~x2 fur
~c = P−1 ~y0 = 13
1 1
1 −2
y0
z0
= 13
y0 + z0
y0 − 2z0
⇒~yk = 1
3(y0 + z0)(21
)+ 1
3(y0 − 2z0)(
1−1
)· 0.7k
Bei k →∞ : (0.7k)→ 0
~y∞ = (y0 + z0)︸ ︷︷ ︸Gesamtbevolkerung
2/3
1/3
Beachte:
2/3
1/3
∈ E1
Antwort: Auf lange Sicht bleibt 1/3 der Bevolkerung im Land, 2/3 sind außerhalb des Landes.
Bisher haben wir das Problem deterministisch gesehen: Anteile der Bevolkerung wanderten.
Wahrscheinlichkeitstheoretische Sichtweise: Blicke auf jeden einzelnen: Ist der einzelne au-
ßerhalb des Landes, so wird er mit Wahrscheinlichkeit 1/10 einwandern. Ist er innerhalb des
Landes, so wird er mit Wahrscheinlichkeit 2/10 auswandern. Wir wissen auf lange Sicht nicht,
wo er ist, aber jedes Jahr geben die Komponenten von ~yk = Ak ~y0 die Wahrscheinlichkeit an, wo
er sich befindet.
“Ubergangsmatrix A” =
0.9 0.2
0.1 0.8
, Wahrscheinlichkeiten ≥ 0⇔ aij ≥ 0.
Summe der Wahrscheinlichkeiten = 1⇔ Spaltensumme = 1.
Bei jedem Markovprozeß ist λ = 1 ein EW und sein mit c1 multiplizierter Eigen-
vektor gibt den Grenzzustand y∞ an:
Sei A eine Ubergangsmatrix (“transition matrix”). Betrachte die Spalten von A−E = A−1 ·E:
Die Spaltensummen von A− E sind 1− 1 = 0.
Daher ergibt die Summe aller Zeilen von A−E den Nullvektor⇔ die Zeilen von A−E sind l.a.
⇒ |A− E| = |A− 1 · E| = 0⇒ λ = 1 ist Eigenwert von A.
Da ~yk = c1λk1 ~x1 + . . . + cnλk
n ~xn ist, ist kein EW großer als 1, denn sonst wurden die Wahr-
scheinlichkeit (=Komponenten von ~yk) gegen ∞ streben, es ist aber jede Wahrscheinlichkeit
≤ 1.
212
Sei λ1 = 1(∃!) und λ2 < 1, λ3 < 1, . . . , λn < 1⇒ λki → 0 fur i = 2, . . . , n⇒
yk → c1x1︸ ︷︷ ︸stationarer Zustandsvektor
= y∞.
Auch so:
Ein Zustandsvektor ~x ∈ Kn heißt ein Gleichungszustand oder stationarer Zustandsvektor
fur die stochastische Matrix P , falls P~x = ~x.
Als Zustandsvektor mussen alle Koordinaten von ~x aus [0, 1] sein und als Summe x1+. . .+xn = 1
ergeben.
0.9y + 0.2z = y
0.1y + 0.8z = z
y + z = 1
⇔
−0.1y + 0.2z = 0
0.1y − 0.2z = 0
y + z = 1
oder:y + z = 1
0.1y − 0.2z = 0⇔
y + z = 1
y − 2z = 0⇔
(y
z
)=
13
(21
)
Stabilitatsfragen
Fibonacci–Zahlen →∞, Endkapitel →∞, Markov–Prozeß: beschrankt.
Gegeben sei die Differenzengleichung ~yk+1 = A~yk. Wir interessieren uns fur das Verhalten von
~yk fur k →∞. Im Falle der Diagonalisierbarkeit gilt: ~yk = c1λk1 ~x1 + . . . + cnλk
n ~xn, das Verhalten
hangt also nur von den EW ab:
Die Differenzengleichung ist stabil ⇔ ~yk → 0⇔ alle |λi| < 1
neutral stabil ⇔ ~yk beschrankt ⇔ alle |λi| ≤ 1
instabil ⇔ ~yk unbeschrankt ⇔ es gibt mindestens einen EW λ mit |λ| > 1.
Achtung: Kleinste Anderungen der EW konnen große Auswirkungen haben (chaotisches Verhal-
ten).
213
21.4.4 Differentialgleichungen
Differentialgleichung erster Ordnung: y′ = ay ⇔ y = c · eax: allgemeine Losung
Differentialgleichung erster Ordnung mit Anfangsbedingung:
y′ = ay
y(0) = 2︸ ︷︷ ︸Anfangswertproblem
⇒ 2 = ce0 = c⇒ y(x) = 2eax :spezielle (partikulare) Losung
des Anfangswertproblem.
Differentialgleichungssysteme erster Ordnung mit konstanten Koeffizienten
Koordinatenform Matrixform
y′1 = a11y1 + a12y2 + . . . + a1nyn
y′2 = a21y1 + a22y2 + . . . + a2nyn
=...
y′n = an1y1 + an2y2 + . . . + annyn
⇔
y′1
y′2...
y′n
︸ ︷︷ ︸
~y′(x)
=
a11 . . . a1n
a21 . . . a2n
......
an1 . . . ann
︸ ︷︷ ︸
A
y1
y2
...
yn
︸ ︷︷ ︸
~y(x)
Bemerkung: Ein Vektor (eine Matrix), deren Eintragungen Funktionen sind, wird differenziert,
indem man jede Eintragung differenziert.
Kurzform des Anfangswertproblems:
~y′(x) = A · ~y(x)
~y(x0) = ~y0
bzw.~y′(x) = A~y(x)
~y(0) = ~y0
Beispiel:
y′1 = 2y1
y′2 = 5y2
y′3 = 3y3
mit y1(0) = 1, y2(0) = 4, y3(0) = −1
Matrixform: ~y =
2 0 0
0 −5 0
0 0 3
~y mit ~y(0) =
1
4
−1
Weil in jeder Gleichung nur eine unbekannte Funktion vorkommt, ist das System leicht losbar.
Allgemeine Losung: y1 = c1e2x, y2 = c2e
−5x, y3 = c3e3x
~y(x) =
c1e
2x
c2e−5x
c3e3x
y1(0) = 1 ⇒ c1 = 1
y2(0) = 4 ⇒ c2 = 4
y3(0) = −1 ⇒ c3 = −1
214
Spezielle (partikulare) Losungen:
~y(x) =
e2x
4e−5x
−e3x
Das System war insbesondere deshalb so leicht zu losen, weil A Diagonalgestalt hatte.
Allgemeine Strategie: Versuche A durch eine geeignete Substitution fur ~y auf Diagonalgestalt zu
bringen!
y1(x) = p11u1(x) + . . . + p1nun(x)
y2(x) = p21u1(x) + . . . + p2nun(x)
yn(x) = pn1u1(x) + . . . + pnnun(x)
⇔ ~y(x) = P · ~u(x)
Nach den Differentiationsregeln gilt dann: ~y′ = P · ~u′.
Einsetzen in ~y′ = A~y ergibt:
P~u = AP ~u′ ⇔ ~u′ = (P−1AP )~u
P soll also invertierbar sein. Ist A diagonalisierbar, dann gibt es eine Transformationsmatrix P
mit P−1AP = D, also erhalten wir das neue Differentialgleichungsproblem:
~u′(x) = D~u(x)
Losungsverfahren fur y′ = Ay:
Schritt 1: Bestimme eine Matrix P , die A diagonalisiert.
Schritt 2: Fuhre die Substitution ~y = P~u durch. Das fuhrt auf ein neues System der Form
~u′ = D · ~u.
Schritt 3: Lose das System ~u′ = D~u.
Schritt 4: Berechne ~y aus der Matrixgleichung ~y = P · ~u.
215
Schritt 4 kann auch folgend abgekurzt werden: Die Spalten der diagonalisierenden Matrix P sind
die EV ~xi von A,D enthalt in der Hauptdiagonale die Eigenwerte λi von A, damit:
~u(x) =
c1e
λ1x
...
cneλnx
, P = ( ~x1| ~x2| . . . | ~xn)
~y(x) = P · ~u(x) = ( ~x1| ~x2| . . . | ~xn)
c1e
λ1x
...
cneλnx
y(x) = c1x1eλ1x + . . . + cnxneλnx Allgemeine Losung
Berucksichtigung der Anfangsbedingungen:
~y(0) = ~y0
P ~u(0)︸︷︷︸ = ~y0
P ·
c1
...
cn
︸ ︷︷ ︸
=:~c
= ~y0 ⇔ P · ~c = ~y0 ⇔ c = P−1y0
Damit: Das Anfangswertproblem ~y′ = A~y, ~y(0) = ~y0 mit diagonalisierbarem A hat als Losung:
y(x) = c1˜x1eλ1x + . . . + cnxneλnx mit c := (c1, c2, . . . , cn)t = P−1y0.
Bemerkung:
1. Beachte, daß man die Differentialgleichung rein algebraisch, ohne irgendeine Integration
gelost hat.
2. Ist A nicht diagonalisierbar, versucht man mittels ~y = P · ~u auf eine Dreiecksgestalt zu
kommen (A triangulieren) und lost das neue System ~y′ = D~u durch Ruckwartseinsetzen
(→ Kapitel 22).
Ist A auch nicht triangulierbar, dann geht es mit der Jordanschen Normalform (→ Kapitel
23).
3. Homogene Differentialgleichungen hoherer Ordnung konnen durch
y1 = y, y2 = y′, y3 = y′′, . . . auf ein System von Differentialgleichungen erster Ordnung
zuruckgefuhrt werden (siehe Beispiel).
216
Die Matrix eAx
Die Exponentialfunktion y = eax ist wegen der Differentiationsregel y′ = aeax Losung der Dif-
ferentialgleichung y′ = ay. Es gibt eine schone Analogie, dies auf Differentialgleichungssysteme
zu verallgemeinern.
Es gilt bekanntlich:
ex =∑∞
i=0xi
i! =∑∞
i=01i!x
i
eax =∑∞
i=0(ax)i
i! =∑∞
i=01i!(ax)i
Davon inspiriert, setzt man:
eAx :=∞∑i=0
Ii!
(Ax)i = In + Ax +(Ax)2
2!+
(Ax)3
3!+ . . . ∈M(n× n, IR)
Unter geeigneten Voraussetzungen konvergiert diese Potenzreihe aus Matrizen (→ Hohere Li-
neare Algebra).
Zahl a ↔ n× n− Matrix A
1 ↔ In
Beispiel: A =
4 −5
2 −3
⇒ A2 =
6 −5
2 −1
, A3 =
14 −15
6 −7
. . .
eAx =
1 0
0 1
+ x ·
4 −5
2 −3
+ x2
2!
6 −5
2 −1
+ x3
3!
14 −15
6 −7
+ . . .
=
1 + 4x + 3x2 − 83x3 + . . . −5x− 5
2x2 − 52x3 + . . .
2x + x2 + x3 + . . . 1− 3x− x2
2 + 76x3 + . . .
=
f11(x) f12(x)
f21(x) f22(x)
,
wobei fij(x) die Grenzfunktionen der entsprechenden Potenzreihen sind (allerdings sind sie oft
nicht leicht angebbar).
Vereinbarungsgemaß wird die Matrix eAx differenziert, indem man jede Eintragung differenziert.
Wegen der Differentiationsregeln gilt dann:(eAx
)′ = A + A2·2x2! + A3·3x2
3! + . . . =
A ·(I + Ax
1! + A2·x2
2! + . . .)
= A · eAx, also(eAx
)′ = A · eAx ↔ (eax)′ = aeax.
217
Berechnung von eAx fur diagonalisierbare Matrizen A:
1. Mittels der Diagonalmatrix D
Ist A diagonalisierbar ⇒ ∃P : P−1AP = D mit
D =
λ1 0
...
0 λn
⇒ A = PDP−1 ⇒ A2 = PDP−1, A3 = PD3P−1, . . .⇒
eAx = P ·
eλ1x 0
...
0 eλnx
P−1 = PeDxP−1 mit P = (x1| . . . |xn)
wobei ~x1, . . . ~xn die EV von A zu den EW λ1, . . . , λn sind.
Denn ist D = diag(λ1, . . . , λn)⇒
eDx = I + Dx + D2x2
2! + . . . =
1 + λ1x + 1
2!λ21x
2 + . . .
. . .
1 + λnx + 12!λ
2nx2 + . . .
⇒
eDx =
eλ1x 0
...
0 eλnx
Also: A = PDP−1 ⇒ eAx = PeDxP−1 = P
eλ1x
. . .
eλnx
p−1.
2. Mittels Spektralsatz: Ist A = λ1P1 + . . . + λrPr ⇒ eAx = eλ1xP1 + . . . + eλnxPn.
(siehe Beispiel unten)
3. Ist A nicht diagonalisierbar, dann muß man die Funktionen in eAx “erraten” oder durch
die Jordan’sche Normalform berechnen (→ Hohere Lineare Algebra).
Fur die Exponentialmatrix gilt:
eAx ist immer regular und (eAx)−1 = e−Ax,det(eAx) = esp(Ax).
(eAx)′ = AeAx
218
Beweis fur diagonalisierbare Matrizen A (beachte, daß eAx ∼2 eDx ist):
|eAx| =
∣∣∣∣∣∣∣∣∣eλ1x 0
. . .
0 eλnx
∣∣∣∣∣∣∣∣∣ = eλ1x · eλ2x · . . . · eλnx = eλ1x+...+λnx = esp(Ax) 6= 0
Zusammenfassung:
Die
Differenzengleichung Differentialgleichung
~yk+1 = A · ~yk; ~y0 ~y(x)′ = A · ~y(x); ~y(0) = ~y0
hat die Losung
~yk = Ak · ~y0 ~y(x) = eAx · ~y0
Ist A diagonalisierbar :
A = PDP−1 mit D =
λ1 0
...
0 λn
, P = ( ~x1| . . . | ~xn)
wobei ~xi EV zum EW λi von A ist,
dann kann die Losung als Linearkombination der EV geschrieben werden:
~yk = c1λk1 ~x1 + . . . + cnλk
n ~xn ~y(x) = c1eλ1t ~x1 + . . . + cneλnt ~xn
mit
~c = (c1, . . . , cn) = P−1 ~y0 ⇔ P · ~c = ~y0
Beispiel: Berechnung von eAx:
A =
0 1
−1 0
A∗ =
0 −1
1 0
~y′ =
0 1
−1 0
y ⇔y′1 = y2
y′2 = −y1
AA∗ =
0 1
−1 0
0 −1
1 0
=
1 0
0 1
, A∗A
0 −1
1 0
0 1
−1 0
=
1 0
0 1
Das reelle A ist normal (aber nicht symmetrisch) ⇔ A ist in IC diagonalisierbar.
pA(X) =
∣∣∣∣∣∣ −x 1
−1 −x
∣∣∣∣∣∣ = x2 + 1
λ1 = i λ2 = −i
219
Damit ist:
−ix + y = 0
x = 1y = i
~x1
(1i
)ix + y = 0
x = 1y = i
~x2 =(
1−i
)P =
1 1
i −i
|P | = −i− i = −2i
P−1 = 1−2i
−i −1
−i 1
= 12i
i 1
i −1
= 12
1 −i
1 i
Berechnung von eAx mittels Diagonalisierungsformel:
eAx =
1 1
i −i
eix 0
0 e−ix
1 −i
1 i
· 12 = 1
2
1 1
i −i
eix −ieix
e−ix ieix
=
= 12
eix + e−ix −ieix + ie−ix
ieix − ie−ix eix + e−ix
=
cos x sinx
− sinx cos x
nach der Eulerschen Formel:
eix = cos x + i sinx
e−ix = cos x− i sinx
︸ ︷︷ ︸2 cos x
+ie−ix = i cos x + sinx
−ieix = −i cos x + sinx
︸ ︷︷ ︸2 sin x
+
Damit:
~y = eAx ~y0 =
cos x sinx
− sinx cos x
c1
c2
y1 = c1 · cos x + c2 · sinx
y1 = −c1 · sinx + c2 · cos x
Berechnung von eAx mittels Spektralsatz:
A = λ1P1 + λ2P2
eAx = eλ1xP1 + eλ2xP2
P1 = 12
(1i
)· (1, i) = 1
2
1 −i
i 1
P2 = 1
2
(1−i
)· (1− i) = 1
2
1 i
−i 1
eAx = 1
2eix ·
1 −i
i +1
+ 12e−ix
1 +i
−i +1
= 12
eix + e−ix −ieix + ie−ix
ieix − ie−ix +eix − e−ix
=
=
cos x sinx
− sinx cos x
Die Orthogonalprojektionen wurden mittels des außeren Produktes berechnet
(Achtung: ON–Basis benutzen und 2. Faktor konjugiert–komplex nehmen).
220
22 Triangulieren
Wie wir im vorhergehenden Kapitel gesehen haben, braucht ein linearer Operator T auf einem
endlich–dimensionalen Vektorraum keine Diagonalmatrixdarstellung zu besitzen. Dies ist unter
anderem nur dann moglich, wenn er “genug” Eigenvektoren hat, d.h., wenn es eine Basis des
Vektorraumes aus Eigenvektoren von T gibt. Hat man zu “wenig” Eigenvektoren, gibt es andere
einfache Darstellungsformen, wie z.B. Dreiecksmatrizen.
Einen Operator bzw. eine Matrix triangulieren heißt, ihn bzw. sie auf eine Dreiecksmatrix
(triangulare Matrix) zu “bringen”, d.h., eine solche Basis B des Vektorraumes bzw. eine solche
regulare Matrix P zu finden, daß
[T ]B bzw. P−1AP
eine (obere) Dreiecksmatrix ist.
Eine notwendige Bedingung fur die Triangulierung von T bzw. A ist wie im Fall der Diagonali-
sierung, daß alle Nullstellen des charakteristischen Polynoms PT (X), also die EW von T bzw.
A im zugrundeliegenden Skalarkorper K liegen:
Sei [T ]B =
a11 a12 . . . a1n
a22 . . . a2n
. . .
ann
Dann gilt fur das charakteristische Polynom
PT (X) =
∣∣∣∣∣∣∣∣∣∣∣∣
a11 −X a12 . . . a1n
a22 −X . . . a2n
. . .
ann −X
∣∣∣∣∣∣∣∣∣∣∣∣= (a11 −X)(a22 −X) . . . (ann −X).
Es zerfallt also in Linearfaktoren. Wenn das nicht der Fall ist, ist T nicht mehr triangulierbar
(auch nicht diagonalisierbar). Im SCHURschen Lemma wird gezeigt, daß das Zerfallen in
Linearpolynome fur die Triangulierung bereits hinreichend ist. In K = IC ist dies immer der
Fall, nicht jedoch in K = IR. In der Algebra wird gezeigt, daß es zu jedem Korper K einen
solchen gibt, in dem jeder Polynom uber K in Linearfaktoren zerfallt, so daß also trianguliert
werden kann. Der Triangulierungssatz stellt also einen wichtigen Fall dar.
221
1. Dreiecksmatrizen
Definition 22.1 (i) Ein linearer Operator T : V → V heißt triangulierbar, wenn es in V
eine Basis B gibt, bezuglich der T durch eine Dreiecksmatrix
[T ]B =
a11 a12 . . . a1n
a22 . . . a2n
. . .
ann
dargestellt werden kann.
(ii) Eine n× n−Matrix A heißt triangulierbar, wenn es eine regulare Matrix P gibt, sodaß
P−1AP eine Dreiecksmatrix ist.
Also: A triangulierbar ⇔ A ist ahnlich zu einer Dreiecksmatrix.
Beachte: Die EW von T bzw. A sind genau die Elemente in der Hauptdiagonale der Dreiecks-
matrix.
Satz 22.1 Triangulierungssatz
(i) Abbildungstheoretische Form:
V sei ein beliebiger Vektorraum uber dem Korper K und T : V → V ein linearer Ope-
rator. Jeder lineare Operator T : V → V , dessen charakteristisches Polynom in K[X] in
Linearfaktoren zerfallt, ist uber K triangulierbar.
(ii) Matrizentheoretische Form:
Jede quadratische Matrix A uber dem Korper K, deren charakteristisches Polynom in K[X]
in Linearfaktoren zerfallt, ist uber K triangulierbar.
Der Beweis liefert auch das Verfahren zur Triangulation:
Das charakteristische Polynom zerfallt in Linearfaktoren⇒ PA(X) = (λ1−X) . . . (λn−X), also
sind λ1, . . . , λn die EW von A (jeder sooft gezahlt, wie die algebraische Vielfachheit angibt).
222
1. Schritt: x1 sei EV von A zu λ1.
Wir nehmen ~x1 als 1. Spalte einer regularen n× n−Matrix Q1:
Q1 := ( ~x1|s2| . . . | ~sn) ∈ Kn·n regular ⇒
(~s2, . . . , ~sn sind also so zu wahlen, daß |Q1| 6= 0)
AQ1 = (A ~x1|A~s2| . . . A ~sn) = (λ1 ~x1|A~s2| . . . |A~sn)
Q−1AQ1 = (λ1Q−1 ~x1| . . . |Q−1A~sn) = (λ1 ~e1| . . . | . . .),
denn Q−1Q = In = (~e1|~e2| . . . | ~en).
Also ist:
Q−11 AQ1 =
λ1 B1
0 A1
, wobei A1 eine (n− 1)× (n− 1) Matrix ist.
Nun haben Q−11 AQ1 und A dieselben EW, weil diese Ahnlichkeitsinvarianten sind.
Wegen |Q−11 AQ1 −XIn| = (λ1 −X)|A1 −XIn−1| folgt, daß λ2, . . . , λn auch die EW der
(n− 1)× (n− 1) Matrix A1 sind.
Dasselbe Verfahren wie fur A wenden wir nun auf A1 an:
2. Schritt: x2 sei ein EV von A1 zu λ2.
Wir nehmen nun ~x2 als 1. Spalte einer regularen (n−1)× (n−1)−Matrix Q2 (die ubrigen
Spalten sind wieder so zu wahlen, daß |Q2| 6= 0). Wie oben folgt:
Q−11 AQ1 =
λ2 B2
0 A2
, wobei A2 eine (n− 2)× (n− 2) Matrix ist.
Das Verfahren wird solange fortgesetzt, bis An−1 = (λn) eine (1× 1)−Matrix ist.
Nach hochstens n− 1 Schritten erhalt man also fur
Q := Q1 ·
I1 0
0 Q2
I2 0
0 Q3
. . .
In−2 0
0 Qn−1
, Ij j − te Einheitsmatrix
Q−1AQ =
λ1 %
.. .
0 λn
.
223
Beispiel: Bestimme eine regulare Matrix Q derart, daß Q−1AQ triangular ist.
A =
9 −1 8 −9
6 −1 5 −5
−5 1 −4 5
4 0 5 −4
1. PA(X) = (X2 − 1)(X2 − 4) = (X − 1)(X + 1)(X − 2)(X + 2) zerfallt in Linearfaktoren
⇒ A ist uber IR triangulierbar.
λ1 = 1, λ2 = −1, λ3 = 2, λ4 = −4
(alle EW sind verschieden ⇒ A ware sogar diagonalisierbar).
2. ~x1 = (5, 5,−1, 3)t ist EV zu λ1 = 1.
Q=
5 0 0 0
5 1 0 0
−1 0 1 0
3 0 0 1
Q−11 AQ = 1
5
5 −1 8 −9
0 0 −15 20
0 4 −12 16
0 3 1 7
=
1 B1
0 A1
3. λ2 = −1 ist EW von A1 mit ~x2 = (4, 0,−1)t als EV.
Q2 :=
4 0 0
0 1 0
−1 0 1
⇒ Q−12 A1Q2 =
120
−20 −15 20
0 −48 64
0 −11 48
=
−1 B2
0 A2
4. λ3 = 2 ist EW von A2 mit ~x3 = (8, 11)t als EV.
Q3 :=
8 0
11 1
⇒ Q−13 A2Q3 =
2 2/5
0 −2
ist bereits triangular.
5. Q := Q1 ·
I1 0
0 Q2
I2 0
0 Q3
=
5 0 0 0
5 4 0 0
−1 0 8 0
3 −1 11 1
224
6. Probe: Q−1AQ =
1 1 −7 −9/5
0 −1 5 1
0 0 2 2/5
0 0 0 −2
.
Mit MATHEMATICA wird die Dreiecksmatrix allerdings mit anderer Zeilenfolge ausgegeben:
a={{9,-1,8,-9},{6,-1,5,-5},{-5,1,-4,5},{4,0,5,-4}};
a//MatrixForm9 −1 8 −9
6 −1 5 −5
−5 1 −4 5
4 0 4 −4
{p,s}=Chop[SchurDecomposition[a]];
(* Transformationsmatrix p *)
p//MatrixForm−0.730297 −0.19518 0.654654 0
−0.547723 0.58554 −0.436436 0.408248
0.365148 0.09759 0.436436 0.816497
−0.182574 −0.78072 −0.436436 0.408248
(* Schur’sche Normalform *)
s//MatrixForm2 −6.94879 −18.8049 −3.42864
0 −2 −3.42864 −1.51396
0 0 −1 −0.534522
0 0 0 1
(* Probe *)
Chop[Inverse[p].a.p]==s
True
225
Spezialfall: In IC[X] zerfallt jedes Polynom, daher gilt:
Satz 22.2 SCHUR’sches Lemma
Jede komplexe n× n−Matrix ist uber IC stets triangulierbar.
Allgemein:
Jede n × n−Matrix uber einem algebraisch abgeschlossenen Korper K ist uber diesen stets tri-
angulierbar.
Theoretische Anwendung:
Satz 22.3 Spur und Determinante
(i) Die Spur einer Matrix ist die Summe ihrer Eigenwerte.
(ii) Die Determinante einer Matrix ist das Produkt ihrer Eigenwerte.
Beweis: Im algebraischen Abschluß ist eine Matrix ahnlich zu einer Dreiecksmatrix. Da die
EW, sp(A) und det(A) Ahnlichkeitsinvarianten sind, und die EW einer Dreiecksmatrix ihre
Diagonalelemente, gilt:
sp(A) = a11 + . . . + ann = λ1 + . . . + λn
det(A) = a11 · . . . · ann = λ1 · . . . · λn
226
23 Blockdiagonalisieren
In Kapitel 21 hatten wir gesehen, daß Diagonalformen sehr nutzlich sind. Was ist die nachstbeste
Form nach einer Diagonalmatrix D = diag(λ1, . . . , λn)? Eine Moglichkeit ist: Statt der Skalare
λi stehen in der Hauptdiagonale quadratische Blockmatrizen Ai.
n× n− Blockdiagonalmatrix = M =
A1 O . . . O
O A2 . . . O...
......
O O . . . Ar
= diag(A1, . . . , Ar)
Die Ai sind (si × si)−Matrizen mit∑r
i=1 si = n, O ist eine entsprechende Nullmatrix.
Manche Blockdiagonalmatrizen werden sich als Dreieicksmatrizen erweisen, namlich dann, wenn
die Ai Dreiecksmatrizen sind.
Ein Operator T : V → V erwies sich genau dann als diagonalisierbar, wenn V die direkte der
Eigenraume Eλ war: V = Eλ1 ⊕ . . .⊕ Eλr , wobei λ1, . . . , λr die verschiedenen EW von T sind.
Fur diese Eigenraume gilt: T (Eλ) ⊆ Eλ, Eλ ist also T−invariant, d.h., mit x ∈ Eλ ist auch
T (x) ∈ Eλ, denn:
Ist x ∈ Eλ ⇒ x = k1b1 + . . . + kmbm, wobei (b1, . . . , bm) eine Basis von Eλ sei.
Dann ist T (x) = k1T (b1) + . . . + kmT (bm) = k1λb1 + . . . + kmλbm = λ(k1b1 + . . . + kmbm) ∈ Eλ.
Allgemein wird sich zeigen: T : V → V laßt sich genau dann durch eine Blockdiagonalmatrix
darstellen, wenn V direkte Summe von T−invarianten Teilraumen Wi C V ist. Die Kunst wird
sein, solche T−invarianten Teilraume zu finden.
23.1 Allgemeines Blockdiagonalisieren
Definition 23.1 T : V → V sei ein linearer Operator und W C V ein Teilraum von V .
(i) W heißt ein T–invarianter Teilraum von T , wenn T (W ) ⊆ W . Dann ist die Ein-
schrankung T/W : W →W ein linearer Operator auf W : (T/W )(w) = T (w)∀w ∈W .
(ii) V sei direkte Summe der T−invarianten Teilraume Wi und Ti := T/Wi. V = W1⊕. . .⊕Wr
oder T wird direkt zerlegt in die Operatoren Ti: T := T1 ⊕ . . .⊕ Tr.
Man sagt auch: Die T−invarianten Teilraume Wi reduzieren T .
227
Beispiel: Die Eigenraume Eλ von T sind T−invariant.
Beispiel: T : IR3 → IR3 sei die Rotation um den Winkel ϕ um die z−Achse.W = x− y−Ebene ist T−invariant.
U = z−Achse ist T−invariant.
T/W dreht jeden Vektor um den Ursprung um ϕ.
T/U = idU .
Satz 23.1 Invariante Teilraume
T : V → V sei ein linearer Operator und f(x) ein Polynom aus K[X]. Folgende Teilraume von
V sind T−invariant:(i) W = {0}, (ii) W = V, (iii) W = ker(T ),
(iv) W = im(T ), (v) ker f(T ), (vi) W = ∩Wi, wobei die Wi T − invariant sind.
Beweis von (v): f(T ) = a0I + a1T + a2T2 + . . . + anTn.
Sei x ∈ ker f(T ) ⇒ f(T )(x) = 0. Wir zeigen: T (x) ∈ ker f(T ). Grundsatzlich ist f(X) ·X =
X · f(X) ⇒ f(T ) ◦ T = T ◦ f(T ) ⇒ f(T )(T (a)) = a0T (x) + a1T (T (x)) + . . . + anTn(T (x)) =
T ◦ (a0I(x) + a1T (x) + . . . + anTn(x)) = T ◦ f(T )(x) = T (0) = 0.
Beachte: ◦ ist fur lineare Operatoren auch rechtsdistributiv.
Wir benutzen folgende Basiseigenschaft: V ist direkte Summe der Wi genau dann, wenn die
Vereinigung der Basen von Wi wieder eine Basis von V ist.
Satz 23.2 Blockdiagonalmatrixdarstellung
T : V → V sei ein linearer Operator und V die direkte Summe der T−invarianten Teilraume
W1, . . . ,Wr. Ist Ai die Matrixdarstellung der Einschrankung T/Wi bezuglich der Basis Bi von
Wi, dann ist die Matrixdarstellung von T bezuglich der Basis B = B1 ∪ . . . ∪Br gegeben durch
[T ]B =
A1 O . . . O
O A2 . . . O...
O O . . . Ar
228
Also: [T ]B1∪B2...∪Br =
[T/W1]B1 O . . . O
O [T/W2]B2 O...
. . .
O . . . . . . [T/Wr]Br
Man sagt auch: [T ]B ist die direkte Summe der Matrizen A1, A2, . . . , Ar und schreibt
[T]B = A1 ⊕A2 ⊕ . . .⊕Ar.
Beweis fur zwei T−invariante Teilraume:
V = U ⊕W und T (U) ⊆ U, T (W ) ⊆W.
B1 = (u1, . . . , uk) sei Basis von U und (w1, . . . , wl) Basis von W .
T1 := T/U und T2 := T/W . Dann gilt:
T1(u1) = a11u1 + . . . + a1kuk
......
...
T1(uk) = ak1u1 + . . . + akkuk
⇒ [T1]B1 = A1 =
0BBB@a11 . . . ak1
...
a1k . . . akk
1CCCAT2(w1) = b11w1 + . . . + b1lwl
......
...
T2(wl) = bk1w1 + . . . + bllwl
⇒ [T2]B2 = A =
0BBB@b11 . . . bl1
...
b1l . . . bll
1CCCA = A2
B1 ∪B2 = (u1, . . . , uk, w1, . . . , wl) ist Basis von V .
T (u1) = T1(u1) = a11u1 + . . . + a1kuk + 0w1 + . . . + 0wk
......
......
T (uk) = T1(uk) = ak1u1 + . . . + akkuk + 0w1 + . . . + 0wk
T (w1) = T2(w1) = 0u1 + . . . + 0uk + b11w1 + . . . + b1lwl
......
......
T (wk) = T2(wl) = 0u1 + . . . + 0ul + bl1w1 + . . . + bllwl
⇒ [T ]B =
[T1]B1 O
O [T2]B2
=
A1 O
O A2
Man schreibt: [T ]B = A⊕B und T = T1 ⊕ T2.
Solche T−invariante Teilraume Wi von V , die V direkt zerlegen, erhalt man nach dem folgenden
Hauptzerlegungssatz aus dem Minimalpolynom von T :
Satz 23.3 Hauptzerlegungssatz
T : V → V sei ein linearer Operator mit dem Minimalpolynom
mT (X) = p1(X)t1p2(X)t2 . . . pr(X)tr ,
229
wobei die p1, . . . , pr verschiedene, irreduzible Polynome sind.
Wi sei der Nullraum der Abbildung pi(T )ti.
Wi := ker(pi(T)ti) i = 1, . . . , r
Dann gilt:
(i) Jedes Wi ist ein T−invarianter Teilraum von V
(ii) V = W1 ⊕ . . .⊕Wr
(iii) pi(X)ti ist das Minimalpolynom der Einschrankung von T auf Wi:
mT/Wi= pi(X)ti
Ohne Beweis.
Beispiel: A =
2 1 0
−3 0 0
3 1 1
pA(X) = X3 − 3X2 + 5X − 3 = (X − 1)(X2 − 2X + 3) = mA
U1 = ker(A− I) =<
0
0
1
>
U2 = ker(A2 − 2A + 3I) =<
1
0
0
,
0
1
−1
>
V = U1 ⊕ U2
Basis B =
0
0
1
,
1
0
0
,
0
1
−1
⇒ P =
0 1 0
0 0 1
1 0 −1
.
Mit diesem P gilt P−1AP =
1 0 0
0 2 1
0 −3 0
⇒ A = A⊕A2 mit A1 = (1), A2 =
2 1
−3 0
Es kommt also auf die Berechnung des Minimalpolynoms an:
Algorithmus zur Berechnung des Minimalpolynoms mA aus dem charakteristischen
Polynom pA:
230
1. Zerlege pA(X) in irreduzible Faktoren (schwierig; in Mathematica z.B. mit Factor[p])
pA(X) = p1(X)t1 . . . pr(X)tr
2. Starte bei p1(X) . . . pr(X) und prufe, ob A Nullstelle ist. Falls ja, dann ist
mA = p1(X) . . . pr(X).
Wenn nicht, probiere, ob A eine Nullstelle von p21(X)p2 . . . pr usw.
Damit: Sind alle irreduziblen Faktoren von pA(X) verschieden, dann ist mA(X) = pA(X).
Zwei Spezialfalle
1. T sei ein nilpotenter Operator vom Index k, d.h. T k = 0, aber T k−1 6= 0.
Das Minimalpolynom ist mT (X) = Xk und 0 daher sein einziger EW.
Satz 23.4 Blockdiagonalzerlegung von nilpotenten Operatoren
T : V → V sei ein nilpotenter Operator vom Index k bzw. A eine quadratische, nilpotente
n× n−Matrix vom Index k.
Dann hat T eine blockdiagonale Matrixdarstellung, deren Diagonalblocke N von der Form
N =
0 1 0 . . . 0 0
0 0 1 . . . 0 0
. . . . . . . . . . . . . . . . . .
0 0 0 . . . 0 1
0 0 0 . . . 0 0
sind. Es gibt mindestens eine (k × k)−Block, alle anderen Blocke haben Dimensionen ≤ k.
Die Gesamtanzahl der Blocke = def(T ).
Die Anzahl der Blocke der Dimension mi ist gegeben durch
2mi −mi+1 −mi−1 wobei mi = def(T i).
Beachte: Jeder Block ist selbst nilpotent von einem Index, der gleich seiner Dimension ist.
Beachte: Obige Blockdiagonalzerlegung ist sogar triangular.
Beispiel: A =
0 1 1 0 1
0 0 1 1 1
0 0 0 0 0
0 0 0 0 0
0 0 0 0 0
, A2 =
0 0 1 1 1
0 0 0 0 0
0 0 0 0 0
0 0 0 0 0
0 0 0 0 0
, A3 = O
231
A ist nilpotent vom Index 3. Die blockdiagonale Matrixdarstellung M enthalt mindestens einen
Block der Dimension 3: N =
0 1 0
0 0 1
0 0 0
und keinen großeren.
Wegen rg(A) = 2 ist def(A) = 5− 2 = 3, daher enthalt M 3 diagonale Blocke ⇒
M enthalt einen (3 × 3)−Block und zwei (1 × 1)−Blocke. Eine andere Konstellation ist nicht
moglich.
A ∼2 M =
0 1 0
0 0 1
0
0
.
Die blockdiagonalisierende Matrix P mit P−1AP = M erhalt man am besten mittels eines
unbestimmten Ansatzes:
Wir bestimmen eine Basis B = (~b1, ~b2, ~b3, ~b4, ~b5) des K5, bezuglich der die Matrixdarstellung
[T ]B = M ist. Nach Definition der Matrixdarstellung (Spalten = Koordinaten der Bilder der
Basisvektoren) gilt auf Grund der Gestalt von M :
A(~b1) = A~b1 = 0 · ~b1 + . . . + 0 · ~b5 = ~0 ⇒ ~b1 ∈ ker(A)
A(~b2) = A~b2 = 1 · ~b1 + . . . + 0 · ~b5 = ~b1 ⇒ ~b2 ist Losung von A~x = ~b1
A(~b3) = A~b3 = 1 · ~b2 + . . . + 0 · ~b5 = ~b2 ⇒ ~b3 ist Losung von A~x = ~b2
A(~b4) = A~b4 = 0 · ~b1 + . . . + 0 · ~b5 = ~0 ⇒ ~b4 ∈ ker(A)
A(~b5) = A~b5 = 0 · ~b1 + . . . + 0 · ~b5 = ~0 ⇒ ~b5 ∈ ker(A)
~b1, ~b4, ~b4 sind also die Basisvektoren vom Nullraum von A:
NullSpace[A] =< (0, 0,−1, 0, 1)t, (0, 1,−1, 1, 0), (1, 0, 0, 0, 0) >
Durch Probieren wahlen wir ~b1, ~b4, ~b5 so, daß die obigen LGS A~x = ~b1 und A~x = ~bz losbar
sind. Die naturliche Reihenfolge liefert keine Losung, aber:
~b1 = (1.0.0.0.0)t, ~b4 = (0, 1,−1, 1, 0)t; ~b5 = (0, 0,−1, 0, 1)t
~b2 = LinearSolve[A, ~b1] = (0, 1, 0, 0, 0)t
~b3 = LinearSolve[A, ~b2] = (0,−1, 1, 0, 0)t
232
P ist die Ubergangsmatrix von der Standardbasis zu B, also
P =
1 0 0 0 0
0 1 −1 1 0
0 0 1 −1 −1
0 0 0 1 0
0 0 0 0 1
Probe: P−1AP = M .
2. Ein orthogonaler Operator T ist zwar stets ein normaler Operator, aber in der Regel nicht
symmetrisch, so daß er zwar uber IC diagonalisierbar ist, nicht jedoch uber IR. Uber IR gibt es
aber folgende andere einfache Darstellung:
Satz 23.5 Blockdiagonaldarstellung orthogonaler Operatoren uber IR
Es sei T : V → V ein orthogonaler Operator auf einem reellen Skalarproduktraum. Dann gibt
es eine ON–Basis B von V , bezuglich der T folgende Matrixdarstellung besitzt:
[T ]B =
1. . .
1
−1. . .
−1
cos ϕ1 − sinϕ1
sinϕ1 cos ϕ1
. . .
cos ϕr − sinϕr
sinϕr cos ϕr
ohne Beweis.
Bemerkung: Die (2× 2)−Blocke entsprechen den komplexen EW λi = cos ϕ + sin ϕ von T
(diese mussen Betrag 1 haben).
233
23.2 JORDAN’scher Normalformensatz
Die letzten Satze zeigen, daß die Blockdiagonalform eines nilpotenten bzw. orthogonalen Opera-
tors sehr viele Nullen und Einser enthalt. Das bestmoglichste Resultat, das man in diese Hin-
sicht fur einen beliebigen Operator erreichen kann, ist die JORDAN’sche Normalform (Camille
Jordan, 1838-1922). Notwendig und hinreichend dafur ist, daß sowohl das charakteristische Po-
lynom, als auch das Minimalpolynom des Operators (der Matrix) in Linearfaktoren zerfallen.
Uber IC ist das (zumindest theoretisch) stets der Fall, so wie auch im algebraischen Abschluß eines
jeden Korpers. Man kann somit sagen, daß jeder Operator auf JORDAN’sche Normalform ge-
bracht werden kann. Die Faktoren in den Zerlegungen des Minimal– und des charakteristischen
Polynoms geben uber die Anzahl der Blocke oft hinreichend Bescheid. Es ist aber schwierig, diese
Zerlegung in Linearfaktoren herzustellen. Hier hilft die Methode des unbestimmten Ansatzes
weiter. Auch Hilfe von verallgemeinerten Eigenvektoren kann man jene Transformations-
matrizen berechnen, die die Jordansche Normalform herstellen.
Satz 23.6 JORDAN’scher Normalformensatz
T : V → V sei ein linearer Operator, λ1, . . . , λr seien seine verschiedenen EW. Das charakte-
ristische bzw. das minimale Polynom mogen in Linearfaktoren zerfallen:
pT (X) = (X − λ1)k1(X − λ2)k2 . . . (X − λr)kr
mT (X) = (X − λ1)m1(X − λ2)m2 . . . (X − λr)r
Dann hat T eine blockdiagonale Matrixdarstellung J , deren Diagonalblocke Jij zum EW λi
folgende Form besitzen:
Jij =
λi 1 0 . . . 0 0
0 λi 1 . . . 0 0
. . . . . . . . . . . . . . . . . . . . .
0 0 0 . . . λi 1
0 0 0 . . . 0 λi
= λiIn + N,Nnilpotent.
Jij ist ein Block, der zum i−ten Eigenwert λi gehort, er heißt JORDAN’scher Block. Die
JORDAN’schen Blocke haben folgende Eigenschaften:
(i) Es gibt mindestens ein Jij der Dimension mi, alle anderen Blocke haben eine Dimension
≤ mi.
234
(ii) Die Summe der Dimensionen aller Jij zu λi ist ki, die algebraische Vielfachheit von λi.
(iii) Die Anzahl gi der Jij ist gleich der geometrischen Vielfachheit von λi.
Die Anzahl der JORDAN’schen Blocke jeder moglichen Dimension ist durch T eindeutig be-
stimmt.
Insgesamt ist:
J = diag(J11, . . . , J1g1 , . . . , Jr1, . . . , Jrgr), wobei gi die geometrische Vielfachheit vom EW λi ist.
ohne Beweis.
Beachte: Jeder JORDAN’sche Block ist von der Form:
Jij = λIn + N N nilpotenter Block aus (23.4)
und J selbst ist sogar von triangularer Form.
Der Satz sagt also aus, daß jeder Operator T in eine Summe von solchen Operatoren zerlegt
werden kann, die selbst die Summe aus einem Vielfachen des identischen Operators und eines
nilpotenten Operators sind.
Die Gestalt λ In + N ermoglicht ein leichtes Berechnen von hohen Matrixpotenzen
(ohne Beweis):
Jnij =
λn
(n1
)λn−1
i
(n2
)λn−2
i . . .
0 λn(n1
)λn−1
i . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . .
0 0 0 λn
Die Aussagen (i), (ii), (iii) ermoglichen oft eine Bestimmung der Jordan’schen Normalform.
Beispiel: T : V → V sei ein linearer Operator mit
pT (X) = (X − 2)4(X − 3)3
mT (X) = (X − 2)2(X − 3)2und
λ1 = 2, k1 = 4,m1 = 2
λ2 = 3, k2 = 3,m2 = 2
Fur die Jordan’schen Blocke gibt es folgende Moglichkeiten:
Zum EW λ1 gibt es einen (2× 2)−Block:
2 1
0 2
Zum EW λ2 gibt es einen (2× 2)−Block:
3 1
0 3
235
Wegen k1 = 4 gibt es zwei (2 × 2)−Blocke oder einen (2 × 2)−Block und zwei (1 × 1)−Blocke
zu λ1 = 2.
Wegen k1 = 3 gibt es einen (2× 2)−Block und einen (1× 1)−Block zu λ2 = 3. Die Anzahl der
Blocke hangt von der geometrischen Vielfachheit von λi ab:
Besitzt T zwei l.u. EV zu λ1, dann gibt es zwei Blocke zu λ1 = 2, also ist
J =
2 1
0 2
2 1
0 1
3 1
0 1
3
Die Basis, bezuglich der [T ]B = J ist bzw. die blockdiagonalisierende Matrix P mit P−1AP = J
findet man am bestem mit dem unbestimmten Ansatz:
Beispiel:
T : IR4 → IR4 mit T (x, y, z, u) = x + y + u, 2y,−x + y + 2z + u,−x + y + 3u)
[T ]B =
1 1 0 1
0 2 0 0
−1 1 2 1
−1 1 0 3
= A
pT (X) = (X − 2)4 mT (X) = (X − 2)2 ⇒ k1 = 4,m1 = 2
geometrische Vielfachheit von λ = 2 ist 3. Damit sind folgende JORDAN’sche Formen moglich
(T ist ubrigens nicht diagonalisierbar):
(4× 4) = (2× 2) + (1× 1) + (1× 1)
(4× 4) = (2× 2) + (1× 1) + (2× 2) scheidet aus, weil 3 Blocke zu λ = 2 vorhanden sein mussen.
Die zwei (1× 1)−Blocke kann man verschieden anordnen:
J1 =
2 1
0 2
2
2
J2 =
2
2 1
0 2
2
J3 =
2
2
2 1
0 1
236
Wir bestimmen eine Basis B = (~b1, ~b2, ~b3, ~b4), fur die [T ]B = J1 gilt:
Nach Definition der Matrixdarstellung muß gelten:
T (~b1) = 2~b1 ⇒ ~b1 ist EV von T zum EW λ = 2
T (~b2) = 1 · ~b1 + 2~b2 ⇔ (T − 2I)~b2 = ~b1 ⇔ ~b2 ist Losung von (T − 2I)~x = ~b1
T (~b3) = 2~b3 ⇒ ~b3 ist EV von T zum EW λ = 2
T (~b4) = 2~b4 ⇒ ~b4 ist EV von T zum EW λ = 2
~b1, ~b3, ~b4 ∈ E2, es ist dim(E2) = 3 = geometrische Vielfachheit von λ = 2.
Eigenvektor [a] =< (1, 0, 0, 1)t, (0, 0, 1, 0)t, (1, 1, 0, 0)t >.
Alle 3 Basisvektoren eignen sich nicht zur Losung von (T − 2I4)~x = ~b1.
Durch Probieren findet man, daß erst
~b1 = (1, 0, 0, 1)t + (0, 0, 1, 0)t = (1, 0, 1, 1)t ∈ E2
sich fur die Losung des LGS (T − 2I)~x = ~b1 eignet.
~b2 = LinearSolve[a− 2IdentityMatrix[4], ~b1] = (−1, 0, 0, 0)t.
~b3 = (1, 0, 0, 1)t
~b4 = (1, 1, 0, 0)t.
Damit ist P =
1 −1 1 1
0 0 0 1
1 0 0 0
1 0 1 0
= {~b1, ~b2, ~b3, ~b4}.
Probe: J1 = Inverse[P ] ·A · P .
Durch andere Anwendungen von ~b1, ~b2, ~b3, ~b4 erhalt man J2 bzw. J3.
Statt des unbestimmten Ansatzes kann man auch verallgemeinerte EV benutzen, um die
gewunschte Transformationsmatrix zu erhalten.
23.3 Verallgemeinerte Eigenvektoren
Im Falle der Nichtdiagonalisierbarkeit einer n×n−Matrix, wenn sie also mehrfache EW besitzt,
erhalt man zu wenig (d.h., weniger als n) l.u. Eigenvektoren. Man behilft sich dann mit “verall-
gemeinerten Eigenvektoren” weiter, mit deren Hilfe Transformationsmatrizen P zur Erreichung
237
der JORDAN’schen Normalform konstruiert werden konnen. Diese verallgemeinerten EV sind
auch sonst noch von Nutzen.
Definition 23.2 Verallgemeinerter Eigenvektor
Ein vom Nullvektor verschiedener Vektor ~x ∈ Kn heißt verallemeinerter Eigenvektor der
Matrix A ∈ Kn·n vom Rang k zum Eigenvektor λ, wenn gilt:
(A− λI)k~x = ~0 und (A− λI)k−1~x 6= ~0.
Im Falle eines linearen Operator T nimmt man zur Definition des veralgemeinerten EV x von
T dessen Darstellungsmatrix bezuglich irgendeiner Basis.
Bemerkung: Fur k = 1 erhalt man die ubliche Definition des Eigenvektors. Diese sind also
verallgemeinerte EV vom Rang 1.
Mit einem solchen verallgemeinerten EV ~x bzw. x vom Rang k kann man folgende Menge von
k verallgemeinerten EV zum EW λ, genannt “Kette von verallgemeinerten EV zum EW
λ”, konstruieren:
xk := x, xk−1 := (A− λI)x = (A− λI)xk
xk−2 := (A− λI)2x = (A− λI)xk−1
...
x1 := (A− λI)k−2x = (A− λI)x3
x2 := (A− λI)k−1x = (A− λI)x2
Durch Induktion nach i zeigt man, daß xi ein verallgemeinerter EV von A vom Rang i ist.
Außerdem erhalt man so die zur Transformation auf JORDAN’sche Normalform notwendigen
l.u. Vektoren.
Satz 23.7 Lineare Unabhangigkeit verallgemeinerter EV
(i) Die von einem verallgemeinerten EV x zum EW λ vom Rang k erzeugte Kette
(x1, x2, . . . , xk) von verallgemeinerten EV ist l.u.
(ii) Die Vereinigung von Ketten verallgemeinerter EV zu verschiedenen EW ist l.u.
Beweis von (i): Wir benutzen fur i = 1, . . . , l − 1: (A− λI)k−1xi = (A− λI)k−1(A− λI)k−ixk =
(A− λI)2k−(i+1)xk = 0 (weil (A− λI)kxk = (A− λI)kx = 0). Sei
l1x1 + l2x2 + . . . + lkxk = 0. (32)
238
Durch Linksmultiplikation mit (A− λI)k−1 erhalt man:
l1 (A− λI)k−1| {z }=(A−λI)2k−2xk=0
x1 + . . . + li (A− λI)k−1| {z }=(A−λI)2k−(i+1)xk=0
xi + . . . + lk(A− λI)k−1xk = 0,
bleibt also nur lk(A− λI)k−1xk = 0 ubrig.
Weil aber (A− λI)k−1xk 6= 0 ist, muß lk = 0 sein.
Analog erhalt man durch Linksmultiplikation von (32) mit (A− λI)k−i, daß li = 0 ist fur i = k, k − 1, . . . , 1.
Beweis von (ii): x sei verallgemeinerter EV von A vom Rang k zum EW λ mit Kette K1 = (x1, x2, . . . , xk).
y sei verallgemeinerter EV von A vom Rang l zum EW µ mit Kette K2 = (y1, y2, . . . , yl).
Nach (i) sind K1, K2 l.u. Mengen. Wir zeigen: K1 ∪K2 = (x1, x2, . . . , xk, y1, y2, . . . , yl) ist ebenfalls l.u.
Indirekt: Sei xi l.a. von K2 = (y1, y2, . . . , yl) ⇒ ∃ Skalare s1, . . . , sl, nicht alle 0, mit:
xi = s1y1 + . . . + siyi + . . . + slyl = 0 (33)
Linksmultiplikation von (33) mit (A− λI)i ergibt wegen (A− λI)ixi = 0:
(A− λI)ixi = (A− λI)(s1y1 + . . . + siyi + . . . + slyl) = 0 (34)
Linksmultiplikation von (34) mit (A− µI)l−1 ergibt, wenn man fur i = 1, . . . , l − 1 berucksichtigt:
(A− µI)l−1(A− λI)iyi = (A− λI)i(A− µI)l−1yi = 0
nur mehr
sl(A− λI)i(A− µI)l−1yl = 0
oder weil yl verallgemeinerter EV vom Rang l ist:
sl(A− λI)iyl = 0. (35)
Nun ist (A− µI)yl = 0 gleichbedeutend mit Ayl = µyl, daher erhalt man auf (35):
sl(µ− λ)iyl = 0. (36)
Wegen µ 6= λ und yl 6= 0 folgt aus (36): sl = 0. So fortfahrend erhalt man sl = sl−1 = . . . = si = . . . s1 = 0, ein
Widerspruch zu (33), d.h., jedes xi ∈ K1 ist von K2 l.u. Analog zeigt man, daß jedes yi ∈ K2 von K1 l.u. ist.
Somit ist K1 ∪K2 l.u.
Beispiel: Berechne die JORDAN’sche Normalform von
A =
1 1 0 1
0 2 0 0
−1 1 2 1
−1 1 0 3
239
und bestimme die Transformationsmatrix P mit P−1AP = J mittels verallgemeinerter EV.
Es ist PA(X) = (X − 2)4, also gibt es nur einen EW λ = 2 mit der algebraischen Vielfachheit 4.
Wegen rg(A− 2I) = 1 = 4 = 3 gibt es nur 3 l.u. EV, also zu wenig fur eine Basis.
Daher versuchen wir es mit verallgemeinerten EV zum EW λ = 2 vom Rang 2 (es ist
mA(x) = (X − 2)2, also (A− 2I)2x = 0), d.h., man sucht einen Vektor ~x mit (A− 2I)~x = 0 und
(A− 2I)2~x 6= 0.
Wegen mA(X) = x2 − 2 erfullt jeder Vektor (A− 2I)2~x = 0, wir bestimmen ein solches ~x2, fur
den (A− 2I) ~x2 6= 0 ist, z.B. ~x2 = (1, 0, 0, 0)t, dann ist ~x1 := (A− 2I) ~x2 = (−1, 0,−1,−1)t und
~x1, ~x2 sind 2 verallgemeinerte EV zum EW λ = 2.
Zusammen mit den EV ~x3 = (1, 0, 0, 1)t und ~x4 = (1, 1, 0, 0)t erhalt man eine Basis
B = ( ~x1, ~x2, ~x3, ~x4) von K4 und damit die regulare Matrix
P = ( ~x1| ~x2| ~x3| ~x4) =
−1 1 1 1
0 0 0 1
−1 0 0 0
−1 0 1 0
Mit P−1 =
0 0 1 0
1 −1 0 −1
0 0 −1 1
0 1 0 0
erhalt man P−1AP =
2 1 0 0
0 2 0 0
0 0 2 0
0 0 0 2
= J
23.4 Matrizenfunktionen
Sowohl bei den Differenzen–, als auch bei den Differentialgleichungen, haben wir gesehen, daß ge-
wisse Funktionen von Matrizen, wie z.B. die Potenzfunktion Ak bzw. die Exponentialfunktion eAx
von Bedeutung sind. Generell benotigt man alle gangigen Funktionen (sinA,√
A, lnA, . . .) einer
Matrix A. Es gibt mehrere Methoden, solche Funktionen von Matrizen zu berechnen: mittels der
Polynomdivision, den Normalformen, den Interpolationsformeln oder mittels des Spektralsatzes.
1. Matrizenfunktionen mittels Polynomdivision
Setzt man eine quadratische Matrix A in ihr charakteristisches Polynom pA(X) ein, so erhalt
man nach dem Satz von CAYLEY die Nullmatrix O : pA(A) = O∀A ∈ Kn·n. Das heißt, die
240
Nullfunktion an “der Stelle A” kann durch ein Ersatzpolynom, namlich das charakteristische
Polynom pA(X) dargestellt werden. Ahnliches gilt auch fur andere Funktionen f(X).
Die einfachsten Funktionen nach der Potenzfunktion sind die Polynomfunktionen
p(X) = amXm + am−1Xm−1 + . . . + a0 am 6= 0.
Ist A eine quadratische n×n−Matrix, dann ist nach den Regeln einer Algebra die Polynommatrix
p(A) := amAm + am−1Am−1 + . . . + a0In
moglich. Ist m < n, dann berechnet man p(A) direkt nach den Matrixregeln.
Ist jedoch m ≥ n, dann kann die Berechnung von p(A) mittels des Satzes ?? uber die Polynom-
division wesentlich vereinfacht werden. Es gilt dann, wenn pA(X) das charakteristische Polynom
von A bezeichnet:
p(X) = q(X) · pA(X) + r(X) mit [r(X)] < n
Nach dem Satz von CAYLEY gilt dann wegen pA(A) = O
p(A) = q(A) · pA(A) + r(A)
p(A) = r(A)(37)
Beachte: Zur Berechnung von p(A) benotigt man hochstens Matrizpotenzen vom Grad ≤ n−1.
Beispiel: p(X) = X10 − 10X9 + 23X8 −X3 + 11X2 + X + 24
Berechne p(A) fur A =
5 2
1 5
Losung: pA(X) = X2 − 10X + 23. Nach dem Divisionssatz gilt:
p(X) = (X8 −X + 1)pA(X) + 34X + 1.
Daher ist p(A) = 34A + I2 =
0@ 171 68
34 171
1A.
Ohne Beweis sei angegeben, daß die Beziehung (37) auch noch fur andere Funktonen f(X) als
Polynomfunktion gilt:
f(X) = q(X) · pA(X) + r(X) (38)
wobei r(X) = rn−1Xn−1 + . . . + r1X + r0 ein Polynom hochstens (n− 1)−ten Grades ist.
Damit ist f(A) = q(A) · pA(A) + r(A) und wegen pA(A) = O gilt:
f(A) = r(A).
241
Die Matrixfunktion f(A) kann also durch ein Ersatzpolynom berechnet werden.
Die n Koeffizienten r0, . . . , rn−1 des Restpolynoms r(X) erhalt man aus (38), indem man die
EW λi einsetzt und berucksichtigt, daß pA(λi) = 0 ist.
Sind alle EW verschieden, erhalt man dadurch ein LGS fur die unbekannten Koeffizienten
r0, . . . , rn−1 von r(X):
r(λi) = f(λi) i = 1, . . . , n (39)
Ist λi ein k−facher EW, dann gilt nach ??, daß nicht nur pA(λi) = 0, sondern auch die Ableitung
bis zur (ki − 1)−ten Ordnung an der “Stelle” λi:
pA(λi) = 0, p′A(λi) = 0, . . . , p(ki−1)A (λi) = 0
Dies liefert die Gleichungen (soferne die Ableitungen existieren)
r(λi) = f(λi)
r′(λi) = f ′(λi)
r(ki−1)(λi) = f (ki−1)(λi).
(40)
Da die Summe der algebraischen Vielfachheiten aller EW λi gleich n ist, erhalt man also stets
n lineare Gleichungen fur die unbekannten Koeffizienten r0, rn, . . . , rn−1 von r(X).
Beispiele: Im folgenden werden fur die Matrix A =
5 2
1 5
die Matrizen
eA, sinA, cos A,A−3, lnA (mit eln A = A) berechnet.
242
243
Die Berechnungen von f(A) kann noch effizienter gestaltet werden, wenn man das Minimalpoly-
nom mA(X) von A kennt und wenn dessen Grad kleiner als der des charakteristischen Polynoms
pA(X) ist. Da nach Satz 19.8 auch mA(A) = O und mA(λi) = 0 ist, gilt dieselbe Schlußweise
wie oben.
Die Berechnung von mA(X) ist allerdings nicht leicht (siehe 19.2). Kennt man jedoch die
JORDAN’sche Normalform J von A, dann kann das Minimalpolynom mA(X) sofort angegeben
werden:
Sei λ1, λ2, . . . , λr die verschiedenen EW der n×n−Matrix A mit den algebraischen Vielfachheiten
k1, k2, . . . , kr (∑r
i=1 ki = n). Es ist dann bekanntlich
(−1)npA(X) =r∏
i=1
(X − λi)ki
Definition 23.3 Index eines Eigenwertes
Der Index ki des EW λi ist die großte Dimension der zu λi gehorigen JORDAN–Blocke.
Nach Satz 19.8 ist ki ≤ ki.
Beispiel: Die 7× 7−Matrix A habe die JORDAN’sche Normalform
J =
5 1 0 0 0 0 0
0 5 1 0 0 0 0
0 0 5 0 0 0 0
0 0 0 5 1 0 0
0 0 0 0 5 0 0
0 0 0 0 0 2 1
0 0 0 0 0 0 2
Es ist dann: λ1 = 5, k1 = 5, k1 = 3;
λ2 = 2, k2 = 2, k2 = 2
Satz 23.8 Produktdarstellung des Minimalpolynoms
Hat A die r verschiedenen EW λ1, λ2, . . . , λr mit Index k1, k2, . . . , kr, dann gilt fur das Mini-
malpolynom
mA(X) =r∏
i=1
(X− λi)ki
244
2. Matrizenfunktionen mittels Interpolationspolynom
Das die Matrizenfunktion f(A) bestimmende Restpolynom r(X) kann auch durch die aus der
Analysis bekannten Interpolationspolynome bestimmt werden. So kann z.B. eine gegebene Funk-
tion f(X) durch das LAGRANGE’sche Interpolationspolynom r(X) interpoliert werden (siehe
??):
r(X) =n∑
i=1
f(xi) ·n∏
j=1j 6=n
X − xi
xj − xi
Diese LAGRANGE’sche Formel kann auf Matrizen mit verschiedenen EW ubertragen werden:
Satz 23.9 SYLVESTER’sche Interpolationsformel
Die quadratische n× n−Matrix A habe n verschiedene EW λ1, λ2, . . . , λn. Dann gilt:
f(A) =n∑
i=1
f(λi)n∏
j=1j 6=i
A− λiIn
λj − λi(41)
Beweis: Nach Satz 20.21 ist A unter diesen Bedingungen diagonalisierbar. Es gibt also eine regulare Matrix P mit
P−1AP = D = diag(λ1, . . . , λn).
Fur f(X) gilt:
P−1f(A)P = f(D) = diag(f(λ1); . . . , f(λn)). (42)
Multipliziert man (41) ebenfalls links mit P−1 und rechts mit P , so erhalt man:
P−1“P
i f(λi)Q
jA−λiIλj−λi
”P =
= P−1“Pn
i=1
(A−λ1I)(A−λ2I)...(A−λi−1I)(A−λi+1I)...(A−λnI)
(λi−λ1)(λi−λ2)...(λi−λi−1)(λi−λi+1)...(λi−λn)f(λi)
”P =
=Pn
i=1
(D−λ1I)(D−λ2I)...(D−λi−1I)(D−λi+1I)...(D−λnI)
(λi−λ1)(λi−λ2)...(λi−λi−1)(λi−λi+1)...(λi−λn)f(λi) =
=Pn
i=1
0BBBBBBBBBB@
0
. . .
f(λi)
. . .
0
1CCCCCCCCCCA=
0BBB@f(λ1)
. . .
f(λn)
1CCCA = f(D).
Damit ist nach (42):
f(A) = Pf(D)P−1 = P (P−1“P
i f(λi)Q
jA−λiIλj−λi
”P )P−1 =
=P
i f(λi)Q
j 6=iA−λiIλj−λi
.
Fur 3× 3−Matrizen sieht (41) ausgeschrieben so aus:
f(A) = f(λ1)(A− λ2I3)(A− λ3I3)(λ1 − λ2)(λ1 − λ3)
+ f(λ2)(A− λ1I3)(A− λ3I3)(λ2 − λ1)(λ2 − λ3)
+ f(λ3)(A− λ1I3)(A− λ2I3)(λ3 − λ1)(λ3 − λ2)
245
Beachte: Wegen der Verschiedenheit der EW sind alle Nenner 6= 0.
Beispiele:
246
Bemerkung: Sind nicht alle EW verschieden, gilt Ahnliches mit der NEWTON’schen In-
terpolationsformel.
3. Matrizenfunktionen mittels Normalformen
Sei A ahnlich zu einer Normalform N , also P−1AP = N ⇔ A = PNP−1.
Fur Polynomfunktion p(X) gilt dann (siehe das Rechnen mit Matrixpotenzen 21.4.1):
p(A) = P (N)P−1
Ahnliches gilt fur viele Funktionen f(X) (→ Funktionalanalysis):
f(A) = Pf(N)P−1
247
Fur spezielle Normalformen, wie z.B. fur N = J (JORDAN’sche Normalform) und besonders
fur Diagonalmatrizen N = D ist die Berechnung von f(N) besonders leicht. So ist (siehe 21.4.4)
f(D) = diag(f(λ1), . . . , f(λn)) fur D = diag(λ1, . . . , λn).
Damit gilt also fur diagonalisierbare Matrizen A mit EW λ1, . . . , λn:
f(A) = P
f(λ1)
. . .
f(λn)
P−1,
wobei P die diagonalisierende Transformationsmatrix ist.
Beispiele:
248
4. Matrizenfunktionen mittels der Spektraldarstellung
Der Vollstandigkeit halber sei noch ohne Beweis angegeben, wie man aus der Spektraldarstel-
lung siehe 21.8 und 21.10 fur normale Matrizen A praktisch sofort die Matrizenfunktion f(A)
angeben kann:
Satz 23.10 Matrizenfunktionen mittels Spektraldarstellung
Seien λ1, . . . , λr die verschiedenen EW der normalen Matrix A und P1, . . . , Pr eine orthogonale
Menge von Orthogonalprojektionen mit
A = λ1P1 + . . . + λrPr wobei
P2 + P2 + . . . + Pr = I und
PiPj = PjPi , dann gilt:
f(A) = f(λ1)P1 + . . . + f(λjPj)
249
Beispiele:
250
251
252
VII QUADRATISCHE FORMENBisher haben wir uns nur mit linearen Ausdrucken in den Variablen x1, . . . , xn der Form a1x1 +
a2x2 + . . . + anxn beschaftigt. Sie sind dadurch gekennzeichnet, daß sie die Variablen nur in
den ersten Potenzen enthalten und dementsprechend nur lineare Abbildungen vom Kn → K
hervorrufen. Nun wollen wir uns mit solchen Ausdrucken beschaftigen, die auch Produkte und
Quadrate der Ausgangsvariablen enthalten: ax2 + bxy + cy2 oder allgemein
a11x21 + a22x2 + . . . + annx2
n + a12x1x2 + . . . + a1nx1xn + . . .a23x2x3 + . . . + an−1anxn−1xn.
Sie induzieren ebenfalls Abbildungen vom Kn → K, die man allgemein Formen nennt. Sie sind
aber nicht mehr linear, trotzdem werden wir sehen, daß sie mit linearen Methoden, ja sogar mit
symmetrischen Matrizen beschrieben werden konnen. Solche Ausdrucke werden in den verschie-
densten Gebieten der Mathematik benotigt. In der Analysis z.B. zur Kennzeichnung von Maxima
und Minima, in der Geometrie zur Beschreibung von “gekrummten” Punktmengen (Kegelschnit-
te, Quadriken), auch in der Statistik mochte man wissen, wann solche Ausdrucke immer nur
Werte ≥ 0 oder < 0 annehmen. Dazu werden wir lernen, wie man solche quadratische Ausdrucke
vereinfachen, insbesondere die gemischten Terme xixj entfernen kann (“Hauptachsentransfor-
mation”) und welche Geometrie auf der durch sie beschriebenen Punktmengen moglich ist.
24 Bilinearformen und Quadratische Formen
Mit den zunachst naheliegenden Ausdrucken der Form a1x1 + . . . + anxn und den durch sie
induzierten linearen Abbildungen, den Linearformen, werden wir uns erst spater beschaftigen.
Sie traten bisher bei linearen Gleichungssystemen auf. Der weitere Ausbau ihrer Theorie und
ihren Anwendungen erfolgt im Kapitel uber Dualitat in der Hoheren Linearen Algebra.
Vielmehr beschaftigen wir uns mit “quadratischen Formen” und zeigen, daß sie trotzdem mit
linearen Methoden behandelt werden konnen. Das beruht darauf, daß sie ebenfalls mit Matrizen
(sogar symmetrischen → Hauptsatz der Linearen Algebra) beschrieben werden konnen bzw. als
Spezialfall von “bilinearen” Abbildungen aufgefaßt werden konnen, wie folgendes Beispiel zeigt:
q(x1, x2) = 3x21 + 8x1x2 + 5x2
2 = (x1, x2)
3 4
4 5
x1
x2
= ~xtA~x.
Setzt man in
f(x1, x2, y1, y2) = 3x1y1 + 4x2y1 + 4x1y2 + 5x2y2
253
x1 = y1 und x2 = y2, so erhalt man:
f(x1, x2, x1, x2) = 3x21 + 4x2x1 + 4x1x2 + 5x2
2 = 3x21 + 8x1x2 + 5x2
2
= q(x1, x2)
f ist dabei eine Abbildung von K2 ×K2 → K und q(~x) = f(~x, ~x) ebenfalls eine Abbildung vom
K2 → K.
24.1 Definitionen
Folgende Abbildungen wurden bisher untersucht:
1. Vorschriften mit nur 1. Potenzen der Ausgangsvariablen x = (x1, . . . , xn)
Lineare Abbildungen Kn → Km
y1 = a11x1 + . . . + a1nxn
y2 = a21x1 + . . . + a2nxn
...
ym = am1x1 + . . . + amnxn
~y = A~x
allgemein:
f : V →W
f(x) = y
f(kx + ly) = kf(x) + lf(y)
f : Lineare Abbildung (Operator)
Spezialfall:
y = a1x1 + . . . + a2xn
y = ~at · ~x
f : V → K
f(~x) = k ∈ K
f : Linearform
Affine Abbildungen Kn → Km
y1 = a11x1 + . . . + a1nxn + b1
y2 = a21x1 + . . . + a2nxn + b2
...
ym = am1x1 + . . . + amnxn + bm
~y = A~x +~b
α : V →W
α(x) = f(x) + t, f linear
α : Lineare Abbildung + Translation
y = a1x1 + . . . + a2xn + b
y = ~at · ~x + b
α : V → K
α(~x) = k ∈ K
α : Linearform + Konstante
254
2. “Vorschriften” mit quadratischen und “gemischten” Termen der
Ausgangsvariablen x = (x1, . . . ,xn)
y = ax2 + bxy + cy2
y = ~xtA~x
q : V → K
y = q(~x) = ~xtA~x =< A~x, ~x >=< x, A~x >
Quadratische Formen
allgemein:
y = a11x21 + . . . + a1nx2
n +∑
i6=j aijxixj
q(~x) = ~xtA~x
y = ax2 + bxy + cy2 + dx + ey + f
q : V → K
q(~x) = ~xtA~x + ~at · ~x + f
Quadratische Form + Linearform +
Konstante
q(~x) =< ~x, A~x > + < ~a, ~x > +f
y =∑
aiix2i +
∑i6=j aijxij +
∑aixi + c
Allen Abbildungen ist gemeinsam: Einem Vektor x ∈ V wird ein Skalar zugeordnet. Sie
konnen durch Matrizen und Skalarprodukte beschrieben werden.
Nun wollen wir zwei und mehr Vektoren einem Skalar zuordnen.
Beispiel: f(x1, x2, y1, y2) = x1y1 + 2x1y2 − 3x2y1 + 4x2y2
f kann nicht nur als eine Zuordnung von K4 → K, sondern auch als eine Zurodnung von
K2 ×K2 → K aufgefaßt werden.
Setzt man ~x =(x1
x2
)und ~y =
(y1
y2
), dann gilt:
f(~x, ~y) = x1y1 + 2x1y2 − 3x2y1 + 4x2y2 ∈ K.
Zwei Vektoren ~x, ~y ∈ K2 wird also ein Skalar ∈ K zugeordnet. Auch diese Zuordnung kann
vereinfacht mit einer Matrix angeschrieben werden:
f(~x, ~y) = (x1, x2)
1 2
−3 4
y1
y2
= ~xtA~y
Dabei ist aij = Koeffizient von xixj.
Aufgrund der Matrixregeln erweist sich die Zuordnung als linear in den 2 Vektor–Variablen ~x, ~y,
d.h., ersetzt man ~x durch k ~x1 + l ~x2, dann passiert dasselbe mit den Funktionswerten:
f(k ~x1 + l ~x2, ~y) = kf( ~x1, ~y) + lf( ~x2, ~y) und analog
f(~x, k ~y1 + l ~y2) = kf(~x, ~y1) + lf(~x, ~y2), denn:
f(k ~x1 + l ~x2, ~y) = (l ~x1 + l ~x2)tA~y = (k ~x1t + l ~x2
t)A~y = k ~x1tA~y + l ~x2
tA~y = kf( ~x1, ~y) + lf( ~x2, ~y).
Naturlich kann man dies auch in den Koordinaten nachrechnen.
Ubrigens ist f(~x, ~y) 6= f(~y, ~x).
255
Setzt man in f(~x, ~y) ~y = ~x, so erhalt man:
f(~x, ~x) = ~xtA~x = x21 + 2x1x2 − 3x2x1 + 4x2
2 = x21 − x2x1 + 4x2
2 = q(~x)
f(~x, ~x) ist also eine quadratische Form in x1, x2.
Beispiel: Auch das Skalarprodukt ist eine Zuordnung, die 2 Vektoren einen Skalar zuordnet:
f(~x, ~y) = ~x · ~y = x1y1 + . . . + xnyn ∈ K
Ersetzt man auch hier ~x durch k ~x1 + l ~x2, so erhalt man:
f(k ~x1 + l ~x2, ~y) = (k ~x1 + l ~x2) · ~y = k ~x1 · ~y + l ~x2 · ~y = kf( ~x1, ~y) + lf( ~x2, ~y)
Dasselbe gilt bei der Ersetzung von ~y durch k ~y1 + l ~y2. Man sagt: Die Zuordnung ist linear in
der ersten und zweiten (Vektor)variablen.
Es ist daruber hinaus: f(~x, ~y) = f(~y, ~x).
Beispiel: Beim komplexen Skalarprodukt gilt die Linearitat bezuglich der zweiten Variablen
nicht mehr ganz:
f(~x, ~y) = ~x · y = x1 ~y1 + . . . + xnyn ⇒
f(~x, k ~y1 + l ~y2 = ~x(k ~y1 + l ~y2) = ~x · k ~y1 + l ~y2 = k(~x · ~y1) + l(~x, ~y2) = kf(~x, ~y1) + l(~x, ~y2).
Man sagt: f ist bezuglich der 2. Variablen nur similinear.
Definition 24.1 Semibilinearformen und quadratische Formen
V sei ein Vektorraum uber dem Korper K. Fur k ∈ IC bezeichne k die konjugierte–komplexe Zahl
zu k.
(i) Eine Abbildung f : V × V → K = IC heißt eine Semibilinearform auf V , wenn fur alle
k, l ∈ K und alle x, x1, x2, y, y1, y2 ∈ V gilt:
(SB 1) f(kx1 + lx2,y) = kf(x1,y) + lf(x2,y)
f ist linear in der ersten Variablen.
(SB 2) f(x,ky1 + ly2) = kf(x,y1) + lf(x,y2)
f ist semilinear in der zweiten Variablen.
(ii) Eine Abbildung f : V × V → K heißt Bilinearform auf V , wenn fur alle k, l ∈ K und
alle x, x1, x2, y, y1, y2 ∈ V gilt:
(B1) f(kx1 + lx2,y) = kf(x1,y) + lf(x2,y)
256
(B2) f(x,ky1 + ly2) = kf(x,y1) + lf(x,y2)
f ist in beiden Variablen linear.
Beachte: Fur K = IC gibt es Semibilinear– und Bilinearformen.
(iii) Eine Abbildung f : V × V × . . .× V︸ ︷︷ ︸n mal
→ K heißt Multilinearform auf V , wenn fur alle
k, l ∈ K gilt:
f(. . . ,kx + ly, . . .) = kf(. . . ,x, . . .) + lf(. . . ,y, . . .)
f ist in jeder Variablen linear.
(iv) eine Semibilinearform f auf V heißt hermitesch, wenn fur alle x, y ∈ V gilt:
f(x,y) = f(y,x)
(v) Eine Bilinearform (bzw. eine Multilinearform) f auf V heißt symmetrisch, wenn fur alle
x, y ∈ V gilt:
f(x,y) = f(y,x) bzw. f(. . . ,x, . . . ,y, . . .) = f(. . . ,y, . . . ,x, . . .)
Fur K = IR ist jede symmetrische auch eine hermitesche Semibilinearform. f heißt auch
eine reell–symmetrische Bilinearform.
(vi a) Eine Semibilinearform f heißt schiefhermitesch, wenn fur alle x, y ∈ V gilt:
f(x,y) = −f(y,x)
(vi b) Eine Bilinearform (bzw. eine Multilinearform) f auf V heißt schiefsymmetrisch, wenn fur
alle x, y ∈ V gilt:
f(x,y) = −f(y,x) bzw. f(. . . ,x, . . . ,y, . . .) = −f(. . . ,y, . . . ,x, . . .)
(vi c) eine Bilinearform (bzw. eine Multilinearform) f auf V heißt alternierend, wenn fur alle
x ∈ V gilt:
f(x,x) = 0 bzw. f(. . . ,x, . . . ,x, . . .) = 0
257
(vii) eine Abbildung h : V → K = IC heißt eine hermitesche Form auf V, wenn es eine
hermitesche Semibilinearform f : V × V → IC gibt, mit
h(x) = f(x,x) ∀x ∈ V.
Hermitesche Formen nehmen nur reelle Zahlen als Werte an:
h(x) = f(x, x) = f(x, x) = h(x)⇒ h(x) ∈ IR.
(viii) Eine Abbildung q : V → IR heißt eine quadratische Form auf V, wenn es eine symme-
trische Bilinearform f : V × V → IR gibt, mit
q(x) = f(x,x) ∀x ∈ V.
f heißt Polarform zur quadratischen Form q.
(ix) Eine hermitesche bzw. quadratische Form q(x) heißt
positiv definit ⇔ q(x) > 0 ∀x 6= 0
positiv semidefinit ⇔ q(x) ≥ 0 ∀x
negativ definit ⇔ q(x) < 0 ∀x 6= 0
negativ semidefinit ⇔ q(x) ≤ 0 ∀x
indefinit ⇔ ∃x : q(x) > 0 und ∃y : q(y) < 0.
Beachte: Quadratische Formen haben wir nun nicht uber den “vagen” Ausdruck gemischte
und quadratische Terme definiert, sondern uber symmetrische Bilinearformen. Das geht auch in
abstrakten Vektorraumen.
Elementare Eigenschaften:
1. Allen “Formen” ist gemeinsam: Sie sind Abbildungen in den Skalarkorper K eines Vektor-
raumes. Neuerdings heißen solche Abbildungen auch Funktionale, insbesondere lineare
Abbildungen f : V → K.
2. Ist char(K) 6= 2 (wie z.B. fur K = IR bzw. K = IC), dann ist jede alternierende Multiline-
arform schiefsymmetrisch und umgekehrt:
258
a) Sei f(. . . x . . . x . . .) = 0⇒
0 = f(. . . x + y . . . x + y . . .) = f(. . . x . . . x . . .) + f(. . . x . . . y) + f(. . . y . . . x . . .) +
f(. . . y . . . y . . .) = f(. . . x . . . y . . .) + f(. . . y . . . x . . .)
(b) Sei f(. . . x . . . y . . .) = −f(. . . y . . . x . . .) ⇒ f(. . . x . . . x . . .) = −f(. . . x . . . x . . .) ⇒
2f(. . . x . . . x . . .) = 0⇒ f(. . . x . . . x . . .) = 0 wenn char(K) 6= 2.
Eine quadratische Form q : V → K erhalt man durch q(x) := f(x, x) aus einer symmetri-
schen Bilinearform.
3. Ist char(K) 6= 2, dann kann umgekehrt jede symmetrische Bilinearform durch ihre dazu-
gehorige quadratische Form polar dargestellt werden:
f(x,y) =12
(q(x + y)− q(x)− q(y)) : Polarform von f .
Ist q(~x) = ~xtA~x, dann ist die Polarform f von q gegeben durch:
f(~x, ~y) = ~yt At + A
2~x
Fur quadratische Formen gilt weiters:
q(0) = 0K q(0) = f(0, 0) = f(0k · 0, 0) = 0K · f(0, 0) = 0K
q(x) = q(−x) q(x) = f(x, x) = f(−x,−x) = q(−x)
q(x + y) + q(x− y) = 2(q(x) + q(y)) Ubung
Parallelogrammgleichung fur quadratische Formen.
Analog kann eine hermitesche Semibilinearform f durch ihre hermitesche Form h polar darge-
stellt werden:
f(x,y) =14
(h(x + y)− h(x− y)) +14
(h(x + iy)− h(x− iy))
Fur hermitesche Semibilinearformen gilt daruber hinaus fur alle x, y ∈ V :
Re[f(x,y)] = 12(f(x + y,x + y)− f(x,x)− f(y,y))
Im[f(x,y)] = 12(f(x + iy,x + iy)− f(x,x)− f(y,y))
259
Fundamentale Beispiele von Formen
1. a) Jede n × n−Matrix A = (aij) uber K definiert eine Bilinearform auf Kn
durch:
f(−→x ,−→y ) = −→y tA−→x = (y1, . . . ,yn)
a11 . . . a1n
...
an1 . . . ann
x1
...
xn
=
=∑n
i=1
∑nj=1 aijxixj = a11x1y1 + a12x1y2 + . . . + annxnyn.
Der formale Ausdruck von f(~x, ~y) ist also ein Polynom ∈ K[X, Y ], es heißt das zur
Matrix A gehorige bilineare Polynom.
Die Bilinearitat folgt aus den Matrixregeln.
b) Jede n × n−Matrix uber IC definiert durch f(x, y) = y∗Ax eine Semibiline-
arform auf ICn.
c) Jede symmetrische n × n−Matrix X definiert durch q(~x) = ~xtA~x eine quadratische
Form auf Kn.
q(~x) =∑
i,j aijxixj =∑
i aiix2i + 2
∑i<j aijxixj
d) Jede hermitesche n×n−Matrix A definiert durch q(~x) = ~x∗A~x eine hermitesche Form
auf ICn.
2. Jedes reelle Skalarprodukt f(x, y) =< x, y > ist eine symmetrische Bilinearform,
deren zugehorige quadratische Form q(x) = f(x, x) positiv definit ist.
f(x, x) = x1x1 + . . . + xnxn = x21 + . . . + x2
n > 0 fur x 6= 0.
Jedes komplexe Skalarprodukt f(x, y) =< x, y > ist eine hermitesche
Semibilinearform, deren zugehorige hermitesche Form h(x) = f(x, x) positiv definit ist.
f(x, x) = x1x1 + . . . + xnxn = |x1|2 + . . . + |xn|2 > 0 fur x 6= 0.
3. Jede Determinante det(A) ist eine alternierende Multilinearform ihrer Zeilenvektoren:
f(~z1, . . . , ~zn) = det(A) mit der zusatzlichen Normierungseigenschaft:
f(~e1, . . . , ~en) = |In| = 1.
4. f, g : V → K seien linear.
Dann ist f(x, y) := f(x) · g(y) eine Bilinearform auf V .
260
5. a, b ∈ IR, a ≤ b. V = C[a, b], x(t), y(t) ∈ C[a, b].
f(x, y) :=∫ ba x(t)y(t)dt ∈ IR ist eine symmetrische Bilinearform.
So wie die lineare Abbildung f, g : V →W bezuglich der punktweisen Addition f +g und Vielfa-
chen kf einen Vektorraum Hom (V,W ) = L(V,W ) bilden, gilt dies auch fur die Bilinearformen:
(f + g)(x, y) := f(x, y) + g(x, y)
(kf)(x, y) := kf(x, y)
Satz 24.1 Die Menge B(V ) der Bilinearformen auf V bildet einen Vektorraum uber K.
24.2 Matrixdarstellung von Bilinearformen
So wie fur lineare Abbildungen gibt es auch fur Bilinearformen eine bijektive Zuordnung zu den
Matrizen, verantwortlich dafur ist die Linearitat in den beiden Variablen.
Sei f eine Bilinearform auf V und B = (b1, . . . , bn) eine Basis von V . Ist x = x1b1 + . . . + xnbn
und y = y1b1 + . . . + ynbn, dann ist, so wie bei linearen Abbildungen, das Bild f(x, y) durch die
Bilder der Basisvektorpaare f(bi, bj) eindeutig festgelegt:
f(x, y) = f(x1b1 + . . . + xnbny1b1 + . . . + ynbn) =
= x1f(b1, y1b1 + . . . + ynbn) + . . . + xnf(bn, y1b1 + . . . + ynbn) =
= x1y1f(b1, b1) + x1y2f(b1, b2) + . . . + x1ynf(b1, bn)+
+x2y1f(b2, b1) + x2y2f(b2, b2) + . . . + x2ynf(b2, bn)+
. . .
+xny1f(bn, b1) + xny2f(bn, b2) + . . . + xnynf(bn, bn) =
=∑n
i,j=1 xiyjf(bi, bj).
Versammelt man diese Bilder der Basisvektorpaare f(bi, bj) in einer Matrix A := [f ]B =
(f(bi, bj)), dann gilt:
f(x,y) =∑
xiyif(bi,bj) = (y1, . . . ,yn)A
x1
...
xn
= [y]tBA[x]B
Definition 24.2 Matrixdarstellung
f sei eine Bilinearform auf V mit der Basis B = (b1, . . . , bn). Die Matrix [f ]B := (f(bi, bj))
heißt Matrixdarstellung von f bezuglich der Basis B oder Formmatrix von f.
261
Satz 24.2 Matrixdarstellung von Bilinearformen
(i) Ist [f ]B die Matrixdarstellung von f dann gilt:
f(x,y) = [y]tB[f ]B[x]B
Fur eine feste Basis B ist [f ]B eindeutig bestimmt.
(ii) Die Zuordnung f → [f ]B ist ein Vektorraumisomorphismus von B(V ) auf Kn·n, d.h.,
[f + g]B = [f ]B + [g]B, [kf ]B = k[f ]B
(iii) f hermitesch ⇒ [f ]B hermitesch
f symmetrisch ⇒ [f ]B symmetrisch
f schiefsymmetrisch ⇒ [f ]B schiefsymmetrisch
(iv) Ist P die Ubergangsmatrix von der Basis B zur Basis B′, dann gilt fur die neue Matrixdar-
stellung:
[f ]B′ = Pt[f ]BP
[f ]neu = Pt · [f ]alt ·P
Die Matrixdarstellungen einer Bilinearform sind also untereinander kongruent.Beweis von (iii):
f(x, y) = [y]t[f ][x] = ([y]t[f ][x])t =
= [x]t[f ]t[y]tt = [x]t[f ]t[y]
Ist f symmetrisch ⇒ [y]t[f ]t[x] = [y]t[f ][x] = f(y, x) = f(x, y) fur alle x, y, insbesondere fur die Einheitsvektoren
⇒ [f ]t = [f ].
Beweis von (iv):
f(x, y) = [y]tB [f ]B [x]B = (P [y]B′)t[f ]B(P [y]B′) = [y]B′(P t[f ]BP )[x]B′ .
Wegen der Eindeutigkeit ist [f ]B′ = P t[f ]BP .
Die neue Matrixdarstellung einer Bilinearform unterscheidet sich also von der alten einfach dadurch, daß man
diese von rechts mit P und links mit P t multipliziert. (Kongruente Matrizen nach Definition 21.2.)
Jeder quadratischen Form q auf V ist genau eine symmetrische Bilinearform f auf V zugeordnet.
Ist dim(V ) = n dann ist bezuglich einer festen Basis B von V diesem f genau eine symmetrische
n × n−Matrix zugeordnet. Damit kann man auch jeder quadratischen Form q bezuglich einer
festen Basis B von V genau eine symmetrische n×n−Matrix als Formmatrix [q] von q zuordnen:
Die Formmatrix [q]B einer quadratischen Form q ist die Formmatrix ihrer Polarform
f: [q]B = [f ]B.
262
Umgekehrt definiert jede symmetrische n× n−Matrix A eine quadratische Form auf V durch
q(x) = [x]tBA[x]B.
Ahnliches gilt fur hermitesche Formen und hermitesche Matrizen.
Satz 24.3 Formmatrizen von quadratischen Formen
V sei ein Vektorraum uber K = IR bzw. IC.
(i) Fur K = IR gibt es eine bijektive Zuordnung zwischen quadratischen Formen und symme-
trischen n× n−Matrizen.
(ii) Fur K = IC gibt es eine bijektive Zuordnung zwischen hermiteschen Formen und hermite-
schen n× n−Matrizen.
(iii) Die Formmatrizen einer quadratischen Form sind untereinander kongruent.
(iv) Fur V = IRn gilt speziell: Ist q(~x) = ~xtA~x, dann ist die Polarform f(~x, ~y) von q(~x) gegeben
durch
f(−→x ,−→y ) = −→y tAt + A2
−→x ,
also ist 12(At + A) die Formmatrix von q.
Beachte: 12(At + A) ist stets symmetrisch.
Beweis von (iv):
f(~x, ~y) = 12(q(~x + ~y)− q(~x)− q(~y)) =
= 12((~xt + y)tA(~x + ~y)− ~xtA~x− ~ytA~y) =
= 12( ~xtA~y︸ ︷︷ ︸
ist eine Zahl
+~ytA~x) =
= 12 [(~xtA~y)t + ~ytA~x] =
= 12(~ytAt~x + ~ytA~x) = ~yt At+A
2 ~x.
Beispiel: q(~x) = (x1, x2, x3) =
1 2 −4
0 0 −8
0 0 +3
x1
x2
x3
= x21 + 2x1x2 − 4x1x3 − 8x2x3 + 3x2
3 − 4x1x3
263
Polarform f(~x, ~y) = ~yt At+A2 ~x = (y1, y2, y3)
1 1 −2
1 0 −4
−2 −4 3
x1
x2
x3
;
1 1 −2
1 0 −4
−2 −4 3
ist die (symmetrische) Formmatrix von q.
Probe: q(~x) = (x1, x2, x3)
1 1 −2
1 0 −4
−2 −4 3
x1
x2
x3
= x21 + 3x2
3 + 2x1x2 − 8x2x3 − 4x1x3.
Orthogonal ahnliche Matrizen sind wegen P−1 = P t auch kongruent. Kongruente Matrizen sind
auch aquivalent (aber nicht umgkehrt), damit besitzen kongruente Matrizen gleichen Rang
und es ist folgende Definition moglich:
Definition 24.3 Ausgeartete und nicht ausgeartete Bilinerform
(i) f sei eine Bilinearform auf dem Vektorraum V . Der Rang einer Bilinearform ist der Rang
irgendeiner Matrixdarstellung von f : rg(f) = rg([f ]B).
f heißt nicht ausgeartet ⇔ rg(f) = dim(V ).
f heißt ausgeartet ⇔ rg(f) < dim(V ).
(ii) Der Rang einer quadratischen (hermiteschen) Form ist der Rang ihrer Formmatrix.
24.3 Kongruentes Diagonalisieren
Aufgrund von 24.3 sind Aussagen uber quadratische Formen zugleich auch Ausagen uber sym-
metrische Matrizen. Dazu behandeln wir so wie bei linearen Operatoren die Frage nach der
einfachsten Darstellung bezuglich Kongruenztransformationen.
Satz 24.4 Diagonalform quadratischer Formen
V sei ein Vektorraum uber dem Korper K mit char(K) 6= 2. Zu jeder quadratischen Form q(x)
auf V gibt es eine Basis von V , bezuglich der die Formmatrix von q eine Diagonalmatrix ist.
Matrizentheoretisch formuliert:
K sei ein Korper mit char(K) 6= 2. Zu jeder symmetrischen n × n−Matrix A uber K existiert
eine regulare Matrix P mit P tAP = D = diag(d1, d2, . . . , dn).
Also: Jede symmetrische Matrix ist zu einer Diagonalmatrix kongruent.
264
Beachte: Die Diagonalelemente sind keine EW von A. Man erhalt P auch ohne die (schwierige)
Eigenwertberechnung, sondern nur durch Kongruenztransformationen:
1. V (p, q) bezeichne das Vertauschen der p−ten Spalte mit der q−ten Spalte und die Ver-
tauschung der p−ten Zeile mit der q−ten Zeile.
2. U(p, q, k) bezeichne die Addition des k−fachen der q−ten Spalte zur p−ten Spalte und
die Addition des k−fachen der q−ten Zeilen zur p−ten Zeile.
Weil A symmetrisch ist, fuhrt man immer Zeilen– und Spaltenoperation gleichzeitig aus, al-
lerdings nur mit den Halbe–fachen des entsprechenden Matrixelementes. Treten wahrend des
Vorganges einmal in der Hauptdiagonale nur mehr Nullen auf, muß man ein aqp 6= 0 auf eine
Diagonalstelle bringen.
Statt eines Beweises wird nur das Verfahren illustriert: Schreibe A und In nebeneinander auf.
Versuche A auf Diagonalgestalt zu bringen und wende auf In nur die entsprechenden Spalte-
numformungen an. Die Matrix, die aus In entsteht, ist die gesuchte Transformationsmatrix
P , also:
(A/In)→ (D/P )
A
1 −2 3 −1
−2 4 −5 1
3 −5 9 −1
−1 1 −1 1
B
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
Es wird addiert: Das 2–fache der 1. Spalte zur 2., das (−3)−fache der 1. Spalte zur 3., das
1–fache der 1. Spalte zur 4. Spalte.
1 0 0 0
0 0 1 −1
0 1 0 2
0 −1 2 0
1 2 −3 1
0 1 0 0
0 0 1 0
0 0 0 1
Alle Diagonalelemente der Restmatrix verschwinden. Es wird addiert: Das 12−fache der 3. Spalte
265
zur 2. Spalte.
1 0 0 0
0 1 1 0
0 1 0 2
0 0 2 0
1 12 −3 1
0 1 0 0
0 12 1 0
0 0 0 1
Es wird addiert: Das (−1)−fache der 2. Spalte zur 3. und dann das 2–fache der 3. Spalte zur 4.
Spalte.
1 0 0 0
0 1 0 0
0 0 −1 0
0 0 0 4
P tAP
1 12 −7
2 −6
0 1 −1 −2
0 12
12 1
0 0 0 1
P
Fur reelle (K = IR) und komplexe (K = IC) Vektorraume erhalt man noch speziellere Formma-
trizen, namlich solche, die nur +1, (−1) und 0 in der Hauptdiagonale enthalten. Beachte, daß
hermitesche Formen nur reelle Funktionswerte annehmen.
Satz 24.5 Normalformen quadratischer (hermitescher) Formen.
Abbildungstheoretische Formulierung: V sei ein Vektorraum uber K = IR bzw. K = IC. q bzw.
h sei eine quadratische bzw. hermitesche Form auf V . Dann gibt es eine Basis von V , bezuglich
der q bzw. h eine Diagonalmatrix der Form
D = diag(1, . . . , 1,−1, . . . , 1, 0, . . . , 0)
als Formmatrix besitzen.
Matrizentheoretische Formulierung: Sei K = IR bzw. IC.
Zu jeder reell–symmetrischen bzw. hermiteschen Matrix uber K existiert eine regulare Matrix P
mit
P tAP = diag(1, . . . , 1,−1, . . . ,−1, 0, . . . , 0).
Oder: Jede reell–symmetrische bzw. hermitesche Matrix ist zu einer Diagonalmatrix aus +1,−1
und 0 kongruent.
Zum Beweis: Es gibt eine Transformation auf diag(d1, . . . , dn). Weil in IR bzw. IC Quadratwurzeln
existieren, kann man durch Diagonalmatrizen, in denen ki = 1√|di|
fur di 6= 0 und sonst 1 steht,
auf die gewunschte Form kommen.
266
Beispiel: Zu einer symmetrischen Matrix A ∈ IR(4,4) wird durch Kongruenztransformationen
eine Diagonalmatrix P T AP und gleichzeitig aus der Einheitsmatrix I mittels derselben Spal-
tenumformungen die Transformationsmatrix P konstruiert. Nur die Spaltenumformungen sind
erlautert.A
2 3 −1 4
3 4 0 5
−1 0 0 2
4 5 2 254
In
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
Es wird addiert: Das (−32)−fache der 1. Spalte zur 2., das 1
2−fache der 1. Spalte zur 3. und das
(−2)−fache der 1. Spalte zur 4. Spalte.
2 0 0 0
0 −12
32 −1
0 32 −1
2 4
0 −1 4 −74
1 −32
12 −2
0 1 0 0
0 0 1 0
0 0 0 1
Es wird addiert: Das 3–fache der 2. Spalte zur 3. und das (−2)−fache der 2. Saplte zur 4. Spalte.
2 0 0 0
0 −12 0 0
0 0 4 1
0 0 1 14
1 −32 −4 1
0 1 3 −2
0 0 1 0
0 0 0 1
Es wird multipliziert: Die 1. Spalte mit 12
√2, die 2. Spalte mit
√2 und die 3. Spalte mit 1
2 .
1 0 0 0
0 −1 0 0
0 0 1 0
0 0 0 0
P tAP
12
√2 −3
2
√2 −2 2
0√
2 32 −11
4
0 0 12 −1
4
0 0 0 1
P
Die Anzahl der nichtverschwindenden Diagonalelemente in der kongruenten Normalform von
A ist der Rang von A. rg(A) = r ist fur alle kongruenten Matrizen, weil sie auch aquivalent
sind, immer gleich. Interessant ist, daß auch die Anzahl der positiven Diagonalelemente und
267
damit die der negativen und der Nullen fur kongruente Matrizen stets gleich groß ist. Das ist
die Aussage des Tragheitsgesetzes:
Satz 24.6 Tragheitsgesetz von SYLVESTER
V sei ein n−dimensionaler Vektorraum uber K = IR bzw. K = IC. q : V → IR bzw. h : V → IC sei
eine quadratische bzw. hermitesche Form auf V . Dann gilt:
Alle Formmatrizen von q bzw. h haben stets dieselbe Anzahl von +1,−1 und 0.
Ohne Beweis.
Dieser Satz ermoglicht folgende Defintion:
Definition 24.4 Index einer Matrix
Der Index j(A) einer symmetrischen bzw- hermiteschen Matrix A ist die Anzahl ihrer positiven
Diagonalelemente in einer kongruenten Normalform.
Mit dem Tragheitsgesetz gilt dann:
Satz 24.7 Charakterisierung von Kongruenz
Zwei quadratische Matrizen sind genau dann kongruent, wenn sie gleichen Rang und gleichen
Index haben.
B ∼4 A⇔ rg(A) = rg(B) und Index (A) = Index (B).
Aus dem Diagonalisierungssatz ergibt sich ein weiteres Kriterium fur die positive Definitheit von
quadratischen Formen bzw. symmetrischen Matrizen (neben dem Hauptminorenkriterium bzw.
Eigenwertkriterium), namlich:
Satz 24.8 3. Definitheitskriterium
V sei ein endlich–dimensionaler Vektorraum uber einem angeordneten Korper K und q eine qua-
dratische Form auf V . q ist genau dann positiv definit, wen q eine Formmatrix in Diagonalform
mit lauter positiven Diagonalelementen besitzt.
Ahnliches gilt fur die anderen Definitheitseigenschaften.
Matrizentheoretisch formuliert:
Eine symmetrische Matrix uber einem angeordneten Korper K ist genau dann positiv definit,
wenn sie kongruent zu einer Diagonalmatrix mit lauter positiven Diagonalelementen ist.
268
Da alle Formmatrizen von quadratischen Formen untereinander kongruent sind, sind die Defini-
theitseigenschaften invariant gegenuber Kongruenztransformationen.
Obigen Satz kann man auch so formulieren:
Satz 24.9 Eine quadratische Form auf einem n–dimensionalen Vektorraum ist genau dann po-
sitiv definit, wenn ihr Rang und ihr Index beide gleich n sind. Sie ist genau dann positiv
semidefinit, wenn ihr Rang und ihr Index gleich sind.
Analoges gilt fur hermitesche Formen und Matrizen uber IC.
269
25 Hauptachsentransformation von Quadriken
In diesem Kapitel untersuchen wir in reellen Vektorraumen Teilmengen, die Verallgemeinerun-
gen der Kegelschnitte bzw. der Flachen 2. Ordnung im IR3 darstellen. Sie sind weder Teilraume
noch affine Raume in V und auch keine konvexe Mengen und sind daher nicht mehr durch
Losungsmengen von linearen Gleichungssystemen beschreibbar. Sie lassen sich jedoch mittels
quadratischer Formen und Linearformen beschreiben und mittels des Tragheitssatzes von
SYLVESTER klassifizieren, so daß man bei ihrer Behandlung dennoch mit Methoden der Li-
nearen Algebra auskommt.
25.1 Quadriken in Vektorraumen
V sei ein reeller Vektorraum, q : V → IR eine quadratische Form auf V , l : V → IR eine
Linearform auf V und c ∈ IR.
Durch
f(x) := q(x) + l(x) + c ∀x ∈ V
wird eine Abbildung f von V in IR definiert (die weder eine quadratische Form noch eine Line-
arform ist).
Definition 25.1 Quadriken
V sei ein reeller Vektorraum.
Q := {x ∈ V |f(x) = q(x) + l(x) + c = 0} heißt eine Hyperflache 2. Ordnung oder Quadrik.
Fur dim(V ) = 2 heißt Q auch ein Kegelschnitt (Kurve 2. Ordnung).
Fur dim(V ) = 3 heißt Q auch eine Flache 2. Ordnung.
Wie auch sonst bei Punktmengen, wollen wir nun die Quadrik Q durch eine Gleichung, die die
Koordinaten ihrer Punkte erfullen mussen, beschreiben. Dazu sei dim(V ) = n und
270
S = (o, s1, . . . , sn) ein Koordinatensystem von V . Dann ist BS = (s1−o, . . . , sn−o) eine Basis von
V . Sei [x] der Komponentenvektor von x bezuglicher dieser Basis. Nun sind die Koordinaten
[x]S von x bezuglich S die Komponenten des Ortsvektors x− o, also
[x]S = [x− o] = [x]− [o]⇔ [x] = [x]S + [o].
Weiters bezeichne [q] die n × n−Formmatrix der quadratischen Form q bezuglich der Basis Bs
(sie ist symmetrisch) und [l] die (1× n−Matrix der Lineaform l.
Nach Definition dieser Darstellungsmatrizen gilt fur q(x) ∈ K und l(x) ∈ K:
q(x) = [x]t[q][x] und l(x) = [l][x].
Die Quadrik Q = {x ∈ V |f(x) = q(x) + l(x) + c = 0} ist also die Menge aller x ∈ V , fur deren
Komponenten [x] bezuglich Bs gilt:
[x]t[q][x] + 2[l][x] + c = 0.
Anstelle der Komponenten [x] fuhren wir nun die Koordinaten von x bezuglich des Koordina-
tensystems S mittels obiger Beziehung
[x] = [x]S + [o]
ein und erhalten nach Rechnung:
f(x) = [x]t[q][x] + 2[l][x] + c =
= ([x]s + [o])t[q]([x]s + [o]) + 2[l]([x]s + [o]) + c =
. . .
= [x]ts[q][x]s + 2[o]t[q][x]s + [o]t[q][o] + 2[l][x]s + 2l[o] + c =
= [x]ts [q]︸︷︷︸=:A∈Kn·n
[x]s + 2 ([o]t[q] + [l])︸ ︷︷ ︸=:~at∈K1·n
[x]s + [o]t[q][o] + 2[l][o] + c︸ ︷︷ ︸=:a∈K
= [x]tsA[x]s + 2~at[x]s + a = 0.
Dabei ist A die symmetrische Formmatrix der quadratischen Form q.
Die Quadrik Q ist also die Menge aller Vektoren x ∈ V , deren Koordinatenvektoren [x]s bezuglich
eines Koordinatensystems S folgende Gleichung erfullen (der Index S wird weggelassen):
Q = {x ∈ V |[x]tA[x] + 2~at[x] + a = 0}
271
Kurz:
Q : [x]tA[x] + 2~at[x] + a = 0, a ∈ IR,~a ∈ IRn, A ∈ IRn·n (43)
(43) heißt Koordinatengleichung der Quadrik Q und A heißt die symmetrische Matrix
der Quadrik Q. Die Koordinatengleichung von Q ist bis auf einen konstanten Faktor eindeutig
bestimmt.
Statt den Summen in (43) kann man die Gleichung der Quadrik nur mit Matrixmulitplikationen
angeben (das ist bequem fur Computerberechnungen), dabei benutzt man folgende Regel fur
n−Tupel: at[x] = [x]ta.
Q : (1, [x]t)
a ~at
~a A
1
[x]
= 0 (Beweis durch Ausrechnen)
Ae :=
a ~at
~a A
heißt erweiterte Matrix von Q.
Ae ist ebenfalls symmetrisch und ist bis auf einen konstanten Faktor durch die Quadrik Q
eindeutig bestimmt.
Beispiel: Q : 3x2 + 2xy + 5y2 + 6x + 4y + 8 = 0⇔
(x, y)
3 1
1 5
x
y
+ 2(3, 2)
x
y
+ 8 = 0⇔ (1, x, y)
8 3 2
3 3 1
2 1 5
1
x
y
= 0
Q↔
8 3 2
3 3 1
2 1 5
:Die gesamte Information uber die Quadrik Q ist in dieser symmetrischen Ma-
trix enthalten!
Um eine Ubersicht uber alle Quadriken zu gewinnen, fuhrt man eine affine Koordinatentrans-
formation
[x]alt = T [x]neu + ~t, T regular
durch. Die Gleichung der Quadrik geht dabei uber in:
Q : [x]tA[x] + 2~at[x] + a = 0→
(T [x]neu + ~t)tA(T [x]neu + ~t) + 2~at(T [x]neu + ~t) + a = 0
(~tt + [x]tneuT t)A(T [x]neu + ~t) + 2~at(T [x]neu + ~t) + a = 0
[x]tneu (T tAT )︸ ︷︷ ︸Aneu
[x]neu + 2 T t(~a + A~t)︸ ︷︷ ︸~aneu
[x]neu + ttA~t + 2~at~t + a︸ ︷︷ ︸aneu=f(~t)
= 0
272
Aneu := T tAaltT
~aneu := T t(~aalt + A~t)
aneu := ~ttA~t + 2~at~t + a = f(~t)
Auch dies kann man “summenfrei” mit der erweiterten Transformationsmatrix
Te :=
1 ~0t
~t T
∈ IR(n+1)(n+1)
schreiben als: T teAeT =
1 ~tt
~0 T t
a ~at
~a A
1 ~0t
~t T
=
aneu ~atneu
~aneu Aneu
= Ae neu
Daraus sieht man: Bezuglich zweier Koordinatensysteme werden einer Quadrik kongruente
erweiterte Matrizen zugeorndet.
Nach dem Tragheitsgesetz von SYLVESTER gibt es zur symmetrischen Matrix A einer Quadrik
eine Transformation T auf “SYLVESTER’sche Form”:
T tAT = diag(1, . . . , 1︸ ︷︷ ︸j
,−1, . . . ,−1
︸ ︷︷ ︸r
, 0, . . . , 0)
Dabei ist j = Index (A), r = rg(A).
Mittels einer geschickt gewahlten erweiterten Transformationsmatrix Te kann damit auch die
erweiterte Matrix Ae auf eine moglichst einfache Form gebracht werden.
Satz 25.1 Affine Klassifikation von Quadriken
V sei ein n−dimensionaler reeller Vektorraum. Q sei eine Quadrik mit der Koordinatengleichung
[x]tA[x] + 2~a[x] + a = 0⇔ (1, [x]t)Ae(1, [x])t = 0
r = rg(A), j = Index (A)
re = rg(Ae), je = Index (Ae)
Dann kann die Gleichung durch eine affine Koordinatentransformation [x]alt = T [x]neu + ~t auf
eine der 3 folgenden Form gebracht werden:
a)∑j
i=1 x2i −
∑ri=j+1 x2
i = 0 1 ≤ r ≤ n, j ≥ r2 ⇔ re = r und je = j
b)∑j
i=1 x2i −
∑ri=j+1 x2
i − 1 = 0 1 ≤ r ≤ n, 0 ≤ j ≤ r ⇔ re = r + 1 und je = j
c)∑j
i=1 x2i −
∑ri=j+1−2xr+1 = 0 1 ≤ r < n, j ≥ r
2 ⇔ re = r + 2 und je = j + 1
273
Sie heißen die affinen Normalformen der Quadrik.
Fur n=2 erhalt man folgende affine Normalformen nichtleerer Kurven 2. Ordnung.
r j re je Gleichung in Normalform Bezeichnung der Klasse
a) 2 2 2 2 x21 + x2
2 = 0 Doppelpunkt
2 1 2 1 x21 − x2
2 = 0 Zwei sich schneidende Geraden
1 1 1 1 x21 = 0 Doppelgerade
b) 2 2 3 2 x21 + x2
2 − 1 = 0 Ellipse
2 1 3 1 x21 − x2
2 − 1 = 0 Hyperbel
1 1 2 1 x21 − 1 = 0 Zwei parallele Geraden
c) 1 1 3 1 x21 − 2x2 = 0 Parabel
Fur n=3 erhalt man folgende affine Normalformen nichtleerer Flachen 2. Ordnung:
r j re je Gleichung in Normalform Bezeichnung der Klasse
a) 3 3 3 3 x21 + x2
2 + x23 = 0 Doppelpunkt
3 2 3 2 x21 + x2
2 − x23 = 0 Kegel
2 2 2 2 x21 + x2
2 = 0 Doppelgerade
2 1 2 1 x21 − x2
2 = 0 Zwei sich schneidende Ebenen
1 1 1 1 x21 = 0 Doppelebene
b) 3 3 4 3 x21 + x2
2 + x23 − 1 = 0 Ellipsoid
3 2 4 2 x21 + x2
2 − x23 − 1 = 0 Einschaliges Hyperboloid
3 1 4 1 x21 − x2
2 − x23 − 1 = 0 Zweischaliges Hyperboloid
2 2 3 1 x21 + x2
2 − 1 = 0 Elliptischer Zylinder
2 1 3 1 x21 − x2
2 − 1 = 0 Hyperbolischer Zylinder
1 1 2 1 x21 − 1 = 0 Zwei parallele Ebenen
c) 2 2 4 3 x21 + x2
2 − 2x3 = 0 Elliptisches Paraboloid
2 1 4 2 x21 − x2
2 − 2x3 = 0 Hyperbolisches Poaraboloid
1 1 3 2 x21 − 2x2 = 0 Parabolischer Zylinder
274
Statt eines Beweises wird nur das Verfahren geschildert:
Man schreibt Ae und die identische Matrix I nebeneinander an und bringt A mittels elementarer
Kongruenzumformungen auf SYLVESTER’sche Normalform diag(1, . . . , 1,−1, . . . ,−1, 0 . . . 0).
Es ist zweckmaßig, die Zahlung der Zeilen und Spalten mit 0 beginnen zu lassen. Oberhalb und
links der 1, . . . ,−1 konnen in der 0–ten Zeile bzw. Spalte ebenfalls mittels Kongruenztransfor-
mationen Nullen erzeugt werden. Insgesamt erhalt man so folgendes Tableau:
Ae neu =
0 1 n
c0 0 . . . . . . . . . . . . . . . . . . . . . 0 cr+1 . . . cn 0
0 1 1...
. . .... 1... −1...
. . .
0 −1
cr+1 0...
. . .
cn 0 n
1. Fall: (cr+1, . . . , cn) = (0, . . . ,0).
a) Ist c0 = 0⇒∑j
i=1 x2i −
∑ri=j+1 = 0.
b) Ist c0 6= 0, kann wieder mittels “Kongruenz–Multiplikation” der 0−ten Spalte bzw. 0–ten
Zeile c0 auf − gebracht werden. Also erhalt man die Gleichung∑j
i=1 x2i−
∑ri=j+1 x2
i−1 = 0.
2. Fall: (cr+1,..., cn) 6= (0, . . .0). Mit dem mindestens einem vorhandenen ci 6= 0 konnen in der
0−ten Zeile bzw. Spalte alle anderen Eintragungen durch Kongruenz–Multiplikationen
auf 0 gebracht werden und ci selbst auf −1, das daruber durch Vertauschungen auf die
(r + 1)−te Spalte gebracht werden kann. So erhalt man folgendes Tableau:
275
Ae neu =
0 0 . . . . . . . . . . . . . . . . . . . . . 0 −1 0 . . . 0
0 1...
. . .... 1... −1...
. . .
0 −1
−1 0
0...
. . .
0 0
Dieselben Spaltenumformungen, angewendet auf I, ergeben die erweiterte Transforma-
tionsmatrix Te, aus der T und ~t abgelesen werden konnen.
Beispiel: Q : x31 + 3x2
2 − 3x23 + 4x1x2 − 2x1x3 + 2x1 − 2x2 + 4x3 − 4 = 0.
A =
1 2 −1
2 3 0
−1 0 −3
~a =
1
−1
2
a = −4
Ae =
−4 1 −1 2
1 1 2 −1
−1 2 3 0
2 −1 0 −3
Ae
−1 1 −1 2
1 1 2 −1
−1 2 3 0
2 −1 0 −3
I
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
Das (−2)−fache der 1. Spalte (Zeile) wird zur 2. und die 1. Spalte (Zeile) wird zur 3. Spalte
(Zeile) addiert.
276
−4 1 −3 3
1 1 0 0
−3 0 −1 2
3 0 2 −4
1 0 0 0
0 1 −2 1
0 0 1 0
0 0 0 1
Das Doppelte der 2. Spalte (Zeile) wird zur 3. Spalte (Zeile) addiert.
−4 1 −3 −3
1 1 0 0
−3 0 −1 0
−3 0 0 0
1 0 0 0
0 1 −2 −3
0 0 1 2
0 0 0 1
Das (−1)−fache der 1. Spalte (Zeile) und das (−3)−fache der 2. Spalte (Zeile) werden zur 0–ten
Spalte (Zeile) addiert.
4 0 0 −3
0 1 0 0
0 −1 0
−3 0 0 0
1 0 0 0
5 1 −2 −3
−3 0 1 2
0 0 0 1
Schließlich wird das 23−fache der 3. Spalte (Zeile) zur 0–ten addiert und die 3. Spalte (Zeile)
dann mit 13 multipliziert; das Ergebnis:
0 0 0 −1
0 1 0 0
0 0 −1 0
−1 0 0 0
Ae neu
1 0 0 0
3 1 −2 −1
−53 0 1 2
3
23 0 0 1
3
Te
Der Matrix Te entnimmt man die Transformationsmatrix T und den Transformationsvektor ~t.
Dieser Transformation x1
x2
x3
=
1 −2 −1
0 1 23
0 0 13
x1
x2
x3
+
3
−53
23
277
entspricht die Einfuhrung eines Koordinatensymstems S mit dem Ursprung C(3,−53 , 2
3) und den
Einheitspunkten E1(4,−53 , 2
3), E2(2,−1, 1), in dem die Quadrik Q die Gleichung.
x21 − x2
2 − 2x3 = 0
besitzt. Nach der Normalformentabelle ist Q ein hyperbolisches Paraboloid.
Andere Losungsvariante durch “Quadratisch erganzen”:
Aus der Gleichung von Q bezuglich des kanonischen Koordinatensystems
x21 + 4x1x2 − 2x1x3 + 2x1 + 3x2
2 − 2x2 − 3x23 − 2x2 − 3x2
3 + 4x3 − 4 = 0
ergibt sich mittels quadratischer Erganzung (schwierig zu finden)
(x1 + 2x2 − x3 + 1)2 − (x2 − 2x3 + 3)2 − 2(3x3 − 2) = 0,
also mit der affinen Transformation
x1
x2
x3
:=
1 2 −1
0 1 −2
0 0 3
x1
x2
x3
+
1
3
−2
die oben genannte Normalform. Die Umkehrung dieser Transformation liefert dasselbe Koordi-
natensystem S wie oben.
25.2 Quadriken in Skalarproduktraumen
In Skalarproduktraumen (V,<, >) sucht man nach moglichst einfachen Gleichungsformen in
kartesischen Koordinatensystemen. Damit die Orthogonalitat und die Norm der Basisvektoren
erhalten bleibt, darf man in der Transformation T der Koordinaten nur orthogonale Matrizen
verwenden.
Sei Q : [x]tA[x] + 2~at[x] + a = 0, A ∈ IRn·n, symmetrisch, die Gleichung einer Quadrik Q in
kartesischen Koordinaten. Nach dem Hauptsatz der Linearen Algebra (Spektralsatz) exis-
tiert zu jeder symmetrischen Matrix A ∈ IRn·n eine orthogonale Matrix T ∈ IRn·n, so daß
T−1AT = T tAT = diag(λ1, . . . , λn) ist, wobei λ1, . . . , λn die stets reellen EW von A sind.
Nachdem orthogonale Ahnlichkeit eine spezielle Form der Kongruenz ist, gilt auch fur die or-
thogonale Transformation mit T der Tragheitssatz von SYLVESTER, d.h.
T tAT = diag(λ1, . . . , λj︸ ︷︷ ︸j>0
, λj+1, . . . , λr︸ ︷︷ ︸r−j<0
, λr+1, . . . , λn︸ ︷︷ ︸=0
),
278
wobei r = rg(A) und j = Index (A) ist.
Mittels weiterer Kongruenztransformationen wird versucht, auch fur diese erweiterte Koeffizi-
entematrix Ae von Q, also fur Ae
a ~at
~a A
, eine moglichst einfache Form zu erhalten, wobei
man nur erweiterte Transformationen Te =
1 ~0
~A T
mit orthogonalem T zulaßt.
Man erhalt:
T teAeTe =
1 ~t′
~0 T t
a ~at
~a A
1 ~0t
~t T
=
c0 0 . . . 0 cr+1 . . . cn
0 λ1
.... . .
0 λr
cr+1 0...
. . .
cn 0
Folgende Falle konnen auftreten:
1. (cr+1, . . . , cn) = (0, . . . ,0)
Diesem Tableau entsprechen folgende Gleichungen:
a) c0 = 0 : Durch eventuelle Mulitplikation mit (−1) erreicht man auf alle Falle j ≥ r2 .∑j
i=1 λix2i −
∑ri=j+1 |λi|x2
i = 0
b) c0 6= 0: Division durch −|c0|sgn(c0) ergibt (−1) statt c0:∑ji=1
λi|c0|x
2i −
∑ni=j+1
λi|c0|x
2i − 1 = 0 0 ≤ j ≤ r.
2. (cr+1, . . . , cn) 6= (0, . . . ,0): Dies ist nur moglich, wenn r < n.
Wieder ist mit dem vorhandenen ci 6= 0 folgende Normalform nach Vertauschungen er-
reichbar:
279
0 0 . . . 0 −|c1| 0 . . . 0
0 λ1
.... . .
0 λr
−|c1| 0
0. . .
.... . .
0 0
p := |c1|
Diesem Tableau entspricht die Gleichung:∑ji=1 λix
2i −
∑ri=j+1 |λi|x2
i − 2pxr+1 = 0, wobei p := |c1|.
Satz 25.2 Metrische Klassifikation von Quadriken
V sei ein reeller n−dimensionaler Skalarproduktraum. Dann existiert zu jeder Quadrik Q ein
kartesisches Koordinatensystem, in dem die Gleichung der Quadrik Q : [x]tA[x] + ~at[x] + a = 0
eine der drei folgenden Formen besitzt (Typ der Quadrik):
a)∑j
i=1x2i
a2i−
∑ri=j+1
x2i
a2i
= 0, 1 ≤ r ≤ n, j ≥ r2 , a2
i := 1|λi|
b)∑ x2
i
a2i−
∑ x2i
a2i− 1 = 0, 1 ≤ r ≤ n, 0 ≤ j ≤ r, a2
i :=∣∣∣ c0λi
∣∣∣c)
∑ x2i
a2i−
∑ x2i
a2i− 2xr+1 = 0, 1 ≤ r < n, j ≥ r
2 , a2i :=
∣∣∣ pλi
∣∣∣Dabei ist c0 der konstante Term in der transformierten Gleichung T t
eAeTe und p = |c1|.
280
Tabelle der moglichen Normalformen
n = 2pos. neg.
Typ j r − j Gleichung geometrische Bedeutung
1) a) 2 0 x21
a2 + x22
b2= 0 Nullpunkt
2) a) 1 1 x21
a2 −x22
b2= 0 Sich kreuzendes Geradenpaar
3) a) 1 0 x21
a2 = 0 Gerade
4) a) 0 0 0 = 0 Ganze Ebene
5) b) 2 0 x21
a2 + x22
b2= 1 Ellipse
6) b) 1 1 x21
a2 −x22
b2= 1 Hyperbel
7) b) 1 0 x21
a2 = 1 Paralleles Geradenpaar
8) b) 0 2 −x11
a2 −x22
b2= 1 ∅
9) b) 0 1 −x11
a2 = 1 ∅
10) b) 0 0 0 = 1 ∅
11) c) 1 0 x21
a2 = 2x2 Parabel
12) c) 0 1 −x21
a2 = 2x2 Parabel
13) c) 0 0 0 = 2x2 Gerade
281
n = 3pos. neg.
Typ j r − j Gleichung geometrische Bedeutung
1) a) 3 0 x21
a2 + x22
b2+ x2
3c2
= 0 Nullpunkt
2) a) 2 1 x21
a2 + x22
b2− x2
3c2
= 0 Kegel
3) a) 2 0 x21
a2 + x22
b2= 0 Gerade
4) a) 1 2 x21
a2 −x22
b2− x2
3c3
= 0 Kegel
5) a) 1 1 x21
a2 −x22
b2= 0 Ebenenpaar
6) a) 1 0 x21
a2 = 0 Ebene
7) a) 0 0 0 = 0 Ganzer Raum
8) b) 3 0 x21
a2 + x22
b2+ x2
3c2
= 1 Ellipsoid
9) b) 2 1 x21
a2 + x22
b2− x2
3c2
= 1 Einschaliges Hyperboloid
10) b) 2 0 x21
a2 + x22
b2= 1 Elliptischer Zylinder
11) b) 1 2 x21
a2 −x22
b2− x2
3c2
= 1 Zweischaliges Hyperboloid
12) b) 1 1 x21
a2 −x22
b2= 1 Hyperbolischer Zylinder
13) b) 1 0 x21
a2 = 1 Paralleles Ebenenpaar
14) b) 0 3 −x21
a2 −x22
b2− x2
3c2
= 1 ∅
15) b) 0 2 −x21
a2 −x22
b2= 1 ∅
16) b) 0 1 −x21
a2 = 1 ∅
17) b) 0 0 0 = 1 ∅
18) c) 2 0 x21
a2 + x22
b2= x3 Elliptisches Parabloid
19) c) 1 1 x21
a2 −x22
b2= 2x3 Hyperbolisches Paraboloid
20) c) 1 0 x21
a2 = 2x3 Parabloischer Zylinder
21) c) 0 2 −x21
a2 −x22
b2= 2x3 Elliptisches Paraboloid
22) c) 0 1 −x21
a2 = 2x3 Parabolischer Zylinder
23) c) 0 0 0 = 2x3 Ebene
282
Geometrische Veranschaulichung
Ellipse:x21
a2 + x22
b2= 1 (mit a ≥ b)
Die Ellipse ist die Menge aller Punkte des IR2,
fur die die Summe der Abstande von zwei festen
Punkte F1 und F2 (den Brennpunkten) konstant
ist.
Hyperbel:x21
a2 −x22
b2= 1
Die Hyperberl ist die Menge aller Punkte des
IR2, fur die die Differenz der Abstande von zwei
festen Punkten F1 und F2 (den Brennpunkten)
konstant ist.
Parabel:x21
a2 = 2x2
Die Parabel ist die Menge aller Punkte des IR2,
fur die der Abstand von einer Geraden (Leitli-
nie) und einem festen Punkt F (Brennpunkt)
stets gleich ist.
283
Ellipsoid:x21
a2 + x22
b2+ x2
3c2
= 1
Schnitte parallel zur ergeben
x1x2−Ebene Ellipsen
x1x3−Ebene Ellipsen
x2x3−Ebene Ellipsen
Einschaliges Hyperboloid:x21
a2 + x22
b2− x2
3c2
= 1
Schnitte parallel zur ergeben
x1x2−Ebene Ellipsen
x1x3−Ebene Hyperbeln
x2x3−Ebene Hyperbeln
Elliptischer Zylinder:x21
a2 + x22
b2= 1
Schnitte parallel zur ergeben
x1x2−Ebene Ellipsen
x1x3−Ebene parallele Geradenpaare
x2x3−Ebene parallele Geradenpaare
284
Zweischaliges Hyperboloid:x21
a2 −x22
b2− x2
3c2
= 1
Schnitte parallel zur ergeben
x1x2−Ebene Hyperbeln
x1x3−Ebene Hyperbeln
x2x3−Ebene Ellipse
Hyperbolischer Zylinder:x21
a2 −x22
b2= 1
Schnitte parallel zur ergeben
x1x2−Ebene Hyperbeln
x1x3−Ebene parallele Geradenpaare
x2x3−Ebene parallele Geradenpaare
Kegel:x21
a2 + x22
b2− x2
3c2
= 0
Schnitte parallel zur ergeben
x1x2−Ebene Ellipsen
x1x3−Ebene Hyperbeln
x2x3−Ebene Hyperbeln
285
Elliptisches Paraboloid:x21
a2 + x22
b2= 2x3
Schnitte parallel zur ergeben
x1x2−Ebene Ellipsen
x1x3−Ebene Parabeln
x2x3−Ebene Parabeln
Hyperbolisches Paraboloid:x21
a2 −x22
b2= 2x3
Schnitte parallel zur ergeben
x1x2−Ebene Hyperbeln
x1x3−Ebene Parabeln
x2x3−Ebene Parabeln
Parabolischer Zylinder:x21
a2 = 2x3
Schnitte parallel zur ergeben
x1x2−Ebene parallele Geradenpaare
x1x3−Ebene Parabeln
x2x3−Ebene Geraden
286
Beispiel: Eine Flache 2. Ordnung habe bezuglich eines kartesischen Koordinatensystems die
Gleichung: x21 + 3x1x2 + 2x2x3 + x2
3 − 2x1 + 4x2 + 2x3 + 4 = 0. Dann ist
A :=
1 1 0
1 0 1
0 1 1
,~a :=
−1
2
1
, a := 4.
Die EW von A sind λ1 = −1, λ2 = 1, λ3 = 1. Zugehorige normierte Eigenvektoren sind
~t1 :=12
√2
−1
0
1
, ~t2 :=13
√3
1
1
1
bzw. ~t3 :=16
√6
1
−2
1
Mit der orthogonalen Matrix T := (~t1, ~t2, ~t3) erhalt man nun
1 ~0t
~0 T t
a ~at
~a A
1 ~0
~0 T
=
4
√2 2
3
√3 −2
3
√6
√2 1 0 0
23
√3 0 2 0
−23
√6 0 0 −1
Weitere Kongruenztransformationen liefern fur die erweiterte Matrix der Quadrik die gewunschte
einfache Gestalt; dieselben Spaltenumformungen der oben stehenden erweiterten Transformati-
onsmatrix ergeben die endgultige erweiterte Transformationsmatrix:4√
2 23
√3 −2
3
√6
√2 1 0 0
23
√3 0 2 0
−23
√6 0 0 −1
1 0 0 0
0 −12
√2 1
3
√3 1
6
√6
0 0 13
√3 −1
3
√6
0 12
√2 1
3
√3 1
6
√6
2 0 23
√3 −2
3
√6
0 1 0 023
√3 0 2 0
−23
√6 0 0 −1
1 0 0 0
1 −12
√2 1
3
√3 1
6
√6
0 0 13
√3 −1
3
√6
−1 12
√2 1
3
√3 1
6
√6
43 0 0 −2
3
√6
0 1 0 0
0 0 2 0
−23
√6 0 0 −1
1 0 0 023 −1
2
√2 1
3
√3 1
6
√6
−13 0 1
3
√3 −1
3
√6
−43
12
√2 1
3
√3 1
6
√6
287
4 0 0 0
0 1 0 0
0 0 2 0
0 0 0 −1
1 0 0 0
0 −12
√2 1
3
√3 1
6
√6
1 0 13
√3 −1
3
√6
−2︸︷︷︸~t
12
√2
13
√3
16
√6︸ ︷︷ ︸
T
Fuhrt man mit der Transformationsmatrix T und dem Vektor ~t := (0, 1,−2)t ein neues Koordi-
natensystem S ein, so ist es wegen des orthogonalen T wieder kartesisch, und die Quadik Q hat
bezuglich S die Gleichung x21 + 2x2
2 − x23 + 4 = 0 oder
−x21
4− x2
2
2+
x23
4− 1 = 0.
Nach der Normalformentabelle ist Q demnach ein zweischaliges Hyperboloid.