Lineare Algebra I & II - page.mi.fu-berlin.depage.mi.fu-berlin.de/werner99/lehre/linaskript.pdf ·...

224
Lineare Algebra I & II Dirk Werner Vorlesungsskript FU Berlin, 2018–2019 / 2019–2020 Version vom 13. Juni 2019

Transcript of Lineare Algebra I & II - page.mi.fu-berlin.depage.mi.fu-berlin.de/werner99/lehre/linaskript.pdf ·...

Lineare Algebra I & II

Dirk Werner

Vorlesungsskript FU Berlin, 2018–2019 / 2019–2020

Version vom 13. Juni 2019

Vorbemerkung

Dies ist die 2019er Version meines Skripts zu den Vorlesungen Lineare Algebra Iund Lineare Algebra II ; dabei umfasst der Teil I die ersten 5 Kapitel und Teil IIden Rest. (Aus Zeitgrunden mag Kapitel X ausgelassen werden.)

Der Zugang zur Linearen Algebra ist in diesem Skript weniger algebraischals in anderen Quellen; der Begriff des Korpers wird erst relativ spat eingefuhrtund der Begriff des Moduls uberhaupt nicht. Stattdessen werden die Grund-lagen der Linearen Algebra (Vektorraume, lineare Unabhangigkeit, Basen, li-neare Abbildungen, Matrizen, Determinanten, Eigenwerte, . . . ) zuerst nur imreellen Fall diskutiert, denn Erstsemestern fallen diese abstrakten Begriffe er-fahrungsgemaß nicht leicht, und der Zugang soll daher nicht mit kunstlichenalgebraischen Hurden erschwert werden.

Obwohl es an der FU moglich ist, Lineare Algebra vor der Analysis zu be-legen, habe ich nicht mit Beispielen aus der Differential- und Integralrechnunggespart, die aber mit den Kenntnissen der Schulmathematik zuganglich sind.

Noch etwas: Fehlermeldungen aller Art an [email protected] sindsehr willkommen!

Dirk Werner

Version vom 13. Juni 2019

Version vom 13. Juni 2019

Inhaltsverzeichnis

I. Lineare Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . . 1

I.1 Beispiele linearer Gleichungssysteme . . . . . . . . . . . . . . . 1

I.2 Vektoren im Rn und Matrizen uber R . . . . . . . . . . . . . . . 4

I.3 Der Gaußsche Algorithmus . . . . . . . . . . . . . . . . . . . . . 11

I.4 Exkurs uber Abbildungen . . . . . . . . . . . . . . . . . . . . . 15

I.5 Invertierbare Matrizen . . . . . . . . . . . . . . . . . . . . . . . 17

I.6 Die LR-Zerlegung . . . . . . . . . . . . . . . . . . . . . . . . . . 20

II. R-Vektorraume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

II.1 Vektorraume und ihre Unterraume . . . . . . . . . . . . . . . . 25

II.2 Basis und Dimension . . . . . . . . . . . . . . . . . . . . . . . . 30

II.3 Der Rang einer Matrix . . . . . . . . . . . . . . . . . . . . . . . 38

II.4 Summen von Unterraumen . . . . . . . . . . . . . . . . . . . . . 43

III. Lineare Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . 47

III.1 Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . 47

III.2 Isomorphe Vektorraume . . . . . . . . . . . . . . . . . . . . . . 51

III.3 Matrixdarstellung und Koordinatentransformation . . . . . . . . 54

IV. Determinanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

IV.1 Determinantenformen . . . . . . . . . . . . . . . . . . . . . . . . 59

IV.2 Die Determinante . . . . . . . . . . . . . . . . . . . . . . . . . . 64

IV.3 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

IV.4 Ein erster Blick auf Eigenwerte . . . . . . . . . . . . . . . . . . 73

V. Etwas Algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

V.1 Korper und K-Vektorraume . . . . . . . . . . . . . . . . . . . . 79

V.2 Polynome, Ringe und K-Algebren . . . . . . . . . . . . . . . . . 83

V.3 Quotientenvektorraume . . . . . . . . . . . . . . . . . . . . . . . 87

Version vom 13. Juni 2019

vi Inhaltsverzeichnis

VI. Innenproduktraume . . . . . . . . . . . . . . . . . . . . . . . . . . 93VI.1 Skalarprodukte . . . . . . . . . . . . . . . . . . . . . . . . . . . 93VI.2 Orthonormalbasen . . . . . . . . . . . . . . . . . . . . . . . . . . 97VI.3 Lineare Abbildungen auf Innenproduktraumen . . . . . . . . . . 103

VII. Eigenwerte und Normalformen . . . . . . . . . . . . . . . . . . 111VII.1 Nochmals Polynome . . . . . . . . . . . . . . . . . . . . . . . . . 111VII.2 Eigenwerte und Diagonalisierbarkeit . . . . . . . . . . . . . . . . 115VII.3 Triangulierbare Abbildungen und Matrizen . . . . . . . . . . . . 124VII.4 Die Hauptraumzerlegung . . . . . . . . . . . . . . . . . . . . . . 130VII.5 Die Jordansche Normalform . . . . . . . . . . . . . . . . . . . . 135VII.6 Der Fundamentalsatz der Algebra . . . . . . . . . . . . . . . . . 143

VIII. Eigenwerttheorie in Innenproduktraumen . . . . . . . . . . . 149VIII.1 Selbstadjungierte Abbildungen und Matrizen . . . . . . . . . . 149VIII.2 Normale Abbildungen und Matrizen . . . . . . . . . . . . . . . 153VIII.3 Positiv definite Abbildungen und Matrizen . . . . . . . . . . . 157VIII.4 Die Singularwertzerlegung . . . . . . . . . . . . . . . . . . . . . 161VIII.5 Die Norm einer Matrix . . . . . . . . . . . . . . . . . . . . . . 166VIII.6 Die Methode der kleinsten Quadrate . . . . . . . . . . . . . . . 171

IX. Etwas Geometrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177IX.1 Isometrien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177IX.2 Geometrie im R2 . . . . . . . . . . . . . . . . . . . . . . . . . . 182IX.3 Geometrie im R3 . . . . . . . . . . . . . . . . . . . . . . . . . . 185IX.4 Kegelschnitte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189IX.5 Quadratische Formen und Quadriken . . . . . . . . . . . . . . . 192IX.6 Konvexe Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . 197IX.7 Die Minkowskischen Satze . . . . . . . . . . . . . . . . . . . . . 201

X. Erganzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211X.1 Unendlichdimensionale Vektorraume . . . . . . . . . . . . . . . 211X.2 Der Dualraum . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216X.3 Das Tensorprodukt . . . . . . . . . . . . . . . . . . . . . . . . . 216

Literaturhinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217

Version vom 13. Juni 2019

Kapitel I

Lineare Gleichungssysteme

I.1 Beispiele linearer Gleichungssysteme

Bei linearen Gleichungssystemen handelt es sich um Systeme von m Gleichungenmit n Unbekannten, die alle nur linear (und nicht quadratisch etc.) vorkommen.Hier einige Beispiele mit m = n = 3:

Beispiele I.1.1 (a) Unser erstes Beispiel ist:

2x + 3y − 2z = 84x + 5y − 2z = 12

y − 3z = −5

Zur Losung geht man so vor, dass man nach und nach versucht, die Unbekanntenzu eliminieren. Ersetzt man oben die 2. Zeile durch

”2. Zeile minus zweimal

1. Zeile“ (kurz: Z2 ; Z2 − 2Z1), erhalt man das System

2x + 3y − 2z = 8−y + 2z = −4y − 3z = −5

Als nachstes versucht man, aus der letzten Zeile das y zu eliminieren, indemman Z3 ; Z3 + Z2 ausfuhrt:

2x + 3y − 2z = 8−y + 2z = −4

−z = −9

Jetzt kann man das System von unten nach oben losen:

z = 9,

Version vom 13. Juni 2019

2 I. Lineare Gleichungssysteme

daher−y + 18 = −4,

d.h. y = 22 und2x+ 66− 18 = 8,

d.h. x = −20. Dieses System hat eine eindeutig bestimmte Losung. Da manjeden der Schritte auch ruckwarts machen kann (z.B. vom zweiten System zuruckzum ersten gehen), erhalt man tatsachlich die Losung des Ausgangssystems. Diesist auch bei den folgenden Beispielen zu beachten.

(b) Ein zweites Beispiel.

x + 4y − 2z = 42x + 7y − z = −22x + 9y − 7z = 1

Wir bilden Z2 ; Z2 − 2Z1 und Z3 ; Z3 − 2Z1:

x + 4y − 2z = 4−y + 3z = −10y − 3z = −7

Da die letzten beiden Gleichungen einander widersprechen, hat das System keineLosung.

(c) Und hier ein drittes Beispiel.

2x − 4y + 2z = −22x − 4y + 3z = −44x − 8y + 3z = −2

Wir bilden Z2 ; Z2 − Z1 und Z3 ; Z3 − 2Z1:

2x − 4y + 2z = −2z = −2−z = 2

Es muss also z = −2 und2x− 4y − 4 = −2,

d.h.x− 2y = 1

sein. Diesmal gibt es unendlich viele Losungen: Man kann y ∈ R beliebig wahlenund x = 2y + 1 setzen, und z = −2.

Das unterschiedliche Losungsverhalten kann geometrisch veranschaulicht wer-den. In unseren Gleichungssystemen kann jede Zeile als Gleichung einer Ebeneim Raum verstanden werden. Dann wird in jedem Beispiel nach dem Schnittdreier Ebenen im Raum gefragt. Ein solcher Schnitt kann

Version vom 13. Juni 2019

I.1 Beispiele linearer Gleichungssysteme 3

• aus einem Punkt bestehen (Beispiel (a))

• leer sein (Beispiel (b))

• aus einer Geraden bestehen (Beispiel (c))

• aus einer Ebene bestehen, zum Beispiel:

x + y + z = 12x + 2y + 2z = 23x + 3y + 3z = 3

Wir haben in den Beispielen zuerst x, dann y eliminiert. Man kann in jederbeliebigen Reihenfolge vorgehen; manchmal lasst sich so die Rechenarbeit erheb-lich vereinfachen. Die Losungstechnik ist nicht auf Systeme mit drei Gleichungenund drei Unbekannten beschrankt:

Beispiel I.1.2 Betrachten wir etwa folgendes System aus 4 Gleichungen mit5 Unbekannten:

x1 + x2 + x3 + x4 + x5 = 12x1 − x2 + 3x3 + 5x4 + x5 = 2−3x1 − 2x3 − 7x4 = 7−x1 − 7x2 + 3x3 + 4x4 = 13

Wir bilden Z2 ; Z2 − 2Z1, Z3 ; Z3 + 3Z1 und Z4 ; Z4 + Z1:

x1 + x2 + x3 + x4 + x5 = 1−3x2 + x3 + 3x4 − x5 = 0

3x2 + x3 − 4x4 + 3x5 = 10−6x2 + 4x3 + 5x4 + x5 = 14

Nun bilden wir Z3 ; Z3 + Z2 und Z4 ; Z4 − 2Z2:

x1 + x2 + x3 + x4 + x5 = 1−3x2 + x3 + 3x4 − x5 = 0

2x3 − x4 + 2x5 = 102x3 − x4 + 3x5 = 14

Um x3 zu eliminieren, bilden wir Z4 ; Z4 − Z3:

x1 + x2 + x3 + x4 + x5 = 1−3x2 + x3 + 3x4 − x5 = 0

2x3 − x4 + 2x5 = 10x5 = 4

Version vom 13. Juni 2019

4 I. Lineare Gleichungssysteme

Wir erhalten unendlich viele Losungen; namlich: Wahle t ∈ R beliebig,

x5 = 4

x4 = t

x3 =1

2t+ 1

x2 =7

6t− 1

x1 = −8

3t− 3

Typischerweise (aber nicht immer) kann man allgemein bei einem Systemmit n Unbekannten und m < n Zeilen n −m Unbekannte frei wahlen, die dieubrigen festlegen; das gilt, wenn die Zeilen tatsachlich

”unabhangig“ sind – nicht

aber bei (n = 3, m = 2)

x + y + z = 22x + 2y + 2z = 4,

wo die zweite Zeile nur eine Verkleidung der ersten ist. Ebenso erhalt man

”typischerweise“ im Fall m > n keine und im Fall m = n genau eine Losung.

(Ausnahmen siehe oben!)

I.2 Vektoren im Rn und Matrizen uber RUm uber Losungen linearer Gleichungssysteme zu sprechen, bedient man sichder Sprache der Vektoren und Matrizen; um uber die Theorie linearer Glei-chungssysteme zu sprechen, die es gestattet, das im letzten Absatz von Ab-schnitt I.1 angesprochene typische Verhalten zu diskutieren, bedient man sichder Sprache der Linearen Algebra. Deshalb werden wir uns bald um Begriffewie Vektorraum, Linearkombination, lineare Unabhangigkeit, Dimension, linea-re Abbildung etc. kummern.

Halten wir zunachst eine kurze Ruckschau auf die Schulmathematik. EinPunkt im R3 wird durch seine drei Koordinaten beschrieben. Verbindet manden Ursprung mit dem Punkt, erhalt man den zugehorigen Vektor; analogesgilt fur den R2.

In der Regel werden wir die Koordinaten eines Vektors untereinander stattnebeneinander schreiben. Zwei Vektoren1 (mit gleich vielen Koordinaten!) kon-nen addiert werden, zum Beispiel im R3

~v =

xyz

, ~w =

x′

y′

z′

, ~v + ~w =

x+ x′

y + y′

z + z′

.

1In diesem einfuhrenden Kapitel werden Vektoren zur Unterscheidung von Zahlen miteinem Pfeil gekennzeichnet.

Version vom 13. Juni 2019

I.2 Vektoren im Rn und Matrizen uber R 5

Ebenso kann man Vektoren mit reellen Zahlen multiplizieren:

λ~v =

λxλyλz

Dann gelten die von der herkommlichen Addition und Multiplikation vertrautenRegeln

(~u+ ~v) + ~w = ~u+ (~v + ~w)

~v + ~w = ~w + ~v

λ(~v + ~w) = λ~v + λ~w

(λ+ µ)~v = λ~v + µ~v

(λµ)~v = λ(µ~v)

Achtung: Das Produkt zweier Vektoren ist nicht erklart.Diese Ideen lassen sich sofort auf den Fall des Rn ausdehnen (allerdings

versagt ab n = 4 die geometrische Anschauung; jedenfalls bei den meistenMenschen). Ein Vektor ~x ∈ Rn ist durch n Koordinaten bestimmt, die manuntereinander schreibt:

~x =

x1

...xn

.

(Insbesondere haben wir somit die Menge Rn definiert.)Wir halten weiter als formale Definition fest:

Definition I.2.1 Fur

~x =

x1

...xn

∈ Rn, ~y =

y1

...yn

∈ Rn, λ ∈ R

sind ~x+ ~y und λ~x (bzw. λ · ~x) durch

~x+ ~y =

x1 + y1

...xn + yn

, λ~x = λ · ~x =

λx1

...λxn

definiert. Wir setzen noch

~0 =

0...0

, −~x =

−x1

...−xn

sowie ~x− ~y = ~x+ (−~y).

Version vom 13. Juni 2019

6 I. Lineare Gleichungssysteme

Dann hat man folgende Aussagen:

Satz I.2.2 Fur alle ~x, ~y, ~z ∈ Rn und λ, µ ∈ R gilt:

(a) (~x+ ~y) + ~z = ~x+ (~y + ~z)

(b) ~x+~0 = ~x

(c) ~x+ (−~x) = ~0

(d) ~x+ ~y = ~y + ~x

(e) λ(~x+ ~y) = λ~x+ λ~y

(f) (λ+ µ)~x = λ~x+ µ~x

(g) (λµ)~x = λ(µ~x)

(h) 1 · ~x = ~x

Diese Aussagen begrundet man, indem man sie komponentenweise uberpruft;das soll fur den Teil (a) im Detail ausgefuhrt werden. Fur

~x =

x1

...xn

, ~y =

y1

...yn

, ~z =

z1

...zn

ist

(~x+ ~y) + ~z =

x1 + y1

...xn + yn

+

z1

...zn

=

(x1 + y1) + z1

...(xn + yn) + zn

=

x1 + (y1 + z1)...

xn + (yn + zn)

=

x1

...xn

+

y1 + z1

...yn + zn

= ~x+ (~y + ~z);

man sieht, dass das Assoziativgesetz fur Zahlen unmittelbar zum Assoziativge-setz fur Vektoren fuhrt.

Satz I.2.2 werden wir zum Ausgangspunkt des abstrakten Vektorraumbe-griffs in Definition II.1.1 und V.1.5 nehmen.

Betrachten wir nun noch einmal das Gleichungssystem aus Beispiel I.1.1(a).

Die rechten Seiten wollen wir als Koordinaten eines Vektors ~b auffassen, also

~b =

812−5

.

Auch die linken Seiten lassen sich so auffassen, es entsteht dann 2x+ 3y − 2z4x+ 5y − 2z

y − 3z

;

Version vom 13. Juni 2019

I.2 Vektoren im Rn und Matrizen uber R 7

dieser Vektor lasst sich auch als

x

240

+ y

351

+ z

−2−2−3

(I.1)

schreiben. Indem wir die drei (Spalten-)Vektoren in (I.1) nebeneinander schrei-ben, erhalten wir das folgende Schema aus 3 Zeilen und 3 Spalten, das dieKoeffizienten auf der linken Seite des Gleichungssystems wiedergibt: 2 3 −2

4 5 −20 1 −3

. (I.2)

Ein solches Schema nennt man eine Matrix, genauer ist (I.2) eine quadratische3 × 3-Matrix. Fuhrt man dieselben Uberlegungen mit dem Gleichungssystemaus Beispiel I.1.2 durch, erhalt man auf der rechten Seite den Vektor

~b =

127

13

∈ R4

und auf der linken

x1

12−3−1

+ x2

1−1

0−7

+ x3

13−2

3

+ x4

15−7

4

+ x5

1100

,

was zur Matrix 1 1 1 1 12 −1 3 5 1−3 0 −2 −7 0−1 −7 3 4 0

aus 4 Zeilen und 5 Spalten fuhrt. Es fehlt noch ein Schritt, namlich die Unbe-kannten ebenfalls in einen (Spalten-)Vektor zu schreiben:

xyz

bzw.

x1

x2

x3

x4

x5

.

Betrachten wir nun noch einmal (I.1). Unser Gleichungssystem aus Bei-spiel I.1.1(a) erweist sich als zu der Vektorgleichung

x

240

+ y

351

+ z

−2−2−3

=

812−5

Version vom 13. Juni 2019

8 I. Lineare Gleichungssysteme

aquivalent. Die linke Seite wollen wir nun als Wirkung der Matrix A aus (I.2)auf den Vektor

~x =

xyz

interpretieren2, wofur man kurz A~x schreibt. Kurzt man wie oben die rechteSeite als ~b ab, so lautet das Gleichungssystem kompakt

A~x = ~b.

Genauso lasst sich Beispiel I.1.2 behandeln. Statt dies explizit auszufuhren,kommen wir gleich zum allgemeinen Fall (den Sie sich mit Hilfe von Beispiel I.1.2illustrieren sollten). Gegeben sei ein lineares Gleichungssystem aus m Gleichun-gen mit n Unbekannten:

a11x1 + a12x2 + · · · + a1nxn = b1a21x1 + a22x2 + · · · + a2nxn = b2

...am1x1 + am2x2 + · · · + amnxn = bm

Die rechte Seite kann zu einem Vektor ~b ∈ Rm und die Unbekannten konnen zueinem Vektor ~x ∈ Rn zusammengefasst werden:

~b =

b1...bm

, ~x =

x1

...xn

.

Die Koeffizienten fuhren zu einer Matrix aus m Zeilen und n Spalten (einerm× n-Matrix3):

A =

a11 . . . a1n

a21 . . . a2n

......

am1 . . . amn

. (I.3)

Um zu erklaren, wie die m×n-Matrix A auf den Vektor ~x ∈ Rn wirkt, betrachtenwir die n Spalten

~s1 =

a11

...am1

, ~s2 =

a12

...am2

, . . . , ~sn =

a1n

...amn

∈ Rm,

2Unterscheide den Vektor ~x von der Zahl x.3Merke: Zeile zuerst, Spalte spater.

Version vom 13. Juni 2019

I.2 Vektoren im Rn und Matrizen uber R 9

aus denen A besteht, und setzen (siehe Definition I.2.3 unten)

A~x = x1~s1 + . . .+ xn~sn.

Unser Gleichungssystem lautet dann schlicht

A~x = ~b.

Statt des großen Rechtecks aus (I.3) schreibt man kurzer

A = (aij)i=1,...,m; j=1,...,n

oderA = (aij),

wenn der Laufbereich der Indizes klar ist. Explizit ist aij der Eintrag in Zei-le Nummer i und Spalte Nummer j (wieder Zeile zuerst, Spalte spater); zumBeispiel ist in (I.2)

a13 = −2, a31 = 0.

Wir erklaren jetzt offiziell (wie bereits angekundigt), wie eine Matrix aufeinen Vektor wirkt.

Definition I.2.3 Sei A = (aij) eine m × n-Matrix mit den Spalten ~s1, . . . ~sn,und sei ~x ∈ Rn. Dann ist A~x der Vektor

A~x = x1~s1 + . . .+ xn~sn =

∑nj=1 a1j xj

...∑nj=1 amj xj

∈ Rm. (I.4)

Wieder konnen wir einige elementare Eigenschaften festhalten.

Satz I.2.4 Sei A eine m× n-Matrix. Fur alle ~x, ~y ∈ Rn und λ ∈ R gilt dann

A(~x+ ~y) = A~x+A~y, A(λ~x) = λ ·A~x.

Beweis. Wir fuhren nur die erste Gleichheit aus und lassen die zweite zur Ubung.Es sei A = (aij), und ~x bzw. ~y habe die Koordinaten x1, . . . , xn bzw. y1, . . . , yn.Dann ist

A(~x+ ~y) =

∑nj=1 a1j(xj + yj)

...∑nj=1 amj(xj + yj)

=

∑nj=1 a1j xj +

∑nj=1 a1j yj

...∑nj=1 amj xj +

∑nj=1 a1j yj

=

∑nj=1 a1j xj

...∑nj=1 amj xj

+

∑nj=1 a1j yj

...∑nj=1 amj yj

= A~x+A~y.

Version vom 13. Juni 2019

10 I. Lineare Gleichungssysteme

Man sieht, dass das Distributivgesetz fur Zahlen zum Distributivgesetz fur dieMatrix-Vektor-Multiplikation fuhrt. 2

Als nachstes behandeln wir die Multiplikation von Matrizen. Es seien A =(aij) eine l × m-Matrix, B = (bjk) eine m × n-Matrix sowie ~x ∈ Rn. Setze~y = B~x ∈ Rm. Wir versuchen, ~z = A~y ∈ Rl durch ~x auszudrucken: Es ist

~x =

x1

...xn

, ~y = B~x =

∑nk=1 b1k xk

...∑nk=1 bmk xk

=:

y1

...ym

sowie

~z = A~y =

∑mj=1 a1j yj

...∑mj=1 alj yj

.

In der i-ten Zeile von ~z steht

zi =

m∑j=1

aij yj =

m∑j=1

aij

n∑k=1

bjk xk =

n∑k=1

( m∑j=1

aijbjk

)xk.

Bezeichnet man fur i = 1, . . . , l und k = 1, . . . , n

cik =

m∑j=1

aijbjk,

so haben wir folgenden Satz gezeigt.

Satz I.2.5 Sei A = (aij) eine l×m-Matrix sowie B = (bjk) eine m×n-Matrix.Definiere eine l × n-Matrix C mit den Eintragen

cik =

m∑j=1

aijbjk.

Dann gilt fur alle ~x ∈ RnC~x = A(B~x).

Definition I.2.6 In den Bezeichnungen von Satz I.2.5 heißt C das Produkt vonA und B.

Beachten Sie: Das Produkt AB ist nur erklart, wenn gilt:

Anzahl der Zeilen von B = Anzahl der Spalten von A

Version vom 13. Juni 2019

I.3 Der Gaußsche Algorithmus 11

Ein Beispiel:

A =

2 46 02 48 0

, B =

(1 2 34 5 6

), C = AB =

18 24 306 12 18

18 24 308 16 24

(z.B.: c12 = a11b12 + a12b22 = 2 · 2 + 4 · 5 = 24).

Da man einen Vektor ~x ∈ Rn auch als n × 1-Matrix auffassen kann, stelltsich das Matrix-Vektor-Produkt als Spezialfall von Definition I.2.6 heraus.

Hier ist noch eine andere Sichtweise auf das Matrixprodukt. Wenn B dieSpalten ~s1, . . . , ~sn hat, hat AB die Spalten A~s1, . . . , A~sn (warum namlich?).

Die Matrixmultiplikation teilt einige Eigenschaften mit der Multiplikationvon Zahlen; z.B. ist (nachrechnen!) – die passenden Abmessungen der Matrizenvorausgesetzt –

A(BC) = (AB)C;

d.h. die Matrixmultiplikation ist assoziativ.Hingegen ist AB im Allgemeinen nicht dasselbe wie BA. Zum einen braucht

BA gar nicht definiert zu sein, wenn AB es ist; aber selbst fur quadratischeMatrizen (wo AB und BA beide definiert sind) findet man leicht Beispiele furAB 6= BA, etwa (n = 2):

A =

(1 01 1

), B =

(0 11 0

), AB =

(0 11 1

), BA =

(1 11 0

).

Die Matrixmultiplikation ist daher nicht kommutativ.

I.3 Der Gaußsche Algorithmus

In den Beispielen in Abschnitt I.1 haben wir die Gleichungssysteme durch gewis-se Zeilenumformungen gelost. Das wollen wir jetzt systematisieren; wir arbeitendabei auf der Ebene der Matrizen und nicht der Gleichungen.

Bei einem gegebenen Gleichungssystem A~x = ~b nennt man die um die Spalte~b erweiterte m×(n+1)-Matrix die erweiterte Koeffizientenmatrix ; man schreibt

(A |~b) (der senkrechte Strich ist eine Hilfslinie, die sich als praktisch erweist).Es gibt die folgenden drei Typen von elementaren Zeilenumformungen, die

wir vornehmen:

(I) Vertausche zwei Zeilen (kurz: Zi ↔ Zj).

(II) Addiere koordinatenweise das λ-fache einer Zeile zu einer anderen Zeile(kurz: Zi ; Zi + λZj).

(III) Nimm koordinatenweise eine Zeile mit einer Zahl λ 6= 0 mal (kurz:Zi ; λZi).

Version vom 13. Juni 2019

12 I. Lineare Gleichungssysteme

Nehmen wir an, die erweiterte Koeffizientenmatrix des GleichungssystemsA~x = ~b ware durch endlich viele elementare Zeilenumformungen in die erweiterteKoeffizientenmatrix des Gleichungssystems A′~x = ~b′ uberfuhrt worden. Danngilt:

Satz I.3.1 Die linearen Gleichungssysteme A~x = ~b und A′~x = ~b′ haben dieselbeLosungsmenge.

Beweis. Man braucht nur zu uberlegen, dass das stimmt, wenn eine einzigeZeilenumformung vorgenommen wird; und das ist offensichtlich fur Typ I undTyp III. Bei Typ II sind nur zwei Zeilen im Spiel; ohne Einschrankung seien dasdie ersten beiden. Schreiben wir die Zeilen als 1× n-Matrizen, so ist fur ~x ∈ Rnzu zeigen:

Z1~x = b1, Z2~x = b2 ⇐⇒ Z1~x+ λZ2~x = b1 + λb2, Z2~x = b2,

und das ist klar. 2

Die Strategie zur Losung von A~x = ~b wird also sein, die Matrix (A |~b) in einebesonders einfache Form zu uberfuhren, so dass die Losungsmenge unmittelbarabzulesen ist. Diese Form ist die Zeilenstufenform, deren Konstruktion wir fureine m× n-Matrix A algorithmisch beschreiben.

• Betrachte a11. Nach einer Typ-I-Umformung durfen wir a11 6= 0 annehmen.[Sollten alle ai1 = 0 sein, wurde x1 in unserem Gleichungssystem gar nicht expli-zit auftauchen.] Anschließend fuhren wir fur i = 2, . . . ,m die Typ-II-UmformungZi ; Zi − ai1

a11Z1 durch. Es ist jetzt eine neue Matrix A(1) entstanden, in der

a(1)11 6= 0 und a

(1)i1 = 0 fur i = 2, . . . ,m ist.

• Betrachte a(1)22 . Es sind zwei Falle denkbar: Es ist a

(1)i2 6= 0 fur ein i ∈

{2, . . . ,m}, oder es ist a(1)i2 = 0 fur alle i ∈ {2, . . . ,m}.

Im ersten Fall durfen wir nach einer Typ-I-Umformung a(1)22 6= 0 annehmen.

Anschließend fuhren wir fur i = 3, . . . ,m die Typ-II-Umformung Zi ; Zi −a(1)i2

a(1)22

Z2 durch. Es ist jetzt eine neue Matrix A(2) entstanden, in der a(2)22 6= 0 und

a(2)i2 = 0 fur i = 3, . . . ,m ist.

Im zweiten Fall betrachte a(1)23 und wiederhole den letzten Schritt.

• Wiederhole den letzten Schritt fur die nachste Spalte.

Auf diese Weise entsteht nach endlich vielen Schritten eine Matrix A′ mitfolgender Eigenschaft: Es gibt 1 ≤ j1 < j2 < · · · < jr ≤ n mit

a′iji 6= 0 fur i ≤ r,a′ij = 0 fur j < ji, i = 1, . . . , r,

a′ij = 0 fur i > r.

Version vom 13. Juni 2019

I.3 Der Gaußsche Algorithmus 13

Die Elemente a′iji heißen die Pivots und die Spalten mit den Nummern j1, . . . , jrdie Pivotspalten.

Man beachte, dass zur Konstruktion keine Typ-III-Umformungen verwandtwurden!

Wir fuhren das Verfahren am Beispiel der erweiterten Koeffizientenmatrixaus Beispiel I.1.1 vor: A ~b

=

2 3 −2 84 5 −2 120 1 −3 −5

Dann erhalten wir nacheinander (vergleiche Seite 1) 2 3 −2 8

0 −1 2 −40 1 −3 −5

2 3 −2 8

0 −1 2 −40 0 −1 −9

Ignoriert man die fuhrenden Nullen, so sieht man formlich die Zeilenstufenform: 2 3 −2 8

−1 2 −4−1 −9

Durch Ruckwartssubstitution lasst sich jetzt das neuen Gleichungssystem be-quem losen, und wegen Satz I.3.1 hat man auch das Originalsystem gelost; wirerhalten die schon bekannte eindeutige Losung. Man beachte, dass sich bei eineranderen rechten Seite ~b nur die Werte rechts von der Hilfslinie andern wurden.

Im Beispiel I.1.2 haben wir folgende Zeilenstufenform:1 1 1 1 1 1−3 1 3 −1 0

2 −1 2 101 4

(I.5)

Da die vorletzte Stufe vor der Hilfslinie nicht die”Lange“ 1 hat, kann man x4

frei wahlen und erhalt unendlich viele Losungen des Gleichungssystems.Die Methode, ein lineares Gleichungssystem durch Ruckwartssubstitution

aus der Zeilenstufenform der erweiterten Koeffizientenmatrix zu losen, nenntman Gaußsches Eliminationsverfahren oder den Gaußschen Algorithmus.

Die Losbarkeit lasst sich qualitativ so beschreiben.

Satz I.3.2 Betrachte die Zeilenstufenform der erweiterten Koeffizientenmatrixdes Gleichungssystems A~x = ~b mit den Pivot-Indizes 1 ≤ j1 < j2 < · · · < jr ≤n+ 1.

Version vom 13. Juni 2019

14 I. Lineare Gleichungssysteme

(a) Wenn jr = n+ 1 ist, ist das Gleichungssystem nicht losbar.

(b) Wenn jr ≤ n und r = n ist (so dass all ji = i sind), ist das Gleichungs-system eindeutig losbar.

(c) Wenn jr ≤ n und r < n ist, besitzt das Gleichungssystem unendlichviele Losungen.

Genauer gilt im Fall (c): Ist ji+1 − ji > 1, so konnen die Variablen xji+1, . . . ,xji+1−1 frei gewahlt werden.

Zur Begrundung muss man nur die Zeilenstufenform genau ansehen undSatz I.3.1 heranziehen.

Man nennt ein Gleichungssystem der Form

A~x = ~0 (I.6)

homogen und eins der Form

A~x = ~b (I.7)

inhomogen. Ein homogenes Gleichungssystem hat stets eine Losung, namlich~x = ~0, eventuell aber noch weitere. Zwischen den Losungen eines homogenenund eines inhomogenen Systems (mit derselben Matrix A) besteht folgenderZusammenhang (nachrechnen!):

Satz I.3.3

(a) Sind ~x und ~w Losungen von (I.6), so auch λ~x+ µ~w fur λ, µ ∈ R.

(b) Ist ~x eine Losung von (I.6) und ~y eine Losung von (I.7), so ist ~x + ~yeine Losung von (I.7).

(c) Sind ~y1 und ~y2 Losungen von (I.7), dann ist ~y1 − ~y2 eine Losung von(I.6).

Wir erhalten folgendes wichtige Korollar aus Satz I.3.2.

Korollar I.3.4 Sei A eine quadratische Matrix. Wenn das zugehorige homoge-ne Gleichungssystem nur die triviale Losung besitzt, ist jedes inhomogene Glei-chungssystem A~x = ~b eindeutig losbar.

Beweis. Das folgt daraus, dass die Bedingung von Teil (b) in Satz I.3.2 un-

abhangig von der Wahl der rechten Seite ~b eintritt, und nach Voraussetzung desKorollars tritt sie fur ~b = ~0 ein. 2

Man kann bei der Bildung der Zeilenstufenform einer Matrix noch einenSchritt weitergehen und alle Eintrage oberhalb eines Pivots zu 0 machen (Typ-II-Umformungen) und den Pivot selbst zu 1 (Typ-III-Umformungen). Das liefertdie reduzierte Zeilenstufenform, und man nennt den Gaußschen Algorithmus

Version vom 13. Juni 2019

I.4 Exkurs uber Abbildungen 15

dann das Gauß-Jordan-Verfahren. Im Fall der eindeutigen Losbarkeit mit einerquadratischen Matrix A wird diese zur Einheitsmatrix

En =

1 0. . .

0 1

(I.8)

transformiert, in der auf der Hauptdiagonalen nur Einsen und außerhalb nurNullen stehen. (Die Hauptdiagonale einer quadratischen Matrix (aij) enthaltalle Eintrage aii.)

I.4 Exkurs uber Abbildungen

Seien X und Y Mengen. Eine Abbildung f : X → Y bildet jedes Element x desDefinitionsbereichs X auf ein gewisses (von x abhangiges) Element y des Wer-tevorrats Y ab. Ist Y eine Menge von Zahlen, spricht man auch gern von einerFunktion. Eine Abbildung f ist durch den Definitionsbereich X, den Wertevor-rat Y und die Abbildungsvorschrift x 7→ f(x) festgelegt. Daher sind

f1: R→ R, f1(x) = x2

f2: [0,∞)→ R, f2(x) = x2

f3: R→ [0,∞), f3(x) = x2

f4: [0,∞)→ [0,∞), f4(x) = x2

vier verschiedene Abbildungen!

Unterscheiden Sie stets f(x), den Wert von f an der Stelle x, von der Ab-bildung f !

Sie mussen drei wichtige Vokabeln lernen:

• f : X → Y heißt injektiv, wenn

x1, x2 ∈ X, f(x1) = f(x2) ⇒ x1 = x2

gilt.

• f : X → Y heißt surjektiv, wenn jedes y ∈ Y von der Form f(x) fur eingeeignetes x ∈ X ist. Das konnen wir auch in Quantorenschreibweise4

ausdrucken:

∀y ∈ Y ∃x ∈ X y = f(x).

• f : X → Y heißt bijektiv, wenn f sowohl injektiv als auch surjektiv ist.

4∀ (umgedrehtes A) steht fur”fur alle“, ∃ (umgedrehtes E) steht fur

”es existiert“. Manche

Autoren benutzen bei Bedarf auch ∃!, das fur”es existiert genau ein“ steht.

Version vom 13. Juni 2019

16 I. Lineare Gleichungssysteme

In den obigen Beispielen ist f2 injektiv, aber nicht surjektiv, f3 ist surjektiv,aber nicht injektiv, f4 ist bijektiv, und f1 ist weder injektiv noch surjektiv.

Diese Begriffe konnen mit Hilfe von Gleichungen ausgedruckt werden:”f ist

injektiv“ bedeutet, dass die Gleichung f(x) = y fur jedes y ∈ Y hochstens eineLosung in X besitzt;

”f ist surjektiv“ bedeutet, dass die Gleichung f(x) = y

fur jedes y ∈ Y mindestens eine Losung in X besitzt;”f ist bijektiv“ bedeutet,

dass die Gleichung f(x) = y fur jedes y ∈ Y genau eine Losung in X besitzt.Wichtige Operationen sind Bild und Urbild einer Abbildung f : X → Y . Fur

A ⊂ X ist5

f(A) = {y ∈ Y : ∃x ∈ A f(x) = y} = {f(x): x ∈ A} ⊂ Y

das Bild von A unter f , und fur B ⊂ Y ist

f−1(B) = {x ∈ X: f(x) ∈ B} ⊂ X

das Urbild von B unter f . (Je nach Kontext muss man verstehen, ob mit f( )eine Teilmenge oder ein Element von Y gemeint ist.) Dass f injektiv ist, kannman auch so ausdrucken:

∀x ∈ X: f−1({f(x)}) = {x},

und dass f surjektiv ist, so:f(X) = Y.

Es gelten folgende Aussagen fur A1, A2 ⊂ X, B1, B2 ⊂ Y (Beweis?):

f(A1 ∪A2) = f(A1) ∪ f(A2)

f(A1 ∩A2) ⊂ f(A1) ∩ f(A2)

f−1(B1 ∪B2) = f−1(B1) ∪ f−1(B2)

f−1(B1 ∩B2) = f−1(B1) ∩ f−1(B2)

In der 2. Zeile gilt im Allgemeinen keine Gleichheit; Beispiel: f : R→ R, f(x) =x2, A1 = [−1, 0], A2 = [0, 1].

Seien f : X → Y und g: Y → Z zwei Abbildungen. Die Komposition von gund f ist durch

g ◦ f : X → Z, (g ◦ f)(x) = g(f(x))

erklart; lies”g nach f“ oder

”g Kringel f“. Die identische Abbildung auf X

(bzw. Y ) werde mit idX (bzw. idY ) bezeichnet. Falls

g ◦ f = idX ,

ist f injektiv und g surjektiv. (Beweis: Falls f(x1) = f(x2), folgt x1 = g(f(x1)) =g(f(x2)) = x2, und f ist injektiv; ist x ∈ X gegeben, so ist x = g(f(x)), und

5In diesem Skript schließt das Symbol ⊂ die Gleichheit ein; also ist X ⊂ X korrekt.

Version vom 13. Juni 2019

I.5 Invertierbare Matrizen 17

g ist surjektiv.) Allerdings brauchen f und g nicht bijektiv zu sein, und f ◦ gbraucht nicht idY zu sein; z.B.

X = Y = N, f(n) = n+ 1, g(n) =

{n− 1 fur n ≥ 2,

1 fur n = 1.

Fur eine bijektive Abbildung f : X → Y kann man die inverse Abbildungf−1 durch

f−1: Y → X, f−1(y) = x ⇔ f(x) = y

definieren; es gelten dann

f−1 ◦ f = idX , f ◦ f−1 = idY .

Bijektive Abbildungen heißen deshalb auch invertierbar. (Achtung: Der Expo-nent −1 hat hier eine andere Bedeutung als beim Urbild.)

Wir konnen noch einen Schritt weiter gehen:

Lemma I.4.1

(a) Wenn f : X → Y bijektiv ist und wenn g: Y → X eine Abbildung mitg ◦ f = idX ist, ist notwendig g = f−1 und deshalb auch f ◦ g = idY .

(b) Wenn f : X → Y bijektiv ist und wenn g: Y → X eine Abbildung mitf ◦ g = idY ist, ist notwendig g = f−1 und deshalb auch g ◦ f = idX .

Beweis. (a) Fur y ∈ Y gilt

f−1(y) = (g ◦ f)(f−1(y)) = g(f(f−1(y))) = g(y);

das war zu zeigen.(b) wird genauso bewiesen. 2

I.5 Invertierbare Matrizen

Wir betrachten nun Matrizen A und die zugehorigen Abbildungen

LA: ~x 7→ A~x.

Wir konnen dann Satz I.2.4 so umformulieren:

Satz I.5.1 Sei A eine m × n-Matrix, und sei LA: Rn → Rm wie oben. Fur~x, ~y ∈ Rn und λ ∈ R gilt dann

LA(~x+ ~y) = LA(~x) + LA(~y), LA(λ~x) = λLA(~x).

Diese Eigenschaft werden wir bald mit den Worten ausdrucken, LA sei einelineare Abbildung.

Entsprechend kann Satz I.2.5 so umformuliert werden.

Version vom 13. Juni 2019

18 I. Lineare Gleichungssysteme

Satz I.5.2 Sei A eine l ×m-Matrix, und sei B eine m × n-Matrix. Dann giltLAB = LA ◦ LB.

Schließlich formulieren und erganzen wir Korollar I.3.4 in der Sprache derAbbildungen.

Satz I.5.3 Sei A eine n × n-Matrix. Dann ist LA genau dann injektiv, wennLA surjektiv ist.

Beweis.”Injektiv impliziert surjektiv“ folgt sofort aus Korollar I.3.4. Ist umge-

kehrt LA surjektiv, so muss in der Notation von Satz I.3.2 jr ≤ n sein. Warer < n, enthielte die Zeilenstufenform A′ von A eine Nullzeile, und LA′ warenicht surjektiv; denn A′~x = ~b′ ist nicht losbar, wenn die letzte Koordinate von~b′ nicht 0 ist. Betrachten wir solch ein ~b′ und machen wir die Zeilenumformun-gen, die A in A′ uberfuhren, ruckwarts, erhalten wir einen Vektor ~b, fur denA~x = ~b nicht losbar ist; das zeigt, dass dann auch LA nicht surjektiv ist. Alsomuss r = n sein, und LA ist nach Satz I.3.2 injektiv. 2

Nehmen wir nun an, A sei eine quadratische Matrix und LA bijektiv. Um dieGleichung A~x = ~b zu losen, ware es gut, die inverse Abbildung (LA)−1 zu ken-

nen, denn dann konnen wir sofort die Losung ~x = (LA)−1(~b) hinschreiben. Wirwerden diese Inverse in der Form LB fur eine geeignete Matrix B konstruieren.Dazu zunachst einige Vorbemerkungen.

Sei A eine n×n-Matrix. Nehmen wir an, dass eine n×n-Matrix B mit AB =En existiert. Wegen Satz I.5.2 folgt LA ◦LB = idRn ; deshalb (vgl. Abschnitt I.4)ist LA surjektiv und wegen Satz I.5.3 bijektiv. Nach Lemma I.4.1 ist LB =(LA)−1 und deshalb auch LBA = LB ◦ LA = idRn sowie (warum?) BA = En.

Genauso schließt man aus der Annahme, dass eine n × n-Matrix B mitBA = En existiert, dass diese auch AB = En erfullt.

Beachten wir noch, dass solche B eindeutig bestimmt sind: Aus AB1 =AB2 = En folgt namlich

B1 = B1En = B1(AB2) = (B1A)B2 = EnB2 = B2.

Das fuhrt uns zu folgender Definition und anschließend zu einem Lemma:

Definition I.5.4 Eine n × n-Matrix A heißt invertierbar, wenn es genau eineMatrix B mit AB = BA = En gibt. Bezeichnung: B = A−1.

Lemma I.5.5 Eine n×n-Matrix A ist invertierbar, wenn es eine n×n-MatrixB mit AB = En gibt oder wenn es eine n× n-Matrix B mit BA = En gibt. Injedem Fall ist A−1 = B.

Um dieses Lemma richtig wertzuschatzen, erinnere man sich, dass fur belie-bige quadratische Matrizen AB und BA im Allgemeinen verschieden sind und

Version vom 13. Juni 2019

I.5 Invertierbare Matrizen 19

dass fur beliebige Abbildungen aus g ◦ f = id im Allgemeinen nicht f ◦ g = idfolgt!

Wie kann man einer Matrix ansehen, ob sie invertierbar ist? Leider nicht di-rekt, aber die Zeilenstufenform hilft. Wir wissen bereits, dass eine n×n-MatrixA genau dann invertierbar ist, wenn LA bijektiv ist, und nach Satz I.3.2 (sieheauch den Beweis von Satz I.5.3) passiert das genau dann, wenn die Zeilenstu-fenform von A keine Nullzeile (bzw. n Pivotspalten) enthalt.

Halten wir das fest.

Lemma I.5.6 Eine n × n-Matrix A ist genau invertierbar, wenn ihre Zeilen-stufenform keine Nullzeile bzw. n Pivotspalten enthalt.

Wie am Ende von Abschnitt I.3 ausgefuhrt, ist die reduzierte Zeilenstufen-form einer invertierbaren Matrix dann En. Das eroffnet ein Konstruktionsver-fahren fur die Inverse.

Sei also A eine invertierbare n×n-Matrix. Wir suchen die Matrix A−1, derenSpalten wir mit ~s1, . . . , ~sn bezeichnen. Wir nennen

~e1 =

100

.

.

.0

, ~e2 =

010

.

.

.0

, . . . , ~en =

00

.

.

.01

die Einheitsvektoren des Rn. Definitionsgemaß gilt dann fur alle k = 1, . . . , n

A~sk = ~ek,

denn AA−1 = En. Es sind also n Gleichungssysteme zu losen, wofur wir dasGauß-Jordan-Verfahren benutzen. Diese n Aufgaben losen wir simultan wiefolgt. Wir wenden auf die n×2n-Matrix (A |En) so lange elementare Zeilenum-formungen an, bis links vom Hilfsstrich En erscheint; rechts vom Hilfsstrich hatman dann A−1. Warum funktioniert das? Die transformierte Matrix sei (En |B),

und B habe die Spalten ~b1, . . . ,~bn. Nach Satz I.3.1 ist die Losung von A~x = ~ek,also ~sk, dieselbe wie die Losung von En~x = ~bk, also ~bk. Daher ist B = A−1.

Ein Beispiel:

A =

(2 91 4

)Version vom 13. Juni 2019

20 I. Lineare Gleichungssysteme

Wir fuhren folgende Zeilenumformungen durch:(2 9 1 01 4 0 1

)Z2 ; 2Z2 − Z1:

(2 9 1 00 −1 −1 2

)Z2 ; −Z2:

(2 9 1 00 1 1 −2

)Z1 ; Z1 − 9Z2:

(2 0 −8 180 1 1 −2

)Z1 ;

1

2Z1:

(1 0 −4 90 1 1 −2

)Daher ist die inverse Matrix

A−1 =

(−4 9

1 −2

).

Ubrigens muss man zur Anwendung dieses Verfahrens gar nicht a prioriwissen, dass A invertierbar ist; das Verfahren liefert auch ein Kriterium zurUberprufung der Invertierbarkeit. Bringt man namlich (A |En) auf die redu-zierte Zeilenstufenform und erhalt man links vom Hilfsstrich nicht En, sonderneine Matrix mit einer Nullzeile, so war A nicht invertierbar.

Es folgt noch ein sehr einfaches Lemma uber invertierbare Matrizen.

Lemma I.5.7 Sind A und B invertierbare n × n-Matrizen, so ist auch ABinvertierbar mit (AB)−1 = B−1A−1.

Beweis. Beachte nur die Assoziativitat der Matrixmultiplikation und

(B−1A−1)(AB) = B−1(A−1A)B = B−1B = En

sowie Lemma I.5.5. 2

I.6 Die LR-Zerlegung

Als nachstes werfen wir einen neuen Blick auf die elementaren Zeilenumformun-gen. Wir wahlen eine beliebige solche Umformung und fuhren sie einerseits furdie Matrix Em und andererseits fur eine m× n-Matrix A aus; das Resultat seiE∼ (solch eine Matrix heißt Elementarmatrix ) bzw. A∼. Ist die Umformungz.B. Z2 ; Z2 + λZ1 vom Typ II, so ist

E∼ =

1 0 0 . . . 0λ 1 0 . . . 00 0 1 0...

. . ....

0 0 0 . . . 1

. (I.9)

Version vom 13. Juni 2019

I.6 Die LR-Zerlegung 21

Fur alle drei Typen von Umformungen bestatigt man E∼A = A∼ sowie, dassE∼ invertierbar ist. (Fur die Inverse im obigen Beispiel muss man nur λ durch−λ ersetzen.)

Bestatigen wir das pars pro toto fur die in (I.9) genannte Elementarma-trix E∼: Ist ~x ∈ Rm, so ist E∼~x derjenige Vektor, fur den die erste, dritte,vierte, . . . , m-te Koordinate dieselbe ist wie bei ~x, und die zweite Koordinateandert sich von x2 zu λx1 +x2. Ist also ~sj die j-te Spalte von A, so ist demnachE∼~sj die j-te Spalte von A∼, d.h. E∼A = A∼.

Wegen seiner Bedeutung formulieren wir dieses Resultat erneut als Lemma.

Lemma I.6.1 Wendet man ein und dieselbe Zeilenumformung auf die Einheits-matrix Em ∈ Rm×m und eine Matrix A ∈ Rm×n an und erhalt man so E∼ bzw.A∼, so gilt A∼ = E∼A.

Da nach Lemma I.5.7 das Produkt invertierbarer Matrizen invertierbar ist,erhalten wir folgendes Resultat.

Satz I.6.2 Ist A eine m × n-Matrix und A′ ihre Zeilenstufenform oder ihrereduzierte Zeilenstufenform, so existiert eine invertierbare m×m-Matrix S mitSA = A′.

Dieser Satz lasst Satz I.3.1 im neuen Licht erscheinen: In der Tat ist dieAquivalenz

A~x = ~b ⇔ A′~x = ~b′

klar, da ja A′ = SA und ~b′ = S~b mit invertierbarem S.Im Folgenden betrachten wir eine quadratische invertierbare n × n-Matrix

A mit Zeilenstufenform A′. Wir wollen die in Satz I.6.2 auftauchende Matrix Sgenauer untersuchen.

Zunachst machen wir die zusatzliche Annahme, dass bei der Umformung vonA zu A′ keine Zeilenvertauschungen notwendig sind, d.h., dass die Pivots immerda sind, wo wir sie brauchen. Es kommen also nur Typ-II-Umformungen vor, unddie entsprechenden Elementarmatrizen sehen so aus: Auf der Hauptdiagonalenstehen Einsen, an genau einer Stelle unterhalb der Hauptdiagonalen steht eineZahl λ 6= 0, und alle anderen Eintrage sind 0. Insbesondere sind dies alles untereDreiecksmatrizen: Eine n × n-Matrix C = (cij) heißt untere Dreiecksmatrix(bzw. obere Dreiecksmatrix ), wenn cij = 0 fur alle i < j (bzw. cij = 0 fur allei > j).

Es ist nun leicht nachzurechnen, dass das Produkt C = (cij) unterer Drei-ecksmatrizen C1 = (c1ij) und C2 = (c2ij) ebenfalls eine untere Dreiecksmatrix ist;denn fur i < k ist

cik =

n∑j=1

c1ijc2jk =

i∑j=1

c1ijc2jk =

i∑j=1

c1ij · 0 = 0;

Version vom 13. Juni 2019

22 I. Lineare Gleichungssysteme

hier haben wir zuerst benutzt, dass c1ij = 0 fur i < j, und dann, dass c2jk = 0 furj ≤ i < k. Genauso sieht man, dass auf der Hauptdiagonalen von C nur Einsenstehen, wenn das bei C1 und C2 so ist.

Nun ist es so, dass die Inversen von Elementarmatrizen vom Typ II vonderselben Bauart sind (siehe das obige Beispiel). Die Darstellung

A′ = Es · · ·E1A

mit Elementarmatrizen vom Typ II fuhrt also zur Darstellung (Fσ = E−1σ )

A = F1 · · ·FsA′ =: LA′.

Hier ist L nach den Vorbemerkungen eine untere Dreiecksmatrix mit Einsen aufder Hauptdiagonalen, und A′ ist eine obere Dreiecksmatrix mit von 0 verschie-denen Eintragen auf der Hauptdiagonalen. (Eine genauere Beschreibung von Lfolgt gleich.) Schreiben wir R statt A′, haben wir mit

A = LR

die Matrix A in das Produkt einer unteren und einer oberen Dreiecksmatrixfaktorisiert; dies nennt man im deutschen Sprachraum die LR-Zerlegung (L wielinks und R wie rechts) und im englischen die LU-decomposition (L wie lowerund U wie upper).

Rechnen wir das einmal fur unsere Beispielmatrix aus Beispiel I.1.1(a) durch.Hier war (siehe oben)

E1 =

1 0 0−2 1 0

0 0 1

E2 =

1 0 00 1 00 1 1

,

also

F1 =

1 0 02 1 00 0 1

F2 =

1 0 00 1 00 −1 1

und

L = F1F2 =

1 0 02 1 00 −1 1

, R =

2 3 −20 −1 20 0 −1

.

Man beachte, dass in L genau dokumentiert ist, welche Typ-II-Umformungendurchgefuhrt wurden!

Um dies allgemein zu begrunden, fuhren wir folgende Notation ein. Fur i 6= jsei Eij(λ) diejenige n× n-Matrix, die auf der Hauptdiagonalen nur Einsen hatund fur die der Eintrag in Zeile i und Spalte j die Zahl λ ist; alle anderenEintrage sind 0. Wie schon beobachtet, sind diese Matrizen invertierbar mit derInversen

(Eij(λ))−1 = Eij(−λ),

Version vom 13. Juni 2019

I.6 Die LR-Zerlegung 23

und Eij(λ)~x ersetzt die i-te Koordinate xi von ~x durch xi + λxj . Bei derUberfuhrung von A nach A′ wird also mit geeigneten Zahlen λij (i > j) dasMatrixprodukt

A′ = En,n−1(λn,n−1)[. . . ](En2(λn2) · · ·E32(λ32))(En1(λn1) · · ·E21(λ21))A

gebildet, daher ist

L = (E21(−λ21) · · ·En1(−λn1))(E32(−λ32) · · ·En2(−λn2))[. . . ]En,n−1(−λn,n−1).

Diese Matrix ist jedoch

L =

1 0 . . . 0−λ21 1 0 . . . 0−λ31 −λ32 1 0

......

. . . 0−λn1 −λn2 . . . −λn,n−1 1

;

das macht man sich klar, indem man die von den Eij(−λij) hervorgerufenenZeilenoperationen genau verfolgt (eine Beispielrechnung fur eine 4 × 4-Matrixmag hilfreich sein, um den allgemeinen Fall zu durchdringen).

Die LR-Zerlegung ist numerisch wichtig, wenn man große (n ≥ 105) Glei-

chungssysteme A~x = ~b fur”viele“ ~b losen soll. Durch eine

”Vorwartssubstitution“

(beginnend bei der ersten Unbekannten) lost man namlich zuerst L~y = ~b aufganz einfache Weise und anschließend genauso einfach R~x = ~y durch Ruckwarts-substitution (beginnend bei der letzten Unbekannten). In der Tat ist dann

A~x = LR~x = L~y = ~b.All dies funktioniert unter der Annahme, dass keine Pivotsuche notig ist.

Falls doch, kann man so vorgehen: Fuhrt eine Kette von Typ-II-Umformungenzu einer 0 an einer Pivotstelle, muss man jetzt die entsprechende Zeile gegen eineweiter unten stehende austauschen (wegen Lemma I.5.6 ist das moglich). Wennman jedoch vor den Typ-II-Umformungen bereits tauscht und anschließend dieentsprechenden Typ-II-Umformungen auf die modifizierten Zeilen anwendet, istman wieder in der Situation von oben. Es gibt also Typ-I-ElementarmatrizenEI

1, . . . , EIr, so dass

AI = EIr · · ·EI

1A =: QA

der Voraussetzung der ersten Halfte des Abschnitts genugt. Die Matrix Q =EIr · · ·EI

1 enthalt in jeder Zeile und jeder Spalte genau eine 1 und sonst nurNullen; sie sorgt fur die Vertauschung der Zeilen und wird eine Permutations-matrix genannt. Man beachte, dass P := Q−1 = (EI

1)−1 · · · (EIr)−1 = EI

1 · · ·EI1

ebenfalls eine Permutationsmatrix ist.Insgesamt haben wir den Satz von der LR-Zerlegung gezeigt:

Satz I.6.3 Zu jeder invertierbaren n × n-Matrix A existieren eine Permutati-onsmatrix P , eine untere Dreiecksmatrix L und eine obere Dreiecksmatrix Rmit A = PLR.

Version vom 13. Juni 2019

24 I. Lineare Gleichungssysteme

Das stimmt auch fur nicht invertierbare Matrizen; dann hat R aber minde-stens eine 0 auf der Hauptdiagonalen.

Version vom 13. Juni 2019

Kapitel II

R-Vektorraume

II.1 Vektorraume und ihre Unterraume

Die Rechnungen aus Kapitel I basieren auf den in Satz I.2.2 aufgestellten Re-geln. Diese nimmt man zur Grundlage des Begriffs des Vektorraums, der fur diemoderne Mathematik fundamental ist.

Definition II.1.1 Ein Vektorraum (genauer R-Vektorraum) ist eine Menge Vzusammen mit zwei Operationen, genannt Addition bzw. Skalarmultiplikation,

V × V 3 (v, w) 7→ v + w ∈ V, R× V 3 (λ, v) 7→ λ · v = λv ∈ V,

so dass die folgenden Eigenschaften erfullt sind:

(a) (u + v) + w = u + (v + w) fur alle u, v, w ∈ V (Assoziativitat derAddition).

(b) Es existiert ein Element 0V ∈ V mit v + 0V = v fur alle v ∈ V .

(c) Fur alle v ∈ V existiert ein Element −v ∈ V mit v + (−v) = 0V .

(d) v + w = w + v fur alle v, w ∈ V (Kommutativitat der Addition).

(e) λ(v + w) = λv + λw fur alle λ ∈ R, v, w ∈ V (1. Distributivgesetz).

(f) (λ+ µ)v = λv + µv fur alle λ, µ ∈ R, v ∈ V (2. Distributivgesetz).

(g) (λµ)v = λ(µv) fur alle λ, µ ∈ R, v ∈ V (Assoziativitat der Skalarmulti-plikation).

(h) 1 · v = v fur alle v ∈ V .

Hier ein paar Bemerkungen zur Definition:

(1) Das Pluszeichen erscheint hier in zwei Bedeutungen: einmal ist die Ad-dition in R gemeint und einmal die in V . Strenggenommen musste mandiese Symbole unterscheiden, das wurde aber schnell sehr unubersicht-lich.

Version vom 13. Juni 2019

26 II. R-Vektorraume

(2) Die Elemente eines Vektorraums heißen Vektoren, und Zahlen werdenim Vektorraumkontext gern Skalare genannt. Statt λv schreibt man derDeutlichkeit halber auch λ ·v (wie in (h)); zum Malpunkt ist das gleichezu sagen wie in Bemerkung (1).

(3) Die Bedingungen (a) bis (d) kann man auch so ausdrucken, dass (V,+)eine abelsche Gruppe ist; zum Gruppenbegriff spater mehr (Definiti-on V.1.1).

(4) Das neutrale Element der Addition aus (b) ist eindeutig bestimmt:Erfullt 0′V ebenfalls (b), so folgt wg. (b), (d) und Annahme uber 0′V

0′V = 0′V + 0V = 0V + 0′V = 0V .

(5) Genauso ist das additiv Inverse −v in (c) eindeutig bestimmt: Aus v +v′ = 0V folgt wg. (b), (c), (d), (a), Annahme uber v′ und (b)

v′ = 0V + v′ = (v + (−v)) + v′ = ((−v) + v) + v′

= (−v) + (v + v′) = −v + 0V = −v.

(6) Es gilt λ · 0V = 0V fur alle λ ∈ R und 0 · v = 0V fur alle v ∈ V . Dennes ist

λ0V = λ(0V + 0V ) = λ0V + λ0V ,

also

0V = λ0V + (−(λ0V )) = (λ0V + λ0V ) + (−(λ0V ))

= λ0V + (λ0V + (−(λ0V ))) = λ0V

sowie0 · v = (0 + 0) · v = 0 · v + 0 · v,

also wieder

0V = 0 · v + (−(0 · v)) = (0 · v + 0 · v) + (−(0 · v))

= 0 · v + (0 · v + (−(0 · v)) = 0 · v + 0V = 0 · v.

(7) Ist umgekehrt λv = 0V , so ist λ = 0 oder v = 0: Ist namlich λ 6= 0, soexistiert die Inverse λ−1, und es folgt wg. (6)

v = 1 · v = (λ−1λ)v = λ−1(λv) = λ−10V = 0V .

(8) Es gilt stets −v = (−1) · v: Es ist ja

v + (−1) · v = 1 · v + (−1) · v = (1 + (−1)) · v = 0 · v = 0V ,

und die Behauptung folgt aus (5).

(9) Die Unterscheidung der Symbole 0 und 0V werden wir noch eine Zeit-lang beibehalten.

Version vom 13. Juni 2019

II.1 Vektorraume und ihre Unterraume 27

(10) Die Bedingung (h) schließt aus, dass (λ, v) 7→ 0V eine erlaubte Skalar-multiplikation ist; alle anderen Bedingungen waren erfullt.

Diese Rechenregeln und -techniken werden wir immer wieder stillschweigendbenutzen.

Beispiele II.1.2 (a) Das Paradebeispiel eines R-Vektorraums ist Rn mit derAddition und Skalarmultiplikation aus Definition I.2.1; siehe Satz I.2.2.

(b) Sei Rm×n die Menge aller m × n-Matrizen uber R. Definiert man furA = (aij) ∈ Rm×n, B = (bij) ∈ Rm×n und λ ∈ R

A+B = (aij + bij), λA = (λaij),

so sind die Bedingungen aus Definition II.1.1 erfullt. Man mag beobachten, dassRm×n

”dasselbe“ ist wie Rmn, nur dass man im ersten Fall die Eintrage in ein

m × n-Rechteck eintragt statt in eine Spalte. Die Rechteckschreibweise hat esuns aber erlaubt, das Produkt von Matrizen zu definieren!

(c) Sei X 6= ∅ eine Menge und V = Abb(X) die Menge aller Funktionen vonX nach R. Definiert man fur f, g ∈ V und λ ∈ R

f + g: x 7→ f(x) + g(x), λf : x 7→ λ · f(x),

so sind die Bedingungen aus Definition II.1.1 erfullt. Der”Nullvektor“ ist hier

die Nullfunktion 0V : x 7→ 0, und das additiv Inverse ist −f : x 7→ −(f(x)).(d) Allgemeiner als in (c) kann man fur einen gegebenen Vektorraum W die

Abbildungen von X nach W betrachten. Diese bilden analog den VektorraumAbb(X,W ).

(e) Sei I ⊂ R ein Intervall, das nicht nur aus einem einzigen Punkt besteht.Wir betrachten die Teilmenge Pol(I) ⊂ Abb(I) aller Polynomfunktionen, alsoaller Funktionen der Bauart

f : x 7→n∑k=0

akxk

mit geeigneten n ∈ N0 = N ∪ {0} und ak ∈ R. Auch dies ist ein Vektorraum:Da Abb(I) ein Vektorraum ist, ist nur zu beachten, dass Summen und skalareVielfache von Polynomfunktionen wieder Polynomfunktionen sind1.

Das letzte Beispiel gibt Anlass zu folgender Definition.

Definition II.1.3 Sei V ein Vektorraum. Eine Teilmenge U ⊂ V heißt Unter-raum (oder Untervektorraum), wenn folgende Bedingungen erfullt sind:

1In der abstrakten Algebra ist ein Polynom nicht ganz dasselbe wie eine Polynomfunktion.Da wir aber erst spater zu den Punkten gelangen werden, wo dieser Unterschied wichtig wird,werden wir die Begriffe

”Polynom“ und

”Polynomfunktion“ einstweilen synonym verwenden.

Siehe dazu Abschnitt V.2.

Version vom 13. Juni 2019

28 II. R-Vektorraume

(0) 0V ∈ U .

(1) v + w ∈ U , wenn v ∈ U und w ∈ U .

(2) λv ∈ U , wenn λ ∈ R und v ∈ U .

Die Bedingungen (1) und (2) kann man auch zusammenfassen zu

(1&2) λv + µw ∈ U , wenn λ, µ ∈ R und v, w ∈ U ;

und statt (0) kann man in Definition II.1.3 auch

(0′) U 6= ∅zusammen mit (1) und (2) fordern (warum?).

Jeder Unterraum eines Vektorraums ist selbst ein Vektorraum. Dazu ist nurzu uberprufen, dass −v ∈ U fur v ∈ U gilt, und das folgt aus −v = (−1)v.

Beispiele II.1.4 (a) V und {0} sind Unterraume von V .(b) In Rn ist2

U =

{x ∈ Rn:

n∑k=1

xk = 0

}ein Unterraum. Hier wie im Folgenden wird stillschweigend angenommen, dassein Vektor x ∈ Rn (bzw. y ∈ Rn bzw. . . . ) die Koordinaten x1, . . . , xn (bzw.y1, . . . , yn bzw. . . . ) hat.

(c) In Rn sind

U1 = {x ∈ Rn: x1 = 1} bzw. U2 = {x ∈ Rn: − 1 ≤ x1 ≤ 1}

keine Unterraume.(d) Die Menge der Losungen eines linearen Gleichungssystems Ax = ~0 (mit

A ∈ Rm×n) bildet einen Unterraum von Rn; vgl. Satz I.2.4. Ebenso ist {Ax:x ∈ Rn} ein Unterraum von Rm.

(e) Im Vektorraum Abb(R) bildet die Menge der Polynomfunktionen Pol(R)einen Unterraum; so haben wir in Beispiel II.1.2(e) argumentiert. In der Analysistrifft man auf viele weitere Unterraume von Abb(R), z.B. die Menge der stetigenFunktionen C(R) und die Menge der differenzierbaren Funktionen D(R).

(f) In der Analysis sucht man n-mal differenzierbare Funktionen y: R→ R,die eine Differentialgleichung der Form

y(n) + an−1y(n−1) + · · ·+ a1y

′ + a0y = 0

erfullen (y(n) = n-te Ableitung, a0, . . . , an−1 ∈ R). Aus den Rechenregeln furAbleitungen ergibt sich sofort, dass die Menge der Losungen einen Unterraumvon Abb(R) bilden.

Viele Unterraume werden durch den Prozess der linearen Hulle gegeben, denwir jetzt beschreiben.

2Ab jetzt werden Elemente des Rn nicht mehr mit Pfeilen gekennzeichnet, bis auf ~0.

Version vom 13. Juni 2019

II.1 Vektorraume und ihre Unterraume 29

Definition II.1.5 Sei V ein Vektorraum.(a) Sind v1, . . . , vn ∈ V und λ1, . . . , λn ∈ R, so nennt man einen Vektor der

Form

v = λ1v1 + · · ·+ λnvn =

n∑k=1

λkvk

eine Linearkombination von v1, . . . , vn.(b) Sei ∅ 6= M ⊂ V . Die lineare Hulle linM von M besteht aus allen

Linearkombinationen, die man aus endlich vielen Elementen von Mbilden kann:

linM =

{v ∈ V : ∃n ∈ N, v1, . . . , vn ∈M, λ1, . . . , λn ∈ R: v =

n∑k=1

λkvk

}.

Wir setzen noch lin ∅ = {0V }.

Beispiele II.1.6 (a) Seien p0, p1, p2, . . . die durch pk(x) = xk definierten Funk-tionen auf R (

”Monome“) und M = {p0, p1, p2, . . . } ⊂ Abb(R). Dann ist

linM = Pol(R). Diese Funktionen wollen wir in Zukunft mit xk statt pk be-zeichnen.

(b) Sei A eine m× n-Matrix mit den Spalten s1, . . . , sn ∈ Rm. Dann ist dasGleichungssystem Ax = b genau dann losbar, wenn b ∈ lin{s1, . . . , sn} ist. Dazuist nur zu beachten, dass Ax = x1s1 + · · ·+ xnsn ist.

Eine einfache Beobachtung ist, dass stets M ⊂ linM gilt sowie

M1 ⊂M2 ⇒ linM1 ⊂ linM2.

Wir kommen zu einem einfachen, aber wichtigen Satz.

Satz II.1.7 Seien V ein Vektorraum und M ⊂ V . Dann ist linM ein Unter-raum.

Beweis. Da das fur M = ∅ klar ist, setzen wir M 6= ∅ voraus; es existiert alsoein Vektor v0 ∈ M . Dann ist 0V = 0 · v0 ∈ linM , und Bedingung (0) ausDefinition II.1.3 ist erfullt.

Um Bedingung (1) nachzuprufen, seien v, w ∈ linM gegeben. Dann existie-ren Darstellungen

v = λ1v1 + · · ·+ λnvn,

w = µ1w1 + · · ·+ µmwm

mit gewissen Skalaren λi, µj und Vektoren vi, wj ∈ M , i = 1, . . . , n, j =1, . . . ,m. Damit erhalt man

v + w = λ1v1 + · · ·+ λnvn + µ1w1 + · · ·+ µmwm ∈ linM.

Genauso sieht man Bedingung (2) ein. 2

Man kann linM auch anders beschreiben; dazu zuerst ein Lemma.

Version vom 13. Juni 2019

30 II. R-Vektorraume

Lemma II.1.8 Sei V ein Vektorraum, und sei U 6= ∅ eine Menge von Unter-raumen. Dann ist

U0 :=⋂U∈U

U

ebenfalls ein Unterraum. Kurz: Der Schnitt von (beliebig vielen) Unterraumenist wieder ein Unterraum.

Zur Erinnerung: Ist X eine Menge und T 6= ∅ eine Menge von Teilmengenvon X, so setzt man⋂

T∈T

T = {x ∈ X: x ∈ T fur alle T ∈ T },⋃T∈T

T = {x ∈ X: es existiert T ∈ T mit x ∈ T}.

Beweis. Es ist klar, dass 0V ∈ U0. Seien v, w ∈ U0. Dann gilt v, w ∈ U fur alleU ∈ U und deshalb auch v + w ∈ U fur alle U ∈ U ; das zeigt v + w ∈ U0.Genauso sieht man die Invarianz unter der Skalarmultiplikation. 2

Korollar II.1.9 Seien V ein Vektorraum, M ⊂ V und U = {U ⊂ V : U istein Unterraum und M ⊂ U}. Dann ist

linM =⋂U∈U

U. (II.1)

Insbesondere ist linM der kleinste Unterraum von V , der M enthalt.

Beweis. Es ist U 6= ∅, da V ∈ U . Nach Satz II.1.7 ist linM ∈ U ; deshalb gilt

”⊃“ in (II.1). Umgekehrt ist U0 =

⋂U∈U U nach Lemma II.1.8 ein Unterraum,

der M umfasst. Deswegen liegen alle Linearkombinationen von Elementen vonM in U0, und das zeigt

”⊂“. 2

II.2 Basis und Dimension

Wir versuchen, Vektorraume in der Form V = linM fur moglichst kleine MengenM darzustellen. Dazu benotigen wir das folgende Vokabular. Mit den Buchsta-ben U, V,W etc. sind stets R-Vektorraume bezeichnet.

Definition II.2.1

(a) Ein Erzeugendensystem fur V ist eine Teilmenge M ⊂ V mit V = linM .

(b) V heißt endlich erzeugt, wenn es ein endliches Erzeugendensystem gibt.

Version vom 13. Juni 2019

II.2 Basis und Dimension 31

(c) Die Vektoren v1, . . . , vn ∈ V heißen linear unabhangig, wenn die Impli-kation

λ1v1 + · · ·+ λnvn = 0V ⇒ λ1 = · · · = λn = 0

gilt. Andernfalls heißen sie linear abhangig. Eine Teilmenge M ⊂ Vheißt linear unabhangig, wenn jede endliche Auswahl (paarweise ver-schiedener) Vektoren v1, . . . , vn ∈M linear unabhangig ist.

(d) Eine Teilmenge M ⊂ V heißt Basis, wenn M ein linear unabhangigesErzeugendensystem ist.

Zunachst einige einfache Bemerkungen zu dieser Definition.

(1) Der Begriff”endlich erzeugt“ hat einen temporaren Charakter und wird

bald durch”endlichdimensional“ ersetzt; dazu mussen wir aber ein paar

nichttriviale Vorarbeiten leisten.

(2) Der Begriff”linear unabhangig“ ist zentral fur diese Vorlesung; Sie soll-

ten also alle Anstrengungen darauf richten, ihn zu meistern. Es ist klar,dass stets

0 · v1 + · · ·+ 0 · vn = 0V

ist; dies wird die triviale Darstellung der Null genannt. Die lineare Un-abhangigkeit von v1, . . . , vn besagt, dass die triviale Darstellung dieeinzige Linearkombination dieser Vektoren ist, die Null ergibt.

(3) Aus der Definition ergibt sich sofort, dass eine Teilmenge einer Men-ge linear unabhangiger Vektoren wieder linear unabhangig ist bzw. ei-ne Obermenge einer Menge linear abhangiger Vektoren wieder linearabhangig ist.

(4) Explizit sind v1, . . . , vn linear abhangig, wenn es λ1, . . . , λn ∈ R gibt,die nicht alle verschwinden (d.h. = 0 sind), so dass

λ1v1 + · · ·+ λnvn = 0V

ist.

(5) Eine wichtige Bemerkung ist: Sind v1, . . . , vn linear abhangig, so istmindestens einer dieser Vektoren eine Linearkombination der ubrigen.(Beweis: Es existieren λ1, . . . , λn, die nicht alle = 0 sind, mit λ1v1 +· · · + λnvn = 0V . Sagen wir, dass λj 6= 0 ist. Durch Umstellen erhaltman dann vj =

∑i6=j(−λi/λj)vi.)

(6) In R3 sind die Einheitsvektoren e1 und e2 linear unabhangig, die dreiVektoren v1 = e1, v2 = e2 und v3 = e2 sind linear abhangig, aber dieMenge {v1, v2, v3} = {e1, e2} ist linear unabhangig. Das erlautert denZusatz

”paarweise verschieden“ in (c).

Version vom 13. Juni 2019

32 II. R-Vektorraume

Beispiele II.2.2 (a) Im Rn bilden die Einheitsvektoren e1, . . . , en ein linearunabhangiges Erzeugendensystem, also eine Basis. Sie wird Einheitsvektorbasisgenannt.

(b) Wenn unter den Vektoren v1, . . . , vn zwei Vektoren ubereinstimmen odereiner der Vektoren der Nullvektor ist, sind v1, . . . , vn linear abhangig.

(c) Der Vektorraum Pol(R) ist nicht endlich erzeugt: Nehmen wir an, esgabe ein endliches Erzeugendensystem, sagen wir {f1, . . . , fr}. Jedes fk ist einPolynom, dessen Grad nk sei. Wenn wir eine Linearkombination λ1f1+· · ·+λrfrbilden, erhalten wir ein Polynom vom Grad ≤ max{n1, . . . , nr} =: N . Also istdas Monom pN+1, pN+1(x) = xN+1, nicht in lin{f1, . . . , fr}, und deshalb istlin{f1, . . . , fr} 6= Pol(R). (Begrundung mit Hilfe der Differentialrechnung: Die(N + 1)-te Ableitung eines Polynoms vom Grad ≤ N verschwindet, aber die(N + 1)-te Ableitung von pN+1 verschwindet nicht.)

Seien weiter xk die Monome in Pol(R); vgl. Beispiel II.1.6(a). Die Menge{xk: k ≥ 0} ist dann linear unabhangig: Nach Definition zusammen mit Be-merkung (3) ist Folgendes zu zeigen: Wenn λ0, . . . , λn ∈ R sind und λ0x

0 +· · ·+λnxn = 0Pol(R) ist, sind alle λ0 = · · · = λn = 0. Ware das nicht so, gabe eseinen von 0 verschiedenen Koeffizienten mit maximalem Index, sagen wir λν 6= 0,λν+1 = · · · = λn = 0. Sei p = λ0x

0 + · · · + λnxn, also p =∑νk=0 λkx

k; dannware die ν-te Ableitung von p ein konstantes Polynom 6= 0, namlich konstantν!λν . Insbesondere ware p 6= 0.

Wie in Beispiel II.1.6(a) beobachtet, bilden die Monome ein Erzeugendensy-stem und daher eine Basis von Pol(R).

Dasselbe Argument funktioniert fur Polynomfunktionen auf einem Intervallpositiver Lange. Allerdings ist es nicht fur jeden Definitionsbereich richtig, dassdie Monomfunktionen x0, x1, x2, . . . linear unabhangig sind; als Funktionenauf zum Beispiel {0, 1} stimmen namlich alle xk (k ≥ 1) uberein.

(d) Sei A eine m×n-Matrix mit den Spalten s1, . . . , sn ∈ Rm. Dann hat dashomogene lineare Gleichungssystem Ax = ~0 genau dann nur die triviale Losungx = ~0, wenn s1, . . . , sn linear unabhangig sind. (Das ist nur eine Umschreibungder Definition.)

Genauso ist es nur eine Umschreibung der Definition, dass das Gleichungs-system Ax = b genau dann losbar ist, wenn b ∈ lin{s1, . . . , sn} ist; siehe Bei-spiel II.1.6(b). Daher sind alle Gleichungssysteme Ax = b genau dann losbar,wenn {s1, . . . , sn} ein Erzeugendensystem von Rm ist.

(e) Wendet man (d) auf das Beispiel I.1.1(a) an, sieht man, dass 240

,

351

,

−2−2−3

in R3 linear unabhangig sind; vgl. Satz I.3.2 und Korollar I.3.4.

Version vom 13. Juni 2019

II.2 Basis und Dimension 33

(f) Hingegen sind

v1 =

240

, v2 =

351

, v3 =

01−1

linear abhangig, da 3v1 − 2v2 − 2v3 = ~0.

Basen haben folgende Minimal- bzw. Maximaleigenschaft.

Satz II.2.3 Die folgenden Bedingungen an eine Teilmenge B ⊂ V sind aqui-valent.

(i) B ist eine Basis.

(ii) B ist ein minimales Erzeugendensystem, d.h.: Wenn M ⊂ B ein Er-zeugendensystem ist, so ist bereits M = B.

(iii) B ist eine maximale linear unabhangige Teilmenge, d.h.: Wenn M ⊃ Blinear unabhangig ist, so ist bereits M = B.

Beweis. (i) ⇒ (ii): Definitionsgemaß ist B ein Erzeugendensystem. Nehmen wiran, dass M ⊂ B ein Erzeugendensystem ist, aber M 6= B ist. Dann existiertein Vektor v ∈ B \M (d.h. v ∈ B, aber v /∈ M). Da M ein Erzeugendensy-stem ist, existieren n ∈ N, λ1, . . . , λn ∈ R und (ohne Einschrankung paarweiseverschiedene) v1, . . . , vn ∈M mit

v = λ1v1 + · · ·+ λnvn.

Dann sind v, v1, . . . , vn ∈ B aber nicht linear unabhangig im Widerspruch zurAnnahme, dass B eine Basis ist.

(ii) ⇒ (i): Sei B ein minimales Erzeugendensystem. Es ist zu zeigen, dass Blinear unabhangig ist. Ware das nicht so, gabe es eine nichttriviale Linearkom-bination λ1v1 + · · · + λnvn = 0V mit vk ∈ B, die paarweise verschieden sind;k = 1, . . . , n. Ohne Einschrankung sei λ1 6= 0 und µk = −λk/λ1 fur k = 2, . . . , n.Es ist dann v1 = µ2v2 + · · · + µnvn. Setze M = B \ {v1}. Wir haben geradev1 ∈ linM gezeigt; daher gilt B ⊂ linM und dann linB ⊂ linM . Also ist Mein echt in B enthaltenes Erzeugendensystem, das es laut (ii) nicht gibt.

(i)⇒ (iii): Definitionsgemaß ist B linear unabhangig. Nehmen wir eine Men-ge M ⊃ B mit M 6= B. Dann existiert ein Vektor v ∈M \B. Da B ein Erzeu-gendensystem ist, existieren n ∈ N, λ1, . . . , λn ∈ R und paarweise verschiedenev1, . . . , vn ∈ B mit

v = λ1v1 + · · ·+ λnvn;

also sind die paarweise verschiedenen Vektoren v, v1, . . . , vn ∈M linear abhangig,und M ist nicht linear unabhangig.

Version vom 13. Juni 2019

34 II. R-Vektorraume

(iii) ⇒ (i): Sei B eine maximale linear unabhangige Teilmenge. Es ist zuzeigen, dass B ein Erzeugendensystem ist. In der Tat: Falls es v ∈ V \ linB gibt,ist B ∪ {v} linear unabhangig. (Beweis?) 2

Der obige Satz gilt fur alle Vektorraume, auch fur nicht endlich erzeugte,allerdings ist es fur solche Vektorraume, wie z.B. C(R), schwierig, explizit ei-ne Basis anzugeben, obwohl man abstrakt ihre Existenz beweisen kann (sieheSatz X.1.1). Daher werden wir uns jetzt auf endlich erzeugte Vektorraume kon-zentrieren.

Wir beweisen nun den Basisexistenzsatz fur endlich erzeugte Vektorraume.

Satz II.2.4 Jeder endlich erzeugte Vektorraum besitzt eine Basis. Genauer gilt:Jedes endliche Erzeugendensystem enthalt eine Basis.

Beweis. Ist V = lin ∅ = {0V }, so ist ∅ eine Basis (und zwar die einzige).Sei jetzt M = {v1, . . . , vr} 6= ∅ ein Erzeugendensystem von V . Wenn die

vk linear unabhangig sind, sind wir fertig. Andernfalls ist einer der Vektoreneine Linearkombination der ubrigen (siehe Bemerkung (5) oben). Bei passen-der Nummerierung ist das vr, und dann ist {v1, . . . , vr−1} ebenfalls ein Erzeu-gendensystem: Da namlich vr ∈ lin{v1, . . . , vr−1} ist, ist auch {v1, . . . , vr} ⊂lin{v1, . . . , vr−1} und deshalb V = lin{v1, . . . , vr} ⊂ lin{v1, . . . , vr−1} ⊂ V ; hiergeht Korollar II.1.9 ein.

Wiederholt man dieses Argument, so erhalt man nach hochstens r Schritteneine Basis von V . 2

Der folgende Satz sieht harmlos aus, jedoch ist sein Beweis einer der schwie-rigsten der gesamten Vorlesung.

Satz II.2.5 Sei {u1, . . . , un} eine Basis von V . Dann sind je n + 1 Vektorenv1, . . . , vn+1 ∈ V linear abhangig.

Beweis. Wir verwenden vollstandige Induktion nach n.Induktionsanfang n = 1: Hier ist u1 6= 0 und V = lin{u1}. Es existieren

daher λ1, λ2 ∈ R mit v1 = λ1u1, v2 = λ2u1. Dann ist λ2v1 − λ1v2 = 0V . Wenndie Linearkombination nichttrivial ist (d.h. λ1 6= 0 oder λ2 6= 0), sind v1 und v2

definitionsgemaß linear abhangig, und wir sind fertig. Andernfalls (λ1 = λ2 = 0)gilt vk = λku1 = 0V , und wieder sind v1 und v2 linear abhangig.

Induktionsschluss von n − 1 auf n (wo n ≥ 2): Wir nehmen an, dass dieBehauptung fur ein beliebiges, aber festes n− 1 gilt, und zeigen sie jetzt fur n.Wenn eines der vk, k = 1, . . . , n+ 1, der Nullvektor sein sollte, stimmt die Aus-sage (vgl. Beispiel II.2.2(b)); daher durfen wir annehmen, dass alle vk 6= 0Vsind. Wir schreiben jetzt v1 als Linearkombination der uj . Da nicht alle Koef-fizienten = 0 sein konnen (sonst ware ja v1 = 0V ), durfen wir nach eventuellerUmsortierung der uj annehmen, dass

v1 = φ1u1 + y1

Version vom 13. Juni 2019

II.2 Basis und Dimension 35

mit φ1 6= 0 und y1 ∈ lin{u2, . . . , un} =: U . Beachte, dass {u2, . . . , un} eine Basisvon U ist! (Warum namlich?) Analog schreiben wir

vk = φku1 + yk, k = 2, . . . , n+ 1,

mit φk ∈ R und yk ∈ U . Fur diese k setzen wir

wk = φkv1 − φ1vk;

es ist dann

wk = φk(φ1u1 + y1)− φ1(φku1 + yk) = φky1 − φ1yk ∈ U.

Nach Induktionsvoraussetzung sind w2, . . . , wn+1 linear abhangig; es existierenalso λ2, . . . , λn+1, die nicht alle = 0 sind, mit

λ2w2 + · · ·+ λn+1wn+1 = 0V .

Einsetzen liefert

0V = λ2w2 + · · ·+ λn+1wn+1

= λ2(φ2v1 − φ1v2) + · · ·+ λn+1(φn+1v1 − φ1vn+1)

= (λ2φ2 + · · ·+ λn+1φn+1)v1 − λ2φ1v2 − · · · − λn+1φ1vn+1.

Eines der λk ist ja 6= 0, sagen wir λκ; dann ist in der obigen Linearkombinationder Koeffizient vor vκ ebenfalls 6= 0: −λκφ1 6= 0, denn φ1 6= 0. Das zeigt, dassv1, . . . , vn+1 linear abhangig sind. 2

Korollar II.2.6 Sind v1, . . . , vr ∈ Rn und ist r > n, so sind v1, . . . , vr linearabhangig.

Korollar II.2.7 Seien u1, . . . , us ∈ V linear unabhangig, und sei {v1, . . . , vr}ein Erzeugendensystem von V . Dann ist s ≤ r.

Beweis. Nach Satz II.2.4 enthalt {v1, . . . , vr} eine Basis, sagen wir mit n Ele-menten. Nach Satz II.2.5 ist s ≤ n (warum?). Also ist s ≤ n ≤ r. 2

Das nachste Korollar ist ganz und gar nicht selbstverstandlich.

Korollar II.2.8 Sind sowohl {u1, . . . , un} als auch {u′1, . . . , u′m} Basen von V ,so gilt m = n.

Beweis. Nach Korollar II.2.7 gilt einerseits n ≤ m und andererseits m ≤ n. 2

Je zwei Basen eines endlich erzeugten Vektorraums haben also die gleicheAnzahl von Elementen. Daher konnen wir folgende Definition aussprechen.

Version vom 13. Juni 2019

36 II. R-Vektorraume

Definition II.2.9 Die Dimension dimV eines endlich erzeugten VektorraumsV ist die Anzahl der Elemente einer beliebigen Basis. Falls dimV = n, sagtman, V sei n-dimensional.

Wegen dieser Definition nennt man endlich erzeugte Vektorraume endlichdi-mensional und nicht endlich erzeugte unendlichdimensional ; man schreibt danndim(V ) =∞. (Dass jeder endlich erzeugte Vektorraum eine Basis besitzt, habenwir in Satz II.2.4 bewiesen.)

Wegen Satz II.2.5 konnen wir auch sagen, dass die Dimension eines endlicherzeugten Vektorraums die Maximalzahl linear unabhangiger Vektoren ist.

Beispiele II.2.10 (a) dimRn = n, da es eine Basis aus n Elementen gibt, z.B.die Einheitsvektorbasis.

(b) dim Pol(R) =∞ (vgl. Beispiel II.2.2(c)).

(c) In Vorlesungen uber Differentialgleichungen lernt man, dass der in Bei-spiel II.1.4(f) beschriebene Vektorraum die Dimension n hat.

Wir benotigen noch folgende Resultate.

Satz II.2.11 Sei V ein n-dimensionaler Vektorraum.

(a) Sind u1, . . . , un ∈ V linear unabhangig, so bilden sie eine Basis.

(b) Bilden u1, . . . , un ∈ V ein Erzeugendensystem, so bilden sie eine Basis.

Beweis. (a) Wir mussen zeigen, dass u1, . . . , un ein Erzeugendensystem bilden.Ware das nicht so, gabe es einen Vektor v ∈ V , der nicht in lin{u1, . . . , un}liegt. Dann sind v, u1, . . . , un linear unabhangig (Beweis?). Nach Korollar II.2.7musste n+ 1 ≤ n sein: Widerspruch!

(b) Wir mussen zeigen, dass u1, . . . , un linear unabhangig sind. Ware dasnicht so, ware einer der Vektoren eine Linearkombination der ubrigen (Be-merkung (5) oben); bei passender Nummerierung ist das un. Dann ist auch{u1, . . . , un−1} ein Erzeugendensystem. Nach Korollar II.2.7 musste n ≤ n − 1sein: Widerspruch! 2

Satz II.2.12 Sei V endlich erzeugt und U ein Unterraum. Dann ist auch Uendlich erzeugt, und es gilt dimU ≤ dimV . Im Fall dimU = dimV ist U = V .

Beweis. Es sei {v1, . . . , vr} eine Basis von V . Wenn u1, . . . , uσ linear unabhangigin U sind, gilt nach Korollar II.2.7 σ ≤ r. Wir konnen also ein maximales s ≤ rwahlen, fur das s linear unabhangige Vektoren in U existieren, und diese sVektoren bilden nach Satz II.2.3 eine Basis von U . Das zeigt dimU ≤ dimV .

Im Fall dimU = dimV folgt U = V aus Satz II.2.11. 2

Die Haupteigenschaft von Basen wird im nachsten Satz ausgedruckt.

Version vom 13. Juni 2019

II.2 Basis und Dimension 37

Satz II.2.13 Ist {u1, . . . , un} eine Basis von V , so existieren zu jedem v ∈ Veindeutig bestimmte λ1, . . . , λn ∈ R mit

v = λ1u1 + · · ·+ λnun.

Beweis. Die Existenz solcher Zahlen ist klar, da eine Basis definitionsgemaß einErzeugendensystem ist; die wesentliche Aussage ist die Eindeutigkeit. Sei alsov ∈ V mittels λ1, . . . , λn ∈ R bzw. µ1, . . . , µn ∈ R dargestellt als

v = λ1u1 + · · ·+ λnun bzw. v = µ1u1 + · · ·+ µnun.

Es folgt(λ1 − µ1)u1 + · · ·+ (λn − µn)un = 0V ,

und wegen der linearen Unabhangigkeit der uk hat man

λ1 − µ1 = · · · = λn − µn = 0,

d.h. λk = µk fur k = 1, . . . , n. Das war zu zeigen. 2

Die λk konnen als Koordinaten des Vektors v bezuglich der vorliegendenBasis aufgefasst werden; mehr dazu in Abschnitt III.3.

Der letzte Satz dieses Abschnitts gilt als Hohepunkt in der Theorie der Basenendlichdimensionaler Raume.

Satz II.2.14 (Steinitzscher Austauschsatz)Sei V ein n-dimensionaler Vektorraum. Seien u1, . . . , us ∈ V linear unabhangigund M = {v1, . . . , vr} ein Erzeugendensystem von V . Dann ist s ≤ n ≤ r,und man kann n− s Vektoren aus M auswahlen – bei passender Nummerierungvs+1, . . . , vn –, so dass {u1, . . . , us, vs+1, . . . , vn} eine Basis von V ist.

Beweis. Wir wissen bereits, dass s ≤ n ≤ r ist (siehe Korollar II.2.7 und seinenBeweis). Ferner konnen wir nach Satz II.2.4 annehmen, dass r = n und M eineBasis ist.

Ist s = n, sind wir wegen Satz II.2.11(a) bereits fertig. Ist s < n, so ist{u1, . . . , us} keine Basis; es muss daher einen Vektor in M geben, der nichtLinearkombination der uj ist. Bei passender Nummerierung ist das vs+1. Dannsind aber {u1, . . . , us, vs+1} linear unabhangig, und wir konnen das Argumentwiederholen.

Nach n−s Schritten hat man eine linear unabhangige Teilmenge {u1, . . . , us,vs+1, . . . , vn} konstruiert, die nach Satz II.2.11(a) eine Basis ist. 2

Der Steinitzsche Austauschsatz impliziert insbesondere:

Korollar II.2.15 Jede linear unabhangige Teilmenge eines endlichdimensiona-len Vektorraums lasst sich zu einer Basis erganzen.

Version vom 13. Juni 2019

38 II. R-Vektorraume

Das Korollar gilt auch fur unendlichdimensionale Raume (insbesondere hatauch jeder unendlichdimensionale Vektorraum eine Basis), verlangt aber einenanderen Beweis (Korollar X.1.2).

Das Problem, fur Unterraume des Rn Basen konkret anzugeben, werden wirim nachsten Abschnitt losen.

In Abschnitt IX.7 benotigen wir folgendes Gegenstuck zu Korollar II.2.15,das die zweite Aussage in Satz II.2.4 erganzt.

Korollar II.2.16 Jedes Erzeugendensystem eines endlichdimensionalen Vek-torraums enthalt eine Basis.

Beweis. Sei u1, . . . , un eine Basis von V = linM ; hier kann M eine unendlicheMenge sein. Jedes uj kann dann durch gewisse Vektoren in M linear kombiniertwerden, da M ein Erzeugendensystem ist. Insgesamt treten dabei endlich vieleVektoren v1, . . . , vr ∈ M auf, die also ein endliches Erzeugendensystem von Vbilden. Nach Satz II.2.4 enthalt {v1, . . . , vr} eine Basis. 2

II.3 Der Rang einer Matrix

Sei A eine m × n-Matrix mit den Spalten s1, . . . , sn ∈ Rm. Wir nennen dielineare Hulle dieser Vektoren den Spaltenraum von A; mit anderen Worten ist

SR(A) := lin{s1, . . . , sn} = {Ax: x ∈ Rn} ⊂ Rm.

Definition II.3.1 Die Dimension von SR(A) heißt der Rang von A; Bezeich-nung: rg(A).

Der Rang von A gibt also die Maximalzahl linear unabhangiger Spalten an(warum?). Eigentlich sollte man vom Spaltenrang sprechen; zum Zusammenhangzum sog. Zeilenrang siehe Satz II.3.10.

Zur Berechnung des Rangs ist es gunstig, ein Lemma vorauszuschicken.

Lemma II.3.2 Sei S eine invertierbare n× n-Matrix. Dann sind x1, . . . , xr ∈Rn genau dann linear unabhangig, wenn Sx1, . . . , Sxr linear unabhangig sind.

Beweis. Seien x1, . . . , xr linear unabhangig und gelte λ1 ·Sx1 + · · ·+λr ·Sxr = ~0.Dann ist auch S(λ1x1 + · · ·+ λrxr) = ~0 und, weil S invertierbar ist,

λ1x1 + · · ·+ λrxr = S−1S(λ1x1 + · · ·+ λrxr) = ~0.

Nach Voraussetzung sind alle λk = 0.Da xk = S−1(Sxk) ist, ist damit auch die Umkehrung bewiesen; man muss

nur den ersten Teil des Beweises mit S−1 statt S anwenden. 2

Satz II.3.3 Sei A eine m× n-Matrix.

Version vom 13. Juni 2019

II.3 Der Rang einer Matrix 39

(a) Wenn S eine invertierbare n× n-Matrix ist, ist SR(A) = SR(AS) unddeshalb rg(A) = rg(AS).

(b) Wenn S eine invertierbare m×m-Matrix ist, ist rg(A) = rg(SA).

Beweis. (a) Das ist klar, da

SR(A) = {Ax: x ∈ Rn} = {ASy: y ∈ Rn} = SR(AS),

denn die von S vermittelte Abbildung LS (vgl. Abschnitt I.5) ist bijektiv.(b) Das folgt aus Lemma II.3.2, da SA die Spalten Ss1, . . . , Ssn hat, wenn

s1, . . . , sn die Spalten von A sind. 2

Dieser Satz liefert uns eine Berechnungsmoglichkeit von rg(A). Hierzu sehenwir uns die Zeilenstufenform A′ von A an, die die Pivotspalten s′j1 , . . . , s

′jr

habe,1 ≤ j1 < j2 < · · · < jr ≤ n. Diese sind linear unabhangig, also ist rg(A′) ≥ r.Andererseits interessieren von den Spalten von A′ nur die obersten r Eintrage(der Rest sind Nullen); also konnen wir so tun, als waren es Vektoren in Rr,wenn wir die

”uberflussigen“ Nullen vergessen. Dann impliziert Korollar II.2.6

rg(A′) ≤ r; es ist also rg(A′) = r. Nun ist nach Satz I.6.2 A′ = SA fur eineinvertierbare m × m-Matrix S. Nach Satz II.3.3(b) ist auch rg(A) = r. Mehrnoch: Satz II.2.11 impliziert den folgenden Satz.

Satz II.3.4 Besitzt die Zeilenstufenform einer m× n-Matrix A ihre Pivotspal-ten an den Positionen j1, . . . , jr, so bilden die Spalten sj1 , . . . , sjr eine Basisdes Spaltenraums von A.

Aus diesem Satz und der Definition des Rangs ergibt sich:

Korollar II.3.5 Fur eine m× n-Matrix A gilt rg(A) ≤ min{m,n}.

Mit Satz II.3.4 lost man auch das Problem, Basen in gewissen Unterraumenvon Rm zu finden: Sei U = lin{s1, . . . , sn} ein Unterraum von Rm. Um eineBasis von U zu finden, schreibe man die Vektoren s1, . . . , sn als Spalten in eineMatrix A und wende Satz II.3.4 an.

Ein zweites Problem lasst sich ebenfalls losen. Gegeben seien linear un-abhangige Vektoren s1, . . . , sl ∈ Rm. Um diese zu einer Basis von Rm zu erganzen(vgl. Korollar II.2.15), bilde man die Matrix mit den Spalten s1, . . . , sl, e1, . . . , emin dieser Reihenfolge (mit ej sind die Einheitsvektoren in Rm gemeint). Auf dieseMatrix wende man Satz II.3.4 an, um eine gewunschte Basis zu erhalten. Beach-te, dass die ersten l Spalten Pivotspalten der Zeilenstufenform sind (warum?).

Schließlich betrachten wir noch den Unterraum {x ∈ Rn: Ax = ~0}, der auchKern der Matrix A genannt wird. Zuerst bestimmen wir seine Dimension, dieder Defekt von A heißt:

df(A) := dim{x ∈ Rn: Ax = ~0}.

Der folgende Satz beinhaltet eine der zentralen Aussagen der Linearen Al-gebra.

Version vom 13. Juni 2019

40 II. R-Vektorraume

Satz II.3.6 Fur eine m× n-Matrix A gilt

df(A) + rg(A) = n.

Beweis. Wenngleich man das aus Satz I.3.2 herauslesen konnte, wollen wir einenBeweis fuhren, der die Techniken dieses Kapitels benutzt und auf allgemeinereSituationen ubertragen werden kann (siehe Satz III.1.8). Wir betrachten eineBasis {u1, . . . , uk} von U = {x ∈ Rn: Ax = ~0} und erganzen sie zu einerBasis {u1, . . . , uk, uk+1, . . . , un} des Rn. (Hier gehen Korollar II.2.8 and Korol-lar II.2.15 ein.) Es reicht zu zeigen, dass Auk+1, . . . , Aun eine Basis des Spal-tenraums von A bilden.

Zunachst ist klar, dass die Auj Elemente des Spaltenraums sind. Um zuzeigen, dass sie linear unabhangig sind, gelte

λk+1 ·Auk+1 + · · ·+ λn ·Aun = ~0.

Dann ist auch A(λk+1uk+1 + · · ·+ λnun) = ~0, also λk+1uk+1 + · · ·+ λnun ∈ U .Entwickeln wir dieses Element in die gewahlte Basis von U :

λk+1uk+1 + · · ·+ λnun = λ1u1 + · · ·+ λkuk.

Da die u1, . . . , un linear unabhangig sind, mussen alle λj = 0 sein; insbesondereist λk+1 = · · · = λn = 0, was zu zeigen war.

Nun zeigen wir, dass Auk+1, . . . , Aun ein Erzeugendensystem von SR(A)bilden. Sei dazu x ∈ Rn geschrieben als

x = ξ1u1 + · · ·+ ξnun.

Da u1, . . . , uk ∈ U , folgt

Ax = ξk+1 ·Auk+1 + · · ·+ ξn ·Aun ∈ lin{Auk+1, . . . , Aun},

was zu zeigen war. 2

Man beachte, dass dieser Satz einen neuen Beweis fur Satz I.3.4 liefert.Um eine Basis des Kerns von A, also des Losungsraums des homogenen

Gleichungssystems Ax = ~0, zu bestimmen, geht man gemaß Satz I.3.2 mitRuckwartssubstitution vor; jede Nicht-Pivotspalte generiert dann eine Losung,und all diese Losungen sind linear unabhangig. Da es n− r solche Spalten gibt,hat man nach Satz II.3.6 wirklich eine Basis des Losungsraums bestimmt.

Hier ein Beispiel. Fur die Matrix

A =

2 −4 2 −22 −4 3 −44 −8 3 −20 0 −1 2

Version vom 13. Juni 2019

II.3 Der Rang einer Matrix 41

ergibt sich als Zeilenstufenform (nachrechnen!)2 −4 2 −20 0 1 −20 0 0 00 0 0 0

.

Daher erhalt man samtliche Losungen von Ax = ~0 mit zwei freien Parameternt und s in der Form

x4 = t, x3 = 2t, x2 = s, x1 =1

2(4s− 2 · (2t) + 2t) = 2s− t,

also

x =

2s− ts2tt

= s

2100

+ t

−1

021

.

Die Vektoren 2100

und

−1

021

bilden daher eine Basis des Losungsraums des homogenen Gleichungssystems.

Mit dem Begriff des Rangs lasst sich die Losbarkeit eines inhomogenen Glei-chungssystems so formulieren.

Satz II.3.7 Seien A eine m×n-Matrix und b ∈ Rm. Dann ist das Gleichungs-system Ax = b genau dann losbar, wenn b im Spaltenraum von A liegt, unddas ist aquivalent dazu, dass A und die erweiterte Koeffizientenmatrix (A | b)denselben Rang haben.

Beweis. Die erste Aussage ist klar, da Ax = b genau dann losbar ist, wenn beine Linearkombination der Spalten von A ist. Das zeigt auch, dass in diesemFall rg(A) = rg(A | b) ist. Gilt umgekehrt rg(A) = rg(A | b), so muss b von denSpalten von A linear abhangig sein (Beweis?). Daraus folgt die Losbarkeit vonAx = b. 2

Wir haben den Rang einer Matrix als die Maximalzahl linear unabhangi-ger Spalten definiert. Genauso konnte man die Maximalzahl linear unabhangi-ger Zeilen betrachten. Da in unserem Weltbild Vektoren immer Spalten sind,benotigen wir einen Kunstgriff, um diese Definition konsistent zu fassen.

Ist A = (aij)i=1,...,m;j=1,...,n eine m × n-Matrix, so nennen wir die n ×m-Matrix

At = (atij)i=1,...,n;j=1,...,m, atij = aji,

Version vom 13. Juni 2019

42 II. R-Vektorraume

die zu A transponierte Matrix. Beispiel:

A =

1 23 45 6

, At =

(1 3 52 4 6

).

Der Zeilenrang von A ist definitionsgemaß der Rang von At.Zunachst bringen wir zwei nutzliche Lemmata uber transponierte Matrizen.

Lemma II.3.8 Ist A eine m × n- und B eine l ×m-Matrix, so gilt (BA)t =AtBt.

Beweis. In Zeile i und Spalte k der Matrix BA steht die Zahl∑j bijajk, deshalb

steht in der transponierten Matrix (BA)t in der i-ten Zeile und k-ten Spalte∑j

bkjaji =∑j

(atij)(btjk),

also dasselbe Element wie bei AtBt. 2

Lemma II.3.9 Ist S eine invertierbare n× n-Matrix, so ist auch St invertier-bar, und es gilt (St)−1 = (S−1)t.

Beweis. Aus SS−1 = S−1S = En folgt nach Lemma II.3.8 En = Etn =(S−1)tSt = St(S−1)t; das zeigt (St)−1 = (S−1)t. 2

Der folgende Satz ist recht uberraschend.

Satz II.3.10 Fur jede Matrix stimmen Zeilenrang und Spaltenrang uberein.

Beweis. Wir wissen aus Satz II.3.3, dass die Multiplikation einer Matrix A miteiner invertierbaren Matrix von rechts oder links den Rang unverandert lasst.Wegen Lemma II.3.8 und II.3.9 sowie Satz I.6.2 reicht es daher, den Satz zuzeigen, wenn A in Zeilenstufenform vorliegt, was jetzt angenommen sei. Ist rdie Anzahl der Pivotspalten, so gilt ja rg(A) = r; siehe die Uberlegungen vorSatz II.3.4. Außerdem ist klar, dass genau die ersten r Spalten von At (= Zeilenvon A) keine Nullspalten und linear unabhangig sind. Daher ist rg(At) = r =rg(A). 2

Am Ende von Abschnitt I.1 haben wir Vermutungen uber das typischeLosungsverhalten eines Gleichungssystems mit m Gleichungen und n Unbe-kannten formuliert. Jetzt wissen wir das genau: Bei einem homogenen Glei-chungssystem, das durch eine m × n-Matrix beschrieben wird, ist die Zahl der

”relevanten“ Gleichungen wichtig;

”irrelevant“ sind diejenigen Gleichungen, die

sich durch andere ausdrucken lassen. Mit anderen Worten ist diese Anzahl rdefinitionsgemaß gleich dem Zeilenrang von A, also r = rg(A) nach Satz II.3.10.

Version vom 13. Juni 2019

II.4 Summen von Unterraumen 43

Ist k die Anzahl der linear unabhangigen Losungen von Ax = ~0, so gilt nachSatz II.3.6 k + r = n; insbesondere gibt es nichttriviale Losungen genau dann,wenn r < n ist.

Unsere Erkenntnisse uber den Rang einer quadratischen Matrix konnen wirso zusammenfassen.

Korollar II.3.11 Fur eine n× n-Matrix A sind folgende Bedingungen aquiva-lent:

(i) rg(A) = n.

(ii) Die Spalten von A sind linear unabhangig.

(iii) Die Zeilen von A sind linear unabhangig.

(iv) Das homogene Gleichungssystem Ax = ~0 hat nur die triviale Losungx = ~0.

(v) Fur jedes b ∈ Rn ist das inhomogene Gleichungssystem Ax = b eindeu-tig losbar.

(vi) A ist invertierbar.

(vii) Es existiert eine n× n-Matrix B mit AB = En.

(viii) Es existiert eine n× n-Matrix B mit BA = En.

Im ubernachsten Kapitel (Korollar IV.2.5) werden wir als weitere aquivalenteBedingung

(ix) det(A) 6= 0

hinzufugen konnen.

II.4 Summen von Unterraumen

Wir betrachten folgende Situation: V ist ein Vektorraum, und U1, . . . , Ur sindendlich viele Unterraume. Als Summe dieser Unterraume bezeichnen wir dieMenge

U1 + · · ·+ Ur = {v ∈ V : Es existieren uj ∈ Uj mit v = u1 + · · ·+ ur}.

Lemma II.4.1 Es ist

U1 + · · ·+ Ur = lin(U1 ∪ . . . ∪ Ur);

insbesondere ist U1 + · · ·+ Ur ein Unterraum von V .

Beweis. Die Inklusion”⊂“ ist klar nach Definition der Summe. Sei jetzt v ∈

lin(U1 ∪ . . . ∪ Ur); dann kann man

v = u1 + · · ·+ us

mit ui ∈ U1 ∪ . . . ∪ Ur schreiben (warum?). Nun sortieren wir die Indizes:

I1 = {i: ui ∈ U1}, I2 = {i: ui ∈ U2} \ I1, I3 = {i: ui ∈ U3} \ (I1 ∪ I2) etc.

Version vom 13. Juni 2019

44 II. R-Vektorraume

(Einige der Iρ konnen leer sein.) Dann haben wir die Darstellung3

v =(∑i∈I1

ui

)+ · · ·+

(∑i∈Ir

ui

)∈ U1 + · · ·+ Ur,

was die andere Inklusion zeigt. Der Zusatz ist wegen Satz II.1.7 klar. 2

Im Fall r = 2 hat man folgende wichtige Dimensionsformel.

Satz II.4.2 Sind U1 und U2 endlichdimensionale Unterraume von V , so istauch U1 + U2 endlichdimensional, und es gilt

dim(U1 + U2) + dim(U1 ∩ U2) = dimU1 + dimU2.

Beweis. Es sei {u1, . . . , ur} eine Basis von U1 ∩ U2; wir erganzen sie zu Basen{u1, . . . , ur, vr+1, . . . , vr+k} bzw. {u1, . . . , ur, wr+1, . . . , wr+l} von U1 bzw. U2.Es ist also dim(U1 ∩ U2) = r, dimU1 = r + k, dimU2 = r + l. Wir zeigen, dass{u1, . . . , ur, vr+1, . . . , vr+k, wr+1, . . . , wr+l} eine Basis von U1 + U2 ist, was dieBehauptung liefert.

Diese Vektoren sind linear unabhangig: Gelte

λ1u1 + · · ·+λrur +µ1vr+1 + · · ·+µkvr+k + ν1wr+1 + · · ·+ νlwr+l = 0V . (II.2)

Dann ist

ν1wr+1 + · · ·+ νlwr+l = −(λ1u1 + · · ·+λrur +µ1vr+1 + · · ·+µkvr+k) ∈ U1 ∩U2

und daher von der Form

ν1wr+1 + · · ·+ νlwr+l = α1u1 + · · ·+ αrur.

Die lineare Unabhangigkeit von u1, . . . , ur, wr+1, . . . , wr+l liefert, dass alle νi =0 sind. Da u1, . . . , ur, vr+1, . . . , vr+k linear unabhangig sind, sind in (II.2) auchalle µi = 0 und alle λi = 0.

Diese Vektoren bilden ein Erzeugendensystem von U1 +U2: Sei v ∈ U1 +U2,sagen wir v = y1 +y2 mit yj ∈ Uj . Wir konnen yj in die angegebenen Basen ent-wickeln; Addition zeigt dann v ∈ lin{u1, . . . , ur, vr+1, . . . , vr+k, wr+1, . . . , wr+l}.

2

Das folgende einfache Korollar ist oft hilfreich.

Korollar II.4.3 Seien U1 und U2 Unterraume des n-dimensionalen Vektor-raums V mit dimU1 + dimU2 > n. Dann ist U1 ∩ U2 6= {0V }.

3Die Summe uber die leere Menge,∑

i∈∅ ui, ist definitionsgemaß 0.

Version vom 13. Juni 2019

II.4 Summen von Unterraumen 45

Wenn Unterraume U1 und U2 von V mit U1 ∩ U2 = {0V } vorliegen, nenntman die Summe U1 +U2 eine direkte Summe und schreibt U1⊕U2; U2 wird einKomplementarraum zu U1 genannt (zu Eindeutigkeit und Existenz siehe Korol-lar V.3.11 und Satz X.1.3). In diesem Fall gilt folgende Eindeutigkeitsaussage.

Satz II.4.4 Fur u ∈ U1 ⊕ U2 existieren eindeutig bestimmte uj ∈ Uj mit u =u1 + u2.

Beweis. Die Existenz solcher uj ist klar nach Definition. Gelte nun

u = u1 + u2 = u1 + u2 mit uj , uj ∈ Uj .

Dann ist u−u = (u1− u1) + (u2− u2) = 0V , also u1− u1 = u2−u2 ∈ U1∩U2 ={0V }. Das zeigt u1 = u1 und u2 = u2 und damit die behauptete Eindeutigkeit.

2

Allgemeiner spricht man von einer direkten Summe der Unterraume U1, . . . ,Ur, wenn sich jedes Element von U1 + · · · + Ur eindeutig als u1 + · · · + ur mituj ∈ Uj darstellen lasst; Bezeichnung: U1⊕· · ·⊕Ur. Aus Satz II.4.2 folgt induktiv

dim(U1 ⊕ · · · ⊕ Ur) = dimU1 + · · ·+ dimUr. (II.3)

Eng verwandt mit den direkten Summen sind die direkten Produkte vonVektorraumen, die wir kurz streifen. Seien V1, . . . , Vr Vektorraume und V =V1 × · · · × Vr ihr kartesisches Produkt, d.h.

V = {(v1, . . . , vr): vj ∈ Vj fur j = 1, . . . , r}.

Wir fuhren eine Addition und eine Skalarmultiplikation auf V ein gemaß

(v1, . . . , vr) + (w1, . . . , wr) = (v1 + w1, . . . , vr + wr),

λ(v1, . . . , vr) = (λv1, . . . , λvr).

Man uberpruft dann, dass V mit diesen Operationen die Struktur eines Vektor-raums tragt. (Tun Sie’s!)

Sei fur j = 1, . . . , r

Uj = {(v1, . . . , vr) ∈ V : vi = 0Vifur i 6= j}.

Dann ist Uj ein Unterraum von V , und es gilt V = U1 ⊕ · · · ⊕ Ur (Beweis?).Naturlich ist Uj ”

irgendwie dasselbe“ wie Vj ; aber um das prazise zu fassen,benotigen wir den Begriff des Vektorraum-Isomorphismus. Dazu mehr im fol-genden Kapitel.

Version vom 13. Juni 2019

Version vom 13. Juni 2019

Kapitel III

Lineare Abbildungen

III.1 Definition und Eigenschaften

Die Diskussion linearer Gleichungssysteme in Kapitel I hat gezeigt, dass dieHauptbeteiligten einerseits Vektoren und andererseits Matrizen sind. In Kapi-tel II haben wir einen Blick auf die allgemeine Theorie der Vektoren geworfen,und nun wollen wir uns abstrakt den Matrizen widmen.

Jede Matrix generiert eine Abbildung (vgl. Satz I.5.1), deren entscheidendeEigenschaften in der folgenden Definition herausgestellt sind.

Definition III.1.1 Seien V und W Vektorraume und L: V → W eine Abbil-dung. Dann heißt L linear, wenn

(a) L(u+ v) = L(u) + L(v) fur alle u, v ∈ V ,

(b) L(λv) = λ · L(v) fur alle v ∈ V , λ ∈ R.

Statt lineare Abbildung sagt man auch linearer Operator oder lineare Trans-formation.

Es gibt zahlreiche Beispiele linearer Abbildungen in der Algebra und derAnalysis. Bevor wir einige davon kennenlernen, machen wir die einfache Bemer-kung, dass fur eine lineare Abbildung L: V → W stets L(0V ) = 0W gilt, da jaL(0V ) = L(0 · 0V ) = 0 · L(0V ) = 0W . Ferner ist stets L(−v) = −L(v), da ja−v = (−1) · v ist.

Beispiele III.1.2 (a) In Satz I.5.1 wurde bemerkt, dass fur eine m×n-MatrixA die Abbildung

LA: Rn → Rm, LA(x) = Ax

linear ist.(b) Sei D(I) der Vektorraum der differenzierbaren Funktionen auf einem

Intervall. Die aus der Schulmathematik bekannten Ableitungsregeln implizieren,

Version vom 13. Juni 2019

48 III. Lineare Abbildungen

dassL: D(I)→ Abb(I), L(f) = f ′

eine lineare Abbildung ist.(c) Die Integration ist ebenfalls ein linearer Prozess, wie Sie in der Schulma-

thematik gelernt haben. Wir betrachten dies in folgendem Kontext. Sei a < bund

L: Pol([a, b])→ R, L(f) =

∫ b

a

f(x) dx.

Dann ist L eine lineare Abbildung. Hier ist der Wertebereich R; man spricht indiesem Fall von einem linearen Funktional oder einer Linearform.

(d) Wir wollen das folgende Funktional auf Pol(R) diskutieren:

L:n∑k=0

akxk 7→ a3.

(xk steht fur die Funktion x 7→ xk.) Man kann unmittelbar die Bedingungenaus Definition III.1.1 nachrechnen; aber eine Sache ist zuvor zu klaren: Ist dieseAbbildung wohldefiniert? Einerseits ist hierzu zu uberlegen, was L mit z.B.quadratischen Polynomen macht, und andererseits, dass eine Polynomfunktioneindeutig ihre Koeffizienten bestimmt. Was Ersteres angeht, konnen wir einquadratisches Polynom kunstlich durch Nullen erganzen, z.B. 2x2−x = 0 · x3 +2x2 − x. Allgemein kann jede Polynomfunktion formal als unendliche Reihef =

∑∞k=0 akx

k geschrieben werden, wobei aber nur endlich viele ak von 0verschieden sind. (Also: Es ex. N ∈ N0 mit ak = 0 fur k > N .) Was Letzteresangeht, ist nun Folgendes zu klaren: Wenn f ∈ Pol(R) als f =

∑∞k=0 akx

k undals f =

∑∞k=0 bkx

k dargestellt ist, wobei jeweils nur endlich viele ak bzw. bknicht verschwinden, dann stimmt jeweils ak mit bk uberein. Dies konnen wirz.B. mit Hilfe der Differentialrechnung begrunden, da wir

ak =f (k)(0)

k!= bk

schreiben konnen (k! = 1 · 2 · · · k fur k ∈ N und 0! = 1; lies”k Fakultat“).

Beachten Sie, dass Argument und Aussage auf sehr”kleinen“ Definitionsbe-

reichen zusammenbrechen: Die Funktion f ∈ Pol({0, 1}), f(x) = x2, kann aufdiesem Definitionsbereich auch durch f(x) = x3 beschrieben werden!

(e) Die Welt der Matrizen halt weitere Beispiele linearer Abbildungen parat.Sei A ∈ Rl×m und

L: Rm×n → Rl×n, L(B) = AB.

Dies ist eine lineare Abbildung, da z.B. in der i-ten Zeile und k-ten Spalte vonA(B + C) die Zahl

m∑j=1

aij(bjk + cjk) =

m∑j=1

aijbjk +

m∑j=1

aijcjk

Version vom 13. Juni 2019

III.1 Definition und Eigenschaften 49

steht, die auch bei der Matrix AB +AC dort zu finden ist. (Hier sei A = (aij),B = (bjk), C = (cjk).)

(f) Fur eine n× n-Matrix A = (aij) setzt man

Spur(A) =

n∑i=1

aii.

Das Spurfunktional

L: Rn×n → R, L(A) = Spur(A)

ist klarerweise linear.

Lineare Abbildungen sind durch ihre Wirkung auf eine Basis eindeutig be-stimmt, wie der nachste Satz lehrt (fur den unendlichdimensionalen Fall sieheSatz X.1.6).

Satz III.1.3 Sei V ein endlichdimensionaler Vektorraum mit einer Basis B ={v1, . . . , vn}. Sei W ein weiterer Vektorraum, und sei Λ: B → W eine Abbil-dung. Dann existiert genau eine lineare Abbildung L: V →W , die auf B mit Λubereinstimmt: L(v) = Λ(v) fur alle v ∈ B.

Beweis. Sei v ∈ V . Nach Satz II.2.13 existieren eindeutig bestimmte Zahlenλ1, . . . , λn mit v = λ1v1 + · · · + λnvn. Wenn es uberhaupt eine wie im Satzbeschriebene Abbildung gibt, muss sie wegen der Linearitat den Vektor v aufλ1Λ(v1) + · · · + λnΛ(vn) abbilden. Diese Uberlegung zeigt, dass es hochstenseine wie im Satz beschriebene Abbildung geben kann. Zum Beweis der Existenzdefinieren wir, motiviert durch obiges Argument,

L: V →W, L(v) = λ1Λ(v1) + · · ·+ λnΛ(vn);

dann ist klar, dass stets L(vj) = Λ(vj) ist (warum namlich?). Zeigen wir jetzt,dass L linear ist. Sei ein weiteres Element u ∈ V mit Basisentwicklung u =µ1v1 + · · · + µnvn gegeben; u + v habe die Basisentwicklung u + v = ρ1v1 +· · · + ρnvn. Da andererseits u + v = (µ1 + λ1)v1 + · · · + (µn + λn)vn ist unddie Koeffizienten der Basisentwicklung eindeutig bestimmt sind, folgt stets ρj =µj + λj . Daher ist

L(u+ v) = ρ1 · Λ(v1) + · · ·+ ρn · Λ(vn)

= (µ1 + λ1) · Λ(v1) + · · ·+ (µn + λn) · Λ(vn)

= (µ1 · Λ(v1) + · · ·+ µn · Λ(vn)) + (λ1 · Λ(v1) + · · ·+ λn · Λ(vn))

= L(u) + L(v).

Genauso beweist man Bedingung (b) aus Definition III.1.1 (tun Sie’s!). 2

Wir studieren als nachstes das Bild (engl. range) und den Kern (engl. kernel)einer linearen Abbildung; vgl. die allgemeinen Begriffe von Bild und Urbild ausAbschnitt I.4. Die Symbole V und W bezeichnen stets Vektorraume.

Version vom 13. Juni 2019

50 III. Lineare Abbildungen

Definition III.1.4 Sei L: V →W linear. Dann setzt man

ran(L) = L(V ) = {L(v): v ∈ V } ⊂W,ker(L) = L−1({0W }) = {v ∈ V : L(v) = 0W } ⊂ V.

Lemma III.1.5 Fur eine lineare Abbildung L: V → W ist ran(V ) ein Unter-raum von W und ker(L) ein Unterraum von V .

Beweis. Zum Bild: Zunachst ist 0W = L(0V ) ∈ ran(L). Seien w1, w2 ∈ ran(L).Dann existieren v1, v2 ∈ V mit L(v1) = w1, L(v2) = w2. Da L linear ist,folgt L(v1 + v2) = w1 + w2, also w1 + w2 ∈ ran(L). Genauso sieht man, dassλw ∈ ran(L), wenn λ ∈ R und w ∈ ran(L) ist.

Zum Kern: Zunachst ist wieder L(0V ) = 0W , also 0V ∈ ker(L). Seien v1, v2 ∈ker(L). Dann gilt L(v1) = L(v2) = 0W , und da L linear ist, folgt L(v1 + v2) =L(v1)+L(v2) = 0W , also v1 +v2 ∈ ker(L). Genauso sieht man, dass λv ∈ ker(L),wenn λ ∈ R und v ∈ ker(L) ist. 2

Hier ist ein weiteres sehr einfaches, aber wichtiges Lemma.

Lemma III.1.6 Sei L: V →W eine lineare Abbildung. Dann ist L genau danninjektiv, wenn ker(L) = {0V } ist.

Beweis. Wenn L injektiv ist, folgt aus L(v) = 0W naturlich v = 0V (da jaL(0V ) = 0W ); das zeigt ker(L) = {0V }. Gilt umgekehrt ker(L) = {0V } undist L(v1) = L(v2), so liefert die Linearitat von L, dass L(v1 − v2) = 0W , alsov1 − v2 ∈ ker(L). Es folgt v1 = v2, und L ist injektiv. 2

Die folgenden Begriffe und Resultate sind vollkommen analog zu denen furMatrizen aus Abschnitt II.3.

Definition III.1.7 Sei L: V →W linear. Man setzt

rg(L) = dim ran(L) (Rang von L),

df(L) = dim ker(L) (Defekt von L).

(Diese Dimensionen konnen Werte in N0 ∪ {∞} annehmen.)

Satz III.1.8 Sei V endlichdimensional und L: V →W linear. Dann gilt

df(L) + rg(L) = dim(V ).

Den Beweis dieses bedeutenden Satzes haben wir im Prinzip schon gefuhrt –er ist identisch mit dem Beweis von Satz II.3.6, wenn man die Notation anpasst.

Es folgt ein wichtiges Korollar, das wir im Matrixkontext in Satz I.5.3 zuFuß bewiesen haben.

Version vom 13. Juni 2019

III.2 Isomorphe Vektorraume 51

Korollar III.1.9 Sei V endlichdimensional und L: V → V linear. Dann ist Lgenau dann injektiv, wenn L surjektiv ist.

Beweis. L ist genau dann injektiv, wenn df(L) = 0 ist (Lemma III.1.6). List genau dann surjektiv, wenn rg(L) = dim(V ) ist (Satz II.2.12). Es bleibt,Satz III.1.8 anzuwenden. 2

Es ist nicht nur wichtig, einzelne lineare Abbildungen zu studieren, sondernauch ihre Gesamtheit. Daher setzen wir

L (V,W ) = {L: V →W : L linear}.

In vielen Buchern zur Linearen Algebra wird diese Menge mit Hom(V,W )(”Homomorphismen“) bezeichnet. Im Fall V = W schreiben wir L (V ) statt

L (V, V ).Fur L1, L2 ∈ L (V,W ) und λ ∈ R setzen wir (v ∈ V )

(L1 + L2)(v) = L1(v) + L2(v); (λL1)(v) = λ · L1(v).

Satz III.1.10 Mit diesen Operationen ist L (V,W ) ein Vektorraum.

Beweis. Als erstes beachte man, dass L (V,W ) definitionsgemaß eine Teilmengevon Abb(V,W ) ist (Beispiel II.1.2(d)) und die oben definierten Operationendieselben wie im Vektorraum Abb(V,W ) sind. Es ist daher nur zu uberprufen,dass L (V,W ) ein Unterraum von Abb(V,W ) ist.

Es ist klar, dass die Nullabbildung, die jedes v ∈ V auf 0W abbildet, inL (V,W ) liegt, und es ist elementar nachzurechnen, dass Summen und skalareVielfache linearer Abbildungen auch linear sind. 2

Auch die Komposition linearer Abbildungen ist linear:

Satz III.1.11 Sind L1: V → W und L2: W → Z linear, so auch L2 ◦ L1:V → Z.

Beweis. Nachrechnen! 2

III.2 Isomorphe Vektorraume

In der Mathematik trifft man haufig auf Objekte, die sich nicht in ihrer Strukturunterscheiden; diese fasst man dann als

”isomorph“ (also als mit dem vorliegen-

den Instrumentarium ununterscheidbar) auf. Um welche Struktur es dabei geht,hangt vom untersuchten Kontext ab. Geht es z.B. nur um die Anzahl der Ele-mente einer Menge, sind die Mengen {1, 2, 3}, {∅, {∅}, {{∅}}} sowie, ein BonmotDavid Hilberts aufgreifend, {Tisch, Stuhl, Bierseidel} ununterscheidbar; zwi-schen je zwei der obigen Mengen gibt es namlich eine bijektive Abbildung. In

Version vom 13. Juni 2019

52 III. Lineare Abbildungen

der Analysisvorlesung lernen Sie, dass es eine Bijektion zwischen N und Q gibt;wenn es also nur um die Anzahl der Elemente geht, ist N

”dasselbe“ wie Q,

wenngleich sich diese Mengen in anderen Strukturen unterscheiden (wenn manz.B. die Subtraktion oder Division von Elementen in Betracht zieht).

In der Linearen Algebra wird man Vektorraume als”isomorph“ ansehen

wollen, wenn es nicht nur eine Bijektion zwischen ihnen gibt, sondern wenn dieseauch die Vektorraumoperationen respektiert. Bevor wir diese Idee formalisieren,halten wir ein Lemma fest. Weiterhin stehen V,W etc. fur Vektorraume.

Lemma III.2.1 Sei L: V →W linear und bijektiv. Dann ist die Umkehrabbil-dung L−1: W → V ebenfalls linear.

Beweis. Seien w1, w2 ∈ W . Dann existieren eindeutig bestimmte Elementev1, v2 ∈ V mit L(v1) = w1, L(v2) = w2. Da L linear ist, folgt L(v1 + v2) =w1 + w2, d.h.

L−1(w1 + w2) = v1 + v2 = L−1(w1) + L−1(w2).

Genauso zeigt man L−1(λw) = λ ·L−1(w) fur λ ∈ R und w ∈W (tun Sie’s!). 2

Definition III.2.2 Eine bijektive lineare Abbildung L: V → W heißt Vektor-raumisomorphismus (oder kurz Isomorphismus). Zwei Vektorraume V und Wheißen isomorph, wenn es zwischen ihnen einen Vektorraumisomorphismus gibt;in Zeichen: V ∼= W .

Also ubertragt ein Isomorphismus L: V → W die Vektorraumoperationenvon V nach W , und wegen Lemma III.2.1 ubertragt L−1 die Vektorraumopera-tionen von W nach V . Daher sind V und W als Vektorraume nicht zu unter-scheiden.

Der Isomorphiebegriff erfullt die folgenden Beziehungen (warum?):

• V ∼= V (Reflexivitat)

• V ∼= W ⇒ W ∼= V (Symmetrie)

• V ∼= W, W ∼= Z ⇒ V ∼= Z (Transitivitat)

Damit konnen wir die am Ende von Abschnitt II.4 gemachte Bemerkungprazisieren, dass (Bezeichnungen siehe dort)

”Uj irgendwie dasselbe wie Vj“

ist: Die Abbildung L: Vj → Uj , L(v) = (0, . . . , 0, v, 0, . . . , 0), ist offensichtlichein Isomorphismus (v steht an der j-ten Stelle). Ein weiteres einfaches Beispielbildet die Isomorphie des Matrixraums Rm×n mit dem Raum Rm·n. Hier ist eininteressanteres Beispiel.

Satz III.2.3 L (Rn,Rm) und Rm×n sind isomorph.

Beweis. Wir werden einen”kanonischen“ Isomorphismus angeben, namlich

Φ: Rm×n → L (Rn,Rm), Φ(A) = LA,

Version vom 13. Juni 2019

III.2 Isomorphe Vektorraume 53

wobei LA(x) = Ax wie in Satz I.5.1.Nach den Rechenregeln fur die Matrix-Vektor-Multiplikation ist Φ linear.

Um die Injektivitat von Φ zu zeigen, mussen wir wegen Lemma III.1.6 nurker(Φ) = 0 nachweisen1: Ist namlich Φ(A) = 0, also LA = 0, so gilt Ax = 0 furalle x ∈ Rn. Speziell ist fur alle Einheitsvektoren Aej = 0, d.h. alle Spalten vonA bestehen nur aus Nullen, und A ist die Nullmatrix.

Es bleibt, die Surjektivitat von Φ nachzuweisen. Sei also L ∈ L (Rn,Rm).Wir setzen sj = L(ej) ∈ Rm und bilden die Matrix A mit den Spalten s1, . . . , sn;es gilt also Aej = sj . Wegen der Eindeutigkeitsaussage in Satz III.1.3 folgtL = LA = Φ(A). Das beweist ran(Φ) = L (Rn,Rm), was zu zeigen war. 2

Der letzte Satz prazisiert, inwiefern m×n-Matrizen und lineare Abbildungen

”dasselbe“ sind.

Als nachstes nehmen wir Beispiel III.1.2(d) wieder auf. Wir bezeichnen mitR<∞ die Menge der

”abbrechenden“ Folgen

a0, a1, a2, . . . , aN , 0, 0, . . . ,

alsoR<∞ = {(ak)k≥0: ∃N ∈ N0 ∀k > N ak = 0}.

Dies erweist sich sofort als Vektorraum, namlich als Unterraum von Abb(N0).

Satz III.2.4 Pol(R) ist isomorph zu R<∞.

Beweis. Die Abbildung

Φ: R<∞ → Pol(R), Φ((ak)k≥0) =

∞∑k=0

akxk

ist offensichtlich linear und surjektiv, und in Beispiel III.1.2(d) wurde gezeigt,dass Φ injektiv ist. 2

Wir kommen zum Hauptsatz uber die Isomorphie endlichdimensionaler Rau-me (Korollar III.2.6). Der erste Schritt ist:

Satz III.2.5 Sei V ein n-dimensionaler Vektorraum. Dann ist V isomorph zuRn.

Beweis. Wir betrachten eine Basis B von V , die aus den Vektoren b1, . . . , bnbestehe, und setzen

KB : Rn → V, KB(x) = x1b1 + · · ·+ xnbn, (III.1)

1Ab jetzt werden wir nicht mehr zwischen den Symbolen fur die Null in unterschiedlichenVektorraumen differenzieren!

Version vom 13. Juni 2019

54 III. Lineare Abbildungen

wenn x die Koordinaten x1, . . . , xn hat. Klarerweise ist KB linear, surjektiv (daB ein Erzeugendensystem ist) und injektiv (da B linear unabhangig ist). 2

Es gibt einen Umterschied zwischen den Isomorphismen aus Satz III.2.3 undIII.2.4 sowie aus Satz III.2.5: Im letzten Fall hangt die Wahl des Isomorphismusvon der Wahl der betrachteten Basis ab, in den ersten beiden Fallen ist derIsomorphismus kanonisch (d.h. nicht von der willkurlichen Wahl einer Basisoder anderer Parameter abhangig).

Die Inverse der gerade betrachteten Abbildung KB ist bedeutsam, da sie dieKoordinaten eines Vektors in der betrachteten Basis wiedergibt; vgl. Satz II.2.13.

Korollar III.2.6 Zwei endlichdimensionale Vektorraume V und W sind genaudann isomorph, wenn ihre Dimensionen ubereinstimmen:

V ∼= W ⇔ dim(V ) = dim(W ).

Beweis. Ist dim(V ) = dim(W ) = n, so gilt nach Satz III.2.5 V ∼= Rn, W ∼= Rn,und wegen der Symmetrie und der Transitivitat der Isomorphie-Relation auchV ∼= W .

Ist umgekehrt etwa dim(V ) < dim(W ) und L: V → W eine lineare Abbil-dung, so kann L wegen Satz III.1.8 nicht surjektiv sein; deshalb sind V und Wnicht isomorph.

Analog ergibt sich, dass eine lineare Abbildung L: V →W im Fall dim(V ) >dim(W ) nicht injektiv sein kann; und wieder sind V und W nicht isomorph. 2

III.3 Matrixdarstellung und Koordinatentrans-formation

Wir betrachten endlichdimensionale Raume V und W mit Basen B und B′

sowie L ∈ L (V,W ). Wie bereits im Beweis von Satz III.2.5 wird die Reihenfolgeder Basisvektoren wichtig sein; daher betrachten wir Basen als Tupel statt alsMengen, etwa B = (b1, . . . , bn) und B′ = (b′1, . . . , b

′m), und sprechen von einer

geordneten Basis. Mit Hilfe der Abbildungen KB bzw. KB′ (siehe (III.1) aufSeite 53) konnen wir die lineare Abbildung

L = K−1B′ ◦ L ◦KB : Rn → Rm (III.2)

definieren, die gemaß Satz III.2.3 durch eine m×n-Matrix M dargestellt werdenkann. Wie sieht diese aus? Spatestens aus dem Beweis dieses Satzes wissen wir,dass die j-te Spalte sj der Matrix M gerade L(ej) ist. Also mussen wir Folgendestun: Starte mit ej , bilde KB(ej) = bj , bilde dann L(bj) ∈ W und entwicklediesen Vektor in die geordnete Basis B′; die entstandenen Koordinaten bildendie Spalte sj .

Version vom 13. Juni 2019

III.3 Matrixdarstellung und Koordinatentransformation 55

Definition III.3.1 Die soeben beschriebene Matrix heißt die darstellende Ma-trix von L bezuglich der geordneten Basen B und B′. Wir bezeichnen sie mitM(L;B,B′).

Beispiele III.3.2 (a) Betrachte Id: V → V , die identische Abbildung v 7→ v.Wenn man V im Urbildraum und im Bildraum mit derselben geordneten BasisB versieht, ist M(Id;B,B) immer die Einheitsmatrix En.

(b) Sei Pol<n(R) der n-dimensionale Vektorraum aller Polynomfunktionenvom Grad < n. Wir betrachten V = Pol<4(R) und W = Pol<3(R) mit dengeordneten Basen B = (1,x,x2,x3) und B′ = (1,x,x2). Es sei L: V → W derAbleitungsoperator, L(f) = f ′. Der obige Algorithmus fuhrt wegen L(xk) =kxk−1 zu

M(L;B,B′) =

0 1 0 00 0 2 00 0 0 3

.

Formal kann M(L;B,B′) so beschrieben werden. Es sei

Φ: Rm×n → L (Rn,Rm), Φ(A) = LA

der Isomorphismus aus Satz III.2.3. Dann ist

M(L;B,B′) = Φ−1(K−1B′ ◦ L ◦KB).

Dem entnimmt man den folgenden Satz.

Satz III.3.3 In den obigen Bezeichnungen ist L 7→ M(L;B,B′) linear und inder Tat ein Isomorphismus der Vektorraume L (V,W ) und Rm×n. Insbesondereist

dim(L (V,W )) = dim(V ) · dim(W ).

Wir haben in Satz I.5.2 festgestellt, dass der Isomorphismus aus Satz III.2.3in dem Sinn multiplikativ ist, dass LA2A1

= LA2◦LA1

gilt; mit anderen Worten,

Φ(A2A1) = Φ(A2) ◦ Φ(A1).

(Eigentlich musste man die Φ’s in der Notation unterscheiden, da verschiedendimensionierte Matrizen im Spiel sind – aber das wurde die Notation allzuschwerfallig machen.) Das liefert in unserem Kontext Folgendes.

Satz III.3.4 Seien V,W,Z Vektorraume mit geordneten Basen B,B′, B′′. Sei-en L1 ∈ L (V,W ) und L2 ∈ L (W,Z) mit darstellenden Matrizen M(L1;B,B′)und M(L2;B′, B′′). Dann hat L2 ◦ L1 die darstellende Matrix

M(L2 ◦ L1;B,B′′) = M(L2;B′, B′′)M(L1;B,B′).

Ist L1 invertierbar, so hat L−11 die darstellende Matrix

M(L−11 ;B′, B) = M(L1;B,B′)−1.

Version vom 13. Juni 2019

56 III. Lineare Abbildungen

Beweis. Es ist

Φ(M(L2 ◦ L1;B,B′′)) = K−1B′′ ◦ (L2 ◦ L1) ◦KB

= K−1B′′ ◦ L2 ◦ (KB′ ◦K−1

B′ ) ◦ L1 ◦KB

= (K−1B′′ ◦ L2 ◦KB′) ◦ (K−1

B′ ◦ L1 ◦KB)

= Φ(M(L2;B′, B′′)) ◦ Φ(M(L1;B,B′))

= Φ(M(L2;B′, B′′)M(L1;B,B′)).

Da Φ invertierbar ist, folgt die erste Behauptung, und die zweite ergibt sich ausL1 ◦ L−1

1 = Id. 2

Nun sei ein Vektorraum V mit zwei geordneten Basen A und B vorgelegt.Bezuglich dieser Basen hat ein Vektor v ∈ V die Koordinaten xA = K−1

A (v)bzw. xB = K−1

B (v). Wir wollen xB aus xA berechnen. Das ist einfach, da

xB = K−1B (v) = K−1

B (KA(xA)),

also wird der Ubergang xA 7→ xB durch die lineare Abbildung K−1B ◦KA: Rn →

Rn beschrieben. Diese wird ihrerseits durch eine Matrix dargestellt, die nichtsanderes als M(Id;A,B) ist; vgl. (III.2). Da A und B verschieden sein konnen,ist dies im Gegensatz zu Beispiel III.3.2(a) nicht notwendig die Einheitsmatrix!Wir bezeichnen

MBA = M(Id;A,B) (III.3)

und nennen MBA die Matrix der Koordinatentransformation oder Matrix des

Basiswechsels von A zu B. Es ist also xB = MBA xA.

Beispiele III.3.5 (a) Wenn V = Rn, A = (a1, . . . , an) und E die Einheitsvek-torbasis ist, besteht ME

A aus den Spalten a1, . . . , an.(b) Im R2 betrachten wir die geordneten Basen

A =

((11

),

(1−1

)), B =

((21

),

(10

)).

Um MBA zu berechnen, sind die Basisvektoren von A durch die Basisvektoren

von B linear zu kombinieren. Scharfes Hinsehen zeigt(11

)=

(21

)−(

10

),

(1−1

)= −

(21

)+ 3

(10

),

so dass

MBA =

(1 −1−1 3

).

(c) Aus Satz III.3.4 ergibt sich sofort MAB = (MB

A )−1.

Version vom 13. Juni 2019

III.3 Matrixdarstellung und Koordinatentransformation 57

(d) Seien A = (a1, . . . , an) und B = (b1, . . . , bn) zwei geordnete Basen desRn; wir wollen ein Berechnungsverfahren fur MB

A angeben. Bezeichnet E =(e1, . . . , en) die Einheitsvektorbasis, so ist wegen (a) und (c) sowie Satz III.3.4MBA = MB

EMEA = (ME

B )−1MEA , und die Spalten von ME

A bzw. MEB sind a1, . . . ,

an bzw. b1, . . . , bn. Also konnten wir mit dem Verfahren aus Abschnitt I.5 dieInverse von ME

B berechnen und anschließend mit MEA malnehmen. Man kann

allerdings ein paar Rechenschritte mit folgendem Algorithmus einsparen. Wirbilden die n × 2n-Matrix (ME

B |MEA ) = (b1 . . . bn | a1 . . . an) und uberfuhren sie

in die reduzierte Zeilenstufenform. (Der Strich ist nur der Deutlichkeit halbereingefugt.) Da b1, . . . , bn linear unabhangig sind, entsteht dabei eine Matrix derForm (e1 . . . en | c1 . . . cn). Die durchgefuhrten Zeilenoperationen entsprechen derMultiplikation mit einer invertierbaren Matrix S von links, die wegen Sbj = ejgenau die Inverse von ME

B ist. Die rechts vom Strich stehenden Spalten sinddaher cj = Saj = (ME

B )−1aj und deswegen die Spalten von (MEB )−1ME

A . Kurzgesagt entsteht aus (ME

B |MEA ) durch Uberfuhrung in die reduzierte Zeilenstu-

fenform (En |MBA ).

Nun ist es nicht mehr schwer, fur eine lineare Abbildung L: V → W dieMatrixdarstellungen bezuglich verschiedener geordneter Basen A,B von V bzw.A′, B′ von W ineinander umzurechnen. Schreiben wir (V,A), um anzudeuten,dass auf V die Basis A betrachtet wird, so ist doch L: (V,A) → (W,A′) durchdie Komposition

L: (V,A)Id−→ (V,B)

L−→ (W,B′)Id−→ (W,A′)

gegeben, und Satz III.3.4 liefert:

Satz III.3.6 Mit den obigen Bezeichnungen gilt:

M(L;A,A′) = MA′

B′M(L;B,B′)MBA .

Im Fall V = W , A = A′ und B = B′ erhalt man wegen Beispiel III.3.5(c)

M(L;A;A) = (MBA )−1M(L;B,B)MB

A .

Nennt man zwei quadratische Matrizen M1 und M2 ahnlich, wenn es eine inver-tierbare Matrix S mit M1 = S−1M2S gibt, so erhalten wir:

Korollar III.3.7 Die darstellenden Matrizen M(L;A,A) und M(L;B,B) sindstets ahnlich.

Wir halten abschließend eine Transformationsformel fur die Basisvektorenfest.

Satz III.3.8 Seien A = (a1, . . . , an) und B = (b1, . . . , bn) geordnete Basenvon V . Sei MB

A = (mij). Dann gilt fur alle j

aj =

n∑i=1

mijbi. (III.4)

Version vom 13. Juni 2019

58 III. Lineare Abbildungen

Beweis. Fur festes j ist (mij)i die j-te Spalte von MBA , gibt also die Koordinaten

von aj in der Basis B wieder. Genau das ist in (III.4) behauptet. 2

Version vom 13. Juni 2019

Kapitel IV

Determinanten

IV.1 Determinantenformen

Gegeben sei ein lineares Gleichungssystem Ax = b mit n Gleichungen und nUnbekannten, mit anderen Worten ist A eine n × n-Matrix. Wir versuchen,der Matrix A eine Zahl, ihre Determinante det(A), zuzuordnen, an der manablesen kann, ob solch ein Gleichungssystem eindeutig losbar ist oder nicht.Wir wunschen uns also eine Zuordnung A 7→ det(A), so dass

det(A) 6= 0 ⇔ A invertierbar;

in Korollar IV.2.5 werden wir dieses Ziel erreichen.Die Idee der Determinante ist alter als der Begriff der Matrix selbst. Wahrend

Leibniz bereits Determinanten studierte, wurden Matrizen erst im 19. Jahrhun-dert formal eingefuhrt, der moderne Vektorraumbegriff stammt aus dem fruhen20. Jahrhundert.

Wir werden Determinanten einer Matrix nach der Methode von Weierstraßdefinieren. Das heißt, zuerst werden wir abstrakt Forderungen aufstellen, deneneine Determinante nachkommen sollte, dann Existenz und Eindeutigkeit nach-weisen und weitere Eigenschaften diskutieren. Leider erweist sich die Einfuhrung– und anschließend die konkrete Berechnung – als ziemlich muhsam1. Trotzdembleibt der Begriff der Determinante fur Anwendungen in Analysis und Geome-trie unabdingbar.

Wir werden nun (siehe Definition IV.1.3) unsere Forderungen an die De-terminante formulieren. In diesem Abschnitt werden wir den Standpunkt ein-nehmen, statt einer Matrix ihren Spalten eine

”Determinante“ zuzuordnen. Der

erste dafur notwendige Begriff ist ganz allgemein.

1Das hat Sheldon Axler veranlasst, ein Buch zu schreiben, wie man in der fortgeschritte-nen Linearen Algebra (= Lineare Algebra II) ohne den Begriff der Determinante auskommt:Linear Algebra Done Right. Springer, 3. Auflage 2015. Vgl. auch seine Arbeit Down WithDeterminants!, Amer. Math. Monthly 102, No. 2 (1995), 139–154.

Version vom 13. Juni 2019

60 IV. Determinanten

Definition IV.1.1 Sei V ein Vektorraum und sei ∆: V n = V × · · · × V n →R eine Funktion. Dann heißt ∆ eine Multilinearform (genauer: n-Linearform),falls ∆ in jeder der n Variablen linear ist, wenn die ubrigen n − 1 Variablenfestgehalten werden.

Damit ist Folgendes gemeint: Fur jedes n-Tupel (v1, . . . , vn) ∈ V n und jedesj ∈ {1, . . . , n} ist die Abbildung

V 3 x 7→ ∆(v1, . . . , vj−1, x, vj+1, . . . , vn)

linear.

Beispiele IV.1.2 (a) Sei V = R und ∆(a1, . . . , an) = a1 · · · an, das Produktdieser n Zahlen. Dies ist eine Multilinearform.

(b) Sei V = R2 und n = 2. Dann ist

∆:

((α1

β1

),

(α2

β2

))7→ α1β2 − β1α2

eine Multilinearform.

Jetzt betrachten wir spezielle n-Linearformen fur V = Rn.

Definition IV.1.3 Sei ∆: (Rn)n → R eine Multilinearform. Dann heißt ∆eine Determinantenform, wenn ∆(s1, . . . , sn) = 0 ist, sobald zwei der Vektorens1, . . . , sn ubereinstimmen.

In dieser Definition und im Folgenden stellen wir uns s1, . . . , sn als Spalteneiner n×n-Matrix vor (daher die Bezeichnung sj) und nennen sie auch Spalten.

In Beispiel IV.1.2(b) finden wir eine Determinantenform, und in BeispielIV.1.2(a) ebenfalls, wenn n = 1 ist (aber nur dann).

Wir ziehen ein paar unmittelbare Konsequenzen aus der Definition.

Lemma IV.1.4 Es sei ∆: (Rn)n → R eine Determinantenform, und es seiens1, . . . , sn ∈ Rn.

(a) Sind s1, . . . , sn linear abhangig, so ist ∆(s1, . . . , sn) = 0.

(b) Ist i 6= j und λ ∈ R, so ist

∆(s1, . . . , sj−1, sj + λsi, sj+1, . . . , sn) = ∆(s1, . . . , sn).

Kurz: Addiert man zu einer Spalte ein Vielfaches einer anderen Spalte,so andert sich der Wert von ∆ nicht.

(c) Ist i > j, so ist

∆(s1, . . . , sj−1, si, sj+1, . . . , si−1, sj , si+1, . . . , sn) = −∆(s1, . . . , sn).

Kurz: Vertauscht man zwei verschiedene Spalten, so andert der Wertvon ∆ sein Vorzeichen.

Version vom 13. Juni 2019

IV.1 Determinantenformen 61

Beweis. (a) Wenn s1, . . . , sn linear abhangig sind, ist eine dieser Spalten eine Li-nearkombination der ubrigen; um die Notation nicht zu schwerfallig zu machen,wollen wir annehmen, dass das s1 ist: s1 =

∑nj=2 λjsj . Da ∆ in der 1. Spalte

linear ist, folgt

∆(s1, . . . , sn) = ∆(λ2s2 + · · ·+ λnsn, s2, . . . , sn)

=

n∑j=2

λj∆(sj , s2, . . . , sn) = 0,

da jeder Summand nach Definition einer Determinantenform verschwindet.(b) Die linke Seite ist wegen der Linearitat in der j-ten Spalte (der Uber-

sichtlichkeit halber wird jetzt nur diese notiert)

∆(. . . , sj + λsi, . . . ) = ∆(. . . , sj , . . . ) + λ∆(. . . , si, . . . )

= ∆(s1, . . . , sn) + λ · 0 = ∆(s1, . . . , sn).

(c) Wieder notieren wir nur die j-te und die i-te Spalte und wenden (b)mehrfach an:

∆(. . . , si, . . . , sj , . . . ) = ∆(. . . , si + sj , . . . , sj , . . . )

= ∆(. . . , si + sj , . . . , sj − (si + sj), . . . )

= ∆(. . . , si + sj , . . . ,−si, . . . )= ∆(. . . , (si + sj)− si, . . . ,−si, . . . )= ∆(. . . , sj , . . . ,−si, . . . )= −∆(. . . , sj , . . . , si, . . . ).

Das war zu zeigen. 2

Seien nun s1, . . . , sn ∈ Rn mit sj = (aij)i; also sj = a1je1 + · · ·+anjen. (Dieek sind wie immer die Einheitsvektoren.) Wir wollen diese Darstellung in eineDeterminantenform ∆ einsetzen und sehen, was wir erhalten. Zuerst setzen wirs1 ein und nutzen die Linearitat in der 1. Spalte:

∆(s1, . . . , sn) =

n∑i1=1

ai11∆(ei1 , s2, . . . , sn).

Jetzt setzen wir s2 ein und nutzen die Linearitat in der 2. Spalte:

∆(s1, . . . , sn) =

n∑i1=1

n∑i2=1

ai11ai22∆(ei1 , ei2 , s3, . . . , sn).

Analog setzen wir nun nach und nach die ubrigen Spalten ein:

∆(s1, . . . , sn) =

n∑i1=1

n∑i2=1

· · ·n∑

in=1

ai11ai22 · · · ainn∆(ei1 , ei2 , . . . , ein).

Version vom 13. Juni 2019

62 IV. Determinanten

Jetzt nutzen wir die charakterisierende Eigenschaft einer Determinantenformaus und schließen, dass ∆(ei1 , . . . , ein) immer dann verschwindet, wenn zweider Indices ubereinstimmen. Anders gesagt brauchen wir in der n-fachen Summenur die Indextupel zu berucksichtigen, die paarweise verschieden sind. Bei diesenhandelt es sich aber um nichts anderes als um eine Umordnung von {1, . . . , n}.

Die mathematische Vokabel dafur lautet Permutation. Eine Permutation π:{1, . . . , n} → {1, . . . , n} ist definitionsgemaß eine bijektive Abbildung; die Men-ge all dieser Permutationen wird mit Sn bezeichnet. Es ist nicht schwer, mitvollstandiger Induktion zu beweisen, dass Sn eine Menge mit n! Elementen ist(also ziemlich groß ist). (Fur Kartenspieler: Die Zahl der Anordnungen eines32-er Blatts ist 32! ≈ 2.6 · 1035.)

Zuruck zu unserer Determinantenform; die letzte Uberlegung hat

∆(s1, . . . , sn) =∑π∈Sn

aπ(1),1 · · · aπ(n),n∆(ei1 , . . . , ein)

gezeigt. Der finale Schritt ist nun, dass durch systematische Spaltenvertau-schungen ei1 , . . . , ein in e1, . . . , en uberfuhrt werden kann, wobei das Systemder Vertauschungen unabhangig von der vorliegenden Form ∆ ist2. (Z.B. so:Falls π(1) = 1, mache nichts im ersten Schritt; ansonsten tausche eπ(1) und e1.Falls jetzt an der 2. Position e2 steht, mache nichts; ansonsten tausche diesenEinheitsvektor mit e2; etc.) Nach Lemma IV.1.4(c) existieren also nur von πabhangige Vorzeichen ε(π), so dass

∆(s1, . . . , sn) =∑π∈Sn

ε(π)aπ(1),1 · · · aπ(n),n∆(e1, . . . , en). (IV.1)

Damit ist insbesondere folgender Eindeutigkeitssatz gezeigt.

Satz IV.1.5 Zu jedem c ∈ R existiert hochstens eine Determinantenform ∆:(Rn)n → R mit ∆(e1, . . . , en) = c.

Es ergeben sich sofort folgende Aussagen.

Korollar IV.1.6(a) Sind ∆ und ∆′ Determinantenformen, so gilt

∆(e1, . . . , en)∆′ = ∆′(e1, . . . , en)∆.

(b) Ist ∆ eine Determinantenform mit ∆(e1, . . . , en) = 0, so ist ∆ = 0.

Beweis. (a) Die linke Seite und die rechte Seite definieren Determinantenformen,die (e1, . . . , en) auf c = ∆(e1, . . . , en)∆′(e1, . . . , en) abbilden, also stimmen sienach Satz IV.1.5 uberein.

(b) folgt aus (a). 2

Als nachstes wollen wir die Existenz von Determinantenformen beweisen.2Allerdings wissen wir an dieser Stelle noch nicht, ob es außer ∆ = 0 uberhaupt Determi-

nantenformen gibt.

Version vom 13. Juni 2019

IV.1 Determinantenformen 63

Satz IV.1.7 Zu jedem c ∈ R existiert genau eine Determinantenform ∆: (Rn)n

→ R mit ∆(e1, . . . , en) = c.

Beweis. Die Eindeutigkeit ist ja in Satz IV.1.5 schon bewiesen, daher ist jetztdie Existenz zu zeigen, die im Fall c = 0 klar ist. Ferner reicht es, den Fallc = 1 zu betrachten (warum?). Man konnte nun (IV.1) als Ansatz nehmen, um∆ zu definieren; um zu zeigen, dass dieses ∆ wirklich eine Determinantenformist, musste man die Vorzeichen genauer studieren, was ich jedoch vermeidenmochte.

Stattdessen werden wir per Induktion beweisen:• Zu jedem n ∈ N existiert eine Determinantenform ∆n: (Rn)n → R mit3

∆n(e1, . . . , en) = 1.Der Induktionsanfang ist klar; zu n = 2 betrachte auch Beispiel IV.1.2(b). Wirnehmen nun an, dass die obige Aussage fur n−1 bewiesen ist, und wir mussen siefur n verifizieren. Wie oben sei sj = (aij)i=1,...,n; wir setzen s′j = (aij)i=2,...,n ∈Rn−1 und machen den Ansatz

∆n(s1, . . . , sn) =

n∑j=1

(−1)1+ja1j∆n−1(s′1, . . . , s′j−1, s

′j+1, . . . , s

′n), (IV.2)

wobei ∆n−1 die laut Induktionsvoraussetzung gegebene (und laut Satz IV.1.5eindeutig bestimmte) normierte Determinantenform ist. Explizit ist

∆n(s1, . . . , sn) = a11∆n−1(s′2, . . . , s′n)− a12∆n−1(s′1, s

′3, . . . , s

′n)

+ a13∆n−1(s′1, s′2, s′4, . . . , s

′n)± etc.

Dass ∆n leistet, was es soll, sieht man so.(1) ∆n ist in der k-ten Spalte linear, da es jeder Summand a1j∆n−1(s′1, . . . ,

sj−1, s′j+1, . . . , s

′n) ist, denn fur j = k ist der zweite Faktor bezuglich k eine

Konstante, und fur j 6= k ist a1j bezuglich k eine Konstante und der zweiteFaktor in der entsprechenden Spalte linear. Also ist ∆n eine Multilinearform.

(2) Stimmen zwei Spalten uberein, sagen wir sj1 = sj2 fur j1 < j2, so giltauch s′j1 = s′j2 , und nach Induktionsvoraussetzung verschwinden alle Summan-den in (IV.2), die zu j /∈ {j1, j2} gehoren. Die Summanden zu j1 und j2 stimmenaber bis auf das Vorzeichen uberein, das verschieden ist, so dass die Summe wie-der 0 ergibt. Es ist namlich nach Voraussetzung a1j1 = a1j2 , und

∆n−1(s′1, . . . , s′j1−1, s

′j1+1, . . . , s

′n) und ∆n−1(s′1, . . . , s

′j2−1, s

′j2+1, . . . , s

′n)

konnen sich hochstens im Vorzeichen unterscheiden, da links und rechts diesel-ben Spalten stehen mit dem Unterschied, dass s′ := s′j2 = s′j1 rechts j2 − j1 − 1Positionen weiter vorne steht; z.B. j1 = 2, j2 = 6, s′ := s′2 = s′6:

links: s′1, s′3, s′4, s′5, s′, s′7, . . .

rechts: s′1, s′, s′3, s

′4, s′5, s′7, . . .

3Eine Determinantenform mit ∆n(e1, . . . , en) = 1 heißt normierte Determinantenform.

Version vom 13. Juni 2019

64 IV. Determinanten

Durch j2−j1−1 Spaltenvertauschungen werden die beiden Muster zur Deckunggebracht, d.h. nach Lemma IV.1.4(c)

∆n−1(s′1, . . . , s′j1−1, s

′j1+1, . . . , s

′n) = (−1)j2−j1−1∆n−1(s′1, . . . , s

′j2−1, s

′j2+1, . . . , s

′n)

und(−1)1+j1a1j1∆n−1(s′1, . . . , s

′j1−1, s

′j1+1, . . . , s

′n)

= −(−1)1+j2a1j2∆n−1(s′1, . . . , s′j2−1, s

′j2+1, . . . , s

′n).

(3) Schließlich gilt ∆n(e1, . . . , en) = 1, da fur die Einheitsvektoren in (IV.2)fur j ≥ 2 alle a1j = 0 sind und der erste Summand (−1)1+1·1·∆n−1(e2, . . . , en) =1 ist. 2

Wir haben also gezeigt, dass es zu jedem n genau eine normierte (sieheFußnote 3 auf Seite 63) Determinantenform gibt.

IV.2 Die Determinante

In diesem Abschnitt bezeichne ∆ die soeben nachgewiesene eindeutig bestimmtenormierte Determinantenform.

Definition IV.2.1 Sei A eine n × n-Matrix mit den Spalten s1, . . . , sn. DieDeterminante von A ist dann det(A) = ∆(s1, . . . , sn).

Aus Abschnitt IV.1 konnen wir folgende Informationen entnehmen.

• Die Determinante ist linear in jeder Spalte.

• Addiert man zu einer Spalte ein Vielfaches einer anderen Spalte, soandert sich der Wert der Determinante nicht.

• Vertauscht man zwei Spalten, so andert die Determinante ihr Vorzei-chen.

• Sind die Spalten linear abhangig, verschwindet die Determinante.

• Fur die Einheitsmatrix ist det(En) = 1.

Aus (IV.1) entnehmen wir die Leibniz-Formel fur die Determinante.

Satz IV.2.2 Es existieren Vorzeichen ε(π), so dass fur jede Matrix A = (aij)gilt

det(A) =∑π∈Sn

ε(π)aπ(1),1 · · · aπ(n),n. (IV.3)

Die ε(π) werden Vorzeichen bzw. Signum der Permutation π genannt. VieleBucher zur Linearen Algebra studieren diese zuerst kombinatorisch, bevor siesie zur Definition der Determinante gemaß der obigen Formel einsetzen. (Wirhaben das anders gemacht.) A posteriori werden sich die ε(π) als Determinantenvon Permutationsmatrizen herausstellen, vgl. (IV.4) im Beweis von Satz IV.2.7.

Version vom 13. Juni 2019

IV.2 Die Determinante 65

Mittels Satz IV.2.2 konnen wir sofort die Determinante einer Dreiecksmatrixberechnen. Zur Erinnerung (vgl. Abschnitt I.6): Eine quadratische Matrix (aij)heißt obere (bzw. untere) Dreiecksmatrix, wenn aij = 0 fur i > j (bzw. i < j)ist.

Korollar IV.2.3 Die Determinante einer Dreiecksmatrix A ist das Produktihrer Hauptdiagonalelemente: det(A) = a11 · · · ann.

Beweis. Das folgt aus Satz IV.2.2, da bei einer Dreiecksmatrix jeder Summandin (IV.3), der zu einer Permutation π 6= id gehort, verschwindet und konstruk-tionsgemaß ε(id) = 1 ist. 2

Wir kommen zum Multiplikationssatz.

Satz IV.2.4 Fur n× n-Matrizen A und B gilt

det(AB) = det(A) det(B).

Beweis. Wir betrachten die durch

∆(s1, . . . , sn) = ∆(As1, . . . , Asn)

definierte Abbildung. Es ist klar, dass dies eine Determinantenform ist. Also giltwegen Korollar IV.1.6(a) ∆ = ∆(e1, . . . , en)∆, d.h., wenn sj = Bej die Spaltenvon B und also As1, . . . , Asn die Spalten von AB sind, gilt

det(AB) = ∆(As1, . . . , Asn)

= ∆(s1, . . . , sn)

= ∆(e1, . . . , en)∆(s1, . . . , sn)

= det(A) det(B).

Das war zu zeigen. 2

Korollar IV.2.5 Eine n×n-Matrix ist genau dann invertierbar, wenn det(A) 6=0 ist. In diesem Fall ist det(A−1) = 1/ det(A).

Beweis. Wenn A invertierbar ist, ist AA−1 = En, also nach Satz IV.2.4

1 = det(En) = det(A) det(A−1).

Insbesondere ist det(A) 6= 0 und det(A−1) = 1/ det(A).Wenn A nicht invertierbar ist, sind die Spalten von A linear abhangig; vgl.

Satz II.3.6 und Korollar II.3.11. Aus Lemma IV.1.4(a) folgt det(A) = 0. 2

In Korollar III.3.7 wurden zwei Matrizen A und B ahnlich genannt, wenn eseine invertierbare Matrix S mit B = S−1AS gibt. Daher hat man noch folgendesunmittelbare Korollar.

Version vom 13. Juni 2019

66 IV. Determinanten

Korollar IV.2.6 Ahnliche Matrizen haben dieselbe Determinante.

Der nachste Satz erlaubt uns, von den Spalten einer Matrix zu den Zeilenumzuschwenken. Die transponierte Matrix wurde vor Satz II.3.10 eingefuhrt.

Satz IV.2.7 Fur eine n× n-Matrix A gilt det(A) = det(At).

Beweis. Da A genau dann nicht invertierbar ist, wenn es At auch nicht ist, giltin diesem Fall nach Korollar IV.2.5 det(A) = 0 = det(At).

Im Fall, dass A invertierbar ist, schreiben wir gemaß Satz I.6.3 A = PLR miteiner Permutationsmatrix P , einer unteren Dreiecksmatrix L und einer oberenDreiecksmatrix R. (Ubrigens konnten wir das auch im nicht invertierbaren Fallmachen, dann hatte R mindestens eine 0 auf der Hauptdiagonalen.) Es ist At =RtLtP t, und nach Korollar IV.2.3 ist det(L) = det(Lt) sowie det(R) = det(Rt).Wegen des Multiplikationssatzes IV.2.4 ist der Beweis daher erbracht, wenn wirdet(P ) = det(P t) zeigen konnen.

Sei also P eine Permutationsmatrix, d.h. in jeder Zeile und in jeder Spaltesteht genau eine 1 und ansonsten nur Nullen. Es existiert also eine Permuationπ mit P = Pπ := (eπ(1) . . . eπ(n)), und aus (IV.3) in Satz IV.2.2 ergibt sich

det(P ) = det(Pπ) = ε(π) ∈ {±1}. (IV.4)

Nun ist π definitionsgemaß eine bijektive Abbildung von {1, . . . , n} auf sichmit Umkehrabbildung π−1. Dann ist klar, dass P−1

π die Spaltendarstellung(eπ−1(1) . . . eπ−1(n)) hat, d.h. P−1

π = Pπ−1 = P tπ. (Beachte: Pπ hat die Einsen anden Stellen (π(j), j), Pπ−1 hat die Einsen an den Stellen (π−1(j), j) = (i, π(i)),genau wie P tπ.) Es folgt

det(P tπ) = det(P−1π ) =

1

det(Pπ)= det(Pπ),

da letztere Determinante 1 oder −1 ist. 2

Da die Zeilen von A den Spalten von At entsprechen, konnen wir die obenaufgestellten Spaltenregeln wegen des letzten Satzes genauso fur Zeilen aufstel-len; also:

• Die Determinante ist linear in jeder Zeile.

• Addiert man zu einer Zeile ein Vielfaches einer anderen Zeile, so andertsich der Wert der Determinante nicht.

• Vertauscht man zwei Zeilen, so andert die Determinante ihr Vorzeichen.

• Sind die Zeilen linear abhangig, verschwindet die Determinante.

Wir kommen nun zu einem Berechnungsverfahren fur Determinanten. Da-zu fuhren wir folgende Notation ein. Ist A eine n × n-Matrix und sind i, j ∈

Version vom 13. Juni 2019

IV.2 Die Determinante 67

{1, . . . , n}, so bezeichnet Aij diejenige (n− 1)× (n− 1)-Matrix, die durch Strei-chung der i-ten Zeile und j-ten Spalte von A entsteht. Beispiel:

A =

3 2 0 1−2 4 1 2

0 −1 0 1−1 2 0 −1

; A23 =

3 2 10 −1 1−1 2 −1

Die induktive Konstruktion der normierten Determinantenform (und damit derDeterminante) in Satz IV.1.7 zeigt

det(A) =

n∑j=1

(−1)1+ja1j det(A1j). (IV.5)

Man fuhrt also die Berechnung der Determinante der n×n-Matrix A auf die Be-rechnung der Determinanten von kleineren Matrizen zuruck. Man nennt diesesVerfahren

”Entwicklung nach der 1. Zeile“; offensichtlich ist es sehr rechenin-

tensiv. Allgemeiner hat man folgende Regeln.

Satz IV.2.8 (Laplacescher Entwicklungssatz)

(a) (Entwicklung nach der i-ten Zeile)

det(A) =

n∑j=1

(−1)i+jaij det(Aij) (IV.6)

(b) (Entwicklung nach der j-ten Spalte)

det(A) =

n∑i=1

(−1)i+jaij det(Aij) (IV.7)

Beweis. (a) Der Fall i = 1 ist (IV.5); im allgemeinen Fall kann man nach i− 1Zeilenvertauschungen die i-te Zeile nach ganz oben bringen und die 2. bis i−1-teZeile um eins nach unten rutschen lassen. Dann kann man auf die neue Situation(IV.5) anwenden; das liefert (−1)i−1 det(A), was (IV.6) beweist.

(b) sieht man, indem man (a) auf At anwendet und Satz IV.2.7 benutzt. 2

Die Anwendung des Laplaceschen Entwicklungssatzes verbietet sich bei vollbesetzten Matrizen wegen des immensen Rechenaufwands. Wenn es jedoch vieleNullen gibt, verringert sich der Aufwand sehr, weil man die entsprechendendet(Aij) gar nicht berechnen muss, wenn der Vorfaktor aij = 0 ist. In derTat konnen wir fur die oben angegebene Beispielmatrix die Determinante jetztschnell ausrechnen (es ist ublich, die Determinante einer konkreten Matrix mit

Version vom 13. Juni 2019

68 IV. Determinanten

senkrechten Strichen zu bezeichnen):∣∣∣∣∣∣∣∣3 2 0 1−2 4 1 2

0 −1 0 1−1 2 0 −1

∣∣∣∣∣∣∣∣ = (−1)2+3 · 1 ·

∣∣∣∣∣∣3 2 10 −1 1−1 2 −1

∣∣∣∣∣∣(Entwicklung nach der 3. Spalte)

= −(

(−1)2+2 · (−1) ·∣∣∣∣ 3 1−1 −1

∣∣∣∣+ (−1)2+3 · 1 ·∣∣∣∣ 3 2−1 2

∣∣∣∣)(Entwicklung nach der 2. Zeile)

= −(2− 8) = 6,

da ∣∣∣∣ a bc d

∣∣∣∣ = ad− bc.

Bei einer allgemeinen 3× 3-Matrix liefert die Entwicklung nach der 1. Zeile∣∣∣∣∣∣a11 a12 a13

a21 a22 a23

a31 a32 a33

∣∣∣∣∣∣ = a11

∣∣∣∣ a22 a23

a32 a33

∣∣∣∣− a12

∣∣∣∣ a21 a23

a31 a33

∣∣∣∣+ a13

∣∣∣∣ a21 a22

a31 a32

∣∣∣∣= a11a22a33 + a12a23a31 + a13a21a32

− a11a23a32 − a12a21a33 − a13a22a31;

dies ist als Sarrussche Regel oder”Jagerzaunregel“ (siehe Tafelbild) bekannt.

Man erkennt die Form von (IV.3) und die Vorzeichen der auftauchenden Per-mutationen. (Vorsicht: Ein Analogon dieser Regel fur andere als 3× 3-Matrizenist falsch!)

Ein wichtiges Beispiel einer Determinante ist die Vandermondesche Deter-minante, die im nachsten Satz berechnet wird.

Satz IV.2.9 Seien x0, . . . , xn−1 ∈ R. Betrachte die n× n-Matrix

Mn =

1 x0 . . . xn−1

0

1 x1 . . . xn−11

......

...1 xn−1 . . . x

n−1n−1

Dann ist

det(Mn) =∏

0≤i<j≤n−1

(xj − xi).

(Hier ist∏

das Produktzeichen, der Cousin des Summenzeichens.)

Version vom 13. Juni 2019

IV.2 Die Determinante 69

Beweis. Wir fuhren einen Induktionsbeweis. Die Aussage ist richtig fur n = 1(das

”leere Produkt“ ist definitionsgemaß = 1) und fur n = 2. Nehmen wir an,

sie ist fur Mn bereits bewiesen, und betrachten wir

Mn+1 =

1 x0 . . . xn01 x1 . . . xn1...

......

1 xn−1 . . . xnn−1

1 xn . . . xnn

.

Von rechts nach links vorgehend, subtrahieren wir xn mal Spalte j von Spal-te j + 1 (d.h. sj+1 ; sj+1 − xnsj in ahnlicher Notation wie in Kapitel I). Dasandert die Determinante nicht und fuhrt zur Matrix (der Lesbarkeit halber wur-den Klammern gesetzt)

1 (x0 − xn) . . . (xn−10 − xn−2

0 xn) (xn0 − xn−10 xn)

1 (x1 − xn) . . . (xn−11 − xn−2

1 xn) (xn1 − xn−11 xn)

......

......

1 (xn−1 − xn) . . . (xn−1n−1 − x

n−2n−1xn) (xnn−1 − xn−1

n−1xn)1 (xn − xn) . . . (xn−1

n − xn−2n xn) (xnn − xn−1

n xn)

.

In der letzten Zeile steht vorn eine 1 und sonst nur Nullen; Entwicklung nachdieser Zeile zeigt

det(Mn+1) = (−1)n+2

∣∣∣∣∣∣∣∣∣(x0 − xn) . . . (xn−1

0 − xn−20 xn) (xn0 − xn−1

0 xn)(x1 − xn) . . . (xn−1

1 − xn−21 xn) (xn1 − xn−1

1 xn)...

......

(xn−1 − xn) . . . (xn−1n−1 − x

n−2n−1xn) (xnn−1 − xn−1

n−1xn)

∣∣∣∣∣∣∣∣∣ .Hier kann man in der 1. Zeile den Faktor x0 − xn ausklammern, in der 2. Zeilekann man x1 − xn ausklammern usw; was ubrig bleibt, ist genau det(Mn). Dasliefert zusammen mit der Induktionsvoraussetzung

det(Mn+1) = (−1)n(x0 − xn) · · · (xn−1 − xn) det(Mn)

= (xn − x0) · · · (xn − xn−1) det(Mn)

= (xn − x0) · · · (xn − xn−1)∏

0≤i<j≤n−1

(xj − xi)

=∏

0≤i<j≤n

(xj − xi),

was zu zeigen war. 2

Der Multiplikationssatz gestattet es, Determinanten auch fur lineare Abbil-dungen L: V → V eines endlichdimensionalen Raums zu definieren. Wir wahlen

Version vom 13. Juni 2019

70 IV. Determinanten

namlich eine geordnete Basis B von V und betrachten die MatrixdarstellungM(L;B,B) von L. Hat man eine andere geordnete Basis A, so existiert nachKorollar III.3.7 eine invertierbare Matrix S mit

M(L;A,A) = S−1M(L;B,B)S;

aus Satz IV.2.4 folgt (vgl. Korollar IV.2.6)

detM(L;A,A) = detM(L;B,B),

und die folgende Definition hangt daher nicht von der Wahl der Basis ab.

Definition IV.2.10 Ist V ein endlichdimensionaler Vektorraum mit einer ge-ordneten Basis B und L ∈ L (V ), so setze

det(L) = detM(L;B,B).

Satz III.3.4 liefert, dass auch in diesem Kontext ein Multiplikationssatz gilt.

Satz IV.2.11 Es sei V ein endlichdimensionaler Vektorraum, und es seienL,L1, L2 ∈ L (V ).

(a) det(L2 ◦ L1) = det(L2) det(L1).

(b) L ist genau dann bijektiv, wenn det(L) 6= 0 ist.

IV.3 Anwendungen

In einer ersten Anwendung greifen wir noch einmal das Problem auf, ob dieKoeffizienten einer Polynomfunktion auf einer Menge X ⊂ R von dieser ein-deutig bestimmt werden. Wir wissen bereits, dass das fur X = R richtig ist(Satz III.2.4), aber nicht immer (Beispiel III.1.2(d)). Wir betrachten nun eineTeilmenge X ⊂ R und die Polynomfunktionen von Grad < n, aufgefasst alsFunktionen auf X; also Pol<n(X) = lin{x0, . . . ,xn−1} mit xk: X 3 x 7→ xk.

Satz IV.3.1 Wenn X mindestens n Elemente enthalt, sind x0, . . . ,xn−1 linearunabhangige Funktionen auf X. In diesem Fall ist dim Pol<n(X) = n, und

(a0, . . . , an−1) 7→∑n−1k=0 akx

k ist injektiv. Insbesondere gilt Pol(X) ∼= R<∞,wenn X unendlich viele Elemente hat.

Beweis. Seien λ0, . . . , λn−1 ∈ R mit λ0x0 + · · · + λn−1x

n−1 = 0. Betrachte npaarweise verschiedene Elemente x0, . . . , xn−1 ∈ X. Insbesondere gilt dann furi = 0, . . . , n− 1

λ0x0i + · · ·+ λn−1x

n−1i = 0,

d.h. fur den Vektor λ mit den Koordinaten λ0, . . . , λn−1 gilt

Mnλ = 0,

Version vom 13. Juni 2019

IV.3 Anwendungen 71

wo Mn die Vandermondesche Matrix aus Satz IV.2.9 ist. Da die xi paarweiseverschieden sind, ist det(Mn) 6= 0; also ist Mn invertierbar, und es folgt λ0 =. . . = λn−1 = 0. Damit ist alles gezeigt. 2

Die zweite Anwendung betrifft die Cramersche Regel.

Satz IV.3.2 Sei A eine invertierbare n×n-Matrix, sei b ∈ Rn, und sei x ∈ Rndie eindeutig bestimmte Losung von Ax = b. Sei Bj die Matrix, die man erhalt,wenn man die j-te Spalte von A durch b ersetzt. Dann gilt fur die j-te Koordinatevon x

xj =detBjdetA

.

Beweis. A habe die Spalten s1, . . . , sn. Da die Determinante linear in der j-tenSpalte ist, gilt (nur die j-te Spalte wird angezeigt)

detBj = det(. . . b . . . )

= det(. . .

n∑k=1

xksk . . .)

=

n∑k=1

xk det(. . . sk . . . )

= xj det(. . . sj . . . ) = xj detA,

da bei Summanden mit k 6= j zwei identische Spalten auftreten und die ent-sprechenden Determinanten verschwinden. Weil bei einer invertierbaren MatrixdetA 6= 0 ist, folgt die Behauptung. 2

Die Cramersche Regel gibt die Losung eines linearen Gleichungssystemsdurch eine geschlossene Formel an, aber diese Formel ist numerisch nicht ef-fektiv auszuwerten. Ihre wahre Bedeutung liegt auf einer theoretischen Ebene.Aufgrund der Darstellung (IV.3) in Satz IV.2.2 kann man namlich ablesen, dassdie Determinante eine stetige Funktion der n2 Argumente a11, . . . , ann ist. In derAnalysis lernen Sie, dass mit Hilfe der Stetigkeit aus det(A) 6= 0 auch det(A) 6= 0folgt, wenn die Eintrage von A hinreichend nahe bei denen von A liegen (ε-δ-Kriterium). Daher konnen wir fur solche A schließen: Wenn Ax = b eindeutiglosbar ist, so auch Ax = b, und die Losung x hangt stetig von den Eintragenvon A ab (das ist die wichtige Konsequenz der Cramerschen Regel!).

Auf ahnliche Weise konnen wir eine geschlossene Formel fur die Inverse ei-ner Matrix angeben. Sei A = (aij) eine invertierbare n × n-Matrix mit denSpalten s1, . . . , sn. Seien Aij die Streichungsmatrizen wie in Satz IV.2.8. DurchEntwicklung nach der j-ten Spalte sieht man

det(s1 . . . sj−1eisj+1 . . . sn) = (−1)i+j detAij =: a#ji.

Version vom 13. Juni 2019

72 IV. Determinanten

Diese Zahlen (bitte die Reihenfolge der Indices beachten!) heißen die Kofaktoren

der Matrix A und A# = (a#ij) die komplementare Matrix4.

Satz IV.3.3 Es gilt A#A = det(A)En. Fur invertierbares A ist also

A−1 =1

det(A)A#.

Beweis. In der j-ten Zeile und k-ten Spalte von A#A steht

n∑i=1

a#jiaik =

n∑i=1

aik det(s1 . . . sj−1eisj+1 . . . sn)

= det(s1 . . . sj−1sksj+1 . . . sn),

und das ist = 0, wenn j 6= k ist, da eine Spalte doppelt vorkommt, und = det(A),wenn j = k ist. Also ist A#A = det(A)En. Fur den Zusatz bleibt, Lemma I.5.5anzuwenden. 2

Wieder darf man den Satz nicht als Einladung verstehen, die Inverse auf dieseWeise konkret zu berechnen! Eine Ausnahme ist der Fall einer 2× 2-Matrix, wodie vier Eintrage von A# sofort abgelesen werden konnen, namlich

A =

(a bc d

); A# =

(d −b−c a

), det(A) = ad− bc,

also (a bc d

)−1

=1

ad− bc

(d −b−c a

).

Wenngleich Determinanten nur fur quadratische Matrizen erklart sind, sindsie auch fur andere Matrizen nutzlich. Ist A eine m×n-Matrix und streicht mandort m − s Zeilen und n − s Spalten, so bleibt eine s × s-Matrix ubrig, derenDeterminante ein Minor der Ordnung s genannt wird.

Satz IV.3.4 Sei A eine m× n-Matrix mit rg(A) = r. Dann gilt:(a) Es gibt einen Minor der Ordnung r, der nicht verschwindet.(b) Jeder Minor der Ordnung r + 1 verschwindet.

Beweis. (a) Wahle r Spalten, die linear unabhangig sind, und bilde damit einem × r-Matrix vom Rang r. Diese hat nach Satz II.3.10 r linear unabhangigeZeilen, so dass man eine r × r-Minor erhalt, der nicht verschwindet.

(b) Diese Bedingung ist leer fur r = min{m,n} und wegen des Allquantors(”Jeder Minor . . .“) automatisch erfullt. Ansonsten sind je r+ 1 Spalten linear

abhangig, und in der daraus gebildeten m × (r + 1)-Matrix wegen Satz II.3.10je r + 1 Zeilen ebenfalls linear abhangig. Daher verschwindet jeder Minor derOrdnung r + 1. 2

4Manche Bucher nennen sie die adjungierte Matrix, aber dieser Begriff ist in dieser Vorle-sung den Innenproduktraumen vorbehalten.

Version vom 13. Juni 2019

IV.4 Ein erster Blick auf Eigenwerte 73

IV.4 Ein erster Blick auf Eigenwerte

Wir beginnen mit einem Gleichungssystem, das die Welt verandert hat5.

We assume page A has pages T1 . . . Tn which point to it (i.e., are citations).The parameter d is a damping factor which can be set between 0 and 1.We usually set d to 0.85. There are more details about d in the nextsection. Also C(A) is defined as the number of links going out of page A.The PageRank of a page A is given as follows:

PR(A) = (1 − d) + d(PR(T1)/C(T1) + · · · + PR(Tn)/C(Tn))

Note that the PageRanks form a probability distribution over web pages,so the sum of all web pages’ PageRanks will be one.

Dies ist die Definition des PageRank-Algorithmus, mit dem Google die Re-levanz von Internetseiten berechnet (und Milliarden verdient), aus der Origi-nalveroffentlichung der Google-Grunder, inklusive eines (Tipp-?) Fehlers, sieheunten.

Ubersetzen wir dies in die Sprache der Linearen Algebra. Es geht um dieBewertung der N Webseiten, die das Internet ausmachen. Jede Seite erhalt eineBewertung, ihren

”PageRank“, eine Zahl zwischen 0 und 1. All diese bilden

einen Vektor x = (xj)j ∈ RN mit∑j xj = 1, wobei also xj der PageRank der

Seite j ist. Die Anzahl der Links, die von Seite j ausgehen, sei C(j). Ferner seiA die N ×N -Matrix mit aij = 1/C(j), wenn Seite j einen Link auf Seite i hat,und aij = 0, wenn das nicht der Fall ist. Ferner sei E die Matrix, die an jederStelle den Eintrag 1 hat. Sei

G =1− dN

E + dA. (IV.8)

Dann ist das Systemx = Gx (IV.9)

mit der Forderung xj ≥ 0,∑Nj=1 xj = 1 zu losen. (Bei Brin/Page ist d = 0.85,

und in der obigen Quelle steht 1− d statt 1−dN ; aus den weiteren Ausfuhrungen

ergibt sich, dass Letzteres gemeint sein muss.)Probleme vom Typ (IV.9) sind Eigenwertprobleme, die wir jetzt definieren.

Definition IV.4.1

(a) Sei V ein Vektorraum, und sei L: V → V eine lineare Abbildung. EineZahl λ ∈ R heißt Eigenwert von L, wenn es einen Vektor v 6= 0 mitL(v) = λv gibt. Jedes solche von 0 verschiedene v ∈ V heißt ein Eigen-vektor zu λ, und {v ∈ V : L(v) = λv} ist der zugehorige Eigenraum.

5S. Brin, L. Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine. Com-puter Networks and ISDN Systems 30 (1998), 107–117.

Version vom 13. Juni 2019

74 IV. Determinanten

(b) Sei A eine n×n-Matrix. Eine Zahl λ ∈ R heißt Eigenwert von A, wenn eseinen Vektor x 6= 0 mit Ax = λx gibt. Jedes solche von 0 verschiedenex ∈ Rn heißt ein Eigenvektor zu λ, und {x ∈ Rn: Ax = λx} ist derzugehorige Eigenraum.

Diese beiden Begriffe sind auf endlichdimensionalen Vektorraumen vollkom-men symmetrisch: Ist λ ein Eigenwert der Matrix A, so ist λ auch ein Eigenwertder zugehorigen linearen Abbildung LA. Ist λ ein Eigenwert der linearen Abbil-dung L: V → V mit Eigenvektor v und ist M die bzgl. einer geordneten BasisB darstellende Matrix von L sowie KB : Rn → V die entsprechende Koordina-tenabbildung, so gilt M(K−1

B (v)) = λK−1B (v) (vgl. (III.2) auf Seite 54), also ist

λ ebenfalls Eigenwert von M . Daher brauchen wir im endlichdimensionalen FallEigenwertuberlegungen nur im Kontext von Abbildungen oder von Matrizenanzustellen6.

Wir beobachten noch, dass der Eigenraum zu λ genau ker(L − λ Id) bzw.ker(A − λEn) := {x ∈ Rn: (A − λEn)x = 0} ist, also wirklich ein Unterraumvon V bzw. Rn ist; daher ist die Bezeichnung Eigenraum gerechtfertigt.

Sei L: V → V linear und dim(V ) <∞. Definitionsgemaß ist λ ein Eigenwertvon L, wenn ker(L − λ Id) 6= {0} ist, was nach Korollar III.1.9 genau dannpassiert, wenn L− λ Id nicht bijektiv ist, was nach Satz IV.2.11(b) zu det(L−λ Id) = 0 aquivalent ist. Dasselbe Argument funktioniert fur Matrizen (fuhrenSie es aus!). Daher haben wir folgenden Satz gezeigt.

Satz IV.4.2

(a) Sei L: V → V linear und dim(V ) < ∞. Dann ist λ genau dann einEigenwert von L, wenn det(L− λ Id) = 0 ist.

(b) Sei A eine n× n-Matrix. Dann ist λ genau dann ein Eigenwert von A,wenn det(A− λEn) = 0 ist.

Betrachten wir jetzt den Matrixfall genauer. Zuerst untersuchen wir die Ei-genwerte der transponierten Matrix. Da (A − λEn)t = At − λEn, folgt ausSatz IV.2.7 sofort:

Satz IV.4.3 Eine n × n-Matrix A hat dieselben Eigenwerte wie ihre transpo-nierte Matrix At.

Naturlich brauchen die Eigenraume nicht ubereinzustimmen!

Nach Satz IV.4.2 sind die Eigenwerte von A genau die Nullstellen der Funk-tion

χA: λ 7→ det(A− λEn).

6Im unendlichdimensionalen Fall lernt man etwas uber Eigenwerte in der Funktionalana-lysis.

Version vom 13. Juni 2019

IV.4 Ein erster Blick auf Eigenwerte 75

Diese Funktion wollen wir genauer studieren. Nach der Leibniz-Darstellung derDeterminante ((IV.3) in Satz IV.4.2) hat χA die Gestalt

χA(λ) =∑π∈Sn

ε(π)aπ(1),1 · · · aπ(n),n,

wo aij = aij fur i 6= j und aii = aii − λ ist. Daraus ersieht man, dass χA einePolynomfunktion mit dem fuhrenden Koeffizienten (−1)n (beachte ε(id) = 1)und dem absoluten Glied det(A) ist:

χA(λ) = (−1)nλn + an−1λn−1 + · · ·+ a1λ+ det(A).

Definition IV.4.4 χA heißt das charakteristische Polynom von A.

Aus der Algebra ist bekannt (vgl. Korollar VII.1.5), dass ein Polynom vomGrad n hochstens n Nullstellen hat, daher hat eine reelle Matrix hochstens nEigenwerte. Es kann aber vorkommen, dass es uberhaupt keine Eigenwerte gibt;z.B. gilt fur A =

(0 −11 0

)χA(λ) = det(A− λE2) =

∣∣∣∣−λ −11 −λ

∣∣∣∣ = λ2 + 1,

also besitzt χA keine reellen Nullstellen. (Aus dem Zwischenwertsatz der Ana-lysis folgt jedoch, dass χA fur ungerades n stets eine reelle Nullstelle hat.) Siewerden im zweiten Teil der Vorlesung (Abschnitt VII.2) Weiteres zum Eigen-wertproblem kennenlernen; wir wollen jedoch an dieser Stelle wenigstens einBeispiel durchrechnen.

Beispiel IV.4.5 Sei

A =

2 1 0−1 0 1

1 3 1

.

Um die Eigenwerte von A zu bestimmen, berechnen wir das charakteristischePolynom:

χA(λ) =

∣∣∣∣∣∣2− λ 1 0−1 −λ 11 3 1− λ

∣∣∣∣∣∣= (2− λ)

∣∣∣∣−λ 13 1− λ

∣∣∣∣− ∣∣∣∣−1 11 1− λ

∣∣∣∣= (2− λ)(−λ+ λ2 − 3)− (−(1− λ)− 1)

= (2− λ)(λ2 − λ− 3)− (λ− 2)

= −(λ− 2)(λ2 − λ− 2) = −(λ− 2)2(λ+ 1)

Die Eigenwerte sind also λ1 = −1 und λ2 = 2.

Version vom 13. Juni 2019

76 IV. Determinanten

Um die Eigenvektoren zu λ1 zu bestimmen, benotigt man die nichttrivialenLosungen von (A − λ1E3)x = 0. Wendet man den Gaußschen Algorithmus aufA− λ1E3 an, erhalt man durch elementare Zeilenumformungen 3 1 0

−1 1 11 3 2

;

3 1 00 4/3 10 8/3 2

;

3 1 00 4/3 10 0 0

.

Daran sieht man, dass man fur eine Losung von (A− λ1E3)x = 0 die 3. Koor-dinate von x frei wahlen kann (x3), und daraus ergibt sich

x2 = −3

4x3, x1 = −1

3x2 =

1

4x3.

Daher sind genau die Vektoren der Form

x3

1/4−3/4

1

, x3 6= 0

die Eigenvektoren von A zum Eigenwert −1.Eine analoge Rechnung fur den Eigenwert λ2 = 2 fuhrt auf die folgenden

Zeilenumformungen fur die Matrix A − λ2E3 (diesmal benotigt man auch eineZeilenvertauschung) 0 1 0

−1 −2 11 3 −1

;

1 3 −1−1 −2 1

0 1 0

;

1 3 −10 1 00 1 0

;

1 3 −10 1 00 0 0

.

Wieder kann man x3 frei wahlen und erhalt x2 = 0 sowie x1 = x3. Genau dieVektoren der Form

x3

101

, x3 6= 0

sind die Eigenvektoren von A zum Eigenwert 2.

Nun zuruck zur Google-Matrix G aus (IV.8). Diese hat die Eigenschaft, dassalle Eintrage ≥ 0 sind und alle Spaltensummen = 1 sind7; eine solche Matrixheiße spaltenstochastisch. (Um zu zeigen, dass die j-te Spaltensumme = 1 ist,

ist nur∑Ni=1 aij = 1 zu zeigen; diese Summe ist aber

∑i∈Ij 1/C(j), wobei Ij

die Menge der Seiten ist, auf die j verlinkt. Davon gibt es C(j) Stuck, so dass∑i∈Ij 1/C(j) = C(j) · 1/C(j) = 1.)

Satz IV.4.6 Ist S eine spaltenstochastische Matrix, so ist 1 ein Eigenwertvon S.

7An dieser Stelle wird der Einfachheit halber vorausgesetzt, dass es keine “dangling nodes”gibt, also Seiten, die auf keine anderen Seiten verlinken.

Version vom 13. Juni 2019

IV.4 Ein erster Blick auf Eigenwerte 77

Beweis. St ist eine Matrix, deren Zeilensummen = 1 sind, also ist fur den Vek-tor e, dessen samtliche Koordinaten 1 sind, Ste = e. Daher ist 1 ein Eigenwertvon St und deshalb auch von S (siehe Satz IV.4.3). 2

Also hat die Google-Matrix einen Eigenvektor zum Eigenwert 1; es war je-doch bei (IV.9) verlangt, dass dieser nichtnegative Eintrage hat, was wir nochnicht wissen. Aber G besitzt daruber hinaus die Eigenschaft, dass alle Eintrage> 0 sind (sie sind ja ≥ 1−d

N ); eine Matrix mit dieser Eigenschaft heiße strikt posi-

tiv. Uber solche Matrizen trifft der Satz von Perron-Frobenius folgende Aussage.

Satz IV.4.7 Sei S eine strikt positive spaltenstochastische Matrix. Dann ist derEigenraum zum Eigenwert λ = 1 eindimensional. Genauer gilt: Es gibt genaueinen Eigenvektor u = (ui) zum Eigenwert λ = 1 mit ui > 0 fur alle i und∑ni=1 ui = 1, und jeder Eigenvektor zu λ = 1 ist ein Vielfaches von u.

Beweis. Wenn in diesem Beweis von Eigenvektoren die Rede ist, sind stets Ei-genvektoren (6= 0) von S = (sij) zum Eigenwert 1 gemeint; dass es solcheEigenvektoren gibt, zeigt Satz IV.4.6.

Sei x = (xi) ein Eigenvektor. Wir zeigen zuerst, dass alle xi ≥ 0 oder allexi ≤ 0 sind. Gabe es namlich ein xk > 0 und ein xl < 0, wo ware wegen sij > 0

|xi| =∣∣∣ n∑j=1

sijxj

∣∣∣ < n∑j=1

sij |xj |

(an dieser Stelle benutzt man, dass |α + β| < |α| + |β| fur α < 0 < β) unddeshalb wegen

∑ni=1 sij = 1

σ :=

n∑i=1

|xi| <n∑i=1

n∑j=1

sij |xj | =n∑j=1

( n∑i=1

sij

)|xj | =

n∑j=1

|xj | = σ.

Aber das ist unmoglich.Es gilt sogar xi > 0 fur alle i oder xi < 0 fur alle i: Da wenigstens eine

Koordinate von x nicht verschwindet, sagen wir xr 6= 0, ist namlich

|xi| =n∑j=1

sij |xj | ≥ sir|xr| > 0,

denn alle sij sind strikt positiv.Das hat folgende Konsequenz: Wenn Sz = z ist und z eine verschwindende

Koordinate hat, ist z = 0. Damit konnen wir zeigen, dass je zwei Eigenvektorenx = (xi) und y = (yi) linear abhangig sind: Fur z = y1x − x1y gilt namlichSz = z, und die erste Koordinate von z verschwindet; daher folgt y1x−x1y = 0,und wegen x1, y1 6= 0 (siehe oben) ist das eine nichttriviale Linearkombination.

Version vom 13. Juni 2019

78 IV. Determinanten

Deshalb ist ker(S − En) eindimensional: ker(S − En) = lin{u}. Dann istu = u/

∑ni=1 ui der gesuchte Eigenvektor mit positiven Koordinaten und Koor-

dinatensumme 1, und er ist eindeutig bestimmt. 2

Dieser Satz beweist, dass Googles PageRank-Vektor existiert und eindeutigbestimmt ist (wenn 0 < d < 1). K. Bryan und T. Leise nennen ihn den 25-Milliarden-Dollar-Eigenvektor8.

Eine ganz andere Frage ist die der numerischen Berechnung (die Google-Matrix hat mehr als 200 Milliarden Zeilen und Spalten!). Vorlesungen undBucher zur numerischen Linearen Algebra9 erklaren effektive Verfahren dafur.

8Das war der Wert der Firma Google im Jahr 2004; vgl. K. Bryan und T. Leise, The$25,000,000,000 eigenvector: The linear algebra behind Google. SIAM Rev. 48, No. 3 (2006),569–581.

9Z.B. F. Bornemann, Numerische Lineare Algebra. Springer Spektrum 2016.

Version vom 13. Juni 2019

Kapitel V

Etwas Algebra

V.1 Korper und K-Vektorraume

Bislang haben wir Vektorraume uber R kennengelernt, d.h., wir konnten einenVektor mit einer reellen Zahl malnehmen. In der Algebra nimmt man einenallgemeineren Standpunkt ein, der auch in der Eigenwerttheorie nutzlich ist.Man ersetzt namlich R durch ein System von

”Zahlen“, in dem die von den

reellen Zahlen bekannten Rechenregeln der Addition und der Multiplikationgelten; so etwas nennt man einen Korper, siehe Definition V.1.3.

Der Definition eines Korpers schicken wir die Definition einer anderen be-deutsamen algebraischen Struktur voraus, der einer Gruppe.

Definition V.1.1 Es sei G eine Menge mit einer inneren Verknupfung ∗, d.h.,jedem Paar (x, y) von Elementen von G wird ein weiteres Element x ∗ y ∈ Gzugeordnet. Dann heißt (G, ∗) eine Gruppe, wenn folgende Bedingungen erfulltsind.

(a) Assoziativitat: (x ∗ y) ∗ z = x ∗ (y ∗ z) fur alle x, y, z ∈ G.(b) Es existiert ein neutrales Element e ∈ G mit e ∗ x = x ∗ e = x fur alle

x ∈ G.(c) Zu jedem x ∈ G existiert ein inverses Element x′ ∈ G mit x ∗ x′ =

x′ ∗ x = e.Gilt zusatzlich das Kommutativgesetz

(d) x ∗ y = y ∗ x fur alle x, y ∈ G,so spricht man von einer abelschen oder kommutativen Gruppe.

Es ist schnell zu sehen, dass das neutrale und das inverse Element jeweilseindeutig bestimmt sind. Sind namlich e und e′ neutrale Elemente, so ist e∗e′ =e′, weil e neutral ist, und e ∗ e′ = e, weil e′ neutral ist, so dass e = e′ folgt. Sindx′ und x′′ beide invers zu x, so zeigt das Assoziativgesetz

x′′ = e ∗ x′′ = (x′ ∗ x) ∗ x′′ = x′ ∗ (x ∗ x′′) = x′ ∗ e = x′.

Version vom 13. Juni 2019

80 V. Etwas Algebra

Wem diese Argumente bekannt vorkommen, wird im folgenden Beispiel V.1.2(f)eine Erklarung finden.

Beispiele V.1.2 (a) Offensichtliche Beispiele von Gruppen sind (Z,+), (R,+),(Q,+), (R\{0}, ·) und (Q\{0}, ·). Sie sind alle abelsch. (N,+), (R, ·) und (Q, ·)sind keine Gruppen (warum nicht?).

(b) Sei n ∈ N und Zn = {0, . . . , n− 1}. Wir fuhren folgende”Addition“ auf

Zn ein: x⊕y = z, wenn die ubliche Addition x+y bei Division durch n den Restz lasst. (Zn,⊕) ist dann eine abelsche Gruppe, wie man schnell uberpruft. Inder Algebra lernt man eine intelligentere Beschreibung dieser Gruppe kennen.

(c) Wir fuhren folgende”Multiplikation“ auf Zn ein: x � y = z, wenn die

ubliche Multiplikation x · y bei Division durch n den Rest z lasst. (Zn,�) isteine assoziative und kommutative Struktur mit dem neutralen Element 1. Eshandelt sich jedoch nicht um eine Gruppe, da 0 kein multiplikativ Inverses be-sitzt. Betrachte nun Z∗n = {1, . . . , n− 1}. Ist n keine Primzahl, so ist � auf Z∗nkeine innere Verknupfung, denn es existieren n1, n2 ∈ Z∗n mit n1 · n2 = n, alson1�n2 = 0. Wenn n jedoch eine Primzahl ist, ist (Z∗n,�) eine abelsche Gruppe,wie man in der Algebra lernt.

(d) In Abschnitt IV.1 wurde die Menge Sn der Permutationen (= Bijek-tionen) von {1, . . . , n} eingefuhrt. Mit der Komposition als Verknupfung erhaltman eine Gruppe (warum?), die jedoch fur n ≥ 3 nicht abelsch ist (Beispiel?).Allgemeiner sei X eine Menge und Bij(X) die Menge der Bijektionen von X,versehen mit der Komposition als innerer Verknupfung. (Beachte: Wenn f undg bijektiv sind, ist es auch f ◦ g; also handelt es sich wirklich um eine innereVerknupfung.) (Bij(X), ◦) ist eine Gruppe, die nicht abelsch ist, wenn X mehrals zwei Elemente hat.

(e) Sei GL(n,R) die Menge aller invertierbaren n×n-Matrizen, versehen mitdem Matrixprodukt. Auch hier handelt es sich um eine Gruppe, die fur n ≥ 2nicht abelsch ist. Genauso ist SL(n,R) = {A ∈ GL(n,R): det(A) = 1} eineGruppe.

(f) Sei V ein (R-)Vektorraum; dann ist (V,+) eine abelsche Gruppe.

Gruppen werden im Detail in der Algebra studiert. Uns dienen sie haupt-sachlich dazu, die folgende Definition pragnant zu fassen.

Definition V.1.3 Es sei K eine Menge, die mit zwei inneren Verknupfungen+ und · ausgestattet sei. Es gelte:

(a) (K,+) ist eine abelsche Gruppe mit dem neutralen Element 0.(b) (K \ {0}, ·) ist eine abelsche Gruppe mit dem neutralen Element 1 6= 0.(c) Es gilt das Distributivgesetz, also

(λ+ µ) · ν = (λ · ν) + (µ · ν) fur alle λ, µ, ν ∈ K.

Dann heißt K (genauer (K,+, ·) und noch genauer (K,+, ·, 0, 1)) ein Korper1.

1Um die Wortwahl zu verstehen, denke man an Korperschaft, nicht an Korper im Sinn vonLeib. Auf Englisch heißt Korper field.

Version vom 13. Juni 2019

V.1 Korper und K-Vektorraume 81

Wie ublich, schreibt man auch λµ statt λ ·µ und λ−µ statt λ+(−µ). Fernergilt stets −λ = (−1)λ (Beweis?).

Eine unmittelbare Folgerung ist 0 · λ = 0 fur alle λ ∈ K, da

0 · λ = (0 + 0) · λ = 0 · λ+ 0 · λ,

also

0 = 0 · λ− 0 · λ = (0 · λ+ 0 · λ)− 0 · λ = 0 · λ+ (0 · λ− 0 · λ) = 0 · λ+ 0 = 0 · λ.

(Auch dieses Argument sollte Ihnen bekannt vorkommen!) Daher gelten dasAssoziativgesetz und das Kommutativgesetz der Multiplikation sowie die Neu-tralitat der 1, die formal laut (b) nur in K \ {0} verlangt waren, tatsachlich inganz K.

Beispiele V.1.4 (a) (R,+, ·) und (Q,+, ·) sind Korper.(b) (Vgl. Beispiel V.1.2(b) und (c)) Ist p eine Primzahl, so ist (Zp,⊕,�) ein

Korper, wie man in der Algebra lernt. Endliche Korper sind nicht nur in der Al-gebra wichtig, sondern auch in der angewandten Mathematik (Kryptographie).

(c) In der Zahlentheorie sind die Korper zwischen Q und R wichtig, z.B.Q(√

2) = {a+ b√

2: a, b ∈ Q}. Es ist einfach nachzurechnen, dass (Q(√

2),+, ·)wirklich ein Korper ist.

(d) Das fur diese Vorlesung wichtigste Beispiel ist der Korper C der komple-xen Zahlen, den wir jetzt beschreiben.

In den Formeln von Tartaglia und Cardano zur Losung einer kubischen Glei-chung kommen Terme vor, die die Quadratwurzel aus einer negativen Zahl ent-halten konnen. Obwohl solche Wurzeln in R nicht existieren, hat das Rechnenmit einer imaginaren Wurzel aus −1 im 16. und 17. Jahrhundert erfolgreichreelle Losungen einer kubischen Gleichung produziert. Schreibt man i fur diehypothetische Wurzel aus −1, kann man Zahlen der Form a + bi, a, b ∈ R,bilden, und mit ihnen wie ublich zu rechnen bedeutet, dass Addition und Multi-plikation den aus der Schule bekannten Rechenregeln genugen. Wir wollen nunbegrunden, dass das wirklich moglich ist.

Auf der Menge der Paare reeller Zahlem fuhren wir eine Addition und eineMultiplikation ein, namlich

(a, b) + (a′, b′) = (a+ a′, b+ b′)

(a, b) · (a′, b′) = (aa′ − bb′, ab′ + a′b)

(Wenn man sich hier (a, b) durch a+bi und (a′, b′) durch a′+b′i ersetzt vorstelltund formal ohne viel Federlesens ausmultipliziert, erhalt man (aa′−bb′)+(ab′+a′b)i, was das Paar (aa′−bb′, ab′+a′b) symbolisiert.) Man kann nun verifizieren,dass R2 mit diesen Operationen einen Korper bildet; das multiplikativ Inversezu (a, b) 6= (0, 0) ist (a/(a2 + b2),−b/(a2 + b2)); informelle Eselsbrucke hierfur:

1

a+ bi=

a− bi(a+ bi)(a− bi)

=a− bia2 + b2

.

Version vom 13. Juni 2019

82 V. Etwas Algebra

Der Korper R2 enthalt via ρ: r 7→ (r, 0) die reellen Zahlen als Teilkorper,und fur das Element (0, 1) ∈ R2 gilt (0, 1) · (0, 1) = (−1, 0); also kann man(0, 1) ∈ R2 als Wurzel aus −1 auffassen. Setzt man (1, 0) = 1 und (0, 1) = i,kann man (a, b) ∈ R2 als a1 + bi reprasentieren. (Beachten Sie, dass wir erstan dieser Stelle i prazise definieren; vorher war i in der Eselsbrucke mehr einWunschtraum als ein mathematisches Objekt.) Da 1 ∈ R2 der reellen Zahl 1 viaρ entspricht, schreibt man a+ bi statt (a, b).

Der hier beschriebene Korper wird der Korper C der komplexen Zahlengenannt. Ist z = a + bi ∈ C (a, b ∈ R), nennt man a = Re z den Realteil undb = Im z den Imaginarteil von z; beachten Sie, dass der Imaginarteil von z einereelle Zahl ist. Ferner nennt man z = a− bi die zu z konjugiert komplexe Zahl ;es gelten Re z = 1

2 (z+ z), Im z = 12i (z− z) sowie w + z = w+ z und wz = w z.

Trotz seiner Abstraktheit ist im Begriff des Korpers doch nichts anderesals die Grundschularithmetik kodiert. Im bisherigen Verlauf der Vorlesung ha-ben wir bei der Entwicklung der Theorie der Vektorraume und der linearenAbbildungen nur diese arithmetischen Grundlagen von R benutzt (Ausnahme:Satz IV.4.6 und IV.4.7, wo auch die ≥-Relation reeller Zahlen eine Rolle spiel-te). Daher ist es nun ein Leichtes, mit Hilfe des folgenden Begriffes samtlichebisherigen Uberlegungen weiterzuentwickeln.

Definition V.1.5 Seien K ein Korper und V eine Menge. Es existiere eineinnere Verknupfung V × V 3 (v, w) 7→ v+w ∈ V und eine Abbildung K × V 3(λ, v) 7→ λv ∈ V mit folgenden Eigenschaften:

(a) (V,+) ist eine abelsche Gruppe.

(b) λ(v + w) = λv + λw fur alle λ ∈ K, v, w ∈ V (1. Distributivgesetz).

(c) (λ+ µ)v = λv + µv fur alle λ, µ ∈ K, v ∈ V (2. Distributivgesetz).

(d) (λµ)v = λ(µv) fur alle λ, µ ∈ K, v ∈ V (Assoziativitat der Skalarmul-tiplikation).

(e) 1 · v = v fur alle v ∈ V .

Dann heißt V ein K-Vektorraum.

Die Elemente von K heißen in diesem Kontext auch Skalare.

Beispiele V.1.6 (a) Der Koordinatenraum Kn ist ein K-Vektorraum, wobeidie arithmetischen Operationen Addition und Skalarmultiplikation analog zuRn zu verstehen sind.

(b) C ist ein R-Vektorraum, und R ist ein Q-Vektorraum.(c) Sei X eine Menge und K ein Korper. Abb(X,K) = {f : X → K: f ist

eine Funktion} ist mit den zu Beispiel II.1.2(c) analogen Operationen ein K-Vektorraum.

(d) Da Q(√

2) selbst ein Korper ist (Beispiel V.1.4(c)), ist es insbesondere einQ-Vektorraum. Die Tatsache, dass Korpererweiterungen insbesondere Vektor-raume sind (die eine Dimension haben), spielt in der Algebra eine große Rolle.

Version vom 13. Juni 2019

V.2 Polynome, Ringe und K-Algebren 83

Zum Beispiel wird in der Algebra so gezeigt, dass die Anzahl der Elemente einesendlichen Korpers immer eine Primzahlpotenz ist.

Samtliche Begriffe und Resultate der ersten vier Kapitel konnenauf den allgemeinen Fall eines K-Vektorraums wortlich ubertragenwerden! (Die einzigen Ausnahmen sind wie gesagt Satz IV.4.6 und IV.4.7.Und bei komplexen Vektorraumen ware die Wahl des Buchstaben i als Summa-tionsindex zu vermeiden.)

Bei der Betrachtung der Dimension eines Vektorraums (dim(V )) ist es manch-mal sinnvoll, explizit den zugrundeliegenden Korper anzusprechen (dimK(V ));z.B. ist in Beispiel V.1.6(b) dimC(C) = 1, aber dimR(C) = 2 (da 1 und i uber Rlinear unabhangig sind), und es ist dimR(R) = 1, aber dimQ(R) =∞. (Andern-falls gabe es eine endliche Basis r1, . . . , rn von R uber Q, d.h., jede reelle Zahlware als eindeutige Linearkombination r = λ1r1 + · · · + λnrn mit rationalenKoeffizienten darstellbar; aber das wurde implizieren, dass R abzahlbar ist.)

Wenn im Weiteren von Vektorraumen die Rede ist, sind stets Vektorraumeuber einem Korper K gemeint; nur wenn es wichtig ist, um welchen Korper essich handelt, wird dies explizit erwahnt.

Bei der Ubertragung unserer bisherigen Arbeit auf abstrakteres Terrain gibtes eine heikle Stelle, namlich wenn es um Polynome geht. Dem widmen wir unsim nachsten Abschnitt.

V.2 Polynome, Ringe und K-Algebren

Wir haben bislang Polynome als Polynomfunktionen (auf R oder Teilmengenvon R) behandelt. Dabei haben wir festgestellt, dass eine Polynomfunktion aufR ihre Koeffizienten eindeutig bestimmt, vgl. Satz III.2.4. Dort wurde gezeigt,dass

Φ: R<∞ → Pol(R), Φ((ak)k≥0) =

∞∑k=0

akxk

ein Vektorraumisomorphismus ist; zur Erinnerung:

R<∞ = {(ak)k≥0: ak ∈ R, ∃N ∈ N ∀k > N ak = 0}.

Mit Hilfe der Vandermondeschen Determinante konnte man in Satz IV.3.1 se-hen, dass das auch stimmt, wenn man Pol(R) durch Pol(M) mit einer unendli-chen Menge M ersetzt. Mit diesem Argument erhalt man dasselbe Resultat wieSatz III.2.4 fur einen Korper mit unendlich vielen Elementen statt R.

Satz V.2.1 Fur einen Korper K mit unendlich vielen Elementen gilt

K<∞ ∼= Pol(K,K).

Version vom 13. Juni 2019

84 V. Etwas Algebra

Uber endlichen Korpern kann ein solches Resultat allein deshalb nicht stim-men, weil es unendlich viele Folgen in K<∞ gibt, aber nur endlich viele Abbil-dungen von K nach K.

Konkret ist fur K = Z2 die Polynomfunktion x identisch mit der Polynom-funktion x2, aber im Rahmen der Algebra mochte man, dass ein abstrakter Aus-druck wie X definitiv etwas anderes als X2 ist. Dafur gibt es mehrere Grunde:Zum Beispiel mochte man in X oder X2 (oder einen allgemeinen polynomialenAusdruck) auch andere Objekte als Zahlen oder Korperelemente einsetzen, furK = Z2 etwa die Matrix A =

(0 11 0

), fur die A2 6= A ist, obwohl als Polynom-

funktion x2 = x ist.Ein moglicher Ausweg ist, dass man definitionsgemaß ein Polynom mit der

Koeffizientenfolge (ak)k≥0 identifiziert (in dieser Sichtweise ist ein Polynom einElement von K<∞ und von einer Polynomfunktion zu unterscheiden). Im K-Vektorraum K<∞ hat man die ubliche Addition und Skalarmultiplikation, manhat aber auch eine (innere) Multiplikation gemaß

(ak) ∗ (bk) = (ck) ⇔ ck =

k∑l=0

albk−l. (V.1)

Der Hintergrund dieser Definition ist, dass beim formalen Ausmultiplizieren derpolynomialen Ausdrucke

∑akX

k und∑bkX

k genau∑ckX

k mit ck wie obenentsteht (man beachte, dass alle Summen in Wahrheit endliche Summen sind):

(∑akX

k)(∑

bkXk)

=∑

ckXk ⇔ ck =

k∑l=0

albk−l. (V.2)

In der Algebra fuhrt man daher den Begriff einer Unbestimmten X ein (dieDefinition ist leider etwas kompliziert); der Sinn dieser Konstruktion ist, dass esbeim Rechnen mit einer Unbestimmten keinerlei Vereinfachungen a la x2 = xgibt. (Im Folgenmodell der Polynome ist X einfach (0, 1, 0, 0, 0, . . . ).) Die ublicheBezeichnung fur den Vektorraum der Polynome uber einem Korper K in derAlgebra ist K[X]; die Vektorraumoperationen sind (alle Summen sind endlich)∑

akXk +

∑bkX

k =∑

(ak + bk)Xk,

λ∑

akXk =

∑(λak)Xk.

Ein Element von K[X] wird typischerweise mit P (X) oder P bezeichnet. Vonunserem Standpunkt ist das nur eine notationstechnisch intuitivere Beschrei-bung als K<∞.

Ist P =∑nk=0 akX

k ein von 0 verschiedenes Polynom mit an 6= 0, nenntman n ∈ N0 den Grad von P ; definitionsgemaß hat P = 0 den Grad −∞. Manbeachte, dass diese Definition uber endlichen Korpern nur fur Polynome undnicht fur Polynomfunktionen sinnvoll ist, da ja z.B. x = x2 uber Z2.

Version vom 13. Juni 2019

V.2 Polynome, Ringe und K-Algebren 85

Im Vergleich zu den Polynomfunktionen konnen wir Folgendes sagen. SeiP (X) =

∑nk=0 akX

k ∈ K[X]; dem konnen wir die Polynomfunktion p: K → K,p(x) =

∑nk=0 akx

k, zuordnen. Die Abbildung

Ψ: K[X]→ Pol(K,K), Ψ(P ) = p

ist linear und surjektiv, und sie ist genau dann injektiv, wenn K unendlich vieleElemente hat (siehe oben). Zu jedem λ ∈ K ist ferner die Abbildung

ψλ: K[X]→ K, ψλ(P ) = p(λ)

linear; ψλ erlautert, wie man in Polynome Zahlen (= Korperelemente) einsetzt.Ein λ ∈ K mit ψλ(P ) = 0, also p(λ) = 0, nennt man Nullstelle von P .

Im Nullstellenverhalten der Polynome erkennt man einen fundamentalen Unter-schied zwischen R und C: Wahrend zum Beispiel X2+1 uber R keine Nullstellenhat, hat jedes nichtkonstante Polynom uber C eine Nullstelle. Diese grundlegen-de Aussage ist als Fundamentalsatz der Algebra bekannt2 (vgl. Satz VII.1.6).

Ebenso konnen wir zu einer n× n-Matrix A uber K den Ausdruck

P (A) =

n∑k=0

akAk (V.3)

bilden. Diese Prozedur wollen wir nun etwas allgemeiner fassen, indem wir dieStruktur eines Rings3 definieren.

Definition V.2.2 Sei R eine Menge mit zwei inneren Verknupfungen + und ·.Es gelte:

(a) (R,+) ist eine abelsche Gruppe (mit dem neutralen Element 0).

(b) (x · y) · z = x · (y · z) fur alle x, y, z ∈ R.

(c) x · (y + z) = xy + xz, (y + z) · x = yx+ zx fur alle x, y, z ∈ R.

Dann heißt R (genauer (R,+, ·)) ein Ring. Falls zusatzlich

(d) xy = yx fur alle x, y ∈ Rgilt, heißt R ein kommutativer Ring. Falls ein Element 1 ∈ R mit

(e) 1 · x = x · 1 = x fur alle x ∈ Rexistiert, heißt R ein Ring mit Einselement.

Oben steht xy (etc.) naturlich abkurzend fur x · y.

2Ein ganzes Buch, das sich unterschiedlichen Beweisen dieses Satzes widmet, ist: G. Rosen-berger, B. Fine, The Fundamental Theorem of Algebra, Springer 1997. Einen sehr elementarenBeweis mit Methoden der Analysis findet man bei E. Behrends, Analysis 1, 6. Auflage, Sprin-ger Spektrum 2015. In diesem Skript wird in Abschnitt VII.6 ein Beweis mit Methoden derLinearen Algebra gefuhrt.

3Auch der Name Ring hat soziologischen Ursprung (vgl. Weißer Ring, RCDS, Ringvereineetc.); man sollte nicht an ein Schmuckstuck denken.

Version vom 13. Juni 2019

86 V. Etwas Algebra

Beispiele V.2.3 (a) Jeder Korper ist ein kommutativer Ring mit Einselement.Auch (Z,+, ·) ist ein kommutativer Ring mit Einselement, aber 2Z = {2n:n ∈ Z} ist ein kommutativer Ring ohne Einselement.

(b) (Vgl. Beispiel V.1.2(b) und (c)) (Zn,⊕,�) ist ein kommutativer Ringmit Einselement.

(c) Sei K ein Korper. Fur n ≥ 2 ist Kn×n mit der Matrixmultiplikation einnichtkommutativer Ring mit Einselement.

(d) SeiK ein Korper;K[X] mit der ublichen Addition und der Multiplikationaus (V.2) ist ein kommutativer Ring mit Einselement.

In Korpern gilt (warum?)

λµ = 0 ⇒ λ = 0 oder µ = 0;

man nennt das Nullteilerfreiheit. Ringe brauchen nicht nullteilerfrei zu sein; z.B.gilt 2� 3 = 0 in Z6, auch Kn×n ist fur n ≥ 2 nicht nullteilerfrei:

A =

(0 10 0

), A2 =

(0 00 0

).

Die fur die Lineare Algebra wichtigen Ringe haben eine weitere Struktur;sie sind namlich außerdem Vektorraume, wobei die Ringmultiplikation und dieVektorraumoperationen miteinander vertraglich sind. Die genauen Bedingungenerlautert die nachste Definition.

Definition V.2.4 Es seien K ein Korper und R ein Ring mit Einselement, dergleichzeitig ein K-Vektorraum ist, so dass fur λ ∈ K und A,B ∈ R

λ(AB) = (λA)B = A(λB)

erfullt ist. Dann nennt man R eine K-Algebra (mit Einheit).

Beispiele fur K-Algebren sind K[X], Kn×n und L (V ), wenn V ein K-Vektorraum ist.

SeienR eineK-Algebra undA ∈ R. Zu einem Polynom P (X) =∑nk=0 akX

k ∈K[X] konnen wir das Element

P (A) =

n∑k=0

akAk ∈ R

assoziieren, wo A0 fur das Einselement von R steht. Diese Einsetzungsabbildungerfullt (nachrechnen!)

(λP )(A) = λP (A),

(P +Q)(A) = P (A) +Q(A),

(P ·Q)(A) = P (A)Q(A);

Version vom 13. Juni 2019

V.3 Quotientenvektorraume 87

d.h. P 7→ P (A) ist ein sogenannter Algebrenhomomorphismus (oder linearerRinghomomorphismus); sein Bild ist eine kommutative Unteralgebra von R.Das Matrixpolynom in (V.3) ist ein Spezialfall dieser Situation.

In Abschnitt IV.4 haben wir das charakteristische Polynom χA einer Matrixuber R kennengelernt, und zwar als Polynomfunktion. Ist K ein Korper mit un-endlich vielen Elementen, kann man analog wegen Satz V.2.1 χA als Polynomoder Polynomfunktion ansehen; fur endliche Korper ist hier aber zu unterschei-den.

Formal ist χA(X) als Determinante

χA(X) =

∣∣∣∣∣∣∣∣∣a11 −X a12 . . . a1n

a21 a12 −X . . . a2n

......

...an1 an2 . . . ann −X

∣∣∣∣∣∣∣∣∣ (V.4)

definiert; im Fall einer Unbestimmten X (statt eines Korperelements) stehenauf der Hauptdiagonalen aber gar keine Korperelemente, sondern Polynome,und fur solche Objekte ist unsere Determinantentheorie gar nicht ausgelegt! Esgibt mehrere Auswege: (1) Man definiert diese Determinante gemaß der Leib-nizdarstellung (IV.3) mit ε(π) = det(Pπ), der Determinante der entsprechendenPermutationsmatrix. In jedem Summanden kommen nur Produkte von Poly-nomen, also Polynome vor; so erhalt man als Determinante det(A −XEn) einPolynom. (2) Man entwickelt eine Determinantentheorie fur kommutative Ringestatt Korper, analog zum ersten Vorschlag. (3) Man kann den Ring der Poly-nome K[X] zum Korper K(X) der

”rationalen Funktionen“ (das sind formale

Quotienten P (X)/Q(X) von Polynomen und im Allgemeinen keine Funktionen)erweitern und dann unsere Determinantentheorie in diesem Korper anwenden.Bei jedem dieser Zugange erhalt man χA(X) ∈ K[X] als wohldefiniertes Poly-nom.

Bei diesem erweiterten Determinantenbegriff gilt der Multiplikationssatz wiein Satz IV.2.4; in Korollar IV.2.5 muss man jedoch statt

”det(A) 6= 0“ als

Voraussetzung”det(A) ist invertierbar“ lesen.

Das charakteristische Polynom wird in Kapitel VII eine bedeutende Rollespielen. Hier eine kurze Vorschau: Genau wie in Satz IV.4.2 sind die Nullstellendieses Polynoms, also die Korperelemente mit χA(λ) = 0, die Eigenwerte von A.Wie wir bereits an einem Beispiel gesehen haben, braucht eine reelle Matrixkeine Eigenwerte zu besitzen; nach dem Fundamentalsatz der Algebra gibt esaber immer Eigenwerte in C.

V.3 Quotientenvektorraume

Wir beginnen mit einem Exkurs uber Aquivalenzrelationen. Eine Relation ∼auf einer Menge X ist formal nichts anderes als eine Teilmenge von X × X,

Version vom 13. Juni 2019

88 V. Etwas Algebra

allerdings ist die Schreibweise”x ∼ y“ fur

”x steht in Relation zu y“ intuitiver

als”(x, y) ∈ ∼“. Als Kompromiss schreiben wir

R∼ = {(x, y) ∈ X ×X: x ∼ y}.

Zum Beispiel ist fur die Relation”Gleichheit“

R= = {(x, y) ∈ X ×X: x = y} = {(x, x): x ∈ X},

die”Diagonale“ in X × X. Aquivalenzrelationen schwachen den Begriff der

Gleichheit ab und verlangen nur, dass Elemente in gewissen Aspekten uber-einstimmen (siehe die folgenden Beispiele). Hier ist die formale Definition.

Definition V.3.1 Eine Relation∼ auf einer MengeX heißt Aquivalenzrelation,wenn folgende Bedingungen erfullt sind:

(a) x ∼ x fur alle x ∈ X (Reflexivitat),

(b) x ∼ y ⇒ y ∼ x (Symmetrie),

(c) x ∼ y, y ∼ z ⇒ x ∼ z (Transitivitat).

Diese Eigenschaften haben wir schon bei der Isomorphie von Vektorraumenkennengelernt.

Beispiele V.3.2 (a) Die Gleichheit ist auf jeder Menge eine Aquivalenzrelati-on. Die Relation

”x ∼ y, wenn x ≥ y“ ist keine Aquivalenzrelation auf R, da die

Symmetrie verletzt ist.(b) Sei n ∈ N. Fur x, y ∈ Z gelte x ∼ y, wenn n die Differenz y − x teilt.

Dies ist eine Aquivalenzrelation.(c) Betrachte die Ebene R2 und eine Gerade g ⊂ R2. Fur x, y ∈ R2 gel-

te x ∼ y, wenn x und y auf einer zu g parallelen Geraden liegen. Auch diesist eine Aquivalenzrelation, wenn man das Parallelenpostulat der euklidischenGeometrie voraussetzt.

(d) Sei V ein K-Vektorraum und U ⊂ V ein Unterraum. Fur v, v′ ∈ Vgelte v′ ∼ v, wenn v′ − v ∈ U . Dies ist eine Aquivalenzrelation, wie man sofortnachrechnet. Das Beispiel (c) ist der Spezialfall K = R, V = R2, dim(U) = 1.

Mit einer Aquivalenzrelation einher geht eine Zerlegung der Grundmenge inAquivalenzklassen.

Definition V.3.3 Sei ∼ eine Aquivalenzrelation auf X. Die Aquivalenzklassevon x ∈ X ist

[x] = {y ∈ X: y ∼ x}.

Jedes Element einer Aquivalenzklasse Z wird ein Reprasentant von Z genannt.

Das folgende Lemma ist grundlegend.

Version vom 13. Juni 2019

V.3 Quotientenvektorraume 89

Lemma V.3.4 Sei ∼ eine Aquivalenzrelation auf X. Zwei Aquivalenzklassensind entweder disjunkt oder identisch.

Beweis. Seien [x1] und [x2] zwei nicht disjunkte Aquivalenzklassen; wir werden[x1] = [x2] zeigen. Wahle z ∈ [x1] ∩ [x2], d.h. z ∼ x1 und z ∼ x2; wegen derSymmetrie und Transitivitat von ∼ folgt dann x1 ∼ x2. Nun sei y ∈ [x1], d.h.y ∼ x1; wegen x1 ∼ x2 erhalt man y ∼ x2, d.h. y ∈ [x2]. Analog zeigt man fury ∈ [x2], dass auch y ∈ [x1] (tun Sie’s!). Das beweist [x1] = [x2]. 2

Das Lemma garantiert, dass man wirklich eine Zerlegung von X in disjunkteTeilmengen erhalt. Wir wollen die Aquivalenzklassen in den obigen Beispielenbestimmen.

Beispiele V.3.5 (a) (Vgl. Beispiel V.3.2(a)) Hier ist [x] = {x}.(b) (Vgl. Beispiel V.3.2(b)) Hier besteht [x] aus all denjenigen ganzen Zahlen,

die bei der Division durch n denselben Rest wie x lassen. Also ist {0, . . . , n−1} =Zn ein vollstandiges System von Reprasentanten der Aquivalenzklassen dieserAquivalenzrelation.

(c) (Vgl. Beispiel V.3.2(c)) Hier ist [x] diejenige zu g parallele Gerade, aufder x liegt.

(d) (Vgl. Beispiel V.3.2(d)) Dies ist in dieser Allgemeinheit schwierig zuvisualisieren; versuchen Sie sich an V = R3, dim(U) = 2. Man schreibt fur dieseAquivalenzrelation die Aquivalenzklasse [v] auch als v + U :

v + U := {v′ ∈ V : v′ − v ∈ U} = {v + u: u ∈ U}

Im Rest dieses Abschnitts werden wir das letzte Beispiel intensiv studie-ren; insbesondere werden wir uberlegen, wie man mit diesen Aquivalenzklassenrechnet. Damit beginnen wir jetzt.

Sei also V ein K-Vektorraum, U ⊂ V ein Unterraum. Wir wollen die Summezweier Aquivalenzklassen v1 + U und v2 + U definieren. Die folgende Idee siehtvielversprechend aus:

(v1 + U) + (v2 + U) := (v1 + v2) + U (V.5)

Das Problem hierbei ist, dass wir die Summenbildung von Klassen mit Hilfe derSummenbildung von Reprasentanten durchgefuhrt haben, und andere Wahlenvon Reprasentanten konnten zu einem anderen Resultat fuhren. Wir mussendaher Folgendes wissen, um die Wohldefiniertheit in (V.5) zu garantieren:

v1 + U = v′1 + U, v2 + U = v′2 + U ⇒ (v1 + v2) + U = (v′1 + v′2) + U (V.6)

Es seien also v1 und v′1 (bzw. v2 und v′2) Reprasentanten derselben Aquiva-lenzklasse, d.h. sie sind aquivalent: v1− v′1 ∈ U , v2− v′2 ∈ U . Deshalb existierenu1, u2 ∈ U mit v1 = v′1 + u1, v2 = v′2 + u2. Sei jetzt w ∈ (v1 + v2) + U ,

Version vom 13. Juni 2019

90 V. Etwas Algebra

also ist w = v1 + v2 + u fur ein geeignetes u ∈ U . Damit ist ebenfalls w =v′1 +v′2 +u1 +u2 +u = v′1 +v′2 +u′, wo u′ = u1 +u2 +u ∈ U (denn U ist ein Un-terraum). Das zeigt w ∈ (v′1+v′2)+U und damit (v1+v2)+U ⊂ (v′1+v′2)+U . Dieumgekehrte Inklusion kann man genauso zeigen (tun Sie’s!), oder man wendetLemma V.3.4 an. Somit ist (V.6) bewiesen, und die Addition (V.5) ist wohlde-finiert.

Genauso kann man die skalare Multiplikation einfuhren:

λ · (v + U) := λv + U (V.7)

Die Wohldefiniertheit ergibt sich aus

v + U = v′ + U, λ ∈ K ⇒ λv + U = λv′ + U (V.8)

In der Tat: Wenn v − v′ ∈ U ist, ist auch λv − λv′ = λ(v − v′) ∈ U (denn U istein Unterraum), woraus sich (V.8) ergibt.

Veranschaulichen Sie sich diese Operationen am Beispiel V = R2, dim(U) = 1!

Definition V.3.6 Sei V ein K-Vektorraum, und sei U ⊂ V ein Unterraum. Wirbezeichnen die Menge aller Aquivalenzklassen v+U mit V/U und versehen V/Umit der in (V.5) bzw. (V.7) eingefuhrten Addition bzw. Skalarmultiplikation.

Satz V.3.7 Seien V und U wie in Definition V.3.6. Dann ist (V/U,+, ·) einK-Vektorraum.

Beweis. Samtliche Forderungen aus Definition V.1.5 sind leicht auf die entspre-chenden Aussagen uber die Reprasentanten zuruckzufuhren; zum Beispiel ist Udas neutrale Element fur die Addition in V/U , das additiv Inverse zu v + U ist(−v)+U (da v+(−v) = 0 ist), und um etwa das 1. Distributivgesetz einzusehen,schreibe man

λ · ((v + U) + (w + U)) = λ · ((v + w) + U)

= λ(v + w) + U

= (λv + λw) + U

= (λv + U) + (λw + U)

= λ · (v + U) + λ · (w + U).

Alle ubrigen Rechnungen sind ganz ahnlich (fuhren Sie sie aus!). 2

Wir nennen V/U den Quotientenvektorraum von V nach U . Sie sollten imGedachtnis behalten, dass die Hauptschwierigkeit bei der Einfuhrung von V/Udie Wohldefiniertheit (d.h. der Nachweis der Unabhangigkeit von den Reprasen-tanten) der Addition und Skalarmultiplikation war.

Quotientenvektorraume sind interessante Hilfsmittel in der Operatortheo-rie, also der Theorie der linearen Abbildungen. Ein wichtiges Resultat ist derHomomorphiesatz der Linearen Algebra4.

4In der Gruppen- und Ringtheorie gibt es ebenfalls einen Homomorphiesatz.

Version vom 13. Juni 2019

V.3 Quotientenvektorraume 91

Satz V.3.8 (Homomorphiesatz)Seien V und W K-Vektorraume und L: V →W linear. Dann gilt

V/kerL ∼= ranL.

Beweis. Wir zeigen, dass

Φ: V/kerL→ ranL, Φ(v + kerL) = L(v)

ein wohldefinierter Isomorphismus ist.Zur Wohldefiniertheit muss man zeigen:

v1 + kerL = v2 + kerL ⇒ L(v1) = L(v2).

Das stimmt, da die Voraussetzung v1−v2 ∈ kerL impliziert, also L(v1−v2) = 0.Da L linear ist, erhalt man L(v1) = L(v2).

Dass Φ linear ist, ist leicht nachzurechnen:

Φ((v1 + kerL) + (v2 + kerL)) = Φ((v1 + v2) + kerL)

= L(v1 + v2) = L(v1) + L(v2)

= Φ(v1 + kerL) + Φ(v2 + kerL)

bzw.

Φ(λ(v + kerL)) = Φ((λv) + kerL)

= L(λv) = λL(v) = λΦ(v + kerL)

Die Injektivitat ergibt sich so. Gelte Φ(v + kerL) = 0; dann ist L(v) = 0,also v ∈ kerL, so dass v+ kerL = kerL die Nullklasse ist. Die Surjektivitat giltnach Konstruktion von Φ. 2

Korollar V.3.9 Jede lineare Abbildung L: V →W faktorisiert gemaß

L: VQ−→ V/kerL

Φ−→ ranLj−→W,

wobei Q die kanonische lineare (!) Surjektion v 7→ v+ kerL, Φ der Isomorphis-mus aus dem Homomorphiesatz und j die identische Injektion w 7→ w von ranLnach W ist.

Beweis. Das ist nur eine Umschreibung der Definition von Φ aus dem letztenBeweis. 2

Korollar V.3.10 Ist V endlichdimensional, so ist

dimV/U = dimV − dimU.

Version vom 13. Juni 2019

92 V. Etwas Algebra

Beweis. Setze Q: V → V/U , Q(v) = v + U ; das ist eine surjektive lineareAbbildung mit kerQ = U , und nach dem Homomorphiesatz ist V/U ∼= ranQ.Wegen Satz III.1.8 ist dimV = dim(kerQ) + dim(ranQ) = dimU + dimV/U ;das war zu zeigen. 2

Auch fur unendlichdimensionale V kann es vorkommen, dass V/U endlich-dimensional ist; Beispiel: V = Abb(R), U = {f ∈ V : f(0) = f(1) = 0}, dann istfur

L: V → R2, L(f) =

(f(0)f(1)

)U = kerL sowie R2 = ranL, also nach dem Homomorphiesatz dimV/U =dimR2 = 2. Man nennt dimV/U die Kodimension von U in V .

Korollar V.3.11 Gelte V = U ⊕U ′. Dann ist V/U ∼= U ′. Insbesondere sind jezwei Komplementarraume zu U isomorph.

Beweis. Zum Begriff der direkten Summe siehe Satz II.4.4. Wegen dieses Satzesist die Abbildung

L: V = U ⊕ U ′ → U ′, v = u+ u′ 7→ u′

wohldefiniert und linear. Ihr Kern ist U , und ihr Bild ist U ′. Die Behauptungfolgt daher aus dem Homomorphiesatz. 2

Version vom 13. Juni 2019

Kapitel VI

Innenproduktraume

VI.1 Skalarprodukte

Wir kehren zum klassischen Fall der R- und C-Vektorraume zuruck; um bei-de Falle simultan zu behandeln, ist es manchmal praktisch, das Symbol K zuverwenden, das wahlweise fur R oder C steht: K ∈ {R,C}.

Wir wollen innere Produkte in K-Vektorraumen einfuhren; dies wird esu.a. ermoglichen zu sagen, dass zwei Vektoren senkrecht aufeinander stehen.Zunachst benotigen wir eine Vorbemerkung uber komplexe Zahlen. Fur z =a+ ib mit a, b ∈ R nennt man

|z| =√a2 + b2 =

√zz

den Betrag von z. Der Betrag hat folgende Eigenschaften (z, w ∈ C beliebig):

(a) |z| ≥ 0 und |z| = 0 genau dann, wenn z = 0.

(b) |z| = |z|, |Re z| ≤ |z|, |Im z| ≤ |z|(c) |zw| = |z| |w|(d) |z + w| ≤ |z|+ |w|

Beweis hierfur: (a) und (b) sind klar, (c) folgt aus

|zw|2 = (zw)(zw) = zwzw = |z|2|w|2

und (d) aus

|z + w|2 = (z + w)(z + w) = |z|2 + zw + wz + |w|2

= |z|2 + 2 Re zw + |w|2

≤ |z|2 + 2|zw|+ |w|2

= |z|2 + 2|z||w|+ |w|2 = (|z|+ |w|)2.

Version vom 13. Juni 2019

94 VI. Innenproduktraume

Definition VI.1.1 Sei V ein K-Vektorraum. Eine Abbildung V ×V 3 (v, w) 7→〈v, w〉 ∈ K heißt inneres Produkt oder Skalarprodukt, wenn folgende Bedingun-gen erfullt sind.

(a) Fur jedes w ∈ V ist v 7→ 〈v, w〉 linear.(b) Fur v, w ∈ V ist 〈v, w〉 = 〈w, v〉.(c) Fur v ∈ V ist 〈v, v〉 eine reelle Zahl, es ist 〈v, v〉 ≥ 0, und es gilt〈v, v〉 = 0 genau dann, wenn v = 0 ist.

Ein mit einem Skalarprodukt versehener K-Vektorraum wird Innenproduktraumgenannt.

Einige Bemerkungen hierzu:(1) Im Fall K = R lautet (b) einfach 〈v, w〉 = 〈w, v〉.(2) Wegen (a) und (b) ist im reellen Fall auch w 7→ 〈v, w〉 fur jedes v ∈

V linear; 〈 . , . 〉 ist eine Bilinearform. (Multilinearformen wurden inDefinition IV.1.1 definiert.)

(3) Im Fall K = C ist w 7→ 〈v, w〉 zwar additiv (〈v, (w1 + w2)〉 = 〈v, w1〉+〈v, w2〉), aber nicht linear; in der Tat ist es antilinear :

〈v, λw〉 = 〈λw, v〉 = λ 〈w, v〉 = λ〈v, w〉.

Man nennt 〈 . , . 〉 eine Sesquilinearform (sesqui = 1 12 ).

(4) Auch im Fall K = C ist stets 〈v, v〉 ∈ R, obwohl 〈v, w〉 im Allgemeinennicht reell ist.

(5) Ein Innenproduktraum uber dem Korper R wird auch euklidischer Vek-torraum und ein Innenproduktraum uber dem Korper C wird auchunitarer Vektorraum genannt. In beiden Fallen spricht man auch voneinem Prahilbertraum.

(6) Man unterscheide die Begriffe Skalarprodukt (also 〈v, w〉) und skalaresProdukt (also λ · v)!

Beispiele VI.1.2 (a) Das euklidische Skalarprodukt des Rn ist durch

〈v, w〉e =

n∑k=1

vkwk (v = (vk), w = (wk))

und das euklidische Skalarprodukt des Cn ist durch

〈v, w〉e =

n∑k=1

vkwk (v = (vk), w = (wk))

erklart.(b) Sei A ∈ Rn×n mit akl = alk fur alle k, l = 1, . . . , n, also A = At (

”A ist

symmetrisch“). Setze

〈v, w〉 = 〈v,Aw〉e =

n∑k=1

n∑l=1

vkaklwl.

Version vom 13. Juni 2019

VI.1 Skalarprodukte 95

Diese Form erfullt die Bedingungen (a) und (b) eines Skalarprodukts, und (c)ist erfullt, wenn zusatzlich

〈v,Av〉 > 0 fur alle 0 6= v ∈ Rn

erfullt ist. Solch eine Matrix heißt positiv definit. Wir weden sehen, dass dieseEigenschaft durch die Eigenwerte der symmetrischen Matrix A charakterisiertwerden kann: Sie mussen alle > 0 sein (Satz VIII.3.2).

(c) Sei V = Pol([a, b],R) (oder C([a, b],R)) und

〈f, g〉 =

∫ b

a

f(t)g(t) dt.

Aus den Satzen der Integrationstheorie folgt, dass es sich um ein Skalarprodukthandelt. Wer sich traut, komplexwertige Funktionen zu integrieren, erhalt mitdem Ansatz

〈f, g〉 =

∫ b

a

f(t)g(t) dt

ein Skalarprodukt auf V = Pol([a, b],C) (bzw. C([a, b],C)).

In einem Innenproduktraum kann man Orthogonalitat erklaren.

Definition VI.1.3 Sei V ein Innenproduktraum1. Zwei Elemente v, w ∈ Vheißen orthogonal, wenn 〈v, w〉 = 0 ist. Das orthogonale Komplement einer Teil-menge A ⊂ V ist

A⊥ = {v ∈ V : 〈v, w〉 = 0 fur alle w ∈ A}.

Man rechnet sofort folgendes Lemma nach.

Lemma VI.1.4 Sei V ein Innenproduktraum.

(a) A⊥ ist stets ein Unterraum von V , und es gilt stets A⊥ = (linA)⊥.Außerdem ist A⊥1 ⊂ A⊥2 fur A2 ⊂ A1.

(b) Ist U ein Unterraum von V , so gilt U ∩ U⊥ = {0}.

Um (b) einzusehen, betrachte man u ∈ U ∩ U⊥; definitionsgemaß gilt dann〈u, u〉 = 0, also u = 0.

Des Weiteren eroffnet ein Innenproduktraum die Moglichkeit, die”Lange“

eines Vektors zu definieren. Dazu fuhren wir den Begriff der Norm ein.

Definition VI.1.5 Sei V ein K-Vektorraum. Eine Funktion N : V → R heißteine Norm, wenn folgende Bedingungen erfullt sind.

(a) N(v) ≥ 0 fur alle v ∈ V und N(v) = 0 genau dann, wenn v = 0 ist.

(b) N(λv) = |λ|N(v) fur alle λ ∈ K, v ∈ V .

1Das zugehorige Skalarprodukt wird stets mit 〈 . , . 〉 bezeichnet.

Version vom 13. Juni 2019

96 VI. Innenproduktraume

(c) N(v + w) ≤ N(v) +N(w) fur alle v, w ∈ V .

Die letzte Ungleichung wird auch Dreiecksungleichung genannt; siehe Tafelbild.

Definition VI.1.6 In einem Innenproduktraum setzen wir

‖v‖ = 〈v, v〉1/2.

Satz VI.1.7 Sei V ein Innenproduktraum.

(a) (Cauchy-Schwarzsche Ungleichung)Fur v, w ∈ V gilt

|〈v, w〉| ≤ ‖v‖ ‖w‖.(b) v 7→ ‖v‖ definiert eine Norm auf V .

Beweis. (a) Die Ungleichung ist richtig, wenn w = 0 ist; daher setzen wir jetztw 6= 0 (und deshalb ‖w‖ 6= 0) voraus. Durch geschickte Wahl von λ ∈ K werdenwir die Ungleichung 〈v+λw, v+λw〉 ≥ 0 in die Cauchy-Schwarzsche Ungleichunguberfuhren. Man rechnet fur ein einstweilen beliebiges λ ∈ K (fur K = R kannman sich die Konjugiert-Striche sparen)

0 ≤ 〈v + λw, v + λw〉= 〈v, v〉+ 〈v, λw〉+ 〈λw, v〉+ 〈λw, λw〉= 〈v, v〉+ λ〈v, w〉+ λ〈v, w〉+ |λ|2〈w,w〉.

Speziell setzen wir jetzt λ = − 〈v,w〉‖w‖2 und erhalten

0 ≤ ‖v‖2 − |〈v, w〉|2

‖w‖2− |〈v, w〉|

2

‖w‖2+|〈v, w〉|2

‖w‖4‖w‖2 = ‖v‖2 − |〈v, w〉|

2

‖w‖2.

Umstellen liefert |〈v, w〉| ≤ ‖v‖ ‖w‖.(b) Die ersten beiden Eigenschaften einer Norm folgen durch Einsetzen aus

den entsprechenden Eigenschaften eines Skalarprodukts. Zum Beweis der Drei-ecksungleichung schatzen wir ab

‖v + w‖2 = 〈v + w, v + w〉= ‖v‖2 + 〈v, w〉+ 〈w, v〉+ ‖w‖2

= ‖v‖2 + 2 Re〈v, w〉+ ‖w‖2

≤ ‖v‖2 + 2|〈v, w〉|+ ‖w‖2

≤ ‖v‖2 + 2‖v‖ ‖w‖+ ‖w‖2 = (‖v‖+ ‖w‖)2,

wobei bei der letzten Ungleichung die Cauchy-Schwarzsche Ungleichung einging.2

Die letzte Rechnung zeigt fur orthogonale v und w

‖v + w‖2 = ‖v‖2 + ‖w‖2,

Version vom 13. Juni 2019

VI.2 Orthonormalbasen 97

also die abstrakte Form des Satzes von Pythagoras. Per Induktion ergibt sichsofort die allgemeinere Version

‖v1 + · · ·+ vr‖2 = ‖v1‖2 + · · ·+ ‖vr‖2 (VI.1)

fur paarweise orthogonale vj .Eine andere wichtige Konsequenz ist die Parallelogrammgleichung

‖v + w‖2 + ‖v − w‖2 = 2‖v‖2 + 2‖w‖2, (VI.2)

die man sofort nachrechnet. Ihr Name leitet sich vom Spezialfall des R2 mit dereuklidischen Norm her, wo die linke Seite die Summe der Quadrate uber denDiagonalen eines Parallelogramms und die rechte Seite die Summe der Quadrateuber seinen vier Seiten darstellt.

VI.2 Orthonormalbasen

Die Moglichkeit, in Innenproduktraumen orthogonale Elemente auszuzeichnen,ebnet den Weg zu speziellen Basen eines endlichdimensionalen Innenprodukt-raums.

Definition VI.2.1 Sei V ein Innenproduktraum. Die Vektoren f1, . . . , fn bil-den ein Orthonormalsystem, wenn

〈fi, fj〉 = δij :=

{1 fur i = j,0 fur i 6= j.

Ein Orthonormalsystem, das eine Basis ist, heißt Orthonormalbasis.

Man beachte, dass wir diese Definition nur fur endliche Systeme gefassthaben; fur unendliche Systeme ist die Funktionalanalysis zustandig (eine Ortho-normalbasis ist dort als maximales Orthonormalsystem erklart).

Beispiele VI.2.2 (a) Die Einheitsvektoren bilden eine Orthonormalbasis bzgl.des euklidischen Skalarprodukts des Kn.

(b) Sei V = C[0, 2π] der Vektorraum der stetigen Funktionen auf dem Inter-vall [0, 2π], versehen mit dem Skalarprodukt aus Beispiel VI.1.2(c). Es ist eineklassische Ubungsaufgabe der Analysis, mit partieller Integration zu zeigen, dassdas folgende Funktionensystem f0, f1, . . . , fn, g1, . . . , gn ein Orthonormalsystemist:

f0(t) =1√2π, fk(t) =

1√π

cos(kt), gk(t) =1√π

sin(kt) (k = 1, . . . , n).

(c) Ein wichtiges Problem in Kapitel VIII wird sein, zu entscheiden, ob eszu einer linearen Abbildung L: V → V auf einem endlichdimensionalen Innen-produktraum eine Orthonormalbasis aus Eigenvektoren von L gibt.

Version vom 13. Juni 2019

98 VI. Innenproduktraume

Lemma VI.2.3 Jedes Orthonormalsystem ist linear unabhangig.

Beweis. Bilden f1, . . . , fn ein Orthonormalsystem und gilt λ1f1 +· · ·+λnfn = 0,so gilt auch 〈λ1f1 + · · ·+ λnfn, fj〉 = 0 fur jedes j. Wegen der Orthonormalitatist dieses Skalarprodukt jedoch λ1〈f1, fj〉 + · · · + λn〈fn, fj〉 = λj〈fj , fj〉 = λj .Deshalb sind f1, . . . , fn linear unabhangig. 2

Umgekehrt kann man linear unabhangige Vektoren immer”orthonormieren“,

wie jetzt erklart wird.

Satz VI.2.4 (Gram-Schmidt-Verfahren)Sei V ein Innenproduktraum, und seien v1, . . . , vn linear unabhangig. Dann exi-stiert ein Orthonormalsystem f1, . . . , fn mit lin{v1, . . . , vk} = lin{f1, . . . , fk}fur k = 1, . . . , n.

Beweis. Wir konstruieren die fj induktiv. Da v1 6= 0 ist (wegen der linearenUnabhangigkeit), konnen wir f1 = v1/‖v1‖ definieren. Dann ist {f1} ein Ortho-normalsystem mit lin{v1} = lin{f1}.

Nehmen wir an, dass wir bereits ein Orthonormalsystem f1, . . . , fk mit

lin{v1, . . . , vk} = lin{f1, . . . , fk}

konstruiert haben (k < n); wir setzen

gk+1 = vk+1 −k∑j=1

〈vk+1, fj〉fj . (VI.3)

Dann steht gk+1 senkrecht auf {f1, . . . , fk}:

〈gk+1, fl〉 = 〈vk+1, fl〉 −k∑j=1

〈vk+1, fj〉〈fj , fl〉

= 〈vk+1, fl〉 − 〈vk+1, fl〉 = 0.

Ferner istgk+1 ∈ lin{vk+1, f1, . . . , fk} = lin{vk+1, v1, . . . , vk}

und gk+1 6= 0, da sonst

vk+1 =

k∑j=1

〈vk+1, fj〉fj ∈ lin{f1, . . . , fk} = lin{v1, . . . , vk},

was der linearen Unabhangigkeit der vj widerspricht.Daher konnen wir fk+1 = gk+1/‖gk+1‖ definieren, und es ist (siehe oben)

lin{f1, . . . , fk+1} ⊂ lin{v1, . . . , vk+1}.

Version vom 13. Juni 2019

VI.2 Orthonormalbasen 99

Umgekehrt ist konstruktionsgemaß vk+1 ∈ lin{f1, . . . , fk+1} und deshalb

lin{v1, . . . , vk+1} ⊂ lin{f1, . . . , fk+1}.

Damit ist alles gezeigt. 2

Manchmal ist es praktisch, die induktive Konstruktion in (VI.3) mit Hilfeder gj zu formulieren; dann lautet diese Formel

gk+1 = vk+1 −k∑j=1

〈vk+1, gj〉〈gj , gj〉

gj .

Beispiel VI.2.5 In C3 mit dem euklidischen Skalarprodukt betrachten wir dieVektoren

v1 =

1ii

, v2 =

10−i

, v3 =

101

,

auf die das Gram-Schmidt-Verfahren angewandt werden soll. Es ist ‖v1‖ =√

3,also

f1 =1√3

1ii

.

Dann berechnet man g2 = v2 − 〈v2, f1〉f1 = v2 und ‖g2‖ =√

2, also

f2 =1√2

10−i

.

Schließlich ist

g3 = v3 − 〈v3, f1〉f1 − 〈v3, f2〉f2 = v3 −1√3

(1− i)f1 −1√2

(1 + i)f2,

so dass nach kurzer Rechnung

g3 =1

6

1− i−2− 2i

1 + i

, ‖g3‖ =1√3,

also

f3 =1

2√

3

1− i−2− 2i

1 + i

.

Version vom 13. Juni 2019

100 VI. Innenproduktraume

Korollar VI.2.6 Jeder endlichdimensionale Innenproduktraum besitzt eine Or-thonormalbasis.

Beweis. Wenn man auf eine geordnete Basis das Gram-Schmidt-Verfahren an-wendet, erhalt man ein Orthonormalsystem mit derselben linearen Hulle, also(Lemma VI.2.3) eine Orthonormalbasis. 2

In der Funktionalanalysis studiert man Orthonormalbasen unendlichdimen-sionaler Innenproduktraume (vgl. die auf Definition VI.2.1 folgende Bemer-kung); es ist dann nicht mehr richtig, dass jeder unendlichdimensionale Innen-produktraum eine Orthonormalbasis besitzt.

Sei f1, . . . , fn eine Orthonormalbasis des Innenproduktraums V ; jedes v ∈ Vhat eine eindeutige Darstellung v = λ1f1 + · · ·+ λnfn. Wir wollen die Koeffizi-enten λj berechnen. Es ist

〈v, fj〉 = 〈λ1f1 + · · ·+ λnfn, fj〉= λ1〈f1, fj〉+ · · ·+ λn〈fn, fj〉 = λj ,

da die fl orthonormal sind. Damit ist der folgende Satz gezeigt; der Zusatz folgtaus dem Satz von Pythagoras, siehe (VI.1) auf Seite 97.

Satz VI.2.7 Ist V ein Innenproduktraum mit Orthonormalbasis f1, . . . , fn, sogilt fur v ∈ V

v =

n∑j=1

〈v, fj〉fj .

Ferner ist

‖v‖2 =

n∑j=1

|〈v, fj〉|2.

In Abschnitt III.3 haben wir die Matrix MBA = (mlj) des Basiswechsels von

einer geordneten Basis A zu einer anderen geordneten Basis B studiert; wirwollen jetzt speziell die Situation von Orthonormalbasen A = (f1, . . . , fn) undB = (g1, . . . , gn) ansehen. Aus Satz III.3.8 wissen wir, dass fj =

∑nl=1mljgl

gilt, und Satz VI.2.7 impliziert mlj = 〈fj , gl〉. Daraus werden wir folgendenSatz schließen.

Satz VI.2.8 Sind A = (f1, . . . , fn) und B = (g1, . . . , gn) Orthonormalbasendes Innenproduktraums V , so bilden sowohl die Spalten als auch die Zeilen derMatrix MB

A des Basiswechsels eine Orthonormalbasis von Kn.

Beweis. Die Matrix MBA habe die Spalten s1, . . . , sn. Dann ist

〈sj , sk〉e =

n∑l=1

mljmlk =

n∑l=1

〈fj , gl〉〈fk, gl〉

=

n∑l=1

〈fj , gl〉〈gl, fk〉 =⟨ n∑l=1

〈fj , gl〉gl, fk⟩

= 〈fj , fk〉.

Version vom 13. Juni 2019

VI.2 Orthonormalbasen 101

Das war zu zeigen.Die Aussage uber die Zeilen ergibt sich, wenn man mjl = mlj beachtet. 2

Eine Matrix mit den in Satz VI.2.8 ausgesprochenen Eigenschaften wirdorthogonale Matrix (K = R) bzw. unitare Matrix (K = C) genannt; wir werdensolchen Matrizen in Abschnitt VI.3 wieder begegnen.

Es folgt einer der wichtigsten Satze uber Innenproduktraume, der Projekti-onssatz.

Satz VI.2.9 Ist U ein endlichdimensionaler Unterraum eines Innenprodukt-raums V , so gilt

V = U ⊕ U⊥.

Beweis. Wir beginnen mit einer allgemeinen Voruberlegung (die Sie bereits alsUbungsaufgabe gemacht haben). Eine lineare Abbildung P : V → V auf einemVektorraum heißt Projektion, wenn P 2 = P gilt; in diesem Fall ist V = ran(P )⊕ker(P ). [Schreibe namlich einen Vektor v ∈ V als v = P (v)+(v−P (v)); dann istP (v) ∈ ran(P ) (klar) und v−P (v) ∈ ker(P ), da ja P (v−P (v)) = P (v)−P 2(v) =P (v) − P (v) = 0 ist. Das zeigt die Summendarstellung. Die Summe ist direkt,da aus w ∈ ran(P ) ∩ ker(P ) die Existenz eines v ∈ V mit w = P (v) und0 = P (w) = P 2(v) = P (v) folgt, so dass w = 0 sein muss.]

Sei jetzt f1, . . . , fn eine Orthonormalbasis von U (Korollar VI.2.6). Wir de-finieren

PU : V → V, PU (v) =

n∑j=1

〈v, fj〉fj .

Dann ist PU linear mit P 2U = PU , denn

PU (PU (v)) =

n∑j=1

〈PU (v), fj〉fj =

n∑j=1

⟨ n∑k=1

〈v, fk〉fk, fj⟩fj

=

n∑j=1

n∑k=1

〈v, fk〉〈fk, fj〉fj =

n∑k=1

〈v, fk〉n∑j=1

〈fk, fj〉fj

=

n∑k=1

〈v, fk〉fk = PU (v).

Aus der Voruberlegung folgt somit

V = ran(PU )⊕ ker(PU ).

Es bleibt daher, ran(PU ) = U und ker(PU ) = U⊥ zu zeigen. Hier istran(PU ) ⊂ U klar, und nach Satz VI.2.7 ist PU (u) = u fur u ∈ U ; also giltGleichheit. Weiterhin liefert PU (v) = 0, dass fur jedes k

0 = 〈PU (v), fk〉 =

n∑j=1

〈v, fj〉〈fj , fk〉 =⟨v,

n∑j=1

〈fj , fk〉fj⟩

= 〈v, fk〉

Version vom 13. Juni 2019

102 VI. Innenproduktraume

und daher v ∈ {f1, . . . , fn}⊥ = U⊥ (Lemma VI.1.4(a)) gilt. Das zeigt ker(PU ) ⊂U⊥. Die Umkehrung ist klar: Fur v ∈ U⊥ ist stets 〈v, fj〉 = 0 und deshalbPU (v) = 0.

Damit ist alles gezeigt. 2

Die im Beweis konstruierte Abbildung PU heißt die Orthogonalprojektionvon V auf U ; fur PU sind Bild und Kern orthogonal. Wegen seiner Bedeutungrekapitulieren wir daher das oben bewiesene Resultat noch einmal in dieserSprache.

Satz VI.2.10 Sei V ein Innenproduktraum und U ⊂ V ein endlichdimensio-naler Unterraum mit Orthonormalbasis f1, . . . , fn. Dann definiert

PU (v) =

n∑j=1

〈v, fj〉fj

die Orthogonalprojektion von V auf U .

Wir halten ein wichtiges Korollar aus Satz VI.2.9 fest.

Korollar VI.2.11 Ist V ein Innenproduktraum und U ⊂ V ein endlichdimen-sionaler Unterraum, so gilt U⊥⊥ = U .

Beweis. Die Inklusion U ⊂ U⊥⊥ gilt nach Definition. Sei nun v ∈ U⊥⊥, undzerlege v gemaß Satz VI.2.9 als v = u+ u⊥ ∈ U ⊕ U⊥. Da v ∈ U⊥⊥ ist, folgt

0 = 〈v, u⊥〉 = 〈u, u⊥〉+ 〈u⊥, u⊥〉 = 〈u⊥, u⊥〉.

Also ist u⊥ = 0, d.h. v = u ∈ U , was zu zeigen war. 2

Der abschließende Satz dieses Abschnitts widmet sich der Darstellung vonlinearen Funktionalen auf einem endlichdimensionalen Innenproduktraum.

Satz VI.2.12 Sei V ein endlichdimensionaler Innenproduktraum, und sei `:V → K linear. Dann existiert ein eindeutig bestimmter Vektor v` ∈ V mit

`(v) = 〈v, v`〉 fur alle v ∈ V.

Beweis. Sei f1, . . . , fn eine Orthonormalbasis von V , mit Satz VI.2.7 schreibenwir ein Element v ∈ V in der Form v =

∑nj=1〈v, fj〉fj . Daher ist

`(v) =

n∑j=1

〈v, fj〉`(fj) =⟨v,

n∑j=1

`(fj)fj

⟩;

setze also v` =∑nj=1 `(fj)fj .

Die Eindeutigkeit ist klar: 〈v, v`〉 = 〈v, v`〉 fur alle v ∈ V bedeutet v` − v` ∈V ⊥ = {0}. 2

In der Funktionalanalysis lernt man die unendlichdimensionale Version diesesSatzes kennen, wenn V ein Hilbertraum ist. In diesem Kontext heißt Satz VI.2.12Satz von Frechet-Riesz.

Version vom 13. Juni 2019

VI.3 Lineare Abbildungen auf Innenproduktraumen 103

VI.3 Lineare Abbildungen auf Innenproduktrau-men

Seien (V, 〈 . , . 〉V ) und (W, 〈 . , . 〉W ) Innenproduktraume uber demselben Skala-renkorper K ∈ {R,C}, und sei L: V → W eine lineare Abbildung. Wir versu-chen, L eine neue lineare Abbildung L∗: W → V zuzuordnen, die

〈Lv,w〉W = 〈v, L∗w〉V fur alle v ∈ V, w ∈W (VI.4)

erfullt; hier wie im Folgenden schreiben wir haufig, einer verbreiteten Konventi-on folgend, Lv statt L(v) etc. Das Zusammenspiel von L und L∗ wird zu vielenneuen Erkenntnissen fuhren; siehe Kapitel VIII.

Um L∗ definieren zu konnen, mussen wir allerdings voraussetzen, dass Vendlichdimensional ist. Wir gehen dann so vor: Fur festes w ∈W betrachte

`w: V → K, `w(v) = 〈Lv,w〉W .

Dies ist eine lineare Abbildung auf dem endlichdimensionalen Innenprodukt-raum V ; also existiert nach Satz VI.2.12 ein eindeutig bestimmter Vektor v`w ∈V mit

〈Lv,w〉W = 〈v, v`w〉V fur alle v ∈ V.

Der Beweis von Satz VI.2.12 zeigt auch, wie v`w aussieht; ist namlich f1, . . . , fneine Orthonormalbasis von V , so gilt

v`w =

n∑j=1

`w(fj)fj =

n∑j=1

〈Lfj , w〉W fj =

n∑j=1

〈w,Lfj〉W fj .

Setzt man

L∗: W → V, L∗(w) =

n∑j=1

〈w,Lfj〉W fj , (VI.5)

so sieht man, dass (VI.4) erfullt ist und L∗ linear sowie wegen der Eindeutig-keitsaussage in Satz VI.2.12 eindeutig bestimmt ist.

Wir halten als Resultat dieser Diskussion fest:

Satz VI.3.1 Seien (V, 〈 . , . 〉V ) ein endlichdimensionaler Innenproduktraum,(W, 〈 . , . 〉W ) ein beliebiger Innenproduktraum uber K, und sei L ∈ L (V,W ).Dann existiert eine eindeutig bestimmte lineare Abbildung L∗ ∈ L (W,V ) mit

〈Lv,w〉W = 〈v, L∗w〉V fur alle v ∈ V, w ∈W.

Definition VI.3.2 Die im vorigen Satz beschriebene Abbildung L∗ heißt diezu L adjungierte Abbildung.

Version vom 13. Juni 2019

104 VI. Innenproduktraume

Beispiele VI.3.3 (a) Sei V = Poln([0, 1]) der R-Vektorraum aller Polynom-funktionen auf [0, 1] vom Grad ≤ n. Zu f ∈ V betrachten wir das j-te Moment(j ∈ N0)

f#j =

∫ 1

0

tjf(t) dt.

Sei

L: V → Rn+1, L(f) =

f#0...f#n

;

klarerweise ist L linear. Nun trage V das Skalarprodukt

〈f, g〉V =

∫ 1

0

f(t)g(t) dt

und Rn+1 das euklidische Skalarprodukt. Was ist L∗: Rn+1 → V ? Fur f ∈ Vund y ∈ Rn+1 rechnet man

〈L(f), y〉 =

n∑j=0

f#j yj =

n∑j=0

∫ 1

0

tjf(t) dt · yj =

∫ 1

0

f(t)

n∑j=0

yjtj dt = 〈f, L∗(y)〉V

mit (L∗y)(t) =∑nj=0 yjt

j , also L∗(y) =∑nj=0 yjx

j ∈ Poln([0, 1]).

(b) Sei A = (ajk) eine reelle m×n-Matrix; wir versehen Rm und Rn mit demeuklidischen Skalarprodukt. Wir wollen die zu LA: Rn → Rm adjungierte Ab-bildung bestimmen. Dazu seien x ∈ Rn und y ∈ Rm mit den Koordinaten (xk)bzw. (yj) vorgelegt. Dann ist (zur Erinnerung: At bezeichnet die transponierteMatrix)

〈LA(x), y〉 = 〈Ax, y〉 =

m∑j=1

n∑k=1

ajkxkyj

=

n∑k=1

xk

m∑j=1

ajkyj = 〈x,Aty〉 = 〈x, LAt(y)〉

und deshalb (LA)∗ = LAt .

(c) Nun sei A eine komplexe m× n-Matrix, und wir wollen die Adjungiertezu LA: Cn → Cm (jeweils mit dem euklidischen Skalarprodukt) studieren. Dannsieht die Rechnung so aus:

〈LA(x), y〉 = 〈Ax, y〉 =

m∑j=1

n∑k=1

ajkxkyj =

n∑k=1

xk

m∑j=1

ajkyj .

Version vom 13. Juni 2019

VI.3 Lineare Abbildungen auf Innenproduktraumen 105

Setze nun a∗kj = ajk. Diese Zahlen bilden die Eintrage einer n ×m-Matrix A∗,

kurz A∗ = At, und es gilt

〈LA(x), y〉 =

n∑k=1

xk

m∑j=1

a∗kjyj =

n∑k=1

xk

m∑j=1

a∗kjyj = 〈x,A∗y〉 = 〈x, LA∗(y)〉

sowie (LA)∗ = LA∗ .

Die letzten beiden Beispiele suggerieren die folgende Definition.

Definition VI.3.4

(a) Die adjungierte Matrix A∗ einer reellen Matrix A ∈ Rm×n ist die trans-ponierte Matrix At ∈ Rn×m.

(b) Die adjungierte Matrix A∗ einer komplexen Matrix A ∈ Cm×n ist diekonjugiert-transponierte Matrix At ∈ Cn×m.

Explizit heißt das fur die Eintrage der Matrix A∗, wenn A = (ajk): In Zeile kund Spalte j von A∗ steht ajk (reeller Fall) bzw. ajk (komplexer Fall); z.B.

A =

(1 2

1− i i

), At =

(1 1− i2 i

), A∗ =

(1 1 + i2 −i

).

Die Aussage von Beispiel VI.3.3(b) und (c) ist also (LA)∗ = LA∗ . Ein ent-sprechender Zusammenhang kann zwischen (adjungierten) linearen Abbildun-gen und den darstellenden Matrizen bzgl. gegebener Orthonormalbasen bewie-sen werden. (Zur Notation siehe Definition III.3.1.)

Satz VI.3.5 Seien V und W endlichdimensionale Innenproduktraume mit Or-thonormalbasen A = (f1, . . . , fn) bzw. B = (g1, . . . , gm). Sei L ∈ L (V,W ) mitdarstellender Matrix M = M(L;A,B). Dann ist

M(L∗;B,A) = M∗,

d.h. die darstellende Matrix der Adjungierten von L ist die Adjungierte derdarstellenden Matrix von L.

Beweis. Um den Eintrag in der k-ten Zeile und j-ten Spalte von M(L∗;B,A) zubestimmen, muss man L∗(gj) in die Basis f1, . . . , fn entwickeln und den k-tenKoeffizienten nehmen. Nach Satz VI.2.7 ist das

〈L∗(gj), fk〉V = 〈fk, L∗(gj)〉V = 〈L(fk), gj〉W ,

und 〈L(fk), gj〉W ist der j-te Eintrag in der k-ten Spalte von M . Das war zuzeigen. 2

Fur das Rechnen mit adjungierten Abbildungen und Matrizen hat man fol-gende Aussagen (im reellen Fall entfallt das Komplexkonjugieren).

Version vom 13. Juni 2019

106 VI. Innenproduktraume

Satz VI.3.6 Seien V,W endlichdimensionale Innenproduktraume, L,L1, L2 ∈L (V,W ) und α ∈ K. Dann gelten:

(a) (L1 + L2)∗ = L∗1 + L∗2.

(b) (αL)∗ = αL∗.

(c) L∗∗ = L.

(d) det(L∗) = det(L).

Analoge Aussagen gelten fur Matrizen.

Beweis. (a) und (b) folgen unmittelbar aus der Definition (vgl. (VI.5)).(c) ergibt sich aus 〈L∗(w), v〉 = 〈w,L∗∗(v)〉 (nach Definition von L∗∗) und

〈L∗(w), v〉 = 〈v, L∗(w)〉 = 〈L(v), w〉 = 〈w,L(v)〉 (die zweite Gleichheit fußt aufder Definition von L∗); das zeigt L∗∗(v)−L(v) ∈W⊥ = {0} fur alle v ∈ V , alsoL∗∗ = L.

(d) folgt aus Satz IV.2.7 und (IV.3) auf Seite 64, letztere Gleichung ist mitEintragen aus C zu lesen.

Die Aussagen lassen sich wegen (LA)∗ = LA∗ von den linearen Abbildungenauf Matrizen ubertragen. 2

Satz VI.3.7 Seien V,W,Z endlichdimensionale Innenproduktraume und L1 ∈L (V,Z), L2 ∈ L (Z,W ). Dann ist

(L2 ◦ L1)∗ = L∗1 ◦ L∗2.

Eine analoge Aussage gilt fur Matrizen.

Beweis. Es ist fur alle v ∈ V , w ∈W

〈(L2L1)(v), w〉W = 〈L1(v), L∗2(w)〉Z = 〈v, (L∗1L∗2)(w)〉V

und definitionsgemaß

〈(L2L1)(v), w〉W = 〈v, (L2L1)∗(w)〉V .

Wie im letzten Beweis schließt man (L2L1)∗ = L∗1L∗2. 2

Es besteht folgender Zusammenhang zwischen Kern und Bild von L und L∗.

Satz VI.3.8 Seien V und W endlichdimensionale Innenproduktraume und L ∈L (V,W ).

(a) ker(L) = (ran(L∗))⊥.

(b) ker(L∗) = (ran(L))⊥.

(c) ran(L) = (ker(L∗))⊥.

(d) ran(L∗) = (ker(L))⊥.

Insbesondere ist L genau dann injektiv, wenn L∗ surjektiv ist, und L ist genaudann surjektiv, wenn L∗ injektiv ist.

Version vom 13. Juni 2019

VI.3 Lineare Abbildungen auf Innenproduktraumen 107

Beweis. (a) Sei zuerst v ∈ ker(L) sowie v′ ∈ ran(L∗), also v′ = L∗(w) furein geeignetes w. Dann ist 〈v, v′〉 = 〈v, L∗(w)〉 = 〈L(v), w〉 = 〈0, w〉 = 0, alsov ∈ (ran(L∗))⊥.

Nun sei umgekehrt v ∈ (ran(L∗))⊥, also 〈v, L∗(w)〉 = 0 fur alle w ∈ W .Dann ist 〈L(v), w〉 = 0 fur alle w ∈W und deshalb L(v) = 0, d.h. v ∈ ker(L).

(b) folgt, wenn man (a) auf L∗ anwendet und L∗∗ = L beachtet.(c) und (d) folgen aus (b) und (a), wenn man U⊥⊥ = U benutzt (Korol-

lar VI.2.11). 2

Im Weiteren werden einige spezielle Klassen von Abbildungen bzw. Matrizeneine Rolle spielen, die wir jetzt einfuhren.

Definition VI.3.9 Sei V ein endlichdimensionaler Innenproduktraum.

(a) Eine lineare Abbildung L ∈ L (V ) heißt normal, wenn LL∗ = L∗L.

(b) Eine lineare Abbildung L ∈ L (V ) heißt selbstadjungiert, wenn L = L∗.

Analoge Begriffe werden fur quadratische Matrizen eingefuhrt.

Offensichtlich ist jede selbstadjungierte Abbildung bzw. Matrix normal, undaus Satz VI.3.5 ergibt sich, dass eine lineare Abbildung genau dann normalbzw. selbstadjungiert ist, wenn es ihre bzgl. einer Orthonormalbasis darstellendeMatrix ist.

Im reellen Fall sind die selbstadjungierten Matrizen genau die symmetrischen(ajk = akj fur alle j und k). Ein Beispiel einer nicht normalen Matrix ist

A =

(0 10 0

): A∗A =

(0 00 1

)6=(

0 01 0

)= AA∗.

Selbstadjungierte komplexe Matrizen werden auch hermitesch genannt (nachCharles Hermite). Jede Abbildung der Form L∗L (bzw. LL∗) und jede Matrixder Form A∗A (bzw. AA∗) ist selbstadjungiert, wie aus Satz VI.3.6(c) und VI.3.7folgt.

Beispiel VI.3.10 Orthogonalprojektionen sind Beispiele selbstadjungierter Ab-bildungen. Es sei U ein Unterraum eines endlichdimensionalen Innenprodukt-raums V , und sei PU die Orthogonalprojektion von V auf U . Nach Satz VI.2.10hat PU die Gestalt

PU (v) =

n∑j=1

〈v, fj〉fj ,

wenn f1, . . . , fn eine Orthonormalbasis von U ist. Dann ist

〈PU (v), w〉 =

n∑j=1

〈v, fj〉〈fj , w〉 =⟨v,

n∑j=1

〈fj , w〉fj⟩

=⟨v,

n∑j=1

〈w, fj〉fj⟩

= 〈v, PU (w)〉.

Version vom 13. Juni 2019

108 VI. Innenproduktraume

Jede lineare Abbildung L ∈ L (V ) auf einem komplexen endlichdimensio-nalen Innenproduktraum lasst sich in selbstadjungierte zerlegen: Setze namlichL1 = 1

2 (L + L∗), L2 = 12i (L − L

∗); dann sind L1 und L2 selbstadjungiert, undes gilt L = L1 + iL2. L ist genau dann normal, wenn L1 und L2 kommutieren:L1L2 = L2L1. Man beachte, dass L eine komplexe Linearkombination aus L1

und L2 ist; es ist eine wichtige Bemerkung, dass die Menge H (V ) der selbstad-jungierten L ∈ L (V ) einen R-Vektorraum bildet (aber keinen C-Vektorraum).Dasselbe gilt fur selbstadjungierte Matrizen.

Die obige Zerlegung L = L1 + iL2 erinnert an die Zerlegung einer komplexenZahl in Real- und Imaginarteil; die selbstadjungierten L entsprechen in diesemBild den reellen Zahlen. Die Analogie L (V )↔ C und H (V )↔ R erweist sichals erstaunlich tragfahig (siehe z.B. Satz VIII.4.3).

In Definition VI.1.6 haben wir zu einem Skalarprodukt eine Norm assoziiert(vgl. Satz VI.1.7), die wir jetzt zur Charakterisierung normaler Abbildungenund Matrizen heranziehen wollen.

Satz VI.3.11 Sei V ein endlichdimensionaler Innenproduktraum, und sei L ∈L (V ). Dann sind folgende Bedingungen aquivalent:

(i) L ist normal.

(ii) 〈Lv,Lw〉 = 〈L∗v, L∗w〉 fur alle v, w ∈ V .

(iii) ‖Lv‖ = ‖L∗v‖ fur alle v ∈ V .

Analoge Aussagen gelten fur Matrizen.

Beweis. (i) ⇒ (ii): Es ist ja

〈Lv, Lw〉 = 〈v, L∗Lw〉 = 〈v, LL∗w〉 = 〈L∗v, L∗w〉.

(ii) ⇒ (iii): Setze v = w.(iii) ⇒ (ii): Wir bearbeiten zuerst den Fall K = R. Seien v, w ∈ V . Wir

wenden (iii) auf v + w an und erhalten

〈L(v +w), L(v +w)〉 = ‖L(v +w)‖2 = ‖L∗(v +w)‖2 = 〈L∗(v +w), L∗(v +w)〉.

Ausrechnen liefert

〈L(v), L(v)〉+ 2〈L(v), L(w)〉+ 〈L(w), L(w)〉 =

〈L∗(v), L∗(v)〉+ 2〈L∗(v), L∗(w)〉+ 〈L∗(w), L∗(w)〉

und deshalb wegen ‖L(v)‖ = ‖L∗(v)‖, ‖L(w)‖ = ‖L∗(w)‖

〈Lv, Lw〉 = 〈L∗v, L∗w〉.

Im Fall K = C ist das Skalarprodukt nur konjugiert-symmetrisch, deshalbist in einem komplexen Innenproduktraum 〈x, y〉+ 〈y, x〉 = 2 Re〈x, y〉, und dasobige Argument zeigt

Re〈Lv, Lw〉 = Re〈L∗v, L∗w〉 fur alle v, w ∈ V.

Version vom 13. Juni 2019

VI.3 Lineare Abbildungen auf Innenproduktraumen 109

Schreibt man diese Zeile erneut fur iw statt w hin, erhalt man nun wegenRe〈x, iy〉 = −Re i〈x, y〉 = Im〈x, y〉 auch

Im〈Lv, Lw〉 = Im〈L∗v, L∗w〉 fur alle v, w ∈ V.

(ii) ⇒ (i): Wegen (ii) ist 〈v, L∗L(w)〉 = 〈v, LL∗(w)〉 fur alle v, w ∈ V , alsostets L∗L(w) = LL∗(w), und L ist normal. 2

Die im Beweis angewandte Technik, v + w zu betrachten, nennt man Pola-risierung.

Korollar VI.3.12 Fur eine normale lineare Abbildung ist ker(L) = ker(L∗).

Die Nomenklatur fur die als nachstes zu definierenden Abbildungen bzw.Matrizen unterscheidet sich im reellen und komplexen Fall.

Definition VI.3.13 Seien V und W endlichdimensionale Innenproduktraumemit dim(V ) = dim(W ), und sei L ∈ L (V,W ). Dann heißt L orthogonal (K = R)bzw. unitar (K = C), wenn

〈Lv1, Lv2〉W = 〈v1, v2〉V fur alle v1, v2 ∈ V.

Entsprechend heißt eine n× n-Matrix A orthogonal bzw. unitar, wenn

〈Ax,Ay〉 = 〈x, y〉 fur alle x, y ∈ Kn.

Satz VI.3.14 Seien V und W endlichdimensionale Innenproduktraume mitdim(V ) = dim(W ), und sei L ∈ L (V,W ). Dann sind aquivalent:

(i) L ist orthogonal/unitar.

(ii) ‖L(v)‖W = ‖v‖V fur alle v ∈ V .

(iii) L ist invertierbar mit L−1 = L∗.

(iv) Die darstellende Matrix bzgl. zweier Orthonormalbasen von V bzw. Wist orthogonal/unitar.

Beweis. (i) ⇔ (ii): Das geht genauso wie (ii) ⇔ (iii) in Satz VI.3.11; bitteschreiben Sie die Details auf!

(i)/(ii) ⇒ (iii): Aus (ii) ergibt sich sofort, dass L injektiv ist, und wegen derVoraussetzung dim(V ) = dim(W ) ist L auch surjektiv, denn

dim(W ) = dim(V ) = dim kerL+ dim ranL = dim ranL.

Eine Anwendung von (i) zeigt fur alle v1 ∈ V und w2 = Lv2 ∈W

〈v1, L∗w2〉V = 〈Lv1, w2〉W = 〈Lv1, Lv2〉W = 〈v1, v2〉V = 〈v1, L

−1w2〉V ,

also L∗w2 = L−1w2 fur alle w2 ∈W , d.h. L∗ = L−1.

Version vom 13. Juni 2019

110 VI. Innenproduktraume

(iii) ⇒ (i): Man lese die letzte Rechnung ruckwarts:

〈v1, v2〉V = 〈v1, L−1w2〉V = 〈v1, L

∗w2〉V = 〈Lv1, w2〉W = 〈Lv1, Lv2〉W .

(iii) ⇔ (iv): Sei M eine solche darstellende Matrix; dann gilt M−1 = M∗

genau dann, wenn L−1 = L∗, und dass dann 〈Mx,My〉 = 〈x, y〉 folgt, wurdegerade im Beweis von (iii) ⇒ (i) nachgerechnet. 2

In der Sprache der Matrizen lautet der letzte Satz so.

Korollar VI.3.15 Sei A eine reelle oder komplexe n × n-Matrix. Dann sindaquivalent:

(i) A ist orthogonal/unitar.

(ii) ‖Ax‖ = ‖x‖ fur alle x ∈ Kn.

(iii) A ist invertierbar mit A−1 = A∗.

(iv) Die Zeilen von A bilden eine Orthonormalbasis von Kn.

(v) Die Spalten von A bilden eine Orthonormalbasis von Kn.

Dass (iv) bzw. (v) zu (iii) aquivalent ist, sieht man, wenn man die Gleichun-gen AA∗ = En = A∗A ausschreibt (tun Sie’s!).

Wir wollen die Abbildungseigenschaften orthogonaler Transformationen (imFall K = R) geometrisch beschreiben. Seien v, w ∈ V \ {0}. Nach der Cauchy-Schwarzschen Ungleichung ist

〈v, w〉‖v‖ ‖w‖

∈ [−1, 1],

daher existiert ein eindeutig bestimmter Winkel α ∈ [0, π] mit

〈v, w〉‖v‖ ‖w‖

= cosα. (VI.6)

Insofern ist 〈v, w〉 (genauer 〈 v‖v‖ ,

w‖w‖ 〉) ein Maß fur den Winkel zwischen den

Vektoren v und w. Definitionsgemaß ist eine orthogonale Transformation win-keltreu, nach Satz VI.3.14(ii) ist das aquivalent zur Langentreue.

Wichtige Beispiele orthogonaler Matrizen sind die Drehmatrizen der Form

D(ϕ) =

(cosϕ − sinϕsinϕ cosϕ

);

diese haben die Determinante 1. (In der Tat hat jede orthogonale 2× 2-Matrixmit Determinante 1 diese Form; das wird in Satz IX.2.1 gezeigt.) Geometrischbewirkt D(ϕ) eine Drehung in der Ebene um den Winkel ϕ.

Version vom 13. Juni 2019

Kapitel VII

Eigenwerte und Normalformen

VII.1 Nochmals Polynome

In diesem Kapitel werden wir das Eigenwertproblem fur lineare Abbildungenund Matrizen detailliert studieren. Aus Abschnitt IV.4 wissen wir bereits, dassdie Eigenwerte genau die Nullstellen des charakteristischen Polynoms sind. Dorthatten wir den Korper R zugrundegelegt, aber in Abschnitt V.1 wurde beobach-tet, dass diese Aussage fur Vektorraume uber beliebigen Korpern gilt, allerdingsmuss man hier beim Begriff des Polynoms Vorsicht walten lassen; Letzteres wur-de in Abschnitt V.2 erklart.

Da wir einstweilen uber beliebigen Korpern rechnen wollen, fassen wir nocheinmal einige wichtige Punkte zusammen.

• Ein Polynom uber einem Korper K ist eine endliche Folge von Elementenvon K, etwa (a0, . . . , an). Man schreibt ein Polynom P in der intuitivenForm

P (X) = anXn + · · ·+ a1X + a0. (VII.1)

• Die Menge K[X] aller Polynome uber K tragt die Struktur eines K-Vektorraums. Die kanonische Multiplikation auf K[X] (zur Prazisierungsiehe (V.1) und (V.2) auf Seite 84) fuhrt zur Struktur eines Rings, sogareiner K-Algebra auf K[X].

• Ist an 6= 0 in (VII.1), so hat P (X) den Grad n; in Zeichen deg(P ) = n(deg wie degree). Definitionsgemaß hat das Nullpolynom den Grad −∞.Ein konstantes Polynom ist ein solches mit deg(P ) ≤ 0. Es gilt deg(P +Q) ≤ max{deg(P ),deg(Q)} und deg(PQ) = deg(P ) + deg(Q) (mit derKonvention −∞+ d = −∞).

Version vom 13. Juni 2019

112 VII. Eigenwerte und Normalformen

• Insbesondere bei endlichen Korpern ist ein Polynom P von der assoziiertenPolynomfunktion

p: K → K, p(λ) = anλn + · · ·+ a1λ+ a0

zu unterscheiden; p entsteht durch”Einsetzen“ eines Korperelements λ

fur die sogenannte”Unbestimmte“ X. Die Abbildung

ψλ: K[X]→ K, P 7→ p(λ)

ist linear und multiplikativ.

• Eine Nullstelle von P ist ein µ ∈ K mit p(µ) = 0.

• Man kann nicht nur Korperelemente fur X einsetzen, sondern z.B. quadra-tische Matrizen A uber K. Das fuhrt zum Einsetzungshomomorphismus

ψA: K[X]→ Km×m, P 7→ P (A) = anAn + · · ·+ a1A+ a0,

der linear und multiplikativ ist (vgl. Seite 86). Genauso kann man einelineare Abbildung L ∈ L (V ), V ein K-Vektorraum, fur X einsetzen (undallgemeiner Elemente einer K-Algebra).

Da wir im nachsten Abschnitt genauere Kenntnisse uber Nullstellen von Po-lynomen benotigen, sollen die entsprechenden Resultate jetzt entwickelt werden.

Im Folgenden bezeichnet K stets einen Korper. Wir beginnen mit der Divi-sion-mit-Rest von Polynomen.

Satz VII.1.1 Seien P,Q ∈ K[X], Q 6= 0. Dann existieren eindeutig bestimmtePolynome Π, R ∈ K[X] mit P = ΠQ+R und deg(R) < deg(Q).

Beweis. Wir betrachten die Menge P aller Polynome der Form P − ΠQ, Π ∈K[X], und in dieser Menge ein Polynom minimalen Grades. Dieses hat dieGestalt R := P −Π0Q, und es bleibt, r := deg(R) < deg(Q) =: q zu zeigen.

Nehmen wir stattdessen d := r − q ≥ 0 an. Wir schreiben

Q(X) = αXq + · · · , R(X) = βXr + · · ·

(wo die Punktchen fur Terme niederer Ordnung stehen) mit α 6= 0 und be-trachten P − (Π0 + β

αXd)Q ∈ P. Dieses Polynom ist R − β

αXdQ, hat also

kleineren Grad als R, denn die Koeffizienten zur Potenz r heben sich weg. Dieswiderspricht der Wahl von R, und damit ist d < 0 bewiesen.

Zur Eindeutigkeit: Sei P = ΠQ + R eine weitere Darstellung mit deg(R) <deg(Q). Dann ist (Π − Π)Q = R − R und deg(R − R) < deg(Q), aber, fallsΠ 6= Π ware, deg((Π− Π)Q) ≥ deg(Q). Es folgt Π = Π und R = R. 2

Man kann die Existenz von Π und R auch mit dem aus der Schule be-kannten Verfahren der Polynomdivision begrunden, was aber etwas muhseligaufzuschreiben ist.

Version vom 13. Juni 2019

VII.1 Nochmals Polynome 113

Wendet man diesen Satz mit Q(X) = X − µ an, erhalt man

P (X) = Π(X)(X − µ) +R, (VII.2)

wo R ein konstantes Polynom ist. Daher gilt:

Korollar VII.1.2 Ist µ eine Nullstelle des Polynoms P 6= 0, so existiert einPolynom P1 ∈ K[X] mit deg(P1) = deg(P )− 1 und

P (X) = P1(X)(X − µ).

Beweis. Sei in (VII.2) R(X) = c mit c ∈ K. Da die Einsetzungsabbildung ψµlinear und multiplikativ ist, erhalt man durch Einsetzen von λ

p(λ) = π(λ)(λ− µ) + c,

und da p(µ) = 0 ist, ist auch c = 0. Setze also P1 = Π. 2

Sei nun µ eine Nullstelle von P (X), und schreibe P (X) = P1(X)(X − µ)wie oben. Dann konnen zwei Falle eintreten: µ ist keine Nullstelle von P1 oderdoch. Im letzten Fall konnen wir weiter faktorisieren: P1(X) = P2(X)(X − µ).Dann konnen wieder zwei Falle eintreten: µ ist keine Nullstelle von P2 oderdoch, etc. Da sich der Grad des Faktors P1, P2, . . . stets echt verringert, erhaltman folgende Aussage.

Korollar VII.1.3 Ist µ eine Nullstelle des Polynoms P 6= 0, so existieren eineeindeutig bestimmte naturliche Zahl n = n(µ) und ein eindeutig bestimmtesPolynom P , fur das µ keine Nullstelle ist, mit

P (X) = P (X)(X − µ)n.

Definition VII.1.4 Die im letzten Korollar beschriebene Zahl n(µ) heißt dieVielfachheit oder Ordnung der Nullstelle µ. Im Fall n(µ) = 1 heißt die Nullstelleeinfach.

Sei nun µ1 eine Nullstelle des Polynoms P 6= 0 der Vielfachheit n1, undsei µ2 6= µ1 eine weitere Nullstelle von P . Aus der Faktorisierung P (X) =P1(X)(X−µ1)n1 folgt dann p1(µ2) = 0 (denn in Korpern gilt die Nullteilerfrei-heit1). Entsprechend konnen wir P1 als P1(X) = P2(X)(X−µ2)n2 faktorisieren,so dass µ2 nicht Nullstelle von P2 ist. So fortfahrend, erhalt man die Faktorisie-rung

P (X) = Q(X)(X − µr)nr · · · (X − µ1)n1 , (VII.3)

in der die µ1, . . . , µr die paarweise verschiedenen Nullstellen von P sind, nj dieVielfachheit von µj ist und Q keine Nullstellen besitzt. (In der Tat terminiertdas obige induktive Verfahren nach hochstens deg(P ) Schritten.) Wenn Q einkonstantes Polynom ist, sagt man, dass P in Linearfaktoren zerfallt.

Aus der obigen Darstellung liest man noch folgende Information uber dieAnzahl der Nullstellen eines Polynoms ab.

1Aus ab = 0 und b 6= 0 folgt a = 0.

Version vom 13. Juni 2019

114 VII. Eigenwerte und Normalformen

Korollar VII.1.5 Ein Polynom P vom Grad n ≥ 1 hat hochstens n Nullstel-len. Sind µ1, . . . , µr die verschiedenen Nullstellen von P mit den Vielfachheitenn1, . . . , nr, so gilt n1 + · · ·+ nr ≤ n.

Anders gesagt: Das einzige Polynom vom Grad ≤ n mit mehr als n Null-stellen ist das Nullpolynom. Wenn diese Nullstellen paarweise verschieden sind,folgt das auch aus Satz IV.3.1; die Aussage gilt aber sogar, wenn die Nullstellennicht paarweise verschieden sind und mit ihren Vielfachheiten gezahlt werden.

Im Kontext von Korollar VII.1.5 sehen wir n1 + · · ·+ nr als die Anzahl derNullstellen inkl. Vielfachheiten an. Beispiel: Das Polynom P (X) = X3 − 3X +2 = (X − 1)2(X + 2) ∈ R[X] hat die beiden verschiedenen Nullstellen 1 und −2mit den Vielfachheiten 2 und 1, inkl. Vielfachheiten hat P (X) also 2 + 1 = 3Nullstellen.

Es kann naturlich vorkommen, dass ein Polynom uberhaupt keine Nullstellenhat; das Paradebeispiel ist X2 + 1 ∈ R[X]. Bei komplexen Polynomen gibt esjedoch immer Nullstellen.

Satz VII.1.6 (Fundamentalsatz der Algebra)Jedes nichtkonstante Polynom in C[X] hat eine Nullstelle. Daher zerfallt jedesnichtkonstante Polynom P uber C in Linearfaktoren, und inkl. Vielfachheitenhat P genau deg(P ) Nullstellen.

Dieser Satz ist das Fundament der Eigenwerttheorie uber C-Vektorraumen.Man kann Beweise in Vorlesungen uber Analysis, Algebra, Funktionentheorieoder Topologie kennenlernen; siehe Fußnote 2 auf Seite 85. In dieser Vorlesungwird in Abschnitt VII.6 ein Beweis mit Methoden der Linearen Algebra gefuhrt.

Wir wollen noch die Faktorisierung reeller Polynome diskutieren. Ein reellesPolynom P ∈ R[X] kann naturlich auch als Polynom uber C aufgefasst werden.Die nichtreellen Nullstellen von P treten dann immer paarweise auf.

Lemma VII.1.7 Sei P ∈ R[X] und sei µ ∈ C eine Nullstelle von P . Dann istauch µ eine Nullstelle von P , und µ und µ haben dieselbe Vielfachheit.

Beweis. Seien a0, . . . , an ∈ R und gelte anµn + · · · + a1µ + a0 = 0. Wenn man

das Konjugiertkomplexe bildet und aj = aj beachtet, erhalt man anµn + · · ·+

a1µ + a0 = 0. Zur Erinnerung: Fur komplexe Zahlen gelten die Rechenregelnw + z = w + z, w · z = w · z.

Es ist noch die Aussage uber die Vielfachheit zu beweisen. Sei µ = a + ibmit a, b ∈ R und ohne Einschrankung b 6= 0. Dann ist

(X − µ)(X − µ) = (X − a− ib)(X − a+ ib) = (X − a)2 + b2 =: Q(X) ∈ R[X].

Mit Hilfe von Korollar VII.1.2 faktorisiert man P = QP . Wenn µ keine Nullstellevon P ist, ist man fertig; sonst wendet man den ersten Teil des Lemmas auf P

Version vom 13. Juni 2019

VII.2 Eigenwerte und Diagonalisierbarkeit 115

an und faktorisiert wieder: P (X) = Q(X) ˜P (X) etc. Das liefert schließlich dieBehauptung. 2

Sei nun P (X) =∑nk=0 akX

k ∈ R[X] mit an 6= 0. Seien ρ1, . . . , ρr inkl. Viel-fachheiten die reellen Nullstellen von P . Die ubrigen n−r komplexen Nullstellen(inkl. Vielfachheiten) treten nach Lemma VII.1.7 in Paaren auf: γ1, γ1, . . . , γs, γs.Schreibe γj = aj + ibj mit aj , bj ∈ R, bj 6= 0; dann ist (siehe oben)

Qj(X) := (X − γj)(X − γj) = (X − aj)2 + b2j

ein reelles Polynom ohne reelle Nullstellen. Damit ergibt sich:

Satz VII.1.8 Jedes reelle Polynom 0 6= P ∈ R[X] faktorisiert gemaß

P (X) = an(X − ρ1) · · · (X − ρr)Q1(X) · · ·Qs(X),

wo die Qσ(X) ∈ R[X] quadratische Polynome ohne reelle Nullstellen und die ρjdie inkl. Vielfachheiten gezahlten reellen Nullstellen von P sind. Es ist r+ 2s =deg(P ) = n.

Beispiel: Das Polynom X4 + 4 hat die komplexe Nullstelle µ = 1 + i (nach-rechnen2!), also auch µ = 1 − i. Da X nur in gerader Potenz vorkommt, sindauch −µ = −1− i und −µ = −1 + i Nullstellen. Das fuhrt zu den quadratischenFaktoren (X − µ)(X − µ) = X2 − 2X + 2 und (X + µ)(X + µ) = X2 + 2X + 2,so dass

X4 + 4 = (X2 − 2X + 2)(X2 + 2X + 2).

VII.2 Eigenwerte und Diagonalisierbarkeit

In Abschnitt IV.4 haben wir einen ersten Blick auf das Eigenwertproblem furlineare Abbildungen und Matrizen geworfen. Die dort fur K = R erzielten Re-sultate sind fur beliebige Korper gultig (Ausnahme: Satz IV.4.6 und Satz IV.4.7,bei denen die Ordnung von R eine Rolle spielt) und sollen noch einmal allgemeinformuliert zusammengefasst werden; K steht fur einen Korper und V fur einenK-Vektorraum.

• λ ∈ K heißt Eigenwert von L ∈ L (V ), wenn es einen Vektor v 6= 0 mitL(v) = λv gibt. Solch ein v heißt dann ein zugehoriger Eigenvektor. DerUnterraum ker(L−λ Id), der aus 0 und allen Eigenvektoren zu λ besteht,heißt der zugehorige Eigenraum.

2Diese Aufforderung ist insofern unbefriedigend, als sie nicht erklart, wie man auf dieseNullstelle kommt. Wer aus der Analysis die Polarzerlegung komplexer Zahlen kennt, weißjedoch den Losungsweg.

Version vom 13. Juni 2019

116 VII. Eigenwerte und Normalformen

• λ ∈ K heißt Eigenwert von A ∈ Kn×n, wenn es einen Vektor x 6= 0mit Ax = λx gibt. Solch ein x heißt dann ein zugehoriger Eigenvektor.Der Unterraum ker(A − λEn) := {y: Ay − λy = 0}, der aus 0 und allenEigenvektoren zu λ besteht, heißt der zugehorige Eigenraum.

• Die Eigenwertprobleme fur lineare Abbildungen auf endlichdimensionalenVektorraumen und fur Matrizen sind symmetrisch, siehe die auf Definiti-on IV.4.1 folgenden Bemerkungen.

• Das charakteristische Polynom einer n× n-Matrix A ist

χA(X) = det(A−XEn).

Wir betrachten χA als Polynom, nicht als Polynomfunktion, ohne dies imFolgenden in der Notation zu unterscheiden, wenn es um Nullstellen geht.Dieser Unterschied kommt nur uber endlichen Korpern zum Tragen, wodie im Zusammenhang mit (V.4) auf Seite 87 gemachten Kommentare zubeachten sind. χA ist ein Polynom vom Grad n.

• Genau dann ist λ ∈ K ein Eigenwert der Matrix A, wenn χA(λ) = 0 ist(Satz IV.4.2), wenn also λ eine Nullstelle von χA ist.

• Zwei n × n-Matrizen A und B heißen ahnlich, wenn es eine invertierbareMatrix S mit S−1AS = B gibt; vgl. Korollar III.3.7. Da ahnliche Matrizendieselbe Determinante haben (Korollar IV.2.6), kann man fur L ∈ L (V ),dim(V ) < ∞, die Determinante von L durch die Determinante einer be-liebigen darstellenden Matrix definieren; vgl. Definition IV.2.10. Auf dieseWeise wird das charakteristische Polynom χL von L erklart.

• Fur L ∈ L (V ), dim(V ) <∞, ist daher λ ∈ K genau dann ein Eigenwertvon L, wenn χL(λ) = 0 ist.

• Wegen der Symmetrie des Eigenwertbegriffs bei Matrizen und linearen Ab-bildungen werden wir uns in der Regel nur den Fall im Detail vornehmen,der leichter zu formulieren ist.

Als erstes schatzen wir die Anzahl der Eigenwerte einer Matrix bzw. einerlinearen Abbildung ab.

Satz VII.2.1 Eine n× n-Matrix hat hochstens n Eigenwerte. Ebenso hat einelineare Abbildung auf einem n-dimensionalen Vektorraum hochstens n Eigen-werte.

Das folgt aus Korollar VII.1.5, da das charakteristische Polynom im Kontextvon Satz VII.2.1 ein Polynom vom Grad n ist.

Einem Eigenwert konnen wir zwei Vielfachheiten zuordnen.

Version vom 13. Juni 2019

VII.2 Eigenwerte und Diagonalisierbarkeit 117

Definition VII.2.2 Die algebraische Vielfachheit α(λ) eines Eigenwerts λ ei-ner n× n-Matrix ist die Vielfachheit, die λ als Nullstelle des charakteristischenPolynoms hat. Die geometrische Vielfachheit von λ ist γ(λ) = dim ker(A−λEn),die Dimension des Eigenraums zu λ.

Analoge Begriffe werden fur lineare Abbildungen definiert.

Eine Matrix bzw. lineare Abbildung wie in Satz VII.2.1 hat daher inkl. al-gebraischer Vielfachheiten hochstens n Eigenwerte.

Ist L eine lineare Abbildung mit darstellender Matrix M bzgl. einer gegebe-nen Basis, so haben L und M nicht nur dieselben Eigenwerte, auch die entspre-chenden Vielfachheiten stimmen uberein, d.h. in selbsterklarender Notation istαL(λ) = αM (λ), γL(λ) = γM (λ). (Beweis?)

Ein Beispiel: In Beispiel IV.4.5 hatten wir die Eigenwerte einer gewissen3 × 3-Matrix berechnet, diese waren −1 und 2 mit α(−1) = γ(−1) = 1 undα(2) = 2, γ(2) = 1.

Dieses Beispiel illustriert den folgenden Satz.

Satz VII.2.3 Fur Eigenwerte gilt stets γ(λ) ≤ α(λ).

Dem Beweis schicken wir ein Lemma uber Determinanten von Matrizen einerspeziellen Gestalt voraus. Es sei A eine m×m-Matrix, B eine m× p-Matrix, Deine p× p-Matrix und schließlich M die folgende n× n-Matrix (n = m+ p), wo0 fur die Nullmatrix des Formats p×m steht:

M =

(A B0 D

). (VII.4)

Lemma VII.2.4 Es gilt det(M) = det(A) det(D).

Beweis. Der Beweis erfolgt durch vollstandige Induktion nach m. Im Fall m = 1ergibt sich die Behauptung sofort durch Entwicklung nach der 1. Spalte von M .Nun wollen wir von m − 1 auf m (≥ 2) schließen. Wir entwickeln wieder nachder 1. Spalte:

det(M) =

m∑j=1

(−1)j+1aj1 det(Mj1)± 0∓ 0± · · · =m∑j=1

(−1)j+1aj1 det(Mj1).

Hier sind die Streichungsmatrizen Mj1, j = 1, . . . ,m, wieder von der Form(VII.4), nur dass jetzt links oben eine (m− 1)× (m− 1)-Matrix steht, namlichdie Streichungsmatrix Aj1. Darauf konnen wir die Induktionsvoraussetzung an-wenden und erhalten

det(M) =

m∑j=1

(−1)j+1aj1 det(Aj1) det(D) = det(A) det(D).

Version vom 13. Juni 2019

118 VII. Eigenwerte und Normalformen

Das war zu zeigen. 2

Nun zum Beweis von Satz VII.2.3, den wir fur lineare Abbildungen fuhren.Sei m = γ(λ), und sei b1, . . . , bm eine Basis von ker(L − λ Id). Diese erganzenwir zu einer Basis b1, . . . , bn von V . Sei M die Matrixdarstellung von L bzgl.dieser (geordneten) Basis; dann ist

χL(X) = χM (X) = det(M −XEn).

Nun hat M die Gestalt (VII.4) mit

A =

λ 0 . . . 0

0 λ...

.... . . 0

0 . . . 0 λ

;

auf der Diagonalen steht m mal λ, außerhalb nur Nullen. Daher ist nach Lem-ma VII.2.4

det(M −XEn) = det(A−XEm) det(D −XEp) = (λ−X)mχD(X).

Also ist λ eine Nullstelle von χL mit mindestens der Vielfachheit m; mit anderenWorten ist α(λ) ≥ m = γ(λ). 2

Eine nutzliche Beobachtung ist im nachsten Satz formuliert.

Satz VII.2.5 Sei L ∈ L (V ) bzw. A ∈ Kn×n so, dass das charakteristischePolynom zerfallt. Dann ist die Determinante von L bzw. A das Produkt der inihrer algebraischen Vielfachheit gezahlten Eigenwerte.

Beweis. Schreibe χA(X) = det(A−XEn) = (λ1 −X) · · · (λn −X). Indem man0 fur X einsetzt, erhalt man det(A) = λ1 · · ·λn. 2

Wir kommen jetzt zum Kernproblem dieses Abschnitts: Unter welchen Vor-aussetzungen hat ein n-dimensionaler Vektorraum eine Basis aus Eigenvektoreneiner gegebenen linearen Abbildung L? Bzw. unter welchen Voraussetzungenhat Kn eine Basis aus Eigenvektoren einer gegebenen n × n-Matrix A? (Solcheine Basis bezeichnet man auch als Eigenbasis.) In diesem Fall nennt man Lbzw. A diagonalisierbar, aus folgendem Grund.

Wenn L diagonalisierbar und b1, . . . , bn eine Basis aus Eigenvektoren ist,stellen wir L bzgl. dieser Basis dar. Seien λ1, . . . , λn die zugehorigen Eigenwerte,also L(bj) = λjbj . Die j-te Spalte der darstellenden Matrix M von L enthalt

Version vom 13. Juni 2019

VII.2 Eigenwerte und Diagonalisierbarkeit 119

die Koordinaten von L(bj) in dieser Basis, und diese sind wegen L(bj) = λjbjalle 0 mit Ausnahme der j-ten, die λj ist. Daher hat M Diagonalgestalt:

M =

λ1 0 . . . 0

0 λ2

......

. . . 00 . . . 0 λn

.

Fur eine solche Diagonalmatrix mit den Diagonaleintragen λ1, . . . , λn schreibenwir abkurzend

diag(λ1, . . . , λn) :=

λ1 0 . . . 0

0 λ2

......

. . . 00 . . . 0 λn

.

Dass eine n× n-Matrix diagonalisierbar ist, konnen wir so beschreiben. Seie1, . . . , en die Einheitsvektorbasis von Kn, und sei b1, . . . , bn eine Basis von Kn

aus Eigenvektoren von A. Es sei S die Matrix des Basiswechsels von b1, . . . , bnnach e1, . . . , en; S hat also die Spalten b1, . . . , bn (siehe Beispiel III.3.5(a)). Dannist

S−1AS = diag(λ1, . . . , λn), (VII.5)

d.h. A ist zu einer Diagonalmatrix ahnlich.Aus (VII.5) ergeben sich immense Rechenvorteile; das ist einer der Grunde

fur die Bedeutung der Eigenwerttheorie. Zum Beispiel ist fur die Potenz einerDiagonalmatrix (diag(λ1, . . . , λn))k = diag(λk1 , . . . , λ

kn), also

Ak = (S diag(λ1, . . . , λn)S−1)k

= (S diag(λ1, . . . , λn)S−1) · · · (S diag(λ1, . . . , λn)S−1)

= S(diag(λ1, . . . , λn))kS−1 = S diag(λk1 , . . . , λkn)S−1.

Fur große k ist die rechte Seite erheblich einfacher auszuwerten als die linke –vorausgesetzt, man hat die Eigenwerte, Eigenvektoren und S−1 berechnet, wofurdie numerische lineare Algebra hervorragende Naherungsverfahren bereithalt.

Es soll noch explizit festgehalten werden, dass aus der Darstellung (VII.5)automatisch folgt, dass die λj die Eigenwerte von A und die Spalten sj von Szugehorige Eigenvektoren bilden, denn (VII.5) ist zu

Asj = λjsj , j = 1, . . . , n,

aquivalent.Das Diagonalisierbarkeitsproblem ist also zu entscheiden, ob es (im Kontext

obiger L bzw. A) n linear unabhangige Eigenvektoren gibt. Das nachste Lemmaprasentiert eine entscheidende Beobachtung in dieser Richtung.

Version vom 13. Juni 2019

120 VII. Eigenwerte und Normalformen

Lemma VII.2.6 Seien v1, . . . , vr Eigenvektoren zu den paarweise verschiede-nen Eigenwerten µ1, . . . , µr einer linearen Abbildung bzw. einer Matrix. Dannsind diese Eigenvektoren linear unabhangig.

Beweis. Wir formulieren den Beweis fur lineare Abbildungen. Falls v1, . . . , vrlinear abhangig sind, existiert eine naturliche zahl s < r, so dass v1, . . . , vs line-ar unabhangig sind, aber v1, . . . , vs+1 nicht. (Man beachte, dass Eigenvektoren6= 0 sind und deshalb {v1} linear unabhangig ist.) Also gibt es eine Linearkom-bination

vs+1 =

s∑j=1

αjvj ,

und es folgt

L(vs+1) =

s∑j=1

αjL(vj) =

s∑j=1

αjµjvj .

Andererseits ist

L(vs+1) = µs+1vs+1 =

s∑j=1

αjµs+1vj .

Da v1, . . . , vs linear unabhangig sind, folgt αjµj = αjµs+1 fur alle j. Abermindestens ein αj ist von 0 verschieden, sagen wir αj0 6= 0. Dann ist µj0 = µs+1

im Widerspruch dazu, dass die µj paarweise verschieden sind. 2

Damit erhalten wir ein erstes Kriterium, das bereits viele Falle abdeckt.

Satz VII.2.7 Sei L ∈ L (V ) mit dim(V ) = n bzw. A ∈ Kn×n. L bzw. A istdiagonalisierbar, wenn es n verschiedene Eigenwerte fur L bzw. A gibt.

Beweis. Wahlt man zugehorige Eigenvektoren, so sind diese nach Lemma VII.2.6n linear unabhangige Vektoren, bilden also eine Basis. 2

Unter den Voraussetzungen von Satz VII.2.7 muss jeder Eigenwert einfachsein. Bei mehrfachen Eigenwerten kann es vorkommen, dass es zu wenige Eigen-vektoren gibt: Im Beispiel IV.4.5 etwa gibt es die beiden Eigenwerte −1 und 2mit α(−1) = 1, α(2) = 2, aber der Eigenraum zum Eigenwert 2 ist nur eindi-mensional. In diesem Beispiel gibt es nur zwei linear unabhangige Eigenvektorender 3× 3-Beispielmatrix.

Um ein allgemeines notwendiges und hinreichendes Kriterium zu beweisen,sei an den Begriff der direkten Summe U1 ⊕ · · · ⊕ Ur von Unterraumen einesVektorraums V aus Abschnitt II.4 erinnert. Im Anschluss an Satz II.4.4 hattenwir in (II.3) die wichtige Dimensionsformel

dim(U1 ⊕ · · · ⊕ Ur) = dim(U1) + · · ·+ dim(Ur)

beobachtet.

Version vom 13. Juni 2019

VII.2 Eigenwerte und Diagonalisierbarkeit 121

Satz VII.2.8 Fur eine n× n-Matrix A sind aquivalent:

(i) A ist diagonalisierbar.

(ii) Das charakteristische Polynom von A zerfallt in Linearfaktoren, undfur jeden Eigenwert stimmt die algebraische Vielfachheit mit der geo-metrischen Vielfachheit uberein.

Eine analoge Aussage gilt fur lineare Abbildungen auf einem endlichdimensio-nalen Vektorraum.

Beweis. Wir zerlegen das charakteristische Polynom von A gemaß (VII.3):

χA(X) = (X − µ1)n1 · · · (X − µr)nrQ(X),

wo die µj die paarweise verschiedenen Nullstellen sind und Q nullstellenfrei ist.Mit anderen Worten sind die µj die paarweise verschiedenen Eigenwerte von Amit den algebraischen Vielfachheiten α(µj) = nj . Es folgt (Korollar VII.1.5 undSatz VII.2.3)

n ≥ α(µ1) + · · ·+ α(µr) ≥ γ(µ1) + · · ·+ γ(µr).

Die Bedingung (ii) besagt, dass hier jeweils Gleichheit herrscht; also ist (ii)zu

γ(µ1) + · · ·+ γ(µr) = n

aquivalent.Zeigen wir jetzt, dass auch (i) zu dieser Gleichung aquivalent ist. Wir wissen

bereits, dass (i) durch die Existenz von n linear unabhangigen Eigenvektorenausgedruckt werden kann. Sei Uj = ker(A− µjEn) der Eigenraum zu µj ; dannist also Kn = U1 + · · ·+ Ur.

Nun ist zu beachten, dass die Summe der Uj direkt ist, d.h. ein Element vonU1 + · · · + Ur lasst sich eindeutig als v = u1 + · · · + ur, uj ∈ Uj , darstellen:Nehmen wir an, v = u1 + · · ·+ ur, uj ∈ Uj , ist eine weitere solche Darstellung;dann hat man 0 = (u1− u1)+ · · ·+(ur− ur). Aber uj− uj ist ein Eigenvektor zuµj , oder es ist uj− uj = 0; wegen Lemma VII.2.6 muss stets Letzteres eintreten.

Wegen der Dimensionsformel fur direkte Summen ist (i) also aquivalent zu

dim(U1) + · · ·+ dim(Ur) = n,

und definitionsgemaß ist dim(Uj) = γ(µj).Damit ist der Satz bewiesen. 2

Wie der Beweis gezeigt hat, konnen wir den Aquivalenzen von Satz VII.2.8noch die folgenden hinzufugen, wo wie oben Uj der Eigenraum zu µj ist.

Korollar VII.2.9 Fur eine Matrix A ∈ Kn×n sind aquivalent:

(i) A ist diagonalisierbar.

(ii) Kn = U1 ⊕ · · · ⊕ Ur.

Version vom 13. Juni 2019

122 VII. Eigenwerte und Normalformen

(iii) n = γ(µ1) + · · ·+ γ(µr).

Nach dem Fundamentalsatz der Algebra zerfallt jedes nichtkonstante Poly-nom uber C in Linearfaktoren, deshalb gilt:

Korollar VII.2.10 Fur eine Matrix A ∈ Cn×n sind aquivalent:

(i) A ist diagonalisierbar.

(ii) Fur jeden Eigenwert stimmt die algebraische Vielfachheit mit der geo-metrischen Vielfachheit uberein.

Eine analoge Aussage gilt fur lineare Abbildungen auf einem endlichdimensio-nalen C-Vektorraum.

Beispiele VII.2.11 Wir wollen folgende Matrizen auf Diagonalisierbarkeit uber-prufen und gegebenenfalls eine Basis aus Eigenvektoren angeben.

(a) Sei

A =

(0 −11 0

).

Hier ist χA(X) = X2 + 1, hat also keine reelle Nullstelle, so dass A uber Rnicht diagonalisierbar ist. Uber C sieht die Welt anders aus: Jetzt gibt es dieNullstellen i und −i, und Satz VII.2.7 impliziert die Diagonalisierbarkeit uber C.Um eine Eigenbasis zu berechnen, mussen die Gleichungssysteme Ax = ix undAx = −ix gelost werden. Ersteres lautet explizit

−ix1 − x2 = 0

x1 − ix2 = 0

mit der allgemeinen Losung x2 = t, x1 = it und den Eigenvektoren t(i1

), t ∈

C \ {0}. Analog berechnet man t(−i

1

)als Eigenvektoren zu −i; daher bilden(

i1

),

(−i

1

)eine Basis von C2 aus Eigenvektoren von A.

(b) Sei

A =

1 −3 30 −5 60 −3 4

.

Durch Entwicklung nach der 1. Spalte sieht man

χA(X) = (1−X)((−5−X)(4−X)− (−18))

= (1−X)(X2 +X − 2) = −(X − 1)2(X + 2),

Version vom 13. Juni 2019

VII.2 Eigenwerte und Diagonalisierbarkeit 123

und das charakteristische Polynom zerfallt uber R in Linearfaktoren. Hier hatder Eigenwert −2 die algebraische und deshalb auch geometrische Vielfachheit 1.Zur Bestimmung der Eigenvektoren wenden wir den Gaußschen Algorithmus an:

A+ 2E3 =

3 −3 30 −3 60 −3 6

;

3 −3 30 −3 60 0 0

;

1 −1 10 −1 20 0 0

und erhalten die Eigenvektoren zum Eigenwert −2

t

121

.

Der Eigenwert 1 hat die algebraische Vielfachheit α(1) = 2, und um seine geo-metrische Vielfachheit zu bestimmen, ist das Gleichungssystem Ax = x zu losen,wo der Gaußsche Algorithmus zu

A− E3 =

0 −3 30 −6 60 −3 3

;

0 −3 30 0 00 0 0

;

0 −1 10 0 00 0 0

fuhrt. Man erkennt die allgemeine Losung in der Form s

tt

, s, t ∈ R,

und mit 100

,

011

hat man zwei linear unabhangige Eigenvektoren gefunden; es ist also auchγ(1) = 2. Damit ist A uber R diagonalisierbar, genauer ist

S−1AS =

−2 0 00 1 00 0 1

= diag(−2, 1, 1) mit S =

1 1 02 0 11 0 1

.

Um den letzten Satz dieses Abschnitts leicht formulieren zu konnen, fuhrenwir den Begriff des Spektrums ein.

Definition VII.2.12 Die Menge aller Eigenwerte einer Matrix bzw. einer li-nearen Abbildung heißt das Spektrum, in Zeichen σ(A) bzw. σ(L).

Version vom 13. Juni 2019

124 VII. Eigenwerte und Normalformen

Satz VII.2.13 (Spektraler Abbildungssatz)Sei A ∈ Cn×n, und sei P ∈ C[X]. Dann ist

σ(P (A)) = {P (λ): λ ∈ σ(A)} = P (σ(A)).

Eine analoge Aussage gilt fur lineare Abbildungen.

Beweis. Die Aussage ist auf jeden Fall fur konstante Polynome richtig; A0 istals Einheitsmatrix zu lesen. Uber C zerfallt jedes nichtkonstante Polynom; istalso µ ∈ σ(P (A)), konnen wir das Polynom P − µ in Linearfaktoren zerlegen:

P (X)− µ = c(X − λ1) · · · (X − λn). (VII.6)

Die Einsetzungsabbildung ψA, die formal X durch A ersetzt, ist linear undmultiplikativ, also fuhrt das Einsetzen von A in diese Gleichung zu

P (A)− µEn = c(A− λ1En) · · · (A− λnEn). (VII.7)

Waren alle A− λjEn invertierbar, ware auch P (A)− µEn invertierbar. Aber µwar ein Eigenwert von P (A), also muss auch ein λj0 ein Eigenwert von A sein.Setzt man λj0 in (VII.6) ein, erhalt man P (λj0) = µ, also µ ∈ P (σ(A)).

Ist umgekehrt µ = P (λ) fur ein λ ∈ σ(A), so ist λ eine Nullstelle von P −µ,so dass mit Korollar VII.1.2 P (X)−µ = Q(X)(X−λ) faktorisiert werden kann.Es folgt

P (A)− µEn = Q(A)(A− λEn),

und man sieht, dass jeder Eigenvektor zum Eigenwert λ von A auch ein Eigen-vektor zum Eigenwert µ von P (A) ist; insbesondere ist µ ∈ σ(P (A)). 2

VII.3 Triangulierbare Abbildungen und Matri-zen

In Satz VII.2.8 haben wir gesehen, dass eine lineare Abbildung (auf einem end-lichdimensionalen Vektorraum) genau dann eine Basis zulasst, bzgl. der die Ma-trixdarstellung eine Diagonalmatrix ist, wenn es genug Eigenwerte gibt (dascharakteristische Polynom zerfallt) und jeder Eigenwert hinreichend viele Ei-genvektoren nach sich zieht (die algebraische und die geometrische Vielfachheitstimmen uberein). Wir werden jetzt uberlegen, was man erreichen kann, wennnur die erste Bedingung erfullt ist. Das beschreibt der folgende Satz von Schur.

Satz VII.3.1 Sei L ∈ L (V ) eine lineare Abbildung auf einem endlichdimen-sionalen Vektorraum, deren charakteristisches Polynom in Linearfaktoren zer-fallt. Dann besitzt V eine Basis b1, . . . , bn, bzgl. der die darstellende Matrix vonL eine obere Dreiecksmatrix ist.

Eine analoge Aussage gilt fur Matrizen: Wenn das charakteristische Polynomeiner Matrix zerfallt, ist diese zu einer oberen Dreiecksmatrix ahnlich.

Version vom 13. Juni 2019

VII.3 Triangulierbare Abbildungen und Matrizen 125

Eine solche (geordnete) Basis heißt Schur-Basis fur L und die entsprechendeMatrixdarstellung eine Schur-Darstellung.

Dem Beweis des Satzes schicken wir ein Lemma voraus. Dort steht Uj furlin{b1, . . . , bj}.

Lemma VII.3.2 Sei L ∈ L (V ) eine lineare Abbildung auf einem endlichdi-mensionalen Vektorraum, und sei (b1, . . . , bn) eine geordnete Basis von V . Dannsind aquivalent:

(i) (b1, . . . , bn) ist eine Schur-Basis.

(ii) L(bj) ∈ Uj fur j = 1, . . . , n.

(iii) L(Uj) ⊂ Uj fur j = 1, . . . , n.

Beweis. (i) ⇔ (ii): In der j-ten Spalte der Matrixdarstellung von L bzgl. dergeordneten Basis (b1, . . . , bn) stehen die Koordinaten a1j , . . . , anj von L(bj); undbei einer Schur-Basis ist nach Definition aij = 0 fur i > j und umgekehrt.

(ii) ⇔ (iii): Das sollte klar sein. 2

Ist U ein Unterraum von V mit L(U) ⊂ U , so nennt man U einen invariantenUnterraum (genauer L-invarianten Unterraum) von V .

Wir fuhren jetzt den Beweis von Satz VII.3.1 durch Induktion nach n :=dim(V ). Fur n = 1 ist nichts zu zeigen. Seien nun n ≥ 2 und L ∈ L (V ), undwir nehmen die Behauptung des Satzes von Schur fur n− 1 als gegeben an. Dadas charakteristische Polynom von L zerfallt, gibt es garantiert einen Eigenwertλ1 ∈ K mit zugehorigem Eigenvektor b1 ∈ V . Wir erganzen b1 zu einer Basisb1, b2, . . . , bn von V und setzen W = lin{b2, . . . , bn}. Die Matrixdarstellung vonL bzgl. b1, . . . , bn sieht dann so aus:

M =

(λ1 ∗0 M ′

).

Hier steht 0 fur eine (n − 1)-Spalte mit lauter Nullen, ∗ fur eine (n − 1)-Zeile,uber die wir nichts weiter wissen, und M ′ fur eine (n− 1)× (n− 1)-Matrix.

Wir betrachten nun die lineare Abbildung P : V →W , die durch die Forde-rungen

P (b1) = 0, P (b2) = b2, . . . , P (bn) = bn

bestimmt ist (siehe Satz III.1.3), sowie

L′: W →W, L′(w) = P (L(w)).

Dann istM ′ die darstellende Matrix von L′ bzgl. b2, . . . , bn. Nach Lemma VII.2.4ist

χL(X) = (λ1 −X)χL′(X),

und da χL zerfallt, zerfallt auch χL′ .

Version vom 13. Juni 2019

126 VII. Eigenwerte und Normalformen

Nach Induktionsvoraussetzung besitzt W eine Schur-Basis b′2, . . . , b′n fur L′.

Bzgl. der Basis b1, b′2, . . . , b

′n hat die Matrixdarstellung von L obere Dreiecksge-

stalt, wie man aus Lemma VII.3.2 abliest: Fur j = 2, . . . , n ist ja

L(b′j) = (Id− P )(L(b′j)) + PL(b′j)

∈ lin(lin{b1} ∪ lin{b′2, . . . , b′j}) = lin{b1, b′2, . . . , b′j}.

Damit ist der Beweis des Satzes gefuhrt. 2

Korollar VII.3.3 Zu jeder linearen Abbildung L ∈ L (V ) auf einem endlich-dimensionalen C-Vektorraum und zu jeder komplexen n× n-Matrix gibt es eineSchur-Basis.

Da bei einer Dreiecksmatrix die Determinante das Produkt der Diagonal-elemente ist (Korollar IV.2.3), mussen die Diagonalelemente λ1, . . . , λn einerSchur-Darstellung M von L notwendigerweise die Eigenwerte inkl. ihrer alge-braischen Vielfachheit sein:

χL(X) = χM (X) = (λ1 −X) · · · (λn −X).

Beispiel VII.3.4 In Beispiel IV.4.5 haben wir die Matrix

A =

2 1 0−1 0 1

1 3 1

mit dem charakteristischen Polynom

χA(X) = −(X − 2)2(X + 1) = −X3 + 3X2 − 4

und den Eigenwerten λ1 = −1 und λ2 = 2 und den zugehorigen Eigenvektoren

b1 =

1−3

4

und b2 =

101

betrachtet (der Eigenraum zu λ2 ist eindimensional). Wir wollen eine Schur-Darstellung von bzw. eine Schur-Basis fur A finden. Da λ1 ein einfacher Ei-genwert ist, beginnen wir mit b1. Wir nehmen den Eigenvektor b2 zu λ2 hinzu;daher fuhrt jeder zu b1 und b2 linear unabhangige Vektor zu einer Schur-Basis.Die schnellste Wahl ist e3, da die Spalten der Matrix S = (b1 b2 e3) offensicht-lich linear unabhangig sind. Daher ist S−1AS eine obere Dreiecksmatrix; durchexplizite Berechnung der Inversen von S findet man

S−1AS =

−1 0 −1/30 2 1/30 0 2

.

Version vom 13. Juni 2019

VII.3 Triangulierbare Abbildungen und Matrizen 127

Um die Kraft der Schurschen Normalform zu unterstreichen, wollen wir jetztfur K = C einen Beweis des Satzes von Cayley-Hamilton fuhren, der beschreibt,was man beim Einsetzen einer Matrix in ihr charakteristisches Polynom erhalt.

Satz VII.3.5 (Satz von Cayley-Hamilton im komplexen Fall)Fur eine komplexe n× n-Matrix A gilt

χA(A) = 0.

Hier steht auf der rechten Seite die Nullmatrix. Beispielsweise behauptet derSatz fur die Matrix aus Beispiel VII.3.4

−A3 + 3A2 − 4E3 = 0.

Beweis. Da ahnliche Matrizen dasselbe charakteristische Polynom haben, reichtes wegen Korollar VII.3.3, den Satz fur obere Dreiecksmatrizen zu beweisen,d.h. fur Matrizen mit Aej ∈ lin{e1, . . . , ej} fur j = 1, . . . , n. Gilt namlich A =S−1BS, so hat man einerseits χA = χB und andererseits Ak = (S−1BS)k =S−1BkS, und schreibt man χA(X) = χB(X) =

∑nk=0 akX

k, erhalt man

χA(A) =

n∑k=0

akAk = S−1

n∑k=0

akBkS = S−1χB(B)S,

und es ist χA(A) = 0 genau dann, wenn χB(B) = 0.Sei also A eine obere Dreiecksmatrix; wir werden (χA(A))(ej) = 0 fur alle j

zeigen. Zunachst faktorisiere das charakteristische Polynom gemaß

χA(X) = (λ1 −X) · · · (λn −X)

mit den Eigenwerten λj von A. Da die Matrizen λjEn−A kommutieren, mussenwir nur

(λ1En −A) · · · (λjEn −A)(ej) = 0 fur j = 1, . . . , n

zeigen; dies erledigen wir durch Induktion nach j. Hier ist der Fall j = 1 klar,da e1 ein Eigenvektor zum Eigenwert λ1 ist (siehe oben, Bemerkung nach Ko-rollar VII.3.3). Sei nun 2 ≤ j ≤ n. Wegen der Dreiecksgestalt von A wissen wir(siehe nochmals oben)

A =

λ1 ∗ . . . ∗

0. . .

......

. . . ∗0 . . . 0 λn

,

wobei die mit ∗ bezeichneten Eintrage unerheblich sind. Es folgt

(λjEn −A)(ej) ∈ lin{e1, . . . , ej−1}, etwa (λjEn −A)(ej) =

j−1∑k=1

βkek,

Version vom 13. Juni 2019

128 VII. Eigenwerte und Normalformen

und nach Induktionsvoraussetzung ist

((λ1En −A) · · · (λj−1En −A))((λjEn −A)(ej)) =j−1∑k=1

βk((λ1En −A) · · · (λj−1En −A))(ek) = 0;

hier benutzen wir erneut die Kommutativitat der Faktoren.Das war zu zeigen. 2

Dieser Beweis ist auch fur den Fall einer Matrix uber einem beliebigen Korperstichhaltig, wenn ihr charakteristisches Polynom in Linearfaktoren zerfallt. Au-ßerdem ist auch der Fall einer reellen Matrix enthalten, denn eine reelle Matrixist ja eine komplexe Matrix, deren Eintrage reelle Zahlen sind, und χA hangtnicht davon ab, ob man A ∈ Rn×n oder A ∈ Cn×n auffasst.

Der Beweis des Satzes von Cayley-Hamilton im allgemeinen Fall ist kompli-zierter.

Wir kommen jetzt zu einer Klasse von linearen Abbildungen bzw. Matrizen,die in den nachsten Abschnitten eine Rolle spielen werden.

Definition VII.3.6 Eine lineare Abbildung L ∈ L (V ) heißt nilpotent, wennes ein ν ∈ N mit Lν = 0 gibt. Eine quadratische Matrix A heißt nilpotent, wennes ein ν ∈ N mit Aν = 0 gibt.

Ein Beispiel: Auf dem Vektorraum V = Poln(R) der reellen Polynome vomGrad ≤ n ist der Ableitungsoperator L: f 7→ f ′ nilpotent; man kann ν = n+1 =dim(V ) wahlen.

Der nachste Satz zeigt, dass man in jedem Fall mit ν = dim(V ) in Definiti-on VII.3.6 auskommt.

Satz VII.3.7 Sei dim(V ) = n und L ∈ L (V ). Dann sind aquivalent:

(i) L ist nilpotent.

(ii) L besitzt eine Schur-Darstellung mit Nullen auf der Diagonalen.

(iii) χL(X) = (−1)nXn.

(iv) Ln = 0.

Beweis. (i) ⇒ (ii): Wir beweisen das durch vollstandige Induktion nach n. DerFall n = 1 ist klar; nun zum Induktionsschluss von n−1 auf n. Da Lν = 0 ist, istL nicht invertierbar (sonst ware es Lν ja auch). Also gibt es einen Vektor b1 6= 0mit L(b1) = 0. Erganze b1 zu einer Basis von V und betrachte die zugehorigeMatrixdarstellung, die wie im Beweis von Satz VII.3.1 die Gestalt(

0 ∗0 M ′

)Version vom 13. Juni 2019

VII.3 Triangulierbare Abbildungen und Matrizen 129

hat. Deshalb haben die Potenzen von L in dieser Basis die Matrixdarstellungen(0 ∗k0 (M ′)k

).

Definiert man W und L′ wie im Beweis von Satz VII.3.1, so sieht man, dass L′:W →W nilpotent auf einem (n− 1)-dimensionalen Raum ist. Daher besitzt L′

nach Induktionsvoraussetzung eine Schur-Darstellung mit Nullen auf der Diago-nalen bzgl. einer geeigneten Schur-Basis b′2, . . . , b

′n von W , und b1, b

′2, . . . , b

′n ist

eine Schur-Basis von V fur L mit der gewunschten Form der Matrixdarstellung.

[Man beachte, dass in (i) nicht vorausgesetzt ist, dass das charakteristischePolynom zerfallt; daher wissen wir a priori nicht, ob L uberhaupt eine Schur-Darstellung besitzt.]

(ii)⇒ (iii): Das folgt daraus, dass bei einer Dreiecksmatrix die Determinantedas Produkt der Diagonalelemente ist.

(iii) ⇒ (iv) folgt aus dem Satz von Cayley-Hamilton (sogar aus der bewie-senen Form, da das charakteristische Polynom von L nach Voraussetzung (iii)zerfallt; siehe den auf den Beweis von Satz VII.3.5 folgenden Kommentar).

(iv) ⇒ (i) ist klar. 2

Sei nun L eine lineare Abbildung mit Schur-Darstellung λ1 ∗. . .

0 λn

.

Wir zerlegen diese in λ1 0. . .

0 λn

+

0 ∗. . .

0 0

=: MD +MN .

Hier ist MD die Matrixdarstellung einer diagonalisierbaren linearen Abbildungund MN die Matrixdarstellung einer nilpotenten Abbildung bzgl. derselben Ba-sis. Daher gilt:

Korollar VII.3.8 Wenn das charakteristische Polynom von L ∈ L (V ) zerfallt,kann man L = D +N mit einer diagonalisierbaren Abbildung D und einer nil-potenten Abbildung N schreiben.

In Abschnitt VII.5 werden wir zeigen, dass N mit einer sehr speziellen Ma-trixdarstellung gewahlt werden kann. Einstweilen sei beobachtet, dass bei denPotenzen der nilpotenten Matrix MN die Nullen nach und nach nach rechts

Version vom 13. Juni 2019

130 VII. Eigenwerte und Normalformen

oben wandern:

MN =

0 ∗ ∗ . . . ∗

0. . . ∗

0 ∗0 0

, M2N =

0 0 ∗ . . . ∗

0. . . ∗

0 00 0

, M3N =

0 0 0 ∗ ∗

0 ∗. . . 0

0 00 0

,

etc.

VII.4 Die Hauptraumzerlegung

In diesem Abschnitt diskutieren wir verallgemeinerte Eigenvektoren und dieHauptraumzerlegung, die an die Stelle der Eigenraumzerlegung bei nicht diago-nalisierbaren Abbildungen tritt. Die Uberlegungen fuhren gleichzeitig zu einerneuen Begrundung des Diagonalisierbarkeitskriteriums aus Satz VII.2.8. Insbe-sondere werden wir eine geometrische Interpretation der algebraischen Vielfach-heit eines Eigenwerts geben.

Im Folgenden bezeichnen L und T lineare Abbildungen auf einem endlich-dimensionalen K-Vektorraum V . Wir beginnen mit einigen Vorbereitungen.

Lemma VII.4.1 Gelte LT = TL. Dann folgt

L(ran(T )) ⊂ ran(T ) sowie L(ker(T )) ⊂ ker(T ).

Beweis. Sei v ∈ ran(T ), etwa v = T (w) mit einem w ∈ V . Dann ist L(v) =L(Tw) = T (Lw) ∈ ran(T ).

Sei v ∈ ker(T ), also T (v) = 0. Dann ist T (Lv) = L(Tv) = 0, also L(v) ∈ker(T ). 2

Zur Motivation des Folgenden sei T ∈ L (V ) mit Eigenwert 0. Dann istkerT der zugehorige Eigenraum. Nun konnte es Vektoren v mit T (v) 6= 0, aberT 2(v) = 0 geben; diese sind keine Eigenvektoren, aber nicht weit davon entfernt.Ferner konnte es Vektoren v mit T 2(v) 6= 0, aber T 3(v) = 0 geben, usw.

Daher betrachten wir nun die Unterraume ker(Tm), m ≥ 0, von V . (Hier istkerT 0 = ker Id = {0} zu verstehen.) Trivialerweise gilt

{0} ⊂ kerT ⊂ kerT 2 ⊂ . . . .

Lemma VII.4.2 Gilt kerTm = kerTm+1 fur ein m ≥ 0, so auch kerTm =kerTm+k fur alle k ≥ 0.

Beweis.”⊂“ ist klar. Gelte jetzt umgekehrt Tm+k(v) = 0 fur ein k ≥ 1;

dann ist Tm+1(T k−1v) = 0, also T k−1(v) ∈ kerTm+1 = kerTm und deshalbTm+k−1(v) = 0. Iteration dieses Arguments liefert Tm(v) = 0. 2

Version vom 13. Juni 2019

VII.4 Die Hauptraumzerlegung 131

Lemma VII.4.3 Ist dim(V ) = n, so gilt

kerTn = kerTn+1 = . . . .

Beweis. Andernfalls ware nach Lemma VII.4.2

{0} $ kerT $ kerT 2 $ · · · $ kerTn $ kerTn+1,

also dim kerT k ≥ k fur k ≤ n + 1 und insbesondere dim kerTn+1 > n: Wider-spruch! 2

Korollar VII.4.4 Es existiert eine Zahl m ≤ dim(V ) mit

{0} $ kerT $ kerT 2 $ · · · $ kerTm = kerTm+1 = . . . ,

V % ranT % ranT 2 % · · · % ranTm = ranTm+1 = . . . .

Beweis. Die erste Zeile ergibt sich aus Lemma VII.4.2 und VII.4.3 und die zweiteaus ranT k ⊃ ranT k+1 und dim kerT k + dim ranT k = dimV . 2

Definition VII.4.5 Sei λ ein Eigenwert von L ∈ L (V ) mit dimV = n.Dann heißt der Unterraum ker(L−λ Id)n der verallgemeinerte Eigenraum oderHauptraum zu λ, und seine von 0 verschiedenen Elemente heißen verallgemei-nerte Eigenvektoren oder Hauptvektoren.

Nach Korollar VII.4.4 ist v 6= 0 ein Hauptvektor zu λ genau dann, wenn eseine Zahl m ∈ N mit (L − λ Id)m(v) = 0 gibt; und dann gibt es auch solch einm ≤ n.

Satz VII.4.6 Seien λ ein Eigenwert von L und m wie in Korollar VII.4.4,angewandt auf T = L− λ Id. Dann gelten:

(a) V = ker(L− λ Id)m ⊕ ran(L− λ Id)m.

(b) L(ker(L− λ Id)m) ⊂ ker(L− λ Id)m.

(c) L(ran(L− λ Id)m) ⊂ ran(L− λ Id)m.

(d) L−λ Id, eingeschrankt auf ker(L−λ Id)m, ist eine nilpotente Abbildungvon ker(L− λ Id)m nach ker(L− λ Id)m.

Beweis. (a) Wir setzen T = L− λ Id und zeigen zuerst, dass die Summe direktist. Sei dazu v ∈ kerTm ∩ ranTm. Also ist Tm(v) = 0 und v = Tm(w) fur einw ∈ V . Es folgt

0 = Tm(v) = Tm(Tmw) = T 2m(w) = Tm(w) = v;

im vorletzten Schritt wurde w ∈ kerT 2m = kerTm benutzt.Jetzt wird gezeigt, dass die Summe V aufspannt. Sei v ∈ V . Fur ein einst-

weilen beliebiges w ∈ V schreibe

v = (v − Tm(w)) + Tm(w).

Version vom 13. Juni 2019

132 VII. Eigenwerte und Normalformen

Es ist zu zeigen, dass fur ein geeignetes w der erste Summand v − Tm(w) inkerTm liegt. Gesucht ist also ein w ∈ V mit Tm(v) = T 2m(w). Da Tm(v) ∈ranTm = ranT 2m nach Wahl von m, gibt es solch ein w.

(b) und (c) folgen aus Lemma VII.4.1, da offensichtlich (L − λ Id)mL =L(L− λ Id)m.

(d) ist klar nach Definition der Nilpotenz. 2

Der letzte Satz gestattet es, die algebraische Vielfachheit eines Eigenwertsgeometrisch zu deuten.

Korollar VII.4.7 Die Dimension des Hauptraums zu λ ist gleich der algebrai-schen Vielfachheit von λ.

Beweis. Wahlt man Basen in ker(L − λ Id)m und in ran(L − λ Id)m, so erhaltman insgesamt eine Basis von V (Satz VII.4.6(a)), und die Matrixdarstellungvon L hat dann die Form (Satz VII.4.6(b) und (c))(

M1 00 M2

).

Betrachte die Einschrankungen von L

L1: ker(L− λ Id)m → ker(L− λ Id)m, L2: ran(L− λ Id)m → ran(L− λ Id)m;

M1 ist die Matrixdarstellung von L1 und M2 die von L2. Fur das charakteristi-sche Polynom von L gilt dann (Lemma VII.2.4)

χL(X) = χL1(X)χL2

(X).

Wegen Satz VII.4.6(a) ist λ kein Eigenwert von L2; daher ist die algebraischeVielfachheit von λ als Eigenwert von L dieselbe wie die von λ als Eigenwertvon L1. Aber nach Satz VII.4.6(d) ist L1 − λ Idker(L−λ Id)m nilpotent, hat alsonach Satz VII.3.7 das charakterische Polynom (−X)n1 , n1 = dim ker(L−λ Id)m,und das bedeutet χL1(X) = (λ−X)n1 . Daher ist die algebraische Vielfachheitvon λ gleich n1, was zu zeigen war. 2

Der nachste Satz beschreibt die Zerlegung in verallgemeinerte Eigenraumeund ist der Schlussel zur Jordanschen Normalform in Abschnitt VII.5.

Satz VII.4.8 (Hauptraumzerlegung)Das charakteristische Polynom von L ∈ L (V ) zerfalle in Linearfaktoren,

χL(X) = (µ1 −X)d1 · · · (µr −X)dr ,

mit den paarweise verschiedenen Eigenwerten µ1, . . . , µr. Sei Vj der Hauptraumzum Eigenwert µj. Dann gilt fur j = 1, . . . , r:

Version vom 13. Juni 2019

VII.4 Die Hauptraumzerlegung 133

(a) V = V1 ⊕ · · · ⊕ Vr.(b) dimVj = dj.

(c) L(Vj) ⊂ Vj.(d) L|Vj

bezeichne L, aufgefasst als Abbildung von Vj nach Vj; dann giltL|Vj

= µj IdVj+Nj mit einer nilpotenten Abbildung Nj : Vj → Vj.

Beweis. Wir verwenden vollstandige Induktion nach r.Induktionsanfang, r = 1: Nach Voraussetzung ist χL(X) = (µ1 −X)d1 , also

χL−µ1 Id(X) = (−X)d1 . Es folgt d1 = dim(V ), und N1 = L − µ1 Id ist nachSatz VII.3.7 nilpotent.

Induktionsschluss von r−1 auf r: Da χL zerfallt, besitzt L mindestens einenEigenwert µ1. Wendet man Satz VII.4.6 und Korollar VII.4.7 fur λ = µ1 an,bekommt man sofort (b)–(d) fur j = 1; beachte L = µ1 Id + (L − µ1 Id). Setztman W = ran(L−µ1 Id)dimV , so kann man die Induktionsvoraussetzung auf dieEinschrankung L′: W → W von L auf W anwenden (beachte Satz VII.4.6(c)),denn wie im Beweis von Korollar VII.4.7 folgt χL′(X) = (µ2 − X)d2 · · · (µr −X)dr ; χL′ zerfallt also. Deswegen ergeben sich aus der Induktionsvoraussetzung(a) (wegen Satz VII.4.6(a)) und (b)–(d) fur j = 2, . . . , r. 2

Korollar VII.4.9 Wenn das charakteristische Polynom von L ∈ L (V ) zer-fallt, gibt es eine Basis von V , die aus verallgemeinerten Eigenvektoren besteht.

Beweis. In der Bezeichnung von Satz VII.4.8 muss man nur eine Basis in jedemHauptraum wahlen. 2

Beispiel VII.4.10 Wir greifen die Matrix aus Beispiel VII.3.4 auf und wolleneine verallgemeinerte Eigenbasis bestimmen. Wir kennen bereits die Eigenwerteund Eigenvektoren; fur die Hauptraumzerlegung mussen wir uns jetzt noch umker(A−2E3)2 kummern, da der Eigenwert 2 die algebraische Vielfachheit 2 hat.Es ist

(A− 2E3)2 =

2 1 0−1 0 1

1 3 1

2

=

−1 −2 13 6 −3−4 −8 4

;

daher erhalt man zusatzlich zum Eigenvektor b2 als zweiten Basisvektor furker(A− 2E3)2 zum Beispiel

b3 =

−210

.

Das liefert als eine Basis aus Hauptvektoren

b1 =

1−3

4

, b2 =

101

, b3 =

−210

.

Version vom 13. Juni 2019

134 VII. Eigenwerte und Normalformen

Da der Hauptraum zum Eigenwert µ stets den entsprechenden Eigenraumenthalt, konnen wir aus Satz VII.4.8 mit Hilfe von Korollar VII.2.9 sofort fol-gendes Diagonalisierbarkeitskriterium ableiten.

Korollar VII.4.11 Das charakteristische Polynom von L ∈ L (V ) zerfalle inLinearfaktoren. Genau dann ist L diagonalisierbar, wenn fur alle Eigenwerteder Hauptraum mit dem Eigenraum ubereinstimmt. Das ist genau dann derFall, wenn fur alle Eigenwerte

(L− µ Id)2(v) = 0 ⇒ (L− µ Id)(v) = 0 (VII.8)

gilt.

Man beachte, dass Korollar VII.4.11 wegen Korollar VII.4.7 einen neuenBeweis dafur gibt, dass fur lineare Abbildungen mit zerfallendem charakte-ristischen Polynom Diagonalisierbarkeit aquivalent zur Ubereinstimmung vonalgebraischer und geometrischer Vielfachheit bei allen Eigenwerten ist (sieheSatz VII.2.8).

Korollar VII.4.12 Wenn das charakteristische Polynom von L ∈ L (V ) zer-fallt, existieren eine diagonalisierbare Abbildung D und eine nilpotente Abbil-dung N mit

L = D +N und DN = ND.

Beweis. Wir benutzen die Bezeichnungen von Satz VII.4.8. Jedes v ∈ V lasstsich eindeutig als v = v1 + · · · + vr mit vj ∈ Vj schreiben. Setze (warum sinddas lineare Abbildungen?)

D(v) = µ1v1 + · · ·+ µrvr,

N(v) = N1(v1) + · · ·+Nr(vr).

Dann ist D diagonalisierbar (denn die Matrixdarstellung von D bzgl. einer Basisaus verallgemeinerten Eigenvektoren ist eine Diagonalmatrix), und N ist nilpo-tent, da Nk(v) = Nk

1 (v1) + · · ·+Nkr (vr) fur jedes k nach Konstruktion von N .

Fur einen verallgemeinerten Eigenvektor v zu µj gilt

DN(v) = D(Nj(v)) = µjNj(v)

undND(v) = N(µj v) = µjNj(v),

also stimmen DN und ND auf einer Basis uberein (Korollar VII.4.9) und sinddeshalb gleich. 2

Eine Zerlegung”diagonal plus nilpotent“ wurde bereits in Korollar VII.3.8

beobachtet; dort hatte man aber nicht die Kommutativitat der beiden Anteile.

Version vom 13. Juni 2019

VII.5 Die Jordansche Normalform 135

Letztere liefert sogar, dass eine solche Zerlegung eindeutig ist; das kann man soeinsehen: Außer den in Korollar VII.4.12 konstruierten Abbildungen existiereeine Zerlegung L = D′+N ′ mitD′ diagonalisierbar,N ′ nilpotent,D′N ′ = N ′D′.Dann vertauschen D′ und N ′ auch mit L und daher auch mit (L − µ Id)n =∑nk=0

(nk

)Lk(−µ)n−k (binomischer Satz; siehe die folgende Fußnote), wo n =

dimV . Nach Lemma VII.4.1 lassen D′ und N ′ jeden Hauptraum invariant; undauf dem Hauptraum zum Eigenwert µ wirkt D nach Konstruktion wie µ Id. UmD = D′ und folglich N = N ′ zu beweisen, braucht man das nur auf jedemHauptraum zu tun. Daher ist zu zeigen:

µ Id +N = D′ +N ′, D′N ′ = N ′D′ ⇒ N = N ′, µ Id = D′.

Aus der Vertauschbarkeit von D′ und N ′ folgt die von µ Id +N = D′ +N ′ undN ′ und daraus die von N und N ′, d.h. NN ′ = N ′N . Letzteres impliziert aber,dass N −N ′ nilpotent ist; betrachte namlich3

(N −N ′)2n =

2n∑k=0

(2n

k

)Nk(N ′)2n−k = 0,

denn fur k ≥ n ist Nk = 0, und fur k ≤ n ist (N ′)2n−k = 0. Es folgt, dassdie diagonalisierbare Abbildung D′ − µ Id nilpotent ist, weswegen sie = 0 ist(warum?). Damit ist alles gezeigt.

VII.5 Die Jordansche Normalform

Das Ziel dieses Abschnitts ist es, die Jordansche Normalform einer AbbildungL ∈ L (V ) konstruieren; diese besteht darin, in jedem Hauptraum von L eineBasis so zu wahlen, dass die Matrixdarstellung von L die Gestalt

2 0 . . . 00 2 0...

. . ....

0 2 00 . . . 0 2

(VII.9)

hat, wobei jedes 2 fur ein”Jordan-Kastchen“

J(µ, p) =

µ 1 0

. . .. . .. . . 1

0 µ

(p× p-Matrix)

3Hier und weiter oben haben wir den binomischen Satz benutzt, den Sie aus der Analysis furPotenzen von Zahlen (x+y)n kennen. Im Beweis der binomischen Entwicklung gehen aber nurdie Rechenregeln eines kommutativen Rings ein; daher hat man fur kommutierende Elementeeines Rings bzw. einer Algebra dieselbe Summendarstellung. (In einem Ring bedeutet k · r diek-fache Summe r + · · ·+ r eines Ringelements r.)

Version vom 13. Juni 2019

136 VII. Eigenwerte und Normalformen

steht mit einem Eigenwert µ und p ∈ N. Im Klartext: In der p×p-Matrix J(µ, p)steht auf der Hauptdiagonalen immer µ, direkt daruber (auf der

”Nebendiago-

nalen“) immer 1 und ansonsten bloß Nullen, also

J(µ, 1) = (µ), J(µ, 2) =

(µ 10 µ

), J(µ, 3) =

µ 1 00 µ 10 0 µ

, etc.

Als erstes werden wir eine solche”Jordan-Basis“ fur eine nilpotente Abbil-

dung konstruieren.

Satz VII.5.1 Seien N : V → V nilpotent und m ∈ N minimal mit Nm = 0.Dann existieren eindeutig bestimmte ganze Zahlen s1, . . . , sm ≥ 0 mit

∑mk=1 ksk

= n := dim(V ) und eine Basis von V , so dass die Matrixdarstellung von Ndie Form (VII.9) hat, wobei in (VII.9) genau sk Jordan-Kastchen J(0, k) vor-kommen. Diese Normalform ist eindeutig bis auf die Reihenfolge der Jordan-Kastchen.

Beweis. Wir beginnen mit der Eindeutigkeit, die durch vollstandige Induktionnach m bewiesen wird. Der Fall m = 1 ist klar. Zum Induktionsschluss vonm− 1 auf m: Da J(0, k)m−1 = 0 fur k < m gilt, jedoch

J(0,m)m−1 =

0 . . . 0 10 . . . 0 0...

......

0 . . . 0 0

und fur blockdiagonale MatrizenA1 0

. . .

0 Ar

m−1

=

Am−11 0

. . .

0 Am−1r

gilt, besteht die (m − 1)-te Potenz einer Matrix wie in4 (VII.90) aus genaurg(Nm−1) linear unabhangigen Spalten, und diese Zahl stimmt mit sm uber-ein: sm = rg(Nm−1). sm ist also eindeutig bestimmt. Betrachtet man nun dieEinschrankung N ′ von N auf die lineare Hulle des Komplements der von die-sen sm Jordan-Kastchen involvierten Basisvektoren, so ist N ′ nilpotent mit(N ′)m−1 = 0, und in der Darstellung (VII.90) von N ′ kommen nur die ubrigenn− sm Jordan-Kastchen vor; diese sind aber nach Induktionsvoraussetzung bisauf die Reihenfolge eindeutig bestimmt. Das zeigt die Eindeutigkeit der Zahlens1, . . . , sm.

4Der Index 0 soll andeuten, dass jetzt in (VII.9) auf der Hauptdiagonalen nur Nullen stehen.

Version vom 13. Juni 2019

VII.5 Die Jordansche Normalform 137

Zum Beweis der Existenz betrachten wir zu 0 ≤ k ≤ m die UnterraumeUk = kerNk. Nach Wahl von m und Korollar VII.4.4 gilt

U0 = {0} $ U1 $ · · · $ Um = V.

Durch Erganzung einer Basis von Um−1 zu einer Basis von Um = V erhalt maneine direkte Summenzerlegung

V = Um = Um−1 ⊕Wm.

Man beachte, dass N auf Wm injektiv ist, da Wm ∩ kerN ⊂Wm ∩Um−1 = {0}.Ferner ist nach Konstruktion N(Wm) ⊂ Um−1, aber N(Wm) ∩ Um−2 = {0}.

In den nachsten Schritten werden wir folgenden Schluss mehrfach anwenden:

• Sei Z ein endlichdimensionaler Vektorraum, sei Y ⊂ Z ein Unterraum,und sei Y ′ ⊂ Z ein weiterer Unterraum mit Y ∩Y ′ = {0}. Dann existiertein Unterraum W ⊂ Z mit Y ′ ⊂W und Z = Y ⊕W .

(Zum Beweis hierfur sei y1, . . . , ym eine Basis von Y und ym+1, . . . , ym+k ei-ne Basis von Y ′; erganze zu einer Basis y1, . . . , yn von Z und setze W =lin{ym+k+1, . . . , yn}.)

Sei nun bm1 , . . . , bmtm eine Basis von Wm. Dann sind wegen der Injektivitat

von N auf Wm die Vektoren N(bm1 ), . . . , N(bmtm) linear unabhangig in Um−1,aber ihre Linearkombinationen sind keine Elemente von Um−2, und wegen derVoruberlegung gibt es eine direkte Summenzerlegung mit einem geeigneten Un-terraum Wm−1 ⊂ Um−1

Um−1 = Um−2 ⊕Wm−1

mit N(bmj ) ∈ Wm−1. Erganze diese linear unabhangigen Vektoren zu einer

Basis von Wm−1 durch Hinzunahme von bm−11 , . . . , bm−1

tm−1(eventuell braucht

man gar nichts hinzuzunehmen, d.h. tm−1 = 0). Da wie oben N(Wm−1) ⊂Um−2, aber N(Wm−1) ∩ Um−3 = {0} und N auf Wm−1 injektiv ist, konnenwir N2(bm1 ), . . . , N2(bmtm), N(bm−1

1 ), . . . , N(bm−1tm−1

) durch bm−21 , . . . , bm−2

tm−2zu ei-

ner Basis eines Unterraums Wm−2 mit

Um−2 = Um−3 ⊕Wm−2

erganzen usw., bis man bei U0 landet. Das liefert eine direkte Summe

V = W1 ⊕ · · · ⊕Wm

und eine Basis von V wie folgt:

bm1 , . . . , bmtm ;

N(bm1 ), . . . , N(bmtm); bm−11 , . . . , bm−1

tm−1;

N2(bm1 ), . . . , N2(bmtm);N(bm−11 ), . . . , N(bm−1

tm−1); bm−2

1 , . . . , bm−2tm−2

;

etc.

Nm−1(bm1 ), . . . , Nm−1(bmtm);Nm−2(bm−11 ), . . . , Nm−2(bm−1

tm−1); [. . . ]; b11, . . . , b

1t1 .

Version vom 13. Juni 2019

138 VII. Eigenwerte und Normalformen

In der ersten Zeile steht eine Basis von Wm (Vektoren, die nach m-maligerAnwendung von N zu 0 werden, aber nicht eher), in der zweiten eine Basis vonWm−1 (Vektoren, die nach (m−1)-maliger Anwendung von N zu 0 werden, abernicht eher), . . . , in der letzten eine Basis von W1 (Vektoren, die nach einmaligerAnwendung von N zu 0 werden; W1 = kerN , und nochmaliges Anwenden vonN auf die Vektoren der letzten Zeile liefert 0).

Diese Basis von V ordne man wie folgt an (das obige Schema wird spalten-weise von unten nach oben gelesen):

Nm−1(bm1 ), Nm−2(bm1 ), . . . , bm1 ; . . . ;Nm−1(bmtm), . . . , bmtm ;

Nm−2(bm−11 ), Nm−3(bm−1

1 ), . . . , bm−11 ; . . . ;Nm−2(bm−1

tm−1), . . . , bm−1

tm−1;

etc.

b11, . . . , b1t1 .

Bezuglich dieser Basis in dieser Anordnung sieht die Matrixdarstellung von Nso aus:

J(0,m). . .

J(0,m)J(0,m− 1)

. . .

J(0,m− 1). . .

J(0, 1). . .

J(0, 1)

Das ist (VII.90) mit sk = tk, wie gewunscht. 2

Um diese abstrakte Konstruktion in einer konkreteren Situation zu veran-schaulichen, nehmen wir an, es sei dimV = 8 und N ∈ L (V ) so, dass N3 = 0sowie dimU1 = 3 und dimU2 = 6 ist. Im ersten Schritt der Konstruktion einerJordan-Basis wahlen wir zwei linear unabhangige Vektoren b31 und b32 in der

”Lucke“ W3 zwischen U2 und U3 = V . Als nachstes betrachten wir N(b31) undN(b32), die in der

”Lucke“ zwischen U1 und U2 liegen mussen. Wegen 6− 3 > 2

hat dort noch ein weiterer zu diesen linear unabhangiger Vektor b21 Platz. Imnachsten Schritt wenden wir N auf diese Vektoren an und erhalten die drei li-near unabhangigen Vektoren N2(b31), N2(b32) und N(b21), die wegen dimU1 = 3bereits eine Basis von U1 bilden. Das Schema auf Seite 137 sieht also so aus:

b31, b32,N(b31), N(b32), b21,N2(b31), N2(b32), N(b21),

Version vom 13. Juni 2019

VII.5 Die Jordansche Normalform 139

das spaltenweise von unten nach oben gelesen folgende Jordan-Basis ergibt:

N2(b31), N(b31), b31, N2(b32), N(b32), b32, N(b21), b21.

Aus der allgemeinen Konstruktion ergibt sich noch (Details zur Ubung)

sk = (dimUk − dimUk−1)− (dimUk+1 − dimUk)

= dimUk/Uk−1 − dimUk+1/Uk

mit Um+1 = V . Ferner sieht man, dass jedes Kastchen genau einen Eigenvektorgeneriert und man so den gesamten Eigenraum zum Eigenwert 0 bekommt; esist also γ(0) = s1 + · · ·+ sm.

Beispiel VII.5.2 Sei V = R3 und N : V → V bzgl. der Einheitsvektorbasis(e1, e2, e3) durch

A =

0 1 30 0 20 0 0

gegeben. Dann ist

A2 =

0 0 20 0 00 0 0

, A3 =

0 0 00 0 00 0 0

,

und N ist nilpotent mit m = 3. Man erkennt

U0 = {0}, U1 = kerN = lin{e1}, U2 = kerN2 = lin{e1, e2}, U3 = kerN3 = V.

Wir konnen daher W3 = lin{e3} wahlen; aus s3 = dimU3 − dimU2 = 1 siehtman sofort, dass (VII.9) in diesem Beispiel nur ein Jordan-Kastchen enthalt,namlich

J := J(0, 3) =

0 1 00 0 10 0 0

.

Fur die Transformationsmatrix S, die S−1AS = J liefert, benotigen wir dieBasis, die im obigen Beweis konstruiert wurde. Das ist hier

N2(e3) =

200

, N(e3) =

320

, e3 =

001

;

daher

S =

2 3 00 2 00 0 1

und (nachrechnen!) S−1 =1

4

2 −3 00 2 00 0 4

.

Version vom 13. Juni 2019

140 VII. Eigenwerte und Normalformen

Jetzt kommen wir zum Satz uber die Jordansche Normalform.

Satz VII.5.3 Sei L: V → V eine lineare Abbildung, deren charakteristischesPolynom in Linearfaktoren zerfallt. Dann existiert eine Basis von V , bzgl. derdie L darstellende Matrix die Jordansche Normalform

2 0 . . . 00 2 0...

. . ....

2 00 . . . 0 2

(VII.10)

hat, in der jedes Kastchen 2 ein Jordan-Kastchen J(µ, p) reprasentiert. Dieseist eindeutig bis auf die Reihenfolge der Jordan-Kastchen.

Beweis. Zur Existenz: Es reicht wegen Satz VII.4.8, solch eine Basis in jedemHauptraum U = ker(L − µ Id)n, n = dimV , zu finden. Auf U wirkt L aberwie µ IdU + N , N nilpotent. In Satz VII.5.1 wurde eine passende Basis fur Nkonstruiert, so dass in der Matrixdarstellung von N gewisse Jordan-KastchenJ(0, p) auftreten. Ersetzt man J(0, p) jeweils durch J(µ, p), bekommt man eine

”Jordan-Basis“ fur L|U : U → U .

Zur Eindeutigkeit: Da (VII.10) obere Dreiecksgestalt hat, ist µ ein Eigen-wert von L, wenn J(µ, p) in (VII.10) vorkommt. Ist b ein zu diesem Kastchen

”gehoriger“ Basisvektor, folgt (L− µ Id)p(b) = 0, also auch (L− µ Id)n(b) = 0.

Daher sind diese b im Hauptraum zu µ; dort ist L = µ Id+N mit einer nilpoten-ten Abbildung N , und die N darstellende Jordan-Matrix ist nach Satz VII.5.1eindeutig bestimmt bis auf die Reihenfolge der Kastchen. Also ist auch (VII.10)eindeutig bis auf die Reihenfolge der Kastchen. 2

Beispiel VII.5.4 Seien

A =

1 0 −1 −11 2 1 10 0 2 01 0 1 3

und L = LA: v 7→ Av die zugehorige lineare Abbildung auf R4. Das charakteri-stische Polynom ist hier χL(X) = (X − 2)4 (nachrechnen!). Fur die nilpotenteAbbildung N = L − 2 Id ist N 6= 0, aber N2 = 0. Daher (vgl. den Beweis vonSatz VII.5.1) kommen in der Jordanschen Normalform von L nur die KastchenJ(2, 1) und J(2, 2) vor, und zwar entweder zweimal J(2, 2) oder einmal J(2, 2)und zweimal J(2, 1) (warum ist viermal J(2, 1) ausgeschlossen?); d.h. die Kan-didaten fur die Jordansche Normalform sind (irrelevante Nullen werden nicht

Version vom 13. Juni 2019

VII.5 Die Jordansche Normalform 141

dargestellt)

J1 =

2 1

22

2

bzw. J2 =

2 1

22 1

2

.

Man kann nun z.B. uberprufen, dass rg(L − 2 Id) = rg(A − 2E4) = 1, aberrg(J2 − 2E4) = 2 ist. Deshalb ist J1 die Jordansche Normalform von L.

Wenn man zusatzlich die zugehorige Jordan-Basis bestimmen will, muss mandie Methode von Satz VII.5.1 auf L− 2 Id anwenden.

Wie im letzten Beispiel spricht man allgemein von der Jordanschen Normal-form einer Matrix bzw. einer zugehorigen Jordan-Basis des Kn, wenn man dieentsprechende Abbildung x 7→ Ax betrachtet.

Wegen des Fundamentalsatzes der Algebra besitzt jede lineare Abbildung ei-nes C-Vektorraums eine Jordansche Normalform. Wir wollen abschließend einenBlick auf das Normalformenproblem fur R-Vektorraume werfen.

Sei L: Rn → Rn linear. Dann kann man L zu einer C-linearen AbbildungLC: Cn → Cn erweitern; schreibt man namlich v ∈ Cn als v = v1 + iv2 mitv1, v2 ∈ Rn, so setze nur

LC(v) = L(v1) + iL(v2).

Es ist klar, dass LC additiv und R-linear ist (d.h. LC(λv) = λLC(v) fur reelles λ);es gilt aber auch

LC(iv) = LC(iv1 − v2) = iL(v1)− L(v2)

= i(L(v1) + iL(v2)) = iLC(v)

(im zweiten Schritt wurde die Definition von LC benutzt), und deshalb ist LC

auch C-linear.Auf der Ebene der Matrizen bedeutet der Ubergang von L zu LC, dass man

die darstellende (reelle) Matrix A auch auf Vektoren in Cn anwendet.Im Folgenden setze zu v = v1 + iv2 wie oben v = v1 − iv2; die Koordinaten

von v sind also konjugiert komplex zu denen von v.

Lemma VII.5.5 Sei L: Rn → Rn linear und LC wie oben.

(a) Ist λ ∈ C ein Eigenwert von LC, so auch λ.

(b) Ist v ein Eigenvektor zu λ, so ist v ein Eigenvektor zu λ.

Beweis. (a) folgt aus Lemma VII.1.7, da χL und damit auch χLC reelle Koeffi-zienten hat.

(b) Sei A die darstellende Matrix von L (und damit auch von LC). Danngilt, weil A reell ist,

Av = Av = λv = λ v.

Version vom 13. Juni 2019

142 VII. Eigenwerte und Normalformen

(Das zeigt ubrigens erneut Teil (a).) 2

Sei nun L wie oben, λ ∈ C \ R ein Eigenwert von LC mit Eigenvektor v =v1 + iv2, v1, v2 ∈ Rn. Beachte

v1 =1

2(v + v), v2 =

1

2i(v − v). (VII.11)

Schreibt man λ = α+ iβ, so erhalt man

L(v1) = LC(v1) =1

2(LC(v) + LC(v))

=1

2(λv + λ v)

=1

2(αv1 + iαv2 + iβv1 − βv2 + αv1 − iαv2 − iβv1 − βv2)

= αv1 − βv2

und genausoL(v2) = βv1 + αv2.

Die Abbildung L lasst den von v1 und v2 aufgespannten 2-dimensionalen5 Un-terraum U ⊂ Rn also invariant, und bzgl. der Basis v1, v2 sieht die Matrixdar-stellung von T |U so aus: (

α β−β α

).

Sei A eine reelle Matrix, die L und damit auch LC darstellt, sowie J”die“

Jordansche Normalform von LC. Es existiert also eine komplexe Matrix S mitS−1AS = J . Dann ist auch

(S)−1AS = S−1AS = S−1AS = J

eine Jordansche Normalform von LC. Die Matrix J enthalt daher dieselbenJordan-Kastchen wie J . Enthalt J andererseits J(µ, p), so enthalt J nach Defi-nition J(µ, p). Deshalb kommt in J mit jedem Kastchen J(µ, p) auch das kon-jugierte Kastchen J(µ, p) vor. Ist b1, . . . , bp eine dem Kastchen J(µ, p) unter-liegende Jordan-Basis, so kann man nach Lemma VII.5.5 b1, . . . , bp als J(µ, p)unterliegende Jordan-Basis wahlen.

Ist µ ∈ R, konnen auch b1, . . . , bp ∈ Rn gewahlt werden. Sei nun µ = α+iβ ∈C \ R, β 6= 0. Zerlege bk ∈ Cn wie in (VII.11) in

bk =bk + bk

2+ i

bk − bk2i

=: b1k + ib2k ∈ Rn + iRn.

5Da λ und λ linear unabhangige Eigenvektoren haben (Lemma VII.2.6), sind v und v unddeshalb auch v1 und v2 linear unabhangig.

Version vom 13. Juni 2019

VII.6 Der Fundamentalsatz der Algebra 143

Fur k ≥ 2 ist

LC(bk) = µbk + bk−1;

und wie auf Seite 142 rechnet man

L(b1k) = LC(b1k) = LC(bk + bk

2

)=

1

2(bk−1 + bk−1 + µbk + µ bk)

= b1k−1 + αb1k − βb2k

und genauso

L(b2k) = b2k−1 + βb1k + αb2k.

Die Vektoren b11, b21, b

12, b

22, . . . , b

1p, b

2p bilden eine Basis des von b1, . . . , bp, b1, . . . , bp

aufgespannten 2p-dimensionalen Unterraums U von Cn, der unter LC invariantist. Die darstellende Matrix von LC|U bzgl. der Basis b11, b

21, b

12, b

22, . . . , b

1p, b

2p sieht

so aus (mit der Abkurzung D =(α β−β α

), E =

(1 00 1

)):

J(µ, 2p) :=

D E 0D ED

. . . ED

Da diese Basis aus reellen Vektoren besteht, ist das auch eine darstellende Matrixfur L|U∩Rn .

Daher gilt folgender Satz uber die Jordansche Normalform im reellen Fall.

Satz VII.5.6 Sei L: Rn → Rn linear. Dann existiert eine Basis von Rn, sodass die darstellende Matrix von L die Gestalt2

. . .

2

hat und jedes Kastchen entweder von der Form 2 = J(µ, p) (wenn µ eine re-eller Eigenwert von L ist) oder von der Form 2 = J(µ, 2p) ist (wenn µ einenichtreelle Nullstelle von χL ist).

VII.6 Der Fundamentalsatz der Algebra

Aus dem Fundamentalsatz der Algebra (Satz VII.1.6) erhalt man sofort diefolgende Aussage.

Version vom 13. Juni 2019

144 VII. Eigenwerte und Normalformen

Satz VII.6.1 Jede lineare Abbildung auf einem endlichdimensionalen C-Vek-torraum hat einen Eigenwert.

Im vorliegenden Abschnitt, den man als Anhang zu diesem Kapitel auffassenkann, werden wir mit Techniken der Linearen Algebra Satz VII.6.1 direkt bewei-sen und anschließend den Fundamentalsatz der Algebra als Korollar ableiten6.Zu diesem Zweck benotigen wir eine Reihe von Lemmata und verwenden mehr-fach verwickelte Induktionsargumente. Das erste dieser Lemmata ist aus derAnalysis bekannt; es folgt aus dem Zwischenwertsatz.

Lemma VII.6.2 Jedes Polynom P ∈ R[X] ungeraden Grades hat mindestenseine reelle Nullstelle.

Daraus erhalt man sofort:

Lemma VII.6.3 Ist V ein R-Vektorraum, dim(V ) ungerade und L ∈ L (V ),so besitzt L mindestens einen reellen Eigenwert.

Um fortzufahren, fuhren wir eine Sprechweise ein. Wir sagen, dass zwei li-neare Abbildungen L1, L2 ∈ L (V ) einen gemeinsamen Eigenvektor v ( 6= 0)haben, wenn es Eigenwerte λ1 von L1 und λ2 von L2 mit L1v = λ1v, L2v = λ2vgibt.

Wir betrachten ferner folgende Aussagen, in denen K ein Korper und d einenaturliche Zahl ist:

P(K, d, 1): Ist V ein K-Vektorraum, dessen Dimension kein Vielfaches von d ist, sobesitzt jedes L ∈ L (V ) einen (Eigenwert und daher einen) Eigenvektor.

P(K, d, 2): Ist V ein K-Vektorraum, dessen Dimension kein Vielfaches von d ist, sobesitzt jedes Paar kommutierender L1, L2 ∈ L (V ) einen gemeinsamenEigenvektor.

Lemma VII.6.3 besagt also, dass P(R, 2, 1) wahr ist, wahrend P(R, 3, 1)trivialerweise falsch ist (Beispiel?).

Lemma VII.6.4 Aus P(K, d, 1) folgt P(K, d, 2).

Beweis. Sei V ein K-Vektorraum, dessen Dimension n kein Vielfaches von dist, und seien L1, L2 ∈ L (V ) kommutierende lineare Abbildungen. Wir mussenunter der Annahme P(K, d, 1) einen gemeinsamen Eigenvektor fur L1 und L2

produzieren; das erreichen wir durch Induktion uber diejenigen n, die der Ne-benbedingung

”n ist kein Vielfaches von d“ unterworfen sind. Der Fall n = 1 ist

klar, und wir nehmen nun die Gultigkeit unserer Behauptung fur alle Dimen-sionen m < n, die kein Vielfaches von d sind, an.

6Diese Beweisstrategie folgt H. Derksen, The fundamental theorem of algebra and linearalgebra. Amer. Math. Monthly 110 (2003), 620–623.

Version vom 13. Juni 2019

VII.6 Der Fundamentalsatz der Algebra 145

Wir werden an dieser Stelle folgende Variante des Induktionsprinzips verwen-den. Wahrend der ubliche Induktionsschluss von n − 1 auf n schließt, schließtman jetzt von {1, . . . , n − 1} auf n; mit anderen Worten besagt dieses starkeInduktionsprinzip:

• Ist N ⊂ N mit 1 ∈ N und gilt n ∈ N , falls {1, . . . , n − 1} ⊂ N , so istN = N.

(Eigentlich braucht man hier keinen Induktionsanfang, da man dafur den Induk-tionsschluss fur n = 1 anwenden kann.) Zum Beispiel ist es mit diesem Prinzipein Leichtes, die Zerlegbarkeit von naturlichen Zahlen ≥ 2 in Primfaktoren zuzeigen, was mit der ublichen Induktion nicht gelingt.

Zum Beweis des starken Induktionsprinzips aus dem ublichen betrachteN ′ ={n ∈ N: {1, . . . , n} ⊂ N}. Dank der neuen Induktionsvoraussetzung zeigt dieubliche Induktion N ′ = N, also folgt N = N.

Zuruck zum Beweis des Lemmas. Nach Voraussetzung hat L1 einen Eigen-wert λ1; setze W = ker(L1 − λ1 Id), Z = ran(L1 − λ1 Id). Da L1 und L2 unddeshalb auch L1−λ1 Id und L2 kommutieren, zeigt Lemma VII.4.1 L2(W ) ⊂Wund L2(Z) ⊂ Z. Ferner ist dimW + dimZ = n sowie dimW ≥ 1.

Nun sind die Falle W = V und W 6= V zu unterscheiden. Im ersten Fall istL1 = λ1 Id, und nach Voraussetzung P(K, d, 1) hat auch L2 eine Eigenvektor,der dann naturlich auch Eigenvektor fur L1 ist. Im zweiten Fall ist 1 ≤ dimW <n und 1 ≤ dimZ < n, und nicht beide diese Dimensionen konnen Vielfache vond sein (sonst ware es n auch). Also kann die Induktionsvoraussetzung auf einender Raume W und Z mit den entsprechenden Einschrankungen von L1 und L2

angewandt werden und liefert einen gemeinsamen Eigenvektor. 2

Aus Lemma VII.6.3 und Lemma VII.6.4 ergibt sich folgendes Korollar.

Lemma VII.6.5 Ist V ein R-Vektorraum ungerader Dimension, so besitzt je-des Paar kommutierender L1, L2 ∈ L (V ) einen gemeinsamen Eigenvektor.

Nun wollen wir P(C, 2, 1) beweisen.

Lemma VII.6.6 Ist A ∈ Cn×n und n ungerade, so hat A einen Eigenwert.

Beweis. Es sei V = H (Cn) der R-Vektorraum der selbstadjungierten komplexenn×n-Matrizen. Eine Basis von V sieht so aus (Ejl bezeichnet die n×n-Matrix,die in der j-ten Zeile und l-ten Spalte eine 1 und sonst nur Nullen hat):

Ejl + Elj (1 ≤ j < l ≤ n), i(Ejl − Elj) (1 ≤ j < l ≤ n), Ejj (1 ≤ j ≤ n).

Daher ist dimV = n2, also ungerade.Nun betrachten wir folgende Abbildungen L1, L2 ∈ L (V ):

L1(B) =AB +BA∗

2, L2(B) =

AB −BA∗

2i.

Version vom 13. Juni 2019

146 VII. Eigenwerte und Normalformen

(Man beachte, dass diese Matrizen wirklich selbstadjungiert sind.) Man besta-tigt, dass L1 und L2 kommutieren, und kann also Lemma VII.6.5 anwenden.Dies liefert reelle Zahlen λ1, λ2 und eine Matrix B 6= 0 mit

L1(B) = λ1B, L2(B) = λ2B.

Deswegen ist L1(B) + iL2(B) = (λ1 + iλ2)B, aber nach Definition ist L1(B) +iL2(B) = AB, so dass mit λ = λ1 + iλ2 ∈ C

AB = λB

folgt. Jede von 0 verschiedene Spalte von B ist somit ein Eigenvektor von Azum Eigenwert λ, und Lemma VII.6.6 ist bewiesen. 2

Damit ist Satz VII.6.1 fur C-Vektorraume ungerader Dimension bewiesen.Den Rest erledigt wieder eine raffinierte Induktion.

Lemma VII.6.7 Es gilt P(C, 2k, 1) fur alle k ∈ N.

Beweis. Der Fall k = 1 ist in Lemma VII.6.6 abgehandelt. Nehmen wir nunals Induktionsvoraussetzung die Gultigkeit von P(C, 2k−1, 1) und damit wegenLemma VII.6.4 auch P(C, 2k−1, 2) an, und sei A ∈ Cn×n, wo n kein Vielfachesvon 2k ist. Wenn n auch kein Vielfaches von 2k−1 ist, kann man sofort dieInduktionsvoraussetzung anwenden; also mussen wir Dimensionen n = 2k−1mmit ungeradem m betrachten.

Wie im letzten Beweis werden wir die Induktionsvoraussetzung auf geeigneteMatrixraume anwenden. Diesmal betrachten wir den C-Vektorraum

V = {B ∈ Cn×n: B = −Bt}

der”schiefsymmetrischen“ komplexen Matrizen. Eine Basis dieses Vektorraums

ist durch die n(n−1)2 Matrizen

Ejl − Elj (1 ≤ j < l ≤ n)

gegeben; die Dimension von V ist also ein ungerades Vielfaches von 2k−2 unddaher kein Vielfaches von 2k−1.

Seien L1, L2 ∈ L (V ) durch

L1(B) = AB +BAt, L2(B) = ABAt

definiert; wiederum ist zu beachten, dass diese Matrizen schiefsymmetrisch sindund dass L1 und L2 kommutieren.

Die Induktionsvoraussetzung liefert komplexe Zahlen λ1, λ2 und eine kom-plexe Matrix B 6= 0 mit

L1(B) = λ1B, L2(B) = λ2B,

Version vom 13. Juni 2019

VII.6 Der Fundamentalsatz der Algebra 147

also

λ2B = ABAt = A(λ1B −AB),

d.h.

(A2 − λ1A+ λ2En)B = 0.

Wir betrachten jetzt das komplexe Polynom X2−λ1X+λ2, das wir mit geeigne-ten α, β ∈ C als (X−α)(X−β) faktorisieren (siehe das folgende Lemma VII.6.8).Jede von 0 verschiedene Spalte v von B erfullt daher

(A− αEn)(A− βEn)v = 0.

Falls w := (A− βEn)v = 0 ist, ist β ein Eigenwert von A (mit Eigenvektor v);ist w 6= 0, ist α ein Eigenwert von A (mit Eigenvektor w).

Damit ist gezeigt, dass A einen Eigenwert hat, was den Induktionsbeweisvon P(C, 2k, 1) abschließt. 2

Es bleibt noch ein Lemma nachzutragen.

Lemma VII.6.8 Jedes quadratische Polynom uber C zerfallt in Linearfakto-ren.

Beweis. Um das einzusehen, mussen wir die p-q-Formel im Kontext komplexerZahlen verstehen, insbesondere muss die Existenz von Wurzeln aus komplexenZahlen gezeigt werden: Sei z = x+ iy ∈ C mit x, y ∈ R. Sei r =

√x2 + y2 sowie

σ = 1 fur y ≥ 0 und σ = −1 fur y < 0; dann ist (hier gehen nur Wurzeln ausnichtnegativen reellen Zahlen ein)(√

r + x

2+ iσ

√r − x

2

)2

= z.

Schreibt man fur die Klammer abkurzend√z, so sieht man, dass das Polynom

X2 + pX + q die Nullstellen

z1/2 = −p2±√(p

2

)2

− q

hat, also zerfallt

X2 + pX + q = (X − z1)(X − z2). 2

Die obige Beschreibung der Wurzel einer komplexen Zahl ist insofern un-befriedigend, als nicht klar ist, wie man sie erhalt. In der Analysis lernt mandie Polarzerlegung einer komplexen Zahl in der Form z = reiϕ, und dann ist√reiϕ/2 eine Wurzel aus z.

Version vom 13. Juni 2019

148 VII. Eigenwerte und Normalformen

Fur den Beweis von Satz VII.6.1 ist jetzt nur noch Lemma VII.6.7 mit einempassenden k (z.B. 2k > dim(V )) anzuwenden. 2

Als Korollar von Satz VII.6.1 erhalt man den Fundamentalsatz der Algebra,und zwar so. Sei P (X) = Xn + an−1X

n−1 + · · · + a1X + a0 ∈ C[X] ein nicht-konstantes Polynom (offenbar ist es keine Einschrankung, an = 1 anzusetzen).Es sei A die komplexe n× n-Matrix (die Begleitmatrix des Polynoms)

A =

0 1 0 0

0 0 1. . . 0

0 0 0. . .

...... 1−a0 −a1 −a2 . . . −an−1

.

Die Entwicklung von det(A−XEn) nach der letzten Zeile zeigt

χA(X) = det(A−XEn) = (−1)nP (X).

Nach Satz VII.6.1 hat A einen komplexen Eigenwert, also hat P eine komplexeNullstelle. Wenn aber jedes nichtkonstante Polynom eine Nullstelle hat, zerfalltes in Linearfaktoren, wie (VII.3) auf Seite 113 zeigt. 2

Fur welche anderen Korper gilt die Aussage des Fundamentalsatzes? De-finitionsgemaß sind das die algebraisch abgeschlossenen Korper; explizit heißtein Korper K algebraisch abgeschlossen, wenn jedes Polynom P ∈ K[X] eineNullstelle in K hat (und daher in Linearfaktoren zerfallt, siehe (VII.3)).

Ein in der Algebra und Zahlentheorie wichtiges Beispiel ist der Korper Q deralgebraischen Zahlen; dabei heißt eine komplexe Zahl λ algebraisch, wenn es einPolynom P ∈ Q[X] mit P (λ) = 0 gibt. Es ist alles andere als offensichtlich,aber richtig, dass Q ein Korper ist, geschweige denn, dass Q algebraisch ab-geschlossen ist. Eine nicht algebraische komplexe Zahl heißt transzendent. Dieberuhmten und sehr schwierigen Satze von Hermite bzw. Lindemann besagen,dass e bzw. π transzendent sind. Zu diesem Themenkreis vgl. F. Thoeniessen,Das Geheimnis der transzendenten Zahlen. Spektrum 2010.

Nach einem Satz von Steinitz7 ist es moglich, jeden Korper zu einem kleinst-moglichen algebraisch abgeschlossenen Korper zu erweitern (wie R zu C oder Qzu Q), der algebraischer Abschluss genannt wird.

7Diesen Namen kennen Sie vom Steinitzschen Austauschsatz, Satz II.2.14.

Version vom 13. Juni 2019

Kapitel VIII

Eigenwerttheorie in Innenproduktraumen

VIII.1 Selbstadjungierte Abbildungen und Ma-trizen

Dieses Kapitel handelt davon, wie man die Eigenwerttheorie in Innenprodukt-raumen verfeinern kann. Die fur dieses Kapitel gultige Konvention soll sein,dass mit V stets ein endlichdimensionaler Innenproduktraum mit Skalarprodukt〈 . , . 〉 uber K = R oder K = C gemeint sein soll.

Zuerst beschaftigen wir uns mit selbstadjungierten Abbildungen und Matri-zen.

Satz VIII.1.1 Ist L ∈ L (V ) selbstadjungiert, so ist jeder Eigenwert reell. Eineanaloge Aussage gilt fur selbstadjungierte Matrizen.

Beweis. Im Fall K = R ist nichts zu zeigen, da dann Eigenwerte definitionsgemaßreell sind.

Im Fall K = C sei λ ∈ C ein Eigenwert mit zugehorigem Eigenvektor v ( 6= 0).Dann ist

λ‖v‖2 = 〈λv, v〉 = 〈Lv, v〉 = 〈v, Lv〉 = 〈v, λv〉 = λ‖v‖2

und deshalb λ = λ, also λ ∈ R. 2

Satz VIII.1.2 Seien λ und µ verschiedene Eigenwerte der selbstadjungiertenAbbildung L ∈ L (V ) mit zugehorigen Eigenvektoren v und w. Dann sind v undw orthogonal. Eine analoge Aussage gilt fur selbstadjungierte Matrizen.

Beweis. Es ist

λ〈v, w〉 = 〈λv,w〉 = 〈Lv,w〉 = 〈v, Lw〉 = 〈v, µw〉 = µ〈v, w〉

Version vom 13. Juni 2019

150 VIII. Eigenwerttheorie in Innenproduktraumen

(fur den letzten Schritt beachte, dass µ wegen Satz VIII.1.1 reell ist), und ausλ 6= µ folgt jetzt 〈v, w〉 = 0. 2

Um die Hauptraumzerlegung anzuwenden, benotigen wir das folgende wich-tige Lemma.

Lemma VIII.1.3 Sei L ∈ L (V ) selbstadjungiert. Dann gilt

ker(L) = ker(L2). (VIII.1)

Beweis. Die Inklusion”⊂“ ist klar. Gelte umgekehrt L2(v) = 0; dann ist auch

0 = 〈L2(v), v〉 = 〈L(v), L(v)〉 = ‖L(v)‖2,

also L(v) = 0 und v ∈ ker(L). 2

Sei jetzt λ (∈ R!) ein Eigenwert von L. Wendet man Lemma VIII.1.3 aufL − λ Id an (wegen λ ∈ R ist L − λ Id selbstadjungiert), ergibt sich aus Korol-lar VII.4.11, dass der Hauptraum zu λ mit dem Eigenraum ubereinstimmt. Imkomplexen Fall liefert dasselbe Korollar also, dass L diagonalisierbar ist.

Gehen wir einen Schritt weiter. In jedem Eigenraum ker(L− µk Id) wahlenwir eine Orthonormalbasis. Da Eigenvektoren zu verschiedenen Eigenwerten or-thogonal sind (Satz VIII.1.2), erhalt man auf diese Weise eine Orthonormalbasisvon V , die aus Eigenvektoren von L besteht.

Wir fassen zusammen:

Satz VIII.1.4 Zu jeder selbstadjungierten Abbildung L ∈ L (V ) auf einemkomplexen endlichdimensionalen Innenproduktraum gibt es eine Orthonormal-basis von V , die aus Eigenvektoren von L besteht.

Die Matrixversion dieses Satzes lautet so.

Korollar VIII.1.5 Jede selbstadjungierte Matrix A ∈ Cn×n ist unitar ahnlichzu einer Diagonalmatrix, d.h. es existiert eine unitare Matrix U mit U∗AU =diag(λ1, . . . , λn).

Beweis. Es ist nur zu beachten, dass A uberhaupt diagonalisierbar ist (sieheoben!), also S−1AS = diag(λ1, . . . , λn) mit einer geeigneten invertierbaren Ma-trix S, deren Spalten aus den Eigenvektoren zu den λj bestehen. Wahlt man spe-ziell eine Orthonormalbasis aus Eigenvektoren zu LA: x 7→ Ax (Satz VIII.1.4),so sind die Spalten von S orthonormal und bilden deshalb (Korollar VI.3.15) eineunitare Matrix, die mit U statt S bezeichnet sei, und dann ist S−1 = U−1 = U∗

(Letzteres, da U unitar ist). 2

Nun soll der reelle Fall behandelt werden; dieser ist uberschaubarer in derWelt der Matrixdarstellungen zu erklaren. Sei A eine reelle selbstadjungierte

Version vom 13. Juni 2019

VIII.1 Selbstadjungierte Abbildungen und Matrizen 151

Matrix, diese konnen wir als selbstadjungierte Matrix in Cn×n auffassen, diezufallig reelle Eintrage hat. Uber C zerfallt das charakteristische Polynom; abernach Satz VIII.1.1 sind samtliche Nullstellen reell, und χA zerfallt auch in R[X].Damit fuhrt das gleiche Argument wie oben zum reellen Analogon von Ko-rollar VIII.1.5 bzw. Satz VIII.1.4. Im reellen Fall gilt auch die Umkehrungdieser Aussagen, die uber C gewiss nicht gilt (betrachte z.B. L = i Id, sieheSatz VIII.2.5 zur Umkehrung im komplexen Fall); das besagt der nachste Satz.

Satz VIII.1.6 Sei V ein reeller endlichdimensionaler Innenproduktraum, undsei L ∈ L (V ). Genau dann besitzt V eine Orthonormalbasis aus Eigenvektorenvon L, wenn L selbstadjungiert ist.

Beweis. Es ist nur noch die Notwendigkeit der Selbstadjungiertheit zu begrun-den. Sei u1, . . . , un eine Orthonormalbasis aus Eigenvektoren von L. Das be-deutet, dass die Matrixdarstellung M von L bzgl. dieser Basis diagonal ist:M = diag(λ1, . . . , λn) mit den Eigenwerten λ1, . . . , λn, die ja reell sind. Nunhat L∗ die Matrixdarstellung M∗ (Satz VI.3.5), und M = M∗ wegen λj ∈ R.Also ist nach Satz III.3.3 L = L∗, d.h. L ist selbstadjungiert. 2

Korollar VIII.1.7 Genau dann ist eine reelle Matrix A ∈ Rn×n orthogonalahnlich zu einer Diagonalmatrix, d.h. es existiert eine orthogonale Matrix Umit U∗AU = diag(λ1, . . . , λn), wenn A selbstadjungiert ist.

Der folgende Satz beschreibt die Spektralzerlegung selbstadjungierter Abbil-dungen; hier kann K = R oder K = C sein.

Satz VIII.1.8 Sei L ∈ L (V ) selbstadjungiert, sei u1, . . . , un eine Orthonor-malbasis aus Eigenvektoren zu den Eigenwerten λ1, . . . , λn. Dann gilt

L(v) =

n∑j=1

λj〈v, uj〉uj fur alle v ∈ V.

Beweis. Sei v ∈ V . Aus Satz VI.2.7 wissen wir, dass v als∑nj=1〈v, uj〉uj ge-

schrieben werden kann. Es folgt

L(v) =

n∑j=1

〈v, uj〉L(uj) =

n∑j=1

λj〈v, uj〉uj ,

was zu zeigen war. 2

Dieses Resultat kann auch so beschrieben werden. Es seien µ1, . . . , µk diepaarweise verschiedenen Eigenwerte der selbstadjungierten Abbildung L. JederEigenwert werde nach seiner (geometrischen = algebraischen) Vielfachheit wie-derholt; so entsteht (modulo Umordnung) die Eigenwertfolge in Satz VIII.1.8:

(λ1, . . . , λn) = (µ1, . . . , µ1, µ2, . . . , µ2, . . . , µk, . . . , µk),

Version vom 13. Juni 2019

152 VIII. Eigenwerttheorie in Innenproduktraumen

wobei µj insgesamt dj = dim ker(L − µj Id)-mal auftritt. Damit ist {1, . . . , n}in k Blocke Bj zerlegt, die man so beschreiben kann: i ∈ Bj genau dann, wennλi = µj .

Es bezeichne Pj die Orthogonalprojektion auf den Eigenraum ker(L−µj Id).Nach Satz VI.2.10 gilt Pj(v) =

∑i∈Bj〈v, ui〉ui, und daher wird aus der Darstel-

lung von L(v) aus Satz VIII.1.8

L(v) =

k∑j=1

µjPj(v).

Kompakter formuliert gilt folgendes Korollar.

Korollar VIII.1.9 Unter den obigen Voraussetzungen ist

L =

k∑j=1

µjPj . (VIII.2)

Das kann man als Zerlegung der selbstadjungierten Abbildung L in ihreeinfachsten Bestandteile ansehen. Zur Erinnerung: Orthogonalprojektionen sindselbstadjungiert; siehe Beispiel VI.3.10.

Beispiel VIII.1.10 Man bestimme eine Orthonormalbasis des R3 (mit demeuklidischen Skalarprodukt) aus Eigenvektoren der Matrix

A =

0 1 11 0 01 0 0

.

Zur Bestimmung der Eigenwerte von A berechnen wir durch Entwicklung nachder letzten Zeile

χA(λ) = det

−λ 1 11 −λ 01 0 −λ

= det

(1 1−λ 0

)− λdet

(−λ 1

1 −λ

)= λ− λ(λ2 − 1) = −λ(λ2 − 2),

so dass 0,√

2 und −√

2 die Eigenwerte von A sind. Zur Berechnung der Eigen-vektoren benutzen wir Zeilenreduktion:

A− 0E3 =

0 1 11 0 01 0 0

;

1 0 00 1 10 0 0

,

also ist 0−1

1

Version vom 13. Juni 2019

VIII.2 Normale Abbildungen und Matrizen 153

ein Eigenvektor zum Eigenwert 0. Genauso erhalt man

A−√

2E3 =

−√2 1 1

1 −√

2 0

1 0 −√

2

;

−√

2 1 1

0 −√

2 + 1√2

1√2

0 1√2

−√

2 + 1√2

;

−√2 1 10 −1 10 1 −1

;

−√2 1 10 −1 10 0 0

mit einem Eigenvektor √2

11

.

Eine ahnliche Rechnung fur den dritten Eigenwert produziert den Eigenvektor−√211

.

Diese Vektoren sind orthogonal, aber noch nicht normiert. Die gesuchte Ortho-normalbasis ist daher 0

−1/√

2

1/√

2

,

1/√

21/21/2

,

−1/√

21/21/2

.

Ferner erkennt man die Diagonalisierung 0 −1/√

2 1/√

2

1/√

2 1/2 1/2

−1/√

2 1/2 1/2

A

0 1/√

2 −1/√

2

−1/√

2 1/2 1/2

1/√

2 1/2 1/2

=

0 0 0

0√

2 0

0 0 −√

2

.

VIII.2 Normale Abbildungen und Matrizen

Als nachstes werden wir die Diagonalisierbarkeit normaler Abbildungen undMatrizen besprechen. Wir beginnen mit einem Korollar zu Satz VI.3.11. Wei-terhin bezeichnet V einen endlichdimensionalen Innenproduktraum, der diesmalauch komplex sein darf.

Korollar VIII.2.1 Sei L ∈ L (V ) normal. Ist λ ein Eigenwert von L mitEigenvektor v, so ist λ ein Eigenwert von L∗, und v ist ebenfalls ein Eigenvektordazu.

Version vom 13. Juni 2019

154 VIII. Eigenwerttheorie in Innenproduktraumen

Beweis. Das folgt sofort, wenn man Satz VI.3.11 auf die normale AbbildungT = L− λ Id anwendet, denn dieses Resultat liefert 0 = ‖T (v)‖ = ‖T ∗(v)‖; ausL(v) = λv folgt daher L∗(v) = λv. 2

Der nachste Satz ist analog zu Satz VIII.1.2.

Satz VIII.2.2 Sei L ∈ L (V ) normal. Dann sind Eigenvektoren zu verschie-denen Eigenwerten orthogonal.

Beweis. Seien λ 6= µ Eigenwerte von L mit Eigenvektoren v bzw. w, d.h. L(v) =λv und L(w) = µw. Dann gilt

λ〈v, w〉 = 〈λv,w〉 = 〈Lv,w〉= 〈v, L∗w〉 = 〈v, µw〉 = µ〈v, w〉;

im vorletzten Schritt ging Korollar VIII.2.1 ein. Wegen λ 6= µ muss 〈v, w〉 = 0sein. 2

Wir notieren ein weiteres nutzliches Lemma.

Lemma VIII.2.3 Sei L ∈ L (V ) normal, und sei U ⊂ V ein Unterraum. Dannsind folgende Aussagen aquivalent:

(i) L(U) ⊂ U .

(ii) L∗(U) ⊂ U .

(iii) L(U⊥) ⊂ U⊥.

Beweis. (i) ⇒ (ii): Seien u1, . . . , um eine Orthonormalbasis von U und um+1,. . . , un eine Orthonormalbasis von U⊥, so dass u1, . . . , un eine Orthonormalbasisvon V ist. Wegen L(U) ⊂ U ist

L(uk) =

m∑j=1

〈Luk, uj〉uj

sowie

L∗(uk) =

n∑j=1

〈L∗uk, uj〉uj ,

jeweils fur k = 1, . . . ,m. Da L normal ist, muss stets ‖L(uk)‖ = ‖L∗(uk)‖ sein(Satz VI.3.11), daher (Satz VI.2.7)

m∑j=1

|〈Luk, uj〉|2 =

n∑j=1

|〈L∗uk, uj〉|2.

Aber〈L∗uk, uj〉 = 〈uk, Luj〉 = 〈Luj , uk〉,

Version vom 13. Juni 2019

VIII.2 Normale Abbildungen und Matrizen 155

also

m∑k=1

m∑j=1

|〈Luk, uj〉|2 =

m∑k=1

n∑j=1

|〈L∗uk, uj〉|2

=

m∑k=1

m∑j=1

|〈Luj , uk〉|2 +

m∑k=1

n∑j=m+1

|〈L∗uk, uj〉|2

und deshalbm∑k=1

n∑j=m+1

|〈L∗uk, uj〉|2 = 0.

Das zeigt 〈L∗uk, uj〉 = 0 fur k = 1, . . . ,m, j = m+1, . . . , n, mit anderen WortenL∗uk ∈ U⊥⊥ = U fur k = 1, . . . ,m. Das beweist L∗(U) ⊂ U .

(ii) ⇒ (iii): Seien u ∈ U und u⊥ ∈ U⊥. Dann ist

〈u, Lu⊥〉 = 〈L∗u, u⊥〉 = 0,

da L∗u ∈ U . Das zeigt Lu⊥ ∈ U⊥, d.h. L(U⊥) ⊂ U⊥.(iii) ⇒ (i): Da die Implikation (i) ⇒ (iii) schon gezeigt ist, folgt aus (iii),

dass L(U⊥⊥) ⊂ U⊥⊥, also (Korollar VI.2.11) L(U) ⊂ U . 2

Zur Vorbereitung des Hauptsatzes dieses Abschnitts beweisen wir ein weite-res Lemma.

Lemma VIII.2.4 Fur eine normale Abbildung L ∈ L (V ) gilt ker(L2) = ker(L).

Beweis. Eine Inklusion ist klar. Gelte also L2(v) = 0; wir mussen L(v) = 0zeigen. Zunachst ergibt sich aus der Normalitat von L

0 = L∗L∗(L2v) = (L∗L)2(v).

Aber L∗L ist selbstadjungiert, also schließen wir aus Lemma VIII.1.3, dass auch(L∗L)(v) = 0 folgt. Letzteres impliziert

0 = 〈(L∗L)(v), v〉 = 〈Lv, Lv〉 = ‖Lv‖2,

und es folgt L(v) = 0. 2

Wir kommen zum Analogon zu Satz VIII.1.6 fur komplexe Innenprodukt-raume.

Satz VIII.2.5 Sei V ein endlichdimensionaler komplexer Innenproduktraum,und sei L ∈ L (V ). Genau dann besitzt V eine Orthonormalbasis aus Eigenvek-toren von L, wenn L normal ist.

Version vom 13. Juni 2019

156 VIII. Eigenwerttheorie in Innenproduktraumen

Beweis. Wenn L normal ist, zeigt Lemma VIII.2.4, dass das Kriterium ausKorollar VII.4.11 erfullt ist. Daher ist L diagonalisierbar. Nach Satz VIII.2.2sind Eigenvektoren zu verschiedenen Eigenwerten orthogonal. Wahlt man injedem Eigenraum eine Orthonormalbasis, erhalt man auf diese Weise eine Ortho-normalbasis von V , die aus Eigenvektoren von L besteht.

Wenn es umgekehrt eine Orthonormalbasis aus Eigenvektoren von L gibt,hat die bzgl. dieser Matrix darstellende Matrix M Diagonalgestalt. Ferner istM∗ die darstellende Matrix von L∗ (Satz VI.3.5). Da je zwei Diagonalmatrizenkommutieren, folgt aus MM∗ = M∗M auch LL∗ = L∗L (beachte Satz III.3.3und Satz III.3.4), und L ist normal. 2

Ahnlich wie im selbstadjungierten Fall lautet die Matrixversion so.

Korollar VIII.2.6 Ist A eine Matrix uber C, so existiert genau dann eineunitare Matrix U , so dass U∗AU eine Diagonalmatrix ist, wenn A normal ist.

Auch der Spektralsatz ubertragt sich.

Korollar VIII.2.7 Ist L ∈ L (V ) normal und u1, . . . , un eine Orthonormalba-sis von V aus Eigenvektoren (zu den Eigenwerten λ1, . . . , λn), so gilt fur allev ∈ V

L(v) =

n∑j=1

λj〈v, uj〉uj .

Wieder lasst sich diese Formel kompakter als

L =

r∑k=1

µkPk

schreiben mit den paarweise verschiedenen Eigenwerten µ1, . . . , µr und denOrthogonalprojektionen Pk auf die entsprechenden Eigenraume.

Auch die Schur-Darstellung nichtdiagonalisierbarer Abbildungen lasst aufInnenproduktraumen eine prazisere Version zu.

Satz VIII.2.8 Sei V ein endlichdimensionaler Innenproduktraum, und sei L ∈L (V ) eine lineare Abbildung, deren charakteristisches Polynom zerfallt (wasfur K = C immer zutrifft). Dann existiert eine Orthonormalbasis, so dass diezugehorige Matrixdarstellung von L obere Dreiecksgestalt hat.

Beweis. Der Beweis ist praktisch identisch zum Induktionsbeweis fur Satz VII.3.1;der einzige Unterschied ist, dass man mit Orthonormalbasen arbeitet, also (inder Notation des Beweises von Satz VII.3.1) eine Orthonormalbasis b2, . . . , bnvon W = {b1}⊥ wahlt. 2

Mit dieser Sorte Induktionsbeweis lasst sich ubrigens auch die Diagona-lisierbarkeit normaler Abbildungen bzgl. einer Orthonormalbasis zeigen; man

Version vom 13. Juni 2019

VIII.3 Positiv definite Abbildungen und Matrizen 157

benotigt dann Lemma VIII.2.3. Dies ist der in den meisten Lehrbuchern darge-stellte Beweis. Ein weiterer Beweis geht so vor, dass direkt gezeigt wird, dassdie Schur-Darstellung einer normalen Abbildung diagonal ist.

VIII.3 Positiv definite Abbildungen und Matri-zen

Wir wollen in diesem Abschnitt eine wichtige Klasse selbstadjungierter Abbil-dungen bzw. Matrizen studieren. V bezeichnet einen endlichdimensionalen In-nenproduktraum.

Definition VIII.3.1 Eine selbstadjungierte Abbildung L ∈ L (V ) heißt positivsemidefinit, wenn

〈v, L(v)〉 ≥ 0 fur alle v ∈ V ;

L heißt positiv definit, wenn

〈v, L(v)〉 > 0 fur alle v ∈ V, v 6= 0.

Analog ist positive (Semi-) Definitheit bei Matrizen erklart.

Einige Bemerkungen zu dieser Definition:

(1) Fur selbstadjungiertes L ist 〈v, L(v)〉 immer reell (denn 〈v, L(v)〉 =〈L(v), v〉 = 〈v, L(v)〉).

(2) Fur komplexe Innenproduktraume gilt auch die Umkehrung von (1) (sodass sich in diesem Fall die vorausgesetzte Selbstadjungiertheit automatisch ausder Definitheits-Bedingung ergibt). Um dies einzusehen, betrachte eine lineareAbbildung L mit 〈v, L(v)〉 ∈ R fur alle v in einem Innenproduktraum uber C.Setze L2 = i(L− L∗); dann ist L2 selbstadjungiert, und es gilt

〈v, L2(v)〉 = −i(〈v, L(v)〉 − 〈L(v), v〉) = −i(〈v, L(v)〉 − 〈v, L(v)〉) = 0

nach Voraussetzung uber L. Also ist 〈v, L2(v)〉 = 0 fur alle v. Insbesonderesind alle Eigenwerte = 0 (warum?), und die Spektralzerlegung aus Satz VIII.1.8liefert L2 = 0, d.h. L = L∗.

(3) In Beispiel VI.1.2(b) haben wir schon Bekanntschaft mit positiv definitenreellen Matrizen gemacht.

(4) Weiterhin ist fur jedes L ∈ L (V,W ) die Abbildung L∗L positiv se-midefinit auf V und LL∗ positiv semidefinit auf W . (Hier ist W ein weitererInnenproduktraum.)

In Bemerkung (2) oben sind wir auf eine Kernaufgabe der Eigenwerttheoriegestoßen: Was sagen die Eigenwerte einer Abbildung bzw. Matrix uber dieseaus? Oben haben wir benutzt: An den Eigenwerten einer selbstadjungierten

Version vom 13. Juni 2019

158 VIII. Eigenwerttheorie in Innenproduktraumen

Abbildung kann man ablesen, ob diese = 0 ist. Von ahnlicher Bauart (abervollkommen trivial) ist: An den Eigenwerten einer linearen Abbildung kann manablesen, ob diese invertierbar ist. (Warum ist das trivial?) In dieselbe Richtungweist der nachste Satz.

Satz VIII.3.2 Eine selbstadjungierte Abbildung bzw. Matrix ist genau dannpositiv semidefinit, wenn alle Eigenwerte nichtnegativ (also ≥ 0) sind; sie istgenau dann positiv definit, wenn alle Eigenwerte positiv (also > 0) sind.

Beweis. Wir zeigen nur den Teil uber die positive Definitheit; der andere Teilist vollkommen analog.

Sei zuerst L ∈ L (V ) positiv definit, und sei λ ein (reeller!) Eigenwert vonL mit Eigenvektor v. Dann gilt

0 < 〈v, L(v)〉 = 〈v, λv〉 = λ‖v‖2

und deshalb λ > 0.Umgekehrt sei u1, . . . , un eine Orthonormalbasis von V aus Eigenvektoren

(zu den positiven Eigenwerten λ1, . . . , λn) von L; schreibe dann ein v ∈ V \ {0}als v =

∑nj=1〈v, uj〉uj , wo mindestens eines der auftretenden Skalarprodukte

6= 0 ist (denn v 6= 0). Dann ist L(v) =∑nk=1 λk〈v, uk〉uk (vgl. Satz VIII.1.8),

und es folgt durch Einsetzen dieser Terme

〈v, L(v)〉 =⟨ n∑j=1

〈v, uj〉uj ,n∑k=1

λk〈v, uk〉uk⟩

=

n∑j=1

〈v, uj〉n∑k=1

λk〈v, uk〉〈uj , uk〉

=

n∑j=1

λj〈v, uj〉〈v, uj〉

=

n∑j=1

λj |〈v, uj〉|2 > 0,

denn alle Summanden sind ≥ 0 und mindestens einer > 0. 2

In der Analysis, genauer bei den Extremwertaufgaben fur Funktionen meh-rerer Veranderlicher, benotigt man ein Kriterium fur positive Definitheit vonMatrizen. Dieses werden wir in Satz VIII.3.7 beweisen, wofur einige an sich in-teressante Vorbereitungen notwendig sind. Die erste ist das Minimaxprinzip vonCourant, Fischer und Weyl.

Im Folgenden ist V ein endlichdimensionaler Innenproduktraum sowie L ∈L (V ) selbstadjungiert. Wir ordnen die (reellen!) in ihrer Vielfachheit gezahltenEigenwerte von L der Große nach an: λ1 ≥ . . . ≥ λn. Eine zugehorige Ortho-normalbasis sei u1, . . . , un. Mit diesen Bezeichnungen gilt folgendes Lemma.

Version vom 13. Juni 2019

VIII.3 Positiv definite Abbildungen und Matrizen 159

Lemma VIII.3.3 Sei W ⊂ V ein k-dimensionaler Unterraum. Dann existiertw ∈W mit ‖w‖ = 1 und 〈w,L(w)〉 ≤ λk.

Beweis. Sei Z = lin{uk, . . . , un}, so dass dimZ = n − k + 1. Es ist dimW +dimZ > n = dimV , also ist W ∩ Z 6= {0} (Korollar II.4.3). Wahle w ∈ W ∩ Zmit ‖w‖ = 1. Wir konnen dann w =

∑nj=k cjuj mit

∑nj=k |cj |2 = 1 schreiben

(namlich cj = 〈w, uj〉; siehe Satz VI.2.7). Dann ist

〈w,L(w)〉 =

n∑j=k

cj

n∑l=k

λlcl〈uj , ul〉 =

n∑j=k

λj |cj |2 ≤ λkn∑j=k

|cj |2 = λk,

was zu zeigen war. 2

Satz VIII.3.4 (Minimaxprinzip)Mit den obigen Bezeichnungen gilt fur k = 1, . . . , n

λk = maxdimW=k

minw∈W,‖w‖=1

〈w,L(w)〉.

Das Maximum wird bei W = lin{u1, . . . , uk} angenommen.

Beweis. Dass das innere Minimum tatsachlich angenommen wird, lehrt die Ana-lysis, da w 7→ 〈w,L(w)〉 stetig und {w ∈ W : ‖w‖ = 1} kompakt ist. Nun zumeigentlichen Beweis.

”≥“ folgt aus Lemma VIII.3.3.

”≤“: Setze W = lin{u1, . . . , uk}. Sei w ∈ W mit ‖w‖ = 1, also w =∑k

j=1 cjuj mit∑kj=1 |cj |2 = 1. Dann gilt (vgl. den Beweis von Lemma VIII.3.3)

〈w,L(w)〉 =

k∑j=1

λj |cj |2 ≥ λkk∑j=1

|cj |2 = λk.

Daraus folgt auch der Zusatz. 2

Korollar VIII.3.5 Mit den obigen Bezeichnungen gilt

λk = mindimW=n+1−k

maxw∈W,‖w‖=1

〈w,L(w)〉.

Beweis. Wende Satz VIII.3.4 auf −L an. 2

Es sei jetzt A eine selbstadjungierte n×n-Matrix, und die (n− 1)× (n− 1)-Matrix B entstehe, wenn man in A die letzte Zeile und die letzte Spalte streicht;also ist auch B selbstadjungiert. Wir wollen die Eigenwerte λ1 ≥ . . . ≥ λn vonA mit den Eigenwerten µ1 ≥ . . . ≥ µn−1 von B vergleichen.

Satz VIII.3.6 (Cauchyscher Verschrankungssatz)Es gilt λ1 ≥ µ1 ≥ λ2 ≥ µ2 ≥ · · · ≥ µn−1 ≥ λn.

Version vom 13. Juni 2019

160 VIII. Eigenwerttheorie in Innenproduktraumen

Beweis. Sei k ∈ {1, . . . , n− 1}. Seien v1, . . . , vk ∈ Kn−1 orthonormale Eigenvek-toren von B zu den Eigenwerten µ1, . . . , µk; setze W = lin{v1, . . . , vk} ⊂ Kn−1.Aus Satz VIII.3.4 folgt

µk = minw∈W,‖w‖=1

〈w,Bw〉.

Nun konnen wir Elemente von Kn−1 via v = (t1, . . . , tn−1) 7→ v = (t1, . . . , tn−1, 0)auch als Elemente von Kn auffassen; dann ist 〈v, Av〉 = 〈v,Bv〉 und deswegenin selbsterklarender Notation

µk = minw∈W ,‖w‖=1

〈w, Aw〉 ≤ λk,

wobei die letzte Abschatzung durch eine erneute Anwendung von Satz VIII.3.4zustande kommt.

Wendet man das auf −A und −B an, erhalt man −µk ≤ −λk+1 (!), d.h.λk+1 ≤ µk. 2

Jetzt konnen wir das angekundigte Definitheitskriterium beweisen.

Satz VIII.3.7 Sei A eine selbstadjungierte n× n-Matrix, und sei Ar die Ma-trix, die nach Streichen der letzten n − r Zeilen und Spalten von A entsteht.Dann ist A genau dann positiv definit, wenn detAr > 0 fur r = 1, . . . , n ist.

Die Zahlen detAr heißen die Hauptminoren von A; zum Begriff des Minorssiehe Satz IV.3.4.

Beweis. Ist A positiv definit, dann auch alle Ar; man muss nur Vektoren x derForm (hier platzsparend in Zeilenform geschrieben) x = (s1, . . . , sr, 0, . . . , 0)in 〈x,Ax〉 einsetzen. Da die Determinante einer selbstadjungierten Matrix dasProdukt ihrer Eigenwerte ist (warum?), folgt aus Satz VIII.3.2 stets detAr > 0.

Die Umkehrung zeigen wir durch vollstandige Induktion nach n. Hier istder Fall n = 1 klar. Um von n − 1 auf n zu schließen, beobachten wir, dassnach Induktionsvoraussetzung An−1 positiv definit ist, also Eigenwerte > 0 hat.Satz VIII.3.6 impliziert dann, dass die n−1 großten Eigenwerte von A ebenfalls> 0 sind. Wegen detA > 0 ist aber auch der letzte Eigenwert von A positiv, denndie Determinante ist das Produkt der Eigenwerte. Wiederum nach Satz VIII.3.2ist A positiv definit. 2

Dieses Kriterium ist besonders handlich fur 2× 2-Matrizen:

A =

(a bb d

)ist genau dann positiv definit, wenn a > 0 und detA > 0 (d.h. ad > b2).

Version vom 13. Juni 2019

VIII.4 Die Singularwertzerlegung 161

Das Analogon von Satz VIII.3.7 fur positiv semidefinite Matrizen stimmtnicht: Fur die Matrix (

0 00 −1

)sind alle Hauptminoren≥ 0, aber sie ist nicht positiv semidefinit (warum nicht?);die andere (weniger interessante) Implikation bleibt richtig, siehe den obigenBeweis.

Der letzte Satz dieses Abschnitts ist der Sylvestersche Tragheitssatz.

Satz VIII.3.8 Ist A eine selbstadjungierte und S eine invertierbare n × n-Matrix, so haben A und S∗AS gleich viele positive Eigenwerte.

Beweis. Nach dem Minimaxprinzip (Satz VIII.3.4) besitzt A mindestens r po-sitive Eigenwerte (also Eigenwerte > 0) genau dann, wenn ein r-dimensionalerUnterraum W ⊂ Kn mit 〈w,Aw〉 > 0 auf W \ {0} existiert.

Sei nun r die Anzahl der positiven Eigenwerte von A, und sei W ein r-dimensionaler Unterraum mit 〈w,Aw〉 > 0 auf W \ {0}. Dann ist auch W ′ :={S−1w: w ∈ W} ein r-dimensionaler Unterraum, und fur w′ 6= 0 in W ′ mitSw′ = w ∈W \ {0} gilt

〈w′, S∗ASw′〉 = 〈Sw′, A(Sw′)〉 > 0.

Ist r die Anzahl der positiven Eigenwerte von A := S∗AS, so haben wir ge-rade r ≥ r gezeigt. Da A = (S−1)∗AS−1, folgt aus Symmetriegrunden r ≥ r,zusammen r = r, was zu zeigen war. 2

Die Matrizen A und S∗AS mit invertierbarem S heißen kongruent. Im Ge-gensatz zu ahnlichen Matrizen brauchen kongruente Matrizen nicht dieselbenEigenwerte zu haben, aber die

”Signatur“ bleibt invariant.

VIII.4 Die Singularwertzerlegung

Als nachstes versuchen wir, eine Art Diagonalisierung von nichtnormalen Ab-bildungen und Matrizen zu konstruieren, die sogar zwischen verschiedenen In-nenproduktraumen operieren durfen.

Wir beginnen damit, Wurzeln aus linearen Abbildungen (bzw. Matrizen) zuziehen.

Satz VIII.4.1 Zu jeder positiv semidefiniten Abbildung L ∈ L (V ) auf einemendlichdimensionalen Innenproduktraum existiert eine eindeutig bestimmte po-sitiv semidefinite Abbildung S ∈ L (V ) mit S2 = L.

Version vom 13. Juni 2019

162 VIII. Eigenwerttheorie in Innenproduktraumen

Beweis. Schreibe die Spektralzerlegung der selbstadjungierten Abbildung L ge-maß Korollar VIII.1.9 als

L =

r∑j=1

µjPj ,

wo die paarweise verschiedenen Eigenwerte µ1, . . . , µr stets ≥ 0 sind (sieheSatz VIII.3.2) und Pj die Orthogonalprojektion auf den zugehorigen Eigenraumbezeichnet. Daher konnen wir eine lineare Abbildung S ∈ L (V ) durch

S =

r∑j=1

õjPj

definieren. Man bestatigt sofort durch Nachrechnen, dass S selbstadjungiert undpositiv semidefinit mit S2 = L ist. (Zur Erinnerung: Pj ist selbstadjungiert,Beispiel VI.3.10.)

Sei nun T eine weitere positiv semidefinite Abbildung mit T 2 = L mit denpaarweise verschiedenen Eigenwerten ν1, . . . , νs, die allesamt ≥ 0 sind. Ist v einEigenvektor von T zu νj , so ist

Lv = T 2v = ν2j v;

also ist ν2j ein Eigenwert von L, sagen wir µk. Gleichzeitig haben wir fur die

Eigenraumeker(T − νj Id) ⊂ ker(L− µk Id)

gezeigt. Das liefert s ≤ r und dim ker(T − νj Id) ≤ dim ker(L− µk Id), denn µk

”gehort“ zu keinem anderen Eigenwert νl, da Letztere ≥ 0 sind. Weil T und L

diagonalisierbar sind, ist andererseits

V = ker(T − ν1 Id)⊕ · · · ⊕ ker(T − νs Id) = ker(L− µ1 Id)⊕ · · · ⊕ ker(L− µr Id)

und deshalb (siehe (II.3) auf Seite 45)

s∑j=1

dim ker(T − νj Id) =

r∑k=1

dim ker(L− µk Id).

Deshalb muss r = s und dim ker(T−νj Id) = dim ker(L−µk Id) sowie schließlichnach passender Umnummerierung ker(T −νj Id) = ker(L−µj Id) sein. Das zeigtT = S. 2

Die im letzten Satz konstruierte Abbildung bezeichnen wir mit L1/2.

Definition VIII.4.2 Sei L ∈ L (V,W ) eine lineare Abbildung zwischen denendlichdimensionalen Innenproduktraumen V und W . Wir setzen

|L| = (L∗L)1/2 ∈ L (V ).

Version vom 13. Juni 2019

VIII.4 Die Singularwertzerlegung 163

Zur Erinnerung: L∗L ∈ L (V ) ist stets positiv semidefinit.Jetzt kommen wir zur Polarzerlegung einer linearen Abbildung, die an die

Polarzerlegung z = eiϕ|z| komplexer Zahlen erinnern sollte.

Satz VIII.4.3 (Polarzerlegung)Ist L ∈ L (V,W ) eine lineare Abbildung zwischen den endlichdimensionalenInnenproduktraumen V und W , so existiert eine orthogonale bzw. unitare Ab-bildung U : ran |L| → ranL mit L = U |L|.

Beweis. Es gibt nur eine Chance, U zu definieren, namlich durch |L|(v) 7→ L(v);es ist zu uberprufen, dass dieser Ansatz wohldefiniert ist, d.h., dass aus |L|(v1) =|L|(v2) auch L(v1) = L(v2) folgt. Das sieht man durch folgende Rechnung:

‖ |L|(v) ‖2 = 〈|L|(v), |L|(v)〉 = 〈v, |L|2(v)〉= 〈v, (L∗L)(v)〉 = 〈L(v), L(v)〉 = ‖L(v)‖2.

Das zeigt erstens die oben angesprochene Wohldefiniertheit (denn |L|(v1−v2) =0 genau dann, wenn L(v1 − v2) = 0) und zweitens, dass U linear ist (warum?).Nach Konstruktion ist U : |L|(v) 7→ L(v) von ran |L| nach ranL surjektiv, undwie gerade nachgerechnet ist U normerhaltend. Nach Satz VI.3.14 ist U ortho-gonal bzw. unitar. Schließlich ist konstruktionsgemaß L = U |L|. 2

Jetzt ist es nur noch ein kleiner Schritt zur Singularwertzerlegung.

Definition VIII.4.4 Die in ihrer Vielfachheit gezahlten Eigenwerte von |L| ∈L (V ) heißen die singularen Werte von L ∈ L (V,W ). Diese sind stets ≥ 0, undublicherweise stellt man sie sich als der Große nach angeordnet vor: σ1 ≥ σ2 ≥. . . ≥ σn ≥ 0.

Im Kontext von Definition VIII.4.4 sei r := rg(L) = dim ranL = dim ran |L| =rg(|L|); also hat man σ1 ≥ . . . ≥ σr > σr+1 = . . . = σn = 0.

Satz VIII.4.5 (Singularwertzerlegung)Sei L ∈ L (V,W ) mit den singularen Werten σ1 ≥ σ2 ≥ . . . ≥ σn ≥ 0. Es seiendimV = n, dimW = m und r = rg(L). Dann existieren Orthonormalbasenf1, . . . , fn von V und g1, . . . , gm von W mit

L(v) =

r∑j=1

σj〈v, fj〉gj fur alle v ∈ V.

Beweis. Sei

|L|(v) =

n∑j=1

σj〈v, fj〉fj =

r∑j=1

σj〈v, fj〉fj

die Spektralzerlegung der selbstadjungierten Abbildung |L|; vgl. Satz VIII.1.8.Schreibe L = U |L| gemaß Satz VIII.4.3, und setze gj = U(fj) fur j = 1, . . . , r,

Version vom 13. Juni 2019

164 VIII. Eigenwerttheorie in Innenproduktraumen

also wenn σj 6= 0. Da U orthogonal bzw. unitar ist, sind auch die gj orthonormal.Dieses Orthonormalsystem aus r Vektoren kann zu einer Orthonormalbasis vonW erganzt werden. Damit folgt die Behauptung. 2

Wir wollen die Singularwertzerlegung in der Version fur Matrizen diskutie-ren, also fur Abbildungen x 7→ Ax. Dazu ist folgende Bemerkung hilfreich. Seienx und y (Spalten-) Vektoren in Kn. Diese konnen wir uns auch als n×1-Matrizenvorstellen; dann ist das euklidische Skalarprodukt 〈x, y〉e nichts anderes als dasMatrixprodukt y∗x, wenn man diese 1× 1-Matrix als Element von K auffasst:

〈x, y〉e = y∗x.

Satz VIII.4.6 (Singularwertzerlegung einer Matrix)Sei A ∈ Km×n. Dann existieren eine orthogonale bzw. unitare n× n-Matrix Φ,eine orthogonale bzw. unitare m×m-Matrix Ψ und eine m× n-DiagonalmatrixΣ mit

A = ΨΣΦ∗.

Wie im quadratischen Fall nennen wir Σ = (σkl) eine Diagonalmatrix, wennσkl = 0 fur k 6= l.

Beweis. Wir ubersetzen die Darstellung aus Satz VIII.4.5. Mit Hilfe der Ortho-normalbasis f1, . . . , fn von Kn bilden wir die n× n-Matrix Φ = (f1 . . . fn), dieorthogonal bzw. unitar ist, weil ihre Spalten orthonormal sind. Genauso bildenwir die m × m-Matrix Ψ = (g1 . . . gm), und es sei Σ die m × n-Matrix mitσkk = σk fur k ≤ rg(A) =: r und σkl = 0 sonst. Nach der Vorbemerkung ist

Φ∗x =

〈x, f1〉...

〈x, fn〉

sowie ΣΦ∗x =

σ1〈x, f1〉...

σr〈x, fr〉0...0

und

ΨΣΦ∗x =

r∑j=1

σj〈x, fj〉gj =

m∑j=1

σj〈x, fj〉gj = Ax.

Das war zu zeigen. 2

Die Singularwertzerlegung ist ein bedeutsames Hilfsmittel in der Datenkom-pression, z.B. bei der Bildverarbeitung. Ein digitales (Schwarzweiß-) Foto kannman sich als m × n-Matrix vorstellen (z.B. m = 400, n = 600), deren Eintragedie Graustufen der einzelnen Pixel sind, also ganze Zahlen zwischen 0 und 255.

Version vom 13. Juni 2019

VIII.4 Die Singularwertzerlegung 165

(Bei einem Farbfoto sind es drei solche Matrizen, je eine fur den Rot-, Grun-bzw. Blauwert.) Ein Schwarzweißbild ist demnach durch m ·n Zahlen bestimmt.

Betrachten wur nun die Singularwertzerlegung von A. Diese ist durch dieVektoren f1, . . . , fn, g1, . . . , gm und die Singularwerte σ1, . . . , σn festgelegt (ty-pischerweise hat die Matrix eines Digitalbilds vollen Rang); das sind insgesamtn2 +m2 + r Zahlen, also deutlich mehr als die ursprunglichen m · n Eintrage.

Nun wollen wir versuchen, unser Bild (also die Matrix A) approximativ miterheblich wenger als m · n Zahlen zu beschreiben. Die Idee hierbei ist, statt derexakten Darstellung

Ax =

m∑j=1

σj〈x, fj〉gj

in der Singularwertzerlegung nur die ersten ρ Summanden zu betrachten, alsoA durch Aρ mit

Aρx =

ρ∑j=1

σj〈x, fj〉gj

zu ersetzen. Die Intuition hinter diesem Ansatz ist, dass der Beitrag der Sum-manden σj〈x, fj〉gj unerheblich ist, wenn σj klein ist. In der Darstellung A =ΨΣΦ∗ bedeutet das, dass nur die ersten ρ Spalten von Ψ und Φ benutzt wer-den, und dafur sind nur ρm + ρn + ρ ≈ ρ(m + n) Informationen notwendig.Fur ein Bild im Format 400× 600 Pixel erhalt man in Abhangigkeit von ρ eineKompressionsrate von ungefahr m·n

ρ(m+n) = 240ρ .

Hier ein Beispiel. Die folgende Abbildung (aufgenommen 1996 in San Fran-cisco) entspricht einer Matrix im Format 690×484 (= 333 960 Pixel). Sie hat vol-len Rang (= 484). Links ist das Original, daneben stehen die Approximationenmit den 140 bzw. 70 bzw. 40 großten Singularwerten, was zu Kompressionsratenvon 2.07 bzw. 4.06 bzw. 7.11 fuhrt.

Version vom 13. Juni 2019

166 VIII. Eigenwerttheorie in Innenproduktraumen

Mathematische Softwarepakete wie Matlab, Maple oder Mathematica habeneingebaute Routinen, um die Singularwertzerlegung einer Matrix zu berechnen.Auf verschiedenen Seiten im Internet1 kann man Experimente zur Bildkompres-sion mittels Singularwertzerlegung selbst durchfuhren.

VIII.5 Die Norm einer Matrix

Sei A = (ajk) eine m×n-Matrix; dann konnen wir A auch als Element von Rmnansehen und die euklidische Norm

‖A‖2 =( m∑j=1

n∑k=1

|ajk|2)1/2

betrachten, die auch Frobenius-Norm oder Hilbert-Schmidt-Norm vonA genanntwird. Es ist jedoch haufig sinnvoll, A auf andere Weise zu normieren.

Dazu sei x = (xk) ∈ Rn. Dann ist

‖Ax‖22 =

m∑j=1

|(Ax)j |2 =

m∑j=1

∣∣∣ n∑k=1

ajkxk

∣∣∣2≤

m∑j=1

( n∑k=1

|ajk|2)( n∑

k=1

|xk|2)

= ‖A‖22‖x‖22,

wobei in der zweiten Zeile die Cauchy-Schwarzsche Ungleichung einging. Mitanderen Worten ist

‖Ax‖2 ≤ ‖A‖2‖x‖2 fur alle x ∈ Rn. (VIII.3)

Nun ist ‖A‖2 in der Regel nicht die beste Konstante in dieser Ungleichung; dieseerscheint in der folgenden Definition.

Definition VIII.5.1 Die kleinste Konstante C, die in der Ungleichung

‖Ax‖2 ≤ C‖x‖2 fur alle x ∈ Rn

zulassig ist, heißt die Operatornorm oder Matrixnorm von A; Bezeichnung:‖A‖op.

Mit anderen Worten ist

‖A‖op = supx 6=0

‖Ax‖2‖x‖2

= sup‖x‖2=1

‖Ax‖2 (VIII.4)

1Z.B. http://timbaumann.info/svd-image-compression-demo/.

Version vom 13. Juni 2019

VIII.5 Die Norm einer Matrix 167

und‖Ax‖2 ≤ ‖A‖op‖x‖2 fur alle x ∈ Rn.

In (VIII.4) ist das erste Gleichheitszeichen einfach die Definition des Supre-mums, und fur das zweite beachte man

‖Ax‖2‖x‖2

=∥∥∥A( x

‖x‖2

)∥∥∥.In der Tat weiß man aus der Analysis, dass das oben auftretende Supremumsogar ein Maximum ist, da {x ∈ Rn: ‖x‖2 = 1} kompakt und x 7→ ‖Ax‖2 stetigist.

Wir wollen nun begrunden, dass in Definition VIII.5.1 tatsachlich eine Normdefiniert wurde (wie es der Name bereits nahelegt), die sich jedoch im Gegensatzzur euklidischen Norm nicht von einem Skalarprodukt ableitet. (Zur Definitioneiner Norm siehe Definition VI.1.5.)

Satz VIII.5.2 Die Abbildung A 7→ ‖A‖op ist eine Norm auf dem VektorraumKm×n.

Beweis. Aus der Definition ergibt sich sofort, dass A = 0 genau dann gilt, wenn‖A‖op = 0 ist. Ferner zeigt (VIII.4) unmittelbar, dass stets ‖λA‖op = |λ|‖A‖op

gilt, und auch die Dreiecksungleichung erhalten wir einfach:

‖(A+B)x‖2 = ‖Ax+Bx‖2≤ ‖Ax‖2 + ‖Bx‖2≤ ‖A‖op‖x‖2 + ‖B‖op‖x‖2= (‖A‖op + ‖B‖op)‖x‖2,

daher ist die beste Konstante in der Ungleichung ‖(A + B)x‖2 ≤ C‖x‖2, also‖A+B‖op, hochstens so groß wie die gerade gefundene:

‖A+B‖op ≤ ‖A‖op + ‖B‖op. 2

Den Zusammenhang der beiden Normen einer Matrix A beschreibt das fol-gende Lemma.

Lemma VIII.5.3 Fur eine m× n-Matrix A gilt

‖A‖op ≤ ‖A‖2 ≤√n‖A‖op.

Beweis. Die linke Ungleichung wurde schon am Anfang des Abschnitts be-grundet. Nun berechnen wir ‖Ax‖2, wenn x = ek der k-te Einheitsvektor ist.Wir erhalten

m∑j=1

|ajk|2 = ‖Aek‖22 ≤ ‖A‖2op‖ek‖22 = ‖A‖2op

Version vom 13. Juni 2019

168 VIII. Eigenwerttheorie in Innenproduktraumen

und daraus

‖A‖22 =

m∑j=1

n∑k=1

|ajk|2 ≤ n‖A‖2op.

Das war zu zeigen. 2

Beispiel VIII.5.4 Sei m = n und A = diag(λ1, . . . , λn). Es ist Ax = (λjxj)jund deshalb

‖Ax‖22 =

n∑j=1

|λj |2|xj |2 ≤ maxj|λj |2

n∑j=1

|xj |2

sowie‖A‖op ≤ max

j|λj |.

Indem man die Einheitsvektoren einsetzt, sieht man sogar

‖A‖op = maxj|λj |,

wahrend

‖A‖2 =( n∑j=1

|λj |2)1/2

.

Es folgen einige allgemeine Aussagen uber die Matrixnorm.

Lemma VIII.5.5 Fur A ∈ Km×n und B ∈ Kn×p gilt

‖AB‖op ≤ ‖A‖op‖B‖op.

Beweis. Es ist fur x ∈ Rp

‖(AB)x‖2 = ‖A(Bx)‖2 ≤ ‖A‖op‖Bx‖2 ≤ ‖A‖op‖B‖op‖x‖2und deshallb ‖AB‖op ≤ ‖A‖op‖B‖op. 2

Im Allgemeinen gilt hier die echte Ungleichung; Beispiel:

m = n = p = 2, A = B =

(0 10 0

), AB = 0, ‖A‖op = ‖B‖op = 1.

Lemma VIII.5.6 Fur A ∈ Km×n gilt ‖A∗‖op = ‖A‖op.

Beweis. Wir setzen in 〈Ax, y〉 = 〈x,A∗y〉 fur x den Vektor A∗y ein (y ∈ Kmbeliebig) und erhalten mit der Cauchy-Schwarzschen Ungleichung

‖A∗y‖22 = 〈A∗y,A∗y〉 = 〈AA∗y, y〉 ≤ ‖A(A∗y)‖2‖y‖2 ≤ ‖A‖op‖A∗y‖2‖y‖2sowie daraus

‖A∗y‖2 ≤ ‖A‖op‖y‖2,was ‖A∗‖op ≤ ‖A‖op liefert. Wegen A∗∗ = A folgt auch die umgekehrte Unglei-chung. 2

Version vom 13. Juni 2019

VIII.5 Die Norm einer Matrix 169

Lemma VIII.5.7 Fur A ∈ Km×n gilt ‖A∗A‖op = ‖AA∗‖op = ‖A‖2op.

Beweis. Wir betrachten zuerst A∗A; dann folgt ‖A∗A‖op ≤ ‖A‖2op aus Lem-ma VIII.5.5 und Lemma VIII.5.6. Umgekehrt ist fur x ∈ Kn

‖Ax‖22 = 〈Ax,Ax〉 = 〈A∗Ax, x〉 ≤ ‖A∗Ax‖2‖x‖2 ≤ ‖A∗A‖op‖x‖22,

also ‖A‖op ≤ ‖A∗A‖1/2op , wie behauptet.Daher gilt auch ‖AA∗‖op = ‖A∗‖op = ‖A‖op wegen Lemma VIII.5.6. 2

Fur selbstadjungierte Matrizen hat man also ‖A2‖op = ‖A‖2op.Die Ideen dieses Abschnitts lassen sich auch fur lineare Abbildungen ausspre-

chen. Im Weiteren seien V und W endlichdimensionale Innenproduktraume. Wirerklaren dann in Analogie zu Definition VIII.5.1:

Definition VIII.5.8 Fur L ∈ L (V,W ) sei ‖L‖op, die Operatornorm von L,die kleinste Konstante in der Ungleichung

‖L(v)‖ ≤ C‖v‖ fur alle v ∈ V,

d.h.

‖L‖op = supv 6=0

‖L(v)‖‖v‖

= sup‖v‖=1

‖L(v)‖.

Dass dies wohldefiniert ist und dass sich samtliche Resultate, die in die-sem Abschnitt uber Matrizen formuliert wurden, auch im Kontext der linearenAbbildungen reproduzieren lassen, zeigt der nachste Satz zusammen mit denaus Abschnitt III.3 bekannten Aussagen uber darstellende Matrizen. Naturlichlassen sich Lemma VIII.5.5–VIII.5.7 fur lineare Abbildungen in Analogie zumMatrixfall auch direkt beweisen.

Satz VIII.5.9 Seien B = (v1, . . . , vn) eine Orthonormalbasis von V , B′ = (w1,. . . , wm) eine Orthonormalbasis von W , L ∈ L (V,W ) und A = M(L;B.B′)die bzgl. dieser Orthonormalbasen darstellende Matrix von L. Dann ist ‖L‖op =‖A‖op.

Beweis. Es sind nur folgende Beobachtungen zu kombinieren. Nach Definitionstimmen ‖LA‖op und ‖A‖op uberein. (Wie ublich ist LA(x) = Ax.) Ferner ist inder Bezeichnung von (III.2) auf Seite 54 LA = K−1

B′ LKB , wo KB : Kn → V undKB′ : Km → W die Koordinatenabbildungen sind, die nach Satz VI.2.7 norm-erhaltend sind. Daher ist stets ‖KBx‖ = ‖x‖2 und ‖K−1

B′ LKBx‖2 = ‖LKBx‖.Deshalb gilt ‖LA(x)‖2 ≤ C‖x‖2 fur alle x ∈ Kn genau dann, wenn ‖L(v)‖ ≤C‖v‖ fur alle v ∈ V . 2

Das letzte Ziel dieses Abschnitts ist es, die Eigenwerte einer Matrix bzw.linearen Abbildung gegen ihre Norm abzuschatzen.

Version vom 13. Juni 2019

170 VIII. Eigenwerttheorie in Innenproduktraumen

Satz VIII.5.10 Sei λ ∈ K ein Eigenwert der quadratischen Matrix A. Danngilt |λ| ≤ ‖A‖op. Eine analoge Aussage gilt fur L ∈ L (V ).

Beweis. Es existiert ein x 6= 0 mit Ax = λx; also ist

|λ| = ‖Ax‖‖x‖

≤ ‖A‖op,

wie behauptet. 2

Man nennt

r(A) = max{|λ|: λ Eigenwert von A}

den Spektralradius von A (analog fur L ∈ L (V )); also besagt Satz VIII.5.10

r(A) ≤ ‖A‖op bzw. r(L) ≤ ‖L‖op.

Im selbstadjungierten bzw. normalen Fall kann man noch mehr aussagen.

Satz VIII.5.11 Ist A ∈ Kn×n selbstadjungiert (K = R) oder auch bloß normal(K = C), so ist r(A) = ‖A‖op. Eine analoge Aussage gilt fur lineare Abbildun-gen.

Beweis. Wir fuhren den Beweis diesmal im Fall L ∈ L (V ). Die Spektral-zerlegung (Satz VIII.1.8 bzw. Korollar VIII.2.7) liefert eine Orthonormalbasisu1, . . . , un aus Eigenvektoren zu den Eigenwerten λ1, . . . , λn, so dass

L(v) =

n∑j=1

λj〈v, uj〉uj fur alle v ∈ V.

Daher ist

‖L(v)‖2 =

n∑j=1

|λj |2|〈v, uj〉|2 ≤ r(L)2n∑j=1

|〈v, uj〉|2 = r(L)2‖v‖2.

Das zeigt ‖L‖op ≤ r(L); und die umgekehrte Ungleichung kennen wir bereitsaus Satz VIII.5.10. 2

Fur die Singularwerte konnen wir noch folgende Aussage treffen.

Satz VIII.5.12 Fur L ∈ L (V,W ) ist σ1 = ‖L‖op.

Beweis. Nach Konstruktion ist σ21 der großte Eigenwert von L∗L; also σ2

1 =‖L∗L‖op nach Satz VIII.5.11. Ferner ist ‖L∗L‖op = ‖L‖2op nach Lemma VIII.5.7.Das zeigt die Behauptung. 2

Version vom 13. Juni 2019

VIII.6 Die Methode der kleinsten Quadrate 171

VIII.6 Die Methode der kleinsten Quadrate

Das erste Resultat dieses Abschnitts beschreibt eine Minimaleigenschaft derOrthogonalprojektion.

Satz VIII.6.1 Seien V ein Innenproduktraum, U ein endlichdimensionalerUnterraum, PU die Orthogonalprojektion auf U und v0 ∈ V . Dann gilt

‖v0 − PU (v0)‖ ≤ ‖v0 − u‖ fur alle u ∈ U.

Ferner ist PU (v0) der einzige Vektor in U mit dieser Eigenschaft. Mit anderenWorten ist PU (v0) derjenige Vektor in U , dessen Abstand zu v0 kleinstmoglichist:

‖v0 − PU (v0)‖ = minu∈U‖v0 − u‖.

Beweis. Da U endlichdimensional ist, existiert die Orthogonalprojektion; vgl.Satz VI.2.9 und VI.2.10.

Betrachte die orthogonale Zerlegung

v0 = u0 + u⊥0 ∈ U ⊕ U⊥

mit u0 = PU (v0). Fur ein beliebiges u ∈ U ist

v0 − u = (u0 − u) + u⊥0 ∈ U ⊕ U⊥

und deshalb‖v0 − u‖2 = ‖u0 − u‖2 + ‖u⊥0 ‖2.

Die rechte Seite (und daher auch die linke) wird genau fur u = u0 minimal; daswar zu zeigen. 2

Es sei jetzt u1, . . . , um eine Basis (nicht unbedingt eine Orthonormalbasis)des m-dimensionalen Unterraums U von RN , der mit dem euklidischen Skalar-produkt versehen wird. Fur einen Vektor v ∈ RN soll die OrthogonalprojektionPU (v) beschrieben werden. Sei dazu A die N × m-Matrix2 mit den Spaltenu1, . . . , um. Dann kann man

PU (v) = ξ1u1 + · · ·+ ξmum = Aξ

mit einem gewissen Vektor

ξ =

ξ1...ξm

2Den Gepflogenheiten in der Statistik folgend soll die Anzahl der Zeilen diesmal N und

nicht m sein.

Version vom 13. Juni 2019

172 VIII. Eigenwerttheorie in Innenproduktraumen

schreiben, wobei Aξ − v ∈ U⊥ ist. Fur alle η ∈ Rm ist also

0 = 〈Aη,Aξ − v〉 = 〈η,A∗Aξ −A∗v〉,

daher A∗Aξ − A∗v = 0 und A∗Aξ = A∗v. Nun hat A∗A stets denselben Rangwie A (Beweis?), der hier m ist. Also ist die m ×m-Matrix A∗A invertierbar,und wir erhalten

ξ = (A∗A)−1A∗v. (VIII.5)

Das beweist das folgende Lemma.

Lemma VIII.6.2 Mit den obigen Bezeichnungen gilt

PU (v) = A((A∗A)−1A∗v) bzw. PU = A(A∗A)−1A∗.

Bei der Methode der kleinsten Quadrate geht es um Folgendes. Gegeben seienN Daten (x1, y1), . . . , (xN , yN ). Jedes Paar kann man sich als Punkt in der xy-Ebene denken, und gesucht ist eine Gerade y = ax + b, die

”am besten“ durch

diese Punktwolke passt.”Am besten“ kann recht unterschiedlich interpretiert

werden; nach Gauß macht man den Ansatz, dass die Summe der Quadrate derAbweichungen

N∑j=1

(yj − (axj + b))2

minimal sein soll. Fasst man diesen Ausdruck als Funktion der reellen Variablena und b auf, kann man die Losung recht einfach mit Mitteln der Analysis imR2 finden (Gradient = 0 setzen etc.). Aber auch die Lineare Algebra kannweiterhelfen.

Wir schreiben dazu

y =

y1

...yN

, x =

x1

...xN

, 1 =

1...1

∈ RN .

Dann ist unser Problem, a und b so zu finden, dass

‖y − (ax+ b1)‖

minimal ist. Sei U der von x und 1 aufgespannte Unterraum von RN . NachSatz VIII.6.1 heißt das, a und b zu finden, so dass

ax+ b1 = PU (y)

ist. Schreibt man A fur die N × 2-Matrix mit den Spalten x und 1, lautet dieletzte Gleichung

A

(ab

)= PU (y),

Version vom 13. Juni 2019

VIII.6 Die Methode der kleinsten Quadrate 173

nach (VIII.5) heißt das (ab

)= (A∗A)−1A∗y.

Man bekommt die gesuchten a und b also als Losung des Gleichungssystems

A∗A

(ab

)= A∗y.

Die Matrix A∗A hat die Gestalt(〈x, x〉 〈x,1〉〈1, x〉 〈1,1〉

);

definiert man, wie in der Statistik ublich, die Stichprobenmittel

x =1

N

N∑j=1

xj =1

N〈x,1〉

y =1

N

N∑j=1

yj =1

N〈y,1〉

xy =1

N

N∑j=1

xjyj =1

N〈x, y〉

x2 =1

N

N∑j=1

x2j =

1

N〈x, x〉,

so ist also (x2 xx 1

)(ab

)=

(xyy

)zu losen (beachte 〈1,1〉 = N), und man erhalt nach kurzer Rechnung (zumBeispiel mit der Cramerschen Regel, Satz IV.3.2)

a =xy − x yx2 − x2

und b = y − ax =x2 y − xxyx2 − x2

.

Dies war der Fall der”linearen Regression“. Auch die

”quadratische Regres-

sion“, d.h. eine Parabel ax2 + bx+ c durch eine Punktwolke zu legen, kann mitdieser Methode behandelt werden. (Wie?)

Das Ausgangsproblem dieses Abschnitts war, den Abstand eines Vektorsvon einem (endlichdimensionalen) Unterraum zu berechnen und den Punktkurzesten Abstands darin zu bestimmen. Speziell fur m-dimensionale Unter-raume U ⊂ RN ist die Losung dieses Problems aus (VIII.5) und Lemma VIII.6.2abzulesen. Dort hatten wir fur einen m-dimensionalen Unterraum mit Basis

Version vom 13. Juni 2019

174 VIII. Eigenwerttheorie in Innenproduktraumen

u1, . . . , um die Matrix A mit diesen Spalten betrachtet; und das Problem lau-tet dann, ‖Aξ − v‖ zu minimieren, was auf die Losung des Gleichungssystems(A∗A)ξ = A∗v hinauslauft. Im komplexen Fall ist das genauso, wir bleiben jetztaber bei K = R.

Nehmen wir nun fur einen Moment an, dass u1, . . . , um eine Orthonormalba-sis von U ist. Dann hat A orthonormale Spalten, und A∗A ist die EinheitsmatrixEm, so dass einem die Losung von (A∗A)ξ = A∗v ins Gesicht starrt. Wennu1, . . . , um nicht orthonormal ist, wenden wir das Gram-Schmidt-Verfahren ausSatz VI.2.7 an. Dort wurden induktiv die Vektoren

g1 = u1, f1 = g1/‖g1‖,

gk = uk −k−1∑j=1

〈uk, fj〉fj , fk = gk/‖gk‖

konstruiert. Schreibt man Q fur die Matrix mit den Spalten f1, . . . , fm, so kanndas Gram-Schmidt-Verfahren durch die Matrixgleichung

A = QR (VIII.6)

mit

R =

‖g1‖ 〈u2, f1〉 . . . 〈um, f1〉

‖g2‖. . .

.... . . 〈um, fm−1〉

‖gm‖

(die ubrigen Eintrage sind = 0) wiedergegeben werden; R ist also eine obereDreiecksmatrix vom Format m×m. Man rechnet (VIII.6) nach, indem man Qauf die k-te Spalte von R wirken lasst; das ergibt nach Konstruktion von fk

k−1∑j=1

〈uk, fj〉fj + ‖gk‖fk = uk,

also die k-te Spalte von A.Halten wir dieses Ergebnis fest.

Satz VIII.6.3 (QR-Zerlegung)Sei A ∈ RN×m mit Rang m. Dann existieren eine N ×m-Matrix Q mit ortho-normalen Spalten und eine m×m-Matrix R in oberer Dreiecksgestalt mit

A = QR.

Kehren wir zur Aufgabe zuruck, ‖Aξ − v‖ zu minimieren bzw. A∗Aξ =A∗v =: b zu losen. Sei dazu A = QR die QR-Zerlegung von A. Dann geht es umdas Gleichungssystem

R∗Rξ = b,

Version vom 13. Juni 2019

VIII.6 Die Methode der kleinsten Quadrate 175

da A∗A = R∗Q∗QR = R∗R. Nun ist R eine obere und R∗ eine untere Dreiecks-matrix, daher ist es ein Leichtes, R∗η = b von oben nach unten und anschließendRξ = η von unten nach oben zu losen.

Beispiel VIII.6.4 Hier ist ein einfaches Beispiel mit N = 3 und m = 2. Sei

u1 =

101

, u2 =

111

, A =

1 10 11 1

.

Das Gram-Schmidt-Verfahren liefert

g1 = u1, f1 =

1/√

20

1/√

2

, g2 =

111

− 〈u2, f1〉

111

=

010

= f2,

so dass

Q =

1/√

2 00 1

1/√

2 0

, R =

(√2√

20 1

).

Um A∗Aξ = b zu losen, lose zuerst R∗η = b, also(√2 0√2 1

)(η1

η2

)=

(b1b2

),

was η1 = b1/√

2 und η2 = b2 − b1 ergibt, und dann Rξ = η, also(√2√

20 1

)(ξ1ξ2

)=

(η1

η2

),

was ξ2 = η2 = b2 − b1 und ξ1 = η1/√

2 − ξ2 = 32b1 − b2 ergibt. Daher ist der

Vektor in U = lin{u1, u2}, der den kurzesten Abstand zu beispielsweise e1 ∈ R3

hat, durch ξ1u1 + ξ2u2 mit A∗Aξ = A∗e1 =(

11

)gegeben; und das ist der Vektor

12u1 (siehe oben).

Die QR-Zerlegung hat viele Anwendungen in der numerischen Mathematik;sie kann sehr effektiv mit Hilfe der sog. Householder-Matrizen berechnet werden.

Version vom 13. Juni 2019

Version vom 13. Juni 2019

Kapitel IX

Etwas Geometrie

IX.1 Isometrien

Dieses Kapitel handelt vom Zusammenspiel von Linearer Algebra und Geome-trie. Alle im Folgenden auftretenden Vektorraume sind R-Vektorraume, und Rnwird mit dem euklidischen Skalarprodukt versehen.

In der euklidischen Geometrie interessiert man sich unter anderem fur Kon-guenz bei Dreiecken. Der dahinterstehende Begriff ist der einer Isometrie.

Definition IX.1.1 Sei V ein Innenproduktraum. Eine Abbildung F : V → Vheißt Isometrie oder Kongruenzabbildung, wenn

‖F (v)− F (w)‖ = ‖v − w‖ fur alle v, w ∈ V.

Man beachte, dass eine solche Abbildung nicht als linear vorausgesetzt wur-de; wir werden aber gleich sehen, dass isometrische Abbildungen

”fast“ linear

sind. Ferner ist klar, dass Isometrien injektiv sind.Nach Satz VI.3.14 ist eine lineare Abbildung eines endlichdimensionalen In-

nenproduktraums in sich genau dann isometrisch, wenn sie orthogonal ist. EinBeispiel einer nichtlinearen isometrischen Abbildung ist die Translationsabbil-dung

Ta: V → V, Ta(v) = a+ v

fur ein a ∈ V . Der nachste Satz erklart, dass jede isometrische Abbildung ausdiesen beiden Typen zusammengesetzt werden kann.

Satz IX.1.2 Sei V ein endlichdimensionaler reeller Innenproduktraum, und seiF : V → V isometrisch.

(a) Wenn F (0) = 0 ist, ist F linear.

(b) Es existieren eine orthogonale lineare Abbildung U und eine TranslationTa mit F = Ta ◦ U .

Version vom 13. Juni 2019

178 IX. Etwas Geometrie

Beweis. (a) Wir benotigen folgende Aussage.

• Sind u,w, z ∈ V , r = ‖u−w‖, s = ‖u− z‖, t = ‖w− z‖ und r = s+ t,so ist

z =t

ru+

s

rw.

Eine Skizze lasst diese Aussage als fast offensichtlich erscheinen, aber damitkonnen wir uns nicht zufrieden geben. Zum Beweis betrachten wir die

”Kugeln“

K1 = {x ∈ V : ‖x− u‖ ≤ s}, K2 = {x ∈ V : ‖x− w‖ ≤ t}.

Nach Voraussetzung liegt z im Schnitt K1 ∩K2, und Einsetzen zeigt, dass auchtru + s

rw ∈ K1 ∩K2. Zeigen wir also, dass dieser Schnitt aus nur einem Punktbesteht. Sind namlich x1, x2 ∈ K1 ∩K2 und x1 6= x2, so setze y = 1

2 (x1 + x2)(geometrisch ist das der Mittelpunkt der Strecke [x1, x2]); es folgt nach derParallelogrammgleichung (VI.2) auf Seite 97

‖y − u‖2 =∥∥∥x1 − u

2+x2 − u

2

∥∥∥2

= 2∥∥∥x1 − u

2

∥∥∥2

+ 2∥∥∥x2 − u

2

∥∥∥2

−∥∥∥x1 − u

2− x2 − u

2

∥∥∥2

≤ s2

2+s2

2−∥∥∥x1 − x2

2

∥∥∥2

< s2,

da x1 6= x2. Daher ist ‖y − u‖ < s und genauso ‖y − w‖ < t, so dass

r = ‖u− w‖ = ‖(u− y) + (y − w)‖ ≤ ‖u− y‖+ ‖y − w‖ < s+ t = r;

Widerspruch!Nun zuruck zum Beweis von (a). Zuerst zeigen wir F (λv) = λF (v) fur v ∈ V

und 0 ≤ λ ≤ 1. Es ist ‖λv − 0‖ = λ‖v‖ und ‖v − λv‖ = (1 − λ)‖v‖, und da Fisometrisch mit F (0) = 0 ist, erhalt man

‖F (λv)− F (0)‖ = λ‖v‖, ‖F (v)− F (λv)‖ = (1− λ)‖v‖,

und unsere Hilfsaussage mit u = F (v), w = F (0) = 0, z = F (λv), r = ‖v‖,s = (1− λ)‖v‖, t = λ‖v‖ liefert

F (λv) = λF (v) + (1− λ) · 0 = λF (v),

wie gewunscht.Der nachste Schritt ist, F (λv) = λF (v) fur v ∈ V und λ > 1 zu zeigen. Dazu

setze µ = 1/λ ∈ [0, 1]; wir wissen bereits, dass F (µ(λv)) = µF (λv) ist – aberdiese Gleichung ist genau F (v) = 1

λF (λv), was zu zeigen war.Jetzt kommen wir zur Additivitat, d.h. F (v1 + v2) = F (v1) + F (v2) fur alle

v1, v2 ∈ V . Da wir den Faktor 12 in F hineinziehen durfen (siehe oben), ist

F(v1 + v2

2

)=F (v1) + F (v2)

2

Version vom 13. Juni 2019

IX.1 Isometrien 179

zu zeigen. Das folgt jedoch erneut aus der Hilfsbehauptung und der Isometrievon F mit u = F (v1), w = F (v2), z = F ( 1

2 (v1 + v2)), r = ‖u−w‖ = ‖v1 − v2‖,s = ‖u− z‖ = ‖v1 − 1

2 (v1 + v2)‖ = 12‖v1 − v2‖ = 1

2r und t = ‖w − z‖ = 12r.

Zuletzt erhalten wir F (λv) = λF (v) auch fur λ < 0 aus

F (λv) + F (−λv) = F (λv + (−λv)) = F (0) = 0,

so dassF (λv) = −F ((−λ)v) = −(−λ)F (v) = λF (v);

im zweiten Schritt ging −λ > 0 ein.(b) Sei a = F (0); dann ist U := T−a ◦ F isometrisch (klar) und bildet 0

auf 0 ab (auch klar). Nach Teil (a) ist U linear aund deshalb eine orthogonaleAbbildung, und F = Ta ◦ U ist die gesuchte Darstellung. 2

Aus Satz IX.1.2 folgt, dass eine isometrische Abbildung

F (λv + (1− λ)w) = λF (v) + (1− λ)F (w) fur v, w ∈ V, 0 ≤ λ ≤ 1

erfullt; solch ein F nennt man eine affine Abbildung.Fur das Verstandnis der Isometrien reicht es also, die orthogonalen Abbil-

dungen zu untersuchen. Wir fuhren folgende Bezeichnungen ein.

Definition IX.1.3 Es bezeichnet O(V ) die Menge aller orthogonalen Abbil-dungen auf dem endlichdimensionalen reellen Innenproduktraum V und S O(V )die Teilmenge aller orthogonalen Abbildungen mit Determinante 1. Genausobezeichnet O(n) die Menge der orthogonalen n × n-Matrizen und SO(n) dieTeilmenge der orthogonalen n× n-Matrizen mit Determinante 1.

Explizit ist also

O(n) = {U ∈ Rn×n: U∗U = En}SO(n) = {U ∈ O(n): det(U) = 1}.

Als nachstes werden wir begrunden, dass diese Mengen unter der Komposi-tion von Abbildungen bzw. der Matrixmultiplikation Gruppen sind; siehe Defi-nition V.1.1 zur Definition einer Gruppe.

Satz IX.1.4 O(V ), S O(V ), O(n) und SO(n) sind Gruppen, genannt orthogo-nale Gruppe bzw. spezielle orthogonale Gruppe.

Beweis. Wir diskutieren die Details im Matrixfall. Sind U1, U2 ∈ O(n), so auchU1U2, da

(U1U2)∗U1U2 = U∗2U∗1U1U2 = U∗2U2 = En;

also handelt es sich um eine innere Verknupfung. Das Assoziativgesetz gilt beiallen Matrizen, nicht nur den orthogonalen; und das neutrale Element ist die

Version vom 13. Juni 2019

180 IX. Etwas Geometrie

Einheitsmatrix, die naturlich orthogonal ist. Schließlich ist fur orthogonale Ma-trizen definitionsgemaß U−1 = U∗, und U∗ ist orthogonal (warum?).

Dasselbe Argument funktioniert auch fur SO(n); es ist nur det(U1U2) =det(U1) det(U2) und det(U∗) = det(U t) = det(U) (und naturlich det(En) = 1)zu beachten. 2

Wir kommen nun zu den Eigenwerten bzw. der Determinante orthogonalerAbbildungen und Matrizen. (Ubrigens gelten analoge Aussagen im komplexenFall fur unitare Abbildungen und Matrizen.)

Lemma IX.1.5 Sei U ∈ O(n) bzw. L ∈ O(V ).

(a) Dann ist |det(U)| = 1 bzw. |det(L)| = 1.

(b) Ist λ ein Eigenwert von U bzw. L, so ist |λ| = 1.

Beweis. (a) Es ist 1 = det(En) = det(U∗U) = det(U∗) det(U) = det(U)2.(b) Ist v ein zugehoriger Eigenvektor, so ist ‖v‖ = ‖Uv‖ = ‖λv‖ = |λ| · ‖v‖.

2

Eine wichtige Klasse orthogonaler Abbildungen sind die Spiegelungen, diewir jetzt einfuhren. Es sei V ein n-dimensionaler Innenproduktraum; ein Unter-raum der Dimension n− 1 heißt dann eine Hyperebene. (Im Fall n = 3 ist eineHyperebene eine Ebene und im Fall n = 2 eine Gerade.) Eine Hyperebene H istalso nichts anderes als der Orthogonalraum eines Vektors vH 6= 0: H = {vH}⊥.

Definition IX.1.6 Sei H ⊂ V eine Hyperebene und PH die zugehorige Ortho-gonalprojektion auf H. Dann heißt die lineare Abbildung SH = 2PH − Id dieSpiegelung an H.

Um zu verstehen, wie SH wirkt, sei vH ∈ H⊥ \ {0}. Jedes v ∈ V kann in derForm

v = PHv + (v − PHv) = PHv + λvvH

geschrieben werden. Dann ist wegen P 2H = PH und PHvH = 0

SHv = 2PH(PHv + λvvH)− (PHv + λvvH) = PHv − λvvH ;

insofern”spiegelt“ SH den Vektor v an H.

Eine Spiegelung hat folgende Eigenschaften.

Lemma IX.1.7 Sei SH die Spiegelung an der Hyperebene H.

(a) SH ∈ O(V ).

(b) S−1H = SH .

(c) Es gibt eine Orthonormalbasis von V , bzgl. der SH durch eine Diago-nalmatrix diag(1, 1, . . . , 1,−1) dargestellt wird.

(d) det(SH) = −1.

Version vom 13. Juni 2019

IX.1 Isometrien 181

Beweis. (a) Schreibt man v ∈ V als v = PHv + λvvH ∈ H ⊕H⊥, so ist SHv =PHv−λvvH , und der Satz von Pythagoras zeigt ‖SHv‖ = ‖v‖. Nach Satz VI.3.14ist SH orthogonal.

(b) folgt sofort aus der Definition von SH .(c) Wahlt man eine Orthonormalbasis von H und erganzt diese durch den

normierten Vektor vH/‖vH‖ zu einer Orthonormalbasis von V , so ist die Ma-trixdarstellung von SH in dieser Basis genau diag(1, 1, . . . , 1,−1).

(d) folgt aus (c). 2

Umgekehrt ist leicht aus der Bedingung in (c) zu folgern, dass es sich umeine Spiegelung handelt.

Der Hauptsatz dieses Abschnitts besagt, dass jede orthogonale Abbildungaus Spiegelungen zusammengesetzt ist.

Satz IX.1.8 Sei L ∈ O(V ) mit dim(V ) = n. Dann existieren SpiegelungenS1, . . . , Sk, k ≤ n, mit L = S1 · · ·Sk.

Beweis. Wir zeigen, dass es k ≤ n Spiegelungen S1, . . . , Sk mit Sk · · ·S1L = Idgibt, was wegen Lemma IX.1.7(b) ausreicht. Dies erreicht man durch hochstensn-malige Anwendung folgender Behauptung.

• Sei T ∈ O(V ), T 6= Id. Dann existiert eine Spiegelung S mit

dim ker(ST − Id) > dim ker(T − Id).

Zuerst wendet man diese Behauptung auf T = L an (im Fall L = Id ist nichtszu zeigen) und konstruiert S = S1, so dass S1L mehr Vektoren festlasst als L,dann wendet man sie auf T = S1L ∈ O(V ) an und konstruiert S = S2, so dassS2S1L mehr Vektoren festlasst als S1L usw., bis nach hochstens n Schritten alleVektoren festgehalten werden, d.h. Sk · · ·S1L = Id.

Kommen wir zum Beweis der Behauptung. Da T 6= Id, existiert ein Vektor xmit Tx 6= x. Dann steht Tx−x senkrecht1 auf ker(T − Id): Ist namlich Ty = y,so auch T ∗y = T ∗Ty = y und deshalb

〈Tx− x, y〉 = 〈Tx, y〉 − 〈x, y〉 = 〈x, T ∗y〉 − 〈x, y〉 = 〈x, T ∗y − y〉 = 0.

Daher ist H = {Tx−x}⊥ eine Hyperebene, die ker(T − Id) enthalt. Sei S = SHdie Spiegelung an H. Ist Tv = v, so folgt STv = Sv = v wegen v ∈ ker(T−Id) ⊂H, d.h. ker(T − Id) ⊂ ker(ST − Id). Aber diese Inklusion ist echt, denn Tx 6= x,jedoch STx = x: Beachte dazu

〈x+ Tx, x− Tx〉 = ‖x‖2 − ‖Tx‖2 = 0,

1Alternativ kann man auch so argumentieren: Da T normal ist, ist ran(T − Id) =[ker((T − Id)∗)]⊥ = [ker(T − Id)]⊥ wegen Satz VI.3.8 und Korollar VI.3.12.

Version vom 13. Juni 2019

182 IX. Etwas Geometrie

also 12 (x + Tx) ∈ {x − Tx}⊥ = H und Tx = 1

2 (x + Tx) + 12 (Tx − x), so dass

STx = 12 (x+ Tx)− 1

2 (Tx− x) = x.Damit ist alles gezeigt. 2

Durch Vergleich der Determinanten (siehe Lemma IX.1.7(d)) erhalt mannoch die Zusatzinformation, dass fur L ∈ S O(V ) die Anzahl k gerade seinmuss.

In den nachsten beiden Abschnitten werden wir die klassischen Falle dereuklidischen Ebene (dim(V ) = 2) und des euklidischen Anschauungsraums(dim(V ) = 3) genauer ansehen und insbesondere nach Matrixdarstellungenorthogonaler Transformationen fragen. Dort wird folgender Begriff eine Rollespielen.

Definition IX.1.9 Seien B = (b1, . . . , bn) und B′ = (b′1, . . . , b′n) zwei geordnete

Basen eines reellen Vektorraums. Sei MB′

B die Matrix des Basiswechsels von Bnach B′ (vgl. (III.3) auf Seite 56). Dann heißen B und B′ gleich orientiert, wenndetMB′

B > 0, und entgegengesetzt orientiert, wenn detMB′

B < 0.

Im Fall V = Rn kann man einen Schritt weiter gehen. Hier steht namlich mitder Einheitsvektorbasis (e1, . . . , en) eine kanonische Basis zur Verfugung; diesenennen wir positiv orientiert und jede dazu gleich orientierte Basis ebenfalls.Im R2 ist (e2,−e1) positiv orientiert, aber (e1,−e2) und (e2, e1) sind negativorientiert. Im R3 kann man sich mit dem Kreuzprodukt positiv orientierte Basenverschaffen; siehe Satz IX.3.4(d).

IX.2 Geometrie im R2

Wir haben bereits am Ende von Abschnitt VI.3 orthogonale 2 × 2-Matrizenkennengelernt, namlich Matrizen der Form

D(ϕ) =

(cosϕ − sinϕsinϕ cosϕ

), (IX.1)

und diese als Drehungen um den Winkel ϕ interpretiert. (Es ist sogar D(ϕ) ∈SO(2).) Wir werden jetzt die Matrixdarstellungen von Abbildungen L ∈ O(R2)studieren, und zwar zunachst fur Abbildungen in S O(R2).

Satz IX.2.1 Sei L ∈ S O(R2) und (u, v) eine Orthonormalbasis von R2. Dannhat die Matrixdarstellung von L bzgl. (u, v) die Form D(ϕ) mit einem eindeutigbestimmten ϕ ∈ (−π, π].

Beweis. Sei A = (aij) die darstellende Matrix, also

Lu = a11u+ a21v,

Lv = a12u+ a22v.

Version vom 13. Juni 2019

IX.2 Geometrie im R2 183

Da L orthogonal und (u, v) eine Orthonormalbasis ist, hat man die Gleichungen

a211 + a2

21 = 1

a212 + a2

22 = 1

a11a12 + a21a22 = 0.

Insbesondere ist |a11| ≤ 1, und man kann a11 = cosϕ fur ein passendes ϕschreiben. Dann ist a2

21 = 1 − cos2 ϕ = sin2 ϕ, also a21 = ± sinϕ. Indem maneventuell ϕ durch −ϕ ersetzt, erhalt man a21 = sinϕ, und ϕ ∈ (−π, π] ist durchdiese Eigenschaften eindeutig bestimmt. Genauso fuhrt die zweite Gleichung zueinem ψ mit a12 = sinψ, a22 = cosψ. Die dritte Gleichung lautet dann

0 = cosϕ sinψ + sinϕ cosψ = sin(ϕ+ ψ).

Daher ist ϕ+ψ ein ganzzahliges Vielfaches von π, also2 ψ ∈ {−ϕ,±π−ϕ} wegender Einschrankung ψ ∈ (−π, π]. Im ersten Fall ist cosψ = cosϕ, sinψ = − sinϕ,und A hat in der Tat die Determinante 1. Im zweiten Fall ist cosψ = − cosϕ,sinψ = sinϕ, und A hat die Determinante −1. Also ist fur L ∈ S O(R2) derWinkel ψ = −ϕ der Winkel der Wahl, und es ist A = D(ϕ). 2

Korollar IX.2.2 Die Gruppen S O(R2) und SO(2) sind abelsch, aber O(R2)bzw. O(2) sind nicht abelsch.

Beweis. Seien A1, A2 ∈ SO(2); nach Satz IX.2.1 haben sie die Form A1 = D(ϕ1)und A2 = D(ϕ2). Nach den Additionstheoremen fur Sinus und Kosinus ist

D(ϕ2)D(ϕ1) =

(cosϕ2 − sinϕ2

sinϕ2 cosϕ2

)(cosϕ1 − sinϕ1

sinϕ1 cosϕ1

)=

(cosϕ2 cosϕ1 − sinϕ2 sinϕ1 − cosϕ2 sinϕ1 − sinϕ2 cosϕ1

sinϕ2 cosϕ1 + cosϕ2 sinϕ1 − sinϕ2 sinϕ1 + cosϕ2 cosϕ1

)=

(cos(ϕ1 + ϕ2) − sin(ϕ1 + ϕ2)sin(ϕ1 + ϕ2) cos(ϕ1 + ϕ2)

)= D(ϕ1 + ϕ2),

also D(ϕ2)D(ϕ1) = D(ϕ1)D(ϕ2) wegen ϕ1 + ϕ2 = ϕ2 + ϕ1, und A1 und A2

kommutieren.Dass O(2) nicht kommutativ ist, sieht man etwa an dem Beispiel(

0 1−1 0

)(1 00 −1

)6=(

1 00 −1

)(0 1−1 0

). (IX.2)

Das zeigt gleichzeitig die Aussagen uber S O(R2) und O(R2). 2

Wir wollen die Matrixdarstellung von L ∈ S O(R2) unter Basiswechsel stu-dieren.

2Ausnahme: ϕ = ψ = π, was dem ersten Fall unterzuordnen ist.

Version vom 13. Juni 2019

184 IX. Etwas Geometrie

Satz IX.2.3 Seien L ∈ S O(R2) und (u, v) und (u, v) Orthonormalbasen vonR2; L besitze bzgl. (u, v) die Matrixdarstellung D(ϕ).

(a) Wenn (u, v) und (u, v) gleich orientiert sind, besitzt L bzgl. (u, v) eben-falls die Matrixdarstellung D(ϕ).

(b) Wenn (u, v) und (u, v) entgegengesetzt orientiert sind, besitzt L bzgl.(u, v) die Matrixdarstellung D(−ϕ).

Beweis. (a) Es sei M die Matrix des Basiswechsels von (u, v) nach (u, v). Da essich um Orthonormalbasen handelt, istM eine orthogonale Matrix (Satz VI.2.8),und da die Orientierungen gleich sind, ist M ∈ SO(2). Die Matrixdarstellungvon L bzgl. (u, v) ist also M∗D(ϕ)M (siehe Satz III.3.6 und Satz VI.3.5);aber nach Korollar IX.2.2 ist SO(2) abelsch, daher ist diese MatrixdarstellungD(ϕ)M∗M = D(ϕ).

(b) Nach Teil (a) ist die Matrixdarstellung bzgl. (v, u) die Matrix D(ϕ), alsoist die gesuchte Matrixdarstellung(

0 11 0

)D(ϕ)

(0 11 0

)=

(cosϕ sinϕ− sinϕ cosϕ

)= D(−ϕ);

man beachte, dass(

0 11 0

)die beiden Basisvektoren austauscht. 2

Um Teil (b) des Satzes zu veranschaulichen, betrachten wir eine Drehungum 90◦ (entgegen dem Uhrzeigersinn), die bzgl. der Standardbasis (e1, e2) durchD(π/2) dargestellt wird. In den negativ orientierten Basen (e2, e1) bzw. (−e1, e2)ist die darstellende Matrix aber D(−π/2), was wie eine Drehung im Uhrzeiger-sinn aussieht, aber wegen der negativen Orientierung nicht ist.

Kommen wir nun zu den orthogonalen Abbildungen mit Determinante −1.

Satz IX.2.4 Sei L ∈ O(R2) \S O(R2).

(a) Sei (u, v) eine Orthonormalbasis von R2; dann hat die Matrixdarstellungvon L die Form (

cosϕ sinϕsinϕ − cosϕ

)mit einem eindeutig bestimmten ϕ ∈ (−π, π].

(b) Es existiert eine Orthonormalbasis (u, v), so dass die Matrixdarstellungvon L (

1 00 −1

)lautet; also ist L die Spiegelung an der

”u-Achse“.

Beweis. (a) wurde bereits im Beweis von Satz IX.2.1 gezeigt.(b) Es ist detL = −1, und gleichzeitig ist detL das Produkt der Eigenwerte

(Satz VII.2.5), die moglicherweise komplex sind. Ware α + iβ ein komplexerEigenwert, so auch α − iβ (Lemma VII.1.7), und es ware (α + iβ)(α − iβ) =

Version vom 13. Juni 2019

IX.3 Geometrie im R3 185

α2 + β2 ≥ 0. Daher mussen die Eigenwerte reell sein, und es kommen nachLemma IX.1.5 nur 1 und −1 in Frage. Also ist 1 ein Eigenwert (mit zugehorigemnormierten Eigenvektor u) und −1 ein weiterer Eigenwert (mit zugehorigemnormierten Eigenvektor v). Dies ist die gesuchte Orthonormalbasis; u und vsind wegen Satz VIII.2.2 orthogonal. 2

Wir erkennen jetzt geometrisch, warum das Beispiel aus (IX.2) funktionierthat: Es handelt sich dort um die Drehung um 90◦ und die Spiegelung an der

”x-Achse“, und die kommutieren nicht.

Um die Kraft der Linearen Algebra zu veranschaulichen, beweisen wir zumSchluss einen klassischen Satz der Dreiecksgeometrie.

Satz IX.2.5 Die drei Hohen eines Dreiecks schneiden sich in einem Punkt.

Beweis. Da das Problem translationsinvariant ist, konnen wir einen Eckpunktdes Dreiecks (sagen wir C) in den Ursprung legen; zu den anderen beidengehoren die Vektoren A und B im R2. Sei P der Schnittpunkt der Hohen durch Aund B; es ist also 〈P−A,B〉 = 0 und 〈P−B,A〉 = 0 nach Definition einer Hohe.Dass die dritte Hohe auch durch P geht, ist die Behauptung 〈P,B − A〉 = 0.Aber unsere Voraussetzung war ja 〈P,B〉 = 〈A,B〉 und 〈P,A〉 = 〈B,A〉, also〈P,B〉 = 〈P,A〉, und das zeigt die Behauptung. 2

IX.3 Geometrie im R3

Wir wollen uns nun der Gruppe SO(3) widmen und beobachten als erstes, dassdiese im Gegensatz zur SO(2) nicht kommutativ ist; das sieht man mit Hilfe derBeispiele

A =

1 0 00 0 −10 1 0

, B =

0 1 00 0 11 0 0

.

Wir wissen schon, dass jedes A ∈ SO(3) bzw. L ∈ S O(R3) als Produkt vonzwei Spiegelungen geschrieben werden kann (Satz IX.1.8; das gilt auch fur dieIdentitat, da ja Id = S ◦ S fur jede Spiegelung gilt). Außerdem ist A ∈ SO(3)genau dann, wenn −A ∈ O(3) \ SO(3), denn det(−A) = (−1)3 det(A).

Wir werden zeigen, dass jedes L ∈ S O(R3) eine Drehung ist. Als reelle Ei-genwerte kommen nach Lemma IX.1.5 nur 1 und −1 in Frage, und wenn α+ iβein komplexer Eigenwert ist, ist es auch α − iβ (Lemma VII.1.7). Da das Pro-dukt der Eigenwerte in ihrer Vielfachheit die Determinante von L, also 1, ist(Satz VII.2.5), muss λ = 1 ein Eigenwert sein. Sei u ein zugehoriger normierterEigenvektor. Da L normal ist, folgt aus Lemma VIII.2.3, dass {u}⊥ ein zwei-dimensionaler L-invarianter Unterraum von R3 ist. Satz IX.2.1 impliziert, dassdie Matrixdarstellung von L: {u}⊥ → {u}⊥ bzgl. einer Orthonormalbasis (v, w)von {u}⊥ eine Drehmatrix D(ϕ) ist. Das beweist den folgenden Satz.

Version vom 13. Juni 2019

186 IX. Etwas Geometrie

Satz IX.3.1 Zu L ∈ S O(R3) existiert eine Orthonormalbasis, so dass die dar-stellende Matrix die Form 1 0 0

0 cosϕ − sinϕ0 sinϕ cosϕ

hat.

Die geometrische Intepretation dieses Resultats ist, dass L als Drehung umden Winkel ϕ mit dem ersten Basisvektor als Drehachse wirkt.

Mit dem gleichen Argument zeigt man, dass jedes L ∈ O(R3) \ S O(R3)durch eine Matrix −1 0 0

0 cosϕ − sinϕ0 sinϕ cosϕ

dargestellt werden kann, die als Drehspiegelung wirkt.

Wir wollen nun beliebige Drehungen durch Drehungen um die Koordinaten-achsen beschreiben. Dazu fuhren wir zu einem Winkel α die speziellen SO(3)-Matrizen D1(α), D2(α) und D3(α) ein: 1 0 0

0 cosα − sinα0 sinα cosα

,

cosα 0 − sinα0 1 0

sinα 0 cosα

,

cosα − sinα 0sinα cosα 0

0 0 1

.

Satz IX.3.2 Zu A ∈ SO(3) existieren Winkel α, β, γ mit

A = D1(α)D2(β)D3(γ).

Beweis. Da (D1(α))−1 = (D1(α))∗ = D1(−α) und genauso fur D3, ist dieExistenz von Winkeln α′, β, γ′ mit

D1(α′)AD3(γ′) = D2(β)

zu zeigen. Sei α′ beliebig; wir berechnen den Eintrag b23 der Matrix B =D1(α′)A. Dieser ist

b23 = cosα′ · a23 − sinα′ · a33,

und wir konnen α′ so wahlen, dass b23 = 0 ist (im Fall a33 6= 0 muss α′ dieGleichung tanα′ = a23/a33 erfullen). Mit dieser Wahl von α′ und beliebigem γ′

berechnen wir die Eintrage c2k der Matrix C = BD3(γ′):

c21 = b21 cos γ′ + b22 sin γ′

c22 = b21(− sin γ′) + b22 cos γ′

c23 = b23 = 0

Version vom 13. Juni 2019

IX.3 Geometrie im R3 187

Wir wahlen γ′ so, dass c21 = 0. Da fur γ′ + π ebenfalls c21 = 0 ist, konnenwir ferner c22 ≥ 0 erreichen. Da C als Produkt orthogonaler Matrizen ebenfallsorthogonal ist, hat die zweite Zeile, also (0 c22 0), die Norm 1, und wegen c22 ≥ 0muss c22 = 1 sein. Da auch die zweite Spalte von C die Norm 1 hat, hat C dieGestalt c11 0 c13

0 1 0c31 0 c33

.

Wegen detC = 1 ist (c11 c13

c31 c33

)∈ SO(2)

und hat daher die Gestalt (Satz IX.2.1)(cosβ − sinβsinβ cosβ

).

Das zeigt D1(α′)AD3(γ′) = D2(β), wie behauptet. 2

Erstaunlicherweise reichen bereits Drehungen um zwei Koordinatenachsenaus, um ein beliebiges A ∈ SO(3) darzustellen. Mit einem zu Satz IX.3.2 analo-gen Argument zeigt man namlich folgendes Ergebnis.

Satz IX.3.3 Zu A ∈ SO(3) existieren Winkel ϕ,ψ, ω mit

A = D3(ϕ)D1(ω)D3(ψ).

Diese Winkel heißen Eulersche Winkel von A; sie sind auch in der Physikbedeutsam3.

Das letzte Thema dieses Abschnitts ist das Kreuzprodukt im R3. Fur x, y ∈R3 definiert man das Kreuzprodukt oder Vektorprodukt oder außere Produktx× y ∈ R3 folgendermaßen:

x =

x1

x2

x3

, y =

y1

y2

y3

, x× y =

x2y3 − x3y2

x3y1 − x1y3

x1y2 − x2y1

.

Als Eselsbrucke kann man sich die Definition mit Hilfe der rein formal aus-gerechneten Determinante aus den Koordinaten von x und y sowie den dreiEinheitsvektoren merken:

x× y =

∣∣∣∣∣∣x1 y1 e1

x2 y2 e2

x3 y3 e3

∣∣∣∣∣∣ =

∣∣∣∣ x2 y2

x3 y3

∣∣∣∣ e1 −∣∣∣∣ x1 y1

x3 y3

∣∣∣∣ e2 +

∣∣∣∣ x1 y1

x2 y2

∣∣∣∣ e3.

Das Kreuzprodukt ist nur im R3 erklart und nicht in anderen Dimensionen.

3Vgl. §35 in L.D. Landau, L.M. Lifschitz, Lehrbuch der theoretischen Physik. Band 1.Akademie-Verlag; 9. Auflage 1976.

Version vom 13. Juni 2019

188 IX. Etwas Geometrie

Satz IX.3.4 Fur x, y ∈ R3 gelten folgende Aussagen.

(a) x× y = −(y × x).

(b) x× y = 0 genau dann, wenn x und y linear abhangig sind.

(c) x ⊥ (x× y), y ⊥ (x× y).

(d) Sind x und y linear unabhangig, so ist (x, y, x× y) positiv orientiert.

Beweis. (a) und (c) folgen unmittelbar aus der Definition, genauso wie in (b)x × y = 0, falls (ohne Einschrankung) y = λx. Ist dort umgekehrt x × y = 0,findet man x2/x3 = y2/y3 (falls die Nenner 6= 0 sind) etc., so dass x und y linearabhangig sind. Um (d) zu zeigen, ist nachzurechnen, dass die Matrix mit denSpalten x, y und x × y eine positive Determinante hat. Entwickelt man nachder letzten Spalte, erhalt man

(x2y3 − x3y2)2 + (x3y1 − x1y3)2 + (x1y2 − x2y1)2 = ‖x× y‖2 ≥ 0,

und sogar > 0 nach (b), da x und y linear unabhangig sind. 2

Physiker merken sich (c) und (d) mit der”Rechte-Hand-Regel“: Zeigt der

Daumen der rechten Hand in Richtung x und der Zeigefinger in Richtung y, soweist der Mittelfinger senkrecht dazu in Richtung x× y.

Fur die geometrische Interpretation des Kreuzprodukts notieren wir folgendeEigenschaften.

Satz IX.3.5 Seien x, y, z ∈ R3.

(a) Es gilt die”

Graßmannsche Identitat“

x× (y × z) = 〈x, z〉y − 〈x, y〉z.

(b) Fur die Matrix mit den Spalten x, y, z gilt det(x y z) = 〈x× y, z〉.(c) 〈x× y, z〉 = 〈x, y × z〉.(d) 〈x, y〉2 + ‖x× y‖2 = ‖x‖2‖y‖2.

Beweis. (a) sieht man durch (etwas langwieriges) Nachrechnen ein, und (b) folgtdurch Entwicklung der Determinante nach der 3. Spalte. Daraus ergibt sich (c)wegen det(x y z) = −det(y x z) = det(y z x). Die Rechnung fur (d) verwendet(c) und (a) und lautet

‖x× y‖2 = 〈x× y, x× y〉= 〈x, y × (x× y)〉 (wg. (c))

=⟨x, 〈y, y〉x− 〈y, x〉y

⟩(wg. (a))

= ‖x‖2‖y‖2 − 〈x, y〉2;

Version vom 13. Juni 2019

IX.4 Kegelschnitte 189

daraus folgt die Behauptung. 2

In (VI.6) auf Seite 110 haben wir mit Hilfe eines Winkels ϕ ∈ [0, π]

〈x, y〉 = ‖x‖ ‖y‖ cosϕ

geschrieben; also impliziert Satz IX.3.5(d)

‖x× y‖2 = ‖x‖2‖y‖2(1− cos2 ϕ) = ‖x‖2‖y‖2 sin2 ϕ

und daher

‖x× y‖ = ‖x‖ ‖y‖ sinϕ,

da sinϕ ≥ 0 fur 0 ≤ ϕ ≤ π. Der Ausdruck rechter Hand ist der Flachenin-halt des von den Vektoren x und y aufgespannten Parallelogramms; dies ist diegeometrische Interpretation von ‖x× y‖.

IX.4 Kegelschnitte

Kegelschnitte gehoren zur klassischen Geometrie und wurden schon in der Anti-ke studiert. Ein Kegelschnitt entsteht, wenn man einen Kreis(doppel)kegel miteiner Ebene schneidet, die im Allgemeinen nicht den Ursprung enthalt (

”affi-

ne Ebene“). Dabei entstehen unterschiedliche Schnittkurven, namlich Kreise,Ellipsen, Parabeln und Hyperbeln:

(Diese Bilder zeigen nur die untere Halfte des Doppelkegels.)Um das rechnerisch nachzuvollziehen, setzen wir den Kegel im R3 in der

Form

K = {x ∈ R3: x21 + x2

2 = x23}

an. Hier und im Weiteren bezeichnen x1, x2, x3 die Koordinaten des Vektors x(und analog fur y etc.). Der obige Kegel K hat einen Offnungswinkel von 90◦;andere Offnungswinkel verlangen den Ansatz x2

1 + x22 = tan2 α

2 · x23. Statt K

mit einer (schiefen) Ebene zu schneiden, werden wir K drehen und dann mit

Version vom 13. Juni 2019

190 IX. Etwas Geometrie

derjenigen Ebene schneiden, deren Punkte die dritte Koordinate = c haben.Dazu bedienen wir uns der Drehung um die x1-Achse

D1(ϕ) =

1 0 00 cosϕ − sinϕ0 sinϕ cosϕ

,

die wir bereits in Satz IX.3.2 kennengelernt haben.Es sei c ≥ 0. Uns interessiert der Zusammenhang von y1 und y2 fur diejenigen

y ∈ R3 mit y3 = c und y = D1(ϕ)x fur ein (eindeutig bestimmtes) x ∈ K inAbhangigkeit vom Winkel ϕ ∈ [0, π/2] (aus Symmetriegrunden braucht mannur diese Winkel zu betrachten).

Da (D1(ϕ))−1 = D1(−ϕ) ist, haben wir die Gleichungen

x1 = y1

x2 = cosϕ · y2 + sinϕ · y3

x3 = − sinϕ · y2 + cosϕ · y3

sowiex2

1 + x22 = x2

3.

Dies, zusammen mit y3 = c, fuhrt zu

y21 + (cos2 ϕ− sin2 ϕ)y2

2 + 4c cosϕ sinϕ · y2 + c2(sin2 ϕ− cos2 ϕ) = 0. (IX.3)

Behandeln wir zunachst den Fall c = 0, in dem die Ebene den Ursprungenthalt. Falls cos2 ϕ > sin2 ϕ (d.h. 0 ≤ ϕ < π/4), ist y1 = y2 = 0 die einzigeLosung; der Kegelschnitt besteht aus genau einem Punkt. Im Fall cos2 ϕ =sin2 ϕ (d.h. ϕ = π/4), ist y1 = 0 und y2 beliebig; der Kegelschnitt (in den y-Koordinaten) ist die y2-Achse. Es bleibt der Fall cos2 ϕ < sin2 ϕ (d.h. π/4 <

ϕ ≤ π/2); hier entstehen die beiden Geraden y1 = ±√

sin2 ϕ− cos2 ϕ y2.Der Fall c > 0 ist interessanter. Wenn ϕ = 0 ist, erhalt man

y21 + y2

2 = c2,

also einen Kreis mit Radius c. Im Bereich 0 < ϕ < π/4 ist 0 < cos2 ϕ−sin2 ϕ < 1;schreiben wir α fur diese Differenz sowie β = 2 cosϕ sinϕ. Dann wird aus (IX.3)

y21 + αy2

2 + 2cβy2 = αc2

und durch quadratische Erganzung

y21 + α

(y2 +

α

)2

= αc2 +c2β2

α=c2

α,

denn α2 + β2 = 1, sowie schließlich(y1

a

)2

+(y2 −m2

b

)2

= 1

Version vom 13. Juni 2019

IX.4 Kegelschnitte 191

mit a = c/√α, b = c/α und m2 = −cβ/α. Das ist die Gleichung einer Ellipse

mit den Halbachsen a und b und Mittelpunkt (0,m2) in der y1-y2-Ebene.Die gleiche Rechnung fuhrt im Bereich π/4 < ϕ ≤ π/2 zu (diesmal ist

α = cos2 ϕ− sin2 ϕ ∈ [−1, 0))(y2 −m2

b

)2

−(y1

a

)2

= 1

mit a = c/√|α|, b = c/|α|, m2 = −cβ/α. Dies ist die Gleichung einer Hyperbel.

Es bleibt der Fall ϕ = π/4; hier ist cosϕ = sinϕ = 1/√

2, und (IX.3) wirdzu

y21 + 2cy2 = 0,

was die Gleichung einer Parabel ist.Wir verschieben nun die Koordinaten und fuhren im Fall der Hyperbel

zusatzlich eine Spiegelung an der Winkelhalbierenden durch (die die beidenKoordinaten vertauscht) und erhalten die Standardgleichungen fur Ellipse undHyperbel in der Form (ξ1

a

)2

+(ξ2b

)2

= 1, (IX.4)(ξ1a

)2

−(ξ2b

)2

= 1. (IX.5)

Im Fall der Ellipse fuhrt der Fall a = b zu einem Kreis. Jeder Punkt einesKreises (gemeint: auf dem Kreisrand) hat denselben Abstand zum Mittelpunkt.Um die entsprechende Eigenschaft fur eine Ellipse herzuleiten, fuhren wir dieBrennpunkte der durch (IX.4) gegebenen Ellipse als die Punkte F± ∈ R2 mitden Koordinaten (±

√a2 − b2, 0) ein, wobei wir ohne Einschrankung a ≥ b vor-

aussetzen. Dann ist mit d =√a2 − b2 fur einen Punkt P auf der Ellipse mit den

Version vom 13. Juni 2019

192 IX. Etwas Geometrie

Koordinaten ξ1 und ξ2

‖P − F+‖2 = (ξ1 − d)2 + ξ22 = ξ2

1 − 2dξ1 + d2 + ξ22

= ξ21 − 2dξ1 + (a2 − b2) + b2

(1− ξ2

1

a2

)=d2

a2ξ21 − 2dξ1 + a2 =

(daξ1 − a

)2

und genauso

‖P − F−‖2 =(daξ1 + a

)2

.

Wegen daξ1 − a ≤ 0 und d

aξ1 + a ≥ 0 erhalt man die Gleichung

‖P − F+‖+ ‖P − F−‖ = 2a; (IX.6)

mit anderen Worten ist die Summe der Abstande eines Punkts auf einer Ellipsezu den Brennpunkten gleich dem Doppelten der großen Halbachse. Umgekehrtkann man auch (IX.4) aus (IX.6) schließen (tun Sie’s!).

Bei der Hyperbel in (IX.5) setzt man d =√a2 + b2 und F+ und F− wie

oben. Eine ahnliche Rechnung zeigt dann∣∣ ‖P − F+‖ − ‖P − F−‖∣∣ = 2a

fur Punkte auf der Hyperbel. Die Gleichungen

ξ2 = ± baξ1

beschreiben die Asymptoten der Hyperbel, denn fur Hyperbelpunkte mit”sehr

großem“ ξ1 ist

ξ2ξ1

= ± ba

√1−

( aξ1

)2

≈ ± ba

;

das”≈“ kann (und sollte!) durch eine Grenzwertbeziehung prazisiert werden.

(Siehe die obige Abbildung zur Skizze der Asymptoten.)

IX.5 Quadratische Formen und Quadriken

In diesem Abschnitt wollen wir uns ansehen, was die Lineare Algebra zum The-ma Kegelschnitte zu sagen hat.

In Definition IV.1.1 sind wir bereits Multilinearformen begegnet; hier inter-essiert uns der Spezialfall einer Bilinearform, den wir der Vollstandigkeit halbernoch einmal prasentieren.

Definition IX.5.1 Seien V und W ein Vektorraume uber einem Korper K.

Version vom 13. Juni 2019

IX.5 Quadratische Formen und Quadriken 193

(a) Eine Abbildung B: V ×W → K heißt Bilinearform, wenn v 7→ B(v, w)fur jedes w ∈W und w 7→ B(v, w) fur jedes v ∈ V linear sind.

(b) Eine Abbildung Q: V → K heißt quadratische Form, wenn es eineBilinearform B: V × V → K mit Q(v) = B(v, v) fur alle v ∈ V gibt.

Ein Skalarprodukt auf einem reellen Vektorraum ist eine Bilinearform, undv 7→ ‖v‖2 ist eine quadratische Form auf einem reellen Innenproduktraum. (Aufeinem komplexen Vektorraum ist ein Skalarprodukt nicht bilinear!)

Wir haben im Folgenden immer den Vektorraum Rn im Auge. Hier lassensich Bilinearformen mit Hilfe des euklidischen Skalarprodukts darstellen.

Satz IX.5.2 Zu jeder Bilinearform B auf Rn × Rn existiert eine eindeutig be-stimmte reelle n× n-Matrix A mit

B(x, y) = 〈x,Ay〉 fur alle x, y ∈ Rn.

Beweis. Setze aij = B(ei, ej) und A = (aij). Dann ist fur x, y ∈ Rn mit denKoordinaten x1, . . . , xn und y1, . . . , yn

B(x, y) = B( n∑i=1

xiei, y)

=

n∑i=1

xiB(ei, y)

=

n∑i=1

xiB(ei,

n∑j=1

yjej

)=

n∑i,j=1

xiyjB(ei, ej)

=

n∑i,j=1

xiyjaij =

n∑i=1

xi

n∑j=1

aijyj

=

n∑i=1

xi(Ay)i = 〈x,Ay〉.

Ist A eine weitere darstellende Matrix, so folgt 〈x, (A−A)y〉 fur alle x, y ∈ Rn,und das impliziert A− A = 0. 2

Jede quadratische Form auf Rn hat also die Gestalt x 7→ 〈x,Ax〉. Hier istA jedoch nicht eindeutig bestimmt, da ja 〈x,Ax〉 = 〈A∗x, x〉 = 〈x,A∗x〉. Indemman A durch die selbstadjungierte Matrix 1

2 (A + A∗) ersetzt, erhalt man dieExistenzaussage in folgendem Satz.

Satz IX.5.3 Zu jeder quadratischen Form Q auf Rn existiert eine eindeutigbestimmte selbstadjungierte n× n-Matrix A mit

Q(x) = 〈x,Ax〉 fur alle x ∈ Rn.

Version vom 13. Juni 2019

194 IX. Etwas Geometrie

Beweis. Nur die Eindeutigkeit ist noch zu begrunden. Dazu verwenden wir diePolarisierungstechnik aus Satz VI.3.11.

Seien A und A selbstadjungierte darstellende Matrizen fur Q. Dann gilt furalle x, y ∈ Rn

Q(x+ y) = 〈x+ y,A(x+ y)〉 = 〈x+ y, A(x+ y)〉.

Ausrechnen der Skalarprodukte zusammen mit 〈x,Ax〉 = 〈x, Ax〉 und 〈y,Ay〉 =〈y, Ay〉 liefert

〈x,Ay〉+ 〈y,Ax〉 = 〈x, Ay〉+ 〈y, Ax〉,was wegen der Selbstadjungiertheit zu

〈x,Ay〉 = 〈x, Ay〉 fur alle x, y ∈ Rn

fuhrt. Das impliziert A = A. 2

Die Kegelschnittgleichung (IX.3) ist eine quadratische Gleichung in zwei Ver-anderlichen. Wir wollen die allgemeine quadratische Gleichung im Rn studieren.Diese hat die Form

Q(x) + `(x) + α = 0

mit einer quadratischen Form Q 6= 0, einer linearen Abbildung `: Rn → R undeiner Konstanten α ∈ R. Wir konnen Q durch eine selbstadjungierte MatrixA 6= 0 darstellen und ` gemaß Satz VI.2.12 in der Form

`(x) = 2〈x, v〉

angeben; der hier kunstlich erscheinende Faktor 2 wird sich bald als praktischerweisen. Unsere quadratische Gleichung lautet also

〈x,Ax〉+ 2〈x, v〉+ α = 0 (IX.7)

oder ausgeschrieben

n∑i,j=1

aijxixj + 2

n∑j=1

vjxj + α = 0.

Falls diese Gleichung losbar ist, nennt man die Menge aller Losungen eine Qua-drik.

Eine elegante Umschreibung von (IX.7) gelingt durch folgenden Trick. SeiA = (aij), und v habe die Koordinaten v1, . . . , vn. Wir bilden dann die (n+ 1)×(n+ 1)-Matrix A′ und Vektoren x′ ∈ Rn+1 gemaß

A′ =

a11 . . . a1n v1

......

...an1 . . . ann vnv1 . . . vn α

, x′ =

x1

...xn1

.

Version vom 13. Juni 2019

IX.5 Quadratische Formen und Quadriken 195

Dann erfullt x die Gleichung (IX.7) genau dann, wenn

〈x′, A′x′〉 = 0.

Die zu (IX.7) gehorende Quadrik ist also

Q = {x ∈ Rn: 〈x′, A′x′〉 = 0}.

Wir wollen in diesem Abschnitt zeigen, dass die Gestalt einer Quadrik durchdie Eigenwerte von A bestimmt wird, und insbesondere die klassischen Kegel-schnitte wiederfinden. Dazu ist der erste Schritt eine fortgeschrittene Version derquadratischen Erganzung mit dem Ziel, den linearen Term zum Verschwindenzu bringen oder zumindest anderweitig zu kontrollieren.

Wir bezeichnen die zu (IX.7) gehorige Quadrik mit Q(A, v, α) und un-tersuchen die Wirkung der Translation x 7→ x + c auf die Quadrik. Es istx+ c ∈ Q(A, v, α) genau dann, wenn (beachte, dass A selbstadjungiert ist)

0 = 〈x+ c, A(x+ c)〉+ 2〈x+ c, v〉+ α

= 〈x,Ax〉+ 2〈x,Ac+ v〉+ 〈c, Ac〉+ 2〈c, v〉+ α,

d.h. x ∈ Q(A,w, β) mit w = Ac+ v, β = 〈c, Ac〉+ 2〈c, v〉+ α. Bezeichnet mandie linke Seite von (IX.7) mit PA,v,α(x), so haben wir sogar

PA,v,α(x+ c) = PA,w,β(x) mit w = Ac+ v, β = PA,v,α(c) (IX.8)

gezeigt.Nun wahlen wir c so, dass

A2c+Av = 0

ist. Solch ein c existiert aus folgendem Grund: Nach Lemma VIII.1.3 ist ker(A) =ker(A2) und deshalb ran(A) = ran(A2) (Korollar VII.4.4; mit ran(A) ist naturlichder Wertebereich der Abbildung x 7→ Ax gemeint), und weil ja −Av ∈ ran(A)ist, gilt auch −Av ∈ ran(A2) und hat daher die Form A2c fur ein geeignetes c.Mit dieser Wahl von c gilt fur den Parameter w in (IX.8) Aw = 0.

Falls w 6= 0 ist, werden wir das konstante Glied in (IX.8) zum Verschwindenbringen. Dazu sei r ∈ R beliebig; die zu (IX.8) fuhrende Rechnung liefert beiunserer Wahl von c

PA,w,β(x+ rw) = PA,z,γ(x) mit z = A(rw) + w = w, γ = PA,w,β(rw).

Man beachte PA,w,β(rw) = 〈rw,A(rw)〉 + 2r〈w,w〉 + β = 2r‖w‖2 + β wegenAw = 0, und die Wahl r = −β/(2‖w‖2) fuhrt zu γ = 0.

Diese Rechnungen beweisen folgendes Lemma.

Lemma IX.5.4 Es gibt Vektoren c′ ∈ Rn und w ∈ Rn mit Aw = 0, so dass

PA,v,α(x+ c′) = PA,w,γ(x) fur alle x ∈ Rn,

und es ist γ = 0, falls w 6= 0.

Version vom 13. Juni 2019

196 IX. Etwas Geometrie

Mit anderen Worten wird die Quadrik Q(A, v, α) mit einer geeigneten Trans-lation auf die Quadrik Q(A,w, γ) abgebildet, wobei Aw = 0 und γw = 0 ist.

Der zweite (entscheidende) Schritt ist, die selbstadjungierte Matrix A zudiagonalisieren (Korollar VIII.1.5):

U∗AU = D = diag(λ1, . . . , λn)

mit den Eigenwerten λj ∈ R und einer orthogonalen Matrix U , deren Spaltenuj eine zugehorige Orthonormalbasis aus Eigenvektoren bilden. Wenn wir x indieser Basis als x = Uξ = ξ1u1 + · · ·+ ξnun darstellen, erhalt der quadratische-Form-Anteil die Darstellung

〈x,Ax〉 = 〈Uξ,AUξ〉 = 〈ξ, U∗AUξ〉 = 〈ξ,Dξ〉 =

n∑j=1

λjξ2j .

Damit bekommt man aus der Darstellung in Lemma IX.5.4

PA,w,γ(x) =

n∑j=1

λjξ2j + 2〈ξ, U∗w〉+ γ = PD,U∗w,γ(ξ). (IX.9)

Wenn w = 0 ist, entfallt der lineare Term, und es bleibt∑nj=1 λjξ

2j + γ. Ist

w 6= 0, so ist laut Lemma IX.5.4 γ = 0 und Aw = 0, so dass w ein Eigenvek-tor zum Eigenwert 0 von A ist. Durch Umnummerierung konnen wir λn = 0erreichen sowie, dass w ein positives Vielfaches von un = Uen ist; dann ist〈ξ, U∗w〉 = 1

2ρξn mit einem ρ > 0. In (IX.9) bleibt somit∑n−1j=1 λjξ

2j + ρξn.

Zusammengefasst haben wir folgenden Satz bewiesen.

Satz IX.5.5 Jede Quadrik kann durch eine Isometrie in eine der folgendenNormalformen uberfuhrt werden:

(a) Qa = {ξ ∈ Rn:∑nj=1 λjξ

2j + γ = 0}

(b) Qb = {ξ ∈ Rn:∑n−1j=1 λjξ

2j + ρξn = 0}

mit reellen Zahlen λj, γ und ρ > 0. Dabei sind die λj die Eigenwerte der selbst-adjungierten Matrix A, die die quadratische Form in der gegebenen Quadrikdarstellt.

Sind alle λj > 0, muss der Fall (a) vorliegen. Ist dort γ > 0, so ist Qa = ∅;ist γ = 0, so ist Qa = {0}; ist γ < 0, so kann man Qa mit geeigneten aj > 0 inder Form {

ξ ∈ Rn:( ξ1a1

)2

+ · · ·+( ξnan

)2

= 1}

wiedergeben. Dies ist ein Ellipsoid mit den Halbachsen a1, . . . , an; die zugehori-gen Basisvektoren u1, . . . , un sind die Hauptachsen des Ellipsoids, weswegen dieDiagonalisierung einer selbstadjungierten Matrix auch als Hauptachsentransfor-mation bekannt ist.

Version vom 13. Juni 2019

IX.6 Konvexe Mengen 197

Generell ist die Gestalt der Quadrik hauptsachlich von den Vorzeichen derEigenwerte abhangig, z.B. hat man bei n = 3 außer Ellipsoiden (λ1, λ2, λ3 > 0,γ < 0) unter anderem noch einschalige Hyperboloide (λ1, λ2 > 0, λ3 < 0,γ < 0), zweischalige Hyperboloide (λ1 > 0, λ2, λ3 < 0, γ < 0) oder hyperbolischeParaboloide (λ1 > 0, λ2 < 0, λ3 = 0, γ = 0) als

”Flachen 2. Ordnung“.

Der Fall n = 2 fuhrt zu den Kegelschnitten aus Abschnitt IX.4. In (IX.3)wird die quadratische Form durch die Diagonalmatrix diag(1, cos2 ϕ − sin2 ϕ)dargestellt mit den Eigenwerten λ1 = 1 und λ2 = cos2 ϕ − sin2 ϕ. Ist λ2 6= 0und γ < 0 im elliptischen Fall (λ2 > 0) bzw. γ 6= 0 im hyperbolischen Fall(λ2 < 0), so erkennt man die Darstellungen aus (IX.4) und (IX.5) als Umfor-mungen derjenigen aus Satz IX.5.5(a). (γ = 0 fuhrt zu den Grenzfallen Punktbzw. Doppelgerade.) Ist ϕ = π/4, hat man die Eigenwerte 1 und 0 und ist imparabolischen Fall von Satz IX.5.5(b).

IX.6 Konvexe Mengen

In diesem Abschnitt ist V bzw. W stets ein reeller Vektorraum.

Definition IX.6.1 Eine Teilmenge C ⊂ V heißt konvex, wenn

v, w ∈ C, 0 ≤ λ ≤ 1 ⇒ λv + (1− λ)w ∈ C

gilt.

Geometrisch heißt das, dass mit zwei Punkten auch die Verbindungsstreckein C liegt. Definitionsgemaß ist auch die leere Menge konvex.

Beispiele IX.6.2 (a) Hier einige Beispiele fur konvexe oder nicht konvexe Teil-mengen von R2:

Version vom 13. Juni 2019

198 IX. Etwas Geometrie

(b) Sei V ein Innenproduktraum; dann sind die”Kugeln“ B[x, r] := {v ∈ V :

‖v − x‖ ≤ r} und B(x, r) := {v ∈ V : ‖v − x‖ < r} konvex: Gelten namlich‖v−x‖ ≤ r, ‖w−x‖ ≤ r und 0 ≤ λ ≤ 1, so folgt wegen der Dreiecksungleichung

‖(λv + (1− λ)w)− x‖ = ‖λ(v − x) + (1− λ)(w − x)‖≤ ‖λ(v − x)‖+ ‖(1− λ)(w − x)‖= λ‖v − x‖+ (1− λ)‖w − x‖≤ λr + (1− λ)r = r.

Der Beweis fur die”offene“ Kugel B(x, r) geht genauso.

(c) Seien a1, . . . , an ∈ R und b1, . . . , bn ∈ R. Dann ist die Menge {v ∈ Rn:ajvj ≤ bj fur j = 1, . . . , n} konvex, wie man sofort nachrechnet (naturlich sollv die Koordinaten v1, . . . , vn haben).

Das letzte Beispiel kann man leichter mit dem folgenden allgemeinen Lemmabegrunden, das sich direkt aus der Definition ergibt.

Lemma IX.6.3

(a) Sei L ∈ L (V,W ), und sei C ⊂ V konvex. Dann ist auch L(C) ⊂ Wkonvex.

(b) Sei L ∈ L (V,W ), und sei C ⊂W konvex. Dann ist auch L−1(C) ⊂ Vkonvex.

(c) Sei I eine Indexmenge, und fur jedes i ∈ I sei Ci ⊂ V eine konvexeMenge. Dann ist auch

⋂i∈I Ci konvex.

Beweis. (a) Seien w1, w2 ∈ L(C) und 0 ≤ λ ≤ 1; dann existieren vi ∈ C mitwi = L(vi). Es folgt

λw1 + (1− λ)w2 = λL(v1) + (1− λ)L(v2) = L(λv1 + (1− λ)v2) ∈ L(C),

da ja wegen der Konvexitat λv1 + (1− λ)v2 in C liegt.(b) Seien v1, v2 ∈ L−1(C) und 0 ≤ λ ≤ 1; dann sind L(v1) ∈ C und L(v2) ∈

C. Es folgt

L(λv1 + (1− λ)v2) = λL(v1) + (1− λ)L(v2) ∈ C,

da C konvex ist. Das zeigt λv1 + (1− λ)v2 ∈ L−1(C).(c) Seien v1, v2 ∈

⋂i Ci und 0 ≤ λ ≤ 1. Fur jedes i ∈ I gilt dann v1, v2 ∈ Ci

und deshalb λv1 +(1−λ)v2 ∈ Ci, denn Ci ist konvex. Das zeigt λv1 +(1−λ)v2 ∈⋂i Ci. 2

Wir wollen mit Hilfe dieses Lemmas das Beispiel IX.6.2(c) sezieren. Wir set-zen Lj(v) = ajvj , also Lj ∈ L (Rn,R). Es ist (−∞, bj ] ⊂ R konvex und wegenLemma IX.6.3(b) auch Cj := L−1

j ((−∞, bj ]), und Lemma IX.6.3(c) liefert, dass

Version vom 13. Juni 2019

IX.6 Konvexe Mengen 199

⋂nj=1 Cj konvex ist. Aber das ist genau die im obigen Beispiel beschriebene Men-

ge. Mit dieser Technik – beobachte, dass eine gegebene Menge das lineare Bildoder Urbild einer offensichtlich konvexen Menge oder der Schnitt solcher Men-gen ist – lasst sich haufig die Konvexitat einer Menge sehr schnell begrunden.(Ahnlich geht man in der Analysis vor, wenn es um offene oder abgeschlosseneMengen und stetige Abbildungen geht.)

Sei nun M ⊂ V eine beliebige Teilmenge, und es sei C = {C ⊂ V : M ⊂C und C ist konvex}; es ist C 6= ∅, da V ∈ C . Nach Lemma IX.6.3(c) istC :=

⋂C∈C C ebenfalls konvex, und C umfasst M . Konstruktionsgemaß ist C

Teilmenge jeder konvexen, M umfassenden Menge, also ist sie die kleinste dieserArt.

Definition IX.6.4 Die gerade beschriebene Menge heißt die konvexe Hullevon M und wird mit co(M) bezeichnet:

co(M) =⋂{C ⊂ V : M ⊂ C, C konvex}.

Diese Konstruktion ist naturlich eng verwandt mit der Bildung der linearenHulle in Korollar II.1.9.

Lemma IX.6.5 Es gilt

co(M) =

{ N∑j=1

λjvj : N ∈ N, 0 ≤ λj ≤ 1,

N∑j=1

λj = 1, vj ∈M (j = 1, . . . , N)

}.

Ein Ausdruck∑Nj=1 λjvj wie auf der rechten Seite, also mit 0 ≤ λj ≤ 1 und∑

j λj = 1, wird Konvexkombination der vj genannt. (Ubrigens reicht es wegender Summenbedingung, λj ≥ 0 zu wissen.)

Beweis. Die Menge rechter Hand ist konvex: Sind namlich v =∑N1

j=1 λjvj und

w =∑N2

k=1 µkwk Konvexkombinationen von Elementen v1, . . . , vN1 ∈ M bzw.w1, . . . , wN2 ∈M sowie 0 ≤ λ ≤ 1, so ist auch

λv + (1− λ)w =

N1∑j=1

λλjvj +

N2∑k=1

(1− λ)µkwk =

N1+N2∑l=1

νlzl

mit νl = λλl fur l ≤ N1, νl = (1 − λ)µl−N1fur l > N1, zl = vl fur l ≤ N1,

zl = wl−N1fur l > N1 eine Konvexkombination von Elementen aus M , denn∑N1+N2

l=1 νl = 1 und 0 ≤ νl ≤ 1. Ferner enthalt diese Menge die Menge M (zuv ∈M wahle N = 1, λ1 = 1, v1 = v). Das zeigt die Inklusion

”⊂“.

Um”⊃“ zu zeigen, reicht es, sich Folgendes klarzumachen (warum reicht

das?):

Version vom 13. Juni 2019

200 IX. Etwas Geometrie

• Ist C konvex und v =∑Nj=1 λjvj eine Konvexkombination von Elemen-

ten von C, so ist v ∈ C.

Das zeigt man schnell mit vollstandiger Induktion nach N : Die Falle N = 1,N = 2 sind klar. Um von N − 1 auf N zu schließen, betrachten wir eine Kon-vexkombination aus N Summanden v =

∑Nj=1 λjvj , wobei ohne Einschrankung

λN 6= 1 ist. Dann erhalt man nach Induktionsvoraussetzung

v = (1− λN )

N−1∑j=1

λj1− λN

vj + λNvN ∈ C,

denn∑N−1j=1

λj

1−λNvj ist eine Konvexkombination: Alle λj/(1−λN ) sind ≥ 0 und

ihre Summe ist = 1. 2

Man beachte, dass in Lemma IX.6.5 Konvexkombinationen beliebiger LangeN auftreten konnen. Das ist im endlichdimensionalen Fall anders.

Satz IX.6.6 (Satz von Caratheodory)Ist dim(V ) = n, so ist fur M ⊂ V

co(M) =

{n+1∑j=1

λjvj : 0 ≤ λj ≤ 1,

n+1∑j=1

λj = 1, vj ∈M (j = 1, . . . , n+ 1)

}.

Beweis. Die Inklusion”⊃“ ist klar nach Lemma IX.6.5. Umgekehrt sei v ∈

co(M). Nach Lemma IX.6.5 konnen wir

v = λ1v1 + · · ·+ λNvN (IX.10)

mit geeigneten N ∈ N, vj ∈ M und λj ∈ [0, 1] mit∑j λj = 1 schreiben. Ist

N ≤ n + 1, sind wir fertig (falls N < n + 1, musste man noch kunstlich mitNullen auffullen: v = λ1v1 + · · ·+ λNvN + 0 · v1 + · · ·+ 0 · v1, damit man exaktn+ 1 Terme erhalt).

Nun sei N > n+1. Wir betrachten den Vektorraum V ⊕R, der die Dimensionn+1 hat. Also sind die N Elemente (v1, 1), . . . , (vN , 1) dieses Vektorraums linearabhangig, und es existieren α1, . . . , αN ∈ R, die nicht alle = 0 sind, mit

α1v1 + · · ·+ αNvN = 0, α1 + · · ·+ αN = 0. (IX.11)

Sei Ij = {r ∈ R: λj+rαj ≥ 0} fur j = 1, . . . , N . Wenn αj = 0 ist, ist Ij = R, undwenn αj 6= 0 ist, ist Ij ein Intervall des Typs (−∞, γj ] oder des Typs [γj ,∞).

Daher ist I =⋂Nj=1 Ij ein abgeschlossenes Intervall, das nicht R ist; I besitzt

also mindestens einen Randpunkt γ, der dann auch Randpunkt von einem derIntervalle Ij ist, sagen wir von Ip. Es gilt also λj + γαj ≥ 0 fur alle j undλp + γαp = 0. Aus (IX.10) und (IX.11) folgt jetzt

v = (λ1 + γα1)v1 + · · ·+ (λN + γαN )vN .

Version vom 13. Juni 2019

IX.7 Die Minkowskischen Satze 201

Dies ist eine Konvexkombination nach Wahl von γ, aber effektiv sind hochstensN − 1 Summanden vorhanden, da der Koeffizient von vp verschwindet.

Das Verfahren kann man nun so lange wiederholen, bis man eine Konvex-kombination aus n+ 1 Elementen hat. 2

Auch im nachsten Satz taucht die Abhangigkeit von der Dimension des um-gebenden Raums auf. Machen Sie sich eine Skizze fur n = 2 oder n = 3!

Satz IX.6.7 (Satz von Helly)Sei dim(V ) = n sowie N ≥ n + 1. Seien C1, . . . , CN ⊂ V konvexe Mengen,so dass je n + 1 dieser Mengen einen gemeinsamen Punkt haben. Dann ist⋂Nj=1 Cj 6= ∅.

Beweis. Wir verwenden vollstandige Induktion nach N mit dem Induktions-anfang N = n + 1, wo nichts zu zeigen ist. Nun zum Induktionsschluss vonN − 1 (≥ n + 1) auf N (≥ n + 2). Seien C1, . . . , CN wie in der Formulierungdes Satzes gegeben. Nach Induktionsvoraussetzung ist fur jedes j ∈ {1, . . . , N}der Schnitt

⋂i 6=j Ci nicht leer; sei vj ∈

⋂i6=j Ci. Das sind N ≥ n + 2 Vektoren

in einem n-dimensionalen Raum. Wie im Beweis des Satzes von Caratheodory(siehe (IX.11)) erhalten wir α1, . . . , αN ∈ R, die nicht alle = 0 sind, mit

α1v1 + · · ·+ αNvN = 0, α1 + · · ·+ αN = 0.

Bei geeigneter Nummerierung sind α1, . . . , αr > 0 und αr+1, . . . , αN ≤ 0 (we-gen der Summenbedingung

∑j αj = 0 und der Tatsache, dass nicht alle αj

verschwinden, muss 1 ≤ r < N sein). Es sei α :=∑rj=1 αr > 0 und λj = αj/α

fur j = 1, . . . , r sowie µj = −αj/α fur j = r + 1, . . . , N . Es ist dann

v := λ1v1 + · · ·+ λrvr = µr+1vr+1 + · · ·+ µNvN

jeweils eine Konvexkombination (warum?); die letzte Gleichheit gilt wegen derWahl der αj . Nach Konstruktion ist

v1, . . . , vr ∈N⋂

i=r+1

Ci, vr+1, . . . , vN ∈r⋂i=1

Ci,

also gilt auch fur deren Konvexkombination v, dass v ∈⋂Ni=r+1 Ci und v ∈⋂r

i=1 Ci (verwende die Hilfsbehauptung auf Seite 199). Deshalb ist v ∈⋂Ni=1 Ci.

2

IX.7 Die Minkowskischen Satze

Wir steuern zum Abschluss des Kapitels auf einen der wichtigsten Satze derKonvexgeometrie zu, den auf H. Minkowski zuruckgehenden Trennungssatz;

Version vom 13. Juni 2019

202 IX. Etwas Geometrie

diesen diskutieren wir in zwei Versionen in Satz IX.7.4 und Satz IX.7.5. An-schließend besprechen wir Extremalpunkte konvexer Mengen. Dazu mussen wirallerdings das rein algebraische Vorgehen um einige metrische Ideen erganzen.Daher betrachten wir nun einen endlichdimensionalen (reellen) Innenprodukt-raum V (und nicht bloß einen Vektorraum) und nennen eine Teilmenge M ⊂ Voffen, wenn es zu jedem x ∈M eine Kugel B(x, r), r > 0, mit B(x, r) ⊂M gibt.Zur Erinnerung: B(x, r) = {v ∈ V : ‖v − x‖ < r}, siehe Beispiel IX.6.2(b). ZumBeispiel ist B(x, r) selbst offen (Beweis?), auch {(x1, x2) ∈ R2: x1 > 0, x2 > 0}ist offen (Beweis?).

Wir beweisen zuerst einige Lemmata.

Lemma IX.7.1 Sei C ⊂ R2 eine offene konvexe Menge mit der Eigenschaft,dass U ∩ C 6= ∅ fur jeden eindimensionalen Unterraum U von R2. Dann ist0 ∈ C.

Beweis. Jeder eindimensionale Unterraum von R2 ist von der Form {λu: λ ∈ R}fur ein u 6= 0, d.h. eine Gerade durch 0; C schneidet also jede Gerade durch 0.Nennen wir eine Menge der Form {λu: λ > 0} (u 6= 0) eine Halbgerade undsetzen wir

K = {λv: λ > 0, v ∈ C},

so besteht K aus allen Halbgeraden, die C schneiden. Die Menge K ist offen,weil C offen ist (Beweis?), und sie ist konvex, denn fur v1, v2 ∈ C, λ1, λ2 > 0und 0 ≤ λ ≤ 1 ist

λ(λ1v1) + (1− λ)(λ2v2) = µ(λλ1

µv1 +

(1− λ)λ2

µv2

)=: µv ∈ K

mit µ = λλ1 + (1− λ)λ2 > 0 und v ∈ C.Die Halbgeraden, aus denen K besteht, konnen mit dem Winkel zwischen der

Halbgeraden und der (positiven) x-Achse parametrisiert werden. So erhalt manein Winkelintervall I (es handelt sich um ein Intervall, da K konvex ist), undweil K offen ist, ist das Intervall I ebenfalls offen. Die Lange dieses Intervallsist großer als π, denn jede Gerade schneidet C (deshalb ist die Lange ≥ π), undC ist offen (deshalb ist die Lange sogar > π). Daher gibt es ein u 6= 0 so, dassC sowohl die Halbgerade {λu: λ > 0} als auch die Halbgerade {λ(−u): λ > 0}schneidet.

Daraus schließen wir 0 ∈ C: Es existieren v1, v2 ∈ C und λ1, λ2 > 0 mitv1 = λ1u und v2 = λ2(−u), also 1

λ1v1 + 1

λ2v2 = 0. Setzt man µj = 1

λj/( 1λ1

+ 1λ2

),

erhalt man die Konvexkombination µ1v1 + µ2v2 = 0; daher 0 ∈ C. 2

Lemma IX.7.2 Sei V ein endlichdimensionaler Innenproduktraum der Dimen-sion dim(V ) ≥ 2, und sei C ⊂ V eine offene konvexe Menge mit der Eigen-schaft, dass U ∩ C 6= ∅ fur jeden eindimensionalen Unterraum U von V . Dannist 0 ∈ C.

Version vom 13. Juni 2019

IX.7 Die Minkowskischen Satze 203

Beweis. Sei W ⊂ V ein zweidimensionaler Unterraum; nach Voraussetzung uberC ist C ′ := C∩W nicht leer und konvex, und wenn man C ′ als Teilmenge von W(statt V ) auffasst, ist C ′ auch offen (Beweis?). Da C ′ und W die Voraussetzungvon Lemma IX.7.1 erfullen, folgt 0 ∈ C ′ und erst recht 0 ∈ C. 2

Lemma IX.7.3 Sei V ein endlichdimensionaler Innenproduktraum, und seiC ⊂ V eine offene konvexe Menge mit 0 /∈ C. Dann existiert eine HyperebeneH, also ein Unterraum der Dimension dim(V )− 1, mit H ∩ C = ∅.

Beweis. Es sei U ein Unterraum von V maximaler Dimension d mit U ∩C = ∅.(Dass es uberhaupt solche Unterraume gibt, folgt aus der Voraussetzung 0 /∈ C:{0} ∩ C = ∅.) Wenn d = dim(V ) − 1 ist, sind wir fertig. Nehmen wir alsod = dim(U) ≤ dim(V )− 2 an; es folgt dim(U⊥) ≥ 2. Sei P die Orthogonalpro-jektion auf U⊥ und C ′ := P (C). Dann ist C ′ konvex (Lemma IX.6.3(a)) und,wenn man C ′ als Teilmenge von U⊥ ansieht, auch offen in U⊥ (Beweis?).

Wegen der vorausgesetzten Maximalitat muss jeder eindimensionale Unter-raum von U⊥ die Menge C ′ schneiden: Gabe es namlich ein 0 6= u0 ∈ U⊥ mitlin{u0}∩C ′ = ∅, so ware U0 := U⊕lin{u0} ein Unterraum von V mit U0∩C = ∅(Begrundung folgt) und dim(U0) > d, was unmoglich ist.

Um U0∩C = ∅ einzusehen, nehme man das Gegenteil an: Es existieren u ∈ Uund λ ∈ R mit u + λu0 ∈ C, d.h. P (u + λu0) ∈ C ′, also wegen P (u) = 0 undP (u0) = u0 auch λu0 ∈ C ′, was lin{u0} ∩ C ′ = ∅ widerspricht.

Wir haben gezeigt, dass U⊥ und C ′ die Voraussetzung von Lemma IX.7.2erfullen. Es folgt 0 ∈ C ′, also U ∩ C 6= ∅ (denn P (v) = 0 genau dann, wennv ∈ U), was der Wahl von U widerspricht.

Damit ist das Lemma bewiesen. 2

Zur Vorbereitung der Trennungssatze soll Lemma IX.7.3 umformuliert wer-den. Die dort vorkommende Hyperebene kann in der Form

H = {vH}⊥ = {v: 〈v, vH〉 = 0} = ker `

angegeben werden, wo vH 6= 0 und ` das lineare Funktional v 7→ 〈v, vH〉 ist.Die Hyperebene H teilt den Vektorraum V in zwei offene Halbraume H+ = {v:〈v, vH〉 > 0} und H− = {v: 〈v, vH〉 < 0} auf. Dass C∩H = ∅ ist, impliziert, dassentweder C ⊂ H+ oder C ⊂ H− (warum?). Insofern

”trennt“ die Hyperebene

H die konvexe Menge C von 0.

Satz IX.7.4 (1. Trennungssatz)Sei V ein endlichdimensionaler Innenproduktraum. Seien C1, C2 ⊂ V konvex,C1 sei offen, und C1 und C2 seien disjunkt. Dann existieren vH ∈ V und α ∈ Rmit

C1 ⊂ {v: 〈v, vH〉 < α}, C2 ⊂ {v: 〈v, vH〉 ≥ α}.

Die”

affine Hyperebene“ {v: 〈v, vH〉 = α} trennt also C1 und C2.

Version vom 13. Juni 2019

204 IX. Etwas Geometrie

Beweis. Setze C = {v1 − v2: v1 ∈ C1, v2 ∈ C2}. Dann ist C konvex (leicht zusehen) und offen, was man am schnellsten aus der Darstellung

C =⋃

v2∈C2

{v1 − v2: v1 ∈ C1}

abliest, denn dies ist eine Vereinigung offener Mengen, also offen (leicht zu sehenund noch leichter aus der Analysis zu zitieren). Da C1 und C2 disjunkt sind,ist 0 /∈ C. Mit den obigen Bezeichnungen folgt aus Lemma IX.7.3, dass C ⊂H+ oder C ⊂ H−; ohne Einschrankung konnen wir das Letztere annehmen,andernfalls ersetze vH durch −vH .

Fur v1 ∈ C1 und v2 ∈ C2 ist also 〈v1 − v2, vH〉 < 0, mit anderen Worten〈v1, vH〉 < 〈v2, vH〉. Setzt man α = supv1∈C1

〈v1, vH〉, so erhalt man

〈v1, vH〉 ≤ α ≤ 〈v2, vH〉 fur alle v1 ∈ C1, v2 ∈ C2.

Wenn man nun noch beachtet, dass fur die offene konvexe Menge C1 die Zah-len 〈v1, vH〉 (v1 ∈ C1) ein offenes Intervall bilden (warum?), erhalt man dieBehauptung des Satzes. 2

Man beachte, dass die vorstehenden Aussagen nicht zu gelten brauchen,wenn keine Offenheit vorausgesetzt wird; in R2 ist zum Beispiel C = {(x1, x2):x1 > 0} ∪ {(0, x2): x2 > 0} ein Gegenbeispiel zu Lemma IX.7.1.

Die folgende Version des Trennungssatzes gestattet sogar”strenge Tren-

nung“. Dazu benotigen wir eine weitere Vokabel aus der Analysis: Eine Teil-menge M eines Innenproduktraums heißt abgeschlossen, wenn ihr Komplement{v ∈ V : v /∈M} offen ist.

Satz IX.7.5 (2. Trennungssatz)Sei V ein endlichdimensionaler Innenproduktraum, sei C ⊂ V abgeschlossenund konvex sowie v0 /∈ C. Dann existieren vH ∈ V und α1, α2 ∈ R mit

〈v0, vH〉 ≤ α1 < α2 ≤ 〈v, vH〉 fur alle v ∈ C.

Beweis. Es existiert ein r > 0 mit B(v0, r) ∩ C = ∅, da C abgeschlossen ist.Nach Satz IX.7.4 existieren vH ∈ V sowie α2 ∈ R mit

〈w, vH〉 < α2 ≤ 〈v, vH〉 fur alle v ∈ C, w ∈ B(v0, r),

d.h.

〈v0 + x, vH〉 < α2 ≤ 〈v, vH〉 fur alle v ∈ C, ‖x‖ < r.

Setzt man x = r2

vH‖vH‖ und α1 = 〈v0, vH〉+ r

2‖vH‖, so ergibt sich

〈v0, vH〉 ≤ α1 < α2 ≤ 〈v, vH〉 fur alle v ∈ C,

Version vom 13. Juni 2019

IX.7 Die Minkowskischen Satze 205

was zu zeigen war. 2

Alternativ kann man auch die Ungleichungen

〈v, vH〉 ≤ β1 < β2 ≤ 〈v0, vH〉 fur alle v ∈ C, (IX.12)

erreichen, wenn man oben vH durch −vH ersetzt.Die Trennungssatze spielen eine herausragende Rolle in der linearen Opti-

mierung und anderen mathematischen Gebieten.Auch im Beweis des folgenden Darstellungssatzes, Satz IX.7.13, von Min-

kowski sind sie unabdingbar. Zur Vorbereitung dieses Satzes benotigen wir einpaar Uberlegungen allgemeiner Natur. Zunachst eine weitere Vokabel: x heißtinnerer Punkt einer Menge C, wenn es ein r > 0 mit B(x, r) ⊂ C gibt; die Men-ge der inneren Punkte von C (das Innere von C) werde mit intC bezeichnet.Es folgen einige Lemmata uber das Innere einer konvexen Menge.

Im Folgenden nehmen wir weiterhin an, dass sich alle Uberlegungen im Kon-text eines endlichdimensionalen Innenproduktraums abspielen.

Lemma IX.7.6 Das Innere einer konvexen Menge ist konvex.

Beweis. Seien x und y innere Punkte einer konvexen Menge C (fur intC = ∅ istnichts zu zeigen). Dann existieren Radien r1, r2 > 0 mitB(x, r1) ⊂ C,B(y, r2) ⊂C. Fur r = min{r1, r2} ist also sowohl B(x, r) ⊂ C als auch B(y, r) ⊂ C. Seinun 0 ≤ λ ≤ 1 und z = λx + (1 − λ)y; wir zeigen B(z, r) ⊂ C und damit dieKonvexitat von intC.

Ein beliebiges Element von B(z, r) kann als z + u mit ‖u‖ < r dargestelltwerden. Dann ist x+u ∈ B(x, r) ⊂ C und genauso y+u ∈ C. Da C konvex ist,liegt auch λ(x+ u) + (1− λ)(y + u) in C, aber dieser Punkt ist nichts anderesals z + u. Das beweist B(z, r) ⊂ C, wie behauptet. 2

Der Begriff des inneren Punkts ist genauso wie der einer offenen Mengeimmer relativ zu der gegebenen Obermenge (hier dem Innenproduktraum V )zu verstehen; z.B. ist das Intervall (0, 1) als Teilmenge von R offen, nicht aberals Teilmenge von R2, wenn man (0, 1) als Teilmenge der x-Achse ansieht. Dasnachste Lemma erklart, wie man durch Verschiebungen zu inneren Punktenkonvexer Mengen relativ zu ihrer linearen Hulle kommt.

Lemma IX.7.7 Sei C ⊂ V konvex und nicht leer. Wenn 0 ∈ C ist, hat Crelativ zu lin(C) einen inneren Punkt. Insbesondere hat fur jedes a ∈ C diekonvexe Menge C ′ = {x− a: x ∈ C} nichtleeres Inneres relativ zu lin(C ′).

Beweis. Sei W = lin(C). Nach Korollar II.2.16 enthalt das ErzeugendensystemC von W eine Basis b1, . . . , bm von W . Wegen bj ∈ C und 0 ∈ C folgt

p :=1

m+ 1

m∑j=1

bj ∈ C.

Version vom 13. Juni 2019

206 IX. Etwas Geometrie

Wir zeigen, dass p relativ zu W ein innerer Punkt von C ist. Dazu werden wireinen Radius r mit

p+ u ∈ C fur alle u ∈W mit ‖u‖ < r

angeben.Jeder Vektor w ∈ W kann mittels der Basis b1, . . . , bm linear kombiniert

werden, sagen wir

w =

m∑j=1

βj(w)bj .

Die βj sind lineare Abbildungen auf W und konnen gemaß Satz VI.2.12 in derForm

βj(w) = 〈w,wj〉

mit geeigneten wj ∈ W dargestellt werden. Es sei K = max ‖wj‖ > 0; dannliefert die Cauchy-Schwarz-Ungleichung (Satz VI.1.7)

|βj(w)| = |〈w,wj〉| ≤ ‖w‖ ‖wj‖ ≤ K‖w‖.

Sei r = (m(m + 1)K)−1, und sei u ∈ W mit ‖u‖ < r; wir wollen p + u ∈ Cbeweisen.

In der Tat ist p + u =∑mj=1( 1

m+1 + βj(u))bj , und dieser Vektor liegt in C,

falls alle 1m+1 +βj(u) ≥ 0 sind und

∑mj=1( 1

m+1 +βj(u)) ≤ 1 ist (da 0 ∈ C, reicht

es,∑mj=1( 1

m+1 +βj(u)) ≤ 1 zu zeigen); die letzte Bedingung ist zu∑mj=1 βj(u) ≤

1m+1 aquivalent. Gelte nun ‖u‖ < r; dann folgt

|βj(u)| ≤ K‖u‖ < Kr =1

m(m+ 1)

und deshalb

m∑j=1

βj(u) ≤m∑j=1

|βj(u)| ≤ m 1

m(m+ 1)=

1

m+ 1

sowie1

m+ 1+ βj(u) ≥ 1

m+ 1− 1

m(m+ 1)≥ 0.

Das war zu zeigen.Der Zusatz ist klar. 2

Im folgenden Lemma benutzen wir die Schreibweise {` < α} = {x ∈ V :`(x) < α} und analog fur {` ≤ α} etc.

Lemma IX.7.8 Sei C ⊂ V eine konvexe Menge mit intC 6= ∅. Sei `: V → Rlinear mit intC ⊂ {` < α}. Dann gilt C ⊂ {` ≤ α}.

Version vom 13. Juni 2019

IX.7 Die Minkowskischen Satze 207

Beweis. Seien x ∈ C, y ∈ intC (nach Voraussetzung gibt es solch ein y). Zu0 < λ < 1 setze xλ = λy + (1 − λ)x = x + λ(y − x) ∈ C. Ist r > 0 so, dassB(y, r) ⊂ C, so zeigt eine einfache Rechnung B(xλ, λr) ⊂ C, also xλ ∈ intC.Nun gilt nach Voraussetzung `(x)+λ`(y−x) = `(xλ) < α fur alle 0 < λ < 1; dasimpliziert (durch Grenzubergang λ→ 0 oder durch ein Widerspruchsargument)`(x) ≤ α. 2

Wir wollen als nachstes die geometrischen Begriffe des Extremalpunkts bzw.einer Seite einfuhren.

Definition IX.7.9 Sei C ⊂ V konvex.

(a) Eine konvexe Teilmenge S ⊂ C heißt Seite von C, wenn

x, y ∈ C, 0 < λ < 1, λx+ (1− λ)y ∈ S ⇒ x, y ∈ S.

(b) Ein Element p ∈ C heißt Extremalpunkt von C, wenn

x, y ∈ C, 0 < λ < 1, p = λx+ (1− λ)y ⇒ x = y = p.

Die Menge der Extremalpunkte von C wird mit exC bezeichnet.

Ein Extremalpunkt ist also ein Punkt von C, der nicht im (relativen) Innerneiner in C verlaufenden Strecke (mit verschiedenen Endpunkten) liegen kann.

Aus der Definition ergibt sich sofort, dass p genau dann ein Extremalpunktist, wenn {p} eine Seite ist. Ferner zeigt die Definition unmittelbar, dass einExtremalpunkt einer Seite von C auch ein Extremalpunkt von C selbst ist:

Lemma IX.7.10 Ist C ⊂ V konvex und S eine Seite von C, so gilt exS ⊂ exC,genauer exS = S ∩ exC.

Beispiele IX.7.11 (a) Naturlich braucht eine konvexe Menge uberhaupt keineExtremalpunkte zu besitzen, z.B. exV = ∅ (falls dimV ≥ 1). Ein weiteresBeispiel: exB(u, r) = ∅ (leicht zu verifizieren, vgl. auch (b)).

(b) Fur abgeschlossene Kugeln eines Innenproduktraums gilt

exB[u, r] = {v: ‖v − u‖ = r}; (IX.13)

die Extremalpunkte sind genau die Randpunkte. Der einfacheren Notation hal-ber fuhren wir den Beweis nur fur u = 0, r = 1. Ist dann 0 6= ‖v‖ 6= 1,so ist v = ‖v‖ v

‖v‖ + (1 − ‖v‖) · 0 eine nichttriviale Konvexkombination, daher

v /∈ exB[0, 1]. Ferner ist 0 /∈ exB[0, 1] klar; daher gilt”⊂“ in (IX.13). Nun

sei ‖v‖ = 1 und v = λx + (1 − λ)y mit 0 < λ < 1, ‖x‖, ‖y‖ ≤ 1; nach derDreiecksungleichung muss dann notwendig ‖x‖ = ‖y‖ = 1 sein. Die Parallelo-grammgleichung ((VI.2) auf Seite 97) liefert

2‖x‖2 + 2‖y‖2 = 4 = ‖x+ y‖2 + ‖x− y‖2,

Version vom 13. Juni 2019

208 IX. Etwas Geometrie

also ist entweder x = y oder ‖ 12 (x + y)‖ < 1. Nehmen wir Letzteres an und

setzen wir z = 12 (x+ y). Ist λ ≤ 1

2 , so ist v = 2λz + (1− 2λ)y eine Konvexkom-bination und die Dreiecksungleichung impliziert ‖v‖ ≤ 2λ‖z‖+ (1− 2λ)‖y‖ < 1(Widerspruch!), und fur λ > 1

2 liefert v = (2λ − 1)x + 2(1 − λ)z auf ahnlicheWeise einen Widerspruch. Also ist x = y bewiesen, und v ist ein Extremalpunkt.

(c) Die Koordinaten eines Vektors x ∈ Rn seien x1, . . . , xn; wir betrachtenden Hyperwurfel

H = {x ∈ Rn: |xj | ≤ 1 fur j = 1, . . . , n}

und behaupten

exH = {x ∈ Rn: |xj | = 1 fur j = 1, . . . , n}.

(Man visualisiere den Fall n = 3!) Ist namlich x ∈ H mit |xk| < 1 und ε = 1−|xk|, so gilt x±εek ∈ H, und x = 1

2 (x+εek)+ 12 (x−εek) ist kein Extremalpunkt

von H. Ist jedoch stets |xj | = 1 und sind y, z ∈ H, 0 < λ < 1 mit x =λy + (1− λ)z, so ist stets xj = λyj + (1− λ)zj vom Betrag 1 mit |yj |, |zj | ≤ 1.Daher folgt yj = zj = xj und y = z = x, und x ist ein Extremalpunkt von H.

(d) Sei C eine konvexe Teilmenge eines Innenproduktraums V , und sei `:V → R linear. Die lineare Abbildung ` nehme auf C ihr Supremum an, d.h., esexistiert v0 ∈ C mit `(v0) ≥ `(v) fur alle v ∈ C. Dann ist die konvexe MengeS := {v ∈ C: `(v) = `(v0)} eine Seite von C. Seien namlich v ∈ S, 0 < λ < 1,x, y ∈ C mit v = λx+(1−λ)y. Weil `(v0) der Maximalwert von ` auf C ist, folgt`(x) ≤ `(v0) und `(y) ≤ `(v0); andererseits ist `(v0) = `(v) = λ`(x)+(1−λ)`(y).Deshalb muss `(x) = `(y) = `(v0) sein, und wir haben x, y ∈ S gezeigt.

Das nachste Beispiel ist weniger offensichtlich und erscheint daher als Satz.Die Operatornorm wurde in Abschnitt VIII.5 eingefuhrt.

Satz IX.7.12 Sei C = {L ∈ L (V ): ‖L‖op ≤ 1}. Dann besteht exC genau ausden orthogonalen bzw. unitaren Abbildungen.

Beweis. Die Dreiecksungleichung fur die Operatornorm zeigt, dass C konvex ist.Sei zuerst U ∈ C orthogonal bzw. unitar mit U = λA + (1 − λ)B, 0 < λ < 1,A,B ∈ C. Da U isometrisch ist, folgt fur alle v ∈ V mit ‖v‖ = 1

U(v) = λ ·Av + (1− λ) ·Bv

mit ‖Uv‖ = 1, ‖Av‖ ≤ 1, ‖Bv‖ ≤ 1. Nach Beispiel IX.7.11(b) ist Uv einExtremalpunkt der Einheitskugel B[0, 1] von V , so dass Uv = Av = Bv folgt.Das zeigt U = A = B, und U ist ein Extremalpunkt von C.

Umgekehrt sei U nicht orthogonal bzw. unitar, d.h., es gelte U∗U 6= Id. Dannmuss in der Singularwertzerlegung von Satz VIII.4.5 gelten

U(v) =

n∑j=1

σj〈v, fj〉gj mit 0 ≤ σn < 1.

Version vom 13. Juni 2019

IX.7 Die Minkowskischen Satze 209

Sei ε = 1− σn > 0, und sei U ∈ L (V ) durch U(v) = ε〈v, fn〉gn definiert. Dannschatzt man ab

‖(U ± U)(v)‖2 =∥∥∥n−1∑j=1

σj〈v, fj〉gj + (σn ± ε)〈v, fn〉gn∥∥∥2

=

n−1∑j=1

σ2j |〈v, fj〉|2 + (σn ± ε)2|〈v, fn〉|2

≤n∑j=1

|〈v, fn〉|2 = ‖v‖2,

also ist U ± U ∈ C, und U = 12 (U + U) + 1

2 (U − U) /∈ exC. 2

Der Hauptsatz uber Extremalpunkte konvexer Mengen – auch dieser Satzstammt von Minkowski – lautet wie folgt; manchmal wird der Satz nach seinemunendlichdimensionalen Analogon auch Satz von Krein-Milman genannt.

Satz IX.7.13 Sei V ein endlichdimensionaler reeller Innenproduktraum, undsei ∅ 6= C ⊂ V konvex, abgeschlossen und beschrankt4. Dann gilt C = co exC;insbesondere ist exC 6= ∅.

Beweis. Wir fuhren einen Induktionsbeweis nach der Dimension von V . FurdimV = 1 konnen wir V durch R reprasentieren, und C hat notwendig dieGestalt C = [a, b] mit a ≤ b; die Aussage des Satzes ist dann klar.

Jetzt sei dimV = n ∈ N fest, und die Behauptung des Satzes sei fur alleDimensionen < n angenommen (wir benutzen jetzt das starke Induktionsprinzipvon Seite 145). Sei C ⊂ V wie im Satz. Wenn intC = ∅ ist, konnen wir eine Ver-schiebung C ′ von C mit W := linC ′ 6= V finden; das folgt aus Lemma IX.7.7.Man beachte noch, dass die Extremalpunkte der verschobenen Menge genau dieVerschiebungen der Extremalpunkte von C sind und dass mit C auch C ′ konvex,abgeschlossen und beschrankt ist (und umgekehrt). Also greift die Induktions-voraussetzung, und die Aussage des Satzes ist fur solch ein C begrundet.

Es bleibt der Fall intC 6= ∅ zu diskutieren. Sei zunachst p ∈ C \ intC. MitHilfe des 1. Trennungssatzes, Satz IX.7.4, findet man einen Vektor vH 6= 0 undeine Zahl α ∈ R mit

〈v, vH〉 < α fur v ∈ intC, 〈p, vH〉 ≥ α.

Lemma IX.7.8 liefert 〈v, vH〉 ≤ α fur v ∈ C, und `: v 7→ 〈v, vH〉 nimmt ein Ma-ximum uber der Menge C bei p an. Die Menge S := {v ∈ C: 〈v, vH〉 = 〈p, vH〉}ist daher eine Seite von C (siehe Beispiel IX.7.11(d)). Die verschobene Sei-te S − p := {v − p: v ∈ S} hat die gleiche (nur verschobene) Extremalstruktur

4D.h. supv∈C ‖v‖ <∞.

Version vom 13. Juni 2019

210 IX. Etwas Geometrie

wie S, und S−p liegt in dem (n−1)-dimensionalen Raum v⊥H . Nach Induktions-voraussetzung ist daher p ∈ co exS, aber nach Lemma IX.7.10 ist exS ⊂ exC.Das zeigt p ∈ co exC.

Sei abschließend p ∈ intC; wir weden auch fur solch ein p die Beziehungp ∈ co exC zeigen. Dazu sei 0 6= v ∈ V beliebig; wir betrachten die Geradeg = {p+ tv: t ∈ R} sowie C ∩ g. Dann gelten die folgenden Aussagen (bitte imDetail verifizieren!): C∩g ist konvex und von der Form {p+tv: t ∈ [−t−, t+]}mit−t− < 0 < t+. (Dies folgt daraus, dass C konvex, abgeschlossen und beschranktsowie p ein innerer Punkt ist.) Ferner sind p+ = p + t+v und p− = p − t−vkeine inneren Punkte von C. Nach dem Trennungsargument aus dem letztenAbsatz liegen p+ und p− auf Seiten von C und konnen nach Induktionsvor-

aussetzung als Konvexkombinationen p+ =∑m+

j=1 λ+j xj , p

− =∑m−

k=1 λ−k yk von

Extremalpunkten von C dargestellt werden. Dann zeigt die Darstellung

p =t+

t+ + t−p− +

t−

t+ + t−p+ =

m−∑k=1

t+

t+ + t−λ−k yk +

m+∑j=1

t−

t+ + t−λ+j xj ,

dass p ∈ co exC. 2

Kombiniert man Satz IX.7.13 mit dem Satz von Caratheodory (Satz IX.6.6),erhalt man, dass jeder Punkt einer konvexen, abgeschlossenen und beschranktenTeilmenge C eines n-dimesionalen reellen Innenproduktraums als Konvexkom-bination von hochstens n+ 1 Extremalpunkten dargestellt werden kann.

Satz IX.7.13 gilt auch fur Innenproduktraume uber C, obwohl der Beweissich definitiv auf reelle Raume bezieht (wir haben mit dem Maximum einesFunktionals argumentiert). Aber jeder komplexe Vektorraum ist auch ein R-Vektorraum, so dass die Aussage des Satzes auch im komplexen Fall gilt. DieseBemerkung ist fur das folgende Korollar nutzlich, das Satz IX.7.13 illustriert.

Korollar IX.7.14 Sei A eine reelle oder komplexe n×n-Matrix mit ‖A‖op ≤ 1.Dann kann A als Konvexkombination von orthogonalen bzw. unitaren Matrizengeschrieben werden.

Beweis. Um Satz IX.7.13 anwenden zu konnen, muss man nur bemerken, dasswegen Lemma VIII.5.3 die Menge {A: ‖A‖op ≤ 1} abgeschlossen im Innenpro-

duktraum Kn2

ist (warum?), und die Charakterisierung der Extremalpunktedieser Menge aus Satz IX.7.12 benutzen. 2

Version vom 13. Juni 2019

Kapitel X

Erganzungen

X.1 Unendlichdimensionale Vektorraume

In diesem Abschnitt wird bewiesen, dass jeder K-Vektorraum eine Basis hat.Dazu sind Vorbereitungen aus der Mengenlehre notig.

In der axiomatischen Mengenlehre versucht man, ausgehend von wenigengrundlegenden Axiomen die gesamte Mengenlehre rigoros aufzubauen. Das all-gemein anerkannte Fundament sind die Zermelo-Fraenkel-Axiome, in denen fest-gelegt ist, welche Operationen bei Mengen erlaubt sind1. Wenn es um unendlicheMengen geht, sind diese Axiome haufig nicht stark genug; deshalb wird ein wei-teres Axiom benotigt, das Auswahlaxiom.

Auswahlaxiom. Sei ∼ eine Aquivalenzrelation auf einer nichtleeren Menge X.Dann existiert eine Teilmenge von X, die aus jeder Aquivalenzklasse genau einElement enthalt.

Dieses Axiom hat viele Konsequenzen in der Mathematik, manche sind sehrnaturlich und erwartbar, andere absolut kontraintuitiv. Zu Letzteren gehort dasBanach-Tarski-Paradoxon:

• Seien K ⊂ R3 und K ′ ⊂ R3 zwei Kugeln. Dann gibt es disjunkte Zer-legungen K = A1 ∪ . . . ∪ An und K ′ = A′1 ∪ . . . ∪ A′n, so dass Aj undA′j stets kongruent im Sinne der euklidischen Geometrie sind (d.h. esgibt Kongruenzabbildungen Tj, also Kompositionen von Drehungen undTranslationen, mit Tj(Aj) = A′j).

1Einen ersten kurzen Uberblick bietet Kapitel 12 von O. Deiser, C. Lasser, E. Vogt, D. Wer-ner, 12×12 Schlusselkonzepte zur Mathematik. 2. Auflage, Springer Spektrum 2016.

Version vom 13. Juni 2019

212 X. Erganzungen

Das ist unvorstellbar, wenn die Kugeln unterschiedliche Radien haben, aber mitdem Auswahlaxiom beweisbar2.

Betrachten wir ein paar Beispiele. Im Kontext der Beispiele V.3.2(b) bzw.V.3.4(b) ist Zn = {0, . . . , n− 1} solch eine Auswahlmenge, und im Kontext vonBeispiel V.3.2(c) bzw. V.3.4(c) ist es jede Gerade, die nicht parallel zu g ist. Indiesen Beispielen benotigt man das Auswahlaxiom nicht, um die Existenz einerAuswahlmenge zu garantieren; man kann eine solche sogar explizit angeben. Imfolgenden Beispiel ist das nicht so. Sei ∼ die Aquivalenzrelation auf R

x ∼ y ⇔ x− y ∈ Q.

Hier kann man keine explizite Auswahlmenge angeben, aber das Auswahlaxiomimpliziert die Existenz einer solchen. Eine Auswahlmenge fur diese Aquivalenz-relation ist in der Lebesgueschen Integrationstheorie von Bedeutung, da sie einBeispiel fur eine nicht Lebesgue-messbare Menge ist.

Eine Konsequenz des Auswahlaxioms ist das Zornsche Lemma3. Wir werdenfolgende Version anwenden.

Zornsches Lemma. Sei X eine Menge und X 6= ∅ eine Menge von Teilmen-gen von X. Wenn jede Kette in X nach oben beschrankt ist, besitzt X einmaximales Element.

Hier sind einige Vokabeln zu erlautern. Eine Kette K ist eine Teilmenge vonX derart, dass fur A,B ∈ K stets eine der Inklusionen A ⊂ B bzw. B ⊂ Agilt. (Beispiel: Sei X ⊂ R2, sei X die Menge aller Kreise, die Teilmengen vonX sind, und sei x0 ∈ X. Dann ist {K ∈X : K hat Mittelpunkt x0} eine Kette.)K ⊂X heißt nach oben beschrankt, wenn es eine Menge S ∈X mit A ⊂ S furalle A ∈ K gibt; solch ein S heißt obere Schranke von K . Eine Menge M ∈Xheißt maximal, wenn aus M ⊂M ′ und M ′ ∈X die Gleichheit M = M ′ folgt.

Das Zornsche Lemma garantiert die Existenz gewisser mathematischer Ob-jekte; allerdings liefert es keine Methode, solche Objekte konkret zu konstruie-ren.

Jetzt konnen wir den Basisexistenzsatz beweisen; vgl. Satz II.2.4 fur denendlichdimensionalen Fall.

Satz X.1.1 Jeder K-Vektorraum besitzt eine Basis.

Beweis. Der Vektorraum V = {0} hat die Basis ∅. Sei nun V 6= {0} ein K-Vektorraum. Nach Satz II.2.3 mussen wir eine maximale linear unabhangigeTeilmenge von V finden (genauer: deren Existenz beweisen); dazu verwendenwir das Zornsche Lemma mit X = {T ⊂ V : T ist linear unabhangig}. Es istX 6= ∅, da V 6= {0}: Ist 0 6= v0 ∈ V , so ist {v0} ∈X . Da eine maximale Menge

2S. Wagon, The Banach-Tarski Paradox. Cambridge University Press 1985.3Einen Beweis findet man zum Beispiel in P. Halmos, Naive Mengenlehre, Vandenhoeck &

Ruprecht 1976.

Version vom 13. Juni 2019

X.1 Unendlichdimensionale Vektorraume 213

im Sinne des Zornschen Lemmas genau das ist, was wir in Satz II.2.3 suchen,ist nur zu zeigen, dass jede Kette in X nach oben beschrankt ist.

Sei also K ⊂X eine Kette. Wir betrachten K0 =⋃K∈K K und behaupten,

dass K0 ∈ X ist; es ist also zu zeigen, dass K0 eine linear unabhangige Mengeist. Definitionsgemaß heißt das, dass jede endliche Teilmenge {v1, . . . , vn} ⊂ K0

aus paarweise verschiedenen Elementen linear unabhangig ist. Um das zu zeigen,bemerken wir, dass es zu jedem j = 1, . . . , n eine Menge Kj ∈ K mit vj ∈ Kj

gibt. Wir vergleichen nun K1 und K2. Da K eine Kette ist, gilt K1 ⊂ K2 oderK2 ⊂ K1. Sei i2 ∈ {1, 2} so, dass Ki2 die großere dieser beiden Mengen ist; alsoist sowohl K1 ⊂ Ki2 als auch K2 ⊂ Ki2 . Nun vergleichen wir Ki2 und K3. DaK eine Kette ist, gilt Ki2 ⊂ K3 oder K3 ⊂ Ki2 . Sei i3 ∈ {i2, 3} so, dass Ki3

die großere dieser Mengen ist; also ist Kj ⊂ Ki3 fur j = 1, 2, 3. So fortfahrend,erhalt man nach n− 1 Schritten einen Index in mit Kj ⊂ Kin fur j = 1, . . . , n;insbesondere ist {v1, . . . , vn} ⊂ Kin . Da Kin eine linear unabhangige Menge ist,ist auch {v1, . . . , vn} linear unabhangig.

Da klarerweise K ⊂ K0 fur alle K ∈ K gilt, ist K0 eine obere Schranke vonK , und K ist nach oben beschrankt.

Damit ist der Satz bewiesen. 2

Es sei betont, dass dies im Unendlichdimensionalen ein reiner Existenzsatzmit einem nichtkonstruktiven Beweis ist; zum Beispiel ist es noch niemandemgelungen, eine explizite Basis fur Funktionenraume wie C(R) (stetige Funktio-nen) oder D(R) (differenzierbare Funktionen) anzugeben.

Jetzt konnen wir auch Korollar II.2.15 auf den allgemeinen Fall ausdehnen.

Korollar X.1.2 Jede linear unabhangige Teilmenge eines K-Vektorraums lasstsich zu einer Basis erganzen.

Beweis. Ist T0 eine linear unabhangige Teilmenge des K-Vektorraums V , wendeman das Zornsche Lemma wie im letzten Beweis auf X0 = {T ⊂ V : T0 ⊂ T , Tist linear unabhangig} an. 2

Wir halten ferner eine Bemerkung uber die Existenz von Komplementarrau-men fest.

Satz X.1.3 Sei V ein K-Vektorraum und U ⊂ V ein Unterraum. Dann exi-stiert ein Unterraum U ′ ⊂ V mit V = U ⊕ U ′.

Beweis. Sei B eine Basis von U (Satz X.1.1). Erganze B zu einer Basis B ∪B′von V (Korollar X.1.2), wo B ∩B′ = ∅. Setze U ′ = linB′; dann ist V = U ⊕U ′,wie man leicht nachpruft. 2

Wir wollen nun die Satze II.2.13 und III.1.3 auf den unendlichdimensionalenFall ubertragen. Dazu ist folgende Notation hilfreich. Seien vi (i ∈ I) Elemente

Version vom 13. Juni 2019

214 X. Erganzungen

eines K-Vektorraums V , von denen nur endlich viele von 0 verschieden sind;also ist I0 = {i ∈ I: vi 6= 0} endlich. Wir setzen dann4∑

i∈Ivi :=

∑i∈I0

vi;

es ist klar, dass fur jede endliche Menge I0 ⊂ I1 ⊂ I ebenfalls∑i∈I vi =

∑i∈I1 vi

gilt. (Man beachte, dass es sich nur formal um eine unendliche Reihe handelt;es ist keinerlei Konvergenz im Spiel.) Ist {wi: i ∈ I} ⊂ V ein weiterer Satz vonVektoren, fur die I ′0 = {i: wi 6= 0} endlich ist, so gilt die vertraute Summenregel∑

i∈I(vi + wi) =

∑i∈I

vi +∑i∈I

wi,

denn J0 := {i ∈ I: vi + wi 6= 0} ⊂ {i ∈ I: vi 6= 0} ∪ {i ∈ I: wi 6= 0} ist endlichund ∑

i∈I(vi + wi) =

∑i∈J0

(vi + wi) =∑

i∈(I0∪I′0)

(vi + wi)

=∑

i∈(I0∪I′0)

vi +∑

i∈(I0∪I′0)

wi =∑i∈I0

vi +∑i∈I′0

wi.

Genauso sieht man das Distributivgesetz

λ∑i∈I

vi =∑i∈I

(λvi)

ein.Jetzt konnen wir die Basisentwicklung im allgemeinen Fall diskutieren.

Satz X.1.4 Sei V ein K-Vektorraum mit Basis B = {bi: i ∈ I}. Dann existie-ren zu jedem v ∈ V eindeutig bestimmte Skalare λi ∈ K (i ∈ I) mit

v =∑i∈I

λibi.

Beweis. Die Existenz ist klar, da B ein Erzeugendensystem ist. Zur Eindeu-tigkeit: Gelte v =

∑i∈I λibi =

∑i∈I µibi; dann folgt (siehe Vorbemerkung)∑

i∈I(λi − µi)bi = 0. (Zur Erinnerung: In diesen Summen sind hochstens end-lich viele Summanden 6= 0.) Da B linear unabhangig ist, sind alle λi − µi = 0.Das war zu zeigen. 2

Die Eindeutigkeit der Basisdarstellung hat eine wichtige Konsequenz. Dain der Darstellung v =

∑i∈I λibi die Koeffizenten λi eindeutig bestimmt sind,

konnen wir wohldefinierte Abbildungen durch

`i: V → K, v 7→ λi

erklaren (i ∈ I).

4Definitionsgemaß ist∑

i∈∅ vi = 0.

Version vom 13. Juni 2019

X.1 Unendlichdimensionale Vektorraume 215

Korollar X.1.5 Die Abbildungen `i sind linear.

Beweis. Seien v, w ∈ V mit

v =∑i∈I

`i(v)bi, w =∑i∈I

`i(w)bi.

Dann ist einerseitsv + w =

∑i∈I

(`i(v) + `i(w))bi

und andererseitsv + w =

∑i∈I

`i(v + w)bi.

Da die Koeffizienten eindeutig sind, folgt `i(v + w) = `i(v) + `i(w).Genauso zeigt man `i(λv) = λ`i(v). 2

Nun zur Ubertragung von Satz III.1.3.

Satz X.1.6 Sei V ein Vektorraum mit einer Basis B. Sei W ein weiterer Vek-torraum, und sei Λ: B → W eine Abbildung. Dann existiert genau eine lineareAbbildung L: V → W , die auf B mit Λ ubereinstimmt: L(v) = Λ(v) fur allev ∈ B.

Beweis. Der Beweis ist eine Blaupause des Beweises von Satz III.1.3. Schreibev ∈ V gemaß Satz X.1.4 mit den gerade eingefuhrten linearen Abbildungen `ials

v =∑i∈I

`i(v)bi =∑i∈I0

`i(v)bi (X.1)

mit I0 = {i ∈ I: `i(v) 6= 0}. Wenn es uberhaupt eine wie im Satz beschriebeneAbbildung L gibt, muss sie wegen ihrer Linearitat den Vektor v auf∑

i∈I0

`i(v)Λ(bi) =∑i∈I

`i(v)Λ(bi)

abbilden. Das zeigt, dass es hochstens ein L wie im Satz geben kann, undgibt gleichzeitig einen Anhaltspunkt, wie die Existenz zu begrunden ist. Set-ze namlich

L: V →W, L(v) =∑i∈I

`i(v)Λ(bi).

Dann ist L(bj) = Λ(bj) fur j ∈ I klar (warum?), und L ist aus folgendem Grundlinear. Die Linearitat der `i impliziert namlich

L(v) + L(w) =∑i∈I

`i(v)Λ(bi) +∑i∈I

`i(w)Λ(bi) =∑i∈I

(`i(v) + `i(w))Λ(bi)

=∑i∈I

`i(v + w)Λ(bi) = L(v + w).

Genauso zeigt man L(λv) = λL(v). 2

Version vom 13. Juni 2019

216 X. Erganzungen

X.2 Der Dualraum

Kommt noch. ♣ ♣ ♣

X.3 Das Tensorprodukt

Kommt noch. ♣ ♣ ♣

Version vom 13. Juni 2019

Literaturhinweise

Propadeutische Texte und Uberblicke:

L. Alcock: Wie man erfolgreich Mathematik studiert. Springer-Spektrum 2017.

A. Beutelspacher:”Das ist o.B.d.A. trivial!“ Springer-Vieweg, 9. Auflage 2009.

O. Deiser, C. Lasser, E. Vogt, D. Werner: 12 × 12 Schlusselkonzepte zur Mathematik.Springer-Spektrum, 2. Auflage 2015.

T. Gowers: Mathematics. A Very Short Introduction. Oxford Univ. Press 2002.(Deutsch unter dem Titel Mathematik. Reclam 2011.)

D. Grieser: Mathematisches Problemlosen und Beweisen. Springer-Spektrum, 2. Auf-lage 2017.

I. Hilgert, J. Hilgert: Mathematik – ein Reisefuhrer. Springer-Spektrum 2012.

K. Houston: Wie man mathematisch denkt. Springer-Spektrum 2012.

H. Schichl, R. Steinbauer: Einfuhrung in das mathematische Arbeiten. Springer 2009.

Lehrbucher:

S. Axler: Linear Algebra Done Right. Springer, 3. Auflage 2015.

A. Beutelsbacher: Lineare Algebra. Springer-Spektrum, 8. Auflage 2014.

G. Fischer: Lernbuch Lineare Algebra und Analytische Geometrie. Springer-Spektrum,3. Auflage 2017. [I Wichtige Quelle!]

G. Fischer: Lineare Algebra. Springer-Spektrum, 18. Auflage 2014.

P. Knabner, W. Barth: Lineare Algebra. Springer-Spektrum 2013.

M. Koecher: Lineare Algebra und analytische Geometrie. Springer, 4. Auflage 1997.

T.W. Korner: Vectors, Pure and Applied. A General Introduction To Linear Algebra.Cambridge University Press 2013.

H.-J. Kowalsky, G.O. Michler: Lineare Algebra. De Gruyter, 12. Auflage 2003.

S. Lang: Linear Algebra. Springer, 3. Auflage 1987.

Version vom 13. Juni 2019

218 Literaturhinweise

J. Liesen, V. Mehrmann: Lineare Algebra. Springer-Spektrum, 2. Auflage 2015.

H. Muthsam: Lineare Algebra. Springer-Spektrum, 2. Auflage 2006.

B. Said-Houari: Linear Algebra. Birkhauser 2017.

Tutorien:

O. Deiser, C. Lasser: Erste Hilfe in Linearer Algebra. Springer-Spektrum 2015.

F. Modler, M. Kreh: Tutorium Analysis 1 und Lineare Algebra 1. Springer-Spektrum,3. Auflage 2014.

Wie dieses Skript entstanden ist

Version vom 13. Juni 2019