LINEARE ALGEBRA II · W des aﬃnen Raumes A = p+U, wenn W ein Teilraum von U und q ∈A ist. BCA...

LINEARE ALGEBRA II

Ao.Univ.-Prof. Mag. Dr. H. KautschitschInstitut fur MathematikUniversitat Klagenfurt

4. Mai 2007

ii

Inhaltsverzeichnis

Einleitung v

IV Geometrie in Vektorraumen 1

14 Affine Geometrie 1

14.1 Affine Raume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

14.2 Affine Eigenschaften von Geraden und Ebenen . . . . . . . . . . . . . . . . . . . 10

14.3 Koordinatensysteme in affinen Raumen . . . . . . . . . . . . . . . . . . . . . . . 17

14.3.1 Affine und kartesische Koordinatensysteme . . . . . . . . . . . . . . . . . 18

14.3.2 Affine Koordinatentransformation . . . . . . . . . . . . . . . . . . . . . . 24

14.4 Konvexe Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

15 Metrische Geometrie 33

15.1 Abstands– und Winkelmessung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

15.2 Volumina von Simplices und Spaten . . . . . . . . . . . . . . . . . . . . . . . . . 37

16 Lineare Optimierung 40

16.1 Geometrische Losung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

16.2 Geometrische Eigenschaften der zulassigen Menge Z . . . . . . . . . . . . . . . . 48

16.3 Hauptsatz der linearen Optimierung . . . . . . . . . . . . . . . . . . . . . . . . . 60

V Linearitat 68

17 Lineare Abbildungen 68

17.1 Elementare Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

17.2 Rang und Defekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

17.3 Anwendung: Lineare Operatorgleichungen . . . . . . . . . . . . . . . . . . . . . . 84

17.4 Rechnen mit linearen Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . 91

17.5 Faktorraume (Quotientenraume) . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

18 Matrizen und Lineare Abbildungen 101

18.1 Matrixdarstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

18.2 Anderung der Matrixdarstellung bei Basiswechsel . . . . . . . . . . . . . . . . . . 106

18.3 Affine Abbildungen (Einschub) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

iii

19 Eigenwerte und Eigenvektoren 129

19.1 Grundlegende Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

19.2 Minimalpolynom einer Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

19.3 Eigenwerte und Eigenvektoren spezieller Matrizen . . . . . . . . . . . . . . . . . 143

20 Linearitat in Skalarproduktraumen 149

20.1 Orthogonale und unitare Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . 149

20.2 Adjungierte Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

20.3 Normale Operatoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

20.4 Projektionen und Orthogonalprojektionen . . . . . . . . . . . . . . . . . . . . . . 161

20.5 Geometrie linearer Operatoren im IR2 bzw. IR3 . . . . . . . . . . . . . . . . . . . 169

VI Vereinfachen von Matrizen 182

21 Diagonalisieren 184

21.1 Aquivalentes Diagonalisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

21.2 Ahnliches Diagonalisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190

21.3 Orthogonales (Unitares) Diagonalisieren . . . . . . . . . . . . . . . . . . . . . . . 197

21.4 Anwendungen des Diagonalisierens . . . . . . . . . . . . . . . . . . . . . . . . . . 206

21.4.1 Berechnung von Matrixpotenzen . . . . . . . . . . . . . . . . . . . . . . . 206

21.4.2 Differenzengleichungen und Potenzen Ak . . . . . . . . . . . . . . . . . . . 207

21.4.3 Markovprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209

21.4.4 Differentialgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213

22 Triangulieren 220

23 Blockdiagonalisieren 226

23.1 Allgemeines Blockdiagonalisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . 226

23.2 JORDAN’scher Normalformensatz . . . . . . . . . . . . . . . . . . . . . . . . . . 233

23.3 Verallgemeinerte Eigenvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236

23.4 Matrizenfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239

VII Quadratische Formen 252

iv

24 Bilinearformen und Quadratische Formen 252

24.1 Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253

24.2 Matrixdarstellung von Bilinearformen . . . . . . . . . . . . . . . . . . . . . . . . 260

24.3 Kongruentes Diagonalisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263

25 Hauptachsentransformation von Quadriken 269

25.1 Quadriken in Vektorraumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269

25.2 Quadriken in Skalarproduktraumen . . . . . . . . . . . . . . . . . . . . . . . . . . 277

v

Einleitung

Zunachst wird das Kapitel der linearen Gleichungssysteme durch die Determinantentheorie

abgeschlossen. Der Begriff der Determinante entstand ja ursprunglich bei LEIBNIZ aus dem

Bedurfnis, Losungen von Gleichungssystemen durch eine Formel darzustellen.

Anschließend wird gezeigt, wie man Vektorraumtheorie und die Ergebnisse aus der Theorie der

Gleichungssysteme zum Aufbau einer Geometrie, nicht nur im Anschauungsraum, sondern auch

in abstrakten Vektorraumen verwenden kann. Diese geometrischen Begriffsbildungen werden

dann auf lineare Optimierungsproblemen angewendet.

Das fur die lineare Algebra wohl wichtigste Konzept, namlich die Linearitat, definiert als Ver-

traglichkeit mit den Vektorraumoperationen, wird in allgemeinen, wie auch in Skalarproduk-

traumen behandelt und der Zusammenhang mit den Matrizen aufgezeigt. Die Entwicklung der

Eigenwerttheorie und eine Klassifikation von linearen Operatoren, wobei insbesondere auf die

geometrischen Auswirkungen im Anschauungsraum hingewiesen wird, schließen dieses zentrale

Kapitel ab.

Die beiden nachsten Kapitel sind dem Vereinfachen gewidmet. Zunachst wird dargelegt, wie

man durch Links– bzw. Rechtsmultiplikation mit geeigneten Matrizen eine gegebene Matrix auf

eine moglichst ”einfache” Form transformieren kann. Als einfache Formen werden die Diagonal–,

Dreiecks- und Blockdiagonalmatrizen angesehen, insbesondere die JORDAN’sche Blockdiagonal-

form. Statt eines Beweises der letzten Normalform wird deren Erzeugung mittels unbestimmten

Ansatzes bzw. verallgemeinerter Eigenvektoren erlautert. Neben der Herleitung von Kriterien

fur die Vereinfachung und den Spektraldarstellungen wird die Anwendung von Diagonalmatrizen

fur das Losen von Differenzen– und Differentialgleichungen und die Berechnung von Matrizen-

funktionen demonstriert.

Nach den Matrizen werden quadratische Ausdrucke in n Variablen, sogenannten Quadriken, ver-

einfacht. Dazu wird die Theorie der Bilinearformen bzw. der quadratischen Form aufgebaut. Die

Diskussion der Quadriken erfolgt sowohl in allgemeinen Vektorraumen, als auch in Skalarpro-

duktraumen. Abschließend wird noch gezeigt, wie die Geometrie der Kegelschnitte vereinheitlich

und auf eine entsprechende Geometrie der Quadriken verallgemeinert werden kann und damit

gezeigt, wie auch quadratische Gebilde mittels linearer Methoden beschrieben und analysiert

werden konnen.

1

IV GEOMETRIE IN VEKTORRAUMENEs wird dargelegt, wie man die aus der Anschauung bekannten raumlichen Vorstellungen auf

abstrakte Raume verallgemeinern und rechnerisch behandeln kann. In der Linearen Optimierung

finden diese geometrischen Verallgemeinerungen eine nutzliche Anwendung.

14 Affine Geometrie

Bisher haben wir uns in Vektorraumen nur mit solchen Teilmengen beschaftigt, die fur sich selbst

wieder Vektorraume bildeten, also mit Teilraumen. Im Anschauungsraum, den man als einen

reellen Vektorraum auffassen kann, sind dies die unendlich ausgedehnten, nicht gekrummten

Punktmengen durch den Nullvektor 0.

Haufig benotigt man (und das nicht nur in der Geometrie) unendlich ausgedehnte, nicht ge-

krummte Punktmengen, die nicht durch den Nullvektor 0 gehen:

Fur Optimierungsprobleme benotigt man daruber hinaus beschrankte, nicht gekrummte

Punktmengen, die mit je zwei Punkten auch deren gesamte “Verbindungsstrecke” enthalten.

2

Solche Punktmengen sind mit den geometrischen Grundbegriffen (Punkt, Gerade, Ebene, Stre-

cke) verbunden und wir werden sehen, daß sie ebenfalls durch lineare Gleichungen bzw. Unglei-

chungen beschrieben werden konnen.

Wir wollen nun in beliebigen, nicht nur in reellen, Vektorraumen, Teilmengen untersuchen, die

sich so wie die anschaulichen Geraden, Ebenen, Strecken usw. verhalten und nachprufen, wann

und wie diese abstrakten Geraden und Ebenen sich schneiden oder wann sie parallel sind. Jenen

Teil der Geometrie, der sich nur mit solchen Inzidenzbeziehungen beschaftigt, heißt affine

Geometrie. In ihr wird von Abstandsuntersuchungen, Messungen und von “senkrecht stehen

auf” wird nicht gesprochen, dies geschieht in der metrischen Geometrie. Anders als in einer

Geometrievorlesung werden wir aber die Grundbegriffe Punkt, Gerade, Ebene nicht axiomatisch,

sondern mit Begriffen aus der Vektorraumtheorie einfuhren. Die erzielten Ergebnisse stimmen

mit denen der “Elementargeometrie” uberein, aber nur im IR2 bzw. IR3 sehen die abstrakten

Geraden und Ebenen auch wie anschauliche Geraden und Ebenen aus. Dagegen sind die Ergeb-

nisse in beliebigen, abstrakten Vektorraumen oft nicht vorstellbar, aber trotzdem fur Anwendun-

gen wichtig (→ CODIERUNG, APPROXIMATIONEN, LINEARE OPTIMIERUNGEN). Zum

leichteren Verstandnis sollte man sich aber immer die Verhaltnisse im Anschauungsraum (= 2–

oder 3–dimensionaler reeller Vektorraum) vor Augen halten.

Zunachst wollen wir “nichtgekrummte” Punktmengen, die nicht durch 0 gehen, mit Hilfe von

Begriffen aus der Vektorraumtheorie beschreiben:

Man beobachtet: Die Ebene ε entsteht aus U durch Verschieben um ~p.

3

14.1 Affine Raume

Definition 14.1 Affiner Teilraum

V sei ein Vektorraum uber dem Korper K, U sei ein Teilraum von V und p ∈ V .

(i) Ein affiner Teilraum bzw. eine lineare Mannigfaltigkeit von V in Richtung U ist

die Teilmenge

A := {x ∈ V|x = p + u,u ∈ U} = p + U ⊆ V.

Auch so: Ein affiner Teilraum in Richtung U ist eine Nebenklasse von U (ein um p “par-

allelverschobener” Teilraum U).

(ii) Die Dimension eines affinen Teilraumes ist die Dimension seiner Richtung:

dim(A) := dimU.

Bemerkung:

1. Die Differenz von 2 Punkten eines affinen Teilraumes A liegt stets in der Richtung U , diese

heißt daher auch Differenzenraum von A:

x1 − x2 = p + u1 − (p + u2) = u1 − u2 ∈ U

2. Ein affiner Teilraum ist wegen p ∈ A stets nichtleer. Jeder Teilraum ist ein affiner Teilraum

(mit p = 0), insbesondere kann jeder Vektorraum V als affiner Teilraum in Richtung V

aufgefaßt werden!.

Aber: Ein affiner Teilraum A ist nur dann ein Teilraum von V , wenn p ∈ U .

Beachte: im allgemeinen ist 0 6∈ A.

Beispiel: Sei A ∈ Km·n,~b ∈ Km und Rg(A) = r. Die Losungsmenge L = x0 + LH eines

losbaren, inhomogenen linearen Gleichungssystems A~x = ~b ist ein (n − r)−dimensionaler

affiner Teilraum im Kn mit der Losungsmenge des dazugehorigen homogenen Systems A~x = ~0

als Richtung. Die Losungsmenge LH eines homogenen linearen Gleichungssystems A~x = ~0

ist sogar ein (n− r)−dimensionaler Teilraum im Kn.

Die Darstellung von A = p + U ist unabhangig von der Wahl von p: Man kann fur p jeden

Vektor aus A nehmen und beschreibt damit dieselbe Punktmenge, denn es gilt:

4

Satz 14.1 Gleichheit von affinen Teilraumen

Zwei affine Teilraume A1 = p1+U1 und A2 = p2+U2 sind genau dann gleich, wenn sie denselben

Teilraum als Richtung besitzen und wenn die Differenz p1 − p2 in diesem liegt.

Formal:

A1 = A2 ⇔ U1 = U2 =: U und p1 − p2 ∈ U

(ohne Beweis)

Damit:

A = p + U = q + U ⇔ p− q ∈ U

Definition 14.2 Ein affiner Teilraum B = q + W heißt ein affiner Unterraum in Richtung

W des affinen Raumes A = p + U , wenn W ein Teilraum von U und q ∈ A ist.

B C A⇔W C U ∧ q ∈ A

Wir definieren nun die geometrischen Grundbegriffe Punkt, Gerade, Ebene in beliebigen Vek-

torraumen als spezielle affine Teilraume A = p + U :

a) Sei U = {0} :, dann ist

A = p + {0} = {p}, d.h., A enthalt p als einziges Element und es ist dim(A) = 0;

Definition 14.3 Punkt

Ein Punkt P eines Vektorraumes V ist ein nulldimensionaler affiner Teilraum von V .

Kurzschreibweise: P = {p}

Ist P = {p} und Q = {q} dann ist P = Q⇔ q − p ∈ U = {0} ⇔ q − p = 0⇔ q = p.

5

Vereinbarung: Ist P = {p}, dann kann man, um Klammern zu sparen, P mit p identifizieren:

P := p. Der entsprechende Kleinbuchstabe bezeichnet also stets den Vektor, durch den ein Punkt

dargestellt wird.

Jeder Vektor p ∈ V ist also auch ein Punkt P = {p}. Nach der Identifizierung konnen wir zu

den Vektoren aus V auch Punkte aus V sagen, aber strenggenommen gilt nur: P = {p} ⊂ V

und nicht P = {p} ∈ V .

Ist P = {p} und Q = {q} ⇒ q − p ∈ U , d.h., fur je zwei Punkte P,Q ist der Differenzenvektor

im Vektorraum U enthalten, also ein Vektor. Wir setzen:

PQ := q− p = Q−P (“Spitze–Schaft”–Regel)

b) Sei U =< a >:, dann ist

A = p+ < a >= {x ∈ V |x = p + λa, λ ∈ K} und es gilt dim(A) = 1.

Definition 14.4 Gerade

Eine Gerade g eines Vektorraumes V ist ein eindimensionaler affiner Teilraum von V .

Kurzschreibweise: g : x = p + λa, a heißt Richtungsvektor der Geraden g. (1)

Diese Gleichung heißt Punkt–Richtungsform der Geraden g durch P in Richtung < a >. Der

Parameter λ des Punktes X vergleicht die Lage des Punktes X mit jener des Punktes P .

(1) heißt daher auch Parametergleichung der Geraden g.

Eine Gerade g wird also durch eine Vektorgleichung mit einem Parameter beschrieben.

Eine Gerade ist aber auch durch 2 verschiedene Punkte P,Q festgelegt: Die Richtung ist dann

durch < ~PQ >=< q − p > bestimmt. Die Parametergleichung von g lautet dann:

g : x = p + λ(q− p), Zweipunktform der Geraden g durch P und Q.

Sie stellt die Verbindungsgerade g(P,Q) der Punkte P und Q dar: g(P,Q) : x = p+λ(q− p).

c) Sei U =< a,b > mit {a, b} l.u., dann ist

.A = p+ < a, b >= {x ∈ V |x = p + λa + µb, λ, µ ∈ K} und es ist dim(A) = 2.

6

Definition 14.5 Ebene

Eine Ebene ε eines Vektorraumes V ist ein zweidimensionaler affiner Teilraum von V .

Kurzschreibweise: ε : x = p + λa + µb. (2)

(2) heißt Punkt–Richtungsform der Ebene ε durch P in Richtung < a, b >.

Eine Ebene ε wird also durch eine Vektorgleichung mit zwei Parametern beschrieben.

Eine Ebene ist aber auch festgelegt durch 3 Punkte P,Q,R, die nicht auf einer Geraden liegen:

ε : x = p + λ(q− p) + µ(r− p): Dreipunktform der Ebene ε durch P,Q,R.

d) Verallgemeinerung: Sei dim(V ) = n und U =< v1, v2, . . . , vn−1 > mit {v1, v2, . . . , vn−1}

l.u., dann ist

A = {x ∈ V |x = p + λ1v1 + . . . + λn−1vn−1} = {x|x = p +∑n−1

i=1 λivi}.

Definition 14.6 Hyperebene

Eine Hyperebene H eines n−dimensionalen Vektorraumes V ist ein (n−1)−dimensionaler

affiner Teilraum von V .

Die Hyperebenen in einem 3–dimensionalen Vektorraum sind die Ebenen.

Die Hyperebene in einem 2–dimensionalen Vektorraum sind die Geraden.

Die Hyperebenen in einem 1–dimensionalen Vektorraum sind die Punkte.

e) Homogene Parameterdarstellung von affinen Teilraumen.

In den Beschreibungen g : x = p + λu, ε : x = p + λa + µb sieht es so aus, als ob p ausgezeichnet

ist, weil kein Parameter dabei steht. Dies ist jedoch nur scheinbar so:

g : x = p + λu = p− λp + λp + λu = (1− λ︸︷︷︸λ0

) p︸︷︷︸p0

+ λ︸︷︷︸λ1

(p + u︸︷︷︸p1

) =

= λ0p0 + λ1p1 mit p0 := p und p1 := p + u und λ0 + λ1 = 1− λ + λ = 1

Allgemein: A sei ein m−dimensionaler affiner Teilraum in Richtung U =< u1, . . . , um >.

Jedes x ∈ A kann als Linearkombination von m + 1 Punkten p0, p1, . . . , pm geschrieben werden,

wobei die Summe der Parameter 1 ist und die Differenzenvektoren ui := pi−p0(i = 1, . . . ,m)

l.u. sind.

A : x = p +m∑i=1

λiui =m∑i=0

µipi mitm∑i=0

µi = 1 und {p1 − p0, . . . ,pm − p0} l.u.

7

Definition 14.7 Affine Hulle

Seien p0, p1, . . . , pm ∈ V .

(i) Eine Affinkombination der Punkte (Vektoren) p0, p1, . . . , pm ist eine Linearkombination

dieser Punkte, wobei die Summe der Parameter 1 ist.

x =m∑

i=0

λipi mitm∑

i=0

λi = 1.

(ii) Die affine Hulle < p0, . . . , pm >A der Punkte (Vektoren) {p0, . . . , pm} ist die Menge aller

Affinkombinationen von p0, . . . , pm.

< p0, . . . , pm >A:=

{x =

m∑i=0

λipi mitm∑

i=0

λi = 1

}.

Es gilt: Die affine Hulle von {p0, . . . , pm} ist der kleinste affine Teilraum, der p0, . . . , pm

enthalt.

(iii) (p0, . . . , pm) heißen Punkte in allgemeiner Lage ⇔

{p1 − p0, . . . , pm − p0} l.u. ⇔ dim(< p0, . . . , pm >A) = m.

Es gilt:

1 Punkt ist immer in allgemeiner Lage.

2 Punkte sind in allgemeiner Lage ⇔ sie sind verschieden.

3 Punkte sind in allgemeiner Lage⇔ ihre Hulle ist eine Ebene. 3 Punkte sind nicht in allgemeiner

Lage ⇔ sie liegen auf einer Geraden.

4 Punkte sind in allgemeiner Lage ⇔ ihre Hulle ist ein 3–dimensionaler Raum. 4 Punkte sind

nicht in allgemeiner Lage ⇔ sie liegen in einer Ebene oder auf einer Geraden.

Damit gilt:

Jeder Punkt eines m−dimensionalen affinen Teilraumes A ist eine Affinkombination

8

von m + 1 Punkten p0, . . . , pm in allgemeiner Lage.

A =

{x|x =

m∑i=0

λipi

}mit

m∑i=0

λi = 1

f) Parallelitat:

Im Anschauungsraum sind 2 Geraden parallel, wenn ihre Richtungsvektoren kollinear, also l.a.

sind. Eine Gerade ist parallel zu einer Ebene, wenn sie zu einer Geraden in der Ebene parallel

ist.

Definition 14.8 Parallelitat

(i) Die affinen Teilraume A1 = p1 + U1 und A2 = p2 + U2 heißen parallel, wenn eine der

Richtungen in der anderen enthalten ist (im besonderen konnen die Richtungen gleich

sein).

(ii) Die affinen Raume A1 und A2 heißen windschief, wenn sie nicht parallel sind und ihr

Durchschnitt leer ist.

A1 windschief zu A2 ⇔ A1 6 ‖A2 und A1 ∩A2 = ∅.

Beispiel: A = K3

A1 =

0BBB@2

1

0

1CCCA+ λ

0BBB@1

0

−1

1CCCA U1 =<

0BBB@1

0

−1

1CCCA >

A2 =

0BBB@−1

2

1

1CCCA+ µ

0BBB@2

−1

1

1CCCA+ ν

0BBB@3

−1

0

1CCCA U2 =<

0BBB@2

−1

1

1CCCA ,

0BBB@3

−1

0

1CCCA >

Es ist U1 ⊂ U2 (RowReduce) ⇒ A1‖A2

A3 =

0BBB@−1

2

1

1CCCA+ r

0BBB@2

−1

1

1CCCA U3 =<

0BBB@2

−1

1

1CCCA >

Es ist U1 6⊂ U3, U3 6⊂ U1 ⇒ A1 6 ‖A3.

Bemerkung: In hoher als 2-dimensionalen Vektorraumen ist die Parallelitat nicht transitiv:

A1‖A2 ∧A2‖A3 6⇒ A1‖A3

g) Abschlußeigenschaften von affinen Raumen

9

Definition 14.9 Verbindungsraum

Ai = pi + Ui seien affine Teilraume in Richtung Ui.

Der Verbindungsraum (die Summe) der affinen Raume Ai ist die Menge aller Punkte.

n∑i=1

Ai := A1 + . . . + An := p +n∑

i=1

Ui +n∑

i=1

< PPi >,Pi ∈ Ai, P ∈n⋃

i=1

Ai

Satz 14.2 Abschlußeigenschaften affiner Raume

(i) Der Durchschnitt von affinen Teilraumen ist entweder leer oder ein affiner Teilraum mit

der Richtung U1 ∩ U2.

A1 ∩A2 = p + (U1 ∩U2),p ∈ A1 ∩A2⋂n1 Ai = p +

⋂ni=1 Ui

(ii) Die Vereinigung von affinen Teilraumen ist im allgemeinen kein affiner Teilraum.

(iii) Die Summe (der Verbindungsraum) von affinen Teilraumen ist der kleinste affine

Teilraum, der die mengentheoretische Vereinigung der gegebenen Teilraume enthalt.

Beispiel:

g = p+ < a >

h = q+ seien 2 verschiedene Geraden in der Ebene (also {a, b} l.u.)

g + h = p+ < a > + = p+ < a, b >= ε

Die eindimensionalen Teilraume < PP1 >,< PP2 > liefern keine neuen Beitrage.

Beispiel: g und h seien 2 verschiedene Geraden im Teilraum V 3 mit leerem Durchschnitt (wind-

schiefe Gerade): g = p + λa, h = q + µb.

g + h = p+ < a > + + < ~PQ >=

= p+ < a, b, ~PQ >= Teilraum V 3.

Satz 14.3 Dimensionssatz fur affine Teilraume

dim(A1) + dim(A2) = dim(A1 + A2) + dim(A1 ∩A2), wenn A1 ∩A2 6= ∅

dim(A1) + dim(A2) = dim(A1 + A2) + dim(U1 ∩U2)− 1, wenn A1 ∩A2 = ∅

Folgt aus dem Dimensionssatz fur Teilraume (ohne Beweis).

10

14.2 Affine Eigenschaften von Geraden und Ebenen

“Affin” soll dabei bedeuten, daß wir uns nur auf Schnitt– und Parallelitatseigenschaften konzen-

trieren, nicht jedoch z.B. auf Abstande. Wir werden zeigen, daß sich die Geraden oder Ebenen

eines Vektorraumes V uber einem Korper K (bzw. die 1– oder 2–dimensionalen linearen Man-

nigfaltigkeiten) tatsachlich wie die “anschaulichen” Geraden oder Ebene verhalten. Aber nur in

reellen Vektorraumen kann man sich eine Gerade so vorstellen:

Im allgemeinen ist dies nicht der Fall: Eine Gerade g = p + U ist ein 1–dimensionaler affi-

ner Teilraum und geht daher durch Verschieben des 1–dimensionalen Vektorraumes U hervor,

U gleichmachtig mit K. In einem komplexen Vektorraum (K = IC) besteht eine Gerade daher

aus allen komplexen Zahlen, also aus allen Punkten der GAUSS’schen Zahlenebene (!) und fur

K = GF (2) besteht g nur aus 2 Punkten. Deshalb muß man sich schon sorgfaltig uberlegen,

daß affine Geraden sich auch tatsachlich so wie die Geraden des Anschauungsraumes verhal-

ten. Fur 3–dimensionale reelle Vektorraume erhalten wir so die ublichen Aussagen der

Elementargeometrie.

Satz 14.4 Punkte und Geraden

(i) Durch zwei verschiedene Punkte P und Q gibt es genau eine Gerade, namlich die Verbin-

dungsgerade

g(P,Q) : x = p + λ(q − p)

(ii) Durch einen Punkt Q, der nicht auf der Geraden g liegt, gibt es genau eine Gerade h, die

zu g parallel ist (EUKLIDISCHES AXIOM).

11

Beweis: (i) g(P,Q) : x = p + λ(q − p) enthalt fur λ = 0 den Punkt P und fur λ = 1 den Punkt

Q. Ist h : x = p+ < a > eine weitere Gerade, die P und Q enthalt, dann ist q−p ∈< a >, wegen

q − p 6= 0 ist < a >=< q − p >, also h : x = p+ < q − p >= p+ < a >= g

(iii) Sei g : x = p+λa und Q 6∈ g. h : x = q +λa enthalt Q (fur λ = 0) und ist parallel zu g. Ist

h1 : x = q + U eine weitere zu g parallele Gerade durch Q, dann ist U ⊆< a > und damit

wegen dim(U) = 1 = dim(< a >) : U =< a >, also ist h1 = h.

Bemerkung: Die durch die Vektorraumtheorie definierten Grundbegriffe Punkt, Gerade, Ebe-

ne erfullen die Axiome einer EUKLIDISCHEN GEOMETRIE. Grund: Die Vektorraumaxiome

entsprangen aus der anschaulichen (= euklidischen) Raumvorstellung.

Satz 14.5 Parallele Geraden

g und h seien zwei parallele Geraden einer Ebene mit dem gemeinsamen Richtungsvektor a

und P ∈ g,Q ∈ h. Dann gilt:

(i) g und h haben genau dann keinen gemeinsamen Punkt wenn {a, ~PQ} l.u.

(nicht kollinear) sind:

g ∩ h = ∅ ⇔ {a, ~PQ} l.u.

(ii) g und h fallen genau dann zusammen, wenn {a, ~PQ} l.a. (kollinear) sind

g = h⇔ {a, ~PQ} l.a.

Da {a, ~PQ} entweder l.u. oder l.a. sein konnen gillt also:

Zwei parallele Geraden fallen entweder zusammen oder sie sind elementfremd.

Beweis:g : x = p + λa, h : x = q + µa

g ∩ h haben gemeinsame Punkte ⇔ ∃λµ,∈ K : p + λa = q + µa ⇔ q − p = (λ− µ)a

1. Fall: {a, q − p} l.u. ⇔6 ∃λ, µ ∈ K mit : (λ− µ)a = q − p ⇔6 ∃ gemeinsame Punkte.

12

2. Fall: {a, q − p} l.a. ⇔ q − p = la ⇔ q = p + la oder p = q − la. Damit gilt: Ist R ein Punkt von g ⇒ r =

p + λa ⇒ r = q − la + λa ⇒ r = q + (λ − l)a ⇒ R ist auch ein Punkt von h. Ist S ein Punkt von

h ⇒ s = q + µa ⇒ s = p + la + µa ⇒ s = p + (λ + µ)a ⇒ S ist auch ein Punkt von g, insgesamt ist g mit

h identisch (zusammenfallend).

Beispiel:

Sind die beiden Geraden g, h im K3 parallel, verschieden oder zusammenfallend?

g : ~x =

135

!+ λ

−25

−3

!

h = ~x =

−182

!+ µ

4

−106

!

4−10

6

!= −2

−25

−3

!⇒< a >=⇒ g‖h

q − p =

−25

−3

!∈< a >⇒ {a, q − p}l.a. ⇒ g = h.

Satz 14.6 Nichtparallele Geraden

g und h seien 2 nichtparallele Geraden eines zumindest 3−dimensionalen affinen Teilraum A

mit den nichtkollinearen Richtungsvektoren a, b und P ∈ g,Q ∈ h.

Damit gilt:

(i) g und h windschief ⇔ {a, b, ~PQ} nicht komplanar:

g ∩ h = ∅ ⇔ {a,b, PQ} l.u.

(ii) g und h haben genau einen Schnittpunkt ⇔ {a, b, ~PQ} komplanar:

g ∩ h = {S} ⇔ {a,b, PQ} l.a.

Also: Zwei nichtparallele Geraden in einem zumindest 3–dimensionalen Raum haben

entweder genau einen Schnittpunkt oder sie sind windschief.

Zwei nichtparallele Geraden einer Ebene schneiden einander in genau einem Punkt.

13

Beweis:g : x = p + λa, h : x = q + µb, {a, b} l.u.

g ∩ h = {S} ⇔ ∃λ, µ ∈ K : p + λa = q + µb ⇔ ∃λ, µ ∈ K : q − p = λa− µb (3)

1. Fall: {q − p, a, b} l.u. ⇔ (3) hat keine Losung (λ, µ) ⇔ g ∩ h = ∅.

2. Fall: {q − p, a, b} l.a. ⇒ q − p ist Lkbt. von a, b ⇒ (weil {a, b} l.u.)

∃ k, l ∈ K : q − p = ka + lb

(wegen {a, b} l.u. sind k und l eindeutig bestimmt) ⇔∃1 k, l ∈ K : p + ka = q − lb ⇔

∈ g ∈ h

g und h haben genau einen Punkt gemeinsam.

Folgerung: Zwei nichtparallele Geraden einer Ebene schneiden einander stets in genau einem

Punkt.

Beweis: {q − p, a, b} sind in einem 2–dimensionalen Raum stets l.a.

Flußdiagramm fur die Lage zweier Geraden g : p + λa und h : x = q + µb in einem zumindest

3–dimensionalen affinen Raum:

14

Zusammenfassung:

Satz 14.7 Verhalten von Geraden

(i) Zwei Geraden in einem zumindest 3–dimensionalen affinen Raum sind entweder parallel

(auch zusammenfallend) oder sie schneiden einander in genau einem Punkt oder sie sind

windschief.

(ii) Zwei Geraden in einer Ebene sind entweder parallel (auch zusammenfallend) oder sie

schneiden einander in genau einem Punkt.

Ahnlich kann man fur Ebenen zeigen:

Satz 14.8 Parallele Ebenen

ε1, ε2 seien 2 parallele Ebenen mit Richtung U =< a, b >, P ∈ ε1, Q ∈ ε2 und

ε1 : p + λ1a + µ1b, ε2 : q + λ2a + µ2b.

(i) Haben zwei parallele Ebenen auch nur einen Punkt gemeinsam, so fallen sie zusammen

(ii) ε1 = ε2 ⇔ {a, b, ~PQ} l.a. (komplanar)

(iii) ε1 ∩ ε2 = ∅ ⇔ {a, b, ~PQ} l.u. (nicht komplanar)

Satz 14.9 Nicht parallele Ebenen

Zwei nicht parallele Ebenen eines 3–dimensionalen affinen Raumes schneiden einander stets in

genau einer Geraden.

Beweis:ε1 : x = p + ka + lb (k, l) ∈ K

ε2 : x = q + rc + sd (r, s) ∈ K

ε1]ε2 ⇒< a, b > 6=< c, d >

ε1 ∩ ε2 6= ∅ ⇔ ∃ Skalare k, l, r, s ∈ K mit:

p + ka + ld = q + rc + sd ⇔ q − p = ka + lb− rc− sd (4)

{q − p, a, b, c, d} sind l.a., 2 von ihnen lassen sich durch 3 l.u. Vektoren, etwa a, b, c (wegen der Nichtparallelitat

mussen in einem 3–dimensionalen Raum 3 der Vektoren a, b, c, d l.u. sein) eindeutig darstellen:

+

8>>><>>>:q − p = ra + sb + tc

d = ua + vb + wc

λd = λua + λvb + λwc

| · λ

15

q − p + λd = (r + λu)a + (s + λv)b + (t + λw)c

∀λ : q − (t + λw)c + λd| {z }∈ε2

= p + (r + λµ)a + (s + λv)b| {z }∈ε1

(5)

Formt man (5) um:

(q − tc) + λ(d− wc) = (p + ra + sb) + λ(ua + vb) =: g.

Man sieht, daß die gemeinsamen Punkte auf einer Geraden, der Schnittgeraden von ε1 und ε2

liegen.

Bemerkung: In einem 4–dimensionalen Vektorraum konnen {a, b, c, d} auch l.u. sein. Dann

schneiden die Ebenen einander in genau einem Punkt!

Zusammenfassung:

Satz 14.10 Verhalten von Ebenen in 3–dimensionalen Raumen

Zwei Ebenen eines 3−dimensionalen affinen Raumes sind entweder parallel (konnen auch zu-

sammenfallen) oder sie schneiden einander in einer Geraden.

Flußdiagramm fur die Lage zweier Ebenen ε1 und ε2 in einem 3–dimensionalen Vektorraum:

Analog erhalt man:

Satz 14.11 Gerade und Ebene

Eine Gerade eines 3–dimensionalen Vektorraum V ist entweder parallel zu einer Ebene des

Raumes (kann auch ganz in der Ebene liegen) oder die Gerade schneidet die Ebene in genau

einem Punkt.

16

Flußdiagramm uber die Lage einer Geraden und einer Ebene in einem 3–dimensionalen Vek-

torraum:

Beispiel: V = K3

ε : x =

pz }| {0BBB@3

2

1

1CCCA+λ

az }| {0BBB@4

−1

6

1CCCA+µ

bz }| {0BBB@−3

−4

1

1CCCA

g : x =

qz }| {0BBB@1

3

1

1CCCA+r

cz }| {0BBB@1

−5

7

1CCCA1. Ist < c >⊆< a, b >⇔ {a, b, c} l.a.?

1 −5 7

4 −1 6

−3 −4 1

1 −5 7

0 19 −22

0 −19 22

1 −5 7

0 19 −22

0 0 0

⇒ l.a. ⇒ g‖ε

2. Ist g ganz in ε enthalten? ⇔ {q − p, a, b} l.a.?0BBB@−1

3

1

1CCCA−

0BBB@3

2

1

1CCCA =

0BBB@−4

1

0

1CCCA−4 1 0

4 −1 6

−3 −4 1

−4 1 0

0 0 6

0 19 −4

l.u. ⇒ g 6⊂ ε ⇒ g ∩ ε = ∅

17

Bemerkung: Abstrakte Geraden verhalten sich wie anschauliche Geraden.

Abstrakte Ebenen verhalten sich in 3–dimensionalen Raumen wie anschauliche Ebenen, in hoher-

dimensionalen Raumen treten unanschauliche Sachverhalte auf (z.B. zwei Ebenen schneiden

einander in einem Punkt!).

Beachte: Wir haben die Begriffe Punkt, Gerade und Ebene mit Hilfe der Vektorraumaxio-

me und den daraus abgeleiteten Begriffen definiert und durch Gleichungen beschrieben (→

ANALYTISCHE GEOMETRIE).

In der SYNTHETISCHEN Geometrie sind Punkt, Gerade und Ebene undefinierte Grund-

begriffe, die gewisse Spielregeln (→ Euklidische Axiome) erfullen. Unsere definierten Punkte,

Geraden und Ebenen erfullen dieselben Spielregeln, es sind dies aber Satze, die bewiesen wer-

den mussen (im Gegensatz zu den Axiomen).

Analog kann man alle ublichen geometrischen Satze aus den Vektoraxiomen herleiten. Die durch

den Vektorraum definierten Punkte, Geraden und Ebenen verhalten sich so wie die anschaulichen

Punkte, Geraden und Ebenen.

Grund: Die Vektorraumaxiome wurden aus der Anschauung entnommen.

Vorteil der analytischen Methode: Man braucht von einer Menge von (auch abstrakten) Objek-

ten (wie z.B. Funktionen, n−Tupel, ...) nur die 9 Vektorraumaxiome uberprufen und weiß dann,

daß auch fur diese abstrakten Objekte die ublichen geometrischen Satze gelten, also auch z.B. fur

Geraden aus Funktionen, n−Tupeln usw. Daruber hinaus kann das Herleiten bzw. der Umgang

rechnerisch, durch Auflosen von Gleichungen erfolgen (→ ANALYTISCHE GEOMETRIE), was

wesentlich bequemer ist, als das axiomatische Schließen (→ SYNTHETISCHE GEOMETRIE).

Wir zeigen im folgenden, daß auch in abstrakten, endlich dimensionalen Vektorraumen Punkt-

mengen durch Systeme von (meist linearen) Gleichungen und Ungleichungen beschrieben werden

konnen. (Bisher haben wir nur im Vektorraum Kn der n−Tupel Teilraumen und affine Raume

durch lineare Gleichungssysteme beschrieben.) Dazu werden, so wie in der anschaulichen Ebene

bzw. im anschaulichen Raum, Koordinatensysteme eingefuhrt.

14.3 Koordinatensysteme in affinen Raumen

Um affine Raume uber einem Korper K durch Gleichungen uber K beschreiben zu konnen, muß

man Punkten Korperelemente (Skalare) zuordnen konnen. Dies wird moglich durch Einfuhrung

von Koordinatensystemen. Sie entspricht der Einfuhrung von Basen in Vektorraumen.

18

14.3.1 Affine und kartesische Koordinatensysteme

Beispiel: In der 2−dimensionalen Ebene ε werden 3 Punkte P0(p0), P1(p1), P2(p2) allgemeiner

Lage ausgezeichnet, d.h. p1 − p0, p2 − p0 sind l.u,, also eine Basis der Richtung U der Ebene ε:

U =< p1 − p0, p2 − p0 >.

~P0X = x−p0 heißt Ortsvektor des Punktes X bezuglich des Koordinatensystems {P0, P1, P2}.

x− p0 = x1(p1 − p0) + x2(p2 − p0)

x = p0 + x1(p1 − p0) + x2(p2 − p0)⇔ X(x1|x2)

Weil p1 − p0, p2 − p0 l.u., sind x1, x2 eindeutig bestimmt. Sie heißen die Koordinaten

[X] = (x1|x2) des Punktes X bezuglich {P0, P1, P2}. Die Koordinaten von X bezuglich des

Koordinatensystem {P0, P1, P2} sind die Koordinaten (Komponenten) des Ortsvek-

tors bezuglich der Basis { ~P0, P1, ~P0P2} von U .

KOORDINATEN eines Punktes = KOMPONENTEN seines Ortsvektors.

Ein Koordinatensystem in einem affinen Raum einfuhren heißt, Punkte auszeichnen.

Es gilt:~QX = ~P0X − ~P0Q⇒ [ ~QX] = [ ~P0X]− [ ~P0Q] = [X]− [Q]

[ ~QX] = [X]− [Q] “Spitze–Schaft”–Regel

19

Allgemein:

Definition 14.10 Affine und kartesische Koordinatensysteme

A sei ein n−dimensionaler affiner Teilraum mit Richtung U in einem Vektorraum V uber K.

(Beachte, daß A auch ganz V sein kann, dann ist U = V ).

Ein Koordinatensystem von A ist ein geordnetes (n + 1)−Tupel

S := (P0, P1, . . . , Pn) von n + 1 Punkten aus A in allgemeiner Lage, d.h.

BS = ~{P0P1, ~P0P2, . . . , ~P0Pn} ist eine Basis der Richtung U .

P0 heißt Ursprung, P1, . . . , Pn heißen Einheitspunkte von S, die Geraden

ki : x = p0 + λ(pi − p0), i = 1, . . . , n

heißen die i−ten Koordinatenachsen des Koordinatensystems S.

BS heißt die zu S gehorige Basis von U .

Ist (V,<>) ein Skalarproduktraum, dann heißt S ein kartesisches Koordinatensystem von

A, wenn BS eine ON–Basis von V ist. Ist BS keine ON–Basis, dann heißt S ein affines Ko-

ordinatensystem von A.

Jeder Punkt X(x) ∈ A laßt sich dann eindeutig in der Form

x = p0 +n∑

i=1

xi(pi − p0)

darstellen.

Der Vektor ~P0X = x − p0 heißt Ortsvektor von X bezuglich S, die Skalare x1, . . . , xn heißen

Koordinaten des Punktes X bezuglich des Koordinatensystems S.

Das n−Tupel (x1|x2| . . . |xn) heißt Koordinatenvektor von X.

X(x1|x2| . . . |xn)⇔ ~P0X = (x1, x1, . . . , xn)⇔ ~P0X := x = p0 +n∑

i=1

xi(pi − p0)

Satz 14.12 Koordinatenvektor und Ortsvektor

Der Koordinatenvektor eines Punktes bezuglich eines Koordinatensystems ist gleich dem Kom-

ponentenvektor seines Ortsvektors bezuglich der zugehorigen Basis.

Weiters gilt: [QX]BS= [X]S − [Q]S.

Die Koordinaten eines Vektors bezuglich der zugehorigen Basis sind die Differenzen der Koor-

dinaten des Endpunktes und des Anfangspunktes des Vektors (“Spitze–Schaft”–Regel).

20

Gegeben sei nun ein inhomogenes lineares Gleichungssystem A~x = ~b uber K von m Gleichungen

in n Unbekannten vom Rang r also

A ∈ Kmn, Rg(A) = r.

Die Losungsmenge L ist gegeben durch

L = x0 + λ1 ~x1 + . . . + λn−r ~xn−r = x0+ < ~x1, . . . , ~xn−r >.

Wiederholung:

(i) Die Losungsmenge L eines linearen inhomogenen Gleichungssystems A~x = b von m Glei-

chungen in n Unbekannten vom Rang r ist ein (n − r)−dimensionaler affiner Unter-

raum des Kn (oder die leere Menge).

(ii) Die Losungsmenge eines homogenen linearen Gleichungssystems A~x = ~0 von m Gleichun-

gen in n Unbekannten vom Rang r ist ein (n− r)−dimensionaler Teilraum vom Kn.

Die Einfuhrung von Koordinatensystem in affinen Raumen ermoglicht es nun umgekehrt, die-

se durch inhomogene LGS zu beschreiben (Gleichungsdarstellung, parameterfreie Dar-

stellung affiner Raume). Analog gestattete die Einfuhrung von Basen in Vektorraumen die

Beschreibung von Teilraumen durch homogene LGS.

Satz 14.13 Gleichungsdarstellung von affinen Raumen

A sei ein n−dimensionaler affiner Raum uber dem Korper K mit einem Koordinatensystem S.

B sei ein m−dimensionaler affiner Unterraum von A.

Dann gibt es ein i.a. inhomogenes lineares Gleichungssystem vom Rang n − m, dessen

Losungsmenge gerade die Koordinatenvektoren der Punkte von B bezuglich S sind.

Dieses den affinen Unterraum beschreibende Gleichungssystem ist nicht eindeutig bestimmt.

Beweisidee: B = p + U = {x|x = p + λ1u1 + . . . + λmum},m = dim(B). Dabei sei {u1, . . . , um}

eine Basis von U . Dann besitzt x− p ∈ U eine eindeutige Darstellung:

x− p = λ1u1 + . . . + λmum, λi ∈ K. (6)

Nun berechnet man die Koordinaten [X] von X, [p] von p bezuglich des Koordinatensystems S

von A und die Komponenten [u1], . . . , [un] der Vektoren u1, . . . , un bezuglich der dazugehorigen

21

Basis BS von U : Es sind [X], [p], [ui] ∈ Kn!(6) ist wegen der Linearitat der Komponentenbildung aquivalent zu:

[x− p]BS= λ1[u1] + . . . + λm[um]

↓[ ~PX]BS

= [X]S − [P ]S

also: λ1[u1] + . . . + λm[um] = [X]− [P ]. (7)

Das ist ein inhomogenes LGS mit n Gleichungen in den m Unbekannten λ1, . . . , λm mit der

Koeffizientenmatrix ([u1], . . . , [um]), die wegen der linearen Unabhangigkeit von u1, . . . , um den

Rang m hat. Also hat (7) eine eindeutige Losung λ1, . . . , λm (Rang = ] Unbekannten). Setzt

man diese in (7) ein, so erhalt man n−m ubrigbleibende Gleichungen in

[x] = (x1, x2, . . . , xn) vom Rang n − m (weil dim(B) = m). Man erhalt diese bequem aus

(7) durch das Eliminationsverfahren (siehe folgendes Beispiel) bzw. mittels Z(A) = N(U) und−→b = A−→p .

Da das Eliminationsverfahren nicht eindeutig bestimmt ist, sind auch die Gleichungen nicht

eindeutig bestimmt.

Zusammenfassung:

(i) Ein m–dimensionaler Teilraum eines n–dimensionalen Vektorraumes kann durch ein ho-

mogenes Gleichungssystem in n Variablen vom Rang n–m beschrieben werden.

(ii) Ein m–dimensionaler affiner Raum eines n–dimensionalen Vektorraumes kann durch

ein inhomogenes lineares Gleichungssystem in n Variablen vom Rang n–m beschrieben

werden.

Beispiel: V = P2 = A P2 =< 1, x, x2 >, Standardbasis St, dim(P2) = 3

Sei p0 = 1 + x, p1 = x− x2, p2 = 3x + x2

a) p0, p1, p2 sind in allgemeiner Lage:

p1 − p0 = −1− x2, p2 − p0 = 1 + 2x + x2

[p1 − p0]St = (−1, 0,−1)

[p2 − po]St = (−1, 2, 1)

22

b) Ebene ε(p0, p1, p2) : durch p0, p1, p2

ε : f = 1 + x + λ(−1− x2) + µ(−1 + 2x + x2) = p + U

U =< −1− x2,−1 + 2x + x2 >

p = 1 + x

c) Koordinatensystem S = (0, 1, x, x2) von P2

1− 0 = 1

x− 0 = x

x2 − 0 = x2

l.u., [−1− x2]S =

−1

0

−1

=: ~u1, [−1 + 2x + x2]S =

−1

2

1

=: ~u2

[f ]S = [a0 + a1x + a2x2]S =

a0

a1

a2

, ε =

f |[f ] =

1

1

0

+ λ

−1

0

−1

+ µ

−1

2

1

[1 + x]S =

1

1

0

= ~x0

Z(A) = N(U) U =< (−1, 0,−1), (−1, 2, 1) >

NullSpace[{{−1, 0,−1}, {−1, 2, 1}}]

Z(A) = (−1,−1, 1)

~b = A · ~x0 = (−1,−1, 1)

1

1

0

= −2

LGS: −a0 − a1 + a2 = 2

a0 + a1 − a2 = 2

ε = {f = a0 + a1x + a2x2|a0 + a1 − a2 = −2}

Die Ebene ε wird durch 1 = 3 − 2 lineare Gleichungen in 3 = dim(P2) Unbekannten

beschrieben.

d) g(p,q)mit p = 3 + 2x + x2

q = 4 + x− 3x2

g =

f |[f ] =

3

2

1

+ r

1

−1

−4

g : f = 3 + 2x + x2 + λ(1− x− 4x2)

U = < (1,−1,−4) > ~x0 = (3, 2, 1)1

Z(A) = N(U) =< (4, 0, 1), (1, 1, 9) >

23

~b = A · x0 = (13, 5)

g :

4a0 + a2 = 13

ao + a1 = 5g = {f = a0 + a1x + a2x2|4a0 + a2 = 13,a0 + a1 = 5}

Die Gerade g wird durch 2 = 3−1 Gleichungen in 3 = dim(P2) Unbekannten beschrieben.

e) Nun bestimmen wir den Durchschnitt von ε mit g

ε ∩ g : 1− x− 4x2 l.u. von −1− x2,−1 + 2x + x2

1 −1 −4

−1 0 −1

−1 2 1

RowReduce

1 0 0

0 1 0

0 0 1

⇒ l.u.dabei haben wir benutzt:

{vi} l.u. ⇒ {[vi]} l.u.

ε ∩ g = {f = a0 + a1x + a2x2

∣∣∣∣∣∣∣∣∣a0 + a1 − a2 = 2

4a0 + 1a2 = 13

a0 + a1 = 5

Weil P der Rang dieses LGS 3 ist, erhalt man eine eindeutige Losung.

LinearSolve [A,~b] ~b = (2, 13, 5)t(52 , 5

2 , 3)

ε ∩ g = {P} mit P = 52 + 5

2x + 3x2

P ∈ g : 3 + 2x + x2 + λ(1− x− 4x2) = 52 + 5

2 + 3x2

3 + λ = 52

λ = −12

Koeffizientenmatrix

52 + 5

2x + 3x2 = 3 + 2x + x2 − 12(1− x− 4x2)

oder mit Koordinaten in K3:52

52

3

=

3

2

1

+ λ

1

−1

−4

Analog sieht man, daß P ∈ ε.

24

14.3.2 Affine Koordinatentransformation

So wie man die Anderung der Koordinaten von Vektoren bei Wechsel der Basis durch regulare

Matrizen beschreiben kann, kann man auch die Anderung der Punktkoordinaten bei Wechsel des

Koordinatensystems durch ein Matrix–Vektor–Paar beschreiben.

A sei ein n−dimensionaler affiner Raum in einem Vektorraum uber dem Korper K. Ein Wechsel

des Koordinatensystems in A ruft auch einen Wechsel der Koordinaten eines Punktes x ∈ A

hervor.

S = (P0, P1, . . . , Pn): “altes” Koordinatensystem

S′ = (P ′0, P

′1, . . . , P

′n): “neues” Koordinatensystem

[x]S = (x1| . . . |xn): “alte” Koordinaten des Punktes X

[x]s,= (x′1| . . . |x′n): “neue” Koordinaten des Punktes X

Wie beim Basiswechsel drucken wir die neuen Punkte durch die alten aus:

P ′0 = P0 +

∑ni=1 ti ~P0Pi ⇔ p′0 = p0 +

∑ni=1 ti(pi − p0)

P ′j = P ′

0 +∑n

i=1 tij ~P0Pi ⇔ p′j = p0 +∑n

i=1 tij(pi − p0)

Ausfuhrlich:p′1 − p′0 = t11(p1 − p0) + t21(p2 − p0) + . . . tn1(pn − p0)

p′2 − p′0 = t12(p1 − p0) + t22(p2 − p0) + . . . tn2(pn − p0)...

p′n − p′0 = t1n(p1 − p0) + t2n(p2 − p0) + . . . tnn(pn − p0)

T := (tij) =

t11 t12 . . . t1n

t21 t22 . . . t2n

...tn1 tn2 . . . tnn

(transponiert definiert!) ,~t = (t1, t2, . . . , tn)t

T ist regular, weil auch {p′1 − p′0, . . . , p′n − p′0} l.u. sind ((P ′

0, . . . , P′n) ist wieder ein Koordina-

tensystem).

25

T ist sogar orthogonal (unitar), wenn ein kartesisches Koordinatensystem wieder auf ein

solches transformiert werden soll.

x = p′0 +∑n

j=1 x′j(p′j − p′0) =

= p0 +∑n

i=1 ti(pi − p0) +∑n

j=1 x′j∑n

i=1 tij(pi − p0) =

= p0 +∑n

i=1 ti(pi − p0) +∑n

i=1(∑n

j=1 tijx′j)(pi − po) =

= p0 +∑n

i=1(∑n

j=1 tijx′j + ti)(pi − p0) =

= p0 +∑n

i=1 xi(p′j − p′0)

Weil {p1 − p0, p2 − p0, . . . , pn − po} l.u. ist, folgt aus der eindeutigen Darstellbarkeit:

xi =n∑

j=1

tijx′j + ti fur i = 1, . . . , n

Also:[X]S = T [X]S′ + ~t bzw.

[X]alt = T [X]neu + ~t

Da T regular ist, existiert T−1 und wir erhalten:

[X]alt − t = T [X]neu

[X]neu = T [X]−1([X]alt − t) = T−1[X]alt − T−1t

Satz 14.14 Affine und kartesische Koordinatentransformationen

A sei ein n−dimensionaler affiner Raum eines Vektorraumes V , X ∈ A.

S := (P0, P1, . . . , Pn) sei ein Koordinatensystem in A.

T := (tij) ∈ Kn·n, t := (t1, z2, . . . , tn)t ∈ Kn.

P ′0 := P0 +

∑i=1 ti ~P0Pi

P ′j := P ′

0 +∑n

i=1 +tij ~P0Pi fur j = 1, . . . , n.

Dann gilt: S′ := (P ′0, P

′1, . . . , P

′n) ist genau dann ein Koordinatensystem in A, wenn T regular

ist. Die zugehorige Koordinatentransformation wird dann beschrieben durch:

[X]alt = T[X]neu + t bzw. [X]neu = T−1[X]alt −T−1t.

Ist S ein kartesisches Koordinatensystem, dann ist S′ genau dann wieder ein kartesisches Ko-

ordinatensystem, wenn T eine orthogonale (unitare) Matrix ist. Fur die neuen Koordinaten

gilt dann insbesondere:

[X]neu = Tt[X]alt −Ttt

26

T heißt Koordinatentransformationsmatrix von S → S′. Sie ist die Transponierte jener

Matrix, die angibt, wie sich die neuen Ortsvektoren von P ′1, . . . , P

′n durch die alten ausdrucken

lassen.

t heißt der Translationsvektor von S → S′. Er ist der Koordinatenvektor des neuen Ursprungs

bezuglich S.

Affine Koordinatenformationen konnen also durch eine regulare Matrix + Translationsvektor

beschrieben werden.

Erinnerung: Basiswechsel werden nur durch eine regulare Matrix allein beschrieben.

Affiner Koordinatenwechsel Komponentenwechsel

[X]alt = T [X]neu + t [x]alt = P [x]neu

14.4 Konvexe Mengen

In diesem Kapitel werden die aus der Anschauung bekannten Punktmengen Strecke, Dreieck,

Pyramide, Halbstrahl u.a. auf abstrakte Vektorraume verallgemeinert. Sie sind keine Teilraume

oder affine Raume, werden aber speziell bei Optimierungsproblemen (→ Operations Research)

benotigt. Zu ihrer Definition benotigt man allerdings angeordnete Skalarkorper.

Einige Beobachtungen;

Strecke PQ:

Gerade durch P,Q : x = p + µ(q − p) = (1− µ)p + µq = λ1p + λ2q mit λ1 + λ2 = 1

(λ1 = 1− µ, λ2 = µ)

λ1 = 1⇒ λ2 = 0⇒ x = p

λ1 = 0⇒ λ2 = 1⇒ x = q

Fur einen Punkt x ∈ PQ gilt: x = p + µ(q − p) mit 0 < µ < 1⇒ λ1 = 1− µ > 0, λ2 = µ > 0.

Also: X ∈ PQ⇔ x = λ1p + λ2q mit λ1 + λ2 = 1, λ1, λ2 ≥ 0

27

Dreieck (PQR):

Ebene durch P,Q,R : x = p + µ(q − p) + ν(r − p)

= λ1p + λ2q + λ3r mit λ1 + λ2 + λ3 = 1

X1 ∈ QR⇒ x1 = µ2q + µ3r mit µ2 + µ3 = 1, µ2, µ3 ≥ 0

X ∈ PX1 ⇒ x1 = ν1p + ν2x1 mit ν1 + ν2 = 1, ν1, ν2 ≥ 0

x = ν1p + ν2µ2q + ν2µ3r

x = λ1p + λ2q + λ3r mit λ1 + λ2 + λ3 = ν1 + ν2µ2 + ν2µ3 =

= ν1 + ν2(µ2 + µ3︸︷︷︸1

) = ν1 + ν2 = 1 und

λ1 = ν1 ≥ 0, λ2 = ν2µ2 ≥ 0, λ3 = ν2µ3 ≥ 0.

Also: X ∈ Dreieck (P,Q,R)⇔ x = λ1p + λ2q + λ3r mit λ1 + λ2 + λ3 = 1 und λ1, λ2, λ3 ≥ 0.

P ist Ecke des Dreiecks 4⇔6 ∃X1, X2 ∈ 4 mit P ∈ X1X2.

X keine Ecke des Dreiecks 4⇔ ∃P,X1 ∈ 4 mit X ∈ PX1.

Definition 14.11 Konvexe und nicht beschrankte Mengen

V sei ein Vektorraum uber einem angeordneten Korper K.

T = {x1, x2, . . . , xr} ⊆ V,M ⊆ V .

(i) Eine Konvexkombination von x1,x2, . . . ,xr ist eine Linearkombination von x1, . . . , xr

der Form

λ1x1 + λ2x2 + . . . + λrxr mitr∑

i=1

λi = 1 und λi ≥ 0.

Sind alle λi > 0, dann spricht man von einer echten Konvexkombination.

(ii) Die konvexe Hulle H(T) von T ist die Menge aller Konvexkombinationen von T .

H(x1, . . . , xr) =

{x|x =

r∑i=1

λixi mit∑

λi = 1 und λi ≥ 0

}.

(iii) Eine Strecke PQ durch P und Q ist die konvexe Hulle von {P,Q}. P,Q heißen End-

punkte der Strecke PQ.

PQ = {x|x = λ1p + λ2q mit λ1 + λ2 = 1, λ1, λ2 ≥ 0}

(iv) Eine Teilmenge M von V heißt konvex, wenn sie mit je zwei Punkten x1, x2 ∈ M stets

auch alle Punkte der Strecke x1x2 enthalt.

M konvex ⇔x1 ∈M

x2 ∈M

⇒ {x|x = λ1x2 + λ2x2, λ1 + λ2 = 1, λ1, λ2 ≥ 0} ⊆M

28

(v) Ein Punkt x ∈ M heißt Ecke von M , wenn es keine verschiedenen Punkte x1, x2 ∈ M

gibt, so daß x echte Konvexkombination von x1, x2 ist.

(vi) Ein Strahl durch p in Richtung a ist die Menge der Punkte {x|x = p + λa, λ ≥ 0}.

(vii) M heißt nicht–beschrankt, wenn M einen Strahl umfaßt.

Andernfalls heißt M beschrankt.

Beachte: Es gibt also 3 Arten von Hullen: lineare, affine, konvexe.

Satz 14.15 Einfache Eigenschaften von konvexen Mengen

(i) Die konvexe Hulle H(x1, x2, . . . , xr) ist stets konvex.

(ii) Der Durchschnitt von konvexen Mengen ist stets konvex.

(iii) Die Vereinigung von konvexen Mengen ist i.a. nicht konvex.

(iv) Jeder m−dimensionale affine Raum A ist eine nichtbeschrankte, konvexe Menge ohne

Ecken.

Beweis fur die Eckenfreiheit: Sei x ∈ A ⇒ x = p +Pm

i=1 λiui ⇒ x1 := p +P

(λi + k)ui ∈ A und

x2 := p +P

(λi − k)ui ∈ A. Es ist x1 6= x2 und x = 12x1 + 1

2x2.

(v) Ist T1 = {x1, . . . , xr} und T2 = {xr+1, . . . , xn}, dann ist H(T1 ∪ T2) = Menge aller Kon-

vexkombinationen je eines Punktes von H(T1) und H(T2). Damit kann man die konvexe

Hulle einer endlichen Menge T = {x1, . . . , xm} induktiv aufbauen: Man geht aus von

der konvexen Hulle von {x1, x2} = x1x2 aus. Dann bildet man die konvexe Hulle von

{x1, x2} ∪ {x3} = {x1, x2, x3} als Menge aller Konvexkombinationen von Punkten aus

x1x2 und x3 usw.

29

Definition 14.12 Spezielle konvexe Mengen im Kn

{~e1, . . . , ~en} sei die Standardbasis des Kn.

(i)

K+ :=

{x|x =

n∑i=1

λiei, λi ∈ K, λi ≥ 0

}heißt der Positivitatskegel im Kn.

Auch so:

K+ := {~x|~x ∈ Kn und ~x ≥ 0}.

1. Quadrant 1. Oktant

(ii) ~m = (m1, . . . ,mn) ∈ Kn, ε > 0

W (~m, ε) :={~x/ ‖xi −mi‖ ≤

ε

2, i = 1, . . . , n

}W heißt Wurfel mit Mittelpunkt ~m und Kantenlange ε.

Mittels der Dreiecksungleichung kann man zeigen, daß W eine konvexe Menge ist.

30

Definition 14.13 Spezielle Punkte

M sei eine konvexe Menge.

x ∈ M heißt innerer Punkt, wenn es einen Wurfel W (x, ε) gibt, der ganz in M enthalten ist

(der nur Punkte aus M enthalt).

x ∈ M heißt Randpunkt, wenn jeder Wurfel W (x, ε) sowohl Punkte von M als auch Punkte

von M c enthalt.

M heißt offen, wenn jeder Punkt von M ein innerer Punkt ist.

M heißt abgeschlossen, wenn M c offen ist.

offenes Intervall abgeschlossenes Intervall

offene Halbebene abgeschlossene Halbebene

offener Halbraum abgeschlossener Halbraum

~at · ~x > b oder ~at · ~x b oder ~at · ~x < b

Jede Hyperebene zerlegt den Raum in 2 Halbraumen.

Definition 14.14 Konvexe Mengen, die keine affinen Raume sind

(i) Die Menge der positiven Losungen eines inhomogenen linearen Gleichungssystems ist

eine konvexe Menge mit Ecken.

Sei A ∈ Kmn,~b ∈ Km. Dann ist Z := {x ∈ Kn|Ax = b und x ≥ 0} = L ∩K+ konvex.

Z heißt zulassige Menge bezuglich des LGS A~x = ~b.

Z kann leer sein (wenn Rg(A) 6= Rg(A, b)).

31

Beweis der Konvexheit: Fur ~x1, ~x2 ∈ Z und λ1 ≥ 0, λ2 ≥ 0 mit λ1 + λ2 = 1 gilt:

A(λ1 ~x1 +λ2x2) = λ1A ~x1 +λ2A ~x2 = λ1~b+λ2

~b = (λ1 +λ2)~b = 1~b = ~b und λ1 ~x1 +λ2 ~x2 ≥ 0.

Die Bestimmung der Ecken ist in hoherdimensionalen Raumen lastig (→ Operations Re-

search).

Fur die weiteren Beispiele sei {u1, u2, . . . , ur} l.u. in V, p ∈ V , beliebig.

(ii) K :={x|x = x0 +

∑ki=1 λiui, λi ≥ 0

}K heißt k− dimensionaler Kegel in V mit Spitze x0. (Der Kegel ist eine Verallgemei-

nerung des Winkelfeldes.)

K ist nichtbeschrankt, x0 ist die einzige Ecke.

Strahlen sind 1−dimensionale Kegel.

(iii) Sp := {x|x = x0 +∑r

i=1 λiui, 0 ≤ λi ≤ 1}

Sp heißt das von den Kantenvektoren u1, u2, . . . , uk von x0 aus aufgespannte k−dimen-

sionale Parallelepiped (k−Spat). (Verallgemeinerung des Parallelogramms).

Strecken sind 1–dimensionale, Parallelo-

gramme sind 2–dimensionale Parallelepipede.Die Ecken sind genau die Punkte

e = x0 +k∑

i=1

λiui mit λi ∈ {0,1}.

(iv) Si ={x|x = x0 +

∑ki=1 λiui, λi ≥ 0,

∑ki=1 λi = 1

}Si heißt der von den Vektoren u1, . . . , uk von x0 aus aufgespannte

k−dimensionale Simplex (k−Simplex). (Verallgemeinerung des Dreiecks).

32

Si ist als Teilmenge von SP beschrankt.

{x0, x0 + u1, . . . , x0 + uk} sind die Ecken von S.

S kann man in homogener Darstellung schreiben als

Si ={

x|x =∑k

i=0 µivi, µi ≥ 0,∑k

i=0 µi = 1}

mit µi = λi, i = 1, . . . , k; µ0 = 1−∑k

i=1 λi

vi = x0 + ui, i = 1, . . . , k; v0 = x0

Der k−dimensionale Simplex ist daher die konvexe Hulle seiner k + 1 Ecken (in allgemeiner

Lage).

33

15 Metrische Geometrie

Neben der Untersuchung von Inzidenz– und Parallelitatseigenschaften werden in der Elemen-

targeometrie auch viele Aussagen uber Abstande, Langen, Inhalte, Winkel und Orthogonalitat

gemacht. Um diese Begriffe in die Sprache der linearen Algebra ubersetzen und damit einer rech-

nerischen Behandlung zuganglich machen zu konnen, benotigt man als zusatzliche Eigenschaften

in Vektorraumen nur das Skalarprodukt. In diesem Kapitel werden also generell Skalarprodukt-

raume vorausgesetzt. Die Inhaltsmessung von einigen konvexen Punktmengen wird mit Deter-

minanten behandelt.

Nachdem wir bisher affine Raume generell als Teilmengen von Vektorraumen aufgefaßt haben,

ubernehmen wir die ubliche Abstands– und Winkelmessung von Skalarproduktraumen.

15.1 Abstands– und Winkelmessung

Definition 15.1 Abstand und Winkel

(V,<, >) sei ein Skalarproduktraum, A sei ein affiner Raum in V .

(i) Unter dem Abstand zweier Punkte X,Y ∈ A, symbolisch d(X, Y ), versteht man die

reelle Zahl

d(X,Y) := ‖y − x‖ =√

< y − x,y − x >.

In reellen Skalarproduktraumen ist daruber hinaus eine Winkelmessung moglich:

(ii) Sind X, Y, Z ∈ A mit X 6= Y 6= Z, dann versteht man unter dem Winkel <)(X,Y,Z) mit

dem Scheitel Y die reelle Zahl

<)(X,Y,Z) := arccos< x− y, z− y >

‖x− y‖‖z− y‖

Besonders nutzliche Gleichungsdarstellungen von Punktmengen erhalt man mittels kartesischer

Koordinatensysteme (nach R. DESCARTES, 1596-1650).

Als Beispiel fur eine Gleichungsdarstellung untersuchen wir die Darstellung von Hyperebenen.

A sei ein n−dimensionaler affiner Raum in Richtung U . H sei eine Hyperebene in Richtung

W =< e1, e2, . . . , en−1 > mit der ON–Basis B = (e1, e2, . . . , en−1):

H = {x|x = p + λ1e1 + . . . + λn−1en−1}

34

{e1, . . . , en−1} kann zu einer ON–Basis von U erganzt werden (Satz uber die orthogonale Zerle-

gung):

U =< e1, e2, . . . , en−1, n0 >

n0 ist also ein normierter Vektor, der auf alle Vektoren aus W orthogonal steht. Dann gilt fur

jeden Punkt X ∈ H:

< x− p, n0 >=< λ1e1 + . . . + λnen, n0 >= λ1 < e1, n0 > + . . . + λn−1 < en−1, no >= 0

Damit ist n0 ⊥ x− p ∀x ∈ H und ebenso gilt: n ⊥ x− p ∀x ∈ H fur n := k · n0 mit k ∈ K.

n heißt daher Normalvektor der Hyperebene H.

Jeder Punkt x ∈ H erfullt < x − p, n0 >= 0. Ist umgekehrt x ∈ A mit < x − p, n0 >= 0 ⇒

x− p = λ1e1 + . . . λn−1en−1 + λnn0 und < x− p, n0 >= 0 ergibt:

< λ1e1 + λn−1en−1 + λnn0, n0 >= 0⇒

λ1 < e1, n0︸︷︷︸0

> + . . . + λn−1 < en−1, n0︸︷︷︸0

> +λn < n0, n0︸︷︷︸1

>= 0 ⇒ λn = 0 ⇒ x− p = λ1e1 + . . . +

λn−1en−1 ⇒ x = p + λ1e1 + . . . + λn−1en−1 ⇒ x ∈ H.

Die Hyperebene H durch den Punkt P (p) in Richtung W ist also die Menge aller Punkte X(x)

mit

< x− p,n0 >= 0⇔< x,n0 >=< p,n0 >=: c

oder auch

< x− p, n >= 0⇔< x, n >=< p, n > .

wobei n ∈W⊥.

Insbesondere gilt auch fur den Einheitsvektor n0 von n:

< x− p,n0 >= 0⇔< x,n0 >=< p,n0 >

Diese Darstellung von H heißt HESSEsche Normalvektorform von H. (O.L. HESSE, 1811–

1874).

Ihre Bedeutung liegt, so wie im anschaulichen Raum V 2 bzw. V 3 (siehe Kapitel ??) darin, daß

man den Abstand eines Punktes von einer Hyperebene leicht berechnen kann.

Definition 15.2 Abstand eines Punktes von einer Punktmenge

A sei ein affiner Raum, M ⊂ A und Y (y) ∈ A.

35

Unter dem Abstand d(Y,M) des Punktes Y von der Menge M versteht man das Infimum der

Abstande d(Y, X) mit X(x) ∈M .

d(Y, M) := inf{d(Y, X)|X ∈M} = inf{‖x− y‖/X ∈M}

Ist M ein affiner Teilraum, dann gibt es stets ein F (f) ∈M mit minimalem ‖f − y‖.

F heißt der zu Y gehorige Fußpunkt.

Nach dem Satz uber die beste Approximation gilt fur eine Hyperebene H in Richtung W durch

P:

‖y − f‖ minimal ⇔ ‖(y − p)− (f − p)‖ minimal ⇔ (y − p)− (f − p) = y − f ∈W⊥ =< n0 >

⇔ y − p = (1− p)︸︷︷︸∈W

+(y − f)︸︷︷︸∈W⊥

⇔ y − f = projn0(y − p) =< y − p, n0 > n0

⇒ ‖y − f‖ =< y − p, n0 > ‖n0‖︸︷︷︸1

Das heißt: Man erhalt den Abstand eines Punktes Y von einer Hyperebene H durch

P und dem Normalvektor n, wenn man in der Hesseschen Normalvektorform von

H :< x− p,n0 >= 0 fur x den Punkt y einsetzt: d(Y,H) =< y − p,no >.

Die Gerade l durch Y mit dem Richtungsvektor n heißt Lot auf H durch Y. Der Durchschnitt

des Lotes mit der Hyperebene enthalt genau einen Punkt F , genannt der Fußpunkt des Lotes:

{F} = l ∩H.

Es gilt: d(Y,F) = |d(Y,H)|

Der Fußpunkt ist also jener eindeutig bestimmte Punkt, fur den der Abstand angenommen wird.

Fur den Ortsvektor f von F gilt auch: f = y− < y − p,n0 > n0.

Vergleiche noch einmal Kapitel 3. Beachte, daß jetzt die Punkte auch Funktionen, Polynome,

Matrizen u.a. sein konnen!

Der Abstand d(P,Q) = ‖p − q‖ zwischen zwei Punkten P und Q kann wegen (N1) nur positiv

sein. Der Abstand d(Y, H) eines Punktes Y von einer Hyperebene H kann wegen d(Y, H) =<

y − p, n0 > aber auch negativ sein. Damit zerlegt die Hyperebene H den affinen Raum A in 2

Halbraume:

A+ := {Y |d(Y, H) > 0} heißt positiver Halbraum von A bezuglich H

A− := {Y |d(Y, H) < 0} heißt negativer Halbraum von A bezuglich H

Nach Satz 14.13 kann eine Hyperebene als (n−1)−dimensionaler Unterraum des n−dimensionalen

affinen Raumes A nach Einfuhrung eines Koordinatensystems durch eine inhomogene, lineare

36

Gleichung in n Variablen uber K dargestellt werden. (Koordinatenform der HESSEschen

Normalvektorform von H). Wahlt man insbesondere ein kartesisches Koordinatensystem aus,

kann man die Koeffizienten der n Variablen geometrisch schon deuten:

S = (O,E1, . . . , En) sei ein kartesisches Koordinatensystem von A mit Richtung U .

X ∈ H und P ∈ H haben die kartesischen Koordinaten

[X]S = (x1, . . . , xn), [P ]S = (p1, . . . , pn) und der Normalvektor n0 von H habe die Koordinaten

[n0]SU= (n1, n2, . . . , nn).

Bekanntlich laßt sich das Skalarprodukt bezuglich ON–Basen als Standardskalarprodukt schrei-

ben.

< x, y >= [y]∗[x]

Damit gilt fur die HESSEsche Normalvektorform:

0 =< x− p, n0 >= [n0]t · [x− p] = [n0]t · [x]t − [n0]t[p]︸︷︷︸=:c

Also: [n0]t · [x] = c⇔ n1x1 + . . . + nnxn = c

Die Koeffizienten von x1, . . . ,xn in der Koordinatendarstellung der HESSEschen

Normalvektorform einer Hyperebene H bezuglich eines kartesischen Koordinaten-

systems geben die Koordinaten des Normalvektors von H an.

Zusammenfassung:

Satz 15.1 HESSEsche Normalvektorform einer Hyperebene

(V,<>) sei ein Skalarproduktraum. H = p+W sei eine Hyperebene des n−dimensionalen affinen

Raumes A mit Richtung U ⊆ V , Y (y) ∈ A ein beliebiger Punkt.

(i) Ein Normalvektor n von H ist ein Element aus W⊥ =< n >.

(ii) H = {x ∈ A| < x− p, n >= 0}.

Bezeichnet n0 den Einheitsvektor von n, dann heißt

< x− p,n0 >= 0

die HESSEsche Normalvektorform von H.

(iii) d(Y,H) =< y − p,n0 > gibt den Abstand des Punktes Y von H an.

37

(iv) Bezuglich eines kartesischen Koordinatensystems S laßt sich H durch eine i.a. inhomogene

lineare Gleichung der Form

n1x1 + . . . + nnxn = c

darstellen, wobei (n1, n2, . . . , nn) die Koordinaten eines Normalvektors von H bezuglich SU

sind. Fur c gilt: c = [n]t[p].

(v) Die Hyperebene H teilt den affinen Raum in 2 Halbraume:

positiver Halbraum A+ = {X|d(X, H) > 0} = {(x1, . . . , xn)|n1x1 + . . . + nnxn > c}.

negativer Halbraum A− = {X|d(X, H) < 0} = {(x1, . . . , xn)|n1x1 + . . . + nnxn < c}.

Beispiel: Im (R4, <>St) ist die Hyperebene H gegeben durch

H = ~x =

0BBBBBB@1

0

2

1

1CCCCCCA+ λ1

0BBBBBB@1

0

0

1

1CCCCCCA+ λ2

0BBBBBB@0

1

1

0

1CCCCCCA+ λ3

0BBBBBB@1

−1

1

−1

1CCCCCCA ; Y =

0BBBBBB@1

2

−2

1

1CCCCCCA

Bezuglich des Standardkoordinatensystems erhalt man durch Elimination oder durch Bestim-

mung des Orthogonals (mittels NullSpace) die Koordinatengleichung:

H : x1 + x2 − x3 − x4 = −2

(1, 1,−1,−1)t ist ein Normalvektor von H.

HESSEsche Normalvektorform:

x1 + x2 − x3 − x4 + 2 = 0

d(Y, H) = 1+2+2−1+22 = 3

IR4,+ : x1 + x2 − x3 − x4 > −2

IR4,− : x1 + x2 − x3 − x4 < −2

15.2 Volumina von Simplices und Spaten

Soll eine Zahl µ den Inhalt einer k−dimensionalen Figur messen, so stellt man an diese Zahl

folgende “naturliche” Forderungen (Maßeigenschaften einer Figur):

1. Translationsinvarianz: Der Inhalt µ einer Figur soll sich nicht andern, wenn die Figur

verschoben wird:

Ist M ′ = M + v ⇒ µ(M ′) = µ(M)

38

2. Additivititat: Sind M1,M2 zwei disjunkte Mengen, so gilt:

µ(M1 ∪Ms) = µ(M1) + µ(M2)

3. Streckung: Ist X0 eine beliebige Ecke und ~X0Xi eine beliebige von X0 ausgehende Kante

von M und wird Xi ersetzt durch X1 = X0+λ ~X0Xi, wahrend die anderen Kanten erhalten

bleiben, so gilt fur die so in einer Richtung gestreckte Punktmenge Mλ : µ(Mλ) = µ(M).

4. Ausartung: Besitzt M statt k+1 nur k l.u. Punkte, so ist µ(M) = 0. (Der Inhalt ein und

derselben Figur andert sich, wenn man zu einer anderen Dimension des Inhalts ubergeht.)

So hat eine Strecke der Lange 3 den 1−dimensionalen Inhalt (= Lange) 3, jedoch den

2−dimensionalen Inhalt (= Flacheninhalt) 0.

5. Normierung: Fur den k−dimensionalen Einheitswurfel M0 gilt µ(M0) = 1

In der Analysis wird gezeigt, daß man durch das bestimmte Integral vielen Punktmengen so eine

Zahl als Maß zuordnen kann. Genauso, wie man aber im Rn(n > 3) nicht jeder Punktemenge eine

Zahl so zuordnen kann, daß 1)–5) gilt, kann man auch in Vektorraumen nicht jede Punktmenge

“messen”, es gelingt dies nur fur k−Spate und k−Simplexe. Die Translationsinvarianz erreicht

man dadurch, daß man das Volumen des k−Spates durch die k Kantenvektoren ~X0Xi definiert,

denn:

Es gelte: Xi = X0 + ~X0Xi(i = 1, . . . , k).

Durch eine Translation v ergeben sich die Punkte X∗0 = X0 + v und X∗

i = Xi + v mit X∗i =

X∗0 + ~X∗

0X∗i = X∗

0 + ( ~X0X0)︸︷︷︸−v

+ ~X0X∗i + ( ~XiX∗

i )︸︷︷︸v

= X∗0 + ~X0Xi also ist

~X0Xi = ~X∗0X∗

i

Wir werden also jedem Spat SP (X0, . . . , Xk) ein Element µ(Sp) ∈ K, genannt k−dimensionales

“Volumen” V, abhangig von den Kantenvektoren ui := ~X0Xi zuordnen:

SP (X0, . . . , Xk)→ µ( ~u1, . . . , ~uk) ∈ K

Die Maßeigenschaften

1. durch c) erhalten wir aus der Forderung der Multilinearitat an µ in −→u1, ~u2, . . . , ~ut

2. durch die Forderung bzw. Festsetzung µ( ~u1, . . . , ~ut) = 0 fur ~u, . . . , ~ut l.a.

39

3. erhalten wir durch die Forderung µ(~e1, . . . , ~ek) = 1 wobei ~e1, . . . , ~ek eine ON–Basis des

dem affinen Unterraum zugehorigen Vektorraumes U ist.

Diese Forderungen stimmen mit den Eigenschaften D1, D2, D3 einer Determinante uberein,

daher gilt nach Satz 13.1:

Satz 15.2 Volumsformel

B sei ein k−dimensionaler Unterraum eines affinen Raumes A.

X0, X1, . . . , Xk seien k + 1 l.u. Punkte und {b1, b2, . . . , bk} eine Basis der Richtung von B.

˜X0Xi =: ui =∑k

j=1 uijbj. Die vij sind also die Komponenten der von einem Punkt x0 ausge-

henden Kantenvektoren eines Spates. Dann gilt:

(i) Das Volumen V des k−Spates Sp(X0, X1, . . . , Xk) bezuglich der Basis {bi} ist gegeben

durch die Determinanten der Koordinaten der Kantenvektoren:

V =

∣∣∣∣∣∣∣∣∣u11 . . . u1k

...

uk1 . . . ukk

∣∣∣∣∣∣∣∣∣(ii) Das Volumen µ des k−Simplex Si(X0, X1, . . . , Xk) bezuglich der Basis {bi} ist gegeben

durch den k!−Teil der Determinante der Koordinaten der Kantenvektoren:

V =1k!

∣∣∣∣∣∣∣∣∣u11 . . . u1k

...

uk1 . . . ukk

∣∣∣∣∣∣∣∣∣Bemerkung: Der k−Spat kann in k! volumsgleiche k−Simplexe zerlegt werden: Das Parallelo-

gramm (k = 2) in k! = 2! = 2 flachengleiche Teildreiecke, das Parallelogramm in k! = 3! = 6

volumsgleiche Tetraeder.

Bemerkung:

Das 1−dimensionale Volumen heißt auch Lange,

Das 2−dimensionale Volumen heißt auch Flache.

40

16 Lineare Optimierung

Es werden die geometrischen Begriffsbildungen in abstrakten Vektorraumen (meistens ist es der

IRn, n auch sehr groß) auf Optimierungsfragen angewendet.

Bei einer Vielzahl wirtschaftlicher Entscheidungen steht das Optimieren bestimmter Großen im

Vordergrund.

Zu den Großen, bei denen ein Maximum angestrebt wird, gehoren: Gewinn, Umsatz, Ferti-

gungsmengen, Lebensdauer eines Produktes (mit Einschrankungen), Zahl der belieferten Kun-

den.

Zu den Großen, bei denen ein Minimum angestrebt wird, gehoren: Kosten, Preis, Abfallmenge,

Transportwege, Energieverbrauch, Zahl der wartenden Kunden.

In dem folgenden Beispiel wird bewußt ein kleiner Ausschnitt aus der okonomischen Wirklichkeit

gewahlt. Auch bei zukunftigen Beispielen wird in dieser Einfuhrung zur Wahrung der Ubersicht

im Unterschied zur Praxis eine Reihe von Aspekten unberucksichtigt bleiben, um die Beispiele

“von Hand” berechenbar zu machen.

Man kann nun bestimmten okonomischen Vorgangen unter Vernachlassigung unwesentlicher

Sachverhalte ein vereinfachtes mathematisches System zuordnen. Ein solches in der Linearen

Optimierung angewandtes System von Gleichungen und Ungleichungen heißt Modell, den Vor-

gang des Aufstellens der Gleichungen und Ungleichungen nennt man Modellieren.

16.1 Geometrische Losung

Um den Sachverhalt in der Zeichenebene veranschaulichen zu konnen, erfolgt eine Beschrankung

auf n = 2.

Beispiel: Maximumproblem im IR2 (aus KOHLER, Lineare Algebra)

In einem chemischen Betrieb werden aus drei Rohstoffen Ri(i = 1, 2, 3) zwei Fertigprodukte

Pk(k = 1, 2) hergestellt. In der Tabelle der Abbildung 1 sind fur beide Produkte die Rohstoffan-

teile je Einheit der Fertigprodukte angebeben.

41

Rohstoffe/Fertigprodukte P1 (ME) P2 (ME)

R1 1,5 3,0

R2 2,5 2,0

R3 0 1Abbildung 1: Materialverbrauchsnormen fur die Produkte P1 und P2

Außerdem betragen die pro Zeiteinheit (ZE) verfugbaren Rohstoffmengen fur R1 210 ME, fur

R2 200 ME und fur R3 60 ME. Der Stuckgewinn betragt bei P1 3 DM und bei P2 4 DM.

Aufgabe

a) Bei welcher Stuckzahl von P1 bzw. P2 ist der Gewinn maximal?

b) Wie hoch ist der maximale Gewinn?

Losung: Fur gesuchte Großen werden Variable eingesetzt.

Die pro ZE hergestellten Stuckzahlen von P1 sei x1, die von P2 sei x2.

Die Tabelle in Abbildung 2 wird um die Spalte V der verfugbaren Rohstoffmenge und um die

Zeile G der Stuckgewinne erganzt zu Abbildung 2.

Verfugbare Mengen

Rohstoffe/Fertigprodukte P1 (ME) P2 (ME) V (ME)

R1 1,5 3,0 210

R2 2,5 2,0 200

R3 0 1 60

Gewinn G 3 4Abbildung 2: Erweiterung von Abb. 1 um die Kapazitatsbeschrankungen

Da fur 1 ME P1 1,5 ME des Rohstoffes R1 und fur 1 ME des Produktes P2 3 ME des Rohstoffes R1

benotigt werden, sind fur x1 ME des Produktes P1 und x2 ME des Produktes P2 1,5 x1+3x2 ME

des Rohstoffes R1 erforderlich (das ist wieder die vereinfachende Proportionalitatsannahme).

Da jedoch in der Zeiteinheit nur 210 ME des Rohstoffes R1 zur Verfugung stehen, gilt die

Relation

1, 5x + 3x2 ≤ 210 (8)

Entsprechend erhalt man fur die beiden ubrigen Rohstoffmengen

2, 5x1 + 2x2 ≤ 200

x2 ≤ 60(9)

42

Die Ungleichungen (8) und (9) nennt man einschrankende Bedingungen (Restriktionen).

Außerdem durfen die Stuckzahlen nicht negativ sein:

x1 ≥ 0

x2 ≥ 0(10)

Die Ungleichung (10) stellt die sog. Nichtnegativitatsbedingung dar.

Da der Gewinn je ME des Produktes P1 3 DM, fur x1 ME des Produktes P1 somit 3x1 betragt

und der Gewinn je ME des Produktes P2 4 DM, fur x2 ME des Produktes P2 somit 4x2 betragt

(wieder die Proportionalitatsannahme), lautet die Funktionsgleichung fur den Gesamtgewinn

G = 3x1 + 4x2 (11)

Die Gleichung (11) heißt Zielfunktion des Optimierungsproblems oder im hier vorliegenden

Fall Gewinnfunktion. Zusammenfassend ergibt sich damit fur Beispiel (12) folgendes mathe-

matische Modell.

1. Restriktionen1, 5x1 + 3x2 ≤ 210

2, 5x1 + 2x2 ≤ 200

x2 ≤ 60

(12)

2. Zielfunktion

G = 3x1 + 4x2 → max (13)

3. Nichtnegativitatsbedingung

x1 ≥ 0

x2 ≥ 0(14)

Die Restriktionen (12) werden nun in einem zweidimensionalen Koordinatensystem dargestellt.

Jede Ungleichung charakterisiert eine Halbebene. Die Schnittmenge der drei Halbebenen ist zu

ermitteln. Um die Halbebenen darzustellen, lost man die drei Ungleichungen nach x2 auf und

zeichnet die drei Berandungsgeraden, indem man die dazugehorigen Gleichungen betrachtet.

Anschließend kennzeichnet man die jeweiligen Halbebenen durch Schraffur.

Da außerdem die Nichtnegativitatsbedingungen (14) gelten, kann die gesuchte Punktemenge,

d.h. der Bereich, in dem die moglichen Kombinationen der Stuckzahlen x1 und x2 liegen, nur

43

Abbildung 3

im ersten Quadranten sein. Die Schnittmenge der durch die Ungleichungen (12) und (14) darge-

stellten Punktmenge wird in Abbildung 3 geometrisch veranschaulicht. Diejenige Punktmenge,

die den Restriktionen und der Nichtnegativitatsbedingungen genugt, wird als zulassiger Be-

reich bezeichnet. Denkbar als mogliche Stuckzahlen, die die Restriktionen und die Nichtnega-

tivitatsbedingung erfullen, waren z.B.

Q1(20, 30) und Q2(30, 40)

Geht man von dem Unternehmensziel der Gewinnmaximierung aus, dann sind somit diejenigen

Stuckzahlen x1 und x2 zu bestimmen, fur die der Gewinn maximal wird.

Dazu betrachtet man zunachst alle Kombinationen der Stuckzahlen, bei denen der Gewinn

konstant ist. Bei konstantem G stellt Gleichung (13) eine Gerade un R2 dar.

Die Steigung dieser Geraden ermittelt man, indem man die Gleichung (13) nach x2 auflost.

x2 = −34x1 +

G

4(15)

Auf der Geraden mit der Gleichung (15) liegen alle Punkte, die als Mengenkombination der

Stuckzahlen x1 und x2 interpretiert, den gleichen Gewinn ergeben.

Mengenkombinationen bei gleichem Gewinn

44

Abbildung 4

Ist G = 40, so erhalt man auf (15) etwa folgende Kombinationen der Stuckzahlen:

x1 = 4, x2 = 7 bzw. x1 = 8, x2 = 4.

Die Gerade mit der Gleichung (15) heißt deshalb auch Isogewinngerade. Da alle Isogewinn-

geraden die gleiche Steigung besitzen, verlaufen sie parallel zueinander. Der Ordinatenabschnitt

der Geraden ist G4 . Der Gewinn wird somit um so hoher, je großer G

4 ist.

Die Isogewinngerade muß also moglichst weit vom Ursprung weg parallel verschoben werden,

jedoch so, daß sie mit dem schraffierten Bereich noch mindestens einen Punkt gemeinsam hat.

Fur G = 100(200, 300, 360) lauten die Isogewinngeraden

x2 = −34x1 + 25

x2 = −34x1 + 50

x2 = −34x1 + 75

x2 = −34x1 + 90

Diese Isogewinngeraden sind in Abbildung 4 eingezeichnet.

Die optimale Mengenkombination liegt im Punkt B(40, 50), d.h. bei Erzielung des maximalen

Gewinns mussen vom Produkt P1 40 Stuck und vom Produkt P2 50 Stuck hergestellt werden.

45

Die genauen Werte fur die Stuckzahlen erhalt man durch Bestimmung des Schnittpunktes der

entsprechenden Geraden.

Den maximalen Gewinn ermittelt man, indem man die Stuckzahlen x1 = 40 ME und x2 = 50

ME in Gleichung (13) einsetzt. Es ist Gmax = 3 [GE/ME]·40 ME +4 [GE/ME]·50 ME = 320

GE.

Da die Gerade mit G4 = 85 bzw. G = 340 keinen Punkt mit dem zulassigen Bereich gemeinsam

hat, scheiden die auf ihr liegenden Punkte fur die Mengenkombination aus.

Beispiel: Minimumproblem im R2

Fur ein Stuck Vieh seien folgende Mindestnahrungsrationen verbindlich:

3 Einheiten des Nahrstoffes A

6 Einheiten des Nahrstoffes B

2 Einheiten des Nahrstoffes C

Zur Verfugung stehen zwei Futtersorten S1 und S2. In 1 ME der Sorte S1 ist ME des Nahrstoffes

A und 1 ME des Nahrstoffes B enthalten. In 1 ME der Sorte S2 ist 0,5 ME des Nahrstoffes A, 2

ME des Nahrstoffes B und 2 ME des Nahrstoffes C enthalten. Die Kosten betragen fur die Sorte

S1 2,5 GE/ME und fur die Sorte S2 3 GE/ME.

Aufgabe

(a) Wie muß das Futter gemischt werden, damit die angegebenen Nahrstoffe darin enthalten

sind und die Gesamtkosten minimal werden?

b) Wie hoch sind die minimalen Kosten?

Losung

Die Angaben werden in der Tabelle der Abbildung 5 ubersichtlich dargestellt.

Nahrstoff/Futtersorte S1 S2 Mindestmengen in ME

A 1 0,5 3

B 1 2 6

C 0 2 2

Kosten 2,5 3Abbildung 5: Zusammensetzung der beiden Futtersorten

Es werden x1 ME der Sorten S1 mit x2 ME der Sorten S2 gemischt.

Aus der Abbildung 5 entnimmt man folgendes mathematisches Modell:

46

Abbildung 6: Isokostengeraden

1. Restriktionenx1 + 0, 5 ≥ 3

x1 + 2x2 ≥ 6

2x2 ≥ 2

(16)

2. Zielfunktion

K = 2, 5x1 + 3x2 → min (17)

3. Nichtnegativitatsbedingung

x1 ≥ 0

x2 ≥ 0(18)

Die durch die Ungleichungen (16) und (18) dargestellten Halbebenen werden in einem zweidi-

mensionalen Koordinatensystem geometrisch veranschaulicht.

Die Schnittmenge der entsprechenden Halbebenen ist nicht beschrankt. Der Graph der Zielfunk-

tion stellt bei konstantem K eine Gerade dar, die Isokostengerade.

Alle Isokostengeraden besitzen die gleiche Steigung. Man erhalt die Steigung aller paralleler

Isokostengeraden, indem man Gleichung (17) nach x2 auflost.

x2 −2,53 x1 + K

3

= −56x1 + K

3

(19)

47

Die Steigung aller Isokostengeraden betragt m = −56 . In Abbildung 6 sind vier Isokostengeraden

dargestellt.

(K = 3,K = 6,K = 11,K = 15)

Eine optimale (minimale) Losung ergibt sich fur diejenigen Wertepaare (x1, x2) der Punkte, die

auf einer Isokostengeraden liegen, deren Ordinatenabschnitt minimal ist. Die Isokostengerade

muß somit parallel verschoben werden, und zwar moglichst dicht an den Ursprung heran, jedoch

so, daß sie noch mindestens einen Punkt mit dem zulassigen Bereich gemeinsam hat. Der Punkt

B(2,2) gibt das Optimum an. Auf der Isokostengeraden mit K=3 bzw. K=6 liegt kein Punkt des

zulassigen Bereiches.

Antwort auf

a) Von Sorte S1 und S2 sind je 2 ME zu mischen.

b) Minimale Kosten: K=2,5 [GE/ME]· 2ME+3[GE/ME]· 2ME=11GE

Man sieht schon an diesen beiden Beispielen, wie geometrische Grundbegriffe und Vorstellungen

benutzt werden (zulassige Bereiche, Halbebenen, beschrankt und nicht beschrankt, Schnittmen-

gen). Unsere Verallgemeinerungen gestatten es, dasselbe Verfahren auch in hoher–dimensionalen

Vektorraumen anzuwenden.

48

16.2 Geometrische Eigenschaften der zulassigen Menge Z

Restriktionen in Ungleichungsform konnen durch Einfuhrung von Schlupfvariablen auf Glei-

chungsform gebracht werden. Man erhalt so i.a. m Gleichungen in n Unbekannten. Durch Weg-

lassen von uberflussigen (= l.a.) Gleichungen kann man erreichen, daß die Koeffizientenmatrix

dieses LGS vollen Zeilenrang hat.

Standardproblem der linearen Optimierung

K sei ein geordneter Korper. Gegeben seien eine (m× n)−Matrix A ∈ Km·n mit

Rg(A) = m, ein Vektor ~b ∈ Km mit ~b ≥ ~0. Mit dem Vektor ~lt = (l1, l2, . . . , ln) ∈ Kn werde die

lineare Funktion (Linearform) L : Kn → K mit

L(~x) := ~lt~x =n∑

i=1

lixi

gebildet. L(~x) heißt Zielfunktion.

Gesucht ist das Minimum Lmin der Zielfunktion L : Kn → K auf der zulassigen Menge

Z :={~x|A~x = ~b und ~x ≥ 0

}und jene Stellen ~x ∈ Z, an denen dieses Minimum angenommen wird, d.h., die Teilmenge

Mmin := {~x|~x ∈ Z und L(~x) = Lmin} ⊂ Z

der zulassigen Minimalpunkte von Z.

Das Problem ist losbar, wenn Mmin 6= 0.

Will man unter den gleichen Bedingungen das Maximum Lmax von L bestimmen, dann ist dies

gleichwertig mit der Bestimmung des Minimums von −L :

Lmax = (−L)min

~b ≥ 0 kann durch eventuelle Multiplikation mit (−1) stets erreicht werden.

Z ist eine konvexe Teilmenge des Kn. Ist Z 6= ∅, dann besitzt Z auch Ecken, aber es sind

hochstens endlich viele. Das soll die Hauptaussage der folgenden Uberlegungen sein. Dazu schrei-

49

ben wir das LGS A~x = ~b folgend um: ~x = (x1, x2, . . . , xn) ∈ Kn, A ∈ Km·n.

A~x = ~b⇔ x1 ·

a11

a21

...

am1

︸︷︷︸

~s1

+ . . . + xn ·

a1n

a2n

...

amn

︸︷︷︸

~sn

=

b1

b2

...

bm

⇔ x1 · ~s1 + . . . + xn · ~sn = ~b

also A = (~s1, ~s2, . . . , ~sn).

Der i−te Spaltenvektor ~si von A heißt der zur i−ten Koordinate xi von x gehorige Spal-

tenvektor.

Ein zulassiger Punkt ~x ∈ Z hat wegen ~x ≥ 0 keine negativen Koordinaten. Die Ecken in Z kann

man folgend charakterisieren:

Satz 16.1 Charakterisierung von Ecken

Ein Punkt ~x ∈ Z ist genau dann eine Ecke von Z, wenn die zu den positiven (> 0) Koordinaten

gehorigen Spaltenvektoren von A l.u. sind.

Beweis:

1. ⇒: Sei ~c eine Ecke von Z = {~x|A~x = ~b ∧ ~x ≥ 0}. Die Anzahl der positiven Koordinaten

von ~c sei p.

1. Fall: p = 0, d.h., alle Koordinaten sind 0 ⇒ ~c = ~0 (also ~b = ~0). Die Menge der

zugehorigen Spaltenvektoren ist leer, eine leere Menge ist definitionsgemaß l.u.

2. Fall: p > 0. Durch Umnumerierung kann man erreichen, daß die ersten p Koordinaten

von ~c positiv sind, die Spaltenvektoren von A werden gleichartig umgeordnet:

~c = (c1, c2, . . . , cp, 0, . . . , 0), A = (~s1, . . . , ~sp, ~sp+1, . . . , ~sn)

~b = A~c = (~s1, . . . ~sp, . . . ~sn) · (c1, . . . , cp, 0, . . . , 0)t = c1 ~s1 + . . . + cp ~sp =∑p

i=1 ci~si

Angenommen, {~s1, . . . , ~sp} waren l.a. ⇒ ∃λ1, . . . , λp, nicht alle 0 mit∑pi=1 λi~si = ~0 ⇒

∑pi=1(ci ~sp + δλi)~si = ~b∀δ ∈ K, d.h. die Punkte ~x1 und ~x2 mit

50

geeignetem δ0 > 0 (so daß c1 − δ0λ1 > 9).

~x1 =

c1 + δ0λ1

...

cp + δ0λp

0...

0

> ~0 und ~x2 =

c1 − δ0λ1

...

cp − δ0λp

0...

0

> ~0

sind verschiedene Elemente von Z und ~c = 12 ~x1 + 1

2 ~x2, d.h., ~c ist keine Ecke im

Widerspruch zur Annahme.

Die zu positiven Koordinaten von Ecken gehorigen Spaltenvektoren mussen l.u. sein.

2. ⇐: Sei ~x ∈ Z mit p positiven Koordinaten, o.B.d.A. sei ~x = (x1, x2, . . . , xp, 0, . . . , 0) und

{~s1, . . . , ~sp} l.u. Spaltenvektoren von A.

1. Fall: p = 0 ⇒ ~x = ~0. Ware ~x keine Ecke ⇒ ~x ist echte Konvexkombination von zwei

verschiedenen ~x1, ~x2 ∈ Z :

~x = λ1 ~x1 + λ2 ~x2 mit λ1, λ2 > 0, λ1 + λ2 = 1

Wegen ~x1 ≥ 0, ~x2 ≥ 0 folgt, daß ~x1 = ~0, ~x2 = ~0, Widerspruch.

2. Fall: p > 0. Ware ~x keine Ecke ⇒ ~x = λ1~a + λ2~c mit

λ1, λ2 > 0, λ1 + λ2 = 1,~a,~c ≥ 0 und ~a 6= ~c, also

x1

...

xp

0...

0

= λ1

≥ 0

a1

...

ap

ap+1

...

an

≥0

+λ2

≥ 0

c1

...

cp

cp+1

...

cn

≥0

⇒ap+1 = . . . = an = 0 und

cp+1 = . . . = cn = 0

Wegen A · ~a = ~b und A · ~c = ~c gilt auch A · (~a− ~c) = ~0, also wegen

A = (~s1, . . . , ~sp, . . . , ~sn):

(a1 − c1) · ~s1 + . . . + (ap − cp) · ~sp + 0 · ~sp+1 + . . . + 0 · ~sn = ~0.

51

Nun sind ~s1, . . . , ~spl.u.⇒ a1− c1 = 0, . . . , ap− cp = 0⇒ a1 = c1, . . . , ap = cp ⇒ ~a = ~b

(Widerspruch).

Daher ist ~x eine Ecke, wenn die zu positiven Koordinaten gehorigen Spaltenvektoren

l.u. sind.

Beim Standardproblem ist Rg(A) = m = dim < ~s1, . . . , ~sn >, d.h., m ist auch die Maximalanzahl

l.u. Spaltenvektoren von A. Daher gilt:

Bemerkung:

Unter den Voraussetzungen des Standardproblems (insbesondere Rg(A) = m und ~b ≥ 0) hat

jede Ecke der zulassigen Menge Z hochstens m positive Koordinaten. Damit kann man defi-

nieren:

Definition 16.1 Entartete und nichtentartete Ecken

(i) Eine Ecke der zulassigen Menge Z heißt entartet, wenn sie weniger als m positive

Koordinaten besitzt.

(ii) Eine Ecke der zulassigen Menge Z heißt nicht entartet, wenn sie genau m positive

Koordinaten besitzt. Dabei ist m = Rg(A).

Beispiel 1:

A =

2 −1 1 0 0

1 −1 0 1 0

1 1 0 0 1

,~b =

2

2

5

P sei das Bild der zulassigen Menge von

2 −1

1 −1

1 1

1 1

·(

x1

x2

)≤

2

2

5

,

(x1

x2

)≥ ~0,

nicht aber die zulassige Menge Z von A~x = ~b, ~x ≥ 0. Diese ist eine Teilmenge vom K5, wegen

rg(A) = 3 und n − Rg(A) = 5 − 3 = 2 ist Z aber in einer affinen Ebene ε vom K5 enthalten.

52

Eine Parameterdarstellung von ε ist z.B. gegeben durch

ε : ~x =

72

32

−72

0

0

+ λ1

−1

−1

1

0

2

+ λ2

−1

1

3

2

0

λ1 = 1, λ2 = 1 liefert ~xt =

(32 , 3

2 , 12 , 2, 2

)∈ ZZ aber die zugehorigen Spaltenvektoren

{~s1, ~s2, ~s3, ~s4, ~s5} sind l.a., also ist ~x keine Ecke von Z.

λ1 = 3, λ2 = 5 liefert ~x = (−92 , . . .) 6∈ Z.

Wie kann man Z beschreiben? Z ist ja nur eine konvexe Teilmenge von ε !

Wie erhalt man die Ecken von Z?

Wegen Rg(A) = 3 und n = 2 hat man 2 freie Variable, wir nehmen dafur die Nicht–Schlupf–

Variablen. Jeder Punkt

(x1|x2) ∈ P (die Koordinaten sind also gerade die Nicht-Schlupfvariablen) liefert mit den

Parametern t1 := x1, t2 := x2 einen Punkt (x1, x2, . . . , x5)t ∈ Z, namlich

(∗)

x1 = t1

x2 = t2

x3 = 2− 2t1 + t2

x4 = 2− t1 + t2

x5 = 5− t1 − t2

⇔ Z : ~x =

0

0

2

2

5

+ t1

1

0

−2

−1

1

+ t2

0

1

1

1

−1

, (t1, t2) ∈ P

z.B.: Fur (t1, t2) = (1, 1) ∈ P erhalt man

~x = (1, 1, 1, 2, 3) ≥ 0 und A~x = ~b, also ~x ∈ Z.

Wegen Satz 16.2 ist aber ~x auch keine Ecke von Z.

Die Ecken von Z erhalt man, wenn man fur die Parameter (t1, t2) gerade die Ecken

des “Parameterpolygons” P wahlt.

Die Ecken von P erhalt man durch alle moglichen Schnitte der das Polynom P begrenzenden

Geraden (= Hyperebenen im K2):

53

Polygonecken: (0, 0), (1, 0), (73 , 8

3), (0, 5)

↓ ↓ ↓ ↓

Ecken von Z : ~p1 =

0

0

2

2

5

~p2 =

1

0

0

1

4

~p3 =

73

83

073

0

~p4 =

0

5

7

7

0

↓ ↓ ↓ ↓

Test auf Ecken: {s2, s4, s5}, {s1, s4, s5}, {s1, s2, s3}, {s2, s3, s4} l.u. ?

(RowReduce) ja ja ja ja

{~p1, ~p2, ~p3, ~p4} sind nichtentartete Ecken von Z (wegen Rg(A) = 3).

Die Darstellung (*) zeigt, daß Z eine 2−parametrige Punkteschar enthalt und beschrankt ist.

Wegen (t1, t2) ∈ P , einem beschrankten Viereck, enthalt Z namlich keinen Strahl.

zu Beispiel 2: 1 −2 1 0 0

−2 1 0 1 0

1 1 0 0 −1

,~b =

2

2

1

Polygonecken: (1, 0), (2, 0), (0, 1), (0, 2)

↓ ↓ ↓ ↓

~p1 =

1

0

1

4

0

~p2 =

2

0

0

6

1

~p3 =

0

1

4

1

0

~p4 =

0

2

6

0

1

↓ ↓ ↓ ↓

Test auf Ecken: {s1, s3, s4}, {s1, s4, s5}, {s2, s3, s4}, {s2, s3, s5} l.u.?

ja ja ja ja

⇒ {~p1, ~p2, ~p3, ~p4} sind nichtentartete Ecken von Z.

Beispiel 3:

A ∈ Km·n, Rg(A) = m ≥ 1, Z = {~x|A~x = ~0 und ~x ≥ 0}, Dann ist ~x = ~0 eine entartete

54

Ecke von Z. (~0 ist nicht Konvexkombination von nichtnegativen Zahlen, ~0 hat keine positiven

Koordinaten).

Um die Eckenanzahl in der zulassigen Mengen Z abschatzen zu konnen, benotigt man den Begriff

der “Basis einer Ecke ~p ∈ Z”.

Sei Rg(A) = m.

~p

nichtentartet: ∃ genau m positive Koordinaten ⇒ die zugehorigen Spaltenvektoren

bilden eine Basis vom Spaltenraum

= Km

entartet: ∃p < m positive Koordinaten ⇒ die p l.u. zugehorigen Spalten–

vektoren lassen sich (i.a. auf

mehrere Arten) zu einer Basis von

Km erganzen

Definition 16.2 Basis einer Ecke

~p sei eine Ecke der zulassigen Menge Z = {~x|A~x = ~b ≥ 0, ~x ≥ 0} mit Rg(A) = m.

Eine Basis B~p der Ecke ~p ist eine Menge von m l.u. Spaltenvektoren von A, welche die zu

positiven Koordinaten von ~p gehorigen Spaltenvektoren von A umfaßt. Die zu den Vektoren

einer Basis B~p gehorigen Unbekannten des LGS A~x = b heißen Basisvariable (BV) von ~x zur

Basis B~p, die ubrigen Unbekannten heißen Nichtbasisvariable (NBV) von ~x.

Bemerkungen

1. Nach dem Basiserganzungssatz ist einer nichtentarteten Ecke eindeutig eine Basis vom Km

zugeordnet, einer entarteten Ecke dagegen mehrere.

2. Jede Basis einer Ecke ist auch eine Basis vom Km.

Es gilt nun der wichtige

Satz 16.2 Endlichkeit der Eckenanzahl

Die zulassige Menge Z = {~x ∈ Kn|A~x = ~b ≥ 0 und ~x ≥ 0} mit Rg(A) = m besitzt mindestens

eine und hochstens endlich viele Ecken.

Beweis fur die Existenz hochstens endlich vieler Ecken: Idee: Man zeigt, daß man jeder l.u.

Menge von m Spaltenvektoren von A hochstens eine (d.h. auch keine) Ecke zuordnen kann.

55

Damit gilt dann: Anzahl der Ecken ≤(

nm

), weil man aus n Elementen auf

(nm

)Arten m Elemente

herausgreifen kann (es kommt auf die Reihenfolge nicht an).

Sei ~p ∈ Z eine Ecke ⇔ die zu positiven Koordinaten gehorigen Spaltenvektoren von A sind l.u.

Sei { ~sk1 , ~sk2 , . . . , ~skm} eine Menge von m l.u. Spaltenvektoren von A. Dann hat das LGS

xk1 · ~sk1 + . . . + xkm · ~skm = ~b−n∑

i=m+1

xki· ~ski

(20)

in den m Unbekannten xk1 , . . . , xkm fur jede Wahl von xkm+1 , . . . , xkn , also auch fur

xkm+1 = . . . = xkn = 0

eine eindeutige Losung (Rg( ~sk1 , . . . , ~skm) = m = ] Unbekannten).

Sei xk1 = l1, . . . , xkm = lm.

Dann ist der Punkt ~p = (p1, p2, . . . , pn) mit

pki=

lkii = 1, . . . ,m

0 i = m + 1, . . . , n

eine Losung von A~x = ~b.

Sind alle lki≥ 0, dann ist ~p eine Ecke von Z (denn die zu lki

gehorigen Spaltenvektoren

~sk1 , . . . , ~skm sind nach Voraussetzung l.u.). Ist aber mindestens ein lki< 0, dann ist ~p 6∈ Z.

Der Vorgang:

(i) Wahle aus den n Spaltenvektoren von A m l.u. aus

(ii) Lose damit das LGS (20)

liefert also hochstens eine Ecke.

Durch diesen Vorgang werden aber auch alle Ecken von Z erfaßt (unter Umstanden hat man

nur zu viel gerechnet):

Sei ~p ∈ Z eine Ecke mit p ≤ m positiven Koordinaten xk1 , . . . , xkp (mehr als m kann es nach

Satz 16.2 nicht geben!). Dann sind die zugeordneten Spaltenvektoren von A: ~sk1 , . . . , ~skp nach

Satz 16.1. Nach dem Basiserganzungssatz kann man diese l.u. Menge von Vektoren aus Km zu

einer Basis von Km erganzen: Km =< ~sk1 , . . . , ~skp , . . . , ~skm >.

Geht man von dieser Basis aus, erhalt man mittels des obigen Vorganges gerade das vorgegebene

~p (ganz egal, wie man zu einer Basis erganzt hat, denn wegen Rg(A) = m =

] Unbekannten ist (20) eindeutig losbar).

56

Der Beweis liefert auch die Methode, wie man alle Ecken von Z erhalt. Allerdings wachst(

nm

)fur große n, m explosionsartig (= exponentiell) an.

Beispiel:

Berechne alle Ecken von Beispiel 1 (ohne Parameterpolygon P )

Rg(A) = 3, n = 5 ⇒ ∃ hochstens(

nm

)=

(53

)=

(53

)= 5·4

1·2 = 10 Moglichkeiten, um aus den 5

Spaltenvektoren eine Menge von 3 l.u. auszuwahlen.

(k1, k2, k3) l.u. NBV BV Ecke entartet

(1, 2, 3) ja x4 = 0, x5 = 0 (72 , 3

2 ,−72) nein

(1, 2, 4) ja x3 = 0, x5 = 0 (73 , 8

3 ,−73) (7

3 , 83 , 0, 7

3 , 0) nein

(1, 2, 5) ja (0,−2, 7) nein

(1, 3, 4) ja (5,−8,−3) nein

(1, 3, 5) ja (2,−2, 3) nein

(1, 4, 5) ja (1, 1, 4) (1, 0, 0, 1, 4) nein

(2, 3, 4) ja x1 = 0, x5 = 0 (5, 7, 7) (0, 5, 7, 7, 0) nein

(2, 3, 5) ja x1 = 0, x4 = 0 (−2, 0, 7) nein

(2, 4, 5) ja x1 = 0, x5 = 0 (−2, 0, 7) nein

(3, 4, 5) ja x1 = 0, x2 = 0 (2, 2, 5) (0, 0, 2, 2, 5) nein

Eingabe: s1, . . . , sn so, daß A = {s1, . . . , sn}, b;

Auswahl (k1, k2, k3)

aa = {sk1 , sk2 , sk3} ar = {sk4 , sk5}

RowReduce [aa]

Linear Solve [aa, b] gibt Werte der Basisvariablen.

Fur beschrankte zulassige Mengen Z gilt daruber hinaus:

Satz 16.3 Beschreibung zulassiger Mengen

Eine beschrankte zulassige Menge ist die konvexe Hulle ihrer (endlich vielen) Ecken.

Beweis:

Z besitzt mindestens eine und hochstens endlich viele Ecken. Da Z konvex ist, enthalt Z jede

57

Konvexkombination dieser Ecken. Wir mussen noch zeigen, daß durch Konvexkombinationen

der Ecken auch jedes Element ~x ∈ Z erfaßt wird:

Sei Rg(A) = m = n : Wegen Z 6= ∅ hat A~x = ~b genau eine Losung ~x0 ≥ 0⇒ Z = { ~x0} und ~x0

ist Konvexkombination von ~x0, namlich ~x0 = 1 · ~x0.

Sei Rg(A) = m < n :

Sei b = 0 : Dann ist die Losungsmenge LH von A~x = ~0 ein (n −m)−dimensionaler Teilraum

von Kn, d.h., mit einem ~x0 > ~0 liegen auch alle positiven Vielfache λ ~x0 ∈ LH , dann ware aber

Z im Gegensatz zur Annahme unbeschrankt. Es kann in Z also kein positives ~x0 > 0 geben

⇒ Z = {~0} und ~0 = 1 ·~0 ist Konvexkombination von ~0.

Sei b 6= 0 : Dann ist ~0 6∈ Z ⇒ jedes ~x ∈ Z hat mindestens eine positive Komponente. Sei

~x0 = (x1, . . . , xn)t ∈ Z mit p ≥ 1 positiven Komponenten, P sei die Menge jener Indices i

mit xi > 0, also P := {i|xi > 0} und S := {~si|i ∈ P} sei die Menge der dazugehorigen

Spaltenvektoren von A.

1. Fall: Sei S l.u. ⇒ nach 6.1 ist ~x0 eine Ecke und damit eine Konvexkombination der Ecken

von Z, namlich ~x0 = 1 · ~x0 + 0 · ~x1 + . . . + 0 · ~xm, wobei ~xi(i = 0, . . . ,m) Ecken von Z sind.

2. Fall: Sei S l.a. ⇒ ∃λi ∈ K, nicht alle 0, mit

∑i∈P

λi~si = ~0. (21)

Davon ist mindestens ein λi > 0, sonst multipliziert man (21) mit (−1). IP sei die Indexmenge

der positiven λi, IN sei die Indexmenge der negativen λi, also

IN := {i|λi < 0} ⊂ P, IP := {i|λi > 0} ⊂ P

Es ist IP 6= ∅, aber auch IN 6= ∅:

Fur jedes t ∈ K sind namlich die Punkte

~y(t) := (y1, . . . , yn) mit yi =

xi + tλi fur i ∈ P

0 fur i 6∈ P(22)

Losungen von A~x = ~b (wegen (21)):

A~y(t) = A ~x0 + t ·∑i∈P

λi~si + t · 0 ·∑j 6∈P

λj ~sj = ~b + t ·~0 +~0 = ~b.

58

Waren nun alle λi ≥ 0 ⇒ alle ~y(t) ≥ 0 ⇒ alle ~y(t) ∈ Z ⇒ Z ist unbeschrankt im Widerspruch

zur Beschranktheit. Also gilt es in (21) mindestens ein negatives λi.

Es gilt nun folgender Hilfssatz.

Jeder Punkt ~x0 ∈ Z mit r ≥ 1 positiven Koordinaten ist Konvexkombination zweier verschiede-

ner Punkte von Z mit je hochstens r − 1 positiven Koordinaten.

Da jeder Punkt aus Z hochstens n positive Koordinaten hat, kommt man mit diesem Hilfssatz

nach endlich vielen Schritten auf folgende Situation:

~x0 mit n ≥ r ≥ 1 positiven Koordinaten ist Konvexkombination von Punkten ~yi ∈ Z mit

hochstens r − 1 positiven Koordinaten, jedes ~yi ∈ Z ist wiederum Konvexkombination von

Punkten ~zi mit hochstens r− 2 positiven Koordinaten usw. Letztlich ist ~x0 Konvexkombination

von Punkten mit genau einer positiven Koordinate. Solche sind aber stets Ecken, denn:

Hat ~x0 genau eine positive Koordinate xp ⇒ S = {~sp}. Da A eine Nullspalte enthalt, ist {~sp}

l.u. ⇒ ~x0 ist eine Ecke.

~x0 ist also letztlich Konvexkombination von Ecken von Z. Damit ist auch der 2. Fall abgehandelt.

Beweis des Hilfssatzes:

Mit den Indizes aus IP und IN und den Koordinaten xi von ~x0 bilden wir die Skalare

t1 := −mini∈IP

xi

λi=:−xp

λp< 0 und t2 := min

i∈IN

xi

|λi|=

xq

−λq> 0

Damit gilt fur alle i ∈ IP und t ≥ t1 : xi + tλi ≥ 0 und fur alle i ∈ IN und t ≤ t2 : xi + tλi ≥ 0.

Fur t mit t1 ≤ t ≤ t2 gilt damit fur alle i ∈ P : xi + tλi ≥ 0, also ~y(t) ∈ Z.

Fur t = t1 = −xp

λpgilt fur die p−te Koordinate von ~y(t1) nach (22):

yp = xp + t1λp = xp−xp

λp· λp = 0

Fur t = t2 = xq

−λqgilt fur die q−te Koordinate von ~y(t2):

yq = xq + t2λq = xq −xq

λpλp = 0.

Die Punkte ~y(t1) ∈ Z und ~y(t2) ∈ Z sind also verschieden und haben hochstens r − 1 positive

Koordinaten, denn yp = 0 bzw. yq = 0.

Jedes t mit t1 ≤ t ≤ t2 kann man nur schreiben als t = l1t1 + l2t2 mit l1, l2,≥ 0 und l1 + l2 = 1.

Damit ist

~y(t) = l1~y(t1) + l2~y(t2)∀t : t1 ≤ t ≤ t2

59

Weil t1 < 0 und t2 > 0 gilt dies insbesondere fur t = 0:

~y(0) = (x1, . . . , xn) = ~x0

Also ist ~x0 Konvexkombination von 2 Punkten ~y1(t1), ~y2(t2) ∈ Z mit hochstens r − 1 positiven

Koordinaten.

Zusammenfassung:

Sei A ∈ Km·n,~b ∈ Km,~b ≥ 0 und Rg(A) = m.

Die zulassige Menge Z = {~x|A~x = ~b und ~x ≥ 0}.

(i) kann beschrankt oder nicht beschrankt sein

(ii) ist stets konvex

(iii) hat mindestens eine und hochstens endlich viele Ecken

(iv) ist die konvexe Hulle ihrer Ecken, falls sie beschrankt ist.

60

16.3 Hauptsatz der linearen Optimierung

Um einen anschaulichen Uberblick uber Losungsmoglichkeiten von linearen Optimierungsaufga-

ben zu erhalten, geben wir in den beiden nachsten Beispielen die Restriktionen in 2 Variablen

wieder in Ungleichungsform an.

Beispiel:

Gegeben sei das in Beispiel 1 in Standardform behandelte lineare Ungleichungssystem

2x1 −x2 ≤ 2

x1 −x2 ≤ 2

x1 +x2 ≤ 5

x1 ≥ 0

x2 ≥ 0

undc := L1(~x) := −x1 + x2

c := L2(~x) := 2x1 + x2

Gesucht ist jeweils das Minimum von L1 und L2 auf der zulassigen Menge Z und jene Stellen,

in denen dieser Minimalwert angenommen wird.

Losung: Das Bild von Z ist in Beispiel 1 durch die Menge P gegeben. Um den Minimalwert von

L1 geometrisch zu erhalten, gehen wir nach dem in 6.1 Gesagten folgend vor:

(i) Setze L1(~x) gleich einer Konstanten c. Dies ergibt die Geradenschar

−x1 + x2 − c = 0.

(ii) Ermittle aus dieser Geradenschar jene Gerade, die bei kleinstmoglichem c mit Z mindestens

einen Punkt gemeinsam hat.

Dies kann dadurch erfolgen, daß man eine Gerade aus der Schar, am zweckmaßigsten die

mit c = 0, so parallel verschiebt, daß der Abschnitt auf der x2−Achse moglichst klein wird.

Man erhalt L1 min = −1 in genau einem Punkt ~xmin = (1/0) (siehe Abb. 1) L2 min = −2,

angenommen in allen Punkten der Verbindungsstrecke von (1/0) zu (73 |

83) (siehe Abb. 2).

61

Abb. 1 Abb. 2

Beispiel 4:

Gegeben sei das in Beispiel 2 in Standardform behandelte lineare Ungleichungssystem:

x1 −2x2 ≤ 2

−2x1 +x2 ≤ 2

x1 +x2 ≥ 1

x1 ≥ 0

x2 ≥ 0

Die zulassige Menge Z ist unbeschrankt.

Bestimme die Minima und die zulassigen Minimalpunkte fur die folgenden Zielfunktionen:

a) L1(~x) := −x1 + x2 b) L2(~x) := −x1 + 4x2

c) L3(~x) := −x1 + x2 d) L4(~x) := −x1 + 2x2

Aus den folgenden Abb. 3 – Abb. 6 entnimmt man folgendes Losungsverhalten:

Abb. 3 Abb. 4

62

Abb. 5 Abb. 6

Abbildung 7

63

a) Abb. 3: Es existiert kein zulassiger Minimalpunkt und damit kein Minimum von L1 auf

Z.

b) Abb. 4: Es gibt genau einen Minimalpunkt (2/0), mit L2 min = L2(2/0) = −2.

c) Abb. 5: Es gibt unendlich viele zulassige Minimalpunkte, namlich die Punkte auf der

Verbindungsstrecke der Ecken P1(1|0) und P2(0|1) und

L2 min = L3(1, 0) = . . . = L3(0|1) = 1.

d) Abb. 6: Es gibt unendlich viele zulassige Minimalpunkte, die alle auf dem von der Ecke

P (2|0) ausgehenden Strahl in Richtung ~u = (2, 1) liegen.

L4 min = L2(2|0) = . . . = −2.

Zusammenfassung der Beobachtungen:

(i) Ein lineares Optimierungsproblem kann unlosbar sein. Dies ist trivialerweise der Fall,

wenn die zulassige Menge leer ist. Aber auch bei nichtleerer zulassiger Menge muß kein

zulassiger Minimalpunkt existieren. Dies kann jedoch nur bei unbeschrankter zulassiger

Menge auftreten (Abb. 3).

(ii) Falls ein Minimum der Zielfunktion existiert, kann es dazu genau einen (Abb. 1, Abb.

4) aber auch unendlich viele zulassige Minimalpunkte geben. Immer wird jedoch das

Minimum auch in einer Ecke angenommen (minimale Ecke). Die Verbindungsstrecke

von zwei zulassigen Minimalpunkten enthalt ebenfalls nur zulassige Minimalpunkte.

In den beiden folgenden Satzen werden diese Beobachtungen allgemein abgesichert.

Satz 16.4 Konvexkombination

Jede Konvexkombination endlich vieler zulassiger Minimalpunkte ist wieder ein zulassiger

Minimalpunkt.

H( ~x1, . . . , ~xr) ⊂Mmin fur ~x1, . . . , ~xr ∈Mmin.

Beweis: ~xi zulassiger Minimalpunkt ⇒ A~xi = ~b, ~xi ≥ 0 und

L(~xi) = m := min~x∈Z L(~x).

Sei ~x Konvexkombination von ~x1, . . . , ~xr ⇒

~x =r∑

i=1

λi ~xi mit λi ≥ 0 undr∑

i=1

λi = 1.

64

(i) A~x = A(∑

i λi ~xi) =∑

i λiA~xi =∑

i(λi~b) = (

∑·λi)~b = 1~b = ~b

(ii) ~x =∑

λi ~xi ≥ 0

(iii) L(~x) = L(∑

i λi ~xi) =∑

i λiL(~xi) =∑

i λic = c(∑

i λi) = c · 1 = c

(i)–(iii) zeigen, daß ~x wieder ein zulassiger Minimalpunkt ist.

Die vorhergehenden Bilder zeigen, daß das Minimum stets auch in einem Eckpunkt der zulassigen

Menge angenommen wird. Dies gilt tatsachlich auch allgemein:

Satz 16.5 Hauptsatz der linearen Optimierung.

Falls das lineare Optimierungsproblem losbar ist, wird das Minimum stets auch in mindestens

einer Ecke der zulassigen Menge angenommen.

Kurz: Es existiert eine minimale Ecke.

Voraussetzung: A ∈ Kmin, Rg(A) = m,~0 ≤ ~b ∈ Km,~l ∈ Kn

Z = {~x|A~x = b ∧ ~x ≥ 0}, L(~x) := ~lt · ~x

m := min~x∈Z L(~x),Mmin := {~x|~x ∈ Z ∧ L(~x) = m}.

Behauptung: Ist Mmin 6= ∅, dann enthalt Mmin mindestens eine Ecke von Z.

Beweis: Aus Mmin 6= ∅ ⇒ ∃ ~x0 ∈ Z : L( ~x0) = m.

Angenommen, dieses ~x0 := (x1, . . . , xn) besitze p ≥ 0 positive Koordinaten. P sei die Indexmenge

der positiven Koordinaten: P := {i|x0i > 0}. S sei die Menge der zu diesen positiven Koordinaten

gehorigen Spaltenvektoren von A : S : {~xi|i ∈ P}.

Ist p = 0, dann ist ~x0 = ~0 und daher eine Ecke:

~0 kann nicht echte Konvexkombination zweier verschiedener, nichtnegativer Punkte ~x1, ~x2 sein:

Aus ~0 = λ1 ~x1 + λ2 ~x2 mit λ1, λ2 > 0 und λ1 + λ2 = 1 folgt ~x1 = ~x2 = ~0.

65

Ist p > 0, dann unterscheiden wir 2 Falle:

1. Fall: S l.u. ⇒ ~x0 ist nach Satz 16.1 eine Ecke.

2. Fall: S la. ⇒ ∃ eine nichttriviale Linearkombination der Spaltenvektoren

~si(i ∈ P ), die den Nullvektor ergibt:

∑i∈P

ki~si = ~0 (23)

Mindestens einer der Skalare ki ist positiv, sonst multipliziert man (23) einfach mit (−1). IP sei

die Indexmenge der positiven, IN die Indexmenge der negativen Skalare in (23).

∅ 6= IP := {i|ki > 0} ⊂ P, IN := {j|kj < 0} ⊂ P

Vom zulassigen Minimalpunkt ~x0 = (x01, . . . , x

0n) mit p positiven Koordinaten ausgehend, kon-

struieren wir uns einen weiteren zulassigen Minimalpunkt, aber mit hochstens p − 1 positiven

Koordinaten:

Fur jedes δ ∈ K konstruieren wir mit ~x0 die Punkte ~x1(δ) und ~x2(δ) mit folgenden Koordinaten:

~x1(δ) :=

x0i − δki i ∈ P

0 i 6∈ Pund ~x2(δ) :=

x0i + δki i ∈ P

0 i 6∈ P(24)

(i) x1(δ), x2(δ) erfullen das LGS Ax = b (weil auch A ~x0 = ~b)

A ~x1(δ) =∑

i∈P (x0i − δki) · ~si =

∑i∈P x0

i ~si − δ ·∑

i∈P ki~si =∑

i∈P x0i ~si − δ ·~0 = ~b, wegen

~b =∑n

i=1 x0i ~si =

∑i∈P x0

i ~si +∑

i6∈P x0i ~si =

∑i∈P x0

i ~si +∑

0 · ~si =∑

i∈P x0i · ~si. Analog ist

A ~x2(δ) = ~b.

(ii) x1(δ0) ≥ 0 und x2(δ0) ≥ 0 fur bestimmte δ0

Wir bilden alle Quotienten x0i

ki> 0(i ∈ IP ) und

x0j

−kj> 0(j ∈ IN ).

Unter diesen endlich vielen Quotienten gibt es jeweils einen kleinsten, es sei dies der mit

dem Index i = r und j = s, also

x0r

kr:= min

i∈IP

x0i

kiund

x0s

−ks:= min

j∈IN

x0j

−kj.

Dann gilt fur alle 0 < δ ≤ xrkr

: x0i − δki ≥ 0 ∀i ∈ IP , denn man zieht von x0

i maximal ab:

x0i − xr

kr· ki ≥ x0

i −x0

iki

ki = 0.

66

Ebenso gilt fur alle 0 < δ ≤ xs−ks

: x0i + δki ≥ 0 ∀i ∈ IN , denn man gibt was Negatives

hinzu.

Somit sind alle Koordinaten von ~x1(δ ≤ xrkr

) ≥ 0, denn:

ist i ∈ IP ⊂ P , dann ist nach oben x0i − δki ≥ 0

ist i ∈ IN ⊂ P , dann ist ki < 0, also x0i − δki erst recht positiv (weil ja x0

i ≥ 0).

ist i 6∈ P , dann ist nach Definition (24) die Koordinate 0.

Analoges gilt fur ~x2(δ ≤ x0s

−ks). Wahlt man δ0 als die kleinere der beiden Zahlen

{x0

rkr

, x0s

−ks

},

also 0 < δ0 := min{

x0r

kr, x0

s−ks

}, dann gilt ~xn(δ0) ≥ 0 und ~x2(δ0) ≥ 0.

(iii) L(x1(δ0)) = L(x0) = Lmin und L(x2(δ0)) = L(x0) = Lmin

L(~x) =∑n

i=1 lixi ⇒ (wenn man die Summanden mit li = 0 weglaßt):

L( ~x1(δ0)) =∑

i∈P li(x0i − δ0ki) =

∑i∈P lix

0i − δ0

∑i∈P liki =

=∑n

i=1 lix0i − δ0

∑i∈P liki = L( ~xo)− δ0

∑i∈P liki

L( ~x2(δ0)) =∑

i∈P li(x0i + δ0ki) = L( ~x0) + δ0

∑i∈P liki.

Weil nun Lmin = L( ~x0) ≤ L(~x)∀~x ∈ Z ist, also auch fur ~x = ~x1(δ0) bzw. ~x = ~x2(δ0)),

erhalt man: L( ~x0) ≤ L( ~x1(δ0)) = L( ~x0) − δ0∑

i∈P liki, also∑

i∈P liki ≤ 0 und analog

L( ~x0) ≤ L( ~x2(δ0)) = L ~x0) + δ0∑

i∈P liki, also∑

i∈P liki ≥ 0.

Also muß∑

i∈P liki = 0 sein, also L( ~x1(δ0)) = L(x00) = Lmin und L( ~x2(δ0)) = Lmin und

damit sind mit (i) und (ii) ~x1(δ0) und ~x2(δ0) zulassige Minimalpunkte.

Sie haben aber weniger positive Koordinaten als ~x0, denn:

Ist δ0 = xrkr⇒ die r−te Koordinate von ~x1(δ0)) = x0

r − xrkr· kr = 0.

Ist δ0 = xs−ks⇒ die s−te Koordinate von ~x2(δ0) = x0

s+

xs−ks· ks = 0.

Von einem zulassigen Minimalpunkt ~x0 ausgehend erhalt man so auf alle Falle einen weiteren

zulassigen Minimalpunkt ~x1, aber mit weniger positiven Koordinaten. Die Menge S1 der zu den

positiven Koordinaten von ~x1 gehorigen Spaltenvektoren von A wird daher eine echte Teilmenge

von S sein: S1 ⊂ S. Ist S1 l.u., dann ist ~x1 eine Ecke. Ist S1 l.a., dann wendet man dasselbe

Verfahren wie oben auf ~x1 an usw. Spatestens nach p Schritten ist Sp die leere Menge, also l.u.,

und man hat eine Ecke erhalten, w.z.z.w.

Wann gibt es uberhaupt zulassige Minimalpunkte? Ist die zulassige Menge Z unbeschrankt, muß

es solche nicht geben (siehe Abb. 3). Bei beschrankten, zulassigen Mengen kann dies jedoch nicht

67

passieren (wir mussen allerdings K = IR voraussetzen).

Satz 16.6 Existenz zulassiger Minimalpunkte

Sei A ∈ IRm·n, Rg(A) = m,~0 ≤ ~b ∈ IRm,~l ∈ IRn, L(~x) := ~lt~x.

Z := {~x ∈ Kn|A~x = ~b und ~x ≥ 0} sei nichtleer und beschrankt.

Dann existiert mindestens ein ~x0 ∈ Z mit L( ~x0) = min~x∈Z L(~x).

Eine lineare Optimierungsaufgabe mit nichtleerer und beschrankter zulassiger

Menge ist losbar.

Beweis: Der Satz ist eine direkte Folgerung aus dem Satz das Maximum und Minimum aus der

mehrdimensionalen Analysis (nach WEIERSTRASS):

Die Teilmenge D ⊆ IRn sei nicht leer, abgeschlossen und beschrankt. Die Abbildung f : IRn → IR

sei stetig. Dann besitzt f auf D ein globales Maximum und ein globales Minimum.

Bei uns ist D = Z. Weil in Z in allen Ungleichungen das Gleichheitszeichen ≤ auftritt, ist Z

abgeschlossen (d.h. IRn\Z ist offen).

Lineare Abbildungen sind stets stetig, also insbesondere auch L(~x) = ~lt~x.

Um die lineare Optimierungsaufgabe zu losen, konnte man daher folgend vorgehen:

1. Entscheide, ob das Problem losbar ist.

Berechne dazu die zulassige Menge Z.

Ist Z 6= ∅ und beschrankt ⇒ Problem losbar.

Ist Z unbeschrankt, kann das Problem auch unlosbar sein (siehe SIMPLEXVERFAHREN

→ Operations Research).

2. Berechne alle Ecken ~x1, . . . , ~xr von Z.

Berechne L( ~xk) fur alle k = 1, . . . , r.

Dann ist nach c) Lmin = L(~x) = mink∈Ir L( ~xk).

Dieses Vorgehen ist praktisch unbrauchbar, denn n und m sind oft > 100.

Das von G.B. DANTZIG 1947 entwickelte SIMPLEXVERFAHREN gestattet es, nach endlich

vielen Schritten entweder die Nichtlosbarkeit des Problems erkennen bzw. eine minimale Ecke

finden zu konnen.

68

V LINEARITATBei der “Linearitat” handelt es sich wohl um den wichtigsten Begriff der Linearen Algebra, die

ja auch nach ihr benannt ist. Wenn man sich in einer Menge nicht genau auskennt, ist es in

der Mathematik ublich, sie in eine Menge “abzubilden”, in der man sich besser auskennt. In

der Linearen Algebra sind die zu Grunde liegenden Mengen stets Vektorraume. Damit bei den

Abbildungen nicht zu viel zerstort wird, ist es naheliegend, daß die Abbildungen die Vektorraum-

addition und das Vervielfahcen “respektieren”. Damit ist gemeint: Bilder von Linearkombinatio-

nen sollen wieder Linearkombinationen der Bilder sein. Diese Forderung erleichtert das mathe-

matische Leben essentiell, sie wird mit “Linearisierung” bezeichnet. Viele Erscheinungen in der

Physik, Technik, Wirtschaft und Sozialwissenschaft erlauben die Anwendung dieser Linearisie-

rung, viele auch nicht, dann wird oft zwangsweise “linearisiert”. Allerdings muß man dann den

Fehler kennen, den man dabei gemacht hat (siehe differenzierbare Funktionen) oder man muß

die Aussagen kritisch behandeln.

17 Lineare Abbildungen

Sie stellen jenes Werkzeug dar, mit denen “linearisiert” wird. Wir werden sehen, daß sie sich

uber weite Strecken wie Matrizen verhalten, man kann sie also als verallgemeinerte Matrizen

auffassen.

17.1 Elementare Eigenschaften

Ist A eine m× n−Matrix, dann kann man ein LGS A~x = ~b als eine Abbildung fA : Kn → Km

auffassen, die dem n−Tupel ~x ∈ Kn das m−Tupel ~b ∈ Km zuordnet:

Abbildungstheoretische Auffassung eines Linearen Gleichungssystems.

A~x = ~b⇔ ~x ∈ Kn → ~b ∈ Km

fA : Kn → Km mit fA~x := A~x

fA heißt die von der Matrix A induzierte Abbildung von Kn in Km oder die Multi-

plikation mit der Matrix A.

Sprechweise: fA von ~x ist A mal ~x.

Bemerkung: ~x,~b werden in Spaltenform geschrieben, die Abbildung fA wird oft mit demsel-

ben Buchstaben wie die Matrix bezeichnet (also fA = A).

69

Das Gleichungssystem A~x = ~b losen bedeutet bei dieser Auffassung:

Bestimme alle Urbilder von b unter der induzierten Abbildung fA.

Aufgrund der Rechenregeln fur Matrizen ist diese induzierte Abbildung vertraglich mit den Vek-

torraumoperationen:

fA(~x + ~y) = A(~x + ~y) = A~x + A~y = fA(~x) + fA(~y)

A(λ~x) = fA(λ~x) = λ(A~x) = λfA(~x)

Solche mit den Vektorraumoperationen vertraglichen Abbildungen haben wir schon mehrmals

angetroffen, z.B. beim Skalarprodukt oder bei der Determinante.

Wir verallgemeinern diesen Sachverhalt auf beliebige Vektorraume:

Definition 17.1 Lineare Abbildungen

V und W seien Vektorraume uber demselben Korper K. Eine lineare Abbildung

(linear map, Homomorphismus) von V in W ist eine Abbildung f : V →W mit

(L1) f(x + y) = f(x) + f(y)

(L2) f(λx) = λf(x)

Ein linearer Operator auf V (Endomorphismus) ist eine lineare Abbildung von V in V . (L1)

und (L2) bedeuten:

Das Bild einer Summe ist Summe der Bilder

Das Bild eines Vielfachen ist Vielfaches des Bildes

f vertraglich mit

Vektorraumoperationen

Weil in (L2) auf beiden Seiten dasselbe λ steht, mussen V und W Vektorraume uber demselben

Korper K sein.

(L1) und (L2) konnen zu einer Bedingung zusammengefaßt werden:

Satz 17.1 Charakterisierung von linearen Abbildungen

(i) V,W seien Vektorraume uber K.

f : V →W linear ⇔ f(λx + µy) = λf(x) + µf(y) ∀λ, µ ∈ K

(ii) Allgemein: f(∑n

i=1 λixi) =∑n

i=1 λif(xi)

In Worten: Das Bild einer Linearkombination ist Linearkombination der Bilder.

70

Beweis von (i):

1. ⇒: f(λx + µy) = f(λx) + f(µy) = λf(x) + µf(y)

2. ⇐: λ = µ = 1 : f(x + y) = f(1 · x + 1 · y) = 1 · f(x) + 1 · f(y) = f(x) + f(y) + µ = 0 :

f(λx) = f(λx + 0y) = λf(x) + 0f(y) = λf(x)

Beweis von (ii) durch Induktion nach n.

Definition 17.2 Spezielle lineare Abbildungen

Ist U ⊆ V , dann ist das Bild von U unter f die Menge f(U) := {f(u) | u ∈ U}. Speziell:

Das Bild von f (Image von f) ist das Bild von ganz V : im(f) := f(V).

Ein Epimorphismus von V auf W ist eine surjektive lineare Abbildung von V auf W .

Ein Monomorphismus von V in W ist eine injektive lineare Abbildung von V in W .

Ein Isomorphismus von V auf W ist eine bijektive lineare Abbildung von V auf W .

Ein Automorphismus auf V ist eine bijektive lineare Abbildung von V auf sich selbst.

Beachte: Das Wort Bild (image) wird

dreifach verwendet:

Bild eines Elementes: f(x)

Bild einer Teilmenge: f(U)

Bild einer Abbildung: im(f)

Satz 17.2 Matrixabbildungen

A sei eine m× n−Matrix uber dem Korper K.

(i) Jede m× n−Matrix A definiert eine lineare Abbildung

fA : Kn → Km durch fA(x) := Ax (~x Spaltenvektor).

Sie heißt die von A induzierte Abbildung oder die Multiplikation mit der Matrix A.

(ii) Jede m× n−Matrix A definiert eine weitere lineare Abbildung

gA : Kn → Km durch gA(~x) := (~xt ·A)t (~xt Zeilenvektor)

Es gilt: gA = fAt

Beweis: (i) siehe Einleitung

71

(ii) gA(~x + ~y) = ((~x + ~y)t ·A)t = (~xt ·A + ~yt ·A)t = (~xt ·A)t + (~yt ·A)t = gA(~x) + gA(~y)

gA(λ~x) = ((λ~x)t ·A)t = λ((~xt ·A))t = λgA(~x)

(iii) fAt(~x) = At · ~x = (~xt ·A)t = gA(~x) ∀~x ∈ Km ⇒ gA = fAt .

Man erhalt das m−Tupel ~xtA durch Anwendung der Matrix At auf den Spaltenvektor ~x.

Bemerkung: Eine Matrix kann also auf zwei Arten eine lineare Abbildung induzieren. Wegen

(iii) verwenden wir stets die Spaltenschreibweise (i): fA(x) = Ax

Satz 17.3 Elementare Eigenschaften von linearen Abbildungen

f sei eine lineare Abbildung von V in W und U ein Teilraum von V .

(i) Das Bild des Nullvektors ist stets der Nullvektor: f(0) = 0.

(ii) Das Bild eines Teilraumes U C V ist wieder ein Teilraum: f(U) C W.

Man sagt: Lineare Abbildungen sind teilraumtreu.

Insbesondere ist im (f) stets ein Teilraum von W .

(iii) Die Dimension des linearen Bildes eines Teilraumes wird hochstens kleiner:

U C V ⇒ dim(f(U)) ≤ dim(U).

(iv) Ist V =< b1, . . . , bn >⇒ f(V ) = < f(b1), . . . , f(bn) >= im(f)

Beweis:

(i) f(0) = f(0 + 0) = f(0) + f(0), d.h., f(0) hat die Neutraleneigenschaft, wegen der Eindeutigkeit ist es das

Neutrale.

(ii) f(U) 6= ∅ weil 0 = f(0) ∈ f(U)(U enthalt stets 0!) Seien x′, y′ ∈ f(U) ⇒ ∃x, y ∈ U : x′ = f(x),

y′ = f(y) ⇒ λx′ + µy′ = λf(x) + µf(y) = f(λx + µy) ∈ f(U), weil λx + µy ∈ U (U ist Teilraum).

(iii) Sei U k−dimensional: U =< u1, u2, . . . , uk > und sei x′ ∈ f(U) ⇒ ∃x ∈ U : f(x) = x′.

x ist Linearkombination von u1, . . . , uk ⇒ x′ := f(x) = f(λ1u2 + . . . + λkuk) = λ1f(u1) + . . . + λ1f(uk) ⇒

{f(u1), . . . , f(uk)} ist ein Erzeugendensystem von f(U), eine Basis von f(U) hat aber gleich viele oder

weniger Elemente.

(iv) 1. Sei x′ ∈< f(b1), . . . , f(bn) >⇒ x′ =Pn

i=1 λif(bi) ⇒ (nach 1.1): x′ = f(Pn

i=1 λibi) ⇒

fur x =Pn

i=1 λibi ∈ V gilt: x′ = f(x) ⇒ x′ ∈ f(V ) = im(f).

2. Sei x′ ∈ im(f) ⇒ ∃x =Pn

i=1 λibi ∈ V : fx′ = f(x) = f(Pn

i=1 λibi) =Pn

i=1 λif(bi) ∈<

f(b1), . . . , f(bn) >.

72

Bemerkung: Im Anschauungsraum sind die Teilraume Geraden bzw. Ebenen durch 0. (ii)

bedeutet, daß lineare Bilder von Geraden und Ebenen wieder solche sind, eventuell kann aus

einer Geraden ein Punkt bzw. aus einer Ebene eine Gerade oder ein Punkt werden. Auf keinen

Fall entstehen aber durch lineare Abbildungen gekrummte oder gar “aufgeloste” Punktmengen:

Salopp gesagt: Das lineare Bild einer “geraden Linie” ist wieder eine “gerade Linie” (daher auch

der Name “Lineare Abbildungen”).

Beispiele und Gegenbeispiele von linearen Abbildungen:

1. Geometrische Beispiele im Anschauungsraum:

a) Drehungen um den Ursprung 0 um den Winkel α sind linear

D0;α : V 2 → V 2 Beweis durch Konstruktion

b) Drehungen um den Punkt P 6= 0 sind nicht linear, weil DP (0) 6= 0

c) Parallelverschiebungen (Translationen) T um den Vektor ~t sind nicht linearT (0) = t 6= 0

außerdem: T (x + y) 6= T (x) + T (y)

2. Arithmetische Beispiele im Kn:

Bemerkung: Statt f((x1, x2, x3)) schreiben wir einfach f(x1, x2, x3).

a) f : K3 → K2 mit f(x1, x2, x3)t = (2x1 + 3x2 + x3, x1 + x2 + x3)t ist linear:

Grund: Die “Formel” fur f enthalt nur 1. Potenzen in x1, x2, x3.

Sei ~xt = (x1, x2, x3), ~yt = (y1, y2, y3)

73

f(~x + ~y) = f

0BBB@x1 + y1

x2 + y2

x3 + y3

1CCCA =

0@ 2(x1 + y1) + 3(x2 + y2) + (x3 + y3)

(x1 + y1) + (x2 + y2) + (x3 + y3)

1A =

=

0@ (2x1 + 3x2 + x3) + (2y1 + 3y2 + y3)

(x1 + x2 + x3) + (y1 + y2 + y3)

1A =

0@ 2x1 + 3x2 + x3

x1 + x2 + x3

1A+

+

0@ 2y1 + 3y2 + y3

y1 + y2 + y3

1A = f(~x) + f(~y)

f(λ~x) = f

0BBB@λx1

λx2

λx3

1CCCA =

0@ 2λx1 + 3λ2x2 + λx3

λx1 + λx2 + λx3

1A = λ

0@ 2x1 + 3x2 + x3

x1 + x2 + x3

1A = λf(~x)

b) g : K2 → K3 mit g(x, y) = (x + 1, 2y, x + y) ist nicht linear:

Grund: Die Formel fur g enthalt angehangte Konstanten (x + 1).

Sei ~xt = (x, y), ~yt = (x1, y1)

f(~x + ~y) = f

0@ x + x1

y + y1

1A =

0BBB@x + x1 + 1

2(y + y1)

x + x1 + y + y1

1CCCA ;

f(~x) + f(~y) =

0BBB@x + 1

2y

x + y

1CCCA+

0BBB@x1 + 1

2y1

x1 + y1

1CCCA =

0BBB@x + x1 + 2

2y + 2y1

x + y + x1 + y1

1CCCA 6= f(~x + ~y)

c) h : K2 → K2 mit h(x, y) = (x2, xy) ist nicht linear.

Grund: Die Formel fur f enthalt hohere Potenzen und Produkte in x, y.

Sei ~xt = (x, y), ~yt = (x1, y1)

h(~x + ~y) = h

0@ x + x1

y + y1

1A =

0@ (x + x1)2

(x + x1)(y + y1)

1A =

0@ x2 + 2x1x + x21

xy + x1y + xy1 + x1y1

1Ah(~x) + h(~y) =

0@ x2

xy

1A+

0@ x21

x1y1

1A =

0@ x2 + x21

xy + x1y1

1A 6= h(~x + ~y)

3. Beispiele in Funktionsraumen:

a) V = Vektorraum der differenzierbaren Funktionen

D : V → V Differentialoperator mit D(f) = f ′

D ist linear wegen der Differentiationsregeln:

D(f + g) = (f + g)′ = f ′ + g′ = D(f) + D(g)

D(λf) = (λf)′ = λf ′ = λD(f)

b) V = Vektorraum der auf [a, b] integrierbaren Funktionen.

J : V → IR Integraloperator mit J(f) =∫ ba f(x)dx

74

J ist linear wegen der Integrationsregeln:

J(f + g) =R b

a(f + g)dx =

R b

af(x)dx +

R b

ag(x)dx = J(f) + J(g)

J(λf) =R b

a(λf(x)dx = λ

R b

af(x)dx = λJ(f)

4. Die Nullabbildung und die identische Abbildung sind lineare Operatoren.0(x + y) = 0 = 0 + 0 = 0(x) + 0(x) id(x + y) = x + y = id(x) + id(y)

0(λx) = 0 = λ · 0 = λ · 0(x) id(λx) = λx = λid(x)

5. a) Das reelle Skalarprodukt <,>= V × V → IR ist nach S1 linear in beiden Variablen:

< λ1a1 + λ2a2, b > = λ1 < a1, b > +λ2 < a2, b >

< a, λ1b1 + λ2b2, b > = λ1 < a1, b1 > +λ2 < a, b2 >

Man sagt: Das reelle Skalarprodukt ist eine bilineare Abbildung von V × V in IR.

b) Das komplexe Skalarprodukt ist nur linear in der ersten Variablen, fur die zweite

Variable gilt bezuglich des Heraushebens von Skalaren: < a, λb >= λ < a, b >, sonst

gelten aber alle anderen “linearen” Eigenschaften. Man sagt:

Das komplexe Skalarprodukt ist eine semilineare Abbildung von V × V in IC.

c) Die Determinanteneigenschaft D1 sagt aus, daß det : V × . . . × V → K linear in

jeder Variablen ist: det(. . . λa + µb . . .) = λdet(. . . a . . .) + µdet(. . . b . . .). Man sagt:

Die Determinante ist eine multilineare Abbildung von V × . . .× V in K.

Allgemein definiert man:

Definition 17.3 Multilineare Abbildungen

V und W seien Vektorraume uber demselben Korper K, n ∈ IN.

Eine multilineare Abbildung f(x1, . . . , xi, . . . xn) von V in W ist eine Abbildung vom n−fachen

kartesischen Produkt V × V × . . .× V →W , die in jeder Variablen linear ist, d.h.:

f(. . . , xi + yi, . . .) = f(. . . , xi, . . .) + f(. . . , yi, . . .) i = 1, . . . , n

f(. . . , λxi, . . .) = λf(. . . , xi, . . .) i = 1, . . . , n

Fur n = 2 heißt f eine bilineare Abbildung von V in W .

Kurz: f(. . . , λxi + µyi, . . .) = λf(. . . , xi, . . .) + µf(. . . , yi, . . .) i = 1, . . . n

75

Definition 17.4 Semilineare Abbildungen

V und W seien komplexe Vektorraume.

Eine Abbildung f : V × V →W heißt semilinear, wenn gilt:

f(x1 + y1, x2) = f(x1, x2) + f(y1, x2)

f(x1, x2 + y2) = f(x1, x2) + f(x2, y2)

f(λx1, y1) = λf(x1, y1)

f(x1, λy1) = λfx1, y1)

17.2 Rang und Defekt

Die Teilraumtreue (17.3 (ii)) von linearen Abbildungen bedeuten im Anschauungsraum, daß

lineare Bilder von Geraden und Ebenen durch 0 nicht gekrummt oder in mehrere Bestandteile

aufgelost werden:

Dagegen sind lineare Abbildungen nicht dimensionstreu, allerdings kann die Dimension nach

17.3 (ii) hochstens kleiner werden. Das lineare Bild einer Geraden kann also nicht zu einer

Ebene aufgeblaht werden. Lineare Bilder von Teilraumen konnen also hochstens “schrumpfen”.

Als wichtige Kennzahlen fur “brave” lineare Abbildungen erweisen sich in diesem Zusammen-

hang die Begriffe Rang und der Defekt, die ebenfalls von Matrizen auf lineare Abbildungen

verallgemeinert werden konnen.

Wir wollen nun die Frage klaren, wann dies nicht der Fall ist, wann also lineare Abbildungen

auch dimensionstreu sind.

76

Satz 17.4 Bild einer induzierten Matrixabbildung

A sei eine m× n−Matrix und fA die von ihr induzierte lineare Abbildung, also fA : Kn → Km

mit fA(~x) = A~x. Dann ist

im(fA) = S(A) . . . Spaltenraum von A

im(fAt) = Z(A) . . . Zeilenraum von A

Damit gilt:

dim(im(fA)) = Spaltenrang von A = Rg(A)

dim(im(fAt)) = Zeilenrang von A = Rg(A)

Beweis: im(fA) ist die Menge der Bilder fA(~x) = A~x, mit ~x ∈ Kn.

Nun ist fur ~xt = (x1, x2, . . . , xn) und A = (~s1 . . . ~sn):

A~x = x1 · ~s1 + . . . + xn · ~sn ⇒ im(fA) =< s1, . . . , sn >= S(A)

(d.h., A~x ist Linearkombination der Spaltenvektoren von A).

Dann ist:

dim(im(fA)) = dim(S(A)) = Rg(A).

Analog ist im(fAt) die Hulle der Spaltenvektoren von At, also Hulle der Zeilenvektoren von A.

Da lineare Abbildungen Verallgemeinerungen von Matrizen sind, definiert man:

Definition 17.5 Rang einer linearen Abbildung

Der Rang (rank) einer linearen Abbildung f : V →W ist die Dimension ihres Bildes.

rg(f) := dim(im(f))

Es gilt: 0 ≤ rg(f) ≤ dim(W)

Beweis: rg(f) = dim(im(f)) = dim(f(V )) ≤ dim(W ).

Welchen großten und kleinsten Wert kann rg(f) uberhaupt annehmen?

(a) (b) (c)

77

Ist f surjektiv, dann wird jedes y ∈W erfaßt, also:

im(f) = W und rg(f)) = dim(im(f)) = dim(W ) (Abb. b).

dim(W ) ist also der großtmogliche Wert fur rg(f).

Ist rg(f) < W , dann ist im(f) ein echter Teilraum von W (Abb. a), im Extremfall kann im(f) =

{0} sein, wenn also alle x ∈ V auf 0 abgebildet werden, f also die Nullabbildung 0 ist (Abb. c).

Also: Je kleiner der Rang einer linearen Abbildung f : V → W , umso mehr wird W

degeneriert, umso schlechtere Eigenschaften hat f .

Der Rang einer Abbildung ist ein Maß fur die Surjektivitat. Je kleiner rg(f) ist, desto

mehr weicht f von der Surjektivitat ab.

Satz 17.5 Charakterisierung der Surjektivitat

f sei eine lineare Abbildung von V in W .

f : V →W surjektiv ⇔ rg(f) = dim(W).

Beweis:

1. ⇒: f(V ) = W ⇒ im(f) = W ⇒ rg(f) = dimW .

2. ⇐: Sei rg(f) = dim(W )⇒ im(f) = W , weil im(f) E W ⇒ f surjektiv.

Was kann als Maß fur die Injektivitat dienen?

Sei f : V →W injektiv, d.h.: Aus f(x) = f(y) folgt x = y : Nun ist f(x) = f(y)⇔ f(x)−f(y) =

0⇔ f(x−y) = 0 und x = y ⇔ x−y = 0. Die Injektivitatsbedingung lautet also: Aus f(x−y) = 0

folgt x − y = 0, daher: f injektiv ⇔ 0 wird auf 0 abgebildet. Es durfte also nur 0 auf 0

abgebildet werden!

Definition 17.6 Der Kern (kernel) oder der Nullraum (nullspace) einer linearen Abbildung

f : V →W ist die Menge aller jener Vektoren aus V , die auf 0 abgebildet werden.

ker(f) := {v ∈ V | f(v) = 0}.

78

Satz 17.6 Charakterisierung der Injektivitat

(i) Der Kern von f ist stets ein Teilraum von V : ker(f) C V .

(ii) f injektiv ⇔ ker(f) = {0}.

Je großer ker(f) ist, desto mehr weicht die lineare Abbildung f : V → W von der

Injektivitat ab.

Beweis:

(i) Weil f(0) = 0 ⇒ 0 ∈ ker(f) ⇒ ker(f) 6= ∅.

Sei x, y ∈ ker(f) ⇒ f(λx + µy) = λf(x) + µf(y) = λ · 0 + µ · 0 = 0 ⇒ λx + µy ∈ ker(f)

(ii) ⇐: Sei ker(f) = {0} und f(x) = f(y) ⇒ f(x− y) = f(x)− f(y) = 0 ⇒ x− y ∈ ker(f) = {0} ⇒ x− y =

0 ⇒ x = y ⇒ f injektiv

⇐: Sei f injektiv und x ∈ ker(f) ⇒ f(x) = 0 = f(0) ⇒ x = 0 ⇒ ker(f) = {0}

Definition 17.7 Defekt einer linearen Abbildung

(i) Der Defekt (nullity) einer linearen Abbildung ist die Dimension ihres Kernes

def(f) := dim(ker(f)).

(ii) Eine lineare Abbildung heißt singular, wenn sie einen positiven Defekt hat.

f singular ⇔ def(f) > 0.

(iii) Eine lineare Abbildung heißt regular (nichtsingular), wenn ihr Defekt 0 ist.

Auch so: f singular ⇔ ∃v 6= 0 : f(v) = 0

f nichtsingular ⇔ Nur 0 wird auf 0 abgebildet. ⇔ (aus f(v) = 0⇒ v = 0).

Spezialisierung auf Matrizen: Matrix A singular ⇔ induzierte Abbildung fA singular ⇔

Matrix A ist singular ⇔ ∃~x 6= ~0 : A~x = ~0

Matrix A ist nichtsingular (regular) ⇔ aus A~x = ~0⇒ ~x = ~0.

Satz 17.7 Charakterisierung von regularen Abbildungen

Eine lineare Abbildung f : V → W ist genau dann regular, wenn das Bild einer l.u. Menge

wieder l.u. ist.

79

Beweis:

1. ⇒: Sei f regular und {u1, . . . , uk} l.u. Dann ist auch {f(u1), . . . , f(uk)} l.u., sonst gabe es λ1, . . . , λk, nicht

alle 0, mit:

λ1f(u1) + . . . + λkf(uk) = 0 ⇒

f(λ1u1 + . . . + λkuk) = 0 ⇒

λ1u1 + . . . + λkuk ∈ ker/f) = {0} ⇒

λ1u1 + . . . + λkuk = 0 ⇒ {u1, . . . , uk} l.a. (Widerspruch).

2. ⇐: Sei das Bild jeder l.u. Menge wieder l.u. ⇒ f regular: Ware f singular ⇒ ∃v 6= 0 : f(v) = 0. Nun ist

{v} wegen v 6= 0 l.u., aber {f(v)} = {0} ist l.a. (Widerspruch).

Damit kann man zeigen, daß genau die regularen Abbildungen dimensionstreu sind, also z.B.

Ebenen bzw. Geraden nicht degenerieren.

Satz 17.8 Dimensionstreue regularer Abbildungen

U sei ein Teilraum von V und f : V ∈W linear. Dann gilt:

dimf(U) = dimU ⇔ f regular. →

Beweis: Sei {b1, . . . , bk} eine Basis von U ⇒ f(U) =< f(b1), . . . , f(bk) >.

Ist dimf(U) = dimU ⇔. Mit {un, . . . , uk} ist f(b1), . . . , f(bn)} ist l.u. ⇔ f regular.

Die Eingangs gestellte Frage nach der Dimensionstreue ist damit beantwortet: Genau die re-

gularen linearen Abbildungen sind dimensionstreu.

Obwohl Kern und Bild einer Abbildung f Teilraume von verschiedenen Vektorraumen (namlich

V bzw. W ) sind, besteht eine enge Beziehung zwischen den beiden Kennzahlen rg(f) und def(f)

einer linearen Abbildung f : Ihre Summe ist die Dimension des Urbildraumes, eine Zahl also, die

nicht von f abhangt! Der folgende Satz ist der Schlusselsatz fur alle Anwendungen der Theorie

der linearen Abbildungen und ein Analogen zum Dimensionssatz fur Matrizen.

Satz 17.9 Abbildungssatz (Dimensionssatz) fur lineare Abbildungen

Sei f : V →W eine lineare Abbildung und V endlichdimensional. Dann gilt:

rg(f) + def(f) = dim(V) = dim (Urbildraum (f))

Beweis: Sei dim(V ) = n. Wir zeigen: dim[im(f)] = n − dim(ker(f)). Als Teilraum von V hat ker(f) auch ein

endliche Dimension, namlich dim(ker(f)) =: k ≤ n.

80

Sei {b1, . . . , bk} eine Basis von ker(f). Nach dem Basiserganzungssatz kann man sie durch bk+1, . . . , bn zu einer

Basis {b1, . . . , bn} von V erganzen.

Es gilt nun: {f(bk+1), . . . , f(bn)} ist eine Basis von im(f), das sind aber gerade n− k Vektoren.

Beweis der Basiseigenschaft:

(i) im(f) =< f(bk+1), . . . , f(bn) >

Sei y ∈ im(f) ⇒ ∃x ∈ V : f(x) = y.

Weil x ∈ V ∃λ1, . . . λn ∈ K mitx = λ1b1 + . . . + λnbn.

Dann ist

y = f(x) = f(λ1b1 + . . . + λnbn) =

= λ1 f(b1)| {z }+ . . . + λk f(bk)| {z }+λk+1f(bk+1) + . . . + λnf(bn)

= λ1 · 0 + . . . . . . + λk · 0 + λk+1f(bk+1) + . . . + λnf(bn) ⇒

im(f) ⊆< f(bk+1), . . . , f(bn) >⊆ im(f), also gilt (i).

(ii) {f(bk+1), . . . , f(bn)} ist l.u. (mittels Unabhangigkeitskriterium):

Sei λk+1f(bk+1) + . . . + λnf(bn) = 0 ⇒ f(λk+1bk+1 + . . . + λnbn) = 0 ⇒

λk+1bk+1 + . . . + λnbn ∈ ker(f) ⇒ ∃µ1, . . . , µk ∈ K :

λk+1bk+1 + . . . , +λnbn = µ1b1 + . . . + µkbk ⇒

µ1b1 + . . . + µkbk + (−λk+1)bk+1 + . . . + (−λn)bn = 0.

Weil {b1, . . . , bn} als Basis l.u. ist, sind alle Koeffizienten, insbesondere

λk+1 = . . . = λn = 0, also gilt (ii).

dim(ker(f)) + dim(im(f)) = dim(V )

Je großer der Kern, desto kleiner ist das Bild: f hat “schlechte” Eigenschaften

Je kleiner der Kern, desto großer das Bild: f hat immer “bessere” Eigenschaften.

Im Grenzfall ist ker(f) = {0} und im(f) = W ⇔ f ist bijektiv und linear, also ist f ein Iso-

morphismus von V auf W . k−dimensionale Teilraume bleiben k−dimensional und l.u. Vektoren

bleiben l.u. Der zu V isomorphe Vektorraum W hat dieselben “linearen” Eigenschaften wie V

selbst. W ist im algebraischen Sinn nur eine “Kopie” von V , man schreibt: V ∼W . Musikalischer

Vergleich: Es ist so, als ob man ein Musikstuck statt in C-Dur in G-Dur spielt.

81

Zusammenfassende Bemerkung:

Die Begriffe Bild, Kern, Rang und Defekt lassen sich also auf Matrizen ubertragen, wenn man

diese als lineare Abbildung A : Kn → Km mit A(~x) = A~x auffaßt. Die so entstehenden Begriffe

fallen mit denen aus Kapitel 8.3 zusammen! Sei A eine m× n−Matrix uber dem Korper K.

im(A) = {~y ∈ Km|~y = A · ~x, ~x ∈ Km} = Spaltenraum von A = S(A)

ker(A) = {~x ∈ Kn|A~x = ~0} = Losungsmenge des homogenen

Gleichungssysteme A · ~x = ~0 = Nullraum von A = N(A)

rg(A) = dim(im(A)) = dimS(A) = Rg(A)

def(A) = dim(ker(A)) = dim(N(A))

Es gilt wieder: def(A)) + rg(A) = n

Auch hier gilt: Je kleiner der Defekt, desto bessere Eigenschaften hat die Matrix A, dies auch

in Hinblick auf die Invertierbarkeit:

Wir wissen: Die m×n−Matrix hat eine Linksinverse⇔ A hat Rang n; nach dem Abbildungssatz

ist dann def(A) = 0. Ein positiver Defekt hat die Nichtinvertierbarkeit zur Folge, also auch eine

“schlechte” Eigenschaft.

Die Linearitat einer Abbildung ist eine sehr starke Einschrankung. Tatsachlich ist eine linea-

re Abbildung bereits durch die Bilder der Basiselemente eindeutig festgelegt, d.h., kennt man

die Bilder der Basiselemente, so sind dadurch die Bilder der anderen Elemente bestimmt, die

Vorschrift laßt sich von den Basiselementen auf alle anderen Vektorraumelemente fortsetzen:

V =< b1, b2, b3 >,w1, w2, w2 ∈W

Satz 17.10 Fortsetzungssatz fur lineare Abbildungen

B = {b1, b2, . . . , bn} sei eine Basis von V und w1, w2, . . . , wn ∈W .

82

Es gibt genau eine lineare Abbildung f von V in W , die auf B vorgeschriebene Werte

w1 = f(b1), w2 = f(b2), . . . , wn = f(bn) annimmt, namlich

f(x) := λ1w1 + . . . + λnwn =∑

λiwi =∑

λif(bi) ∀x ∈ V

wobei λ1, λ2, . . . , λn die Koordinaten von x bezuglich der Basis B sind, also x =∑

λibi.

x =∑

λibi ⇒ f(x) =∑

λif(bi)

Bemerkung: Die vorgeschriebenen Werte konnen beliebige Vektoren sein, auch l.a. oder sogar

alle gleich.Beweis:

(i) Dieses f ist linear:

Seien x, y ∈ V ⇒ x =Pn

i=1 λibi, y =Pn

i=1 µibi ⇒

x + y =P

(λi + µi)bi ⇒ λiµi sind Koordinaten von x + y und

λx =P

(λλi)bi ⇒ λλi sind die Koordinaten von λx ⇒

f(x + y) =P

(λi + µi)f(bi) =P

(λif(bi) + µif(bi)) =

=P

λif(bi) +P

µif(bi) = f(x) + f(y)

f(λx) =P

(λλi)f(bi) =P

λ(λif(bi)) = λP

λif(bi) = λf(x)

(ii) Ist g eine andere lineare Abbildung mit g(bi) = f(bi) fur i = 1, 2, . . . , n ⇒ g = f :

Sei x =P

λibi ⇒

f(x) = f(P

λibi) =P

λif(bi) =P

λig(bi) =P

g(λibi) =

= g(P

λibi) = g(x) ∀x ∈ V

Beispiel:

Es sei f : K4 → K3 jene lineare Abbildung, fur die f(1, 1, 1, 1)(2, 2, 2), f(1, 1, 1, 0)(1, 3, 5),

f(1, 0, 1, 0)(2, 3, 4), f(1, 0, 0, 0)(1, 1, 1) gilt

(i) Gib f an

(ii) Berechne Basis und Dimension von im(f), ker(f).

1.1 1 1 11 1 1 01 0 1 01 0 0 01 1 1 10 0 0 −10 −1 0 −10 −1 −1 −1

1 1 1 10 1 1 10 −1 0 −10 0 0 −11 1 1 10 1 1 10 0 1 00 0 0 1

4 l.u. Vektoren bilden in K4 eine Basis. Damit ist f eindeutig bestimmt.

83

2. Stelle (x1, x2, x3, x4) als Linearkombination der Basis dar.

1 1 1 1 | x1

1 1 0 0 | x2

1 1 1 0 | x3

1 0 0 0 | x4

1 1 1 1 x1

0 0 −1 −1 x2 − x1

0 0 0 −1 x3 − x1

0 −1 −1 −1 x4 − x1

1 1 1 1 x1

0 1 1 1 x1 − x4

0 0 1 1 x1 − x2

0 0 0 1 x1 − x3

1 1 1 0 x3

0 1 1 0 x3 − x4

0 0 1 0 x3 − x2

0 0 0 1 x1 − x3

1 1 0 0 x2

0 1 0 0 x2 − x4

0 0 1 0 x3 − x2

0 0 0 1 x1 − x3

1 0 0 0 x4

0 1 0 0 x2 − x4

0 0 1 0 x3 − x2

0 0 0 1 x1 − x3

f

x1

x2

x3

x4

= x4 · f(b1) + (x2 − x4)f(b2)+

+(x3 − x2)f(b3) + (x1 − x3)f(b4) =

= x4 ·

222

+ (x2 − x4)

135

+

+(x3 − x2)

234

+ (x1 − x3)

111

=

2x4 + x2 − x4 + 2x3 − 2x2 + x1 − x3

2x4 + 3x2 − 3x4 + 3x3 − 3x2 + x1 − x3

2x4 + 5x2 − 5x4 + 4x3 − 4x2 + x3 − x3

=

=

x1 − x2 + x3 + x4

x1 + 2x3 − x4

x1 + x2 + 3x3 − 3x4

f(x1, x2, x3, x4) = (x1 − x2 + x3 + x4, x1 + 2x3 − x4, x1 + x2 + 3x3 − 3x4)

3.

im(f) =< f(b1), f(b2), f(b3), f(b4) >=<

222

,

135

,

234

,

111

>=

= <

222

,

135

>⇒ rg(f) = 2⇒ def(f) = 4− 2 = 2

4. ker(f) = {~x ∈ K4|f(~x) = 0}x1 − x2 + x3 + x4 = 0

x1 + 2x3 − x4 = 0x1 + x2 + 3x3 − 3x4 = 0

ker(f) =< (1, 2, 0, 1), (−2,−1, 1, 0) >

84

17.3 Anwendung: Lineare Operatorgleichungen

Nachdem wir Matrizen auf lineare Abbildungen verallgemeinert haben, wollen wir jetzt lineare

Gleichungssysteme verallgemeinern.

Bisher: A · ~x = ~b ~x ∈ Kn ~b ∈ Km

↓ ↓ ↓

Nun: f(v) = w v ∈ V w ∈W

Gegeben seien zwei Vektorraume V und W uber demselben Korper K und eine lineare Abbildung

f von V in W , insbesondere kann W = V sein, f heißt dann gerne auch linearer Operator

(= Endomorphismus). Weiters sei ein beliebiger Vektor w ∈ W gegeben. Gesucht sind jene

Vektoren v ∈ V mit:f(v) = w: lineare Operatorgleichung

f(v) = 0: dazugehorige homogene lineare

Operatorgleichung

L = {v ∈ V |f(v) = w} = f−1(w): Losungsmenge der Operatorgleichung

L ist die Urbildmenge von w unter f

v0 ∈ V mit f(v0) = w: spezielle Losung der Operatorgleichung

LH = ker(f) = f−1(0): Losungsmenge der dazugehorigen homogenen

Operatorgleichung

Ist T ⊆ V und v0 ∈ V , dann ist v0 + T := {v ∈ V |v = v0 + t mit t ∈ T}.

Satz 17.11 Losungsmenge einer linearen Operatorgleichung

(i) Die Losungsmenge L der linearen Operatorgleichung f(v) = w ist gegeben durch

L = v0 + ker(f) = v0 + LH

wobei v0 eine spezielle Losung ist: f(v0) = w.

(ii) Diese Darstellung der Losungsmenge ist unabhangig von der Wahl der speziellen Losung

v0.

85

Kurz: Die Losungsmenge einer linearen Operatorgleichung setzt sich zusammen aus

einer speziellen Losung und der Losungsgesamtheit der dazugehorigen homogenen

Gleichung.

Beweis:

(i) 1. Sei v eine beliebige Losung, also f(v) = w und v0 eine spezielle Losung, also auch f(v0) = w ⇒ f(v− v0) =

f(v)− f(v0) = w − w = 0 ⇒ v − v0 ∈ ker(f) ⇒ v = v0 + ker(f) ⇒ L ⊆ v0 + ker(f).

2. Sei v ∈ v0 + ker(f) ⇒ v = v0 + k mit k ∈ ker(f) ⇒ f(v) = f(v0 + k) = f(v0) + f(k) = w + 0 = w ⇒ v ∈ L ⇒

v0 + ker(f) ⊆ L.

(ii) Seien v0 und v1 zwei spezielle Losungen, also f(v0) = f(v1) = w. Dann gilt: v0 + ker(f) = v1 + ker(f).

Sei v ∈ v0 + ker(f) ⇒ v = v0 + k0 mit k0 ∈ ker(f) ⇒ f(v − v1) = f(v) − f(v1) = f(v0 + k0) − f(v1) =

f(v0) + f(k0)− f(v1) = f(v0) + 0− f(v1) = f(v0)− f(v1) = w − w = 0 ⇒ v − v1 ∈ ker(f) ⇒ v ∈ v1 + ker(f).

Sei v ∈ v1 + ker(f) ⇒ v = v1 + k1 mit k1 ∈ ker(f).Dannistf(v − v0) = f(v)− f(v0) = f(v1) + f(k1)− f(v0) =

f(v1)− f(v0) = 0 ⇒ v − v0 ∈ ker(f) ⇒ v ∈ v0 + ker(f).

Beispiele von linearen Operatorgleichungen:

1. Differentialgleichungen: Gesucht ist eine Funktion, deren Ableitungen eine Gleichung

erfullen (man sagt: Die gesuchte Funktion kommt unter dem Differentiationszeichen vor)

y(x) ∈ IRIR (reelle Funktion)

(z.B.: y(x) = xn, ex, sinx, . . .)

Gewohnliche Differentialgleichungen sind z.B.:

y′ = sinx · cos y

3y′′ + 4y′ + y = x3

x2 · y′′′ + (1− x)y′′ + x · y′ + 5x · y = tan x

Wie betrachten lineare Differentialgleichungen:

an(x)y(n) + . . . + a2(x)y′′ + a1(x) · y′ + a0(x) · y︸︷︷︸f(y)

= s(x)

f(y) := an(x)y(n) + . . . + a1(x) · y′ + a0(x) · y

f : C∞ → C∞ Vektorraum der beliebig oft differenzierbaren Funktion

f ist linearer Operator (oft mit L[y] bezeichnet):

f(y + z) = an(x)(y + z)(n) + . . .+a1(x)(y + z)′+a0(x)(y + z) = an(x)y(n) + . . .+a1(x)y′+

a0(x)y + an(x)z(n) + . . . + a1(x)z′ + a0(x)z = f(y) + f(z)∀y, z ∈ C∞.

f(λy) = an(x)(λy)(n)+ . . .+a1(x)λ ·y′+a0(x) ·λ ·y = λ ·(an)(x)y(n)+ ·+a1(x)y′+a0(x)) =

λ · f(x).

86

f ist linear wegen der Differentiationsregeln.

Siehe: Differentialgleichungen.

2. Integralgleichungen: Gesucht ist eine Funktion y(t) unter dem Integralzeichen, z.B:∫sin(x · t)y(x)dt = g(x) t Integrationsvariable

Fur jede Wahl von x erhalt man eine bestimmte Zahl =:g(x).

V := C[a, b] Vektorraum auf [a, b] stetigen Funktion

f(y) :=∫ ba sin(x · t)y(x)dt

f : C[a, b]→ C[a, b]

Wegen der Integrationsregeln ist f ein linearer Operator

Siehe: Funktionalanalysis

3. Differenzengleichungen: Gesucht ist das allgemeine Glied xn einer Folge (xn), z.B.:

x0 = 1, x1 = 0

xn+2 − 3xn+1 + xn = yn

xn “rekursiv” definiert

Man spricht von einer Differenzengleichung 2. Ordnung.

V = IRIN Vektorraum der unendlichen Zahlenfolgen (xn) uber IR, IC . . .

(xn) = (x0, x1, x2, x3, . . .)

f(xn) = xn+2 − 3xn+1 + xn

f : IRIN → IRIN

f ist wegen der Korpergesetze ein linearer Operator.

Differenzengleichungen werden in einem eigenen Kapitel behandelt.

4. Lineare Gleichungssysteme: Gesucht ist ein n−Tupel ~x ∈ Kn:

A · ~x = ~b A ∈ Km·n

f(~x) = A · ~x f : Kn → Km

f ist wegen der Matrizenregeln ein linearer Operator. Ein lineares Gleichungssystem ist

also eine spezielle lineare Operatorgleichung (siehe Kapitel 15).

Die Ergebnisse des Kapitels 15 kann man wie folgt verallgemeinern:

87

Satz 17.12 Hauptsatz uber lineare Operatorgleichungen

V und W seien zwei Vektorraume uber demselben Korper K (auch W = V zugelassen) und

f := V →W sei ein linearer Operator, w ∈W .

(i) f(v) = w ist genau dann losbar, wenn w ∈ im(f).

(ii) f(v) = w ist genau dann universell losbar, wenn f surjektiv ist. Ist W endlich dimen-

sional, dann ist dies genau dann der Fall, wenn rg(f) = dim(W ).

(iii) Im Falle der Losbarkeit ist f(v) = w genau dann eindeutig losbar, wenn f nicht singular

(regular) ist.

Ist f singular, dann ist f(v) = w mehrdeutig losbar und die Losungsmenge L ist gegeben

durch

L = v0 + ker(f)

wobei v0 eine spezielle Losung der Gleichung ist.

Beweis:

(i) = Definition von im(f).

(ii) L = W ⇔ im(f) = W ⇔ f surjektiv (rg(f) = dim(W )).

(iii) Nach 17.11 ist L = v0 + ker(f).

f nichtsingular ⇔ def(f) = 0 ⇔ ker(f) = {0} ⇔ L = {v0}

Bemerkung: Eine lineare Operatorgleichung hat also eine leere, eine einelementige oder ei-

ne unendliche Losungsmenge (wenn V unendlich), nicht jedoch eine Losungsmenge aus 2,3,...

Elementen.

Damit kann man auch die Frage nach der Invertierbarkeit (Umkehrbarkeit) einer linearen

Abbildung f : V →W beantworten.

In Kapitel 2 hatten wir ganz allgemein gesehen:

f invertierbar ⇔ f umkehrbar ⇔ f bijektiv.

Im Falle der Invertierbarkeit hat daher jedes w ∈W genau ein Urbild.

Fur lineare Abbildungen f : V →W gilt daruber hinaus:

f−1(w) = v0 + ker(f).

f singular ⇔ def(f) > 0⇔ ker(f) nicht trivial ⇔ w hat mehrere Urbilder ⇔

88

f nicht invertierbar.

Die Invertierbarkeit von f kann damit in der “Sprache der lineraen Abbildungen” folgend aus-

gedruckt werden:

Satz 17.13 Hauptsatz uber die Umkehrbarkeit von linearen Abbildungen


(i) f ist genau dann invertierbar, wenn im(f) = W und f nichtsingular (regular) ist. D.h.,

genau die Isomorphismen sind die invertierbaren linearen Abbildungen.

(ii) Ist V endlichdimensional, dann ist f genau dann invertierbar, wenn dim(W ) = dim(V )

und f nichtsingular (regular) ist.

(iii) Ist dim(V ) = dim(W ) (Spezialfall V = W ), dann ist f genau dann invertierbar, wenn f

nichtsingular ist.

D.h.: In diesem Fall (aber sonst nicht) folgt aus der Injektivitat bereits die Surjektivitat

und umgekehrt (Analogon zu endlichen Mengen, siehe 1.)

Beachte: Die Regularitat ist im allgemeinen nicht hinreichend fur die Invertierbarkeit.

Beweis:

(i) 1. Sei f invertierbar ⇒ ∀w ∈ W∃ genau ein v ∈ V mit f(v) = w ⇒ im(f) = W und die lineare

Operatorgleichung f(v) = w hat genau eine Losung ⇒ def(f) = 0 ⇒ f nicht singular.

2. Sei im(f) = W und def(f) = 0 ⇒ ∀w ∈ W∃v ∈ V mit f(v) = W , wegen def(f) = 0 ist v eindeutig

bestimmt ⇒ f invertierbar.

(Auch so: def(f) = 0 ⇔ f injektiv, zusammen mit im(f) = W ist f bijektiv ⇒ invertierbar).

(ii) Sei dim(V ) = n < ∞.

1. f invertierbar ⇒ def(f) = 0, und im(f) = W ⇒ rg(f) = dim(W ) ⇒ wegen der Abbildungsgleichung

17.9 (anwendbar wegen dim(V ) = n) : rg(f) + def(f) = dim(V ) ⇔ dim(W ) + 0 = dim(V ).

2. Sei dim(W ) = dim(V ) und def(f) = 0 ⇒ rg(f) = dim(V ) − def(f) = dim(W ) − 0 = dim(W ) ⇒

(im(f)) = dim(W ) und im(f) C W ⇒ im(f) = W ⇒ f invertierbar.

(iii) Sei dim(V ) = dim(W ) = n.

f injektiv ⇔ def(f) = 0 ⇔ rg(f) = n − def(f) = n − 0 = n ⇔ rg(f) = dim(W ) ⇔ im(f) = w ⇔ f

surjektiv.

Bemerkung: Die endliche Dimension von V in (ii) ist wesentlich:

V = P . Vektorraum der Polynome, dim(P ) =∞.

f : P → P mit f(p(x)) = X · p(X).

89

f ist linear.

f ist nicht singular: Sei f(p()) = 0⇒ X · p(x) = 0∀X ⇒ p(x) = 0.

Trotzdem ist f nicht invertierbar: Die Konstanten in P werden nicht erfaßt.

Die Nichtsingularitat (Regularitat) kann zusammenfassend durch folgende aquivalente

Eigenschaften charakterisiert werden:

Satz 17.14 Charakterisierung der Nichtsingularitat


(i) f nichtsingular ⇔ f injektiv ⇔ f Monomorphisms

(ii) f nichtsingular ⇔ Bild einer l.u. Menge ist wieder l.u.

Bei zusatzlicher Voraussetzung dim(V) = dim(W) = n (z.B. W = V ) gilt (iii) bis (vii):

(iii) f nichtsingular ⇔ f surjektiv ⇔ rg(f) = n.

(iv) f nichtsingular ⇔ f invertierbar.

(v) f nichtsingular ⇔ f Isomorphismus.

(vi) f nichtsingular ⇔ Bild einer Basis ist wieder eine Basis.

(vii) Eine quadratische (n× n)−Matrix A nichtsingular (regular) ⇔ rg(A) = n.

Nochmals Beweise:

(i) 1. f nichtsingular und f(x) = f(y) ⇒ f(x− y) = 0 ⇒ x− y = 0 ⇒ x = y ⇒ f injektiv.

2. f injektiv und f(v) = 0 ⇒ f(v) = 0 = f(0) ⇒ v = 0 ⇒ f nichtsingular. Der zweite Teil ist Definition.

(ii) 1. f nichtsingular und M ⊆ V l.u.. d.h. {v1, . . . , vn} l.u. ∀n ∈ IN. Sei λ1f(v1) + . . . + λnf(vn) = 0 ⇒

f(λ1v1 + . . . + λnvn) = 0 ⇒ λ1v1 + . . . + λnvn = 0 (Nur 0 auf 0) ⇒ λi0 = ∀i ⇒ {f(v1), . . . , f(vn)} l.u.

∀n ⇒ f(M) l.u.

2. Sei das Bildjeder l.u. Menge wieder l.u. und sei v 6= 0 beliebig aus v ⇒ {v} l.u. ⇒ {f(v)} = l.u. ⇒

f(v) 6= 0 ⇒ f nichtsingular.

(iii) 1. f nichtsingular ⇔ def(f) = 0 ⇔ rg(f) = n − def(f) = n ⇔ rg(f) = dim(W ) ⇔ im(f) = W ⇔ f

surjektiv.

2. Sei f surjektiv ⇔ rg(f) = n ⇔ def(f) = n− rg(f) = 0 ⇔ f injektiv ⇔ f nichtsingular.

(iv) f nichtsingular ⇔ f injektiv und f surjektiv ⇔ f bijektiv ⇔ f invertierbar.

(v) f nichtsingular ⇔ f invertierbar ⇔ f bijektiv ⇔ f Isomorphismus.

90

(vi) 1. f nichtsingular und {b1, . . . , bn} Basis von V ⇒ {f(b1), . . . , f(bn)} l.u. und

< f(b1), . . . , f(bn) >= im(f) = W , weil f auch surjektiv ist. Insgesamt: {f(b1), . . . , f(b1)} ist Basis von

W .

2. Sei {b1, . . . , bn} Basis von V und {f(b1), . . . , f(bn)} Basis von W . Sei v 6= 0 aus V und f(v) = 0 ⇒ v =

λ1b1 + . . . + λnbn ⇒ 0 = f(v) = λ1f(b1) + . . . + λnf(bn) ⇒ λ1 = . . . = λn = 0, weil f(b1), . . . , f(bn) l.u.

⇒ v = 0 ⇒ f nichtsingular.

(vii) A nichtsingular ⇔ ker(A) = {0} ⇔ def(A) = 0 ⇔ n− def(A) = n ⇔ Rg(A) = n ⇔ A invertierbar.

Mit (iv), (v) gilt auch:

Satz 17.15 Charakterisierung von Isomorphismen in endlich dimensionalen

Vektorraumen

Eine lineare Abbildung f : V → W ist genau dann ein Isomorphismus, wenn das Bild einer

Basis wieder eine Basis ist.

Sei dim(V ) = n

1. f : V → W Isomorphismus ⇒ dim(W ) = dim(V ) = n und f nichtsingular ⇒Bild einer Basis ist wieder Basis.

2. Sei {b1, . . . , bn} eine Basis von V ⇒ {f(b1), . . . , f(bn)} Basis von W ⇒ dim(W ) = dim(V ) = n ⇒ f

nichtsingular ⇒ f Isomorphismus.

Definition 17.8 Zwei Vektorraume V und W uber demselben Korper K heißen isomorph

(symbolisch V ∼= W ), wenn es einen Isomorphismus f : V →W gibt.

Satz 17.16 Isomorphie von endlichdimensionalen Vektorraumen

Jeder Vektorraum V der Dimension n ist isomorph zu Kn.

Die Isomorphie von Vektorraumen ist eine Aquivalenzrelation auf der Menge aller Vektorraume

uber K(V ∼= V, V ∼= W ⇒ W ∼= V, V ∼= W ∼= X ⇒ V ∼= X). Bis auf Isomorphie gibt es also nur

einen n−dimensionalen Vektorraum, namlich Kn.Beweis: Sei B = (b1, . . . , bn) eine Basis von V und x ∈ V .

f : V → Kn somit f(x) = [x]B.

Jedem Vektor werden also seine Koordinaten bezuglich einer festen Basis B zugeordnet.

1. f ist linear: f(x + y) = [x + y]B = [x]B + [y]B = f(x) + f(y)

f(λx) = [λx]B = λ[x]B

2. f ist injektiv ⇔ nichtsingular:

Sei f(x) = 0 ⇒ [x]B = 0 ⇒ x = 0

Damit ist f automatisch auch surjektiv.

91

Praktische Bedeutung:

Kommt es nur auf die “linearen” Eigenschaften an, also auf jene, die sich nur durch die Vektor-

raumoperation + und Vervielfachen ausdrucken lassen, genugt es, im Kn zu rechnen. Man ordnet

jedem Vektor seine Koordinaten bezuglich einer Basis zu (meistens die Standardbasis), rechnet

im Kn und transformiert das Ergebnis in V zuruck (f−1 ist mit f wieder ein Isomorphismus).

17.4 Rechnen mit linearen Abbildungen

In der elementaren Physik werden meßbare Großen wie Ort, Geschwindigkeit usw. mit reellen

Zahlen gemessen. In der Quantenmechanik werden diese meßbaren Großen durch lineare Ope-

ratoren angegeben. So wie mit Zahlen benotigt man dort ein Rechnen mit linearen Operatoren,

es entspricht dem Rechnen mit Matrizen.

Satz 17.17 Summe und Vielfaches von linearen Abbildungen

V und W seien Vektorraume uber K. f, g : V →W seien lineare Abbildungen.

(i) Summe (f + g) und Vielfaches (kf) von linearen Abbildungen sind wieder lineare Abbil-

dungen. Dabei ist rg(f + g) ≤ rg(f) + rg(g), rg(kf) = rg(f).

(ii) Die Menge aller linearen Abbildungen von V in W bildet bezuglich der Addition und der

Vielfachbildung einen Vektorraum uber K, bezeichnet mit L(V,W ) bzw. Hom (V,W ). Es

ist L(V,W) C WV.

(iii) Ist dim(V ) = n und dim(W ) = m, dann ist dim(L(V,W)) = m · n.

Ist {v1, v2, . . . , vn} eine Basis von V und {w1, w2, . . . , wm} eine Basis von W , dann bilden

die Abbildungen fij mit

fij(vi) = wj und fij(vk) = 0 fur k 6= i

eine Basis von L(V,W ).

Die Hintereinanderausfuhrung von linearen Abbildungen f, g bezeichnet man auch als Produkt

(g ◦ f)(x) := g(f(x)).

92

f : V →W

f(V ) = W

g : W → X

Beachte: Zuerst wird die innere Abbildung f ausgefuhrt.

Satz 17.18 Produkt von linearen Abbildungen

V,W,X seien Vektorraume uber demselben Korper K. f, f ′ : V →W, g, g′ : W → X seien solche

lineare Abbildungen, daß alle auftretenden Produkte definiert seien.

(i) Das Produkt g ◦ f von linearen Abbildungen ist wieder linear: g ◦ f ∈ L(V,W ).

(ii) Der Rang des Produktes zweier linearer Abbildungen ist kleiner oder gleich dem Rang eines

jeden Faktors:

rg(g ◦ f) ≤ rg(f), rg(g ◦ f) ≤ rg(g)⇔ rg(g ◦ f) ≤ min(rg(f), rg(g)).

Der Rang eines Produktes von Abbildungen kann nicht den Rang eines Faktors

ubertreffen.

(iii) Das Produkt von linearen Abbildungen (und nur von diesen) ist linksdistributiv bezuglich

der Addition:

g ◦ (f + f ′) = g ◦ f + g ◦ f ′.

Weiterhin gilt wie fur alle Abbildungen die Rechtsdistributivitat:

(g + g′) ◦ f = g ◦ f + g′ ◦ f

k(g ◦ f) = (kg) ◦ f = g ◦ (kf)

(iv) Im Falle der Existenz ist die Inverse einer linearen Abbildung wieder linear. Es gilt dann

so wie fur alle Abbildungen: (g ◦ f)−1 = g−1 ◦ f−1, aber die Summe von invertierbaren

linearen Abbildungen muß nicht invertierbar sein. Das Produkt von Abbildungen kann

nichtsingular sein, auch wenn ein Faktor singular ist.

93

(v) Fur den Spezialfall W = V , also L(V, V ) gilt (Summe und Produkt sind dann immer de-

finiert): Die Menge L(V, V ) der linearen Operatoren eines Vektorraumes auf sich selbst

bildet bezuglich der Addition und des Produktes von Abbildungen einen nicht kommuta-

tiven Ring mit 1 = idv.

Insgesamt gilt also:

L(V, V ) ist bezuglich Addition, Vervielfachen und Produkt Hintereinanderausfuhrung eine

nicht kommutative Algebra.

Beweis zu (ii):

Sei f : V → W mit rg(f) = r bzw. g : W → X mit rg(g) = s. f bildet V in den r−dimensionalen Teilraum im(f)

von W ab. g bildet W in den s−dimensionalen Teilraum im(g) von X ab. Nun ist

im(gf) = {(gf)(v)|v ∈ V } = {g(f(v))|v ∈ V } = {g(v′)|v′ ∈ im(f)} ⊆ im(g) ⇒

dim(gf) ≤ dim(im(g)) = s ⇒ rg(gf) ≤ s.

im(gf) ist nach (*) das Bild des Teilraumes im(f) unter g. Es ist dim(im(f)) = rg(f) = r. Nun wird die

Dimension eines Bildes eines Teilraumes unter einer linearen Abbildung hochstens kleiner, daher ist rg(gf) ≤ r.

Bemerkungen:

1. Ist f invertierbar, dann ist wegen im(f) = W : rg(g ◦ f) = rg(g).

2. Analog gilt fur Matrizen: rg(A ·B) ≤ min(rg(A), rg(B)).

3. Wegen des Assoziativgesetzes bezuglich ◦ ist in L(V, V ) eine Potenzrechnung moglich:

fn := f◦f◦ . . . ◦ f︸︷︷︸n aml

. Damit ist das Einsetzen von Abbildungen in Polynome moglich:

Ist p(x) = a0 + a1X + a2X2 + . . . + anXn, dann sei

p(f) := a0id + a1f + a2f2 + . . . + anfn.

94

17.5 Faktorraume (Quotientenraume)

Vektorraume enthalten im allgemeinen sehr viele Elemente. Sieht man von gewissen Eigenschaf-

ten der Elemente ab, konnen sie “verkleinert” werden. Dieses Verkleinern kann formal mittels

einer Aquivalenzrelation beschrieben werden.

Beispiel: Im Vektorraum der Ortsvektoren in der Ebene werden Vektoren, deren Endpunkte

auf einer Geraden (= Teilraum) liegen, als “gleich” (= aquivalent) angesehen:

v1 ∼ v2 ∼ v3 ∼ v4 ∼ . . .

Alle aquivalenten Vektoren haben die Eigen-

schaft, daß ihren Differenzen im Teilraum U lie-

gen.

v ∼u w := w − v ∈ U

Alle zu v aquivalenten Vektoren sind gegeben

durch v + U = {v + u|u ∈ U},

also durch die Nebenklasse v nach U.

Aquivalenzklasse [v] = {w|w ∼u v} = {w 6= v + u|n ∈ U} = v + U.

Alle zu v + U gehorende Vektoren werden mit der Geraden g = v + U “identifiziert”. g ist das

Bild (der Ersatz) fur die unendlich vielen Vektoren v1, v2, . . . mit Endpunkt auf g.

dimV 2 = 2

dimU = 1

V/U = “Faserraum” = Menge aller v + U =

Quotientenraum von V nach U .

Wann sind 2 Nebenklassen v1 + U, v2 + U gleich?

95

v1 + U = v2 + U ⇔ v2 − v1 ∈ U

Rechnen mit Nebenklassen:

Allgemein:

Gegeben sei ein Vektorraum V uber einen Korper K und ein Teilraum U C V .

Definition 17.9 Nebenklasse nach einem Teilraum

(i) 2 Vektoren v1, v2 ∈ V heißen aquivalent (modulo U), wenn ihre Differenz in U liegt:

v1 ∼U v2 ⇔ v2 − v1 ∈ U (oder v1 − v2 ∈ U)

∼U ist eine Aquivalenzrelation auf V .

(ii) Die Aquivalenzklasse [v] nach dieser Aquivalenzrelation modulo U ist die Menge v + U =

{v + u|u ∈ U}. v + U heißt die Nebenklasse von v nach U .

[v]∼U = {w ∈ V |w ∼U v} = {w|w − v ∈ U} = {w ∈ V |w = v + u, u ∈ U} = v + U

[v]∼U = v + U

v heißt ein Vertreter (Reprasentant) der Nebenklasse v + U .

96

(iii) Eine Nebenklasse kann durch verschiedene Vertreter angegeben werden.

Zwei Nebenklassen v1 + U und v2 + U sind genau dann gleich, wenn ihre Differenz in U

liegt:

v1 + U = v2 + U⇔ v2 − v1 ∈ U⇔ v1 ∼U v2.

Beweis:

1. Ist v2 − v1 ∈ U ⇒ v2 − v1 = u ⇒ v2 = v1 + u.

Damit: Ist x ∈ v2 + U ⇒ x = v2 + u′ = v1 + (u + u′) ∈ v2 + U , weil n + n′ + U = U

Ist y ∈ v1 + U ⇒ y = v1 + u′ = v2 − u + u′ = v2 + u′ − u ∈ v2 + U

2. Ist v1 + U = v2 + U ⇒ v2 = v2 + 0 ∈ v2 + U = v1 + U ⇒ v2 = v1 + u ⇒ v2 − v1 = u ∈ U .

Beachte insbesondere: U + U = U = 0 + U

Satz 17.19 Rechnen mit Nebenklassen

v1 + U und v2 + U seien 2 Nebenklassen nach U .

(i) Addition von 2 Nebenklassen:

2 Nebenklassen werden addiert, indem man ihre Vertreter addiert:

(v1 + U + (v2 + U) := (v1 + v2) + U

Diese Definition ist unabhangig von der Wahl der Vertreter (man sagt: wohldefiniert).

Seien v′1 ∈ v1 + U und v′2 ∈ v2 + U ⇒ (v′1 + U) + (v′2 + U) = (v′1 + v′2) + U = (v1 + u1) + (v2 + u2) + U =

(v1 + v2) + u1 + u2 + U = (v1 + v2) + U .

(ii) Vervielfachen einer Nebenklasse:

Eine Nebenklasse wird vervielfacht, indem man ihren Vertreter vervielfacht:

λ(v + U) := λv + U

Diese Definition ist wohldefiniert:

Sei v′ ∈ v + U ⇒ v′ = v + u mit u ∈ U ⇒ λ(v′ + U) = λv′ + U = λ(v + u) + U =

λv + (λu + U) = λv + U .

97

Satz 17.20 Faktorraum nach einem Teilraum

U sei ein Teilraum eines Vektorraumes uber einen Korper K.

(i) Die Menge der Nebenklassen nach U eines Vektorraumes V bildet bezuglich der Addition

und des Vervielfachens von Nebenklassen wieder einen Vektorraum uber K. Er heißt der

Faktorraum von V nach U .

Symbolisch: V/U := {v + U|v ∈ V}.

(ii) Ist V endlichdimensional, dann ist die Dimension des Faktorraumes die Differenz der

Dimension von V und U :

dim(V/U) = dimV − dimU.

Beweis:

(i) Die Rechengesetze (V1), (V2), (V5), (V6), (V7), (V8) gelten, weil sie fur die Reprasentanten gelten, z.B. das As-

soziativgesetz:

[(v1 + U) + (v2 + U)] + (v3 + U) = [(v1 + v2) + U ] + (v3 + U) = (v1 + v2) + v3 + U = v1 + (v2 + v3) + U =

(v1 + U) + (v2 + v3) + U = (v1 + U) + [(v2 + U) + (v3 + U)] oder

1.(v1 + U) = 1.v1 + U = v1 + U .

Der Nullvektor von V/U ist die Nebenklasse U :

(v + U) + U = (v + U) + (0 + U) = (v + 0) + U = v + U : 0 = U.

Das additive inverse Element zu v + U ist −v + U :

(v + U) + (−v + U) = v + (−v) + U = 0 + U = U .

Sei dim(V ) = n.

U ist ebenfalls endlichdimensional. Sei {v1, . . . , vk} eine Basis von U . Nach Basiserganzungssatz kann sie zu einer

Basis von V erganzt werden.

V = (v1, . . . , vk, vk+1, . . . , vn)

Behauptung: (vk+1 + U), . . . , (vn + U) ist eine Basis von V/U.

Das sind n− k Elemente, k = dim(U), daher ist dim(V/U) = n− k = dim(V )− dim(U).

Sei λ1(vk+1 + U) + . . . + λn−k(vn + U) = 0 = U ⇒ λ1vk+1 + . . . + λn−kvn + U = 0 + U ⇒

λ1vk+1+ . . .+λn−kvn ∈ U ⇒ λ1vk+1+ . . .+λn−kvk = µ1v1+ . . .+µkvk ⇒ µ1v1+ . . .+µkvk−λ1vk+1 . . . λn−kvn =

0 ⇒ λ1 = . . . = λn−k = 0 weil {v1 . . . , vn} l.u. ⇒ (vk+1 + U) . . . (vn + U) l.u.

98

Sei X eine beliebige Nebenklasse von V/U ⇒ X = x + U, x ∈ V ⇒ x = λ1v1 + . . . + λnvn ⇒

X = λ1v1 + . . . + λkvk| {z }∈U

+λk+1vk+1 + . . . + λnvn + U ⇒ X = λk+1vk+1 + . . . + λnvn + U = λk+1(vk+1 + U) +

. . . + λn(vn + U) ⇒ V/U ⊆< (vk+1 + U), . . . , (vn + U) >. Wegen (vk+1 + U) . . . (vn + U) ∈ V/U ist < (vk+1 +

U), . . . , (vn + U) >⊆ V/U ⇒ V/U < (vk+1 + U), . . . , (vn + U) > .

Die kanonische Projektion

Durch die Nebenklassen wird V in elementfremde Klassen zerlegt:

Satz 17.21 Kanonische Projektion

Die kanonische Projektion π ist jene Abbildung von V auf den Faktorraum V/U , die jedem

Vektor v aus V jene Nebenklassen zuordnet, in der v liegt.

π : V → V/U mit π(x) = x + U .

π ist eine surjektive lineare Abbildung auf V/U mit U als Kern, also:

ker(π) = U und im(π) = V/U

def(π) = dim(U) und rg(π) = dim(V )− dim(U)

π ist eine Projektion in Richtung U .

Beweis:

π(x + y) = x + y + U = (x + U) + (y + U) = π(x) + π(g)

π(λx) = λx + U = λ(x + U) = λπ(x)

Sei v + U ∈ V/U beliebig ⇒ π(v) = v + U , also im(π) = V/U .

Sei u ∈ U ⇒ π(u) = u + U = U = Nullvektor von V/U ⇒ U ⊆ ker(π).

Sei x ∈ ker(π) ⇒ π(x) = 0 = U ⇒ x + U = U ⇒ x ∈ U ⇒ ker(π) ⊆ U .

99

Satz 17.22 Homomorphiesatz fur Vektorraume

f : V → W sei eine surjektive lineare Abbildung von V auf W . Dann ist W isomorph zum

Faktorraum V/ker(f).

f : V →W ⇒W ∼= V/ker(f)

Auch so: Alle epimorphen Bilder von V sind gegeben durch die Faktorraume von V

nach allen Teilraumen von V !

Beweis: Setzen U := ker(f);V/U = {v + U/v ∈ V }.

1. Die Abbildung α : V/U → W sei definiert durch:

α(v + U) := f(v)

Diese Definition von α ist wohldefiniert (unabhangig von der Wahl des Vertreters v):

Sei v1 + U = v2 + U ⇒ v2 − v1 ∈ U = ker(f) ⇒ f(v2 − v1) = 0 ⇒ f(v2) − f(v1) = 0 ⇒ f(v2) = f(v1) ⇒

α(v2 + U) = α(v1 + U).

2. α ist injektiv:

Sei α(v1 + U) = α(v2 + U) ⇒ f(v1) = f(v2) ⇒ f(v1)− f(v2) = 0 ⇒ f(v1 − v2) = 0 ⇒ v1 − v2 ∈ ker(f) =

U ⇒ v1 + U = v2 + U .

3. α ist surjektiv auf W :

Sei w ∈ W ⇒ ∃v ∈ V : f(v) = w, weil f surjektiv ist. Fur v + U ∈ V/U gilt dann: α(v + U) = f(v) = w ⇒

jedes w ∈ W hat ein Urbild in V/U .

4. α ist linear

α[(v1 + U) + (v2 + U)] = α[(v1 + v2) + U ] = f(v1 + v2) = f(v1) + f(v2) = α(v1 + U) + α(v2 + U).

α[λ(v + U)] = α[λv + U ] = f(λv) = λf(v) = λα(v + U).

α ist also ein Isomorphismus und damit V/U ∼= W .

100

Zusammenfassung:

Es gibt insgesamt 4 Methoden, um aus gegebenen Vektorraumen einen neuen Vektorraum zu

erhalten:

1. durch Teilraumbildung: U C V

2. durch direkte Summenbildung (Produktbildung)

V1 × V2 = {(v1, v2)|v1 ∈ V1, v2 ∈ V2}

3. durch homomorphe (lineare) Abbildungen: f(V ) = {f(v)|v ∈ V }

4. durch Faktorbildung nach einem Teilraum U :

V/U = {v + U/v ∈ V }

101

18 Matrizen und Lineare Abbildungen

In diesem Kapitel wird gezeigt, daß in endlich dimensionalen Vektorraumen lineare Abbildungen

und Matrizen einander umkehrbar eindeutig entsprechen. Die Verwendung von Matrizen hat

jedoch 2 Vorteile:

1. Aus der Gestalt der Matrixdarstellung kann man auf die Wirkung (die Struktur) der li-

nearen Abbildung schließen.

2. Man kann die Bilder von Vektoren unter einer linearen Abbildung durch Multiplizieren mit

einer Matrix berechnen. Das ist praktisch (besonders mit einem Computer).

18.1 Matrixdarstellungen

Bisher wissen wir: Eine m× n−Matrix A induziert eine lineare Abbildung vom Kn in den Km

durch die Festsetzung

A : Kn → Km

A(~x) := A · ~x ~x ∈ Kn

A nennen wir die durch die Matrix A induzierte Matrixabbildung.

Nun wollen wir umgekehrt beliebige lineare Abbildungen zwischen endlich–dimensionalen Vek-

torraumen durch Matrizen darstellen: Matrixdarstellung einer linearen Abbildung. Dies ge-

lingt dadurch, daß man anstelle der abstrakten Vektoren x ihre Koordinatendarstellungen [x]B

bezuglich einer vorgegebenen Basis B betrachtet.

Sei f : V → W eine lineare Abbildung von V in W , dim(V ) = n, dim(W ) = m (auch m = n

und W = V sind moglich).

B = {b1, . . . , bn} sei eine Basis von V, B′ = {b′1, . . . , b′m} eine Basis von W .

[x]B sei der Koordinatenvektor von x : [x]B ∈ Kn.

[f(x)]B′ sei der Koordinatenvektor des Bildvektors f(x) : [f(x)]′B ∈ Km.

V ∈ xf−→ f(x) ∈W

↓ ↓

Kn ∈ [xB][f ]B′B−→ [f(x)]B′ ∈ Km

102

[f ]B′B die Matrixdarstellung von f (bezuglich der Basen B′, B), sie moge die Lucke von

Kn → Km schließen, und zwar in der Weise, daß man den Koordinatenvektor [f(x)]B′ durch

einfache Multiplikation von [x]B mit der Matrixdarstellung erhalt, d.h.:

Ist

[f ]B′B =

f11 f12 . . . f1n

f21 f22 . . . f2n

...

fn+1 fn+2 . . . fmn

=: A

dann soll gelten:

[f(x)]B′ = [f ]B′B · [x]B

[f(x)] =

Kurz: [f ] · [x].

Dies gelingt dann, wenn man [f ] wie folgt definiert:

SPALTEN von [f ] = KOORDINATEN der BILDER der BASISVEKTOREN

also

[f ]B′B := ([f(b1)]B′ , [f(b2)]B′ , . . . , [f(bn)]B′).

Ist [x]B = (x1, . . . , xn)⇔ x = x1b1 + . . . + xnbn, dann gilt

f(x) = x1f(b1) + . . . + xnf(bn), also

[f(x)]B′ = x1[f(b1)]B′ + . . . + xn[f(bn)]B′ .

Es ist dann:

[f ][x] = ([f(b1)], [f(b2)], . . . , [f(bn)]) ·

x1

...

xn

= x1 · [f(b1)] + . . . + xn[f(bn)] = [f(x)],

also gilt fur das so definierte [f ] :

[f ] · [x] = [f(x)]

Koordinaten des Bildes von x = Matrixdarstellung × Koordinaten von x

Die so definierte Matrixdarstellung ist eindeutig:

Waren A und B zwei solche Matrizen, also mit

A · [x] = B · [x] = [f(x)].

103

Dann gilt insbesondere fur x = bi, dem i−ten Basisvektor:

(wegen [bi] = (0, . . . , 1, . . . , 0)):

A ·

0...

1...

0

︸︷︷︸

= B ·

0...

1...

0

︸︷︷︸

i− te Spalte von A = i− te Spalte von B ⇒ A = B.

Insgesamt: Hat man einmal Basen von V bzw. W ausgewahlt, dann kann man eine lineare

Abbildung f : V →W durch m · n Skalare eindeutig angeben.

Satz 18.1 Matrixdarstellung einer linearen Abbildung

f : V →W sei eine lineare Abbildung eines n−dimensionalen Vektorraumes V in einen m−dimensionalen

Vektorraum W . B sei eine Basis von V und B′ eine Basis von W .

(i) Es gibt genau eine m× n− Matrix A =: [f ]B′B mit

A · [x]B = [f ]B′B[x]B = [f(x)]B′

[f ]B′,B heißt Matrixdarstellung von f bezuglich der Basen B′ und B. Die Spalten von

[f ]B′,B sind gegeben durch die Koordinaten der Bilder der Basisvektoren von V .

Insbesondere ist die Matrixdarstellung eines linearen Operators f : V → V

gegeben durch eine quadratische n× n−Matrix [f ]B.

Also: A ist Matrixdarstellung von f: V →W bezuglich der Basen B und B′ ⇔

[f(x)]B′ = A · [x]B.

(ii) Die m× n−Matrizen und die linearen Abbildungen von f : V in W entsprechen einander

umkehrbar eindeutig.

(iii) Die Zuordnung f → [f ] ist vertraglich mit den Rechenoperationen; d.h.:

104

[λf ] = λ[f ]

[f + g] = [f ] + [g]

[f ◦ g] = [f ] · [g] , wenn f ◦ g definiert

[id] = In

[0] = On

(iv) Ist f eine invertierbare lineare Abbildung (dann ist dim(W ) = dim(V ) = n),

dann gilt:

[f−1] = [f ]−1

Spezialfall: Lineare Abbildungen vom Kn in den Km

Ist A eine m×n−Matrix, dann definiert ~x→ A·~x, wie wir gesehen haben, eine lineare Abbildung

TA : Kn → Km mit TA(~x) := A · ~x.

Dabei wird ~x als Spaltenvektor aufgefaßt.

Die Gleichung ~y = A~x heißt Abbildungsgleichung der Abbildung TA.

Beispiel: A =

1 2 3 4

5 8 7 2

TA(~x) =

1 2 3 4

5 8 7 2

x1

x2

x3

x4

=

x1 + 2x2 + 3x3 + 4x4

5x1 + 8x2 + 7x3 + 2x4

Abbildungsgleichung von TA : K4 → K2

y1 = x1 + 2x2 + 3x3 + 4x4

y2 = 5x1 + 8x2 + 7x3 + 2x4

⇔(

y1

y2

)=

1 2 3 4

5 8 7 2

x1

x2

x3

x4

Die Matrixdarstellung von TA bezuglich der Standardbasen (auch Standarddarstellungsma-

trix genannt) ist A selbst:

TA(~e1) = A · ~e1 = ~a1 1. Spalte von A...

TA( ~en) = A · ~en = ~an n− te Spalte von A

105

Damit:

[TA]{ei},{ei} = ([TA(~e1)] . . . [TA( ~en)]) = ( ~a1 . . . ~an) = A.

Die Standarddarstellungsmatrix kann direkt aus den Abbildungsgleichungen abge-

lesen werden.

Beachte insgesamt: Ist A eine regulare n× n−Matrix, dann kann die Gleichung

~y = A~x

aufgefaßt werden als

(i) die Matrixabbildung A : Kn → Kn mit A(~x) = A~x

(ii) ein bijektiver Operator f : V → V eines n−dimensionalen Vektorraumes mit A als Matri-

zendarstellung von f

(iii) eine Koordinatentransformation in einem n−dimensionalen Vektorraum.

Beispiel: Gegeben sei die regulare Matrix A =

1 −1

1 2

und es sei y = A · ~x.

B = {b1, b2} sei die alte Basis von V

B′ = {b′1, b′2} sei gegeben durch

b′1 = b1 + b2

b′2 = −b1 + 2b2

⇒Ubergangsmatrix

|A| = 3 6= 0A =

1 −1

1 2

Weil |A| 6= 0, ist B′ = {b′1, b′2} wieder eine Basis vom K2.

1. Deutung von ~y = A~x als Basistransformation:

[x]alt = C · [x]neu(x1

x2

)=

(1 −11 2

)(x′1x′2

)⇔

x1 = x′1 − x′2

x2 = x′1 + 2x′2

[x]neu = C−1[x]alt(x′1x′2

)= 1

3

2 1

−1 1

(x1

x2

)⇔

x′1 = 23x1 − 1

3x2

x′2 = −x13 + x2

3

106

2. Deutung von ~y = A~x als (bijektive) lineare Abbildung f : V 2 → V 2:

f(b1) = b′1Durch die Bilder der Basisvektoren

ist f eindeutig bestimmt!

f(b2) = b′2

[f(b1)]B′ =(11

)[f(b2)]B =

(−12

)⇒

[f ]B′B =

1 −1

1 2

und

[f(x)]B′ =

1 −1

1 2

(x1

x2

)=

x1 − x2

x1 + 2x2

3. Deutung von ~y = A~x als Abbildung A : K2 → K2 :(

y1

y2

)=

(1 −11 2

)(x1

x2

)⇔

y1 = x1 − x2

y2 = x1 + 2x2

18.2 Anderung der Matrixdarstellung bei Basiswechsel

Nach Definition der Matrixdarstellung einer linearen Abbildung f : V → W andert sich diese,

wenn man in V bzw. W die Basis wechselt. Man wird daher bestrebt sein, solche Basen

in V und W zu finden, daß die Matrixdarstellung von f moglichst einfach (= viele Nullen,

schwachbesetzte Matrix, Diagonalmatrix, Dreiecksmatrix) wird. Bezuglich der Standardbasen laßt

sich die Matrixdarstellung zwar leicht ablesen, man erhalt aber nicht unbedingt die einfachste

Matrix:

Beispiel: Sei f : K2 → K2( es ist also W = V ) gegeben durch: f(x1

x2

)=

(x1+x2

−2x1+4x2

)Bezuglich der Standardbasis B = {~e1, ~e2} gilt: [f ]B =

(1 1−2 4

)Bezuglich der Basis B′ = {

(11

),(12

)} gilt wegen

f(11

)=

(22

)= 2 ·

(11

); f

(12

)=

(36

)= 3 ·

(12

)[f

(11

)]B′ =

(20

)und [f

(12

)]B′ =

(03

): [f ]B′ =

(2 00 3

).

Zwei Fragen tauchen auf:

(i) Wie andert sich die Matrixdarstellung von f bei Basiswechsel?

(ii) Wie erhalt man “gunstige” Basisvektoren? Was ist uberhaupt erreichbar?

107

In diesem Kapitel beantworten wir die erste Fragestellung. Die uberaus wichtige zweite Frage-

stellung wird in einem eigenen Kapitel (VII) behandelt.

Erinnerung: Sind B und B zwei Basen des n−dimensionalen Vektorraum V und P die Ubergangs-

matrix von B nach B (= neue Basisvektoren durch alte ausdrucken), dann ist V isomorph zu

Kn. Einen Isomorphismus erhalt man dadurch, daß man einem Vektor x ∈ V seine Koordinaten

[x] zuordnet:

x→ [x]B ∈ Knalt Kn

alt = Vektorraum der “alten” Koordinaten

x→ [x]B ∈ Knneu Kn

neu = Vektorraum der “neuen” Koordinaten

Fur die alten und neuen Koordinaten gilt nach 18.6 der Zusammenhang

[x]B = P · [x]B

Diese kann man nach der vorhergehenden Bemerkung auch als (bijektive) Abbildung P : Knneu →

Knalt auffassen, namlich durch die Festsetzung: P([x]B) = P · [x]B = [x]B.

Ist nun f : V n → Wm linear und sind B, B Basen von V und B′, B′, Basen von W mit den

Ubergangsmatrizen P bzw. Q, dann gilt fur die “alte” Matrixdarstellung [f ]B′B = [f ]alt von f

bzw. fur die “neue” Matrixdarstellung [f ]B′B =: [f ]neu

[f ]neu = Q−1 · [f ]alt ·P.

108

Spezialfall: W = V , d.h., f ist ein linearer Operator auf V :

[f ]neu = P−1 · [f ]alt ·P.

Beachte: Im Gegensatz zu vorhin steht links und rechts neben [f ]alt dieselbe Matrix P !

Satz 18.2 Anderung der Matrixdarstellung

P sei die Ubergangsmatrix von einer Basis B zu einer Basis B des n−dimensionalen Vektorrau-

mes V und Q die Ubergangsmatrix von einer Basis B′ zu einer Basis B′ des m−dimensionalen

Vektorraumes W . Dann gilt fur die Matrixdarstellung einer linearen Abbildung f : V →W .

(i) [f ]B′,B = Q−1 · [f ]B′,B ·P⇔ [f ]neu = Q−1[f ]altP.

Fur die Matrixdarstellung eines linearen Operators T : V → V gilt:

(ii) [T]B = P−1 · [T]B ·P⇔ []neu = P−1[f ]neu ·P.

Beobachtung:

Die neuen Matrixdarstellungen unterscheiden sich von den alten also “nur” durch Links– bzw.

Rechtsmultiplikation mit zwei verschiedenen regularen Matrizen oder auch nur mit ein– und

derselben Matrix

Definition 18.1 Aquivalenz und Ahnlichkeit von Matrizen

(i) Zwei m× n−Matrizen A,B heißen aquivalent (∼1), wenn es eine regulare

m×m)−Matrix Q und eine regulare n× n−Matrix P gibt, so daß gilt: B = QAP

A ∼1 B ⇔ ∃ regulare Q,P : B = QAP

109

(ii) Zwei quadratische n× n−Matrizen A und B heißen ahnlich (∼2), wenn es eine regulare

n× n−Matrix P gibt, so daß B = P−1AP

A ∼2 B ⇔ ∃ regular R : B = P−1AP

Satz 18.3 Aquivalente und ahnliche Matrixdarstellungen

(i) Aquivalenz und Ahnlichkeit sind Aquivalenzrelationen in der Menge der

m× n− bzw. n× n−Matrizen.

(ii) A und B sind genau dann Matrixdarstellungen der linearen Abbildung

f : V n →Wm, wenn sie aquivalent sind.

(iii) A und B sind genau dann Matrixdarstellungen eines linearen Operators

T : V n → V n, wenn sie ahnlich sind.

Zusammenfassung:

Alle Matrixdarstellungen ein– und derselben linearen Abbildung sind untereinander aquivalent.

Alle Matrixdarstellungen ein– und desselben linearen Operators sind untereinander ahnlich.

Wie kann man es Matrizen ansehen, ob sie aquivalent oder ahnlich ist?

Wir werden sehen: Es gibt eine Reihe von Eigenschaften, die bei Ubergang zu aquivalenten oder

ahnlichen Matrizen erhalten bleiben.

Definition 18.2 Invariante Eigenschaften von Matrizen

Eine Eigenschaft von Matrizen heißt aquivalenzinvariant (ahnlichkeitsinvariant), wenn

mit einer Matrix auch jede zu ihr aquivalente (ahnliche) Matrix diese Eigenschaft besitzt.

Haben damit zwei Matrizen nicht die besagte Eigenschaft, dann konnen sie nicht aquivalent

bzw. ahnlich sein. Sie sind notwendige Bedingungen fur die Aquivalenz bzw. Ahnlichkeit, aber

im allgemeinen nicht hinreichend, d.h., aus der Gultigkeit der Eigenschaft kann nicht auf die

Aquivalenz bzw. Ahnlichkeit geschlossen werden.

110

Satz 18.4 Aquivalenzinvarianz des Ranges

Aquivalente Matrizen haben denselben Rang.

Beweis:

Seien A,B aquivalent ⇒ ∃ regulare Q,P mit B = QAP ⇒ rg(B) = rg(QAP ) = rg[(QA)P ] = rg(QA) =

rgA.

Bemerkung:

1. Spater werden wir sehen, daß aus der Gleichheit des Ranges auch auf die Aquivalenz der

Matrizen geschlossen werden kann, aber

2. Aus der Gleichheit des Ranges kann nicht auf die Ahnlichkeit der Matrizen geschlossen

werden.

A =

0@ 1 0

0 1

1A = I und B =

0@ 0 1

1 0

1A haben beide Rang 2. Ware A ∼2 B ⇒ ∃ regulares P :

B = P−1n AP = P−1P = I 6= B.

Ahnliche Matrizen haben nicht nur den gleichen Rang, sondern auch die gleiche Determinante:

Sei B = P−1AP ⇒ |B| = |P−1AP | = |P−1||A||P | = |P |−1|A||P | = (|P |−1|P |)|A| == |A|.

Beispiel:

A =

1 2

3 4

, B =

1 1

0 1

−1 1 2

3 4

1 1

0 1

=

−2 −4

3 7

∼2 A

Es ist rg(A) = 2 = rg(B), |A| = 1 · 4− 2 · 3 = −2 = −2 · 7 + 3 · 4 = |B|.

Was bleibt bei ahnlichen Matrizen noch gleich? Im obigen Beispiel sieht man:

1 + 4 = 5 = −2 + 7 = Summe der Hauptdiagonalelemente.

Definition 18.3 Spur einer Matrix

Unter der Spur einer quadratischen Matrix versteht man die Summe ihrer Hauptdiagonalele-

mente: sp(A) :=∑n

i=1 aij.

Satz 18.5 Spureigenschaften

(i) sp(AB) = sp(BA)

(ii) Ahnliche Matrizen haben die gleiche Spur.

(iii) Die Spur eines linearen Operators ist die Spur irgendeiner Matrixdarstellung.

111

Beweis von (i):

Sei A = (aij) und B = (bij). Dann ist AB = (cik) mit cik =∑n

j=1 aijbjk und sp(AB) =∑

i cij =∑i

∑j aijbji.

Nun sei BA = (djk) mit djk =∑n

i=1 bjiaik. Dann ist sp(BA) =∑

j djj =∑

j

∑i bjiaij =∑

i

∑j aijbji = sp(AB).

Beweis von (ii):

Ist A ∼2 B ⇒ ∃P mit B = P−1AP ⇒ sp(B) = sp(P−1AP ) = sp(APP−1) = sp(A).

Zusammenfassend gilt folgender

Satz 18.6 Tabelle von Ahnlichkeitsinvarianten

A sei eine quadratische Matrix

Invariante Beschreibung

Determinante |A| = |P−1AP |

Rang rg(A) = rg(P−1AP )

Spur sp(A) = sp(P−1AP )

Defekt def (A) = def (P−1AP )

Invertierbarkeit A invertierbar ⇔ P−1AP invertierbar

Diese Liste von Ahnlichkeitsinvarianten wird noch erweitert werden!

Weil die Determinante eine Ahnlichkeitsinvariante ist, kann man jedem linearen Operator

T : V → V eine Zahl (einen Skalar) zuordnen:

Wahle irgendeine Matrixdarstellung [T ] von T und bilde det([T ]) = |[T ]|. Weil alle Matrixdar-

stellungen von T untereinander ahnlich sind, haben alle ihre Determinanten den gleichen Wert.

Diesen bezeichnet man als die Determinante von T .

Definition 18.4 Determinante eines Operators

T : V → V sei ein linearer Operator eines endlich–dimensionalen Vektorraumes V .

Unter der Determinante eines linearen Operators T versteht man die Determinante der Ma-

trixdarstellung [T ] von T bezuglich irgendeiner Basis B von V .

det(T ) = |T | = det([T ]B) = |[T ]B| fur irgendeine Basis B

Wie fur Matrizen liefert auch die Determinante eines Operators ein Invertierbarkeitskriterium.

112

Satz 18.7 Invertierbarkeitskriterium fur lineare Operatoren

Ein linearer Operator T eines endlich dimensionalen Vektorraumes ist genau dann invertierbar,

wenn |T | 6= 0.

Beweis:

T : V → V invertierbar ⇔ f bijektiv ⇔ rg(f) = n⇔ rg([f ]) = n⇔ |[f ]| 6= 0.

Zusammenfassend erhalt man folgende Liste von Invertierbarkeitskriterien:

Satz 18.8 Invertierbarkeit linearer Operatoren

V sei ein n−dimensionaler Vektorraum und T : V → V ein linearer Operator.

⇔ T injektiv ⇔ T surjektiv ⇔ ker(T ) = {0} ⇔

⇔ def(T ) = 0⇔ rg(T ) = n⇔ def(T ) 6= 0

113

18.3 Affine Abbildungen (Einschub)

Haufig benutzte Abbildungen (besonders in der Computergrafik) von der anschaulichen Ebene

auf sich selbst sind: Parallelverschiebung, Parallelprojektion, Zentrische Streckung, Spiegelung,

Drehung um einen Punkt M . Sie erzeugen entweder kongruente oder zumindest ahnliche Figuren

der Ausgangsfigur. Was ist allen diesen Abbildungen gemeinsam? (Siehe Beispiel 1 und 2)

Es gibt aber auch Vorschriften (z.B. Scherungen und Kollineationen), die nicht nur die Große,

sondern auch die Gestalt einer Figur ganzlich andern (siehe Beispiel 3).

Es sei daran erinnert, dass man die Punkte der anschaulichen Ebene sowohl als Elemente eines

Vektorraumes (mit den Operationen des Aneinanderfugens nach der Parallelogrammregel und

des Vervielfachens), als auch als elemente eines affinen Raumes auffassen kann.

Alle oben genannten Abbildungen sind, aufgefaßt als Abbildungen eines Vektorraumes, nicht

linear, denn das Bild des Nullvektors 0 ist i.a. verschieden von 0.

f(0) = 0 war aber eine notwendige Bedingung fur die Linearitat einer Abbildung f .

Eine Ausnahme bilden die Drehungen um 0 selbst.

Sie stehen aber mit linearen Abbildungen in einem engen Zusammenhang:

Jede ”Punktabbildung“ α : IR2 → IR2 mit α(P ) = P ∗”induziert“ eine ”Vektorabbildung“

α durch folgende Fortsetzung:

Sei ~u ein ”geometrischer“ Vektor mit Anfangspunkt P und Endpunkt Q, also ~u = ~PQ, dann sei

α(~u) := α( ~PQ) = α(~P )α( ~Q).

Die folgenden Abbildungen illustrieren diese von der Abbildung α induzierte Abbildung α.

114

Parallelprojektion in Richtung ~v:

~a = ~AD

α(~a) :=−−−−−−−→α(A)α(D)

α(~a +~b) = α(~a) + α(~b)

α(λ · ~a) = λ · α(~a)

⇒ α linear ⇒ α affin

parallel bleibt parallel

Teilverhaltnis invariant

Gerade bleibt Gerade

115

α: Zentrische Punktstreckung um Z mit Streckungsfaktor k = 2

α : IR2 → IR2 (IR2 affiner Punktraum)

α(P + Q) 6= α(P ) + α(Q)⇒ α nicht linear (IR2 als Vektorraum)

α ”induziert“ eine Abbildung f : IR2 → IR2 vom Vektorraum IR2 auf sich selbst:

Sei ~x = ~AB ein Vektor aus IR2 mit Anfangspunkt A und Endpunkt B.

Die durch die Abbildung α induzierte Abbildung f ist definiert durch:

f(~x) = f( ~AB) :=−−−−−−−→α(A)α(B)

Es gilt: f(~a +~b) = f(~a) + f(~b)⇒ f ist linear⇒ α ist eine lineare Abbildung

f(λ · ~a) = λ · f(~a)

116

Scherung

Parallelogramm bleibt Parallelogramm

Winkel verandert, Große verandert

117

α: Kollineation

118

Verallgemeinerung auf abstrakte Vektorraume und affine Raume

Gegeben sei ein Vektorraum V uber dem Korper K. U ,W seien zwei Teilraume von V (U,W / V ).

A und B seien zwei affine Raume in V mit Richtung U bzw. W , P sei ein Punkt von A mit

Ortsvektor p = ~OP , Q ein Punkte von B mit Ortsvektor q = ~OQ, also

A = p + U und B = q + W .

(Es kann auch A = B und B = A = V sein!) α sei eine Abbildung vom affinen Raum A auf den

affinen Raum B.

Ist X ein Punkt von A mit Ortsvektor X dann ist x = p + u⇔ u = x− p = ~PX.

Mit α kann durch die Festsetzung

α(u) = α( ~PX) :=−−−−−−−→α(P )α(X) ∈W

α(x− p) = α(x)− α(p) ∈W

eine Abbildung von der Richtung U auf die Richtung W definiert werden. α heißt die von der

Abbildung α induzierte Abbildung der Differenzraume.

Definition 18.5 :

Eine Abbildung α : A → B heißt affin, wenn die durch α induzierte Abbildung der

Differenzraume eine lineare Abbildung ist.

Geometrische Beispiele:

Die vorhergehenden Beispiele zeigen:

Parallelprojektionen, Scherungen, Parallelverschiebungen, Drehungen, Zentrische Streckungen,

Schubspiegelungen sind affine Abbildungen.

Kollineationen sind keine affinen Abbildungen.

119

Beobachtung: Affine Abbildungen konnen die

(i) Große und Gestalt von Figuren invariant lassen (Kongruenzabbildungen: Drehungen,

Parallelverschiebungen ...)

(ii) Große verandern und die Gestalt invariant lassen (Ahnlichkeitsabbildungen: Zentrische

Streckung, Schubspiegelung)

(iii) Große und Gestalt verandern (Scherungen)

ein arithmetisches Beispiel: K sei ein Korper

A = Kn , B = Km (Beachte: Jeder Vektorraum ist auch ein affiner Raum)

C ∈ Km·n, ~d ∈ Km

α : Kn → Km mit

α(~x) := C~x + ~d

Sei: ~x = ~p + u⇔ u = ~x− ~p. Die von α induzierte Abbildung α ist definiert durch:

α(u) : = α(~x− ~p) =−−−−−−→α(~p)α(~x) = α(~x)− α(~p) =

= C~x + ~d− (C~p + ~d) = C~x− C~p = C(~x− ~p) = Cu

Also: α(u) = C · u, das ist eine lineare Abbildung, also ist α eine affine Abbildung.

α selst ist fur ~d 6= ~0 nicht linear: α(~0) = C ·~0 + ~d = ~d 6= ~0

Spater werden wir sehen, dass sich jede affine Abbildung so darstellen lasst.

2 triviale Beispiele:

(a) Die identische Abbildung ist eine affine Abbildung:

id : A→ A, A = p + U, x ∈ A⇔ x = p + u⇔ u = x− p

idA(x) = x⇒ id(u) = id( ~PX) =−−−−−−−→id(p)id(x) = ~px = x− p = u⇔ id(~u) =

id(u) ∀u ∈ U ⇒ id = idu ⇒ id linear ⇒ idA ist affin.

(b) Die konstante Abbildung ist eine affine Abbildung:

α : A→ B, C ∈ B, x ∈ A

α(u) := c

α(u) = α( ~PX) =−−−−−−−→α(P )α(X) = c− c = 0 ∀u ∈ U ⇒ α = 0 (Nullabbildung)

⇒ α linear ⇒ α affin.

120

(c) Jede lineare Abbildung ist affine, aber nicht umgekehrt:

α : V →W V,W sind auch affine Raume mit Richtung V bzw. W .

α sei linear.

α(u) = α( ~PX) =−−−−−−−→α(P )α(X) = α(x)− α(p) = α(x− p) = α(u) ∀u ∈ V ⇒

α = α⇒ α linear ⇒ α affin.

Affine Abbildungen zwischen affinen Raumen sind also solche Abbildungen, die lineare Abbil-

dungen zwischen den Differenzenraumen hervorrufen. Umgekehrt ist durch die Vorgabe einer

linearen Abbildung und das Bild eines Punktes eine affine Abbildung eindeutig festgelegt.

Satz 18.9 A und B seien zwei affine Raume mit Richtungen (Differenzenraume) U bzw. W . f

sei eine lineare Abbildung von U nach W und P ∈ A und Q ∈ B mit Ortsvektor q.

Sei X ∈ A mit Ortsvektor x⇔ x = p + u⇔ u = x− p ∈ U .

Es gibt genau eine affine Abbildung α : A → B mit α(p) = q und f als induzierte lineare

Abbildung, namlich:

α(x) = f(x− p) + q = f(x− p) + α(p)

Kurz: Affine Abbildung = Lineare Abbildung + entsprechendes PunktepaarBeweis:

1. Dieses α bildet p auf q ab: α(p) = f(p− p) + q = f(0) + q = 0 + q = q.

2. Die von α induzierte Abbildung α ist f : α(u) = α(x − p) = α(x) − α(p) = α(x) − q = f(x − p) = f(u)

∀u ⇒ α = f .

3. α ist eindeutig bestimmt:

Seien α1, α2 zwei”solche“ Abbildungen ⇒ α1(x) − q = α1(x) − α1(p) = f(x − p) = α2(x) − α2(p) =

α2(x)− q ⇒ α1(x) = α2(x) ∀x ∈ A ⇒ α1 = α2.

Nun ist in einem n−dimensionalen Raum eine lineare Abbildung durch die Bilder von n l.u.

Vektoren eindeutig bestimmt (siehe 17.10).

Nach dem vorhin Gesagten ist daher eine affine Abbildung auf einem n−dimensionalen

affinen Raum durch die Bilder von n + 1 Punkten P0, . . . , Pn in allgemeiner Lage d.h.,

~P0P1, . . . , ~P0Pn l.u. eindeutig festgelegt.

Das heißt z.B. fur die Ebene: Kennt man die Bilder von 3 Punkten in allgemeiner Lage, so kennt

man die Bilder aller Punkte!

121

Beispiel: Bestimme eine Vektorgleichung jener ”affinen“ Abbildung α : K3 → K4, die durch

folgende ”Punktepaare“ gegeben ist:

P0(1, 0, 0)→ Q0(−1,−1, 3,−2)

P1(1, 1, 0)→ Q1(−1, 0,−2, 0)

P2(1, 1, 1)→ Q2(1,−1, 2,−3)

P3(0, 1, 1)→ Q3(0, 1,−1,−2)

Ist x ∈ K3 = p + u

α(x) = f( u︸︷︷︸x−p

) + α(p)︸︷︷︸=q

→ α(p0) = (−1,−1, 3,−2)

α(~x) = t(~x− ~p) + α(~p)

Nur mehr notwendig: λ1, λ2, λ3u1

u2

u3

= λ1

0

1

0

+ λ2

0

1

1

+ λ3

−1

1

1

LGS in λ1, λ2, λ3

0 0 −1 u1

1 1 1 u2

0 1 1 u3

1 1 1 u2

0 0 −1 u1

0 1 1 u3

1 1 1 u2

0 1 1 u3

0 0 −1 u1

1 1 0 u1 + u2

0 1 0 u1 + u3

0 0 +1 −u1

1 0 0 u2 − u3

0 1 0 u1 + u3

0 0 1 −u1

= λ1

= λ2

= λ3

f

u1

u2

u3

= (u2 − u3)

0

1

−5

2

+ (u1 + u3)

2

0

−1

−1

− u1

1

2

−4

0

=

u1 + 2u3

−2u1 + u2 − u3

3u1 − 5u2 + 4u3

u1 + 2u2 − 3u3

122

x = p + ux1

x2

x3

=

1

0

0

+

u1

u2

u3

=⇒

u1 = x1 − 1

u2 = x2

u3 = x3

α

x1

x2

x3

= f

x1 − 1 = u1

x2 = u2

x3 = u3

=

−1

−1

3

−2

+

x1 − 1 + 2x3 − 1

−2x1 + 2 + x2 − x3 − 1

3(x1 − 1)− 5x2 + 4x3 + 3

x1 − 1 + 2x3 − 3x3 − 2

=

=

1 0 2

−2 1 −1

3 −5 4

1 2 −3

·

x1

x2

x3

+

−2

1

0

−3

Geometrische Charakterisierung von affinen Abbildungen

1. Eine affine Abbildung α ist ”Unterraum-treu“ (Unterraume werden auf Unterraume ab-

gebildet!) Eigenschaft, Unterraum zu sein, ist eine Invariante von affinen Abbildungen.

Kurz: Ebene bleibt Ebene bzw. Gerade bleibt Gerade (bzw. Degeneration auf einen

Punkt!) Kollineare Punkte werden auf kollineare Punkte abgebildet.

Beweis: A = {x|x = p + U}, α : A→ B = {x|x = q + W}, U, W / V

α(A) = {y|y = α(x)} = {y|y = α(p)︸︷︷︸∈B

+f(U)}

Das ist eine Punktmenge der Form: {q + Teilraum von W}, also ein affiner Unterraum von B.

2. Eine affine Abbildung is parallelentreu. D.h.: A1||A2 ⇒ α(A1)||α(A2)

Beweis (im KV): α(A) = {y|y = α(p) + f(U)}, parallel heißt U1 ⊆ U2 oder U2 ⊆ U1

3. Eine injektive affine Abbildung ist teilverhaltnistreu.

D.h. ist λ = TV (a, x, b)⇒ λ = TV (αa, αx, αb) fur a 6= x 6= b

Beweis: Es ist αa 6= αx 6= αb. Ist λ = TV (a, x, b)⇔ x− a = λ(b− x)

⇒ αx− αa = f(x− a) = f(λ(b− x)) = λf(b− x) = λ(αb− αx)

⇒ TV (αa, αx, αb) = λ.

Insbesondere: Mittelpunkt bleibt Mittelpunkt.

123

Es gilt auch die Umkehrung: Eine Abbildung α : A → B, die kollineare Punkte auf

kollineare Punkte abbildet und dabei das Teilverhaltnis invariant laßt, muss eine affine

Abbildung sein!

Satz 18.10 Eine Abbildung ist genau dann affin, wenn sie Geraden auf Geraden abbildet und

teilverhaltnistreu ist.

Affine Abbildungen sind sehr verwandt zu linearen Abbildungen:

(i) α bijektiv ⇔ die von α induzierte lineare Abbildung α ist bijektiv.

(ii) Die inverse Abbildung einer bijektiven affinen Abbildung ist wieder affin.

(iii) Die Hintereinanderausfuhrung von affinen Abbildungen ist wieder affin.

(iv) Die identische Abbildung ist eine affine Abbildung.

Satz 18.11 Definition und Satz

Eine Affinitat ist eine bijektive affine Abbildung.

Die Affinitaten eines affinen Raumes auf sich selbst bilden eine nichtabelsche Gruppe.

Definition 18.6 Eine Affinitat α : A → A heißt Translation, wenn die induzierte lineare

Abbildung die identische Abbildung ist.

”Formel“ fur Translation: V sei ein Vektorraum uber K und U / V .

A = {x|x = p ∗ u, u ∈ U}

α(u) = α(x− p)︸︷︷︸id(~x−~p)=~x−~p

:= α(x)− α(p)

⇒ x− p = α(x)− α(p)

α(x) = x + α(p)− p︸︷︷︸=:~v

α(x) = x + v

(i) Translationen sind bijektiv, weil idA bijektiv!

(ii) idA ist Translation

(iii) Inverse einer Translation ist wieder eine Translation, weil id−1A = idA.

(iv) Zusammensetzung von Translationen ist wieder Translation, weil idA ◦ idA = idA

124

Satz 18.12 Die Translationen bilden eine abelsche Untergruppe in der Gruppe aller Affinitaten

eines affinen Raumes.

Affine Geometrie (= Menge aller Satze, die die Inzidenz betreffen) kann aufgefaßt werden als

Menge aller jener Eigenschaften, die bezuglich der Affinitaten invariant bleiben.

(FELIX) KLEIN’sche Erlanger Programm (1905):

Geometrie ordnen nach Invarianten gewisser Abbildungsgruppen.

Affine Geometrie = Invarianten gegenuber der Affinitatsgruppe.

Euklidsche Geometrie = Invarianten gegenuber der Bewegungsgruppe (Kongruenzabbildungen)

Projektive Geometrie = Invarianten gegenuber der Gruppe der projektiven Abbildungen.

Matrixdarstellung von affinen Abbildungen

Wir beschranken uns auf affine Abbildungen α : A → A eines affinen Raumes A in sich. Es sei

dim A = n. U sei die richtung von A (der Differenzenraum) also A = p + U . Dann ist auch

dim U = n. Da die affinen Abbildungen in sehr enger Beziehung zu den linearen Abbildungen

der Differenzenraume stehen, wird man erwarten, dass man auch affinen Abbildungen durch

Matrizen beschreiben wird konnen.

Um zu diesen Matrizen zu kommen, muss man in A ein Koordinatensystem einfuhren. Dann

kann man die ”Punkte“ des affinen Raumes durch n−Tupel und die affine Abbildung als eine

Abbildung zwischen diesen n−Tupeln beschrieben.

Sei S = (P0, P1, . . . , Pn) ein Koordinatensystem von A. Dann sind die Vektoren u1 := ~P0P1, . . . , un

:= ~P0Pn l.u., also eine Basis B = {u1, . . . , un} der Richtung U : U =< u1, . . . , un >.

Ist α affin, dann ist α : U → U mit α(u) = α( ~PX) =−−−−−−−→α(P )α(X) eine lineare Abbildung von U

in U . Daher gibt es nach 8.1 (??) genau eine (n× n)−Matrix C ∈ Kn·n mit

[α(u)]B = C · [u]B ∀u ∈ U

Damit erhalt man mit x = p + u⇔ u = x− p

[α(u)]B =[α( ~PX)

]B

=[−−−−−−−→α(P )α(X)

]B

= [α(X)− α(P )]S =

= [α(x)]S − [α(p)]S = C · [u]B = C · [x− p]B = C · [x]S − C · [p]S

125

Aus den unterstrichenen Teilen erkennt man

[α(X)]S = C · [X] + [α(P )]− C · [P ]︸︷︷︸=: ~c ∈ Kn·n

= C · [X]S + ~c

Damit: Bezuglich eines Koordinatensystems S laßt sich eine affine Abbildung α : A→ A durch

eine (n× n)−Matrix und ein n−Tupel beschreiben (durch ein Matrix-Vektor Paar). Umge-

kehrt ist jede so beschriebene Abbildung affin.

α : A→ A ist affin ⇔ [α(X)] = C · [X] + ~c mit ~c = [α(P )]− C · [P ]

C ist dabei die Matrixdarstellung von der durch die von α induzierten linearen Abbildung

bezuglich BS .

α : A→ A ist affin ↔

x′1...

x′n

=

c11 · · · c1n

......

cn1 · · · cnn

x1

...

xn

+

c1

...

cn

α ist bijektiv ⇔ α bijektiv ⇔ C invertierbar ⇔ |C| 6= 0.

Satz 18.13 (Matrixdarstellung von affinen Abbildungen)

Eine Abbildung α : A → A eines n−dimensionalen affinen Raumes ist genau dann affin, wenn

sie sich bezuglich eines Koordinatensystems S durch ein Matrix-Vektorpaar beschreiben lasst,

d.h., wenn es eine (n× n)−Matrix C und ein n−Tupel ~c gibt, mit:

[α(X)]S = C · [X]S + ~c

α ist genau dann eine Affinitat (regulare affine Abbildung), wenn |C| 6= 0.

Ist ~c = ~0, dann ist α eine lineare Abbildung.

So ein Matrix-Vektorpaar ~y = C · ~x + ~c mit |C| 6= 0 kann aber auch als Beschreibung einer

affinen Koordinatentransformation angesehen werden:

Ein Wechsel des Koordinatensystems in A ruft auch einen Wechsel der Koordinaten eines Punk-

tes X ∈ A hervor.

S = (P0, P1, . . . , Pn) ”altes“ Koordinatensystem

S′ = (P ′0, P

′1, . . . , P

′n) ”neues“ Koordinatensystem

[X]S . . . ”alte“ Koordinaten des Punktes X

[X]′S . . . ”neue“ Koordinaten des Punktes X.

126

Die neuen Punkte P ′0, . . . , P

′n lassen sich eindeutig durch die alten ausdrucken.

P ′0 = P0 +

∑ni=1 ti ~P0Pi = P0 +

∑ni=1 ti(pi − p0)

P ′j = P ′

0 +∑n

i=1 tij ~P0Pi = P ′0 +

∑ni=1 tij(pi − p0) j = 1, . . . , n

~A := (ty, . . . , tn)t;

T := (tij) Beachte: T ist schon transponiert definiert!

Nun ist S′ = (P ′0, P

′1, . . . , P

′n) genau dann ein Koordinatensystem, wenn

{~P ′0P

′1, . . . ,

~P ′0P

′n

}l.u.

ist, also genau dann, wenn obiges T regular ist, also |T | 6= 0 ist.

Nach Rechnung ergibt sich fur die alten und neuen Koordinaten des Punktes X:

[X]S = T · [X]S′ + ~t

Kurz: alte Koordinaten = Transformationsmatrix · neue Koordinaten.

Dabei druckt T die neuen Punkte durch die alten Punkte aus.

Weil T regular ist, existiert T−1 und man kann auch die neuen Koordinaten durch die alten

ausdrucken:

[X]S − ~t = T · [X]S′ ⇒ [X]S′ = T−1 · ([X]S − t) = T−1 [X]S −T−1t

Zusammenfassung:

(a) Ein Matrix-Vektorpaar (C,~c) mit einer regularen (n×n)−Matrix C und ~y = C ·~x+~c,|C| 6= 0

kann man auffassen als Beschreibung einer

(i) affinen Koordinatentransformation in einem n−dimenstionalen affinen Raum

A. Dann sind ~y und ~x Koordinatenvektoren ein und desselben Vektors bezuglich

zweier Koordinatensysteme.

(i) regularen affinen Abbildungen von einem affinen Raum A in sich selbst. Dann

sind ~y und ~x die Koordinatenvektoren zweier Punkte (Urbild und Bild) bezuglich

eines Koordinatensystems.

(b) Eine regulare Matrix C allein und ~y = C~x kann man auffassen als Beschreibung einer

(ii) Basistransformation in einem n−dimenstionalen Vektorraum V . Dann sind ~y und

~x Komponenten ein und desselben Vektors bezuglich zweier Basen oder

(ii) bijektiven linearen Abbildung (Automorphismus) f : V → V . Dann sind ~y

und ~x die Komponenten zweier Vektoren (Bild und Urbild) bezuglich einer Basis.

127

Deutung als Abbildung f : K2 → K2

Deutung als Basiswechsel B = {b1, b2} → {b′1, b′2}

C =

1 −1

1 2

128

Beispiel 1: Gegeben sei die regulare Matrix C =

1 −1

1 2

: ~y = C · ~x

B = {b1, b2} sei die alte Basis von V

B′ = {b′1, b′2} sei gegeben durch

(∗)b′1 = b1 + b2

b′2 = −b1 + 2b2

⇒Ubergangsmatrix

|C| = 3 6= 0C =

1 −1

1 2

Weil |C| 6= 0, ist B′ = {b′1, b′2} wieder eine Basis vom K2.

1. Deutung von (∗) als Basistransformation:

[X]alt = C [X]neu x1

x2

=

1 −1

1 2

x′1

x′2

⇔ x1 = x′1 − x′2

x2 = x′1 + 2x′2

[X]neu = C−1 [X]alt x′1

x′2

=13

2 1

−1 1

x1

x2

⇔ x′1 = 23x1 − 1

3x2

x′2 = −x13 + x2

3

2. Deutung von (∗) als (bijektive) lineare Abbilfung f : V 2 → V 2:

f(b1) = b′1Durch die Bilder der Basisvektoren

ist f eindeutig bestimmt!

f(b2) = b′2

[f(b1)]B′ =

1

1

[f(b2)]B′ =

−1

2

⇒[f ]B′B =

1 −1

1 2

und

[f(x)]B′ =

1 −1

1 2

x1

x2

=

x1 − x2

x1 + 2x2

129

19 Eigenwerte und Eigenvektoren

In diesem Kapitel untersuchen wir im Anschauungsraum Vektoren, deren Richtung unter einer

linearen Abbildung nicht verandert wird. Wie alle invarianten Großen spielen sie fur die Theorie

und die Anwendungen eine bedeutende Rolle. Ohne Ubertreibung kann man sagen, daß ohne

diese invarianten Vektoren ein weiterer Ausbau der Linearen Algebra nicht moglich ist. Wieder

verallgemeinern wir die anschauliche Invarianz der Richtung auf abstrakte Vektorraume.

19.1 Grundlegende Eigenschaften

Bildvektor und Urbildvektor eines linearen Operator T : V → V stehen normalerweise in keiner

geometrischen Beziehung zueinander.

Oft gibt es jedoch Vektoren, die mit ihrem Bildvektor kollinear, also nur skalare Vielfache von-

einander sind. Gerade sie erweisen sich als nutzlich bei der Beschreibung von Schwingungen,

chemischen Reaktionen, genetischen und okonomischen Vorgangen. Besonders bedeutsam sind

sie fur die Vereinfachung von Beschreibungen von Punktmengen in der Geometrie und fur die

Vereinfachung von Matrixdarstellungen bzw. von Matrizen.

Definition 19.1 1. Abbildungstheoretische Formulierung:

V sei ein Vektorraum uber K und T : V → V ein linearer Operator auf V .

(i) Ein Eigenvektor (eigenvector, EV) des linearen Operators T ist ein vom Nullvektor ver-

schiedener Vektor x ∈ V , dessen Bild T (x) ein skalares Vielfaches vom Urbild x ist.

Symbolisch:

x EV von T⇔ x 6= 0 ∧ ∃λ ∈ K : T(x) = λx

Dabei heißt der Skalar λ der zum Eigenvektor x gehorige Eigenwert von T .

(ii) Ein Eigenwert (eigenvalue, EW) des linearen Operators T ist ein Skalar λ, zu dem es

einen vom Nullvektor verschiedenen Vektor x gibt, dessen Bild T (x) gerade das λ−fache

130

von x ist.

λ EW von T⇔ ∃x 6= 0 : T(x) = λx

Dabei heißt der Vektor x ein zum EW λ gehoriger Eigenvektor von T .

(iii) Der Eigenraum ETλ von T zum EW λ ist die Menge aller Eigenvektoren von T zum

Eigenwert λ, zu der noch der Nullvektor 0 hinzugenommen wird. Damit ist der Eigenraum

ETλ ein Teilraum von V .

2. Matrizentheoretische Formulierung:

A sei eine quadratische n× n− Matrix uber dem Korper K.

(iv) Ein Eigenvektor x von A ist ein n−Tupel ~x 6= ~0, zu dem es einen Skalar λ ∈ K gibt,

mit A~x = λ~x. λ heißt der zum Eigenwert ~x gehorige Eigenwert von A. Symbolisch:

λ EW von A⇔ ∃x 6= 0 : Ax = λx

x EV von A⇔ x 6= 0 ∧ ∃λ ∈ K : Ax = λx.

(v) Der Eigenraum EAλ von A zum EW λ ist die Menge aller Eigenvektoren A zum EW λ

von A einschließlich des Nullvektors ~0.

Beachte: EV und EW sind nur fur lineare Operatoren bzw. nur fur quadratische Matrizen er-

klart. EV und EW von Matrizen sind zugleich die EV und EW des von der Matrix A induzierten

linearen Operators TA : Kn → Kn mit TA(~x) = A~x.

Geometrische Deutung: Im IR2 bzw. IR3 sind die EV von T jene Vektoren, die durch T

gestreckt bzw. gestaucht werden, eventuell mit einer Orientierungsumkehr. Die EW entsprechen

den Streckungs-(Stauchungs-)faktoren.

Beispiel: ~x =(12

)ist EV zum EW λ = 3 von A =

3 0

8 −1

, denn

A~x =

3 0

8 −1

(12

)=

(36

)= 3 ·

(12

)= 3 · ~x

~x =(11

)ist kein EV von A, denn

A~x =

3 0

8 −1

(11

)=

(37

)6= λ ·

(12

).

Beispiel: T : P1 → P1 mit T (c0 + c1x) = (c0 − 2c1) + (c0 + 4c1)X

p(x) = −2 + x ist EV zum EW λ = 2 von T , denn T (−2 + x) = −4 + 2x = 2 · (−2 + x).

131

Wie erhalt man alle EW und EV eines Operators T?

a) Berechnung von EW und EV von n× n−Matrizen A:

A~x = λ~x⇔ A~x− λ~x = ~0⇔ A~x = λIn~x = ~0⇔ (A− λIn)~x = ~0 (25)

Der Eigenvektor ~x ist also eine nichttriviale Losung des homogenen, quadratischen Gleichungs-

system (A− λIn)~x = ~0, nach der Fredholm’schen Alternative muß daher

|A− λIn| = 0

gelten.

λ EW zum EV ~x von A⇔ |A− λIn| = 0

Was ist |A− λIn|? Fur (2× 2)−Matrizen gilt:

|A− λI2| =

∣∣∣∣∣∣ a11 − λ a12

a21 a22 − λ

∣∣∣∣∣∣ = λ2 − (a11 + a22) · λ + (a11a22 − a12a21) =

= λ2 − sp(A) · λ + |A|

|A− λI2| ist also ein Polynom 2. Grades in λ.

Allgemein ist die Determinante

|A− λIn| =

∣∣∣∣∣∣∣∣∣a11 − λ

a22 − λ

ann − λ

∣∣∣∣∣∣∣∣∣ = (−1)nλn − sp(A) · λ + . . . + |A| =: pA(λ)

ein Polynom n−ten Grades in λ. In der folgenden Definition verwenden wir X statt λ:

Definition 19.2 (i) Das charakteristische Polynom der n×n−Matrix A ist das Polynom

n−ten Grades in X, definiert durch

pA(X) := |A−XIn|.

Die Gleichung |A−XIn| = 0 heißt charakteristische Gleichung von A.

(ii) Das charakteristische Polynom pT (X) eines Operators T : V → V ist das charakteristische

Polynom irgendeiner Matrixdarstellung von T .

pT(X) := |[T]−XIn| = p[T](X)

132

Die Definition (ii) ist wegen des folgendes Satzes moglich:

Satz 19.1 Ahnliche Matrizen besitzen dasselbe charakteristische Polynom.

Beweis: Ist B ∼2 A ⇒ ∃ ein regulares P : B = P−1AP ⇒ pB(X) = |B − XIn| = |P−1AP − P−1XInP | =

|P−1(A−XIn)P | = |P |−1|A−XIn||P | = |P |−1 · |P | · |A−XIn| = |A−XIn| = pA(X).

Spur und Determinante einer Matrix treten als Koeffizienten im charakteristischen Polynom auf:

Satz 19.2 Koeffizienten des charakteristischen Polynoms

pA(X) = (−1)nXn − sp(A) ·Xn−1 + . . . + |A|.

Bemerkung:

Manchmal ist pA(X) definiert als |XIn −A|, es andern sich dadurch aber nur Vorzeichen.

Die Aquivalenzkette (25) liefert folgenden Satz:

Satz 19.3 Charakterisierung von EW und EV einer Matrix A

(i) Die EW λ der Matrix A sind genau die Nullstellen ihres charakteristischen Polynoms.

λ EW von A⇔ pA(λ) = 0

(ii) Die EV ~x von A zum EW λ sind genau die nichttrivialen Losungen des homogenen Systems

(A− λIn)x = 0.

(iii) Der Eigenraum EAλ zum EW λ der Matrix A ist der Nullraum der Matrix A− λIn.

EAλ = N(A− λIn) = ker(A− λIn)

Damit

dimEλ = def(A− λIn)

b) Berechnung von EW und EV von linearen Operatoren T : V→ V,dim(V) = n

T (x) = λx⇔ T (x)− λx = 0⇔ T (x)− λid(x) = 0⇔ (T − λid)(x) = 0 (26)

Ist [T ]B die Matrixdarstellung von T zur Basis B ⇒ [T (x)]B = [T ]B[x]B, also

λ EW von T ⇔ T (x) = λx⇔ [T (x)]B = [λx]B ⇔ [T ]B[x]B = λ[x]B (27)

133

also: λ EW von T ⇔ λ EW von [T ]B ⇔ λ Nullstelle von p[T ](X).

Da nach 18.3 alle Matrixdarstellungen untereinander ahnlich sind und ahnliche Matrizen dassel-

be charakteristische Polynom besitzen, genugt es zur Bestimmung der EW von T , irgendeine

Matrixdarstellung zu wahlen.

x EV von T zum EW λ ⇔ T (x) = λx ⇔ [T ]B[x]B = λ[x]B ⇔ [x]B ist EV zum EW λ der

Darstellungsmatrix [T ]B.

Zusammenfassend ergibt sich

Satz 19.4 Charakterisierung von EW und EV eines linearen Operators T

(i) Die EW eines linearen Operators T : V → V eines n−dimensionalen Vektorraumes sind

genau die Nullstellen des charakteristischen Polynoms irgendeiner Matrixdarstellung [T ].

(ii) Die EV von T : V → V zum EW λ sind genau jene Vektoren x, deren Koordinatenvektor

[x]B bezuglich einer Basis B von V EV der Darstellungsmatrix [T ]B zum EW λ sind.

(iii) Der Eigenraum ETλ zum EW λ des Operator T ist der Kern von T − λid.

ETλ = ker(T− λid)

Damit:

dimETλ = def(T− λid)

Insgesamt ergibt sich folgender Algorithmus zur Berechnung der EW und EV:

Schritt 1: Berechne irgendeine Matrixdarstellung [T ] von T

Schritt 2: Berechne die Nullstellen des charakteristischen Polynoms p[T ](X) : p[T ](X) = 0

Das ist ein Polynom n−ten Grades, fur große n ist die Berechnung fast hoffnungslos. Man

verwendet geeignete Approximationsverfahren (→ Numerische lineare Algebra)

Schritt 3: Zu jeder Nullstelle λ lose das homogene LGS: ([T ]− λIn)~x = ~0

Bemerkung: Eine n× n−Matrix A bzw. ein linearer Operator eines n−dimensionalen

Vektorraumes hat hochstens n EW und hochstens n l.u. EV.

Bemerkung: Die EW konnen komplex sein, auch von reellen Matrizen. Dann konnen sie auch

komplexe EV besitzen (deshalb benotigt man eine Theorie komplexer Vektorraume).

Eine komplexe n× n−Matrix hat nach dem Fundamentalsatz der Algebra stets n EW.

134

Satz 19.5 Ahnlichkeitsinvarianz von EW

Das charakteristische Polynom, die Eigenwerte und die Eigenraumdimension von Matrizen sind

Ahnlichkeitsinvarianten, d.h., ist B ∼2 A, dann gilt

(i) pB(X) = pA(X)

(ii) λ ist EW von A⇔ λ ist EW von B

(iii) dim EAλ = dim EB

λ

Beweis von (ii) und (iii):

(ii) λ ist EW von A ⇔ pA(λ) = 0 ⇔ pB(λ) = 0 ⇔ λ ist EW von B

(iii) dim EBλ = def(B − λIn) = n− rg(B − λIn) = n− rg(p−1(A− λIn) = n− rg(A− λIn) = def(A− λIn) =

dim EAλ .

Zusammenfassung der bisherigen Ahnlichkeitsinvarianten:

Tabelle der Ahnlichkeitsinvarianten

Invariante Beschreibung

Determinante det A = det(P−1AP )

Invertierbarkeit A invertierbar ⇔ P−1AP invertierbar

Rang rg(A) = rg(P−1AP )

Defekt def(A) = def(P−1AP )

Spur sp(A) = sp(P−1AP )

Charakteristisches Polynom det(A−XI) = det(P−1AP −XI)

Eigenwerte λ EW von A⇔ λ EW von P−1AP

Eigenraumdimension dim(EAλ ) = dim(EP−1AP

λ )

135

Satz 19.6 Eigenwert und Invertierbarkeit

(i) Eine quadratische Matrix ist genau dann invertierbar, wenn 0 kein EW von A ist.

(ii) Ein linearer Operator T : V → V eines n−dimensionalen Vektorraumes V ist genau dann

invertierbar, wenn 0 kein EW von T ist.

Beweis: (i) A invertierbar ⇔ |A| 6= 0.

Sei λ EW von A ⇒ pA(λ) = (−1)nλn + . . . + |A| = 0. Ware λ = 0 EW von A ⇒

pA(0) = |A| = 0 ⇒ A nicht invertierbar.

(ii) T invertierbar ⇔ [T ]B invertierbar fur irgendeine Basis B (Invertierbarkeit ist eine Ahnlichkeitsinvariante)

⇔ 0 ist kein EW von [T ]B ⇔ 0 ist kein EW von T .

Zusammenfassung der bisherigen Invertierbarkeitskriterien:

Tabelle der wichtigsten Invertierbarkeitskriterien

Die quadratische Der lineare Operator T eines

n× n−Matrix A n−dimensionalen Vektorraumes

ist genau dann invertierbar, wenn gilt

det(A) 6= 0 det(T ) 6= 0

rg(A) = n rg(T ) = n

def(A) = 0 def(T ) = 0

λ = 0 ist kein EW von A λ = 0 ist kein EW von T

A~x = ~0 ist nur trivial losbar ker(T ) = {0}

A~x = ~b ist fur alle ~b T (v) = w ist fur alle w

eindeutig losbar eindeutig losbar

A∗A ist invertierbar T ist injektiv

Spaltenvektoren von A sind l.u. T ist surjektiv

Zeilenvektoren von A sind l.u.

136

19.2 Minimalpolynom einer Matrix

Neben dem charakteristischen Polynom spielt das Minimalpolynom einer Matrix eine wichtige

Rolle, besonders fur das Vereinfachen von Matrizen. Beide stehen in einem engen Zusammen-

hang zueinander. Grundlage ist der folgende Satz:

Satz 19.7 von CAYLEY–HAMILTON

Jede quadratische n× n−Matrix A ist Nullstelle ihres charakteristischen Polynoms:

pA(A) = 0

Beispiel: A =(1 23 2

)pA(X) =

∣∣∣∣∣∣ 1−X 2

3 2−X

∣∣∣∣∣∣ = X2 − 3X − 4

X ↔ A,X2 ↔ A2, 4↔ 4In

A2 − 3A− 4E =(7 69 10

)− 3

(1 23 2

)− 4

(1 00 1

)=

(0 00 0

)Beweis: pA(X) = |A−XIn| = (−1)nXn + an−1X

n−1 + . . . + a1X + a0

Die Elemente der Adjungierten (A−XIn)adj sind Kofaktoren von A−XIn, also Determinanten

von (n − 1) × (n − 1)−Determinanten und damit Polynome in X vom Grad hochstens n − 1.

(A−XIn)adj = Bn−1Xn−1 + . . . + B1X + B0, wobei die Bi m× n−Matrizen uber K sind z.B.:

X2 X2 − 1 X2 + X + 1

X X2 + 1 X2 + 1

X + 1 X2 X2 − 1

= X2 ·

B2︷︸︸︷1 1 1

0 1 1

0 1 1

+ X

B1︷︸︸︷0 0 1

0 0 0

1 0 0

+

B0︷︸︸︷0 −1 1

0 1 1

1 0 −1

Fur die Adjungierte gilt:

(A−XIn) · (A−XIn)adj = |A−XIn| · In

(A−XIn)(Bn−1Xn−1 + . . . + B1X + V0) = ((−1)nXn + an−1X

n−1 + . . . + a1X + a0) · In

137

Ausmultiplizieren und Ordnen nach Potenzen von X ergibt:

−Bn−1 = (−1)nIn ·An

−Bn−2 + ABn−1 = an−1In ·An−1

−Bn−3 + ABn−2 = an−2In ·An−2

......

−B0 + AB1 = a1In ·A

AB0 = a0In ·In

−AnBn−1 = (−1)nAn

−An−1Bn−2 + AnBn−2 = an−1An−1

An−2Bn−3 + An−1Bn−2 = an−2An−2

...

−AB0 + A2B1 = anA

AB0 = a0In

0 = (−1)nAn + an−1An−1 + . . . + a1A + aoIn = pA(A).

Eine n× n−Matrix erfullt also zumindest eine Polynomgleichung n−ten Grades. Es kann aber

sein, daß eine Matrix A eine Polynomgleichung niedrigeren Grades erfullen kann.

Beispiel:

A =

2 0

0 2

: pA(X) = X2 − 4X + 2X,

pA(A) = A2 − 4A + 4I2 =

4 0

4 0

− 8 0

0 8

+

4 0

0 4

=

0 0

0 0

.

Es gilt aber auch fur p(X) = X − 2 : p(A) =

2 0

0 2

− 2 0

0 2

=

0 0

0 0

Definition 19.3 Minimalpolynom einer Matrix bzw. eines Operators

Das Minimalpolynom mA(X) der quadratischen n×n− Matrix A ist das eindeutig bestimmte

normierte Polynom kleinsten Grades mit mA(A) = 0.

Das Minimalpolynom mT (X) des linearen Operators T : V → V ist das normierte Polynom

kleinsten Grades mit mT(T) = 0.

138

Satz 19.8 Eigenschaften des Minimalpolynoms

(i) Das Minimalpolynom der Matrix A ist stets Teiler des charakteristischen Polynoms

mA(X)/pA(X).

Es teilt uberhaupt alle jene Polynome f(X), die A als “Nullstelle” besitzen, fur die also

f(A) = O. Also: f(A) = O ⇒ mA(X)/f(X). Umgekehrt gilt: pA(X)/[m(X)]n.

(ii) Das charakteristische Polynom und das Minimalpolynom einer Matrix A haben dieselben

unzerlegbaren Faktoren (irreduziblen Faktoren). Insbesondere haben sie dieselben Linear-

faktoren, daher gilt:

(iii) λ EW von A⇔ λ ist Nullstelle des Minimalpolynoms von A.

(iv) T : V → V invertierbar ⇔ Der konstante Koeffizient des Minimalpolynoms m(X) ist von

Null verschieden, als m(0) 6= 0.

(v) Sei T : V → V , linear und invertierbar und dim(V ) = n. Dann laßt sich T−1 als Polynom

hochstens (n− 1)−ten Grades in T darstellen.

139

Beweis:

(i) Sei f(X) ein Polynom mit f(A) = O. Nach dem Euklidischen Divisionsalgorithmus gibt es Polynome

q(X), r(X) mit f(X) = mA(X)q(X) + r(X) und r(X) = O ∨ [r] < [mA]. Ist r(X) = O ⇒ mA(X)/f(X).

Andernfalls erhalt man durch Einsetzen von X = A : f(A) = mA(A)q(A)+r(A). Wegen f(A) = O = m(A)

erhalt man r(A) = O. A ware also Nullstelle eines Polynoms von kleinerem Grad als der des Minimal-

polynoms, da ist ein Widerspruch zur Minimalitat, also muß r(X) = O sein und damit gilt: f(X) =

mA(X) · q(X) ⇔ mA(X)/f(X). Insbesondere gilt die Aussage fur f(X) = pA(X).

Zum Beweis von pA(X)/[mA(X)]n:

Sei mA(X) = Xr + m1Xr−1 + . . . + mr−1X + mr

Wir definieren folgende Matrizen:

B0 := I, B1 := A + m1I, B2 := A2 + m1A + m2I, . . . ,

Br−1 := Ar−1 + m1Ar−2 + . . . + mr−1 · I

und B(X) := Xr−1B0 + Xr−1B1 + . . . + XBr−2 + Br−1

Dann ist

(A−XI)B(X)=Xr−1AB0 + Xr−2AB1 + . . . + ABr−1 − (XrB0 + Xr−1B1 + . . . + XBr−1) =

=XrB0 −Xr−1(B1 −AB0)−Xr−2(B2 −AB1)− . . .−X(Br−1 −ABr−2) + ABr−1

=XrI −Xr−1m1I −Xr−2m2I − . . .−Xmr−1I −mrI = −m(X) · I

Nach dem Produktsatz fur Determinanten gilt:

|A−XI|| {z }pA(X)

· |B(X)|| {z }∈K[X]

= (−1)n[m(X)]n · |I| = (−1)n[mA(X)]n,

also teilt pA(X) die n−te Potenz des Minimalpolynoms.

(ii) Sei p(X) ein irreduzibles Polynom, das m(X) teilt. Aus p(X)/m(X)/pA(X) folgt dann p(X)/pA(X). Ist

p(X) ein Teiler von pA(X), dann folgt aus pA(X)/m(X)n, daß p(X)/[m(X)]n, wegen der Irreduzibilitat

von p(X) also auch p(X)/m(X).

(iii) λ EW von A ⇔ pA(λ) = 0 ⇔ (X−λ)/pA(X) ⇔ (X−λ)/mA(X) ⇔ mA(X) = (X−λ)q(X) ⇔ mA(λ) = 0.

(iv) T invertierbar ⇔ T nichtsingular ⇔ 0 kein EW von T ⇔ 0 keine Nullstelle von m[T ] ⇔ m(0) 6= 0.

(v) Sei mT (X) das Minimalpolynom von T ⇒ mT (X) = Xr + m1Xr−1 + . . . + mr−1X + mr mit r ≤ n.

T invertierbar ⇔ mr 6= 0.

mT (T ) = T r + m1Tr−1 + . . . + mr−1T + mrI ⇒ I = − 1

mr(T r−1 + m1T

r−2 + . . . + mr−1I) · T ⇒

T−1 = − 1

mr(Tr−1 + m1T

r−2 + . . . + mrI)

Fur Blockmatrizen und Blockdiagonalmatrizen vereinfacht sich die Berechnung des charakteris-

tischen Polynoms und des Minimalpolynoms.

140

Satz 19.9 Blockmatrizen

(i) Es sei M =

A1 B . . . C

A2 . . . D...

0. . . An

, wobei A1, A2, . . . , An quadratische Matrizen sind.

Das charakteristische Polynom der triangularen Blockmatrix M ist das Produkt der cha-

rakteristischen Polynome der Ai:

pM(X) := pA1(X) · pA2(X) · . . . · pAr(X)

(ii) Es sei M =

A1 0

A2

0. . . An

, wobei A1, A2, . . . , An quadratische Matrizen sind.

Das Minimalpolynom der Blockdiagonalmatrix M ist das kleinste gemeinsame Vielfache

der Minimalpolynome der Ai.

mM(X) = kgV(mA1(X), . . . ,mAr(X)).

Ist λ ein EW von A, dann ist λ Nullstelle von pA(X), also ist das Polynom pA(X) durch den

Linearfaktor X − λ teilbar. Ist λ eine k−fache Nullstelle von pA(X), dann ist pA(X) teilbar

durch (X − λ)k ⇒ pA(X) = (X − λ)k · q(X).

Satz 19.10 Vielfachkeit eines Eigenwertes

(i) Die algebraische Vielfachheit des EW λ von A ist die Anzahl der Linearfaktoren (X−λ)

im charakteristischen Polynom pA(X). Symbolisch:

algebraische Vielfachheit von X ist

k ⇔ (X − λ)k/pA(X)⇔ pA(X) = (X − λ)k · q(X).

(ii) Die geometrische Vielfachheit des EW λ von A ist die Anzahl der zu λ l.u. EV. Sym-

bolisch:

geometrische Vielfachheit von λ ist r⇔ dim(EAλ ) = r

(iii) Die geometrische Vielfachheit eines EW von der Matrix A bzw. des Operators T ist

nicht großer als seine algebraische Vielfachheit.

141

Beweis: Sei r die geometrische Vielfachheit des EW λ von f ⇒ dim(Eλ) = r ⇒ ∃r l.u. EV

{x1, . . . , xr} zum EW λ. Nach dem Basiserganzungssatz kann man sie zu einer Basis von V

erganzen:

V =< x1, . . . , xr, w1, . . . , wn−r > .

Bezuglich dieser Basis gilt:

f(x1) = λx1

f(x2) = λx2

...

f(xr) = λxr

f(wi) = ai1x1 + . . . + airxr + air+1w1 + . . . + ainwn−r i = 1, . . . , n− r

Die Matrixdarstellung von f sieht daher folgend aus:

[f ] = M =

λ 0 0

0... 0 A

0 0 λ

O B

Damit ist:

pM (X) = |M − XIn| =

∣∣∣∣∣∣∣∣∣λ−X

. . .

λ−X

∣∣∣∣∣∣∣∣∣ · |B − XIn−r| = (λ − X)r · |B − XIn−r| ⇒

(λ−X)r/pM (X)⇒ (X − λ)r/pM (X).

Ist k die algebraische Vielfachheit von λ⇒ pM (X) = (X −X)k · q(X)⇒ r ≤ k.

Das folgende Beispiel soll zeigen, daß jedes normierte Polynom bis auf das Vorzeichen als cha-

rakteristisches Polynom einer Matrix auftreten kann.

142

Beispiel: a0, a1, . . . , an−1 ∈ K = IR, IC.

Die Matrix F ∈ Kn·n der folgenden Form heißt FROBENIUS–Matrix.

F :=

0 1 0 . . . 0

0 0 1 . . . 0

0 0 0 . . . 1

−a0 −a1 −a2 . . . −an−1

(Manchmal ist sie auch transponiert definiert).

Das charakteristische Polynom pF (x) = (−1)n(a0 + a1x + a2x2 + . . . + an−1x

n−1 + xn) und ist

λ ein EW von F , dann ist

~x = (1λ, λ2, . . . , λn−1)

zugehoriger EV.

Wegen rg(F − λIn) = n− 1 ist die geometrische Vielfachheit eines jeden EW (unabhangig von

der algebraischen Vielfachheit) stets 1.

pf (X) =

∣∣∣∣∣∣∣∣∣∣∣∣

−1 1 0 . . . 0 0

0 −x 1 . . . 0 0

0 0 0 . . . −x 1

−a0 −a1 −a2 . . . −an−2 −an−1

∣∣∣∣∣∣∣∣∣∣∣∣= Entwicklung nach der letzten Zeile

= (−1)n+1(−a0) + (−1)n+2(−a1)(−x) + (−1)n+3(−a2)(−x2) + . . . +

+ (−1)2n−1(−an−2)(−x)n−2 + (−1)2n(−an−1 − x)(−x)n−1 =

= (−1)n (a0 + a1x + . . . + an−1xn−1 + xn)︸︷︷︸

f(x)∈K[x]

.

Zu jeden normierten Polynom f(x) ∈ K[x] gibt es eine Matrix, namlich die FROBENIUS–

Matrix aus den Koeffizienten des normierten Polynoms, das bis auf das Vorzeichen f(x) als

charakteristisches Polynom besitzt.

f(x) = x3 − 5x2 + 3x + 2⇔ Af =

0 1 0

0 0 1

−2 −3 5

Die Begleitmatrix Af eines normierten Polynoms f(x) = a0 + a1x + . . . + an−1x

n−1 + xn ist

die Frobenius–Matrix seiner Koeffizienten.

143

19.3 Eigenwerte und Eigenvektoren spezieller Matrizen

Satz 19.11 Eigenwerte von speziellen Matrizen

A,B seien quadratische n× n−Matrizen, T : V → V linear, dim(V ) = n

(i) AB und BA haben dieselben EW.

(ii) Die Transponier At hat dieselben EW wie W .

(iii) Die Eigenwerte einer Dreiecksmatrix sind die Elemente in der Hauptdiagonale.

(iv) Die Eigenwerte einer Blockdiagonalmatrix bzw. einer Block-Dreiecksmatrix (blocktrian-

gulare Matrix) sind die Eigenwerte der Matrizen in der Hauptdiagonalen.

(v) Eine hermitesche Matrix (A∗ = A) hat nur reelle Eigenwerte. Insbesondere sind alle

Eigenwerte einer symmetrischen Matrix reell.

(vi) Eine schiefhermitesche Matrix (A∗ = −A) hat nur rein imaginare Eigenwerte.

(vii) Eine unitare Matrix (A∗ = A−1) hat nur Eigenwerte mit Betrag 1, also nur EW der

Form: (λ = eiϕ cos ϕ + i sinϕ). Insbesondere hat eine orthogonale Matrix nur ±1 als

Eigenwerte.

(viii) Ist A eine regulare Matrix, dann hat A∗A nur positive, reelle Eigenwerte.

Beweis:

(i) 1. Sei λ = 0 ein EW von AB ⇔ AB singular ⇔ A oder B singular (weil das Produkt von regularen

Matrizen wieder regular ist) ⇔ BA singular ⇔ λ = 0 ist auch EW von BA.

2. Sei λ 6= 0 ein EW von AB ⇒ ∃~x 6= ~0 : AB~x = λ~x. Wir setzen mit diesem ~x : ~y := B~x. Dafur gilt:

A~y = A(B~x) = (AB)~x = λ~x 6= ~0 (weil λ 6= ~0 ∧ ~x 6= 0) ⇒ ~y = ~0 (sonst ware A~y = ~0). Dieses ~y 6= ~0 ist

EV von BA zum EW λ, denn: (BA)~y = BAB~x = B(AB~x) = B(λ~x) = λ(B~x) = λ~y. Also ist λ EW

von BA. Analog ist jeder von Null verschiedene EW von BA auch EW von AB.

(ii) At und A haben dieselben charakteristischen Polynome, denn: (A −XIn)t = At −XItn = At −XIn. Da

die Determinante beim Transponieren gleich bleibt, gilt:

pA(X) = |A−XIn| = |(A−XIn)t| = |At −XIn| = pAt(X).

Damit haben At und A auch dieselben EW.

144

(iii) Die Matrix A−XIn ist wieder eine Dreiecksmatrix:

A−XIn =

0BBBBBB@a11 −X a12 a1n

0 a22 −X a2n

.... . .

...

0 0 . . . ann −X

1CCCCCCADamit ist pA(X) = |A−XIn| = (a11 −X)(a22 −X) . . . (ann −X) ⇒ die EW sind gegeben durch

a11, a22, . . . , ann.

(iv) Induktionsanfang:

M :=

0@ A1 B

0 A2

1A , A1, A2 quadratische Matrizen

pM (X) =

˛˛ A1 −XI B

A2 −XI

˛˛ = |A1 −XI| · |A2 −XI| nach S 311.2.

Durch Induktion zeigt man die Behauptung.

(v) Sei λ EW von A = A∗ mit EV ~x : A~x = λ~x.

Beweis mittels der Verschiebungsformel:

λ < ~x, ~x >=< λ~x, ~x >=< A~x, ~x >=< ~x, A∗A~x >=< ~x, λ~x >= λ < ~x, ~x >⇒ λ = λ ⇒ λ ∈ IR.

(vi) Beweis mittels der Verschiebungsformel: λ < ~x, ~x >=< λ~x, ~x >< A~x, ~x >=< ~x, A∗~x >=< ~x, (−A)~x >=

− < ~x, A~x >= −λ < ~x, ~x >⇒ λ = −λ ⇒ λ imaginar.

(vii) Sei λ EW von A mit A∗ = A−1 mit EV ~x 6= 0 : A~x = λ~x.

λλ < ~x, ~x >=< λ~x, λ~x >=< A~x, A~x >=< ~x, A∗A~x >=< ~x, A−1A~x >=< ~x, ~x >.

Wegen < ~x, ~x > 6= 0 gilt damit λλ = 1 ⇒ |λ| = 1.

(viii) Sei ~x 6= ~0 EV von A∗A zum EW λ. Dann ist auch A~x 6= ~0 (sonst ware A singular), daher ist < A~x, A~x >

großer als 0.

λ < ~x, ~x >=< λ~x, ~x >=< A∗A~x, ~x >=< A~x, A~x >.

Weil < ~x, ~x > und < A~x, A~x > beide positive sind, ist auch λ positiv.

Satz 19.12 Lineare Unabhangigkeit von Eigenvektoren

T : V → V , linear, dim(V ) = n.

A sei eine quadratische n× n−Matrix.

(i) Eigenvektoren von T zu verschiedenen Eigenwerten sind l.u.

(ii) Eigenvektoren zu verschiedenen Eigenwerten einer hermiteschen (symmetrischen)

Matrix stehen orthogonal aufeinander.

(iii) Eine reelle, symmetrische Matrix hat mindestens einen reellen Eigenvektor!

145

Beweis:

(i) λ1, . . . , λm seien paarweise verschiedene EW von T (d.h., λi 6= λj fur i 6= j) und x1, . . . , xm die dazu-

gehorigen EV. Beweis durch vollstandige Induktion nach m:

m = 1 : x1 6= 0 als EV ⇒ x1 l.u.

Seien {x1, . . . , xr} l.u., dann sind auch {x1, . . . , xr+1} l.u.

Sei k1x1 + . . . + krxr + kr+1 + xr+1 = 0. (28)

a) Multiplikation von (28) mit λr+1 ergibt:

λr+1k1x1 + . . . + λt+1krxr + λr+1kr+1xr+1 = 0 (29)

b) Anwenden von T auf (28) ergibt:

T (k1x1 + . . . + krxr + kr+1xr+1 = T (0) = 0

k1T (x1) + . . . + krT (xr) + kr+1T (xr+1) = 0

k1λ1x1 + . . . krλrxr + kr+1λr+1xr+1 = 0 (30)

Subtrahiert man (29) von (30), so erhalt man (die letzten Summanden sind gleich und fallen weg):

k1(λ1 − λr+1)x1 + . . . + kr(λr − λr+1)xr = 0.

Weil {x1, . . . , xr} l.u. ⇒ ki(λi − λr+1) = 0 i = 1, . . . , r ⇒ ki = 0 fur i = 1, . . . , r, weil λi − λr+1 6= 0

nach Voraussetzung.

Aus (28) folgt dann: kr+1xr+1 = 0. Wegen xr+1 6= 0 (als EV) muß kr+1 = 0 sein. Damit ist (28) nur

moglich, wenn alle Koeffizienten ki = 0(i = 1, . . . , r + 1) ⇒ {x1, . . . xr, xr+1} l.u.

(ii) Sei A ~x1 = λ1 ~x1 und A ~x2 = λ2 ~x2 mit λ1 6= λ2 und At = A ⇒< A~x, ~y >=< x, A~y > (Verschiebungsformel).

Damit ist λ1 < ~x1, ~x2 >=< λ1 ~x1, ~x2 >=< A ~x1, ~x2 >=< ~x1, A ~x2 >=< ~x1, λ2 ~x2 >= λ2 < ~x1, ~x2 >

⇒ (λ1 − λ2· < ~x1, ~x2 >⇒< ~x1, ~x2 >= 0 (weil λ1 − λ2 6= 0).

(iii) Eine reelle symmetrische Matrix hat nur reelle EW. Aus λ reell ⇒ A−λIn reell und singular ⇒ ∃~x ∈ IRn :

(A− λIn)~x = ~0 ⇒ ~x reeller EV.

Satz 19.13 Basen aus Eigenvektoren

(i) Hat ein linearer Operator T : V → V mit n = dim(V ) verschiedene EW, dann hat V eine

Basis aus Eigenvektoren.

(ii) Die Summe von Eigenraumen zu verschiedenen Eigenwerten ist eine direkte:

Eλ1 + . . . + Eλr = Eλ1 ⊕ . . .⊕ Eλr

146

Beweis:

(i) n verschiedene EW ⇒ n l.u. EV. Je n l.u. Vektoren bilden eine Basis.

(ii) Sei x1 + x2 + . . . + xr = x′1 + x′2 + . . . + x′r mit xi, x′i ∈ Eλi

(x1 − x′1) + (x2 − x′2) + . . . + (xr − x′r) = 0 (31)

Ware xi−x′i 6= 0, dann waren xi−x′i EV zu λi(i = 1, . . . , r). (31) ist eine nichttriviale Linearkombination,

die 0 ergibt, also waren xi − x′i l.a. EV zu den verschiedenen EW λi, Widerspruch.

Die Eigenschaft der Orthogonalitat der Eigenvektoren einer Matrix ist nicht nur eine Spezialitat

der symmetrischen Matrizen. Im folgenden werden wir sehen, daß sie allen jenen Matrizen A

zukommt, die mit ihrer Transponiert–Konjugierten A∗ vertauschbar sind, wie z.B.:

A =

1 i

1 2 + 1

A∗ =

1 1

−i 2− i

AA∗ =

1 i

1 2 + i

1 1

−i 2− i

=

2 2 + 2i

2− 2i 6

A∗A =

1 1

−i 2− i

1 i

1 2 + i

=

2 2 + 2i

2− 2i 6

Definition 19.4 Normale Matrizen

Eine quadratische Matrix A heißt normal, wenn sie mit ihrer Konjugiert–Transponierten A∗

vertauschbar ist. A normal ⇔ AA∗ = A∗A

Satz 19.14 Beispiele normaler Matrizen

Jede unitare (orthogonale), hermitesche (symmetrische) und jede schiefhermitesche Matrix ist

normal.

Beweis:

A unitar ⇒ AA∗ = AA−1 = A−1A = A∗A

A hermitesch ⇒ AA∗ = AA = A∗A

A schiefhermitesch ⇒ AA∗ = A(−A) = −AA = (−A)A = A∗A

147

Alle unsere bisherigen Typen von Matrizen sind also Spezialfalle von normalen Matrizen. Es

gibt aber auch andere normale Matrizen (auch im Reellen), die nicht vom obigen Typ sind, z.B.

A =

1 2

−2 1

⇒ A∗ = At =

1 −2

2 1

und AAt = AtA =

5 0

0 5

Satz 19.15 Eigenschaften normaler Matrizen

A sei eine normale n× n−Matrix uber K = IC bzw IR, λ ∈ K,~x ∈ Kn.

(i) A~x = ~0⇔ A∗~x = ~0

(ii) Mit A ist auch A− λIn normal

(iii) A~x = λ~x⇔ A∗~x = λ~x.

Jeder EV von A ist auch EV von A∗, allerdings zum konjugiert–komplexen EW (im Reellen

also wieder zum gleichen EW).

(iv) Eigenvektoren von normalen Matrizen zu verschiedenen Eigenwerten sind orthogonal.

Beweis:

(i) Es gilt: < A~x, A~x >=< A∗~x, A∗~x >. Nach der Verschiebungsformel gilt:

< A~x, A~x >=< ~x, A∗A~x >=< ~x, AA∗~x >=< A∗~x, A∗~x >.

Also ist A~x = ~0 ⇔< A~x, A~x >=< ~0,~0 >= 0 =< A∗~x, A∗~x >⇔ A∗~x = 0 wegen (S4).

(ii) (A− λIn)(A− λIn)∗ = (A− λIn)(A∗ − λIn) = AA∗ − λA∗ − λA + λλIn = A∗A− λA− λA∗ + λλIn

(A− λIn)∗(A− λIn) = (A− λIn)(A− λIn) = A∗A− λA− λA∗ + λλIn = AA∗ − λA− λA + lλIn.

(iii) Sei A~x = λ~x ⇒ (A− λIn)~x = 0 ⇒ (wegen der Normalitat von A− λIn und (i))

(A∗ − λIn)~x = ~0 ⇒ A∗~x = λ~x.

(iv) Sei A ~x1 = λ ~x1 und A ~x2 = λ2 ~x2 mit λ1 6= λ2.

λ1 < ~x1, ~x2 >=< λ ~x1, ~x2 >=< A ~x1, ~x2 >=< ~x1, a∗ ~x2 >=< ~x1, λ2 ~x2 >= λ2 < ~x1, ~x2 >= λ2 < ~x1, ~x2 >.

Dann ist:

λ1 < ~x1, ~x2 > −λ2 < ~x1, ~x2 >= 0 ⇒ (λ1 − λ2)· < ~x1, ~x2 >= 0. Wegen λ1 6= λ2 ist dann < ~x1, ~x2 >= 0 ⇒

~x1 ⊥ ~x2.

148

Zusammenfassung der bisherigen Typen von quadratischen Matrizen:

Tabelle verschiedener quadratischer Matrizen A

Bezeichnung Definition Besonderheiten

A normal A∗A = AA∗ orthogonale EV zu verschiedenen EW

A symmetrisch At = A nur reelle EW

A hermitesch A∗ = A nur reelle EW

A schiefhermitesch A∗ = −A nur imaginare EW

A schiefsymmetrisch At = A−1 nur imaginare EW

A orthogonal At = A−1 nur ±1 als EW

A unitar A∗ = A−1 nur EW vom Betrag 1: λ = cos ϕ + i sinϕ

149

20 Linearitat in Skalarproduktraumen

Lineare Abbildungen sind vertraglich mit den Vektorraumoperationen. In Skalarproduktraumen

(V,<, >) wird man daruber hinaus an solchen Abbildungen interessiert sein, die zusatzlich noch

das Skalarprodukt respektieren bzw. eine “Verschiebungsformel” wie bei Matrizen erlauben. Da-

mit erhalt man weitere Losbarkeitsbedingungen fur lineare Operatorgleichungen.

20.1 Orthogonale und unitare Abbildungen

Es werden jene aus der Anschauung bekannten Abbildungen auf abstrakte Skalarproduktraume

verallgemeinert, die Abstand und Winkel invariant lassen, wie z.B. Drehungen und Spiegelungen.

Leider haben sie uber komplexe bzw. reelle Vektorraume ganzlich verschiedene Namen.

Definition 20.1 Orthogonale bzw. unitare Abbildungen

(V,<, >) und (W,<,>) seien Skalarproduktraume uber K, K = IR oder K = IC.

Eine orthogonale (unitare) Abbildung ist eine lineare Abbildung f : (V,<, >) → (W,<,>),

die das Skalarprodukt invariant laßt:

f orthogonal (unitar) ⇔< f(x), f(y) >=< x,y >

Bemerkung: Das Wort unitar wird nur bei Verwendung von komplexen Zahlen benutzt. Ver-

wendet man nur reelle Zahlen, spricht man von orthogonal.

Beispiel: Der durch eine orthogonale (unitare) Matrix A induzierte Operator

TA : IRn → IRn(ICn → ICn) mit TA(~x) = A · ~x ist ein orthogonaler (unitarer) Operator. Nach ??

(iv) gilt namlich: < A(~x), A(~y) >=< A~x, A~y >=< ~x, ~y >.

Beispiel: Die Drehungen um ±90◦,±180◦,±270◦ um den Ursprung 0 sind orthogonal.

Satz 20.1 Eigenschaften von orthogonalen (unitaren) Abbildungen

(i) Orthogonale (unitare) Abbildungen sind stets injektiv. Damit: Orthogonale (unitare) Ab-

bildungen von endlich–dimensionalen Vektorraumen sind stets Isomorphismen.

(ii) f orthogonal (unitar) ⇔ ‖f(x)‖ = ‖x‖. Orthogonale (unitare) Abbildungen f lassen die

Norm unverandert. Orthogonale Abbildungen lassen damit auch Winkel invariant.

150

(iii) f : V → W ist genau dann orthogonal (unitar), wenn das Bild einer ON–Basis wieder

eine ON–Basis ist.

f orthogonal ⇔ ((e1, . . . , en) ON–Basis ⇒ (f(e1), . . . , f(en)) ON–Basis)

(iv) f : V → W ist genau dann orthogonal (unitar), wenn die Matrixdarstellung [f ] von f

bezuglich ON–Basen eine orthogonale (unitare) Matrix ist.

f orthogonal (unitar) ⇔ [f ] orthogonal (unitar).

(v) Die Determinante eines orthogonalen (unitaren) Operators hat stets den Betrag 1:

det(f) = ±1 im Reellen bzw. |det(f)| = 1 im Komplexen.

Beweis:

(i) Sei x ∈ ker(f) ⇔ f(x) = 0 ⇒< x, x >=< f(x), f(x) >=< 0, 0 >= 0 ⇒ x = 0.

(ii) ‖f(x)‖2 < f(x), f(x) >=< x, x >= ‖x‖2

cos < (f(x), f(y)) = <f(x),f(y)>‖f(x)‖·‖f(y)‖ = <x,y>

‖x‖·‖y‖ = cos < (x, y)

(iii) 1. Sei f orthogonal (unitar) ⇒< f(ei), f(ej) >=< ei, ej >= δij

2. Sei < f(ei), f(ej) >= δij ⇒ fur x =P

λiei und y =P

µiei gilt:

< f(x), f(y) >=< f(P

i λiei), f(P

j µjej) >=P

i,j λiµj < f(ei), f(ej) >=

=P

i,j λiµjδij =P

i,j λiµj < ei, ej >==< x, y >

(iv) Bezuglich ON–Basen gilt:

< x, y > = [y]∗[x]

< f(x), f(y) = [f(y)]∗[f(x)]

Aus < f(x), f(y) = < x, y > folgt dann:

[f(y)]∗[f(x)] = [y]∗[x], also

([f ][y])∗([f ][x]) = [y]∗[x]

y∗([f ]∗[f ])[x] = [y]∗In[x] ∀x, y,

insbesondere fur die Basisvektoren, daher ist:

[f ]∗[f ] = In ⇒ [f ] ist unitar

Ist umgekehrt [f ] unitar bezuglich einer ON–Basis:

< f(x), f(y) = [f(y)]∗[f(x)] = ([f ][y])∗([f ][x]) = [y]∗([f ]∗[f ])[x] = [y]∗In[x] = [y]∗[x] =

< x, y >, also ist f unitar.

(v) det(f) = det([f ]). Da [f ] unitar ist, folgt die Behauptung aus Kapitel ?? (5).

151

Definition 20.2 Spezielle orthogonale Abbildungen

Die Menge der orthogonalen (unitaren) Isomorphismen eines Skalarproduktraumes V wird mit

O(V ) bzw. U(V ) bezeichnet. Statt O(IRn) schreibt man kurz O(n), analog U(n). Orthogonale Iso-

morphismen bzw. orthogonale Matrizen mit Determinante +1 heißen auch spezielle orthogonale

Abbildungen bzw. Matrizen, bezeichnet mit O+(n) bzw. O+(V )).

Satz 20.2 Die orthogonale Gruppe

(i) O(V ) bzw. U(V ) bildet bezuglich der Hintereinanderausfuhrung eine Gruppe:

Sie heißt die orthogonale (unitare) Gruppe.

(ii) O+(n) bzw. O+(V ) bildet eine Untergruppe von O(n) bzw. O(V ) bezuglich ◦.

O+(n) C O(n);O+(V ) C O(V )

Beweis: (i) Produkt und Inverse von orthogonalen (unitaren) Abbildungen sind wieder orthogo-

nal (unitar):

< (f ◦ g)(x), (f ◦ g)(x) >=< f(g(x)), f(g(y)) >=< g(x), g(y) >=< x, y >.

Sei f−1(x) = x′ ⇔ f(x′) = x

< f−1(x), f−1(y) >=< x′, y′ >=< f(x′), f(y′) >=< x, y >.

(ii) gilt nach dem Produktsatz fur Determinanten.

20.2 Adjungierte Abbildungen

Der 4–Teilraumesatz fur Matrizen, eine Folgerung aus der Verschiebungsformel, hat sich fur li-

neare Gleichungssysteme als ein wichtiges Werkzeug erwiesen. Da nun lineare Abbildungen ver-

allgemeinerte Matrizen sind, versucht man, die Verschiebungsformel fur Matrizen < A~x, ~y >=<

~x,A∗~y > auf lineare Abbildungen zu verallgemeinern. Die der konjugiert–transponierten Matrix

A∗ (nicht der adjungierten Matrix Xadj!) entsprechenden Abbildung heißt die adjungierte Abbil-

dung. Dadurch erhalt man einen entsprechenden 4–Teilraume–Satz fur lineare Operatoren und

damit ein wichtiges Werkzeug zur Untersuchung von linearen Operatorgleichungen in Skalarpro-

duktraumen. Durch das Verhalten beim Ubergang T → T ∗ konnen weiters spezielle Operatoren

charakterisiert werden. Zum Schluß zeigen wir, daß dem Adjungieren der Operatoren das Kon-

jugieren der komplexen Zahlen entspricht.

152

Beispiel:

Gegeben sei T : IC3 → IC3 mit

T (x1, x2, x3) = (2x1 + ix2, x2 − 5ix3, x1 + (1− i)x2 + 3x3)

Dazu definieren wir einen Operator T ∗ auf folgende Art und Weise:

1. Berechne die Matrixdarstellung [T ] bezuglich einer ON–Basis.

2. Bilde die Konjugiert–Transponierte [T ]∗.

3. T ∗ sei nun jener Operator, der [T ]∗ als Matrixdarstellung besitzt:

[T ]St =

2 i 0

0 1 −5i

1 1− i 3

⇒ [T ]∗St =

2 0 1

−i 1 1 + i

0 5i 3

Damit ist T ∗ = IC3 → IC3 mit

T ∗(x1, x2, x3) = (2x1 + x3,−ix1 + x2 + (1 + i)x3, 5ix2 + 3x3)

Fur das so definierte T ∗ gilt die Verschiebungsformel

< T (~x), ~y >=< ~x, T ∗(~y) >:

< T (~x), ~y >=<

2x1 + ix2

x2 − 5ix3

x1 + (1− i)x2 + 3x3

,

y1

y2

y3

>=

= 2x1y1 + 2x2y1 + x2y2 − 5ix3y2 + x1y3 + (1− i)x2y3 + 3x3y3

< ~x, T ∗(~y) >=<

x1

x2

x3

,

2y1 + y3

−iy1 + y2 + (1 + i)y3

5iy2 + 3y3

>=

= 2x1y1 + x1y3 + ix2y1 + x2y2 + (1− i)x2y3 − 5ix3y2 + 3x3y3

Es ist: < T (~x)~y >=< ~x, T ∗(~y) >.

153

Definition 20.3 Die Adjungierte einer linearen Abbildung

f : V →W sei eine lineare Abbildung der Skalarproduktraume V in W .

Die Adjungierte f∗ von f ist jene Abbildung f∗ : W → V , fur die die Verschiebungsformel

< f(x),y >=< x, f∗(y) > ∀x ∈ V und ∀y ∈W

gilt.

Satz 20.3 Existenz und Eindeutigkeit der Adjungierten

f : V →W , linear und f∗ : W → V sei die zu f adjungierte Abbildung.

(i) Falls eine lineare Abbildung f eine Adjungierte f∗ besitzt, ist sie eindeutig bestimmt.

(ii) Die Adjungierte f∗ von f ist wieder eine lineare Abbildung, und zwar von W in V .

(iii) Zwischen endlich–dimensionalen Vektorraumen existiert zu jeder linearen Abbildung f

stets die dazu Adjungierte f∗ : f∗ ist die von der Matrix [f ]∗ induzierte lineare Abbil-

dung, wobei [f ] die Matrixdarstellung von f bezuglich einer ON–Basis ist.

(iv) In unendlich–dimensionalen Vektorraumen muß es keine Adjungierte geben.

Beachte: Bei f∗ sind Definitions– und Wertemenge gegenuber f vertauscht.

Beweis:

Wir werden im folgenden oft folgende Eigenschaft des Skalarproduktes verwenden:

Ist < x,A >=< x,B > ∀x⇒ A = B :

< x, A >=< x, B >⇒< x, A > − < x, B >= 0⇒< x, A−B >= 0∀x⇒ A−B = 0⇒ A = B

(i) Seien f∗ und f ′ zwei Adjungierte, dann gilt:

< f(x), y >=< x, f∗(y) >=< x, f ′(y) > ∀x, y ⇒ f∗(y) = f ′(y)∀y ⇒ f∗ = f ′.

(ii) < f(x), λ1y1 + λ2y2 >=< x, f∗(λ1y1 + λ2y2) > und

< f(x), λ1y1 + λ2y2 >= λ1 < f(x), y1 > +λ2 < f(x), y2 >=

= λ1 < x, f∗(y1) > +λ2 < x, f∗(y2) >=< x, λ1f∗(y1) + λ2f

∗(y2) >.

Damit ist

< x, f∗(λ1y1 + λ2y2) >=< x, λ1f∗(y1) + λ2f

∗(y2)∀x ∈ V ⇒

f∗(λ1y1 + λ2y2) = λ1f∗(y1) + λ2f

∗(y2) ⇒ f∗ ist linear

154

(iii) Sei f∗ : W → V mit [f∗] = [f ]∗ bezuglich ON–Basen. Fur diese Abbildung f∗ gilt die Verschiebungsformel

(beachte die Definition der Matrixdarstellung [f ] : [f(x)] = [f ][x]).

< f(x), y > = [y]∗[f(x)] = [y]∗[f ][x]

< x, f∗(y) > = [f∗(y)]∗[x] = ([f ]∗[y])∗[x] = [y]∗[f ][x]

Beachte: Ist [f ] die Matrixdarstellung von f bezuglich einer ON–Basis, dann ist die Ma-

trixdarstellung von f∗ bezuglich einer ON–Basis gegeben durch die Konjugiert–Transpo-

nierte von [f ]: [f∗] = [f ]∗.

(iv) Gegenbeispiel: V = P [x], < f, g >=R 1

0f(x)g(x)dx.

D sei der Differentialoperator auf P [x] : D(f(x)) = f ′(x).

D hat keine Adjungierte D∗, d.h.:

< D(f), g >=R 1

0f ′ · gdt 6=

R 1

0fg′dt =< f, D(g) >.

Satz 20.4 Algebraische Eigenschaften der Adjungierten

S und T seien lineare Operatoren auf V, λ ∈ K = IR, IC. Dann gilt:

(i) (S + T )∗ = S∗ + T ∗ (ii) (λT )∗ = λT ∗

(iii (ST )∗ = T ∗S∗ (iv) (T ∗)∗ = T

Beweis:

(i)

< (S + T )(x), y > = < S(x) + T (x), y >=< S(x), y > + < T (x), y >=

= < x, S∗(y) > + < x, T ∗(y) >=< x, (S∗ + T ∗)(y) > ∀x, y.

S∗ + T ∗ besitzt die Adjungierteneigenschaft von (S + T ), weil diese eindeutig bestimmt ist, ist S∗ + T ∗ die

Adjungierte von S + T , also (S + T )∗ = S∗ + T ∗

(ii)

< T ∗(x), y > = < x, (T ∗)∗(y) > und

< T ∗(x), y > = < y, T ∗(x) > = < T (y), x > = < x, T (y) > =< x, T (y) >

Also ist: < x, (T ∗)∗(y) >=< x, T (y) > ∀x, y ⇒ (T ∗)∗(y) = T (y)∀y ⇒ (T ∗)∗ = T

Mittels der Adjungierten laßt sich nun auch der Vier–Teilraumesatz fur Matrizen auf lineare

Abbildungen verallgemeinern:

155

Satz 20.5 Vier–Teilraume–Satz fur lineare Operatoren

f : V →W sei eine lineare Abbildung zwischen endlichdimensionalen Vektorraumen.

(i) [im(f)]⊥ = ker(f∗) (ii) im(f) = (ker(f∗))⊥

(iii) [ker(f)]⊥ = im(f∗) (iv) ker(f) = [im(f∗)]⊥

Beweis wie fur Matrizen.

Zusammen mit dem Dimensionssatz kann man damit die Ranggleichheit von f auf f∗ zeigen.

Dies stellt die Verallgemeinerung der Eigenschaft des gleichen Zeilen– und Spaltenranges dar.

Satz 20.6 Ranggleichheit von f und f∗

In endlich–dimensionalen Vektorraumen haben f : V →W und f∗ : W → V denselben Rang.

Beweis:

rg(f) = dim(im(f)) = dim[(ker(f∗))]⊥ = dim(W )− dim(ker(f∗)) = dim(im(f∗)) = rg(f∗).

Der Vier–Teilraume–Satz gilt nicht ganz in unendlich–dimensionalen Vektorraumen, wohl aber:

Satz 20.7 Orthogonalitat von Bild und Kern

f : V →W sei linear und besitze eine Adjungierte f∗ : W → V .

(i) im(f) ⊥ ker(f∗) (ii) ker(f) ⊥ im(f∗)

Beweis:

Sei y ∈ im(f) und W ∈ ker(f∗) ⇒ ∃x ∈ V : y = f(x). Dann ist

< y, w >=< f(x), w >=< x, f∗(w) >=< x, 0 >= 0 ⇒ im(f) ⊥ ker(f∗). Analog folgt (ii).

Damit kann man auch in unendlich–dimensionalen Vektorraumen Losbarkeitsbedingungen fur

lineare Operatorgleichungen angeben:

inhomogene lineare Operatorgleichung: f(x) = y (I)

homogene adjungierte Operatorgleichung: f∗(u) = 0 (H∗)

Satz 20.8 Losbarkeitsbedingungen fur Operatorgleichungen

f : V →W sei linear und habe eine Adjungierte f∗.

(i) f(x) = y hat nur dann eine Losung, wenn y ⊥ ker(f∗).

Sind V,W endlich–dimensional, dann gilt sogar:

(ii) f(x) = y hat genau dann eine Losung, wenn y auf jede Losung von f∗(u) = 0 steht.

Also: (I) losbar ⇔ y ⊥ (H∗).

156

Beweis:

(i) f(x) = y hat Losung ⇔ y ∈ im(f) ⊥ ker(f∗) nach (20.7 (i)).

(ii) (I) losbar ⇔ y ∈ im(f) = [ker(f∗)]⊥ nach (20.7 (ii)).

So wie fur quadratische Gleichungssysteme gilt auch fur lineare Operatoren T : V → V (aller-

dings nur in endlich–dimensionalen Skalarproduktraumen) die FREDHOLM–Alternative, wenn

folgende Bezeichnungen eingefuhrt werden:

T (x) = y (I) inhomogene Operatorgleichung

T (x) = 0 (H) dazugehorige homogene Operatorgleichung

T ∗(u) = v (I∗) inhomogene adjungierte Operatorgleichung

T ∗(u) = 0 (H∗) dazugehorige homogene adjungierte Operatorgleichung

Satz 20.9 FREDHOLMsche Alternative fur Operatorgleichungen

Entweder sind (H) und (H∗) nur trivial losbar, wobei dann (I) und (I∗) eindeutig losbar sind

oder (H) und (H∗) haben beide nichttriviale Losungen, wobei dann (I) genau dann losbar ist,

wenn y auf alle Losungen von (H∗) orthogonal steht

und (I∗) genau dann losbar ist, wenn v auf alle Losungen von (H) orthogonal steht.

Beweis:

Aus rg(f) = rg(f∗) folgt nach dem Dimensionssatz def(f) = def(f∗) ⇒ (H) und (H∗) haben beide keine

nichttrivialen Losungen oder beide haben nichttriviale Losungen. Das andere folgt aus (20.7).

20.3 Normale Operatoren

Mit Hilfe der Adjungierten konnen nun verschiedene Klassen von linearen Operatoren

T : V → V charakterisiert (= definiert) werden. So gilt z.B. fur unsere orthogonalen (unitaren)

Operatoren aus 20.1 in der “Sprache der Adjungierten”:

T unitar ⇔< T (x), T (y) >=< x, y >.

Wegen < T (x), T (y) >=< x, T ∗T (y) > ist dies gleichbedeutend mit:

T unitar ⇔< x, (T ∗T )(y) >=< x, y >⇔

< x, (T ∗T )(y) >=< x, id(y) > ∀x, y ⇔ (T ∗T )(y) = id(y)∀y ⇔ T ∗T = id⇔ T∗ = T−1

T unitar bedeutet also in der Sprache der adjungierten Abbildung T ∗ :

T unitar ⇔ T ∗ = T−1 (T−1 existiert, weil unitare Abbildungen stets invertierbar sind.)

Genauso werden wir in 20.4 mittels der Adjungierten T ∗ weitere Operatoren definieren.

157

Da weiters die Matrixdarstellung vertraglich bezuglich den Rechenoperationen ist, (bezuglich

einer ON–Basis gilt auch (siehe 20.1(iii)) [T ∗] = [T ]∗ ) fur ON–Basen:

T unitar ⇔ [T ∗] = [T−1]⇔ [T ]∗ = [T ]−1 ⇔ [T ]∗[T ] = In ⇔ [T] unitar.

Bezuglich ON–Basen ist also die Matrixdarstellung vom selben Typ (namlich unitar) wie die Ab-

bildung. Dieses Verhalten werden wir auch bei den folgenden Abbildungen beobachten konnen.

Definition 20.4 Charakterisierung von Operatoren

(V,<>) sei ein n−dimensionaler Skalarproduktraum uber K = IR, IC.

Name ⇔ Verhalten bei ⇔ Matrixdarstellung

Adjungation bez. einer ON–Basis

T normal TT ∗ = T ∗T [T ] normal

T unitar T ∗ = T−1 [T ] unitar

T orthogonal T t = T [T ] orthogonal

T selbstadjungiert T ∗ = T [T ] hermitesch

(hermitesch in IC (symmetrisch)

symmetrisch in IR T t = T

T schiefadjungiert T ∗ = −T [T ] schiefsymmetrisch

schiefhermitesch in IC

schiefsymmetrisch in IR T t = −T

T positiv definit ∃ regulares S mit [T ] positiv definit

T = S∗S

T positiv semidefinit ∃S : T = S∗S [T ] positiv semidefinit

Diese Tabelle ist folgend zu lesen:

Ein Operator T : V → V heißt normal, wenn er mit seiner Adjungierten vertauschbar ist. T ist

genau dann normal, wenn seine Matrixdarstellung bezuglich einer ON–Basis normal ist.

Bemerkung: Alle aufgezahlten Typen sind normale Operatoren. Positiv (semi) definite Ope-

ratoren und orthogonale Projektionen sind sogar Sonderfalle von selbstadjungierten Operatoren

(siehe 20.10) und (20.14 (i)).

158

Damit ergibt sich folgende Hierarchie:

Satz 20.10 Charakterisierungen von positiven Operatoren

(i) Folgende Bedingungen sind aquivalent:

a) P = T 2 fur irgendeinen selbstadjungierten Operator T

b) P = S∗S fur irgendeinen Operator S

c) P ist selbstadjungiert und ≥ 0 ∀x ∈ V .

(ii) a) P = T 2 fur irgendeinen regularen selbstadjungierten Operator T

b) P = S∗S fur irgendeinen regularen Operator S

c) P ist selbstadjungiert und 0 ∀x ∈ V .

Beweis: (a) ⇒ (b) ⇒ (c) ⇒ (a)

a) ⇒ b): Sei P = T 2 mit T = T ∗ ⇒ P = TT = T ∗T, also gilt b) mit S = T

b) ⇒ c): P = S∗S ⇒ P ∗ = S∗(S∗)∗ = S∗S = P ⇒ P selbstadjungiert

=< (S∗S)(x), x >=< S(x), S(x) ≥ 0

c) ⇒ a): Wir werden in Satz 21.8 zeigen:

Ist P selbstadjungiert, dann gibt es eine ON–Basis (e1, . . . , en) von V aus EV von P , also: P (ei) = λiei.

Nach Satz 19.11 (v) sind die λi reell. Mittels c) gilt:

λi ≥ 0, denn: 0 ≤=< λiei, ei >= λi < ei, ei| {z }≥0

>. Damit ist√

λi ist eine reelle Zahl.

159

Es sei T definiert durch T (ei) =√

λiei i = 1, . . . , n. Nach dem Fortsetzungssatz ist T eindeutig festgelegt. T ist

selbstadjungiert, weil [T ] = diag(√

λ1, . . . ,√

λn). Weiters ist

T 2(ei) = T (T (ei)) = T (√

λiei) =√

λiT (ei) =√

λi

√λiei = λiei = P (ei),⇒ T 2 = P (Fortsetzungssatz).

T heißt auch die positive Quadratwurzel von P.

Damit kann man zeigen:

Satz 20.11 Produktdarstellung linearer Operatoren

T : V → V , V endlichdimensionaler Skalarproduktraum.

Zu jedem linearen Operator T existieren ein eindeutiger positiver Operator P und ein unitarer

(orthogonaler) Operator U mit

T = UP.

Ist T invertierbar, dann ist auch U eindeutig bestimmt.

Beweis fur invertierbares T : Nach 20.10 ist T ∗T ein positiver Operator⇒ ∃ positiven, selbstadjungierten Operator

P mit T ∗T = P 2.

‖P (x)‖2 ===< T ∗T (x), x >=< T (x), T (x) >= ‖T (x)‖2.

Wir setzen U := PT−1, dann ist U unitar:

U∗

= (PT−1)∗ = (T−1)∗P ∗ = (T ∗)−1P und

U∗U = (T ∗)−1PPT−1 = (T ∗)−1P 2T−1 = (T ∗)−1T ∗TT−1 = id.

Nun sei U := U−1 ⇒ U ist unitar und T = UP .

Dieser Satz zeigt eine gewisse Analogie zu den komplexen Zahlen:

z = reiϕ = r(cos ϕ + i sinϕ) r ≥ 0 = P

‖eiϕ| = | cos ϕ + sin ϕ| = 1 eiϕ = U

|U | = 1 z = T

Beobachtung: Die positiven Operatoren spielen die Rolle von positiven reellen Zahlen, die

unitaren die Rolle der komplexen Zahlen auf dem Einheitskreis.

Eine ahnliche Analogie zeigt auch folgender Satz:

160

Satz 20.12 Symmetrische Darstellung normaler Operatoren

T : V → V , V endlichdimensionaler Skalarproduktraum.

Zu jedem Operator T existieren hermitesche Operatoren A und B mit

T = A + iB und AB = BA.

Beweis: A := (T + T ∗)/2 und B = (T − T ∗)/2i

T = (T + T ∗)/2 + i(T − T ∗)/2i

A∗ = 12(T + T ∗)∗ = 1

2(T ∗ + T ∗∗ = 1

2(T ∗ + T ) = A

B∗ = 1−2i

(T − T ∗)∗ = − 12i

(T ∗ − T ∗∗) = 12i

(T − T ∗) = B

AB = 12(T + T ∗) 1

2i(T − T ∗) = 1

4i(T 2 + T ∗T − TT ∗ − T ∗2) =

= 14i

(T 2 − T ∗2) weil TT ∗ = T ∗T

BA = 12i

(T − T ∗) 12(T + T ∗) = 1

4i(T 2 − T ∗T + TT ∗ − T ∗2) =

= 14i

(T 2 − T ∗2).

Beobachtung: Die selbstadjungierten Operatoren spielen die Rolle von reellen Zahlen.

Damit konnen wir insgesamt folgende Analogien zwischen der Algebra der linearen Ope-

ratoren auf Skalarproduktraumen und dem Korper der komplexen Zahlen feststellen:

Hom(V, V )←→ IC

Verhalten bei Verhalten bei

IC Konjugation Hom(V, V ) Adjungation

z → z T → T ∗

Einheitskreis z = 1z = z−1 Unitare (orthogonale) T ∗ = T−1

|z| = 1 Operatoren

reelle Zahlen Selbstadjungierte

z = a z = z Operatoren T ∗ = T

(hermitesche Operatoren)

imaginare Achse Schiefadjungierte

z = bi z = −z Operatoren T ∗ = −T

(Schiefhermitesche)

Positive reelle Positiv definite T = S∗S

Halbachse z = ww,w 6= 0 Operatoren S regular

z ∈ (0,∞)

161

20.4 Projektionen und Orthogonalprojektionen

In diesem Kapitel werden die anschaulichen Begriffe Projektion und Orthogonalprojektion auf

abstrakte Vektorraume verallgemeinert und als idempotente bzw. selbstadjungierte lineare Abbil-

dungen “entlarvt”. Damit kann dann gezeigt werden, daß Projektionen als Bausteine beliebiger

Operatoren aufgefaßt werden konnen. Insbesondere konnen mit ihrer Hilfe Operatoren mit vor-

gegebenen EW und EV konstruiert werden!

Beispiel A Beispiel BV = U ⊕W

x = u + w mit u ∈ U und w ∈W

P (x) := u Q(x) := w

P : Projektion auf U in Richtung W

Die Projektion auf U in Richtung W gehtvon x aus parallel zu W auf U .Q: Projektion auf W in Richtung U

im(P ) = U ker(P ) = W

im(Q) = W, ker(P ) = U

rg(P ) = dim(U)rg(Q) = dim(W )P 2 = P,Q2 = Q: idempotentP,Q linearPQ = QP = 0 (Nullabbildung)P + Q = id

P Projektion auf U in Richtung W ⇔V = im(P )⊕ ker(P )V ist direkte Summe von Bild und Kernvon P

Also: Direkte Zerlegung von V ent-sprechen Zerlegungen der identischenAbbildung in vertauschbareProjektionen.

V = U©⊥ U⊥

x = u + u′ mit u ∈ U und u ∈ U⊥

P (x) := u Q(x) = u′

P : Orthogonalprojektion auf U in RichtungU⊥

Die Orthogonalprojektion auf U geht von x aussenkrecht auf UQ: Orthogonalprojektion auf U⊥ in Richtung U

U = im(P ) ⊥ im(Q) = U⊥

P 2 = P, Q2 = Q

P,Q linearPQ = QP = 0P + Q = id

P Orthogonalprojektion auf U ⇔V = im(P )©⊥ ker(P )V ist orthogonale Summe von Bild und Kern vonP .Also: Orthogonale Zerlegungen von Ventsprechen Zerlegungen der identi-schen Abbildung in vertauschbareOrthogonalprojektionen.

162

Definition 20.5 Projektionen

(i) U und W seien zwei direkte Komplemente von V . Die Projektion P : V → U auf U

in Richtung W ist jener Operator auf V , der jedem x ∈ V seine direkte Komponenten

bezuglich U zuordnet.

Symbolisch: Sei V = U ⊕W und x = u + w mit u ∈ U und w ∈W , dann ist P (x) := u.

(ii) Ist V ein endlichdimensionaler Skalarproduktraum, dann ist die orthogonale Projektion

auf U die Projektion in Richtung U⊥.

Bemerkung: Wegen der Direktheit der Summe ist u eindeutig bestimmt, daher ist P (x)

tatsachlich eine Abbildung. Wegen der Endlichdimensionalitat von V ist V = U ⊕ U⊥, also

eine Projektion in Richtung U⊥ moglich. Orthogonale Projektionen sind aber keine orthogona-

len Abbildungen! (Daraus sieht man wieder, wir unglucklich der Name “orthogonale Abbildung”

gewahlt wurde.)

Satz 20.13 Eigenschaften von Projektionen

U,W C V mit V = U ⊕W

P Projektion auf U in Richtung W, Q Projektion auf W in Richtung U .

(i) P ist linear

(ii) P ist idempotent, also P 2 = P

(iii) im(P ) = U, ker(P ) = W , also: V = im(P )⊕ ker(P )

(iv) Mit P ist auch id− P wieder eine Projektion und P (id− P ) = (id− P )P = 0

(v) ker(P ) = im(id− P ) und im(P ) = ker(id− P )

(vi) P singular ⇔ P 6= id, d.h., jede nichttriviale Projektion ist singular

(vii) P (x) = x ∀x ∈ im(P ), d.h., P ist auf im(P ) die identische Abbildung

(viii) PQ = QP = 0, d.h., P und Q sind vertauschbar

(ix) P + Q = id

163

Beweise:

(i) Sei x = u + w und y = u′ + w′ ⇒ x + y = (u + u′) + (w + w′) und λx = λu + λw ⇒ P (x + y) = u + u′ =

P (x) + P (y) und P (λx) = λu = λP (x)

(ii) P 2(x) = P (P (x)) = P (u) = u = P (x) ∀x ∈ V ⇒ P 2 = P

(iii) Sei u ∈ U ⇒ u = u + 0 mit 0 ∈ W ⇒ P (u) = u ⇒ u ∈ im(P ) ⇔ U ⊆ im(P )

Sei u ∈ im(P ) ⇒ ∃v ∈ V : P (v) = u ⇒ P (u) = P (P (v)) = P 2(v) = P (v) = u ⇒ u ∈ U ⇒ im(P ) ⊆ U ⇒

im(P ) = U

Sei w ∈ W ⇒ w = 0 + w mit 0 ∈ U ⇒ P (w) = 0 ⇒ w ∈ ker(P )

Sei y ∈ ker(P ) ⇒ P (y) = 0 ⇒ y = 0 + y mit y ∈ W ⇒ ker(P ) ⊆ W

Damit ist V = U ⊕W = im(P )⊕ ker(P )

(iv) id−p ist wieder linear. (id−p)(id−p) = id(id−p)−p(id−p) = id2−id ·p−p ·id+p2 = id−p−p+p = id−p

p(id− p) = p · id− p2 = p− p = 0

(id− p)p = id · p− p2 = p− p = 0

(v) x ∈ ker(p) ⇒ p(x) = 0 ⇒ (id− p)(x) = x− p(x) = x− 0 = x ⇒ x ∈ im(id− p)

x ∈ im(id− p) ⇒ ∃y : x = (id− p)(y) = y − p(y) ⇒ p(x) = p(y − p(y)) = p(y)− p2(y) =

p(y)− p(y) = 0 ⇒ x ∈ ker(p)

(vi) Ist ker(p) = {0} ⇔ im(id− p) = {0} ⇔ (id− p)(x) = 0∀x ∈ V ⇔ id(x)− p(x) = x− p(x) = 0

⇔ p(x) = x∀x ∈ V ⇔ p = id

(vii) Sei x ∈ im(p) ⇒ ∃y ∈ V : x = p(y) ⇒ p(x) = p(p(y)) ⇒ p(x) = p2(y) = p(y) = x

(viii) Q(x) ∈ W = ker(P ) nach (iii) ⇒ P (Q(x)) = 0 ⇒ PQ(x) = 0 ∀x ∈ V ⇒ PQ = 0

analog ist QP = 0

(ix) (P + Q)(x) = P (x) + Q(x) = u + w = x = id(x) ∀x ∈ V ⇒ P + Q = id

Definition 20.6 Projektion auf die i−te Koordinatenachse

Sei B = (b1, . . . , bn) eine Basis von V und x = k1b1 + . . . kibi + . . . + knbn.

Die Abbildung Pi : V → V mit Pi(x) := kibi heißt die Projektion auf die i–te Koordi-

natenachse.

Die Projektion Pi auf den i−ten Basisvektor ordnet jedem Vektor x die i−te Komponente

bezuglich B zu.

Wegen V =< b1 > ⊕ < b2 > ⊕ . . .⊕ < bn > sind diese Pi(i = 1, . . . , n) nach 20.13 Projektionen

auf < bi >, also Projektionen vom Rang 1 und P1 + P2 + . . . + Pn = id.

Anwendung: Konstruktion von Operatoren mit vorgegebenen EW λ1, . . . λr und da-

zugehorigen l.u. EV x1, . . . , xr.

164

Erganze (x1, . . . , xr) zu einer Basis B = (x1, . . . , xr+1, xr, . . . xn) und stelle x als Linearkombi-

nation der Basisvektoren dar: x =∑

i kixi von V .

Definiere Pi : V → V (i = 1, . . . , n) wie in Definition 20.6, also: Pi(x) := kixi und setze

P := λ1P1 + . . . + λnPn: V → V .

Fur dieses P gilt (wegen xi = 0 · x1 + . . . + 1 · xi + . . . + 0 · xn)

P (xi) = (λ1P1+. . .+λnPn)(xi) = λ1P1(xi)+. . .+λnPn(xr) = λ1 ·0+. . .+λi ·1·xi+. . .+λn ·0 =

= λixi, also ist xi EV von P zum EW λi.

Beispiel: Konstruiere in K3 einen Operator T , der ~x1 = (1, 2, 3) und ~x2 = (1, 0, 1) als EV zu

den EW λ1 = 6 λ2 = 2 besitzt.

1. Basis B vom K3 : B = ( ~x1, ~x2, (0, 0, 1))

2. Koordinaten des allgemeinen Vektors ~x = (x, y, z) bezuglich B:

1 1 0 x

2 0 0 y

3 1 1 z

1 1 0 x

0 −2 0 y − 2x

0 −2 1 z − 3x + 2x− y

1 1 0 x

0 2 0 2x− y

0 0 1 −x− y + z

2 2 0 2x

0 2 0 2x− y

0 0 1 −x− y + z

2 0 0 y

0 2 0 2x− y

0 0 1 −x− y + z

Also:

[x]B = (42 |

2x−y2 | − x− y + z)

3. Definition der P ′i s:

P1(x, y, z) = yz (1, 2, 3) =

(y2 , y, 3y

2

)P2(x, y, z) = 2x−y

2 (1, 0, 1) =(

2x−y2 |0|

2x−y2

)4. Definition von P := 6P1 + 2P2

P (x, y, z) = (3y, 6y, 9y) + (2x− y, 0, 2x− y) = (2x + 2y, 6y, 2x + 8y)

[P ]St =

2 2 0

0 6 0

2 8 0

165

Satz 20.14 Eigenschaften von Orthogonalprojektionen

V sei ein endlich–dimensionaler Skalarproduktraum, U C V .

(i) Jede Orthogonalprojektion P auf U ist selbstadjungiert.

(ii) im(P ) = U und ker(P ) = U⊥.

Beweis: Es ist V = U ⊕ U⊥

(i) Sei x = u1 + w1 mit u1 ∈ U, w1 ∈ U⊥ und

y = u2 + w2 mit u2 ∈ U, w2 ∈ U⊥. Dann gilt:

 = < u1, u2 + w2 >=< u1, u2 > + < u1, w2 >=< u1, u2 > +0 =< u1, u2 >

< x, P (y) > = < u1, w1, u2 >=< u1, u2 > + < w1, u2 >=< u1, u2 > +0 =< u1, u2 > .

(ii) gilt wegen V = U ⊕ U⊥.

Also: Der lineare Operator P : V → V ist Orthogonalprojektion ⇔ V ist orthogonale Summe

von im(P ) und ker(P ). Es ist dann P Orthogonalprojektion auf im(P ).

Aus 20.13 wissen wir, daß Projektionen linear und idempotent sind. Es gilt aber auch die Um-

kehrung:

Satz 20.15 Charakterisierung von Projektionen und Orthogonalprojektionen

(i) P : V → V ist Projektion auf im(P ) in Richtung ker(P )⇔ P ist linear und idempotent.

(ii) P : V → V ist Orthogonalprojektion auf im(P ) ⇔ P ist linear, idempotent und selbstad-

jungiert.

Also: die Projektionen sind genau die idempotenten linearen Abbildungen.

Die Orthogonalprojektionen sind genau die selbstadjungierten Projektionen.

Beweis:

Die Notwendigkeit folgt aus 20.13 und 20.14.

(i) Sei P linear und idempotent: P 2 = P und U := im(P ), W := ker(P ). Dann ist zu zeigen: V = U ⊕W .

1. Sei x ∈ V ⇒ x = P (x) + y mit y = x− P (x). Fur dieses y gilt:

P (y) = P (x− P (x)) = P (x)− P 2(x) = P (x)− P (x) = 0 ⇒ x ∈ W ⇒ V = U + W .

2. Sei x ∈ U ⇒ x ∈ U = im(P ) ⇒ ∃y ∈ V : x = P (y)

⇒ x ∈ W = ker(P ) ⇒ P (x) = 0 ⇒ P (P (y)) = 0 ⇒ P (y) = 0 ⇒

⇒ x = 0 ⇒ U ∩W = 0.

166

(ii) Sei P selbstadjungierte Projektion: P 2 = P und =< x, P (y) >. Dann ist zu zeigen:

V = U©⊥ W mit U = im(P ), W = ker(P ). Sei x ∈ im(P ) und v ∈ ker(P ) ⇒ x = P (y) mit y ∈ V und

P (v) = 0 ⇒< x, v >==< y, P (v) >=< y, 0 >= 0 ⇒ U ⊥ W .

Zusammenfassung:

(i) Daß eine Abbildung P : V → V eine Projektion ist, kann man auf 2 Arten nachweisen:

1. P ist linear und

P ist idempotent⇔

2. P ist linear und

V = im(P )⊕ ker(P )

P ist dann Projektion auf im(P ) in Richtung ker(P ).

(ii) Daß eine Abbildung P : V → V eine Orthogonalprojektion ist, kann man auf 2 Arten

nachweisen.

1. P ist linear und

P ist idempotent und ⇔

P ist selbstadjungiert

2. P ist linear und

V = im(P )©⊥ ker(P )

P ist dann eine Orthogonalprojektion auf im(P ).

In Beispiel B galt fur P und Q: im(P ) ⊥ im(Q).

Im allgemeinen ist die Summe von zwei Orthogonalprojektionen keine solche mehr.

Definition 20.7 Orthogonale Mengen von Operatoren

a) Zwei Operatoren P,Q : V → V eines Skalarproduktraumes heißen ein orthogonales

Paar {P,Q} bzw. orthogonal zueinander, wenn gilt

(i) P,Q sind Orthogonalprojektionen

(ii) im(P ) ⊥ im(Q).

b) Eine Menge von Operatoren ist eine orthogonale Menge von Operatoren, wenn jedes

Paar ein orthogonales Paar ist. Fur ein orthogonales Paar {P,Q} gilt:

Satz 20.16 Summe von zwei Orthogonalprojektionen

(P,Q) sei ein orthogonales Paar von Orthogonalprojektionen. Dann gilt:

c) PQ = QP = 0 (Nullabbildung).

d) P + Q ist wieder eine Orthogonalprojektion.

167

Diese Eigenschaft ist auf endlich viele Summanden verallgemeinerbar.Beweis:

c) Ist x ∈ V ⇒ Q(x) ∈ im(Q) ⇒ Q(x) ∈ im(P )⊥ ⇒ Q(x) = 0 + Q(x) mit 0 ∈ im(P ) ⇒ Q(x) ⊥ im(P ) ⇒

(PQ)(x) = P (Q(x)) = 0 ⇒ PQ = 0 (Nullabbildung). Analog: QP = 0.

d) P + Q ist linear und selbstadjungiert, weil es P und Q sind und nach c) gilt: PQ + QP + P 2 = P 2 + Q2 =

P + Q. Also ist P + Q nach 20.15 (ii) Orthogonalprojektion.

Bemerkung: Ist (P,Q) kein orthogonales Paar, dann ist P + Q keine Orthogonalprojektion.

Beispiel: Die Projektionen Pi auf die i–ten Basisvektoren einer ON–Basis sind eine

orthogonale Menge von Projektionen.

V =< e1, . . . , en >= < e1 > ⊕ < e2 > ⊕ . . .⊕ < en >

| | | |

id = P1 + P2 + . . .+ Pn

Beobachtung: Der “n−Dimensionalitat” entspricht die Zerlegung von id in eine n−elementige

orthogonale Menge von Orthogonalprojektionen.

Es gilt: V =< ei > ⊕ . . .⊕ < ei > ⊕ . . .⊕ < en >=< ei > ⊕Wi, wobei Wi die direkte Summe

der ubrigen < ej > ist.

Pi sei die Projektion auf den i–ten Basisvektor ei:

Pi projiziert jeden Vektor x auf die Richtung des i−ten Basisvektors.

Pi ist ein orthogonaler Operator, weil Wi ⊥< ei >.

(P1, . . . , Pn) ist eine orthogonale Menge von Projektionen: Es ist im(Pi) =< ei >⊥< ej >=

im(Pj).

Bezuglich einer ON–Basis kann man Pi durch eine Formel angeben:

Es ist x =∑

i < x, ei > ei ⇒ Pi(x) =< x, ei > ei.

168

Damit gilt: P1 + P2 + . . . + Pn = id

denn: (P1 . . . + Pn)(x) = P1(x) + . . . + Pn(x) =< x, e1 > e1 + . . .+ < x, en > en = x = id(x).

Matrixdarstellung der Pi, bezuglich einer anderen ON–Basis F = (f1, . . . , fn).

Fur die r − s−te Eintragung der Matrixdarstellung [Pi]F gilt:

[Pi]rs = < Pi(fs), fr >=<< fs, ei > ei, fr >=

= < fs, ei >< ei, fr >=< ei, fr > · < ei, fs >.

Bezeichnet [ei]F = (ei1, ei2, . . . , ein)t den Koordinatenvektor von ei bezuglich F , dann gilt fur

die Matrix [Pi]F :

[Pi]F =

ei1ei1 ei1ei2 . . . ei1ein

...

einei1 einei2 . . . einein

=

ei1

...

ein

· (ei1, . . . , ein) = [ei]F [ei]∗F ,

Also: [Pi]F = [ei]F · [ei]∗F

Definition 20.8 Außeres Produkt von zwei n–Tupeln

[x] · [y]∗ heißt das außere Produkt (outer product) der Spaltenvektoren [x], [y].

Obige Uberlegungen zeigen folgenden

Satz 20.17 Matrixdarstellung von Orthogonalprojektionen

Die Matrixdarstellung der Orthogonalprojektion Pi auf den i–ten Basisvektor einer ON–Basis

ist gegeben durch das außere Produkt des Koordinatenvektors [ei] mit sich selbst:

[Pi] = [ei] · [ei]∗.

Spezialfall: Matrixdarstellung der Pi bezuglich derselben Basis B = (e1, . . . , en):

[ei]B = (0, . . . , 1, . . . 0)⇒

0...

1...

0

(0, . . . , 1, . . . 0)⇒

i

0 . . .... . . . 0

0 . . . 1 . . . 0

0 0

i

∑i[Pi] = diag(1, 1, . . . , 1), oder∑i Pi = id

169

Das ist wiederum die Zerlegung der identischen Abbildunge in eine Summe von Orthogonalpro-

jektionen.

Zusammenfassung: Formeln fur Orthogonalprojektionen:

1. Sei (e1, . . . , ek) eine ON–Basis von U und P Orthogonalprojektion auf U :

P(x) =< x, e1 > e1 + . . .+ < x, ek > ek

2. Spezialfall: U =< a >

Orthogonalprojektion von x auf a:

P = projax =< x,a >

‖a‖2· a

Denn: e1 = a/‖a‖

P (x) =< x, e1 > e1 =< x, a‖a‖ > a

‖a‖ = 1‖a‖ < x, a > · a

‖a‖ = <x,a>‖a‖2 a.

3. Spezialfall: U =< ~b1, ~b2, . . . ~bk > CKn.

Fasse U als Spaltenraum der Matrix A auf: U = S(A).

P Orthogonalprojektion von ~x auf U = S(A):

P = projS(A)x = A(AtA)−1Atx

[P ]St = A(AtA)−1At.

20.5 Geometrie linearer Operatoren im IR2 bzw. IR3

Es wird gezeigt, wie man aus der Gestalt der Matrixdarstellung auf die Wirkung eines linearen

Operators T : IR2 → IR3(IR3 → IR3) schließen kann. Umgekehrt kann man aus dem Wirkungsprofil

eines Operators seine Matrixdarstelung relativ leicht angeben. Dabei beschranken wir uns auf

Matrixdarstellungen bezuglich der Standardbasis, alle anderen sind ja dazu ahnlich. Je nach

Wirkung des Operators erhalten diese spezielle Namen.

Je nachdem, ob die geordneten Paare (Tupel) als Koordinaten von Punkten oder als Komponen-

ten von geometrischen Vektoren (Pfeilen) auffaßt, entspricht dem Operator T eine Umwandlung

von Punkten oder von Pfeilen. Beide Auffassungen sind mathematisch gleichwertig.

170

Um die Wirkung des Operators zu studieren, untersucht man am besten die Veranderung des

Einheitsquadrates (Einheitswurfels). Dadurch kann man auch die Bilder der Standard–ON–

Basisvektoren {(0, 1), (0, 1)} und damit die Matrixdarstellung leicht angeben. Im Raum erhalt

man die Standardmatrix am besten aus den Abbildungsgleichungen, die man durch geometrische

Uberlegungen aus der Definition erhalt oder indem man sich vorstellt, in welche Punkte die Ecken

des Einheitswurfels verandert werden.

Definition 20.9 Reflexionsoperatoren (Spiegelungen)

Spiegelungen sind Operatoren T auf IR2 bzw. IR3, die jeden Punkt auf sein “Spiegelbild” bezuglich

einer festen Geraden oder Ebene abbilden.

Beispiel: Spiegelung T : IR2 → IR2 an der y−Achse:

~y = T ((~x)

y1 = −x1 = −x1 + 0 · x2

y2 = x2 = 0 · x1 + 1 · x2

~y =

−1 0

0 1

~x

T (1, 0) = (−1, 0)

T (0, 1) = (0, 1)

Tst =

−1 0

0 1

Abbildungsgleichung

T :y1 = −x1

y2 = x2

171

Aus den Abbildungsgleichungen erkennt man, daß Spiegelungen lineare Operatoren sind (die

Variablen kommen nur in der ersten Potenz vor). Man sieht dies aber auch rechnerisch ganz

leicht ein:

Seien A = (a1, a2) und B = (b1, b2) zwei Punkte (Vektoren). Dann ist

A + B = (a1 + b1, a2 + b2), λA = (λa1, λa2) und

T (A + B) =

−(a1 + b1)

a2 + b2

=(−a1

a2

)+

(−b1b2

)= T (A) + T (B)

T (λA) =(−λa1

a2

)= λ

(−a1

a2

)= λT (A).

Oder geometrisch:

Ahnlich geht man bei den anderen Operatoren vor, deren Eigenschaften wir nur mehr tabellarisch

zusammenfassen.

172

Tabelle der Spiegelungen

Operator Wirkung Gleichung Standardmatrix

Spiegelung any −Achse

y1 = −x1

y2 = x2

(−1 0

0 1

)

Spiegelung anx−Achse

y1 = x1

y2 = −x2

(1 00 −1

)

Spiegelung any = x

y1 = x2

y2 = x1

(0 11 0

)

Spiegelung anxy − Ebene

y1 = x1

y2 = x2

y3 = −x3

1 0 00 1 00 0 −1

Spiegelung anxz − Ebene

y1 = x1

y2 = −x2

y3 = x3

1 0 00 −1 00 0 1

Spiegelung anyz − Ebene

y1 = −x1

y2 = x2

y3 = x3

−1 0 00 1 00 0 1

Definition 20.10 Projektionsoperatoren

Projektionsoperatoren sind Operatoren T auf IR2 bzw. IR3, die jeden Punkt seine “Orthogonal-

projektion” auf eine durch den Ursprung gehende Gerade oder Ebene abbilden.

173

Tabelle der Projektionen


Orthogonalprojektionauf x−Achse

y1 = x1

y2 = 0

(1 00 0

)

Orthogonalprojektionauf y −Achse

y1 = 0y2 = x2

(0 00 1

)

Orthogonalprojektionauf xy − Ebene

y1 = x1

y2 = x2

y3 = 0

1 0 00 1 00 0 0

Orthogonalprojektionauf xz − Ebene

y1 = x1

y2 = 0y3 = x3

1 0 00 0 00 0 1

Orthogonalprojektionauf yz − Ebene

y1 = 0y2 = x2

y3 = x3

0 0 00 1 00 0 1

Definition 20.11 Rotationsoperatoren (Drehungen)

(i) Drehungen in der Ebene um den Ursprung 0 sind Operatoren auf IR2, die jeden Punkt

um einen festen Winkel ϕ drehen.

(ii) Rotationsoperatoren (Drehungen) im Raum um eine feste Rotationsachse durch

den Ursprung 0 sind Operatoren auf IR3, die jeden Punkt um einen festen Winkel ϕ

drehen. Die Rotationschase (Drehachse) wird durch einen Einheitsvektor u = (a, b, c) be-

schrieben.

Drehungen entgegen dem Uhrzeigersinn (im Raum erkennbar durch die Rechte–Hand–Regel)

werden als positiv bezeichnet und mit einem positiven Drehwinkel angegeben (sonst negativ).

174

Rechte–Hand–Regel:

Herleitung der Abbildungsgleichung in der Ebene:

x1 = r cos α y1 = r cos(α + ϕ)

x2 = r sinα y2 = r sin(α + ϕ)

Anwendung der Additionstheoreme ergibt:

y1 = r cos ϕ cos α− r sinϕ sinα = x1 cos ϕ− x2 sinαy2 = r sinϕ cos α + r cos ϕ sinα = x1 sinϕ + x2 cos ϕ

oder in vektorieller Form:

~y =(

y1

y2

)=

cos ϕ − sinϕ

sinϕ cos ϕ

(x1

x2

)=

cos ϕ − sinϕ

sinϕ cos ϕ

~x⇒ [T ] =

cos ϕ − sinϕ

sinϕ cos ϕ

Da die Gleichungen linear sind, sind Drehungen um 0 lineare Operatoren (nicht jedoch Drehun-

gen um M 6= 0). Dies ist auch konstruktiv einzusehen.

Zweite Methode zur Herleitung der Darstellungsmatrix [T ]:

Mittels der Definition von Sinus und Cosinus erkennt man sofort:

T (1, 0) =(cos ϕsin ϕ

)T (0, 1) =

(cos(ϕ+90◦)

cos ϕ

)=

(− sin ϕcos ϕ

)Damit ist [T ]st =

cos ϕ − sinϕ

sinϕ cos ϕ

Die Darstellungsmatrix [T ] einer Drehung um ϕ gegen den Uhrzeigersinn um die Rotationsachse

u = (a, b, c) (Einheitsvektor) ist gegeben durch:

[T ] =

a2(1− cos ϕ) + cos ϕ ab(1− cos ϕ)− c sinϕ ac(1− cos ϕ) + b sinϕ

ab(1− cos ϕ) + c sinϕ b2(1− cos ϕ) + cos ϕ bc(1− cos ϕ)− a sinϕ

ac(1− cos ϕ)− b sinϕ bc(1− cos ϕ) + a sinϕ c2(1− cos ϕ) + cos ϕ

Daraus oder auch mittels elementarer geometrischer Uberlegungen erhalt man folgende

175

Tabelle der Rotationen (Drehungen) (entgegengesetzt dem Uhrzeigersinn)


Drehung um 0um den Winkel ϕ

y1 = x1 cos ϕ− x2 sin ϕy2 = x1 sinϕ + x2 cos ϕ

(cos ϕ − sinϕsinϕ cos ϕ

)

Drehung um ϕum x−Achse

y1 = x1

y2 = x2 cos ϕ− x3 sin ϕy3 = x2 sinϕ + x3 cos ϕ

1 0 00 cos ϕ − sinϕ0 sinϕ cos ϕ

Drehung um ϕum y −Achse

y1 = x1 cos ϕ + x3 sin ϕy2 = x2

y3 = −x1 sinϕ + x3 cos ϕ

cos ϕ 0 sinϕ0 1 0

− sinϕ 0 cos ϕ

Drehung um ϕum z −Achse

y1 = x1 cos ϕ− x2 sin ϕy2 = x1 sinϕ + x2 cos ϕy3 = x3

cos ϕ − sinϕ 0sinϕ cos ϕ 0

0 0 1

Allgemein gilt:

Satz 20.18 Drehungsmatrix

Sei A eine 2 × 2− bzw. 3 × 3−Matrix mit det(A) = +1, deren Spalten paarweise orthogonale

Einheitsvektoren sind. Die Multiplikation mit A beschreibt dann eine Drehung um den Winkel

ϕ mit cos ϕ = sp(A)−12 und (im Raum) um die

Rotationsachse: u = Ax + Atx + (1− sp(A))x

ohne Beweis.

Definition 20.12 Dilatations– bzw. Kontraktionsoperatoren

Dilatationen (Kontraktionen) sind Operatoren T , die jeden Punkt (Vektor) um den Faktor k ≥ 1

strecken bzw. um den Faktor 0 ≤ k ≤ 1 stauchen: T(x) = kx.

Bemerkung: Der gesamte Raum wird gleichzeitig bezuglich des Ursprungs 0 gestreckt bzw.

gestaucht.

176

Stauchung (Kontraktion) Streckung (Dilatation)

k = 0 : T ist Nulloperator

k = 1 : T ist identischer Operator

Tabelle der Kontraktionen und Dilatationen


Kontraktion im IR2(IR3)um Faktor l(0 ≤ k ≤ 1)

y1 = kx1

y2 = kx2

(y3 = kx3)

(k 00 k

)

Dilatation im IR2(IR3)um Faktor k

(k ≥ 1)

y1 = kx1

y2 = kx2

(y3 = kx3)

k 0 00 k 00 0 k

Definition 20.13 Expansions– bzw. Kompressionsoperatoren

Eine Expansion bzw. Kompression in x–Richtung um den Faktor k ist ein Operator

T auf IR2, der die x−Koordinate eines Punktes mit einer positiven Konstanten k > 1 bzw.

0 < k < 1 multipliziert.

Multipliziert man die y−Koordinaten mit k erhalt man analog Expansionen bzw. Kompressionen

in y–Richtung.

Bemerkung: Rechnerisch (T (x1, x2) = (kx1, x2)) wie auch konstruktiv sieht man, daß Ex-

pansionen und Kompressionen linear sind. Die Bilder der Einheitsvektoren T(10

)=

(k0

)und

T(01

)=

(01

)liefern die Standardmatrizen.

177

Tabelle der Kompressionen und Expansionen


Kompression im IR2

in x−Richtungum Faktor k(0 < k < 1)

y1 = kx1

y2 = x2

(k 00 1

)

Kompression im IR2

in y−Richtungum Faktor k(0 < k < 1)

y1 = x1

y2 = kx2

(1 00 k

)

Expansion im IR2

in x−Richtungum Faktor k

(k > 1)

y1 = kx1

y2 = x2

(k 00 1

)

Expansion im IR2

in y−Richtungum Faktor k

(k > 1)

y1 = x1

y2 = kx2

(1 00 k

)

Expansionin x−Richtungum Faktor k1

Kompressionin y−Richtungum Faktor k2

y1 = k1x1

y2 = k2x2

(k1 00 k2

)

Definition 20.14 Scherungen

Scherungen in x–Richtung um den Faktor k sind Operatoren T auf IR2, die jeden Punkt

(x1, x2) parallel in x−Richtung um kx2 in den Punkt (x1 + kx2, x2) verschieben.

Es ist T (x1, x2) = (x1 + kx2, x2), daher sind Scherungen linear. Je weiter man sich von der

x−Achse entfernt, umso mehr wird ein Punkt verschoben. Aus T (1, 0) = (1, 0) und T (0, 1) =

(k, 1) ergibt sich die Standardmatrix. Analog in y−Richtung.

178

Tabelle der Scherungen


Scherung im IR2

in x−Richtungum Faktor k > 0

y1 = x1 + kx2

y2 = x2

(1 k0 1

)

Scherung im IR2

in y−Richtungum Faktor k > 0

y1 = x1

y2 = kx1 + x2

(1 0k 1

)

Expansion im IR3

in xy−Richtungum Faktor k

y1 = x1 + kx3

y2 = x2 + kx3

y3 = x3

k 0 k0 1 k0 0 1

Beispiel: Bestimme die Darstellungsmatrix jenes Operators auf IR2, der jeden Punkt zuerst um

den Faktor 3 in x−Richtung verzerrt (“schert”) und dann an y = x spiegelt.

Scherung [T1] =

1 3

0 1

,

Reflextion [T2] =

0 1

1 0

⇒ [T ] = [T2][T1] =

0 1

1 0

1 3

0 1

=

0 1

1 3

Beachte: Es ist [T2][T1] 6= [T1][T2], Reflexion und Scherung sind also nicht vertauschbar.

Satz 20.19 Geometrische Deutung von Elementarmatrizen

Die Multiplikation mit einer Elementarmatrix bedeutet geometrisch:

(i) Scherung in eine Koordinatenrichtung

(ii) Spiegelung an y = x

(ii) Kompression in eine Koordinatenrichtung

(iv) Expansion in eine Koordinatenrichtung

(v) Spiegelung an einer Koordinantenrichtung

(vi) Kompression oder Expansion in einer Koordinatenrichtung und anschließend eine Spiege-

lung an einer Koordinatenachse.

179

Beweis: Jede 2× 2−Elementarmatrix entsteht aus der I2 durch elementare Zeilenumformungen,

daher konnen nur folgende Elementarmatrizen auftreten: 1 0

k 1

︸︷︷︸Scherung

y−Richtung

1 k

0 1

︸︷︷︸Scherung

x−Richtung

0 1

1 0

︸︷︷︸

Spiegelung an

y = x

k 0

0 1

︸︷︷︸wenn k > 0

Kompression (k ≤ 1)

Expansion (k ≥ 1)

in x−Richtung

1 0

0 k

︸︷︷︸

k > 0

Kompression

Expansion

in y−RichtungIst bei den letzten beiden Matrizen k < 0, dann setzen wir k = −k1 mit k1 > 0 und formen um k 0

0 1

=

−k1 0

0 1

=

−1 0

0 1

︸︷︷︸Spiegelung an

y−Achse

k1 0

0 1

︸︷︷︸

Kompresion (k1 ≤ 1)

Expansion (k1 ≥ 1)

in x−Richtung 1 0

0 k

=

1 0

0 −k1

=

1 0

0 −1


x−Achse

1 0

0 k1

︸︷︷︸Kompresion

Expansion

in y−RichtungFur k = −1 ist:(−1 0

): Spiegelung an y−Achse und 1 0

0 −1

: Spiegelung an x−Achse

Damit sind alle Falle aufgezahlt.

180

Satz 20.20 Geometrische Deutung von invertierbaren Matrixabbildungen

Die Multiplikation mit einer invertierbaren Matrix bedeutet geometrisch eine geeignete Folge von

Scherungen, Kompressionen, Expansionen und Spiegelungen.

Beweis: A invertierbar ⇒ A ist zeilenaquivalent zur Einheitsmatrix ⇔ A ist Produkt von Elementarmatrizen

(siehe ??), die Behauptung folgt aus dem vorhergehenden Satz.

Beispiel: Beschreibe die geometrische Wirkung des Operators mit der Standardmatrixdarstel-

lung A =

1 2

3 4

oder aquivalent dazu: Beschreibe die geometrische Wirkung der Multipli-

kation mit der Matrix A.

Losung: Stelle A als Produkt von Elementarmatrizen dar, indem man sie auf die kanonische

Staffelform (= identische Matrix bei invertierbaren Matrizen).

1 2 −3

3 4

1 2

0 −2 : −2

1 2

0 1 −2

1 0

0 1

E1 =

1 0

−3 1

E2 =

1 0

0 −12

E3 =

1 −2

0 1

E3E2E1A = I2 ⇒

A = E−11 A−1

2 E−13 =

1 0

3 1

1 0

0 −2

1 2

0 1

=

1 0

3 1

︸︷︷︸Scherung in

y−Richtung

um k = 3

1 0

0 −1


y−Richtung

1 0

0 2

︸︷︷︸

Expansion in

y−Richtung

um k = 2

1 2

0 1

︸︷︷︸Scherung in

x−Richtung

um k = 2

Die durch invertierbare 2× 2−Matrizen induzierten linearen Abbildungen (= Matrixmultiplika-

tionen mit invertierbaren Matrizen) sind Isomorphismen auf IR2, daher gelten die Eigenschaften

der Teilraumtreue, Dimensionstreue, Parallelentreue, ...

Zusammenfassung fur die Ebene:

181

Satz 20.21 Geometrische Eigenschaften von invertierbaren Matrizen

Fur die Multiplikation TA mit einer invertierbaren 2× 2−Matrix A gilt:

(i) TA bildet Geraden auf Geraden ab.

(ii) Das Bild einer Geraden durch den Ursprung ist wieder eine solche.

(iii) Parallele Geraden werden auf parallele Geraden abgebildet.

(iv) Die Strecke PQ wird auf die Strecke TA(P )TA(Q) abgebildet.

(v) Drei Punkte sind genau dann kollinear, wenn ihre Bilder kollinear sind.

(vi) Dreiecke (Parallelogramme) werden auf Dreiecke (Parallelogramme) abgebildet.

Beispiel: Die invertierbare Matrix A =

1 2

3 4

bildet die Gerade g : y = 3x + 1 wieder auf

eine Gerade ab. Bestimme deren Gleichung.

Losung: (x, y) sei ein Punkt auf y = 3x + 1 und (x′, y′) sein Bild unter der Multiplikation mit

A. Es sit x′

y′

=

1 2

3 4

x

y

⇔ x

y

=

1 2

3 4

−1 x′

y′

=12

−4 2

3 −1

x′

y′

y = 3x + 1⇔ 3x− y = −1⇔ (3,−1)

x

y

= −1⇔ 12(3,−1)

−4 2

3 −1

x′

y′

= −1⇔

(−15, 7)

x′

y′

= −2⇔ −15x′ + 7y′ = −2⇔ g′ : 15x′ − 7y′ = 2 :

Probe: Es ist P (1/4) ∈ g. P ′ := TA(P ) =

1 2

3 4

1

4

=

9

19

⇔ P ′(9/19).

P ′ ∈ g′ : 9 · 15− 7 · 19 = 135− 133 = 2.

182

VI VEREINFACHEN VON MATRIZENIn diesem Kernstuck der Linearen Algebra wird gezeigt, wie man eine Matrix A durch Links–

und Rechtsmultiplikation mit regularen Matrizen P und Q auf “einfachere” Formen (die man

dann Normalformen nennt) transformieren kann. Mit “einfach” meint man, daß die neue

Matrix QAP als Eintragungen moglichst viele Nullen und sonst nur Einser, wenn moglich nur

in der Hauptdiagonale enthalten soll, denn mit Diagonalmatrizen laßt es sich besonders leicht

rechnen. Die Transformation A → QAP nennt man dann Diagonalisieren. P und Q sollen

deshalb regular sein, damit man durch die Transformation den Rang der Ausgangsmatrix, die

wichtigste Kennzahl einer Matrix, nicht verandert. Außerdem existieren dann auch die inversen

Matrizen P−1 und Q−1, durch die die Transformation wieder ruckgangig gemacht werden kann:

A→ QAP = B ⇒ Q−1BP−1 = A.

Wozu braucht man einfache Matrizen? Ein Hauptziel der Linearen Algebra ist es, lineare Glei-

chungssysteme, bzw. mehrere davon zusammengefaßt in Matrixgleichungen, zu losen. Eine be-

liebte Strategie dafur ist das Substituieren, um das Losen zu vereinfachen. Gegeben sei die

Matrixgleichung

Y = AX

(Oft sind Y und X “nur” Vektoren ~y, ~x, z.B. bei Differentialgleichungen ~y′ = A~x). Durch Sub-

stitution X = PX bzw. Y = PY oder Y = QY , erhalt man: PY = APX ⇔ Y = (P−1AP )X

oder QY = APX ⇔ Y = (Q−1AP )X.

Die “neue” Gleichung wird also durch eine zur “alten” Gleichung ahnlichen bzw. aquivalenten

Matrix beschrieben. Ist P−1AP bzw. Q−1AP moglichst einfach (z.B. eine Diagonalmatrix), dann

kann die neue Gleichung leichter als die alte gelost werden, aus den Losungen X, Y erhalt man

die ursprunglichen Losungen einfach durch Multiplikation mit P : X = PY , Y = PY oder

Y = QY .

Neben dem leichten Losen von Gleichungssystemen kann man mit einfachen Matrizen auch

leichter Matrixfunktionen berechnen, die ihrerseits wiederum beim Losen von Differential-

gleichungssystemen benotigt werden.

Das Vereinfachen kann dabei auf 4 Arten erfolgen, je nachdem, welche Matrizen P,Q vom Pro-

blem her zugelassen sind. Oft ist nur Q = P moglich (man spricht dann von Ahnlichkeitstransformationen),

oder P muß eine unitare Matrix sein (wenn Abstande oder Winkel erhalten bleiben sollen) oder

Q = P t. Man unterscheidet daher vier Transformationsarten von Matrizen.

183

Es wird sich zeigen, daß man jede Matrix durch eine Aquivalenztransformation auf eine Dia-

gonalmatrix mit hochstens Einsern in der Hauptdiagonalen transformieren kann (Normalfor-

mensatz), mit Ahnlichkeitstransformationen geht dies im allgemeinen nicht. Die nachst einfa-

cheren Matrizen nach den Diagonalmatrizen sind jene, die Blocke (mit vielen Nullen) langs

der Hauptdiagonale enthalten (Blockdiagonalisieren). Das beste Resultat, das man durch

Ahnlichkeitstransformation erreichen kann, ist wohl der Jordansche Normalformensatz. Oft

reicht es aus, Matrizen auf Dreiecksform zu bringen (Triangulieren).

Alle diese Fragen sind eng verbunden mit der Suche nach moglichst einfachen Matrixdarstel-

lungen von gewissen linearen Abbildungen, so daß es zu jedem matrizentheoretischem Satz auch

eine abbildungstheoretische Formulierung gibt (z.B. Spektralsatze fur selbstadjungierte bzw.

normale Operatoren). In der Regel werden wir die abbildungstheoretische Formulierung be-

weisen, die matrizentheoretische folgt dann als ein Spezialfall.

184

21 Diagonalisieren

Ist A eine Diagonalmatrix, dann werden nummerische Berechnungen besonders einfach:

A =

λ1 0

. . .

0 λn

⇒ A−1 =

λ−1

1 0. . .

0 λ−1n

und Ak =

λk

1 0. . .

0 λkn

Auch die Losungen von A~x = ~b konnen einfach abgelesen werden. Man wird daher bestrebt sein,

eine Matrix A durch Bildung von QAP auf Diagonalgestalt zu bringen. Leider geht dies nicht

immer.

Je nachdem, mit welchen Matrizen P,Q man eine gegebene Matrix con links und rechts multi-

pliziert, unterscheidet man folgende Arten von Matrixtransformation.

Definition 21.1 Matrixtransformationen

A sei eine rechteckige Matrix und P,Q entsprechende quadratische Matrizen.

(i) Der Ubergang von A zu QAP mit regularem P,Q heißt Aquivalenztransformation der

Matrix A. Im Folgenden seien A,P, Q quadratische n× n−Matrizen.

(ii) Der Ubergang von A zu P−1AP mit regularem P heißt Ahnlichkeitstransformation

der Matrix A.

(iii) Der Ubergang von A zu P−1AP mit orthogonalem (unitarem) P heißt orthogonale (unitare)

Ahnlichkeitstransformation der Matrix A.

(iv) Der Ubergang von A zu P ∗AP mit regularem P heißt Kongruenztransformation der

Matrix A.

Diesen vier Transformationen entsprechen vier Relationen zwischen Matrizen, von denen uns

die ersten beiden schon bekannt sind.

185

Definition 21.2 Matrixrelationen

A und B seien zwei m× n−Matrizen, Q sei eine m×m− und P eine n× n−Matrix.

1. B heißt aquivalent zu A, wenn B aus A durch eine Aquivalenztransformation hervorgeht.

Symbolisch:

B ∼1 A⇔ ∃ regulares Q,P : B = QAP

2. B heißt ahnlich zu A, wenn B aus A durch eine Ahnlichkeitstransformation hervorgeht.

Symbolisch:

B ∼2 A⇔ ∃ regulare P : B = P−1AP

3. B heißt orthogonal (unitar) ahnlich zu A, wenn B aus A durch eine orthogonale

(unitare) Ahnlichkeitstransformation hervorgeht. Symbolisch:

B ∼3 A⇔ ∃ orthogonales (unitares) P : B = P−1AP = P ∗AP

4. B heißt kongruent zu A, wenn B aus A durch eine Kongruenztransformation hervorgeht.

Symbolisch:

B ∼4 A⇔ ∃ regulares P : BP ∗AP

Unitar ahnliche Matrizen sind also ein Spezialfall von kongruenten Matrizen.

Da regulare bzw. orthogonale (unitare) Matrizen bezuglich der Multiplikation eine Gruppe bil-

den, handelt es sich bei allen Relationen um Aquivalentrelationen.

21.1 Aquivalentes Diagonalisieren

Mittels Aquivalenztransformationen erhalt man das Traumresultat: Jede Matrix kann auf Dia-

gonalform mit nur Einsern in der Hauptdiagonale gebracht werden.

Wir zeigen dazu, daß jede lineare Abbildung f : V → W durch eine geschickte Wahl von

Basisvektoren durch eine Diagonalmatrix dargestellt werden kann. Entscheidend dafur ist nur

der Rang von f . Wegen der entsprechenden Formeln uber die Anderung der Matrixdarstellung

bei Basiswechsel (siehe Satz 18.2) erhalt man dadurch eine Aussage uber die Moglichkeiten einer

Aquivalenztransformation von Matrizen.

186

Satz 21.1 Normalformensatz

(i) Abbildungstheoretische Formulierung:

f : V →W sei eine lineare Abbildung mit rg(f) = r. Dann existieren solche Basen von V

und W , bezuglich der die Matrixdarstellung [f ] von f folgende Form besitzt.

[f ] =

Ir O

O O

mit Ir =

1 0

...

0 1

︸︷︷︸

r

, d.h. Ir ist die r−stufige Einheitsmatrix

(ii) Matrizentheoretische Formulierung:

Jede m× n−Matrix A vom Rang r ist aquivalent zu

Ir O

O O

, d.h.,

rg(A) = r⇒ A ∼1

Ir O

O O

. Ir O

O O

heißt die Normalformendarstellung von f bzw. A.

Beweis zu (i):

Sei ker(f) =< u1, . . . , un−r > (moglich, weil rg(f) = r und dim(V ) = n). Nach dem Basiserganzungssatz kann

man {u1, . . . , un−r} zu einer Basis von V n erganzen, wir schreiben die erganzenden Vektoren zu Beginn:

V n =< v1, . . . , vr, u1, . . . , un−r > .

Es ist dann {f(v1), . . . , f(vr)} eine Basis von im(f). Diese kann zu einer Basis von W erganzt werden. Wir

schreiben die erganzenden Vektoren am Ende an:

W m =< f(v1), . . . , f(vr), w1, . . . , wm−r > .

Fur diese Basen gilt:

f(v1) = 1 · f(v1)+ . . . +0 · f(vr)+ . . . 0 · wm−r

......

......

f(v1) = 0 · f(v1)+ . . . +1 · f(vr)+ . . . 0 · wm−r

0 = f(u1) = 0 · f(v1)+ . . . +0 · f(vr)+ . . . 0 · wm−r

......

......

...

0 = f(un−r) = 0 · f(v1)+ . . . +0 · f(vr)+ . . . 0 · wm−r

Daraus folgt nach Definition der Matrixdarstellung die behauptete Normalform.

187

Beweis zu (ii):

Fasse A als Abbildung TA : Kn → Km mittels TA(~x) = A · ~x auf, dann ist A = [TA]st. Die Anwendung von (i)

ergibt (ii).

Damit erhalt man folgende Aquivalenzinvariante fur Matrizen:

Satz 21.2 Aquivalenzsatz fur Matrizen

Zwei Matrizen A und B sind genau dann aquivalent, wenn sie gleichen Rang haben.

Beweis:

1. Sei rg(A) = rg(B) = r ⇒ nach Satz 21.1

A ∼1

Ir 0

0 0

und B ∼1

Ir 0

0 0

⇒ A ∼1

Ir 0

0 0

∼1 B ⇒ A ∼1 B.

2. Seien A und B aquivalent ⇒ ∃ regulare Q und P mit B = QAP ⇒

rg(B) = rg(QAP ) = rg[(QA)P ] = rg(QA) = rg(A).

Bemerkung:

Aus der Gleichheit der Range folgt also die Aquivalenz der Matrizen, nicht aber die Ahnlichkeit

(siehe Satz 17.2).

Algorithmus zum aquivalenten Diagonalisieren:

Da jede regulare Matrix Produkt von Elementarmatrizen ist, erhalt man aus dem Normalfor-

mensatz:QAP = ErEr−1 . . . E2E1AE′

1E′2 . . . E′

s−1E′s =

= ErEr−1 . . . E2E1Im︸︷︷︸Q

A InE′1E

′2 . . . E′

s−1E′s︸︷︷︸

P

=

Ir 0

0 0

Nun ruft bekanntlich die Linksmultiplikation mit Elementarmatrizen eine Zeilenumformung, ei-

ne Rechtsmultiplikation eine Spaltenumformung hervor. Bringt man daher A durch elementare

Zeilen– und Spaltenumformungen auf die Normalform (dies ist moglich wegen des Normalfor-

mensatzes,) so erhalt man das gesuchte Q durch Anwenden derselben Zeilenumformungen auf

die Einheitsmatrix Im und P durch Anwenden derselben Spaltenumformungen auf In: Dies kann

simultan erfolgen, wenn man Im, A, In nebeneinander anschreibt:

188

Im A In

↓ ↓ ↓

Zeilenumformungen Zeilen– und Spaltenumformungen

Spaltenumformungen

↓ ↓ ↓

Q

Ir 0

0 0

P

Beispiel:

Transformiere A =

0@ 1 2 3

1 0 1

1A auf Normalform.

1 0 1 2 3 1 0 0 −Z1 + Z2

0 1 1 0 1 0 1 0

0 0 1

1 0 1 2 3 1 0 0 −2S1 + S2,−3S1 + S3

−1 1 0 −2 −2 0 0 1

0 0 1

1 0 1 0 0 1 −2 −3

−1 1 0 −2 −2 0 1 0 Z2 : (−2)

0 0 1

1 0 1 0 0 1 −2 −3

12

− 12

0 1 1 0 1 0 −S2 + S3

0 0 1

1 0 1 0 0 1 −2 −1

Q = 12

− 12

0 1 0 0 1 −1 = P

0 0 1

Probe:

0@ 1 0

12

− 12

1A0@ 1 2 3

1 0 1

1A0BBB@

1 −2 −1

0 1 −1

0 0 1

1CCCA =

0@ 1 0 0

0 1 0

1AEine andere Methode bestunde darin, die Basis des Kerns und des Bildes von A bzw. f wie

im Beweis zu 21.1 geeignet zu erganzen. Daraus sieht man auch, daß Q und P nicht eindeutig

bestimmt sind.

Durch zweimaliges Anwenden dieses Verfahrens erhalt man die Transformationsmatrizen Q und

P , die zwei aquivalente Matrizen B und A ineinander uberfuhren:

189

Ist rg(A) = r ⇒ ∃Q1, P1 : Q1AP1 =

Ir 0

0 0

Es ist aber auch rg(B) = r ⇒ ∃Q2, P2 : Q2BP2 =

Ir 0

0 0

⇒ B = Q−12

Ir 0

0 0

P−12

und damit

B = Q−12

Ir 0

0 0

P−12 = Q−1

2 Q1︸︷︷︸Q

A P1P−12︸︷︷︸

P

Beispiel:

A =

1 2 3

1 0 1

, B =

5 2 3

4 1 3

.

Wegen rg(A) = rg(B) = 2 sind A und B aquivalent.

Bestimme jene regularen Matrizen Q,P mit B = QAP .

Losung: Wie im obigen Beispiel erhalt man:

13

−1 2

2 −1

︸︷︷︸

Q2

5 2 3

4 1 3

0 1 −1

−1 0 1

1 −1 1

︸︷︷︸

P2

=

1 0 0

0 1 0

Damit ist Q = Q−12 Q1 =

1 2

2 1

1 012 −1

2

=

2 −152 −1

2

und

P = P1P−12 =

1 −2 −1

0 1 −1

0 0 1

1 0 1

2 1 1

1 1 1

=

−4 −3 −2

1 0 0

1 1 1

Probe:

B =

5 2 3

4 1 3

=

2 −152 −1

2

1 2 3

1 0 1

−4 −3 −2

1 0 0

1 1 1

= QAP

190

21.2 Ahnliches Diagonalisieren

In vielen Fallen hat man nicht zwei regulare Matrizen Q und P zum Diagonalisieren zur Verfugung.

Will man z.B. einen linearen Operator T : V → V , also eine Abbildung zwischen ein– und dem-

selben Vektorraum, durch eine Diagonalmatrix darstellen, dann hat man nur einen Basiswechsel,

beschreibbar durch eine regulare Matrix P , zur Verfugung. Was gilt nun fur solche Basisvektoren,

bezuglich der eine Diagonalmatrixdarstellung moglich ist?

Sei B = {b1, b2, . . . , bn} eine Basis von V so, daß fur T : V → V gilt:

[T ]B =

λ1

. . . 0

λ2

0. . .

λn

⇔

T (b1) = λ1b1

...

T (bn) = λnbn

(Dies gilt wegen der Definition der Matrixdarstellung: Spalten = Koordinaten der Bilder der

Basisvektoren.)

Also: Im Diagonalisierungsfall sind die Basisvektoren zugleich Eigenvektoren des Operators.

Die nachsten Satze werden zeigen, daß folgende zwei Probleme aquivalent sind:

Das Eigenwertproblem: Existiert zu einer gegebenen n× n− Matrix A n l.u. Eigenvektoren

bzw. zu einem gegebenen Operator T : V → V eine Basis aus Eigenvektoren?

Das Diagonalisierungsproblem:

abbildungstheoretisch formuliert: Existiert zu einem gegebenen Operator T : V → V eine

Basis von V , bezuglich der T durch eine Diagonalmatrix dargestellt werden kann?

matrizentheoretisch formuliert: Existiert zu einer gegebenen n × n−Matrix A eine regulare

Matrix P so, daß P−1AP Diagonalgestalt hat?

Definition 21.3 (i) Ein Operator T : V → V heißt diagonalisierbar, wenn es eine Basis

B = {b1, . . . , bn} von V gibt, bezuglich der sich T durch eine Diagonalmatrix beschreiben

laßt. Also:

191

[T ]B =

λ1 0

. . .

0 λn

= diag(λ1, . . . , λn)

(ii) Eine Matrix A ∈ M(n × n, K) heißt diagonalisierbar, wenn es eine regulare Matrix P

gibt, mit P−1AP = diag(λ1, . . . , λn).

Damit: A ist diagonalisierbar ⇔ A ist ahnlich zu einer Diagonalmatrix.

Bemerkung:

Das Wort “Diagonalisieren” ist reserviert fur das Diagonalisieren mittels einer Ahnlichkeitstransformation.

Satz 21.3 Erstes Diagonalisierbarkeitskriterium

(i) Ein linearer Operator T : V → V ist genau dann diagonalisierbar, wenn V eine Basis

B aus Eigenvektoren von T besitzt. Die Diagonalelemente der Matrixdarstellung [T ]B

sind die zugehorigen Eigenwerte von T :

[T]B = diag(λ1, . . . , λn), λi EW von T

(ii) A ∈M(n×n, K) ist genau dann diagonalisierbar, wenn A n l.u. Eigenvektoren besitzt.

Die Diagonalelemente sind die zugehorigen Eigenwerte. Die Spalten der Transformations-

matrix P sind gerade die Eigenvektoren.

P−1AP = diag(λ1, . . . , λn) mit P = (x1| . . . |xn), xi EV zum EW λi von A(i = 1, . . . ,n)

Beweis:

1. T sei diagonalisierbar ⇒ ∃ Basis B = (b1, . . . , bn) mit:

[T ]B = diag(λ1, . . . , λi, . . . , λn) ⇒

[T (bi)]B = [T ]B · [bi]B =

0BBBBBBBBBB@

λ1

. . .

λi

. . .

λn

1CCCCCCCCCCA

0BBBBBBBBBB@

0

...

1

...

0

1CCCCCCCCCCA=

0BBBBBBBBBB@

0

...

λi

...

0

1CCCCCCCCCCA⇒

T (bi) = λibi ⇒ bi ist EV von T zum EW λi.

192

2. Sei B = (b1, . . . , bn) eine Basis von V aus EV von T zu den EW λ1, . . . , λn ⇒ T (bi) = λibi(i = 1, . . . , n) ⇒

T (bi) = 0 ·b1 + . . .+λibi + . . .+0 ·bn ⇒ [T (bi)]B = (0, . . . , λi, . . . , 0) ⇒ [T ]B = diag(λ1, . . . , λi, . . . , λn) ⇒ T

ist diagonalisierbar.

3. Der Beweis fur Matrizen wird wie immer so gefuhrt, daß man A als Abbildung von Kn → Kn auffaßt:

TA : Kn → Kn mit TA(~x) = A · ~x; bezuglich der Standardbasis besitzt dann TA die Matrixdarstellung A.

Es gilt nun folgende Aquivalenzkette: Matrix A diagonalisierbar ⇔ Abbildung TA diagonalisierbar ⇔ Kn

besitzt Basis aus Eigenvektoren von A ⇔ A besitzt n l.u. EV ~x1, . . . , ~xn.

P sei die Ubergangsmatrix von der Standardbasis zur Basis aus EV, also sind die Spalten von P gerade

die EV von A : P = ( ~x1| ~x2| . . . | ~xn).

Beispiel: Ist A =(1 23 2

)diagonalisierbar?

pA(X) = X2 − 3X − 4 = (X − 4)(X + 1), EW: λ1 = 4, λ2 = −1

EV:

2

3

,

1

−1

l.u. ⇒ A diagonalisierbar

P =

1 2

−1 3

⇒ P−1 = 15

3 −2

1 1

⇒ P−1AP =

−1 0

0 4

Satz 21.4 Eine hinreichende Bedingung fur die Diagonalisierung:

(i) Ein linearer Operator T : V → V eines n−dimensionalen Vektorraumes V ist diagonali-

sierbar, wenn er n verschiedene Eigenwerte λ1, . . . λn besitzt.

(ii) Eine quadratische n×n−Matrix ist diagonalisierbar, wenn sie n verschiedene EW besitzt.

Beweis: Zu jedem EW ∃ EV, diese sind l.u. wegen der Verschiedenheit der EW, also hat V bzw.

Kn n l.u. EV, je n l.u. Vektoren bilden aber eine Basis, also gibt es unter diesen Bedingungen

eine Basis aus Eigenvektoren. Nach 21.3 folgt die Diagonalisierbarkeit.

193

Satz 21.5 Zweites Diagonalisierbarkeitskriterium

(Hauptsatz der Diagonalisierbarkeit)

Ein linearer Operator T : V → V eines n−dimensionalen Vektorraumes uber K bzw.

eine n× n−Matrix A uber einem Korper K ist genau dann diagonalisierbar, wenn

(i) das charakteristische Polynom in K[X] in Linearfaktoren zerfallt:

p(X) = (X − λ1)(X − λ2) . . . (X − λn) und

(ii) wenn fur jeden Eigenwert λ seine geometrische Vielfachheit mit seiner algebraischen

Vielfachheit ubereinstimmt. Das heißt, ist k die algebraische Vielfachheit des Eigen-

wertes λ, dann muß gelten:

k = dim Eλ ⇔ rg(T − λid) = n− k bzw. rg(A− λIn) = n− k.

Man sagt auch: Der Rangabfall von T beim Ubergang zu T − λid muß so groß wie die

algebraische Vielfachheit des EW λ sein.

Beweis: Daß das charakteristische Polynom in Linearfaktoren zerfallt, ist fur die Diagonalisier-

barkeit von T eine notwendige Bedingung. Sei dazu B irgendeine Basis von V und

Sei [T ]B =

λ1

. . . 0

λ2

0. . .

λn

⇒

pT [X] = |[T ]B −XIn| =

∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣

λ1 −X

. . . 0

λi −X

0. . .

λn −X

∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣= (λ1 −X) . . . (λn −X),

d.h. pT [X] ist ein Produkt von Linearfaktoren. Da das charakteristische Polynom eine Ahnlichkeitsvariante

ist, gilt dies fur jede Basis.

Zerfallt also das charakteristische Polynom von T nicht in Linearfaktoren, dann ist

T nicht diagonalisierbar.

Der Zerfallen in Linearfaktoren allein ist aber zu wenig, um die Diagonalisierbarkeit zu garan-

tieren, man muß ja nach 21.3 n l.u. EV erhalten. Dies garantiert aber gerade die Bedingung

194

(ii):

Seien λ1, . . . , λr die verschiedenen Eigenwerte von T bzw. A (moglich wegen des Zerfallens von

pT (x) in Linearfaktoren) und ni bzw. ki die geometrische bzw. algebraische Vielfachheit von

λi(i = 1, . . . , r):

{x(1)1 , . . . x

(1)n1 } sei Basis von Eλ1

{x(2)1 , . . . x

(2)n2 } sei Basis von Eλ2

......

{x(r)1 , . . . x

(r)nr } sei Basis von Eλr

ni = geom. Vielfachheit von λi

Dann ist

B = {x(1)1 , . . . , x(1)

n1, x

(2)1 , . . . , x(2)

n2, . . . , x

(r)1 , . . . x(r)

nr}

eine l.u. Menge von EV, denn:

Sei

(λ1x(1)1 , . . . , λn1x

(1)n1

+ µ1x(2)1 + . . . , +µn2x

(2)n2

+ . . . + ν1x(r)1 + . . . + νnrx

(r)nr

= 0 = 0 + . . . + 0.

Weil die Summe von Eigenraumen direkt ist (19.13), folgt

λ1x(1)1 + . . .+ λn1x

(1)n1 = 0 ⇒ alle λi = 0

......

...

ν1x(r)1 + . . .+ νnrx

(r)nr = 0 ⇒ alle νi = 0

Insgesamt ist also B l.u.

Nun sind die geometrischen Vielfachheiten ni ≤ ki (19.10.iii), daher gilt fur die Summe l der

geometrischen Vielfachheiten:

l := n1 + n2 + . . . + nr ≤ k1 + k2 + . . . + kr = Grad pT (λ) = dim V = n

Damit erhalten wir die entscheidende Schlußkette:

T diagonalisierbar ⇔ T besitzt Basis aus EV ⇔ B ist Basis in V (mehr l.u. EV gibt es nicht)

⇔ l = n1 + . . . + nr = dim V = n⇔ ni = ki ∀i. Ware namlich ein nj 6= lj , dann kann nj nach

19.10 (iii) nur kleiner als lj sein ⇒ l < n⇒ B ware keine Basis von V .

195

Die zweite Bedingung rg(T−λid) = n−k, d.h., der Rangabfall um die algebraische Vielfachheit,

garantiert, daß man genug, namlich n l.u. Eigenvektoren erhalt, so daß man eine Basis aus

Eigenvektoren konstruieren kann. Dies kann man auch so ausdrucken:

Satz 21.6 Drittes Diagonalisierbarkeitskriterium

Ein linearer Operator T : V → V bzw. eine quadratische n×n−Matrix A uber K ist genau dann

diagonalisierbar, wenn das charakteristische Polynom in Linearfaktoren zerfallt und V bzw. Kn

die direkte Summe seiner Eigenraume ist.

V = Eλ1 ⊕Eλ2 ⊕ . . .⊕Eλr .

Beweis: Die Bezeichnungen seien wie im vorigen Satz.

1. T diagonalisierbar ⇔ ni = ki ⇒ dim(Eλ1 ⊕ . . . ⊕ Eλr) = dim Eλ1 + . . . + dim Eλr =

n1 +n2 + . . .+nr = k1 +k2 + . . .+kr = n. Weil Eλ1⊕ . . .⊕Eλr CV ⇒ Eλ1⊕ . . .⊕Eλr = V .

2. Ist V = Eλ1 ⊕ . . . ⊕ Eλr ⇒ n1 + n2 + . . . + nr = n = k1 + . . . + kr. Wegen ni ≤ ki folgt

daraus ni = ki ⇒ T ist diagonalisierbar.

Algorithmus zur Diagonalisierung einer n × n−Matrix A oder eines linearen Operators T

eines n−dimensionalen Vektorraumes.

Schritt 1: Bestimme alle verschiedenen Eigenwerte λ1, . . . , λr von A bzw. T (z.B. als Nullstellen

des charakteristischen Polynoms; ist ein schwieriges Problem, weil eine Gleichung n−ten

Grades vorliegt).

Schritt 2: Bestimme n l.u. Eigenvektoren ~x1, . . . , ~xn von A als Losungen der homogenen LGS:

(A− λiIn)~x = ~0 fur i = 1, . . . , r (dies ist moglich wegen∑

ni = n).

Schritt 3: Bilde die Matrix P mit den Eigenvektoren als Spaltenvektoren:

P = ( ~x1| ~x2| . . . | ~xn) bzw. die Basis B = { ~x1, . . . , ~xn} von Kn.

Schritt 4: Das Produkt P−1AP ist dann eine Diagonalmatrix mit den Eigenwerten als Diago-

nalelemente, jeden sooft angeschrieben, wie die algebraische Vielfachheit angibt.

196

Beispiel A:

a={{2,2,1},{1,3,1},{1,2,2}};a//MatrixForm2 2 1

1 3 1

1 2 2

ew=Eigenvalues[a]

{1, 1, 5}

n1=NullSpace[a-1*IdentityMatrix[3]]

{{−1, 0, 1} , {−2, 1, 0}}

(* Der Eigenwert l1=1 hat algebraische und geometrische Vielfachheit gleich 2. *)

n2=NullSpace[a-5*IdentityMatrix[3]]

{{1, 1, 1}}

(* Der Eigenwert l2=5 hat algebraische und geometrische Vielfachheit gleich 1. *)

{ew,ev}=Eigensystem[a]

{{1, 1, 5} , {{−1, 0, 1} , {−2, 1, 0} , {1, 1, 1}}}

(* Transformationsmatrix p: *)

p=Transpose[{ev[[1]],ev[[2]],ev[[3]]}];p//MatrixForm−1 −2 1

0 1 1

1 0 1

d=Inverse[p].a.p;d//MatrixForm

1 0 0

0 1 0

0 0 5

Beispiel B:

a={{19,-9,-6},{25,-11,-9},{17,-9,-4}};

ew=Eigenvalues[a]

{1, 1, 2}

(* Der Eigenwert 1 hat die algebraische Vielfachheit 2 *)

n=NullSpace[a-ew[[1]]*IdentityMatrix[3]]

{{3, 4, 3}}

(* Die geometrische Vielfachheit des Eigenwertes 1

ist nur 1, a ist daher nicht diagonalisierbar. *)

197

Zum Schluß geben wir noch ein Kriterium mittels des Minimalpolynoms an:

Satz 21.7 Viertes Diagonalisierbarkeitskriterium

Ein linearer Operator T : V → V ist genau dann diagonalisierbar, wenn sein Minimalpolynom

uber dem Skalarkorper K in verschiedene Linearfaktoren zerfallt.

ohne Beweis

21.3 Orthogonales (Unitares) Diagonalisieren

Nachdem zweiten Diagonalisierbarkeitskriterium erhalt man genau dann genug Eigenvektoren,

wenn die geometrische Vielfachheit eines jeden Eigenwertes gleich der algebraischen Vielfachheit

ist. Es ist nun uberraschend, daß dies fur symmetrische bzw. hermitesche Matrizen stets

der Fall ist! Diese konnen also immer diagonalisiert werden und dies sogar mit orthogonalen

(unitaren) Matrizen. Dementsprechend gibt es zu selbstadjungierten Operatoren stets eine

Basis aus orthonormalen Eigenvektoren! Dies ist der eigentliche Hauptsatz der Linearen

Algebra.

Satz 21.8 Spektralsatz fur selbstadjungierte Operatoren

(Hauptsatz der Linearen Algebra)

T : V → V sei ein selbstadjungierter Operator eines endlichdimensionalen Skalarproduk-

traumes V uber K = IR bzw. IC mit den r verschiedenen EW λ1, . . . , λr und den Eigenraumen

Eλ1 , . . . , Eλr (wegen der Selbstadjungiertheit sind alle EW immer reell!)

(i) (Basisform):

V hat eine Basis B aus orthonormalen Eigenvektoren von T .

Oder: Jede hermitsche Matrix ist orthogonal bzw. unitar ahnlich zu einer reellen

Diagonalmatrix, je nachdem, ob K = IR oder K = IC ist.

[T]B = diag(λ1, . . . , λ1, . . . , λr, . . . , λr), λi ∈ IR

Auch so (Hauptsatz der Linearen Algebra):

Jede reell symmetrische Matrix kann orthogonal diagonalisiert werden.

Jede hermitsche Matrix kann unitar diagonalisiert werden.

198

(ii) (Direkte Zerlegungsform):

V ist die orthogonale Summe der Eigenraumen von T : V = Eλ1©⊥ . . .©⊥ Eλr.

(iii) (Projektionsform):

Sei Pi die Orthogonalprojektion auf den i−ten Eigenraum Eλi. Dann ist {P1, . . . , Pr} ein

orthogonale Menge von Projektionen mit P1 + . . . + Pr = id und

T = λ1P1 + . . . + λkPk mit PiPj = PjPi = 0 fur i 6= j

Oder: Jeder selbstadjungierte Operator ist Linearkombination von vertausch-

baren Orthogonalprojektionen, die sich wechselseitig annullieren.

Bemerkung: Der Name Spektralsatz ruhrt von der Projektionsform (iii) her. Die EW λi spielen

die Rolle der Spektrallinien. Die Menge der EW eines Operators nennt man auch sein Spek-

trum.

Zunachst zeigen wir folgendes

Lemma: Ist ein Teilraum W C V invariant gegenuber T , d.h. ist T (W ) ⊆ W , dann ist W⊥

invariant gegenuber T ∗, d.h. T ∗(W⊥) ⊆W⊥.Beweis des Lemmas: Sei y ∈ W⊥ und w ∈ W . Dann ist < w, T ∗(y) >=< T (w), y >= 0 weil T (w) ∈ W nach

Voraussetzung und y ∈ W⊥. Dies gilt fur alle w ∈ W , also ist mit jedem y ∈ W⊥ auch T ∗(y) wieder in W⊥.

Beweis des Spektralsatzes in der Basisform durch Induktion nach der Dimension von V :

1. Sei dim(V ) = 1. Dann ist die Matrixdarstellung [T ]B eine (1×1)−Matrix, also die Diagonalmatrix [T ]B = λ

fur B = (b1). Es ist daher T (b1) = λ1b1 mit b1 6= 0 und e1 = 1‖b1‖

b1 ist eine ON–Basis von V , wobei e1

wieder ein EV von T ist.

2. Annahme: Jeder (n− 1)−dimensionale Skalarproduktraum habe eine ON–Basis aus Eigenvektoren.

3. Sie dim(V ) = n. Nach 19.11 hat T nur reelle EW λ. Daher hat T , ganz egal ob V ein Vektorraum uber

K = IR oder K = IC ist, stets einen Eigenvektor (19.12) x ∈ V von T : T (x) = λx. Es sei: W :=< x > und

e1 ein Einheitsvektor in W , also e1 = x/‖x‖.

Da x EV von T ist, gilt: T (W ) ⊆ W, W ist invariant gegenuber T : T (kx) = kT (x) = kλx = (λk)x ∈ W .

Dann ist nach dem Lemma W⊥ invariant gegenuber T∗ = T, also ebenfalls invariant gegenuber T . Damit

ist die Einschrankung T = T/W⊥ von T auf W⊥ wieder ein selbstadjungierter Operator: T (W⊥) ⊆ W⊥,

also: T : W⊥ → W⊥ und T ∗ = T . Nach dem Hauptsatz uber orthogonale Zerlegung ist V = W ⊕W⊥, also

ist dim(W⊥) = n− 1, weil dim(W ) = 1. Nach Induktionsannahme besitzt W⊥ eine ON–Basis (e2, . . . , en)

aus EV von T , diese sind aber auch EV von T : T (ei) = T (ei) = λiei, weil ei ∈ W⊥. Dann ist aber

(e1, e2, . . . , en) eine ON–Basis von V aus EV von T , weil < e1, ei >= 0 ∀i = 2, . . . , n (wegen x ∈ W⊥).

Damit hat man auch fur n−dimensionale Skalarproduktraume eine ON–Basis aus EV von T gefunden.

199

Beweis der direkten Zerlegungsform

Nach 21.6 ist V direkte Summe seiner Eigenraume. Da EV zu verschiedenen EW eines selbstadjungierten Opera-

tors orthogonal sind, gilt Eλi ⊥ Eλj fur i 6= j, also ist die Zerlegung orthogonal.

Beweis der Projektionsform

Pi sei die Projektion auf den i−ten Eigenraum. Weil diese orthogonal aufeinander stehen, sind die P ′i s Orthogo-

nalprojektionen und eine orthogonale Menge von Projektionen. Es ist P1 + . . . + Pr = id, denn:

Aus V = Eλ1©⊥ . . .©⊥ Eλr folgt x = u1 + . . . + ur mit ui ∈ Eλi ⇒ Pi(x) = ui ⇒P

i Pi(x) =P

i ui = x = id(x) ⇒Pi Pi = id.

Es ist T = λ1P1 + . . . + λrPr, denn:

T (x) =X

i

T (ui) =X

i

λiui =X

i

λiPi(x) ∀x ∈ V ⇒ T =X

i

λiPi.

Die matrizentheoretische Formulierung der Basisform (i) des Spektralsatzes liefert nun den in

der Einleitung angekundigten Satz.

Satz 21.9 Orthogonales Diagonalisieren

(i) Jede reell–symmetrische Matrix kann durch eine orthogonale Matrix reell diagonalisiert

werden.

(ii) Jede hermitesche Matrix kann durch eine unitare Matrix reell diagonalisiert werden.

Beweis:

(i) Jede reelle symmetrische Matrix A stellt einen selbstadjungierten Operator TA definiert durch TA(~x) = A·~x

auf IRn dar. Bezuglich der Standardbasis ist die Matrixdarstellung von TA die Matrix A selbst: [TA]St = A.

Nach dem Spektralsatz gibt es eine ON–Basis B von (reellen) EV von TA, bezuglich der TA durch eine

reelle Diagonalmatrix beschrieben wird. Die Ubergangsmatrix P von der Standardbasis (welche auch eine

ON–Basis ist) zur ON–Basis B wird durch eine orthogonale Matrix beschrieben.

(ii) Analog wie in (i), nur ICn statt IRn.

Algorithmus zur orthogonalen (unitaren) Diagonalisierung einer reell–symmetri-

schen bzw. hermiteschen Matrix A:

Schritt 1: Bestimme alle verschiedenen reellen Eigenwerte λ1, . . . , λr von A.

Schritt 2: Orthonormalisiere die l.u. Eigenvektoren innerhalb eines Eigenraumes Eλi

(i = 1, . . . , r) z.B. mit dem GRAM–SCHMIDT’schen Verfahren. Die Eigenvektoren zu

verschiedenen EW sind automatisch orthogonal, sie brauchen nur normiert zu werden.

Insgesamt erhalt man n orthonormale Eigenvektoren ~x1, . . . , ~xn von A.

200

Schritt 3: Bilde die Matrix P mit den orthonormalen Eigenvektoren als Spaltenvektoren. Sie

ist eine orthogonale (unitare) Matrix: P = ( ~x1| ~x2| . . . | ~xn).

Schritt 4: P−1AP ist eine Diagonalmatrix mit den Eigenwerten als Hauptdiagonalelemente,

wobei man jeden EW so oft anschreibt, wie seine algebraische Vielfachheit angibt.

Beispiel:

a={{7,-2,1},{-2,10,-2},{1,-2,7}};

{ew,ev}=Eigensystem[a]

{{6, 6, 12} , {{−1, 0, 1} , {2, 1, 0} , {1,−2, 1}}}

<<LinearAlgebra ’Orthogonalization’

ev1=GramSchmidt[{ev[[1]],ev[[2]],ev[[3]]}]

p=Transpose[ev1];p//MatrixForm

p1=N[p]//MatrixForm

(* Probe *)

d=Inverse[p].a.p;d//MatriForm

201

(* Spektraldarstellung von a *)

l1=ew[[1]];l2=ew[[2]];l3=ew[[3]];

e1=ev1[[1]];e2=ev1[[2]];e3=ev1[[3]]

p1=Outer[Times,e1,e1];p1//MatrixForm

N[%]//MatrixForm

p2=Outer[Times,e2,e2];p2//MatrixForm]

p3=Outer[Times,e3,e3];p3//MatrixForm

a==l1*p1+l2*p2+l3*p3

True

a = 6(p1 + p2) + 12p3 ist wieder Orthogonalprojektion

202

Statt orthogonale (unitare) Diagonalisierung sagt man oft auch: Hauptachsentransformati-

on.

Fuhre fur A die Hauptachsentransformation durch, bedeutet: Bestimme ein orthogonales

(unitares) P , so daß P−1AP Diagonalgestalt besitzt.

Orthogonale (Unitare) Diagonalisierung (P−1AP ) bzw. P ∗AP ) hat einen entscheidenden nu-

merischen Vorteil: Die Inverse ist einfach die Transponierte (Konjugiert–Transponierte). Au-

ßerdem beschreiben orthogonale (unitare) Matrizen den Wechsel von ON–Basen, ein Fall, der

besonders wichtig ist.

In komplexen Skalarproduktraumen gibt es außer den selbstadjungierten (hermiteschen) Opera-

toren (Matrizen) noch andere Operatoren, die ebenfalls noch (sogar unitar) diagonalisierbar

sind (!); jedoch i.a. nicht mehr mit reellen Hauptdiagonalelementen.

Beispiel:

Sei A =

2 i

i 2

. Es ist dann A∗ =

2 −i

−i 2

6= A.

Beachte: A ist zwar symmetrisch, aber nicht hermitesch!

Trotzdem kann A durch das orthogonale P = 1√2

1 −1

1 1

diagonalisiert werden.

P ∗AP = P−1AP =

2 + i 0

0 2− i

.

Wir notieren jedoch: A ist eine (komplexe) normale Matrix

AA∗ =

2 i

i 2

2 −i

−i 2

=

2 −i

−i 2

2 i

i 2

=

5 0

0 5

.

Beispiel: A =

1 2

−2 1

ist eine reelle, nicht symmetrische, aber normale Matrix.

AAt =

1 2

−2 1

1 −2

2 1

=

5 0

0 5

=

1 −2

2 1

1 2

−2 1

= AtA

pA(X) = X2 − 2X + 5, EW: λ1 = 1 + 2i λ2 = 1− 2i

203

EV zu λ1 : −2ix + 2y = 0

x = 1

y = i

~x1 =(1i

)

EV zu λ2 : 2ix + 2y = 0

x = 1

y = −i

~x2 =(

1−i

)Transformationsmatrix P :

P = 1√2

1 1

i −i

, P−1 = P t = 1√2

1 −i

1 i

und P−1AP =

1 + 2i 0

0 1− 2i

A laßt sich also im Komplexen (unitar) diagonalisieren.

Wir werden im folgenden zeigen, daß die Klasse der normalen Operatoren (Matrizen) die großte

Klasse ist, die unitar diagonalisiert werden kann.

Satz 21.10 Spektralsatz fur normale Operatoren

Abbildungstheoretische Formulierung:

T sei ein normaler Operator auf einem endlich–dimensionalen Skalarproduktraum uber K = IC.

Dann gibt es eine ON–Basis von V aus Eigenvektoren von T .

Damit: Jeder normale Operator kann bezuglich einer ON–Basis durch eine Diagonalmatrix dar-

gestellt werden. Die Diagonalelemente sind aber im allgemeinen nicht mehr reell.

Matrizentheoretische Formulierung:

Jede normale Matrix kann durch eine unitare Matrix diagonalisiert werden. Die Hauptdiagonal-

elemente sind jedoch im allgemeinen nicht mehr reell.

Beweis durch Induktion nach dim(V ) (vergleiche mit dem Beweis zu 21.8)

1. dim(V ) = 1 : V =< e1 >, e1 ist EV.

2. Sei dim(V ) > 1. Nach dem Fundamentalsatz der Algebra besitzt T zumindest einen Eigenwert in IC und

somit einen Eigenvektor v. Wir setzen: W =< v > und e1 = v/‖v‖.

v ist EV von T ⇒ W ist invariant gegenuber T : T (W ) ⊆ W . Da T normal ist, ist v auch EV von T ∗

(siehe 19.15 iii), daher ist W auch bezuglich T ∗ invariant und nach dem Lemma ist W⊥ invariant bezuglich

(T ∗)∗ = T . Der restliche Beweis erfolgt so wie in 21.8.

Von den Matrizen mit reellen Eintragungen sind jedoch nur die symmetrischen orthogonal (d.h.,

nur unter Verwendung von reellen Zahlen) diagonalisierbar.

Insgesamt ergibt sich folgende Charakterisierung der orthogonalen (unitaren) Diagonalisierbar-

keit):

204

Satz 21.11 Charakterisierung von reell–symmetrischen bzw. normalen Matrizen

(i) Eine reelle Matrix ist genau dann orthogonal diagonalisierbar (uber IR), wenn sie symme-

trisch ist.

(ii) Eine (komplexe oder reelle) Matrix ist genau dann unitar diagonalisierbar (uber IC), wenn

sie normal ist.

Auch so formuliert:

Von den reellen Matrizen sind genau die symmetrischen orthogonal diagonalisierbar. Genau die

normalen Matrizen sind unitar diagonalisierbar.Beweis:

(i) a) Sei A orthogonal diagonalisierbar⇒ ∃ orthogonales P mit P−1AP = P tAP = D (D Diagonalmatrix)

⇒ A = PDP t ⇒ At = (PDP t)t = P ttDtP t = PDP t = A (wegen Dt = D), also ist A symmetrisch.

b) Nach 21.9(i) ist jede reell–symmetrische Matrix orthogonal diagonalisierbar.

(ii) a) Sei A unitar diagonalisierbar ⇒ ∃ unitares P mit P−1AP = P ∗AP = D ⇒ A = PDP ∗. Nun ist aber

D∗ 6= D (außer D ist reell), daher kann man nicht den obigen Beweis anwenden. Insbesondere mussen

nicht nur hermitesche Matrizen unitar diagonalisierbar sein. Notwendig ist jedoch AA∗ = A∗A:

AA∗ = PDP ∗(PDP ∗)∗ = PD(P ∗P )D∗P ∗ = PDD∗P ∗

A∗A = (PDP ∗)∗(PDP ∗) = PD∗(P ∗P )DP ∗ = PD∗DP ∗.

Wegen DD∗ = D∗D (Diagonalmatrizen sind stets normal), ist also AA∗ = A∗A notwendig fur die

unitare Diagonalisierung, also muß A normal sein.

b) Die Umkehrung gilt nach 21.10.

Nun noch zwei theoretische Anwendungen des Spektralsatzes:

Simultane Diagonalisierung

Sind mehrere Operatoren gegeben, ist es zweckmaßig, wenn man mit einer ON–Basis B aus-

kommen konnte, bezuglich der alle Operatoren diagonalisiert werden konnen. In der Physik

entsprechen solchen Operatoren Großen, die simultan gemessen werden konnen.

Notwendig fur die simultane Diagonalisierung ist die Vertauschbarkeit der Operatoren: Seien

T1, T2 bezuglich der Basis B diagonalisierbar ⇒ [T1]B · [T2]B = [T2]B[T1]B, (weil Diagonalmatri-

zen vertauschbar sind)⇒ T1◦T2 = T2◦T1. Fur selbstadjungierte Operatoren ist diese Bedingung

aber auch hinreichend.

205

Satz 21.12 Simultane Diagonalisierung

Zwei selbstadjungierte Operatoren eines endlich–dimensionalen Skalarpoduktraumes sind genau

dann simultan diagonalisierbar, wenn sie vertauschbar sind.

Beweis:

1. Notwendigkeit siehe oben.

2. Seien T1 und T2 vertauschbare, selbstadjungierte Operatoren. Eλ sei Eigenraum von T1 und x ∈ Eλ :

T1(T2(x)) = (T1 ◦ T2)(x) = (T2 ◦ T1)(x) = T2(T1(x)) = T2(λx) = λ(T2(x)). Damit ist T2(x) auch ein EV

von T1 zum EW λ ⇒ T2(x) ∈ Eλ, wenn x ∈ Eλ, d.h T2 : Eλ → Eλ ist ein selbstadjungierter Operator auf

Eλ. Nach dem Spektralsatz hat Eλ eine ON–Basis aus EV von T2. Diese sind auch EV von T1, weil sie aus

Eλ sind. Somit hat jeder Eigenraum Eλ von T1 eine ON–Basis von EV von beiden Operatoren T1 und T2.

Nachdem V die direkte Summe der Eigenraume ist, erhalt man durch Vereinigung dieser Basen eine Basis

von V aus EV von beiden Operatoren. Bezuglich dieser Basis konnen beide Operatoren diagonalisiert

werden.

Im allgemeinen ist die geometrische Vielfachheit ≤ algebraische Vielfachheit, aber:

Satz 21.13 Gleichheit von geometrischer und algebraischer Vielfachheit

Fur jeden Eigenwert einer hermiteschen oder einer reell–symmetrischen Matrix ist die geome-

trische Vielfachheit gleich der algebraischen Vielfachheit.

Beweis: Diese Matrizen induzieren selbstadjungierte Abbildungen. Nach dem Spektralsatz sind diese stets diago-

nalisierbar, nach dem zweiten Diagonalisierbarkeitskriterium folgt die Behauptung.

206

21.4 Anwendungen des Diagonalisierens

21.4.1 Berechnung von Matrixpotenzen

Zahlreiche Probleme fuhren auf die Berechnung hoher Matrixpotenzen. Mit diagonalisierbaren

Matrizen konnen solche Berechnungen vereinfacht werden.

Sei A eine diagonalisierbare n×n−Matrix⇒ ∃ regulare P mit P−1AP = D = diag(λ1, . . . , λn),

λi EW von A ⇒ (P−1AP )2 = P−1APP−1AP = P−1AEAP = P−1A2P , allgemein:

(P−1AP)k = P−1AkP ∀k ∈ ZZ

Beweis fur negative k ⇔ A ist invertierbar ⇔ alle EW λi 6= 0.

Fur k = −1 : (P−1AP )−1 = P−1A−1(P−1)−1 = P−1A−1P .

Fur k = −n(n ∈ IN) : (P−1AP )−n : [(P−1AP )n]−1 = (P−1AnP )−1 = P−1(An)−1(P−1)−1 =

P−1A−nP .

Damit gilt fur diagonalisierbare A⇔ D = P−1AP :

Dk = (P−1AP )k = P−1AkP = Dk, also

Ist A = PDP−1 ⇒ Ak = PDkP−1 ∀k ∈ ZZ

Fur D =

λ1

. . .

λn

gilt aber Dk =

λk

1

. . .

λkn

.

Fur negative k sind die EW λi 6= 0, weil A dann invertierbar ist.

Ist A eine diagonalisierbare n× n−Matrix mit den EW λ1, . . . , λn und EV ~x1, . . . , ~xn,

dann ist

Ak = P

λk

1

. . .

λkn

P−1

mit P = ( ~x1| . . . | ~xn). Fur k = −1 erhalt man so wieder eine Moglichkeit fur das Invertieren

einer Matrix.

Zusammenfassung fur die Berechnung der zu A inversen Matrix A−1:

1. Mittels elementarer Zeilenumformungen (RowReduce) (A|In) ∼1 (In|B)⇒ B = A−1

2. A−1 = Pdiag(λ−11 , . . . , λ−1

n )P−1 mit P = ( ~x1| . . . | ~xn), wobei λ1, . . . , λn die EW von A und

~x1, . . . , ~xn die dazugehorigen EV sind.

207

3. mittels der zu A adjungierten Matrix A−1 = 1|A|A

adj

4. mittels des charakteristischen Polynoms pA(X) = c0 + c1X + . . . + Xn.

A invertierbar ⇔ c0 6= 0 (weil alle EW 6= 0), dann ist wegen

An = −c0In − c1A− . . .− cn−1An−1, n ∈ IN

A−1 = −1c0

(c1In + c2A + . . . + An−1

)5. mittels des Minimalpolynoms mA(X) = m0 + m1X + . . . + Xr:

A invertierbar ⇔ m0 6= 0

A−1 = − 1m0

(m1In + m2A + . . . + Ar−1

)21.4.2 Differenzengleichungen und Potenzen Ak

1. Kapital K, Verzinsung 6%, Anfangskapital K0.

Kn+1 = 1, 06. ·Kn︸︷︷︸Differenzengleichung 1. Ordnung

rekursive Definition einer Folge

⇔Kn = 1, 06n. ·K0︸︷︷︸

Bildungsgesetz der Folge erlaubt direkte

Berechnung der Folgenglieder

2. Fibonacci–Folge (Botanik): 0, 1, 1, 2, 3, 5, 8, 13, . . . ,

F0 = 0, F1 = 1

Fk+2 = Fk+1 + Fk

Das ist eine Differenzengleichung 2. Ordnung

Frage: Wie sieht das Bildungsgesetz der Fibonacci–Folge aus? Wie groß ist F1000?

Wir setzen

~yk :=

Fk+1

Fk

⇒ ~yk+1 =

Fk+1

Fk+1

Fk+2 = Fk+1 + Fk

Fk+1 = Fk+1

⇔ ~yk+1 =

1 1

1 0

~yk

Aus der Gleichung der Ordnung n wird durch Kombination von n − 1 “trivialen Gleichungen”

(wie Fk+1 = Fk+1) ein Gleichungssystem. Das ist leichter losbar: Sei ~y0 der “Anfangswert”,

~y1 = A · ~y0, ~y2 = A · ~y1 = A · (A · ~y0) = A2 ~y0 . . .

~yk = Ak ~y0, ~y0 Anfangswert

208

Ist A diagonalisierbar ⇔ ∃P : A = PDP−1 ⇔

~yk = Ak ~y0 = PDkP−1 ~y0 = PDk ~C

Die Spalten von P sind EV ~xi von A:

~yk =

~x1| ~x2| . . . | ~xn|︸︷︷︸P

·

λk1

. . .

λkn

· P−1 ~y0︸︷︷︸=:~c

= c1λk1 ~x1 + . . . + cnλk

n ~xn

~y0 = c1λ01 ~x1 + . . . + cnλ0

n ~xn ⇔ ~y0 = P~c⇔ ~c = P−1 ~y0

~c := (c1, . . . , cn)

Beispiel: Fibonacci–Folge

A =

1 1

1 0

, λ2 − λ− 1 = 0 λ1 = 1+√

52 λ2 = 1−

√5

2

(λ− λ1)x + y = 0

x− λ1 · y = 0~x1 =

λ1

1

~x2 =

λ2

1

P =

λ1 λ2

1 1

, P−1 = 1λ1−λ2

1 −λ2

−1 λ1

F0 = 0, F1 = 1⇒ ~y0 =

1

0

⇒ ~c = P−1 ~y0 = 1λ1−λ2

1 −λ2

−1 λ1

1

0

= 1λ1−λ2

1

−1

~yk =

λ1 λ2

1 1

λk1

λk2

1 −λ2

−1 λ1

1

−1

1λ1−λ2

=

Fk+1

Fk

,

von ~yk interessiert uns nur die 2. Komponente Fk:

Fk =λk

1

λ1 − λ2− λk

2

λ1 − λ2= 1√

5

[(1+

√5

2

)k−

(1−

√5

2

)k]

Es ist(

1−√

52

)k/√

5 < 12 fur alle k ⇒ F1000 ≈

[1√5

(1+

√5

2

)1000]

F1001F1000

∼ 1+√

52 = 1, 618 . . .

λk2 kann gegenuber λk

1 vernachlassigt werden.Fk+1

Fk∼ λk+1

1

λk1

= λ1 (= goldener Schnitt!)

209

Zusammenfassung:

Gegeben sei eine Folge (a0, a1, . . . ak, ak+1, . . . , ak+n, . . .). Eine lineare Differenzengleichung der

Ordnung n ist eine Beziehung zwischen dem k−ten Glied einer Folge und den n aufeinander

folgenden Gliedern der Folge der Form

ak+n = r1ak+n−1 + . . . + rkak.

Durch die n vorgegebenen “Anfangswerte” a0, a1, . . . , an−1 ist die Folge eindeutig bestimmt.

Durch Einfuhren von “trivialen Gleichungen” kann die Differenzengleichung mit Matrizen ange-

schrieben werden:

~yk+1 = A · ~yk, ~y0 Anfangsvektor.

Das Bildungsgesetz der Folge kann aus

~yk = Ak ~y0

abgeleitet werden.

Ist A diagonalisierbar, dann gilt

~yk = c1λk1 ~x1 + . . . + cnλk

n ~xn

mit ~c := (c1, . . . , cn)t so, daß ~y0 = P · ~c⇔ ~c = P−1 · ~y0.

Dabei sind λ1, . . . , λn die EW von A und ~x1, . . . , ~xn die dazugehorigen EV. Die Spalten von P

sind gerade die EV, P := ( ~x1| ~x2| . . . | ~xn).

21.4.3 Markovprozesse

Beispiel: In ein Land wandern jedes Jahr 110 der Bevolkerung ein, und 2

10 wandern aus. Am

Anfang sind 200 Millionen außerhalb des Landes und 30 Millionen innerhalb des Landes. Stirbt

die Bevolkerung in diesem Land aus oder gibt es eine “Grenzverteilung”?

(Annahme: Gesamtbevolkerung bleibt konstant).

Bevolkerung außerhalb: y

Bevolkerung innerhalb: z

“Startvektor”

y0

z0

210

Am Ende des ersten Jahres gilt:

y1 = 0.9y0 + 0.2z0

z1 = 0.1y0 + 0.8z0

⇔

y1

z1

=

0.9 0.2

0.1 0.8

y0

z0

usw.

Allgemein fur ~yk =(ykzk

): ~yk+1 = A~yk.

Kennzeichnen eines Markovprozesses: ~yk+1 = P ~yk

1. Jeder Zustand ˜yk+1 hangt nur vom vorhergehenden Zustand yk ab.

2. Spaltensummen der Matrix P sind stets 1.

3. Matrix hat nur positive Eintragungen ≤ 1.

P = (pij) heißt eine stochastische Matrix⇔ alle Spaltensummen sind 1 und pij ∈ [0, 1].

~yk = (y1, . . . , yn)t heißt Zustandsvektor ⇔ y1 + . . . + yn = 1⇔ Koordinatensumme = 1.

Die Gleichung hat die Form einer Differenzengleichung, um ~yk fur sehr großes k zu berechnen,

versucht man, A zu diagonalisieren:

|A− λE| =λ2 − 1.7λ + 0.7 = 0

(λ− 1)(λ− 0.7) = 0λ1 = 1, λ2 = 0.7

Eigenvektoren:

−0.1y + 0.2z = 0

−x + 2y = 0

x = 2y = 1

~x1 =(21

)

0.2y + 0.2z = 0

0.1y + 0.1z = 0

y + z = 0

~x2 =(

1−1

)P =

2 1

1 −1

, P−1 = −13

−1 −1

−1 2

=13

1 1

1 −2

Probe:

13

1 +1

+1 2

0.9 0.2

0.1 0.8

2 1

1 −1

= 13

+1 +1

+1 −2

2 +0.7

1 −0.7

= 13

3 0

0 2.1

= 1 0

0 0.7

A = PDP−1 =

2 1

1 −1

· 1

0.7

· 1 1

1 −2

· 13

211

Damit ist:

~yk = Ak ~y0 = c1λk1 ~x1 + c2λ

k2 ~x2 fur

~c = P−1 ~y0 = 13

1 1

1 −2

y0

z0

= 13

y0 + z0

y0 − 2z0

⇒~yk = 1

3(y0 + z0)(21

)+ 1

3(y0 − 2z0)(

1−1

)· 0.7k

Bei k →∞ : (0.7k)→ 0

~y∞ = (y0 + z0)︸︷︷︸Gesamtbevolkerung

2/3

1/3

Beachte:

2/3

1/3

∈ E1

Antwort: Auf lange Sicht bleibt 1/3 der Bevolkerung im Land, 2/3 sind außerhalb des Landes.

Bisher haben wir das Problem deterministisch gesehen: Anteile der Bevolkerung wanderten.

Wahrscheinlichkeitstheoretische Sichtweise: Blicke auf jeden einzelnen: Ist der einzelne au-

ßerhalb des Landes, so wird er mit Wahrscheinlichkeit 1/10 einwandern. Ist er innerhalb des

Landes, so wird er mit Wahrscheinlichkeit 2/10 auswandern. Wir wissen auf lange Sicht nicht,

wo er ist, aber jedes Jahr geben die Komponenten von ~yk = Ak ~y0 die Wahrscheinlichkeit an, wo

er sich befindet.

“Ubergangsmatrix A” =

0.9 0.2

0.1 0.8

, Wahrscheinlichkeiten ≥ 0⇔ aij ≥ 0.

Summe der Wahrscheinlichkeiten = 1⇔ Spaltensumme = 1.

Bei jedem Markovprozeß ist λ = 1 ein EW und sein mit c1 multiplizierter Eigen-

vektor gibt den Grenzzustand y∞ an:

Sei A eine Ubergangsmatrix (“transition matrix”). Betrachte die Spalten von A−E = A−1 ·E:

Die Spaltensummen von A− E sind 1− 1 = 0.

Daher ergibt die Summe aller Zeilen von A−E den Nullvektor⇔ die Zeilen von A−E sind l.a.

⇒ |A− E| = |A− 1 · E| = 0⇒ λ = 1 ist Eigenwert von A.

Da ~yk = c1λk1 ~x1 + . . . + cnλk

n ~xn ist, ist kein EW großer als 1, denn sonst wurden die Wahr-

scheinlichkeit (=Komponenten von ~yk) gegen ∞ streben, es ist aber jede Wahrscheinlichkeit

≤ 1.

212

Sei λ1 = 1(∃!) und λ2 < 1, λ3 < 1, . . . , λn < 1⇒ λki → 0 fur i = 2, . . . , n⇒

yk → c1x1︸︷︷︸stationarer Zustandsvektor

= y∞.

Auch so:

Ein Zustandsvektor ~x ∈ Kn heißt ein Gleichungszustand oder stationarer Zustandsvektor

fur die stochastische Matrix P , falls P~x = ~x.

Als Zustandsvektor mussen alle Koordinaten von ~x aus [0, 1] sein und als Summe x1+. . .+xn = 1

ergeben.

0.9y + 0.2z = y

0.1y + 0.8z = z

y + z = 1

⇔

−0.1y + 0.2z = 0

0.1y − 0.2z = 0

y + z = 1

oder:y + z = 1

0.1y − 0.2z = 0⇔

y + z = 1

y − 2z = 0⇔

(y

z

)=

13

(21

)

Stabilitatsfragen

Fibonacci–Zahlen →∞, Endkapitel →∞, Markov–Prozeß: beschrankt.

Gegeben sei die Differenzengleichung ~yk+1 = A~yk. Wir interessieren uns fur das Verhalten von

~yk fur k →∞. Im Falle der Diagonalisierbarkeit gilt: ~yk = c1λk1 ~x1 + . . . + cnλk

n ~xn, das Verhalten

hangt also nur von den EW ab:

Die Differenzengleichung ist stabil ⇔ ~yk → 0⇔ alle |λi| < 1

neutral stabil ⇔ ~yk beschrankt ⇔ alle |λi| ≤ 1

instabil ⇔ ~yk unbeschrankt ⇔ es gibt mindestens einen EW λ mit |λ| > 1.

Achtung: Kleinste Anderungen der EW konnen große Auswirkungen haben (chaotisches Verhal-

ten).

213

21.4.4 Differentialgleichungen

Differentialgleichung erster Ordnung: y′ = ay ⇔ y = c · eax: allgemeine Losung

Differentialgleichung erster Ordnung mit Anfangsbedingung:

y′ = ay

y(0) = 2︸︷︷︸Anfangswertproblem

⇒ 2 = ce0 = c⇒ y(x) = 2eax :spezielle (partikulare) Losung

des Anfangswertproblem.

Differentialgleichungssysteme erster Ordnung mit konstanten Koeffizienten

Koordinatenform Matrixform

y′1 = a11y1 + a12y2 + . . . + a1nyn

y′2 = a21y1 + a22y2 + . . . + a2nyn

=...

y′n = an1y1 + an2y2 + . . . + annyn

⇔

y′1

y′2...

y′n

︸︷︷︸

~y′(x)

=

a11 . . . a1n

a21 . . . a2n

......

an1 . . . ann

︸︷︷︸

A

y1

y2

...

yn

︸︷︷︸

~y(x)

Bemerkung: Ein Vektor (eine Matrix), deren Eintragungen Funktionen sind, wird differenziert,

indem man jede Eintragung differenziert.

Kurzform des Anfangswertproblems:

~y′(x) = A · ~y(x)

~y(x0) = ~y0

bzw.~y′(x) = A~y(x)

~y(0) = ~y0

Beispiel:

y′1 = 2y1

y′2 = 5y2

y′3 = 3y3

mit y1(0) = 1, y2(0) = 4, y3(0) = −1

Matrixform: ~y =

2 0 0

0 −5 0

0 0 3

~y mit ~y(0) =

1

4

−1

Weil in jeder Gleichung nur eine unbekannte Funktion vorkommt, ist das System leicht losbar.

Allgemeine Losung: y1 = c1e2x, y2 = c2e

−5x, y3 = c3e3x

~y(x) =

c1e

2x

c2e−5x

c3e3x

y1(0) = 1 ⇒ c1 = 1

y2(0) = 4 ⇒ c2 = 4

y3(0) = −1 ⇒ c3 = −1

214

Spezielle (partikulare) Losungen:

~y(x) =

e2x

4e−5x

−e3x

Das System war insbesondere deshalb so leicht zu losen, weil A Diagonalgestalt hatte.

Allgemeine Strategie: Versuche A durch eine geeignete Substitution fur ~y auf Diagonalgestalt zu

bringen!

y1(x) = p11u1(x) + . . . + p1nun(x)

y2(x) = p21u1(x) + . . . + p2nun(x)

yn(x) = pn1u1(x) + . . . + pnnun(x)

⇔ ~y(x) = P · ~u(x)

Nach den Differentiationsregeln gilt dann: ~y′ = P · ~u′.

Einsetzen in ~y′ = A~y ergibt:

P~u = AP ~u′ ⇔ ~u′ = (P−1AP )~u

P soll also invertierbar sein. Ist A diagonalisierbar, dann gibt es eine Transformationsmatrix P

mit P−1AP = D, also erhalten wir das neue Differentialgleichungsproblem:

~u′(x) = D~u(x)

Losungsverfahren fur y′ = Ay:

Schritt 1: Bestimme eine Matrix P , die A diagonalisiert.

Schritt 2: Fuhre die Substitution ~y = P~u durch. Das fuhrt auf ein neues System der Form

~u′ = D · ~u.

Schritt 3: Lose das System ~u′ = D~u.

Schritt 4: Berechne ~y aus der Matrixgleichung ~y = P · ~u.

215

Schritt 4 kann auch folgend abgekurzt werden: Die Spalten der diagonalisierenden Matrix P sind

die EV ~xi von A,D enthalt in der Hauptdiagonale die Eigenwerte λi von A, damit:

~u(x) =

c1e

λ1x

...

cneλnx

, P = ( ~x1| ~x2| . . . | ~xn)

~y(x) = P · ~u(x) = ( ~x1| ~x2| . . . | ~xn)

c1e

λ1x

...

cneλnx

y(x) = c1x1eλ1x + . . . + cnxneλnx Allgemeine Losung

Berucksichtigung der Anfangsbedingungen:

~y(0) = ~y0

P ~u(0)︸︷︷︸ = ~y0

P ·

c1

...

cn

︸︷︷︸

=:~c

= ~y0 ⇔ P · ~c = ~y0 ⇔ c = P−1y0

Damit: Das Anfangswertproblem ~y′ = A~y, ~y(0) = ~y0 mit diagonalisierbarem A hat als Losung:

y(x) = c1˜x1eλ1x + . . . + cnxneλnx mit c := (c1, c2, . . . , cn)t = P−1y0.

Bemerkung:

1. Beachte, daß man die Differentialgleichung rein algebraisch, ohne irgendeine Integration

gelost hat.

2. Ist A nicht diagonalisierbar, versucht man mittels ~y = P · ~u auf eine Dreiecksgestalt zu

kommen (A triangulieren) und lost das neue System ~y′ = D~u durch Ruckwartseinsetzen

(→ Kapitel 22).

Ist A auch nicht triangulierbar, dann geht es mit der Jordanschen Normalform (→ Kapitel

23).

3. Homogene Differentialgleichungen hoherer Ordnung konnen durch

y1 = y, y2 = y′, y3 = y′′, . . . auf ein System von Differentialgleichungen erster Ordnung

zuruckgefuhrt werden (siehe Beispiel).

216

Die Matrix eAx

Die Exponentialfunktion y = eax ist wegen der Differentiationsregel y′ = aeax Losung der Dif-

ferentialgleichung y′ = ay. Es gibt eine schone Analogie, dies auf Differentialgleichungssysteme

zu verallgemeinern.

Es gilt bekanntlich:

ex =∑∞

i=0xi

i! =∑∞

i=01i!x

i

eax =∑∞

i=0(ax)i

i! =∑∞

i=01i!(ax)i

Davon inspiriert, setzt man:

eAx :=∞∑i=0

Ii!

(Ax)i = In + Ax +(Ax)2

2!+

(Ax)3

3!+ . . . ∈M(n× n, IR)

Unter geeigneten Voraussetzungen konvergiert diese Potenzreihe aus Matrizen (→ Hohere Li-

neare Algebra).

Zahl a ↔ n× n− Matrix A

1 ↔ In

Beispiel: A =

4 −5

2 −3

⇒ A2 =

6 −5

2 −1

, A3 =

14 −15

6 −7

. . .

eAx =

1 0

0 1

+ x ·

4 −5

2 −3

+ x2

2!

6 −5

2 −1

+ x3

3!

14 −15

6 −7

+ . . .

=

1 + 4x + 3x2 − 83x3 + . . . −5x− 5

2x2 − 52x3 + . . .

2x + x2 + x3 + . . . 1− 3x− x2

2 + 76x3 + . . .

=

f11(x) f12(x)

f21(x) f22(x)

,

wobei fij(x) die Grenzfunktionen der entsprechenden Potenzreihen sind (allerdings sind sie oft

nicht leicht angebbar).

Vereinbarungsgemaß wird die Matrix eAx differenziert, indem man jede Eintragung differenziert.

Wegen der Differentiationsregeln gilt dann:(eAx

)′ = A + A2·2x2! + A3·3x2

3! + . . . =

A ·(I + Ax

1! + A2·x2

2! + . . .)

= A · eAx, also(eAx

)′ = A · eAx ↔ (eax)′ = aeax.

217

Berechnung von eAx fur diagonalisierbare Matrizen A:

1. Mittels der Diagonalmatrix D

Ist A diagonalisierbar ⇒ ∃P : P−1AP = D mit

D =

λ1 0

...

0 λn

⇒ A = PDP−1 ⇒ A2 = PDP−1, A3 = PD3P−1, . . .⇒

eAx = P ·

eλ1x 0

...

0 eλnx

P−1 = PeDxP−1 mit P = (x1| . . . |xn)

wobei ~x1, . . . ~xn die EV von A zu den EW λ1, . . . , λn sind.

Denn ist D = diag(λ1, . . . , λn)⇒

eDx = I + Dx + D2x2

2! + . . . =

1 + λ1x + 1

2!λ21x

2 + . . .

. . .

1 + λnx + 12!λ

2nx2 + . . .

⇒

eDx =

eλ1x 0

...

0 eλnx

Also: A = PDP−1 ⇒ eAx = PeDxP−1 = P

eλ1x

. . .

eλnx

p−1.

2. Mittels Spektralsatz: Ist A = λ1P1 + . . . + λrPr ⇒ eAx = eλ1xP1 + . . . + eλnxPn.

(siehe Beispiel unten)

3. Ist A nicht diagonalisierbar, dann muß man die Funktionen in eAx “erraten” oder durch

die Jordan’sche Normalform berechnen (→ Hohere Lineare Algebra).

Fur die Exponentialmatrix gilt:

eAx ist immer regular und (eAx)−1 = e−Ax,det(eAx) = esp(Ax).

(eAx)′ = AeAx

218

Beweis fur diagonalisierbare Matrizen A (beachte, daß eAx ∼2 eDx ist):

|eAx| =

∣∣∣∣∣∣∣∣∣eλ1x 0

. . .

0 eλnx

∣∣∣∣∣∣∣∣∣ = eλ1x · eλ2x · . . . · eλnx = eλ1x+...+λnx = esp(Ax) 6= 0

Zusammenfassung:

Die

Differenzengleichung Differentialgleichung

~yk+1 = A · ~yk; ~y0 ~y(x)′ = A · ~y(x); ~y(0) = ~y0

hat die Losung

~yk = Ak · ~y0 ~y(x) = eAx · ~y0

Ist A diagonalisierbar :

A = PDP−1 mit D =

λ1 0

...

0 λn

, P = ( ~x1| . . . | ~xn)

wobei ~xi EV zum EW λi von A ist,

dann kann die Losung als Linearkombination der EV geschrieben werden:

~yk = c1λk1 ~x1 + . . . + cnλk

n ~xn ~y(x) = c1eλ1t ~x1 + . . . + cneλnt ~xn

mit

~c = (c1, . . . , cn) = P−1 ~y0 ⇔ P · ~c = ~y0

Beispiel: Berechnung von eAx:

A =

0 1

−1 0

A∗ =

0 −1

1 0

~y′ =

0 1

−1 0

y ⇔y′1 = y2

y′2 = −y1

AA∗ =

0 1

−1 0

0 −1

1 0

=

1 0

0 1

, A∗A

0 −1

1 0

0 1

−1 0

=

1 0

0 1

Das reelle A ist normal (aber nicht symmetrisch) ⇔ A ist in IC diagonalisierbar.

pA(X) =

∣∣∣∣∣∣ −x 1

−1 −x

∣∣∣∣∣∣ = x2 + 1

λ1 = i λ2 = −i

219

Damit ist:

−ix + y = 0

x = 1y = i

~x1

(1i

)ix + y = 0

x = 1y = i

~x2 =(

1−i

)P =

1 1

i −i

|P | = −i− i = −2i

P−1 = 1−2i

−i −1

−i 1

= 12i

i 1

i −1

= 12

1 −i

1 i

Berechnung von eAx mittels Diagonalisierungsformel:

eAx =

1 1

i −i

eix 0

0 e−ix

1 −i

1 i

· 12 = 1

2

1 1

i −i

eix −ieix

e−ix ieix

=

= 12

eix + e−ix −ieix + ie−ix

ieix − ie−ix eix + e−ix

=

cos x sinx

− sinx cos x

nach der Eulerschen Formel:

eix = cos x + i sinx

e−ix = cos x− i sinx

︸︷︷︸2 cos x

+ie−ix = i cos x + sinx

−ieix = −i cos x + sinx

︸︷︷︸2 sin x

+

Damit:

~y = eAx ~y0 =

cos x sinx

− sinx cos x

c1

c2

y1 = c1 · cos x + c2 · sinx

y1 = −c1 · sinx + c2 · cos x

Berechnung von eAx mittels Spektralsatz:

A = λ1P1 + λ2P2

eAx = eλ1xP1 + eλ2xP2

P1 = 12

(1i

)· (1, i) = 1

2

1 −i

i 1

P2 = 1

2

(1−i

)· (1− i) = 1

2

1 i

−i 1

eAx = 1

2eix ·

1 −i

i +1

+ 12e−ix

1 +i

−i +1

= 12

eix + e−ix −ieix + ie−ix

ieix − ie−ix +eix − e−ix

=

=

cos x sinx

− sinx cos x

Die Orthogonalprojektionen wurden mittels des außeren Produktes berechnet

(Achtung: ON–Basis benutzen und 2. Faktor konjugiert–komplex nehmen).

220

22 Triangulieren

Wie wir im vorhergehenden Kapitel gesehen haben, braucht ein linearer Operator T auf einem

endlich–dimensionalen Vektorraum keine Diagonalmatrixdarstellung zu besitzen. Dies ist unter

anderem nur dann moglich, wenn er “genug” Eigenvektoren hat, d.h., wenn es eine Basis des

Vektorraumes aus Eigenvektoren von T gibt. Hat man zu “wenig” Eigenvektoren, gibt es andere

einfache Darstellungsformen, wie z.B. Dreiecksmatrizen.

Einen Operator bzw. eine Matrix triangulieren heißt, ihn bzw. sie auf eine Dreiecksmatrix

(triangulare Matrix) zu “bringen”, d.h., eine solche Basis B des Vektorraumes bzw. eine solche

regulare Matrix P zu finden, daß

[T ]B bzw. P−1AP

eine (obere) Dreiecksmatrix ist.

Eine notwendige Bedingung fur die Triangulierung von T bzw. A ist wie im Fall der Diagonali-

sierung, daß alle Nullstellen des charakteristischen Polynoms PT (X), also die EW von T bzw.

A im zugrundeliegenden Skalarkorper K liegen:

Sei [T ]B =

a11 a12 . . . a1n

a22 . . . a2n

. . .

ann

Dann gilt fur das charakteristische Polynom

PT (X) =

∣∣∣∣∣∣∣∣∣∣∣∣

a11 −X a12 . . . a1n

a22 −X . . . a2n

. . .

ann −X

∣∣∣∣∣∣∣∣∣∣∣∣= (a11 −X)(a22 −X) . . . (ann −X).

Es zerfallt also in Linearfaktoren. Wenn das nicht der Fall ist, ist T nicht mehr triangulierbar

(auch nicht diagonalisierbar). Im SCHURschen Lemma wird gezeigt, daß das Zerfallen in

Linearpolynome fur die Triangulierung bereits hinreichend ist. In K = IC ist dies immer der

Fall, nicht jedoch in K = IR. In der Algebra wird gezeigt, daß es zu jedem Korper K einen

solchen gibt, in dem jeder Polynom uber K in Linearfaktoren zerfallt, so daß also trianguliert

werden kann. Der Triangulierungssatz stellt also einen wichtigen Fall dar.

221

1. Dreiecksmatrizen

Definition 22.1 (i) Ein linearer Operator T : V → V heißt triangulierbar, wenn es in V

eine Basis B gibt, bezuglich der T durch eine Dreiecksmatrix

[T ]B =

a11 a12 . . . a1n

a22 . . . a2n

. . .

ann

dargestellt werden kann.

(ii) Eine n× n−Matrix A heißt triangulierbar, wenn es eine regulare Matrix P gibt, sodaß

P−1AP eine Dreiecksmatrix ist.

Also: A triangulierbar ⇔ A ist ahnlich zu einer Dreiecksmatrix.

Beachte: Die EW von T bzw. A sind genau die Elemente in der Hauptdiagonale der Dreiecks-

matrix.

Satz 22.1 Triangulierungssatz

(i) Abbildungstheoretische Form:

V sei ein beliebiger Vektorraum uber dem Korper K und T : V → V ein linearer Ope-

rator. Jeder lineare Operator T : V → V , dessen charakteristisches Polynom in K[X] in

Linearfaktoren zerfallt, ist uber K triangulierbar.

(ii) Matrizentheoretische Form:

Jede quadratische Matrix A uber dem Korper K, deren charakteristisches Polynom in K[X]

in Linearfaktoren zerfallt, ist uber K triangulierbar.

Der Beweis liefert auch das Verfahren zur Triangulation:

Das charakteristische Polynom zerfallt in Linearfaktoren⇒ PA(X) = (λ1−X) . . . (λn−X), also

sind λ1, . . . , λn die EW von A (jeder sooft gezahlt, wie die algebraische Vielfachheit angibt).

222

1. Schritt: x1 sei EV von A zu λ1.

Wir nehmen ~x1 als 1. Spalte einer regularen n× n−Matrix Q1:

Q1 := ( ~x1|s2| . . . | ~sn) ∈ Kn·n regular ⇒

(~s2, . . . , ~sn sind also so zu wahlen, daß |Q1| 6= 0)

AQ1 = (A ~x1|A~s2| . . . A ~sn) = (λ1 ~x1|A~s2| . . . |A~sn)

Q−1AQ1 = (λ1Q−1 ~x1| . . . |Q−1A~sn) = (λ1 ~e1| . . . | . . .),

denn Q−1Q = In = (~e1|~e2| . . . | ~en).

Also ist:

Q−11 AQ1 =

λ1 B1

0 A1

, wobei A1 eine (n− 1)× (n− 1) Matrix ist.

Nun haben Q−11 AQ1 und A dieselben EW, weil diese Ahnlichkeitsinvarianten sind.

Wegen |Q−11 AQ1 −XIn| = (λ1 −X)|A1 −XIn−1| folgt, daß λ2, . . . , λn auch die EW der

(n− 1)× (n− 1) Matrix A1 sind.

Dasselbe Verfahren wie fur A wenden wir nun auf A1 an:

2. Schritt: x2 sei ein EV von A1 zu λ2.

Wir nehmen nun ~x2 als 1. Spalte einer regularen (n−1)× (n−1)−Matrix Q2 (die ubrigen

Spalten sind wieder so zu wahlen, daß |Q2| 6= 0). Wie oben folgt:

Q−11 AQ1 =

λ2 B2

0 A2

, wobei A2 eine (n− 2)× (n− 2) Matrix ist.

Das Verfahren wird solange fortgesetzt, bis An−1 = (λn) eine (1× 1)−Matrix ist.

Nach hochstens n− 1 Schritten erhalt man also fur

Q := Q1 ·

I1 0

0 Q2

I2 0

0 Q3

. . .

In−2 0

0 Qn−1

, Ij j − te Einheitsmatrix

Q−1AQ =

λ1 %

.. .

0 λn

.

223

Beispiel: Bestimme eine regulare Matrix Q derart, daß Q−1AQ triangular ist.

A =

9 −1 8 −9

6 −1 5 −5

−5 1 −4 5

4 0 5 −4

1. PA(X) = (X2 − 1)(X2 − 4) = (X − 1)(X + 1)(X − 2)(X + 2) zerfallt in Linearfaktoren

⇒ A ist uber IR triangulierbar.

λ1 = 1, λ2 = −1, λ3 = 2, λ4 = −4

(alle EW sind verschieden ⇒ A ware sogar diagonalisierbar).

2. ~x1 = (5, 5,−1, 3)t ist EV zu λ1 = 1.

Q=

5 0 0 0

5 1 0 0

−1 0 1 0

3 0 0 1

Q−11 AQ = 1

5

5 −1 8 −9

0 0 −15 20

0 4 −12 16

0 3 1 7

=

1 B1

0 A1

3. λ2 = −1 ist EW von A1 mit ~x2 = (4, 0,−1)t als EV.

Q2 :=

4 0 0

0 1 0

−1 0 1

⇒ Q−12 A1Q2 =

120

−20 −15 20

0 −48 64

0 −11 48

=

−1 B2

0 A2

4. λ3 = 2 ist EW von A2 mit ~x3 = (8, 11)t als EV.

Q3 :=

8 0

11 1

⇒ Q−13 A2Q3 =

2 2/5

0 −2

ist bereits triangular.

5. Q := Q1 ·

I1 0

0 Q2

I2 0

0 Q3

=

5 0 0 0

5 4 0 0

−1 0 8 0

3 −1 11 1

224

6. Probe: Q−1AQ =

1 1 −7 −9/5

0 −1 5 1

0 0 2 2/5

0 0 0 −2

.

Mit MATHEMATICA wird die Dreiecksmatrix allerdings mit anderer Zeilenfolge ausgegeben:

a={{9,-1,8,-9},{6,-1,5,-5},{-5,1,-4,5},{4,0,5,-4}};

a//MatrixForm9 −1 8 −9

6 −1 5 −5

−5 1 −4 5

4 0 4 −4

{p,s}=Chop[SchurDecomposition[a]];

(* Transformationsmatrix p *)

p//MatrixForm−0.730297 −0.19518 0.654654 0

−0.547723 0.58554 −0.436436 0.408248

0.365148 0.09759 0.436436 0.816497

−0.182574 −0.78072 −0.436436 0.408248

(* Schur’sche Normalform *)

s//MatrixForm2 −6.94879 −18.8049 −3.42864

0 −2 −3.42864 −1.51396

0 0 −1 −0.534522

0 0 0 1

(* Probe *)

Chop[Inverse[p].a.p]==s

True

225

Spezialfall: In IC[X] zerfallt jedes Polynom, daher gilt:

Satz 22.2 SCHUR’sches Lemma

Jede komplexe n× n−Matrix ist uber IC stets triangulierbar.

Allgemein:

Jede n × n−Matrix uber einem algebraisch abgeschlossenen Korper K ist uber diesen stets tri-

angulierbar.

Theoretische Anwendung:

Satz 22.3 Spur und Determinante

(i) Die Spur einer Matrix ist die Summe ihrer Eigenwerte.

(ii) Die Determinante einer Matrix ist das Produkt ihrer Eigenwerte.

Beweis: Im algebraischen Abschluß ist eine Matrix ahnlich zu einer Dreiecksmatrix. Da die

EW, sp(A) und det(A) Ahnlichkeitsinvarianten sind, und die EW einer Dreiecksmatrix ihre

Diagonalelemente, gilt:

sp(A) = a11 + . . . + ann = λ1 + . . . + λn

det(A) = a11 · . . . · ann = λ1 · . . . · λn

226

23 Blockdiagonalisieren

In Kapitel 21 hatten wir gesehen, daß Diagonalformen sehr nutzlich sind. Was ist die nachstbeste

Form nach einer Diagonalmatrix D = diag(λ1, . . . , λn)? Eine Moglichkeit ist: Statt der Skalare

λi stehen in der Hauptdiagonale quadratische Blockmatrizen Ai.

n× n− Blockdiagonalmatrix = M =

A1 O . . . O

O A2 . . . O...

......

O O . . . Ar

= diag(A1, . . . , Ar)

Die Ai sind (si × si)−Matrizen mit∑r

i=1 si = n, O ist eine entsprechende Nullmatrix.

Manche Blockdiagonalmatrizen werden sich als Dreieicksmatrizen erweisen, namlich dann, wenn

die Ai Dreiecksmatrizen sind.

Ein Operator T : V → V erwies sich genau dann als diagonalisierbar, wenn V die direkte der

Eigenraume Eλ war: V = Eλ1 ⊕ . . .⊕ Eλr , wobei λ1, . . . , λr die verschiedenen EW von T sind.

Fur diese Eigenraume gilt: T (Eλ) ⊆ Eλ, Eλ ist also T−invariant, d.h., mit x ∈ Eλ ist auch

T (x) ∈ Eλ, denn:

Ist x ∈ Eλ ⇒ x = k1b1 + . . . + kmbm, wobei (b1, . . . , bm) eine Basis von Eλ sei.

Dann ist T (x) = k1T (b1) + . . . + kmT (bm) = k1λb1 + . . . + kmλbm = λ(k1b1 + . . . + kmbm) ∈ Eλ.

Allgemein wird sich zeigen: T : V → V laßt sich genau dann durch eine Blockdiagonalmatrix

darstellen, wenn V direkte Summe von T−invarianten Teilraumen Wi C V ist. Die Kunst wird

sein, solche T−invarianten Teilraume zu finden.

23.1 Allgemeines Blockdiagonalisieren

Definition 23.1 T : V → V sei ein linearer Operator und W C V ein Teilraum von V .

(i) W heißt ein T–invarianter Teilraum von T , wenn T (W ) ⊆ W . Dann ist die Ein-

schrankung T/W : W →W ein linearer Operator auf W : (T/W )(w) = T (w)∀w ∈W .

(ii) V sei direkte Summe der T−invarianten Teilraume Wi und Ti := T/Wi. V = W1⊕. . .⊕Wr

oder T wird direkt zerlegt in die Operatoren Ti: T := T1 ⊕ . . .⊕ Tr.

Man sagt auch: Die T−invarianten Teilraume Wi reduzieren T .

227

Beispiel: Die Eigenraume Eλ von T sind T−invariant.

Beispiel: T : IR3 → IR3 sei die Rotation um den Winkel ϕ um die z−Achse.W = x− y−Ebene ist T−invariant.

U = z−Achse ist T−invariant.

T/W dreht jeden Vektor um den Ursprung um ϕ.

T/U = idU .

Satz 23.1 Invariante Teilraume

T : V → V sei ein linearer Operator und f(x) ein Polynom aus K[X]. Folgende Teilraume von

V sind T−invariant:(i) W = {0}, (ii) W = V, (iii) W = ker(T ),

(iv) W = im(T ), (v) ker f(T ), (vi) W = ∩Wi, wobei die Wi T − invariant sind.

Beweis von (v): f(T ) = a0I + a1T + a2T2 + . . . + anTn.

Sei x ∈ ker f(T ) ⇒ f(T )(x) = 0. Wir zeigen: T (x) ∈ ker f(T ). Grundsatzlich ist f(X) ·X =

X · f(X) ⇒ f(T ) ◦ T = T ◦ f(T ) ⇒ f(T )(T (a)) = a0T (x) + a1T (T (x)) + . . . + anTn(T (x)) =

T ◦ (a0I(x) + a1T (x) + . . . + anTn(x)) = T ◦ f(T )(x) = T (0) = 0.

Beachte: ◦ ist fur lineare Operatoren auch rechtsdistributiv.

Wir benutzen folgende Basiseigenschaft: V ist direkte Summe der Wi genau dann, wenn die

Vereinigung der Basen von Wi wieder eine Basis von V ist.

Satz 23.2 Blockdiagonalmatrixdarstellung

T : V → V sei ein linearer Operator und V die direkte Summe der T−invarianten Teilraume

W1, . . . ,Wr. Ist Ai die Matrixdarstellung der Einschrankung T/Wi bezuglich der Basis Bi von

Wi, dann ist die Matrixdarstellung von T bezuglich der Basis B = B1 ∪ . . . ∪Br gegeben durch

[T ]B =

A1 O . . . O

O A2 . . . O...

O O . . . Ar

228

Also: [T ]B1∪B2...∪Br =

[T/W1]B1 O . . . O

O [T/W2]B2 O...

. . .

O . . . . . . [T/Wr]Br

Man sagt auch: [T ]B ist die direkte Summe der Matrizen A1, A2, . . . , Ar und schreibt

[T]B = A1 ⊕A2 ⊕ . . .⊕Ar.

Beweis fur zwei T−invariante Teilraume:

V = U ⊕W und T (U) ⊆ U, T (W ) ⊆W.

B1 = (u1, . . . , uk) sei Basis von U und (w1, . . . , wl) Basis von W .

T1 := T/U und T2 := T/W . Dann gilt:

T1(u1) = a11u1 + . . . + a1kuk

......

...

T1(uk) = ak1u1 + . . . + akkuk

⇒ [T1]B1 = A1 =

0BBB@a11 . . . ak1

...

a1k . . . akk

1CCCAT2(w1) = b11w1 + . . . + b1lwl

......

...

T2(wl) = bk1w1 + . . . + bllwl

⇒ [T2]B2 = A =

0BBB@b11 . . . bl1

...

b1l . . . bll

1CCCA = A2

B1 ∪B2 = (u1, . . . , uk, w1, . . . , wl) ist Basis von V .

T (u1) = T1(u1) = a11u1 + . . . + a1kuk + 0w1 + . . . + 0wk

......

......

T (uk) = T1(uk) = ak1u1 + . . . + akkuk + 0w1 + . . . + 0wk

T (w1) = T2(w1) = 0u1 + . . . + 0uk + b11w1 + . . . + b1lwl

......

......

T (wk) = T2(wl) = 0u1 + . . . + 0ul + bl1w1 + . . . + bllwl

⇒ [T ]B =

[T1]B1 O

O [T2]B2

=

A1 O

O A2

Man schreibt: [T ]B = A⊕B und T = T1 ⊕ T2.

Solche T−invariante Teilraume Wi von V , die V direkt zerlegen, erhalt man nach dem folgenden

Hauptzerlegungssatz aus dem Minimalpolynom von T :

Satz 23.3 Hauptzerlegungssatz

T : V → V sei ein linearer Operator mit dem Minimalpolynom

mT (X) = p1(X)t1p2(X)t2 . . . pr(X)tr ,

229

wobei die p1, . . . , pr verschiedene, irreduzible Polynome sind.

Wi sei der Nullraum der Abbildung pi(T )ti.

Wi := ker(pi(T)ti) i = 1, . . . , r

Dann gilt:

(i) Jedes Wi ist ein T−invarianter Teilraum von V

(ii) V = W1 ⊕ . . .⊕Wr

(iii) pi(X)ti ist das Minimalpolynom der Einschrankung von T auf Wi:

mT/Wi= pi(X)ti

Ohne Beweis.

Beispiel: A =

2 1 0

−3 0 0

3 1 1

pA(X) = X3 − 3X2 + 5X − 3 = (X − 1)(X2 − 2X + 3) = mA

U1 = ker(A− I) =<

0

0

1

>

U2 = ker(A2 − 2A + 3I) =<

1

0

0

,

0

1

−1

>

V = U1 ⊕ U2

Basis B =

0

0

1

,

1

0

0

,

0

1

−1

⇒ P =

0 1 0

0 0 1

1 0 −1

.

Mit diesem P gilt P−1AP =

1 0 0

0 2 1

0 −3 0

⇒ A = A⊕A2 mit A1 = (1), A2 =

2 1

−3 0

Es kommt also auf die Berechnung des Minimalpolynoms an:

Algorithmus zur Berechnung des Minimalpolynoms mA aus dem charakteristischen

Polynom pA:

230

1. Zerlege pA(X) in irreduzible Faktoren (schwierig; in Mathematica z.B. mit Factor[p])

pA(X) = p1(X)t1 . . . pr(X)tr

2. Starte bei p1(X) . . . pr(X) und prufe, ob A Nullstelle ist. Falls ja, dann ist

mA = p1(X) . . . pr(X).

Wenn nicht, probiere, ob A eine Nullstelle von p21(X)p2 . . . pr usw.

Damit: Sind alle irreduziblen Faktoren von pA(X) verschieden, dann ist mA(X) = pA(X).

Zwei Spezialfalle

1. T sei ein nilpotenter Operator vom Index k, d.h. T k = 0, aber T k−1 6= 0.

Das Minimalpolynom ist mT (X) = Xk und 0 daher sein einziger EW.

Satz 23.4 Blockdiagonalzerlegung von nilpotenten Operatoren

T : V → V sei ein nilpotenter Operator vom Index k bzw. A eine quadratische, nilpotente

n× n−Matrix vom Index k.

Dann hat T eine blockdiagonale Matrixdarstellung, deren Diagonalblocke N von der Form

N =

0 1 0 . . . 0 0

0 0 1 . . . 0 0

. . . . . . . . . . . . . . . . . .

0 0 0 . . . 0 1

0 0 0 . . . 0 0

sind. Es gibt mindestens eine (k × k)−Block, alle anderen Blocke haben Dimensionen ≤ k.

Die Gesamtanzahl der Blocke = def(T ).

Die Anzahl der Blocke der Dimension mi ist gegeben durch

2mi −mi+1 −mi−1 wobei mi = def(T i).

Beachte: Jeder Block ist selbst nilpotent von einem Index, der gleich seiner Dimension ist.

Beachte: Obige Blockdiagonalzerlegung ist sogar triangular.

Beispiel: A =

0 1 1 0 1

0 0 1 1 1

0 0 0 0 0

0 0 0 0 0

0 0 0 0 0

, A2 =

0 0 1 1 1

0 0 0 0 0

0 0 0 0 0

0 0 0 0 0

0 0 0 0 0

, A3 = O

231

A ist nilpotent vom Index 3. Die blockdiagonale Matrixdarstellung M enthalt mindestens einen

Block der Dimension 3: N =

0 1 0

0 0 1

0 0 0

und keinen großeren.

Wegen rg(A) = 2 ist def(A) = 5− 2 = 3, daher enthalt M 3 diagonale Blocke ⇒

M enthalt einen (3 × 3)−Block und zwei (1 × 1)−Blocke. Eine andere Konstellation ist nicht

moglich.

A ∼2 M =

0 1 0

0 0 1

0

0

.

Die blockdiagonalisierende Matrix P mit P−1AP = M erhalt man am besten mittels eines

unbestimmten Ansatzes:

Wir bestimmen eine Basis B = (~b1, ~b2, ~b3, ~b4, ~b5) des K5, bezuglich der die Matrixdarstellung

[T ]B = M ist. Nach Definition der Matrixdarstellung (Spalten = Koordinaten der Bilder der

Basisvektoren) gilt auf Grund der Gestalt von M :

A(~b1) = A~b1 = 0 · ~b1 + . . . + 0 · ~b5 = ~0 ⇒ ~b1 ∈ ker(A)

A(~b2) = A~b2 = 1 · ~b1 + . . . + 0 · ~b5 = ~b1 ⇒ ~b2 ist Losung von A~x = ~b1

A(~b3) = A~b3 = 1 · ~b2 + . . . + 0 · ~b5 = ~b2 ⇒ ~b3 ist Losung von A~x = ~b2

A(~b4) = A~b4 = 0 · ~b1 + . . . + 0 · ~b5 = ~0 ⇒ ~b4 ∈ ker(A)

A(~b5) = A~b5 = 0 · ~b1 + . . . + 0 · ~b5 = ~0 ⇒ ~b5 ∈ ker(A)

~b1, ~b4, ~b4 sind also die Basisvektoren vom Nullraum von A:

NullSpace[A] =< (0, 0,−1, 0, 1)t, (0, 1,−1, 1, 0), (1, 0, 0, 0, 0) >

Durch Probieren wahlen wir ~b1, ~b4, ~b5 so, daß die obigen LGS A~x = ~b1 und A~x = ~bz losbar

sind. Die naturliche Reihenfolge liefert keine Losung, aber:

~b1 = (1.0.0.0.0)t, ~b4 = (0, 1,−1, 1, 0)t; ~b5 = (0, 0,−1, 0, 1)t

~b2 = LinearSolve[A, ~b1] = (0, 1, 0, 0, 0)t

~b3 = LinearSolve[A, ~b2] = (0,−1, 1, 0, 0)t

232

P ist die Ubergangsmatrix von der Standardbasis zu B, also

P =

1 0 0 0 0

0 1 −1 1 0

0 0 1 −1 −1

0 0 0 1 0

0 0 0 0 1

Probe: P−1AP = M .

2. Ein orthogonaler Operator T ist zwar stets ein normaler Operator, aber in der Regel nicht

symmetrisch, so daß er zwar uber IC diagonalisierbar ist, nicht jedoch uber IR. Uber IR gibt es

aber folgende andere einfache Darstellung:

Satz 23.5 Blockdiagonaldarstellung orthogonaler Operatoren uber IR

Es sei T : V → V ein orthogonaler Operator auf einem reellen Skalarproduktraum. Dann gibt

es eine ON–Basis B von V , bezuglich der T folgende Matrixdarstellung besitzt:

[T ]B =

1. . .

1

−1. . .

−1

cos ϕ1 − sinϕ1

sinϕ1 cos ϕ1

. . .

cos ϕr − sinϕr

sinϕr cos ϕr

ohne Beweis.

Bemerkung: Die (2× 2)−Blocke entsprechen den komplexen EW λi = cos ϕ + sin ϕ von T

(diese mussen Betrag 1 haben).

233

23.2 JORDAN’scher Normalformensatz

Die letzten Satze zeigen, daß die Blockdiagonalform eines nilpotenten bzw. orthogonalen Opera-

tors sehr viele Nullen und Einser enthalt. Das bestmoglichste Resultat, das man in diese Hin-

sicht fur einen beliebigen Operator erreichen kann, ist die JORDAN’sche Normalform (Camille

Jordan, 1838-1922). Notwendig und hinreichend dafur ist, daß sowohl das charakteristische Po-

lynom, als auch das Minimalpolynom des Operators (der Matrix) in Linearfaktoren zerfallen.

Uber IC ist das (zumindest theoretisch) stets der Fall, so wie auch im algebraischen Abschluß eines

jeden Korpers. Man kann somit sagen, daß jeder Operator auf JORDAN’sche Normalform ge-

bracht werden kann. Die Faktoren in den Zerlegungen des Minimal– und des charakteristischen

Polynoms geben uber die Anzahl der Blocke oft hinreichend Bescheid. Es ist aber schwierig, diese

Zerlegung in Linearfaktoren herzustellen. Hier hilft die Methode des unbestimmten Ansatzes

weiter. Auch Hilfe von verallgemeinerten Eigenvektoren kann man jene Transformations-

matrizen berechnen, die die Jordansche Normalform herstellen.

Satz 23.6 JORDAN’scher Normalformensatz

T : V → V sei ein linearer Operator, λ1, . . . , λr seien seine verschiedenen EW. Das charakte-

ristische bzw. das minimale Polynom mogen in Linearfaktoren zerfallen:

pT (X) = (X − λ1)k1(X − λ2)k2 . . . (X − λr)kr

mT (X) = (X − λ1)m1(X − λ2)m2 . . . (X − λr)r

Dann hat T eine blockdiagonale Matrixdarstellung J , deren Diagonalblocke Jij zum EW λi

folgende Form besitzen:

Jij =

λi 1 0 . . . 0 0

0 λi 1 . . . 0 0

. . . . . . . . . . . . . . . . . . . . .

0 0 0 . . . λi 1

0 0 0 . . . 0 λi

= λiIn + N,Nnilpotent.

Jij ist ein Block, der zum i−ten Eigenwert λi gehort, er heißt JORDAN’scher Block. Die

JORDAN’schen Blocke haben folgende Eigenschaften:

(i) Es gibt mindestens ein Jij der Dimension mi, alle anderen Blocke haben eine Dimension

≤ mi.

234

(ii) Die Summe der Dimensionen aller Jij zu λi ist ki, die algebraische Vielfachheit von λi.

(iii) Die Anzahl gi der Jij ist gleich der geometrischen Vielfachheit von λi.

Die Anzahl der JORDAN’schen Blocke jeder moglichen Dimension ist durch T eindeutig be-

stimmt.

Insgesamt ist:

J = diag(J11, . . . , J1g1 , . . . , Jr1, . . . , Jrgr), wobei gi die geometrische Vielfachheit vom EW λi ist.

ohne Beweis.

Beachte: Jeder JORDAN’sche Block ist von der Form:

Jij = λIn + N N nilpotenter Block aus (23.4)

und J selbst ist sogar von triangularer Form.

Der Satz sagt also aus, daß jeder Operator T in eine Summe von solchen Operatoren zerlegt

werden kann, die selbst die Summe aus einem Vielfachen des identischen Operators und eines

nilpotenten Operators sind.

Die Gestalt λ In + N ermoglicht ein leichtes Berechnen von hohen Matrixpotenzen

(ohne Beweis):

Jnij =

λn

(n1

)λn−1

i

(n2

)λn−2

i . . .

0 λn(n1

)λn−1

i . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . .

0 0 0 λn

Die Aussagen (i), (ii), (iii) ermoglichen oft eine Bestimmung der Jordan’schen Normalform.

Beispiel: T : V → V sei ein linearer Operator mit

pT (X) = (X − 2)4(X − 3)3

mT (X) = (X − 2)2(X − 3)2und

λ1 = 2, k1 = 4,m1 = 2

λ2 = 3, k2 = 3,m2 = 2

Fur die Jordan’schen Blocke gibt es folgende Moglichkeiten:

Zum EW λ1 gibt es einen (2× 2)−Block:

2 1

0 2

Zum EW λ2 gibt es einen (2× 2)−Block:

3 1

0 3

235

Wegen k1 = 4 gibt es zwei (2 × 2)−Blocke oder einen (2 × 2)−Block und zwei (1 × 1)−Blocke

zu λ1 = 2.

Wegen k1 = 3 gibt es einen (2× 2)−Block und einen (1× 1)−Block zu λ2 = 3. Die Anzahl der

Blocke hangt von der geometrischen Vielfachheit von λi ab:

Besitzt T zwei l.u. EV zu λ1, dann gibt es zwei Blocke zu λ1 = 2, also ist

J =

2 1

0 2

2 1

0 1

3 1

0 1

3

Die Basis, bezuglich der [T ]B = J ist bzw. die blockdiagonalisierende Matrix P mit P−1AP = J

findet man am bestem mit dem unbestimmten Ansatz:

Beispiel:

T : IR4 → IR4 mit T (x, y, z, u) = x + y + u, 2y,−x + y + 2z + u,−x + y + 3u)

[T ]B =

1 1 0 1

0 2 0 0

−1 1 2 1

−1 1 0 3

= A

pT (X) = (X − 2)4 mT (X) = (X − 2)2 ⇒ k1 = 4,m1 = 2

geometrische Vielfachheit von λ = 2 ist 3. Damit sind folgende JORDAN’sche Formen moglich

(T ist ubrigens nicht diagonalisierbar):

(4× 4) = (2× 2) + (1× 1) + (1× 1)

(4× 4) = (2× 2) + (1× 1) + (2× 2) scheidet aus, weil 3 Blocke zu λ = 2 vorhanden sein mussen.

Die zwei (1× 1)−Blocke kann man verschieden anordnen:

J1 =

2 1

0 2

2

2

J2 =

2

2 1

0 2

2

J3 =

2

2

2 1

0 1

236

Wir bestimmen eine Basis B = (~b1, ~b2, ~b3, ~b4), fur die [T ]B = J1 gilt:

Nach Definition der Matrixdarstellung muß gelten:

T (~b1) = 2~b1 ⇒ ~b1 ist EV von T zum EW λ = 2

T (~b2) = 1 · ~b1 + 2~b2 ⇔ (T − 2I)~b2 = ~b1 ⇔ ~b2 ist Losung von (T − 2I)~x = ~b1



~b1, ~b3, ~b4 ∈ E2, es ist dim(E2) = 3 = geometrische Vielfachheit von λ = 2.

Eigenvektor [a] =< (1, 0, 0, 1)t, (0, 0, 1, 0)t, (1, 1, 0, 0)t >.

Alle 3 Basisvektoren eignen sich nicht zur Losung von (T − 2I4)~x = ~b1.

Durch Probieren findet man, daß erst

~b1 = (1, 0, 0, 1)t + (0, 0, 1, 0)t = (1, 0, 1, 1)t ∈ E2

sich fur die Losung des LGS (T − 2I)~x = ~b1 eignet.

~b2 = LinearSolve[a− 2IdentityMatrix[4], ~b1] = (−1, 0, 0, 0)t.

~b3 = (1, 0, 0, 1)t

~b4 = (1, 1, 0, 0)t.

Damit ist P =

1 −1 1 1

0 0 0 1

1 0 0 0

1 0 1 0

= {~b1, ~b2, ~b3, ~b4}.

Probe: J1 = Inverse[P ] ·A · P .

Durch andere Anwendungen von ~b1, ~b2, ~b3, ~b4 erhalt man J2 bzw. J3.

Statt des unbestimmten Ansatzes kann man auch verallgemeinerte EV benutzen, um die

gewunschte Transformationsmatrix zu erhalten.

23.3 Verallgemeinerte Eigenvektoren

Im Falle der Nichtdiagonalisierbarkeit einer n×n−Matrix, wenn sie also mehrfache EW besitzt,

erhalt man zu wenig (d.h., weniger als n) l.u. Eigenvektoren. Man behilft sich dann mit “verall-

gemeinerten Eigenvektoren” weiter, mit deren Hilfe Transformationsmatrizen P zur Erreichung

237

der JORDAN’schen Normalform konstruiert werden konnen. Diese verallgemeinerten EV sind

auch sonst noch von Nutzen.

Definition 23.2 Verallgemeinerter Eigenvektor

Ein vom Nullvektor verschiedener Vektor ~x ∈ Kn heißt verallemeinerter Eigenvektor der

Matrix A ∈ Kn·n vom Rang k zum Eigenvektor λ, wenn gilt:

(A− λI)k~x = ~0 und (A− λI)k−1~x 6= ~0.

Im Falle eines linearen Operator T nimmt man zur Definition des veralgemeinerten EV x von

T dessen Darstellungsmatrix bezuglich irgendeiner Basis.

Bemerkung: Fur k = 1 erhalt man die ubliche Definition des Eigenvektors. Diese sind also

verallgemeinerte EV vom Rang 1.

Mit einem solchen verallgemeinerten EV ~x bzw. x vom Rang k kann man folgende Menge von

k verallgemeinerten EV zum EW λ, genannt “Kette von verallgemeinerten EV zum EW

λ”, konstruieren:

xk := x, xk−1 := (A− λI)x = (A− λI)xk

xk−2 := (A− λI)2x = (A− λI)xk−1

...

x1 := (A− λI)k−2x = (A− λI)x3

x2 := (A− λI)k−1x = (A− λI)x2

Durch Induktion nach i zeigt man, daß xi ein verallgemeinerter EV von A vom Rang i ist.

Außerdem erhalt man so die zur Transformation auf JORDAN’sche Normalform notwendigen

l.u. Vektoren.

Satz 23.7 Lineare Unabhangigkeit verallgemeinerter EV

(i) Die von einem verallgemeinerten EV x zum EW λ vom Rang k erzeugte Kette

(x1, x2, . . . , xk) von verallgemeinerten EV ist l.u.

(ii) Die Vereinigung von Ketten verallgemeinerter EV zu verschiedenen EW ist l.u.

Beweis von (i): Wir benutzen fur i = 1, . . . , l − 1: (A− λI)k−1xi = (A− λI)k−1(A− λI)k−ixk =

(A− λI)2k−(i+1)xk = 0 (weil (A− λI)kxk = (A− λI)kx = 0). Sei

l1x1 + l2x2 + . . . + lkxk = 0. (32)

238

Durch Linksmultiplikation mit (A− λI)k−1 erhalt man:

l1 (A− λI)k−1| {z }=(A−λI)2k−2xk=0

x1 + . . . + li (A− λI)k−1| {z }=(A−λI)2k−(i+1)xk=0

xi + . . . + lk(A− λI)k−1xk = 0,

bleibt also nur lk(A− λI)k−1xk = 0 ubrig.

Weil aber (A− λI)k−1xk 6= 0 ist, muß lk = 0 sein.

Analog erhalt man durch Linksmultiplikation von (32) mit (A− λI)k−i, daß li = 0 ist fur i = k, k − 1, . . . , 1.

Beweis von (ii): x sei verallgemeinerter EV von A vom Rang k zum EW λ mit Kette K1 = (x1, x2, . . . , xk).

y sei verallgemeinerter EV von A vom Rang l zum EW µ mit Kette K2 = (y1, y2, . . . , yl).

Nach (i) sind K1, K2 l.u. Mengen. Wir zeigen: K1 ∪K2 = (x1, x2, . . . , xk, y1, y2, . . . , yl) ist ebenfalls l.u.

Indirekt: Sei xi l.a. von K2 = (y1, y2, . . . , yl) ⇒ ∃ Skalare s1, . . . , sl, nicht alle 0, mit:

xi = s1y1 + . . . + siyi + . . . + slyl = 0 (33)

Linksmultiplikation von (33) mit (A− λI)i ergibt wegen (A− λI)ixi = 0:

(A− λI)ixi = (A− λI)(s1y1 + . . . + siyi + . . . + slyl) = 0 (34)

Linksmultiplikation von (34) mit (A− µI)l−1 ergibt, wenn man fur i = 1, . . . , l − 1 berucksichtigt:

(A− µI)l−1(A− λI)iyi = (A− λI)i(A− µI)l−1yi = 0

nur mehr

sl(A− λI)i(A− µI)l−1yl = 0

oder weil yl verallgemeinerter EV vom Rang l ist:

sl(A− λI)iyl = 0. (35)

Nun ist (A− µI)yl = 0 gleichbedeutend mit Ayl = µyl, daher erhalt man auf (35):

sl(µ− λ)iyl = 0. (36)

Wegen µ 6= λ und yl 6= 0 folgt aus (36): sl = 0. So fortfahrend erhalt man sl = sl−1 = . . . = si = . . . s1 = 0, ein

Widerspruch zu (33), d.h., jedes xi ∈ K1 ist von K2 l.u. Analog zeigt man, daß jedes yi ∈ K2 von K1 l.u. ist.

Somit ist K1 ∪K2 l.u.

Beispiel: Berechne die JORDAN’sche Normalform von

A =

1 1 0 1

0 2 0 0

−1 1 2 1

−1 1 0 3

239

und bestimme die Transformationsmatrix P mit P−1AP = J mittels verallgemeinerter EV.

Es ist PA(X) = (X − 2)4, also gibt es nur einen EW λ = 2 mit der algebraischen Vielfachheit 4.

Wegen rg(A− 2I) = 1 = 4 = 3 gibt es nur 3 l.u. EV, also zu wenig fur eine Basis.

Daher versuchen wir es mit verallgemeinerten EV zum EW λ = 2 vom Rang 2 (es ist

mA(x) = (X − 2)2, also (A− 2I)2x = 0), d.h., man sucht einen Vektor ~x mit (A− 2I)~x = 0 und

(A− 2I)2~x 6= 0.

Wegen mA(X) = x2 − 2 erfullt jeder Vektor (A− 2I)2~x = 0, wir bestimmen ein solches ~x2, fur

den (A− 2I) ~x2 6= 0 ist, z.B. ~x2 = (1, 0, 0, 0)t, dann ist ~x1 := (A− 2I) ~x2 = (−1, 0,−1,−1)t und

~x1, ~x2 sind 2 verallgemeinerte EV zum EW λ = 2.

Zusammen mit den EV ~x3 = (1, 0, 0, 1)t und ~x4 = (1, 1, 0, 0)t erhalt man eine Basis

B = ( ~x1, ~x2, ~x3, ~x4) von K4 und damit die regulare Matrix

P = ( ~x1| ~x2| ~x3| ~x4) =

−1 1 1 1

0 0 0 1

−1 0 0 0

−1 0 1 0

Mit P−1 =

0 0 1 0

1 −1 0 −1

0 0 −1 1

0 1 0 0

erhalt man P−1AP =

2 1 0 0

0 2 0 0

0 0 2 0

0 0 0 2

= J

23.4 Matrizenfunktionen

Sowohl bei den Differenzen–, als auch bei den Differentialgleichungen, haben wir gesehen, daß ge-

wisse Funktionen von Matrizen, wie z.B. die Potenzfunktion Ak bzw. die Exponentialfunktion eAx

von Bedeutung sind. Generell benotigt man alle gangigen Funktionen (sinA,√

A, lnA, . . .) einer

Matrix A. Es gibt mehrere Methoden, solche Funktionen von Matrizen zu berechnen: mittels der

Polynomdivision, den Normalformen, den Interpolationsformeln oder mittels des Spektralsatzes.

1. Matrizenfunktionen mittels Polynomdivision

Setzt man eine quadratische Matrix A in ihr charakteristisches Polynom pA(X) ein, so erhalt

man nach dem Satz von CAYLEY die Nullmatrix O : pA(A) = O∀A ∈ Kn·n. Das heißt, die

240

Nullfunktion an “der Stelle A” kann durch ein Ersatzpolynom, namlich das charakteristische

Polynom pA(X) dargestellt werden. Ahnliches gilt auch fur andere Funktionen f(X).

Die einfachsten Funktionen nach der Potenzfunktion sind die Polynomfunktionen

p(X) = amXm + am−1Xm−1 + . . . + a0 am 6= 0.

Ist A eine quadratische n×n−Matrix, dann ist nach den Regeln einer Algebra die Polynommatrix

p(A) := amAm + am−1Am−1 + . . . + a0In

moglich. Ist m < n, dann berechnet man p(A) direkt nach den Matrixregeln.

Ist jedoch m ≥ n, dann kann die Berechnung von p(A) mittels des Satzes ?? uber die Polynom-

division wesentlich vereinfacht werden. Es gilt dann, wenn pA(X) das charakteristische Polynom

von A bezeichnet:

p(X) = q(X) · pA(X) + r(X) mit [r(X)] < n

Nach dem Satz von CAYLEY gilt dann wegen pA(A) = O

p(A) = q(A) · pA(A) + r(A)

p(A) = r(A)(37)

Beachte: Zur Berechnung von p(A) benotigt man hochstens Matrizpotenzen vom Grad ≤ n−1.

Beispiel: p(X) = X10 − 10X9 + 23X8 −X3 + 11X2 + X + 24

Berechne p(A) fur A =

5 2

1 5

Losung: pA(X) = X2 − 10X + 23. Nach dem Divisionssatz gilt:

p(X) = (X8 −X + 1)pA(X) + 34X + 1.

Daher ist p(A) = 34A + I2 =

0@ 171 68

34 171

1A.

Ohne Beweis sei angegeben, daß die Beziehung (37) auch noch fur andere Funktonen f(X) als

Polynomfunktion gilt:

f(X) = q(X) · pA(X) + r(X) (38)

wobei r(X) = rn−1Xn−1 + . . . + r1X + r0 ein Polynom hochstens (n− 1)−ten Grades ist.

Damit ist f(A) = q(A) · pA(A) + r(A) und wegen pA(A) = O gilt:

f(A) = r(A).

241

Die Matrixfunktion f(A) kann also durch ein Ersatzpolynom berechnet werden.

Die n Koeffizienten r0, . . . , rn−1 des Restpolynoms r(X) erhalt man aus (38), indem man die

EW λi einsetzt und berucksichtigt, daß pA(λi) = 0 ist.

Sind alle EW verschieden, erhalt man dadurch ein LGS fur die unbekannten Koeffizienten

r0, . . . , rn−1 von r(X):

r(λi) = f(λi) i = 1, . . . , n (39)

Ist λi ein k−facher EW, dann gilt nach ??, daß nicht nur pA(λi) = 0, sondern auch die Ableitung

bis zur (ki − 1)−ten Ordnung an der “Stelle” λi:

pA(λi) = 0, p′A(λi) = 0, . . . , p(ki−1)A (λi) = 0

Dies liefert die Gleichungen (soferne die Ableitungen existieren)

r(λi) = f(λi)

r′(λi) = f ′(λi)

r(ki−1)(λi) = f (ki−1)(λi).

(40)

Da die Summe der algebraischen Vielfachheiten aller EW λi gleich n ist, erhalt man also stets

n lineare Gleichungen fur die unbekannten Koeffizienten r0, rn, . . . , rn−1 von r(X).

Beispiele: Im folgenden werden fur die Matrix A =

5 2

1 5

die Matrizen

eA, sinA, cos A,A−3, lnA (mit eln A = A) berechnet.

243

Die Berechnungen von f(A) kann noch effizienter gestaltet werden, wenn man das Minimalpoly-

nom mA(X) von A kennt und wenn dessen Grad kleiner als der des charakteristischen Polynoms

pA(X) ist. Da nach Satz 19.8 auch mA(A) = O und mA(λi) = 0 ist, gilt dieselbe Schlußweise

wie oben.

Die Berechnung von mA(X) ist allerdings nicht leicht (siehe 19.2). Kennt man jedoch die

JORDAN’sche Normalform J von A, dann kann das Minimalpolynom mA(X) sofort angegeben

werden:

Sei λ1, λ2, . . . , λr die verschiedenen EW der n×n−Matrix A mit den algebraischen Vielfachheiten

k1, k2, . . . , kr (∑r

i=1 ki = n). Es ist dann bekanntlich

(−1)npA(X) =r∏

i=1

(X − λi)ki

Definition 23.3 Index eines Eigenwertes

Der Index ki des EW λi ist die großte Dimension der zu λi gehorigen JORDAN–Blocke.

Nach Satz 19.8 ist ki ≤ ki.

Beispiel: Die 7× 7−Matrix A habe die JORDAN’sche Normalform

J =

5 1 0 0 0 0 0

0 5 1 0 0 0 0

0 0 5 0 0 0 0

0 0 0 5 1 0 0

0 0 0 0 5 0 0

0 0 0 0 0 2 1

0 0 0 0 0 0 2

Es ist dann: λ1 = 5, k1 = 5, k1 = 3;

λ2 = 2, k2 = 2, k2 = 2

Satz 23.8 Produktdarstellung des Minimalpolynoms

Hat A die r verschiedenen EW λ1, λ2, . . . , λr mit Index k1, k2, . . . , kr, dann gilt fur das Mini-

malpolynom

mA(X) =r∏

i=1

(X− λi)ki

244

2. Matrizenfunktionen mittels Interpolationspolynom

Das die Matrizenfunktion f(A) bestimmende Restpolynom r(X) kann auch durch die aus der

Analysis bekannten Interpolationspolynome bestimmt werden. So kann z.B. eine gegebene Funk-

tion f(X) durch das LAGRANGE’sche Interpolationspolynom r(X) interpoliert werden (siehe

??):

r(X) =n∑

i=1

f(xi) ·n∏

j=1j 6=n

X − xi

xj − xi

Diese LAGRANGE’sche Formel kann auf Matrizen mit verschiedenen EW ubertragen werden:

Satz 23.9 SYLVESTER’sche Interpolationsformel

Die quadratische n× n−Matrix A habe n verschiedene EW λ1, λ2, . . . , λn. Dann gilt:

f(A) =n∑

i=1

f(λi)n∏

j=1j 6=i

A− λiIn

λj − λi(41)

Beweis: Nach Satz 20.21 ist A unter diesen Bedingungen diagonalisierbar. Es gibt also eine regulare Matrix P mit

P−1AP = D = diag(λ1, . . . , λn).

Fur f(X) gilt:

P−1f(A)P = f(D) = diag(f(λ1); . . . , f(λn)). (42)

Multipliziert man (41) ebenfalls links mit P−1 und rechts mit P , so erhalt man:

P−1“P

i f(λi)Q

jA−λiIλj−λi

”P =

= P−1“Pn

i=1

(A−λ1I)(A−λ2I)...(A−λi−1I)(A−λi+1I)...(A−λnI)

(λi−λ1)(λi−λ2)...(λi−λi−1)(λi−λi+1)...(λi−λn)f(λi)

”P =

=Pn

i=1

(D−λ1I)(D−λ2I)...(D−λi−1I)(D−λi+1I)...(D−λnI)

(λi−λ1)(λi−λ2)...(λi−λi−1)(λi−λi+1)...(λi−λn)f(λi) =

=Pn

i=1

0BBBBBBBBBB@

0

. . .

f(λi)

. . .

0

1CCCCCCCCCCA=

0BBB@f(λ1)

. . .

f(λn)

1CCCA = f(D).

Damit ist nach (42):

f(A) = Pf(D)P−1 = P (P−1“P

i f(λi)Q

jA−λiIλj−λi

”P )P−1 =

=P

i f(λi)Q

j 6=iA−λiIλj−λi

.

Fur 3× 3−Matrizen sieht (41) ausgeschrieben so aus:

f(A) = f(λ1)(A− λ2I3)(A− λ3I3)(λ1 − λ2)(λ1 − λ3)

+ f(λ2)(A− λ1I3)(A− λ3I3)(λ2 − λ1)(λ2 − λ3)

+ f(λ3)(A− λ1I3)(A− λ2I3)(λ3 − λ1)(λ3 − λ2)

245

Beachte: Wegen der Verschiedenheit der EW sind alle Nenner 6= 0.

Beispiele:

246

Bemerkung: Sind nicht alle EW verschieden, gilt Ahnliches mit der NEWTON’schen In-

terpolationsformel.

3. Matrizenfunktionen mittels Normalformen

Sei A ahnlich zu einer Normalform N , also P−1AP = N ⇔ A = PNP−1.

Fur Polynomfunktion p(X) gilt dann (siehe das Rechnen mit Matrixpotenzen 21.4.1):

p(A) = P (N)P−1

Ahnliches gilt fur viele Funktionen f(X) (→ Funktionalanalysis):

f(A) = Pf(N)P−1

247

Fur spezielle Normalformen, wie z.B. fur N = J (JORDAN’sche Normalform) und besonders

fur Diagonalmatrizen N = D ist die Berechnung von f(N) besonders leicht. So ist (siehe 21.4.4)

f(D) = diag(f(λ1), . . . , f(λn)) fur D = diag(λ1, . . . , λn).

Damit gilt also fur diagonalisierbare Matrizen A mit EW λ1, . . . , λn:

f(A) = P

f(λ1)

. . .

f(λn)

P−1,

wobei P die diagonalisierende Transformationsmatrix ist.

Beispiele:

248

4. Matrizenfunktionen mittels der Spektraldarstellung

Der Vollstandigkeit halber sei noch ohne Beweis angegeben, wie man aus der Spektraldarstel-

lung siehe 21.8 und 21.10 fur normale Matrizen A praktisch sofort die Matrizenfunktion f(A)

angeben kann:

Satz 23.10 Matrizenfunktionen mittels Spektraldarstellung

Seien λ1, . . . , λr die verschiedenen EW der normalen Matrix A und P1, . . . , Pr eine orthogonale

Menge von Orthogonalprojektionen mit

A = λ1P1 + . . . + λrPr wobei

P2 + P2 + . . . + Pr = I und

PiPj = PjPi , dann gilt:

f(A) = f(λ1)P1 + . . . + f(λjPj)

249

Beispiele:

252

VII QUADRATISCHE FORMENBisher haben wir uns nur mit linearen Ausdrucken in den Variablen x1, . . . , xn der Form a1x1 +

a2x2 + . . . + anxn beschaftigt. Sie sind dadurch gekennzeichnet, daß sie die Variablen nur in

den ersten Potenzen enthalten und dementsprechend nur lineare Abbildungen vom Kn → K

hervorrufen. Nun wollen wir uns mit solchen Ausdrucken beschaftigen, die auch Produkte und

Quadrate der Ausgangsvariablen enthalten: ax2 + bxy + cy2 oder allgemein

a11x21 + a22x2 + . . . + annx2

n + a12x1x2 + . . . + a1nx1xn + . . .a23x2x3 + . . . + an−1anxn−1xn.

Sie induzieren ebenfalls Abbildungen vom Kn → K, die man allgemein Formen nennt. Sie sind

aber nicht mehr linear, trotzdem werden wir sehen, daß sie mit linearen Methoden, ja sogar mit

symmetrischen Matrizen beschrieben werden konnen. Solche Ausdrucke werden in den verschie-

densten Gebieten der Mathematik benotigt. In der Analysis z.B. zur Kennzeichnung von Maxima

und Minima, in der Geometrie zur Beschreibung von “gekrummten” Punktmengen (Kegelschnit-

te, Quadriken), auch in der Statistik mochte man wissen, wann solche Ausdrucke immer nur

Werte ≥ 0 oder < 0 annehmen. Dazu werden wir lernen, wie man solche quadratische Ausdrucke

vereinfachen, insbesondere die gemischten Terme xixj entfernen kann (“Hauptachsentransfor-

mation”) und welche Geometrie auf der durch sie beschriebenen Punktmengen moglich ist.

24 Bilinearformen und Quadratische Formen

Mit den zunachst naheliegenden Ausdrucken der Form a1x1 + . . . + anxn und den durch sie

induzierten linearen Abbildungen, den Linearformen, werden wir uns erst spater beschaftigen.

Sie traten bisher bei linearen Gleichungssystemen auf. Der weitere Ausbau ihrer Theorie und

ihren Anwendungen erfolgt im Kapitel uber Dualitat in der Hoheren Linearen Algebra.

Vielmehr beschaftigen wir uns mit “quadratischen Formen” und zeigen, daß sie trotzdem mit

linearen Methoden behandelt werden konnen. Das beruht darauf, daß sie ebenfalls mit Matrizen

(sogar symmetrischen → Hauptsatz der Linearen Algebra) beschrieben werden konnen bzw. als

Spezialfall von “bilinearen” Abbildungen aufgefaßt werden konnen, wie folgendes Beispiel zeigt:

q(x1, x2) = 3x21 + 8x1x2 + 5x2

2 = (x1, x2)

3 4

4 5

x1

x2

= ~xtA~x.

Setzt man in

f(x1, x2, y1, y2) = 3x1y1 + 4x2y1 + 4x1y2 + 5x2y2

253

x1 = y1 und x2 = y2, so erhalt man:

f(x1, x2, x1, x2) = 3x21 + 4x2x1 + 4x1x2 + 5x2

2 = 3x21 + 8x1x2 + 5x2

2

= q(x1, x2)

f ist dabei eine Abbildung von K2 ×K2 → K und q(~x) = f(~x, ~x) ebenfalls eine Abbildung vom

K2 → K.

24.1 Definitionen

Folgende Abbildungen wurden bisher untersucht:

1. Vorschriften mit nur 1. Potenzen der Ausgangsvariablen x = (x1, . . . , xn)

Lineare Abbildungen Kn → Km

y1 = a11x1 + . . . + a1nxn

y2 = a21x1 + . . . + a2nxn

...

ym = am1x1 + . . . + amnxn

~y = A~x

allgemein:

f : V →W

f(x) = y

f(kx + ly) = kf(x) + lf(y)

f : Lineare Abbildung (Operator)

Spezialfall:

y = a1x1 + . . . + a2xn

y = ~at · ~x

f : V → K

f(~x) = k ∈ K

f : Linearform

Affine Abbildungen Kn → Km

y1 = a11x1 + . . . + a1nxn + b1

y2 = a21x1 + . . . + a2nxn + b2

...

ym = am1x1 + . . . + amnxn + bm

~y = A~x +~b

α : V →W

α(x) = f(x) + t, f linear

α : Lineare Abbildung + Translation

y = a1x1 + . . . + a2xn + b

y = ~at · ~x + b

α : V → K

α(~x) = k ∈ K

α : Linearform + Konstante

254

2. “Vorschriften” mit quadratischen und “gemischten” Termen der

Ausgangsvariablen x = (x1, . . . ,xn)

y = ax2 + bxy + cy2

y = ~xtA~x

q : V → K

y = q(~x) = ~xtA~x =< A~x, ~x >=< x, A~x >

Quadratische Formen

allgemein:

y = a11x21 + . . . + a1nx2

n +∑

i6=j aijxixj

q(~x) = ~xtA~x

y = ax2 + bxy + cy2 + dx + ey + f

q : V → K

q(~x) = ~xtA~x + ~at · ~x + f

Quadratische Form + Linearform +

Konstante

q(~x) =< ~x, A~x > + < ~a, ~x > +f

y =∑

aiix2i +

∑i6=j aijxij +

∑aixi + c

Allen Abbildungen ist gemeinsam: Einem Vektor x ∈ V wird ein Skalar zugeordnet. Sie

konnen durch Matrizen und Skalarprodukte beschrieben werden.

Nun wollen wir zwei und mehr Vektoren einem Skalar zuordnen.

Beispiel: f(x1, x2, y1, y2) = x1y1 + 2x1y2 − 3x2y1 + 4x2y2

f kann nicht nur als eine Zuordnung von K4 → K, sondern auch als eine Zurodnung von

K2 ×K2 → K aufgefaßt werden.

Setzt man ~x =(x1

x2

)und ~y =

(y1

y2

), dann gilt:

f(~x, ~y) = x1y1 + 2x1y2 − 3x2y1 + 4x2y2 ∈ K.

Zwei Vektoren ~x, ~y ∈ K2 wird also ein Skalar ∈ K zugeordnet. Auch diese Zuordnung kann

vereinfacht mit einer Matrix angeschrieben werden:

f(~x, ~y) = (x1, x2)

1 2

−3 4

y1

y2

= ~xtA~y

Dabei ist aij = Koeffizient von xixj.

Aufgrund der Matrixregeln erweist sich die Zuordnung als linear in den 2 Vektor–Variablen ~x, ~y,

d.h., ersetzt man ~x durch k ~x1 + l ~x2, dann passiert dasselbe mit den Funktionswerten:

f(k ~x1 + l ~x2, ~y) = kf( ~x1, ~y) + lf( ~x2, ~y) und analog

f(~x, k ~y1 + l ~y2) = kf(~x, ~y1) + lf(~x, ~y2), denn:

f(k ~x1 + l ~x2, ~y) = (l ~x1 + l ~x2)tA~y = (k ~x1t + l ~x2

t)A~y = k ~x1tA~y + l ~x2

tA~y = kf( ~x1, ~y) + lf( ~x2, ~y).

Naturlich kann man dies auch in den Koordinaten nachrechnen.

Ubrigens ist f(~x, ~y) 6= f(~y, ~x).

255

Setzt man in f(~x, ~y) ~y = ~x, so erhalt man:

f(~x, ~x) = ~xtA~x = x21 + 2x1x2 − 3x2x1 + 4x2

2 = x21 − x2x1 + 4x2

2 = q(~x)

f(~x, ~x) ist also eine quadratische Form in x1, x2.

Beispiel: Auch das Skalarprodukt ist eine Zuordnung, die 2 Vektoren einen Skalar zuordnet:

f(~x, ~y) = ~x · ~y = x1y1 + . . . + xnyn ∈ K

Ersetzt man auch hier ~x durch k ~x1 + l ~x2, so erhalt man:

f(k ~x1 + l ~x2, ~y) = (k ~x1 + l ~x2) · ~y = k ~x1 · ~y + l ~x2 · ~y = kf( ~x1, ~y) + lf( ~x2, ~y)

Dasselbe gilt bei der Ersetzung von ~y durch k ~y1 + l ~y2. Man sagt: Die Zuordnung ist linear in

der ersten und zweiten (Vektor)variablen.

Es ist daruber hinaus: f(~x, ~y) = f(~y, ~x).

Beispiel: Beim komplexen Skalarprodukt gilt die Linearitat bezuglich der zweiten Variablen

nicht mehr ganz:

f(~x, ~y) = ~x · y = x1 ~y1 + . . . + xnyn ⇒

f(~x, k ~y1 + l ~y2 = ~x(k ~y1 + l ~y2) = ~x · k ~y1 + l ~y2 = k(~x · ~y1) + l(~x, ~y2) = kf(~x, ~y1) + l(~x, ~y2).

Man sagt: f ist bezuglich der 2. Variablen nur similinear.

Definition 24.1 Semibilinearformen und quadratische Formen

V sei ein Vektorraum uber dem Korper K. Fur k ∈ IC bezeichne k die konjugierte–komplexe Zahl

zu k.

(i) Eine Abbildung f : V × V → K = IC heißt eine Semibilinearform auf V , wenn fur alle

k, l ∈ K und alle x, x1, x2, y, y1, y2 ∈ V gilt:

(SB 1) f(kx1 + lx2,y) = kf(x1,y) + lf(x2,y)

f ist linear in der ersten Variablen.

(SB 2) f(x,ky1 + ly2) = kf(x,y1) + lf(x,y2)

f ist semilinear in der zweiten Variablen.

(ii) Eine Abbildung f : V × V → K heißt Bilinearform auf V , wenn fur alle k, l ∈ K und

alle x, x1, x2, y, y1, y2 ∈ V gilt:

(B1) f(kx1 + lx2,y) = kf(x1,y) + lf(x2,y)

256

(B2) f(x,ky1 + ly2) = kf(x,y1) + lf(x,y2)

f ist in beiden Variablen linear.

Beachte: Fur K = IC gibt es Semibilinear– und Bilinearformen.

(iii) Eine Abbildung f : V × V × . . .× V︸︷︷︸n mal

→ K heißt Multilinearform auf V , wenn fur alle

k, l ∈ K gilt:

f(. . . ,kx + ly, . . .) = kf(. . . ,x, . . .) + lf(. . . ,y, . . .)

f ist in jeder Variablen linear.

(iv) eine Semibilinearform f auf V heißt hermitesch, wenn fur alle x, y ∈ V gilt:

f(x,y) = f(y,x)

(v) Eine Bilinearform (bzw. eine Multilinearform) f auf V heißt symmetrisch, wenn fur alle

x, y ∈ V gilt:

f(x,y) = f(y,x) bzw. f(. . . ,x, . . . ,y, . . .) = f(. . . ,y, . . . ,x, . . .)

Fur K = IR ist jede symmetrische auch eine hermitesche Semibilinearform. f heißt auch

eine reell–symmetrische Bilinearform.

(vi a) Eine Semibilinearform f heißt schiefhermitesch, wenn fur alle x, y ∈ V gilt:

f(x,y) = −f(y,x)

(vi b) Eine Bilinearform (bzw. eine Multilinearform) f auf V heißt schiefsymmetrisch, wenn fur

alle x, y ∈ V gilt:

f(x,y) = −f(y,x) bzw. f(. . . ,x, . . . ,y, . . .) = −f(. . . ,y, . . . ,x, . . .)

(vi c) eine Bilinearform (bzw. eine Multilinearform) f auf V heißt alternierend, wenn fur alle

x ∈ V gilt:

f(x,x) = 0 bzw. f(. . . ,x, . . . ,x, . . .) = 0

257

(vii) eine Abbildung h : V → K = IC heißt eine hermitesche Form auf V, wenn es eine

hermitesche Semibilinearform f : V × V → IC gibt, mit

h(x) = f(x,x) ∀x ∈ V.

Hermitesche Formen nehmen nur reelle Zahlen als Werte an:

h(x) = f(x, x) = f(x, x) = h(x)⇒ h(x) ∈ IR.

(viii) Eine Abbildung q : V → IR heißt eine quadratische Form auf V, wenn es eine symme-

trische Bilinearform f : V × V → IR gibt, mit

q(x) = f(x,x) ∀x ∈ V.

f heißt Polarform zur quadratischen Form q.

(ix) Eine hermitesche bzw. quadratische Form q(x) heißt

positiv definit ⇔ q(x) > 0 ∀x 6= 0

positiv semidefinit ⇔ q(x) ≥ 0 ∀x

negativ definit ⇔ q(x) < 0 ∀x 6= 0

negativ semidefinit ⇔ q(x) ≤ 0 ∀x

indefinit ⇔ ∃x : q(x) > 0 und ∃y : q(y) < 0.

Beachte: Quadratische Formen haben wir nun nicht uber den “vagen” Ausdruck gemischte

und quadratische Terme definiert, sondern uber symmetrische Bilinearformen. Das geht auch in

abstrakten Vektorraumen.

Elementare Eigenschaften:

1. Allen “Formen” ist gemeinsam: Sie sind Abbildungen in den Skalarkorper K eines Vektor-

raumes. Neuerdings heißen solche Abbildungen auch Funktionale, insbesondere lineare

Abbildungen f : V → K.

2. Ist char(K) 6= 2 (wie z.B. fur K = IR bzw. K = IC), dann ist jede alternierende Multiline-

arform schiefsymmetrisch und umgekehrt:

258

a) Sei f(. . . x . . . x . . .) = 0⇒

0 = f(. . . x + y . . . x + y . . .) = f(. . . x . . . x . . .) + f(. . . x . . . y) + f(. . . y . . . x . . .) +

f(. . . y . . . y . . .) = f(. . . x . . . y . . .) + f(. . . y . . . x . . .)

(b) Sei f(. . . x . . . y . . .) = −f(. . . y . . . x . . .) ⇒ f(. . . x . . . x . . .) = −f(. . . x . . . x . . .) ⇒

2f(. . . x . . . x . . .) = 0⇒ f(. . . x . . . x . . .) = 0 wenn char(K) 6= 2.

Eine quadratische Form q : V → K erhalt man durch q(x) := f(x, x) aus einer symmetri-

schen Bilinearform.

3. Ist char(K) 6= 2, dann kann umgekehrt jede symmetrische Bilinearform durch ihre dazu-

gehorige quadratische Form polar dargestellt werden:

f(x,y) =12

(q(x + y)− q(x)− q(y)) : Polarform von f .

Ist q(~x) = ~xtA~x, dann ist die Polarform f von q gegeben durch:

f(~x, ~y) = ~yt At + A

2~x

Fur quadratische Formen gilt weiters:

q(0) = 0K q(0) = f(0, 0) = f(0k · 0, 0) = 0K · f(0, 0) = 0K

q(x) = q(−x) q(x) = f(x, x) = f(−x,−x) = q(−x)

q(x + y) + q(x− y) = 2(q(x) + q(y)) Ubung

Parallelogrammgleichung fur quadratische Formen.

Analog kann eine hermitesche Semibilinearform f durch ihre hermitesche Form h polar darge-

stellt werden:

f(x,y) =14

(h(x + y)− h(x− y)) +14

(h(x + iy)− h(x− iy))

Fur hermitesche Semibilinearformen gilt daruber hinaus fur alle x, y ∈ V :

Re[f(x,y)] = 12(f(x + y,x + y)− f(x,x)− f(y,y))

Im[f(x,y)] = 12(f(x + iy,x + iy)− f(x,x)− f(y,y))

259

Fundamentale Beispiele von Formen

1. a) Jede n × n−Matrix A = (aij) uber K definiert eine Bilinearform auf Kn

durch:

f(−→x ,−→y ) = −→y tA−→x = (y1, . . . ,yn)

a11 . . . a1n

...

an1 . . . ann

x1

...

xn

=

=∑n

i=1

∑nj=1 aijxixj = a11x1y1 + a12x1y2 + . . . + annxnyn.

Der formale Ausdruck von f(~x, ~y) ist also ein Polynom ∈ K[X, Y ], es heißt das zur

Matrix A gehorige bilineare Polynom.

Die Bilinearitat folgt aus den Matrixregeln.

b) Jede n × n−Matrix uber IC definiert durch f(x, y) = y∗Ax eine Semibiline-

arform auf ICn.

c) Jede symmetrische n × n−Matrix X definiert durch q(~x) = ~xtA~x eine quadratische

Form auf Kn.

q(~x) =∑

i,j aijxixj =∑

i aiix2i + 2

∑i<j aijxixj

d) Jede hermitesche n×n−Matrix A definiert durch q(~x) = ~x∗A~x eine hermitesche Form

auf ICn.

2. Jedes reelle Skalarprodukt f(x, y) =< x, y > ist eine symmetrische Bilinearform,

deren zugehorige quadratische Form q(x) = f(x, x) positiv definit ist.

f(x, x) = x1x1 + . . . + xnxn = x21 + . . . + x2

n > 0 fur x 6= 0.

Jedes komplexe Skalarprodukt f(x, y) =< x, y > ist eine hermitesche

Semibilinearform, deren zugehorige hermitesche Form h(x) = f(x, x) positiv definit ist.

f(x, x) = x1x1 + . . . + xnxn = |x1|2 + . . . + |xn|2 > 0 fur x 6= 0.

3. Jede Determinante det(A) ist eine alternierende Multilinearform ihrer Zeilenvektoren:

f(~z1, . . . , ~zn) = det(A) mit der zusatzlichen Normierungseigenschaft:

f(~e1, . . . , ~en) = |In| = 1.

4. f, g : V → K seien linear.

Dann ist f(x, y) := f(x) · g(y) eine Bilinearform auf V .

260

5. a, b ∈ IR, a ≤ b. V = C[a, b], x(t), y(t) ∈ C[a, b].

f(x, y) :=∫ ba x(t)y(t)dt ∈ IR ist eine symmetrische Bilinearform.

So wie die lineare Abbildung f, g : V →W bezuglich der punktweisen Addition f +g und Vielfa-

chen kf einen Vektorraum Hom (V,W ) = L(V,W ) bilden, gilt dies auch fur die Bilinearformen:

(f + g)(x, y) := f(x, y) + g(x, y)

(kf)(x, y) := kf(x, y)

Satz 24.1 Die Menge B(V ) der Bilinearformen auf V bildet einen Vektorraum uber K.

24.2 Matrixdarstellung von Bilinearformen

So wie fur lineare Abbildungen gibt es auch fur Bilinearformen eine bijektive Zuordnung zu den

Matrizen, verantwortlich dafur ist die Linearitat in den beiden Variablen.

Sei f eine Bilinearform auf V und B = (b1, . . . , bn) eine Basis von V . Ist x = x1b1 + . . . + xnbn

und y = y1b1 + . . . + ynbn, dann ist, so wie bei linearen Abbildungen, das Bild f(x, y) durch die

Bilder der Basisvektorpaare f(bi, bj) eindeutig festgelegt:

f(x, y) = f(x1b1 + . . . + xnbny1b1 + . . . + ynbn) =

= x1f(b1, y1b1 + . . . + ynbn) + . . . + xnf(bn, y1b1 + . . . + ynbn) =

= x1y1f(b1, b1) + x1y2f(b1, b2) + . . . + x1ynf(b1, bn)+

+x2y1f(b2, b1) + x2y2f(b2, b2) + . . . + x2ynf(b2, bn)+

. . .

+xny1f(bn, b1) + xny2f(bn, b2) + . . . + xnynf(bn, bn) =

=∑n

i,j=1 xiyjf(bi, bj).

Versammelt man diese Bilder der Basisvektorpaare f(bi, bj) in einer Matrix A := [f ]B =

(f(bi, bj)), dann gilt:

f(x,y) =∑

xiyif(bi,bj) = (y1, . . . ,yn)A

x1

...

xn

= [y]tBA[x]B

Definition 24.2 Matrixdarstellung

f sei eine Bilinearform auf V mit der Basis B = (b1, . . . , bn). Die Matrix [f ]B := (f(bi, bj))

heißt Matrixdarstellung von f bezuglich der Basis B oder Formmatrix von f.

261

Satz 24.2 Matrixdarstellung von Bilinearformen

(i) Ist [f ]B die Matrixdarstellung von f dann gilt:

f(x,y) = [y]tB[f ]B[x]B

Fur eine feste Basis B ist [f ]B eindeutig bestimmt.

(ii) Die Zuordnung f → [f ]B ist ein Vektorraumisomorphismus von B(V ) auf Kn·n, d.h.,

[f + g]B = [f ]B + [g]B, [kf ]B = k[f ]B

(iii) f hermitesch ⇒ [f ]B hermitesch

f symmetrisch ⇒ [f ]B symmetrisch

f schiefsymmetrisch ⇒ [f ]B schiefsymmetrisch

(iv) Ist P die Ubergangsmatrix von der Basis B zur Basis B′, dann gilt fur die neue Matrixdar-

stellung:

[f ]B′ = Pt[f ]BP

[f ]neu = Pt · [f ]alt ·P

Die Matrixdarstellungen einer Bilinearform sind also untereinander kongruent.Beweis von (iii):

f(x, y) = [y]t[f ][x] = ([y]t[f ][x])t =

= [x]t[f ]t[y]tt = [x]t[f ]t[y]

Ist f symmetrisch ⇒ [y]t[f ]t[x] = [y]t[f ][x] = f(y, x) = f(x, y) fur alle x, y, insbesondere fur die Einheitsvektoren

⇒ [f ]t = [f ].

Beweis von (iv):

f(x, y) = [y]tB [f ]B [x]B = (P [y]B′)t[f ]B(P [y]B′) = [y]B′(P t[f ]BP )[x]B′ .

Wegen der Eindeutigkeit ist [f ]B′ = P t[f ]BP .

Die neue Matrixdarstellung einer Bilinearform unterscheidet sich also von der alten einfach dadurch, daß man

diese von rechts mit P und links mit P t multipliziert. (Kongruente Matrizen nach Definition 21.2.)

Jeder quadratischen Form q auf V ist genau eine symmetrische Bilinearform f auf V zugeordnet.

Ist dim(V ) = n dann ist bezuglich einer festen Basis B von V diesem f genau eine symmetrische

n × n−Matrix zugeordnet. Damit kann man auch jeder quadratischen Form q bezuglich einer

festen Basis B von V genau eine symmetrische n×n−Matrix als Formmatrix [q] von q zuordnen:

Die Formmatrix [q]B einer quadratischen Form q ist die Formmatrix ihrer Polarform

f: [q]B = [f ]B.

262

Umgekehrt definiert jede symmetrische n× n−Matrix A eine quadratische Form auf V durch

q(x) = [x]tBA[x]B.

Ahnliches gilt fur hermitesche Formen und hermitesche Matrizen.

Satz 24.3 Formmatrizen von quadratischen Formen

V sei ein Vektorraum uber K = IR bzw. IC.

(i) Fur K = IR gibt es eine bijektive Zuordnung zwischen quadratischen Formen und symme-

trischen n× n−Matrizen.

(ii) Fur K = IC gibt es eine bijektive Zuordnung zwischen hermiteschen Formen und hermite-

schen n× n−Matrizen.

(iii) Die Formmatrizen einer quadratischen Form sind untereinander kongruent.

(iv) Fur V = IRn gilt speziell: Ist q(~x) = ~xtA~x, dann ist die Polarform f(~x, ~y) von q(~x) gegeben

durch

f(−→x ,−→y ) = −→y tAt + A2

−→x ,

also ist 12(At + A) die Formmatrix von q.

Beachte: 12(At + A) ist stets symmetrisch.

Beweis von (iv):

f(~x, ~y) = 12(q(~x + ~y)− q(~x)− q(~y)) =

= 12((~xt + y)tA(~x + ~y)− ~xtA~x− ~ytA~y) =

= 12( ~xtA~y︸︷︷︸

ist eine Zahl

+~ytA~x) =

= 12 [(~xtA~y)t + ~ytA~x] =

= 12(~ytAt~x + ~ytA~x) = ~yt At+A

2 ~x.

Beispiel: q(~x) = (x1, x2, x3) =

1 2 −4

0 0 −8

0 0 +3

x1

x2

x3

= x21 + 2x1x2 − 4x1x3 − 8x2x3 + 3x2

3 − 4x1x3

263

Polarform f(~x, ~y) = ~yt At+A2 ~x = (y1, y2, y3)

1 1 −2

1 0 −4

−2 −4 3

x1

x2

x3

;

1 1 −2

1 0 −4

−2 −4 3

ist die (symmetrische) Formmatrix von q.

Probe: q(~x) = (x1, x2, x3)

1 1 −2

1 0 −4

−2 −4 3

x1

x2

x3

= x21 + 3x2

3 + 2x1x2 − 8x2x3 − 4x1x3.

Orthogonal ahnliche Matrizen sind wegen P−1 = P t auch kongruent. Kongruente Matrizen sind

auch aquivalent (aber nicht umgkehrt), damit besitzen kongruente Matrizen gleichen Rang

und es ist folgende Definition moglich:

Definition 24.3 Ausgeartete und nicht ausgeartete Bilinerform

(i) f sei eine Bilinearform auf dem Vektorraum V . Der Rang einer Bilinearform ist der Rang

irgendeiner Matrixdarstellung von f : rg(f) = rg([f ]B).

f heißt nicht ausgeartet ⇔ rg(f) = dim(V ).

f heißt ausgeartet ⇔ rg(f) < dim(V ).

(ii) Der Rang einer quadratischen (hermiteschen) Form ist der Rang ihrer Formmatrix.

24.3 Kongruentes Diagonalisieren

Aufgrund von 24.3 sind Aussagen uber quadratische Formen zugleich auch Ausagen uber sym-

metrische Matrizen. Dazu behandeln wir so wie bei linearen Operatoren die Frage nach der

einfachsten Darstellung bezuglich Kongruenztransformationen.

Satz 24.4 Diagonalform quadratischer Formen

V sei ein Vektorraum uber dem Korper K mit char(K) 6= 2. Zu jeder quadratischen Form q(x)

auf V gibt es eine Basis von V , bezuglich der die Formmatrix von q eine Diagonalmatrix ist.

Matrizentheoretisch formuliert:

K sei ein Korper mit char(K) 6= 2. Zu jeder symmetrischen n × n−Matrix A uber K existiert

eine regulare Matrix P mit P tAP = D = diag(d1, d2, . . . , dn).

Also: Jede symmetrische Matrix ist zu einer Diagonalmatrix kongruent.

264

Beachte: Die Diagonalelemente sind keine EW von A. Man erhalt P auch ohne die (schwierige)

Eigenwertberechnung, sondern nur durch Kongruenztransformationen:

1. V (p, q) bezeichne das Vertauschen der p−ten Spalte mit der q−ten Spalte und die Ver-

tauschung der p−ten Zeile mit der q−ten Zeile.

2. U(p, q, k) bezeichne die Addition des k−fachen der q−ten Spalte zur p−ten Spalte und

die Addition des k−fachen der q−ten Zeilen zur p−ten Zeile.

Weil A symmetrisch ist, fuhrt man immer Zeilen– und Spaltenoperation gleichzeitig aus, al-

lerdings nur mit den Halbe–fachen des entsprechenden Matrixelementes. Treten wahrend des

Vorganges einmal in der Hauptdiagonale nur mehr Nullen auf, muß man ein aqp 6= 0 auf eine

Diagonalstelle bringen.

Statt eines Beweises wird nur das Verfahren illustriert: Schreibe A und In nebeneinander auf.

Versuche A auf Diagonalgestalt zu bringen und wende auf In nur die entsprechenden Spalte-

numformungen an. Die Matrix, die aus In entsteht, ist die gesuchte Transformationsmatrix

P , also:

(A/In)→ (D/P )

A

1 −2 3 −1

−2 4 −5 1

3 −5 9 −1

−1 1 −1 1

B

1 0 0 0

0 1 0 0

0 0 1 0

0 0 0 1

Es wird addiert: Das 2–fache der 1. Spalte zur 2., das (−3)−fache der 1. Spalte zur 3., das

1–fache der 1. Spalte zur 4. Spalte.

1 0 0 0

0 0 1 −1

0 1 0 2

0 −1 2 0

1 2 −3 1

0 1 0 0

0 0 1 0

0 0 0 1

Alle Diagonalelemente der Restmatrix verschwinden. Es wird addiert: Das 12−fache der 3. Spalte

265

zur 2. Spalte.

1 0 0 0

0 1 1 0

0 1 0 2

0 0 2 0

1 12 −3 1

0 1 0 0

0 12 1 0

0 0 0 1

Es wird addiert: Das (−1)−fache der 2. Spalte zur 3. und dann das 2–fache der 3. Spalte zur 4.

Spalte.

1 0 0 0

0 1 0 0

0 0 −1 0

0 0 0 4

P tAP

1 12 −7

2 −6

0 1 −1 −2

0 12

12 1

0 0 0 1

P

Fur reelle (K = IR) und komplexe (K = IC) Vektorraume erhalt man noch speziellere Formma-

trizen, namlich solche, die nur +1, (−1) und 0 in der Hauptdiagonale enthalten. Beachte, daß

hermitesche Formen nur reelle Funktionswerte annehmen.

Satz 24.5 Normalformen quadratischer (hermitescher) Formen.

Abbildungstheoretische Formulierung: V sei ein Vektorraum uber K = IR bzw. K = IC. q bzw.

h sei eine quadratische bzw. hermitesche Form auf V . Dann gibt es eine Basis von V , bezuglich

der q bzw. h eine Diagonalmatrix der Form

D = diag(1, . . . , 1,−1, . . . , 1, 0, . . . , 0)

als Formmatrix besitzen.

Matrizentheoretische Formulierung: Sei K = IR bzw. IC.

Zu jeder reell–symmetrischen bzw. hermiteschen Matrix uber K existiert eine regulare Matrix P

mit

P tAP = diag(1, . . . , 1,−1, . . . ,−1, 0, . . . , 0).

Oder: Jede reell–symmetrische bzw. hermitesche Matrix ist zu einer Diagonalmatrix aus +1,−1

und 0 kongruent.

Zum Beweis: Es gibt eine Transformation auf diag(d1, . . . , dn). Weil in IR bzw. IC Quadratwurzeln

existieren, kann man durch Diagonalmatrizen, in denen ki = 1√|di|

fur di 6= 0 und sonst 1 steht,

auf die gewunschte Form kommen.

266

Beispiel: Zu einer symmetrischen Matrix A ∈ IR(4,4) wird durch Kongruenztransformationen

eine Diagonalmatrix P T AP und gleichzeitig aus der Einheitsmatrix I mittels derselben Spal-

tenumformungen die Transformationsmatrix P konstruiert. Nur die Spaltenumformungen sind

erlautert.A

2 3 −1 4

3 4 0 5

−1 0 0 2

4 5 2 254

In

1 0 0 0

0 1 0 0

0 0 1 0

0 0 0 1

Es wird addiert: Das (−32)−fache der 1. Spalte zur 2., das 1

2−fache der 1. Spalte zur 3. und das

(−2)−fache der 1. Spalte zur 4. Spalte.

2 0 0 0

0 −12

32 −1

0 32 −1

2 4

0 −1 4 −74

1 −32

12 −2

0 1 0 0

0 0 1 0

0 0 0 1

Es wird addiert: Das 3–fache der 2. Spalte zur 3. und das (−2)−fache der 2. Saplte zur 4. Spalte.

2 0 0 0

0 −12 0 0

0 0 4 1

0 0 1 14

1 −32 −4 1

0 1 3 −2

0 0 1 0

0 0 0 1

Es wird multipliziert: Die 1. Spalte mit 12

√2, die 2. Spalte mit

√2 und die 3. Spalte mit 1

2 .

1 0 0 0

0 −1 0 0

0 0 1 0

0 0 0 0

P tAP

12

√2 −3

2

√2 −2 2

0√

2 32 −11

4

0 0 12 −1

4

0 0 0 1

P

Die Anzahl der nichtverschwindenden Diagonalelemente in der kongruenten Normalform von

A ist der Rang von A. rg(A) = r ist fur alle kongruenten Matrizen, weil sie auch aquivalent

sind, immer gleich. Interessant ist, daß auch die Anzahl der positiven Diagonalelemente und

267

damit die der negativen und der Nullen fur kongruente Matrizen stets gleich groß ist. Das ist

die Aussage des Tragheitsgesetzes:

Satz 24.6 Tragheitsgesetz von SYLVESTER

V sei ein n−dimensionaler Vektorraum uber K = IR bzw. K = IC. q : V → IR bzw. h : V → IC sei

eine quadratische bzw. hermitesche Form auf V . Dann gilt:

Alle Formmatrizen von q bzw. h haben stets dieselbe Anzahl von +1,−1 und 0.

Ohne Beweis.

Dieser Satz ermoglicht folgende Defintion:

Definition 24.4 Index einer Matrix

Der Index j(A) einer symmetrischen bzw- hermiteschen Matrix A ist die Anzahl ihrer positiven

Diagonalelemente in einer kongruenten Normalform.

Mit dem Tragheitsgesetz gilt dann:

Satz 24.7 Charakterisierung von Kongruenz

Zwei quadratische Matrizen sind genau dann kongruent, wenn sie gleichen Rang und gleichen

Index haben.

B ∼4 A⇔ rg(A) = rg(B) und Index (A) = Index (B).

Aus dem Diagonalisierungssatz ergibt sich ein weiteres Kriterium fur die positive Definitheit von

quadratischen Formen bzw. symmetrischen Matrizen (neben dem Hauptminorenkriterium bzw.

Eigenwertkriterium), namlich:

Satz 24.8 3. Definitheitskriterium

V sei ein endlich–dimensionaler Vektorraum uber einem angeordneten Korper K und q eine qua-

dratische Form auf V . q ist genau dann positiv definit, wen q eine Formmatrix in Diagonalform

mit lauter positiven Diagonalelementen besitzt.

Ahnliches gilt fur die anderen Definitheitseigenschaften.

Matrizentheoretisch formuliert:

Eine symmetrische Matrix uber einem angeordneten Korper K ist genau dann positiv definit,

wenn sie kongruent zu einer Diagonalmatrix mit lauter positiven Diagonalelementen ist.

268

Da alle Formmatrizen von quadratischen Formen untereinander kongruent sind, sind die Defini-

theitseigenschaften invariant gegenuber Kongruenztransformationen.

Obigen Satz kann man auch so formulieren:

Satz 24.9 Eine quadratische Form auf einem n–dimensionalen Vektorraum ist genau dann po-

sitiv definit, wenn ihr Rang und ihr Index beide gleich n sind. Sie ist genau dann positiv

semidefinit, wenn ihr Rang und ihr Index gleich sind.

Analoges gilt fur hermitesche Formen und Matrizen uber IC.

269

25 Hauptachsentransformation von Quadriken

In diesem Kapitel untersuchen wir in reellen Vektorraumen Teilmengen, die Verallgemeinerun-

gen der Kegelschnitte bzw. der Flachen 2. Ordnung im IR3 darstellen. Sie sind weder Teilraume

noch affine Raume in V und auch keine konvexe Mengen und sind daher nicht mehr durch

Losungsmengen von linearen Gleichungssystemen beschreibbar. Sie lassen sich jedoch mittels

quadratischer Formen und Linearformen beschreiben und mittels des Tragheitssatzes von

SYLVESTER klassifizieren, so daß man bei ihrer Behandlung dennoch mit Methoden der Li-

nearen Algebra auskommt.

25.1 Quadriken in Vektorraumen

V sei ein reeller Vektorraum, q : V → IR eine quadratische Form auf V , l : V → IR eine

Linearform auf V und c ∈ IR.

Durch

f(x) := q(x) + l(x) + c ∀x ∈ V

wird eine Abbildung f von V in IR definiert (die weder eine quadratische Form noch eine Line-

arform ist).

Definition 25.1 Quadriken

V sei ein reeller Vektorraum.

Q := {x ∈ V |f(x) = q(x) + l(x) + c = 0} heißt eine Hyperflache 2. Ordnung oder Quadrik.

Fur dim(V ) = 2 heißt Q auch ein Kegelschnitt (Kurve 2. Ordnung).

Fur dim(V ) = 3 heißt Q auch eine Flache 2. Ordnung.

Wie auch sonst bei Punktmengen, wollen wir nun die Quadrik Q durch eine Gleichung, die die

Koordinaten ihrer Punkte erfullen mussen, beschreiben. Dazu sei dim(V ) = n und

270

S = (o, s1, . . . , sn) ein Koordinatensystem von V . Dann ist BS = (s1−o, . . . , sn−o) eine Basis von

V . Sei [x] der Komponentenvektor von x bezuglicher dieser Basis. Nun sind die Koordinaten

[x]S von x bezuglich S die Komponenten des Ortsvektors x− o, also

[x]S = [x− o] = [x]− [o]⇔ [x] = [x]S + [o].

Weiters bezeichne [q] die n × n−Formmatrix der quadratischen Form q bezuglich der Basis Bs

(sie ist symmetrisch) und [l] die (1× n−Matrix der Lineaform l.

Nach Definition dieser Darstellungsmatrizen gilt fur q(x) ∈ K und l(x) ∈ K:

q(x) = [x]t[q][x] und l(x) = [l][x].

Die Quadrik Q = {x ∈ V |f(x) = q(x) + l(x) + c = 0} ist also die Menge aller x ∈ V , fur deren

Komponenten [x] bezuglich Bs gilt:

[x]t[q][x] + 2[l][x] + c = 0.

Anstelle der Komponenten [x] fuhren wir nun die Koordinaten von x bezuglich des Koordina-

tensystems S mittels obiger Beziehung

[x] = [x]S + [o]

ein und erhalten nach Rechnung:

f(x) = [x]t[q][x] + 2[l][x] + c =

= ([x]s + [o])t[q]([x]s + [o]) + 2[l]([x]s + [o]) + c =

. . .

= [x]ts[q][x]s + 2[o]t[q][x]s + [o]t[q][o] + 2[l][x]s + 2l[o] + c =

= [x]ts [q]︸︷︷︸=:A∈Kn·n

[x]s + 2 ([o]t[q] + [l])︸︷︷︸=:~at∈K1·n

[x]s + [o]t[q][o] + 2[l][o] + c︸︷︷︸=:a∈K

= [x]tsA[x]s + 2~at[x]s + a = 0.

Dabei ist A die symmetrische Formmatrix der quadratischen Form q.

Die Quadrik Q ist also die Menge aller Vektoren x ∈ V , deren Koordinatenvektoren [x]s bezuglich

eines Koordinatensystems S folgende Gleichung erfullen (der Index S wird weggelassen):

Q = {x ∈ V |[x]tA[x] + 2~at[x] + a = 0}

271

Kurz:

Q : [x]tA[x] + 2~at[x] + a = 0, a ∈ IR,~a ∈ IRn, A ∈ IRn·n (43)

(43) heißt Koordinatengleichung der Quadrik Q und A heißt die symmetrische Matrix

der Quadrik Q. Die Koordinatengleichung von Q ist bis auf einen konstanten Faktor eindeutig

bestimmt.

Statt den Summen in (43) kann man die Gleichung der Quadrik nur mit Matrixmulitplikationen

angeben (das ist bequem fur Computerberechnungen), dabei benutzt man folgende Regel fur

n−Tupel: at[x] = [x]ta.

Q : (1, [x]t)

a ~at

~a A

1

[x]

= 0 (Beweis durch Ausrechnen)

Ae :=

a ~at

~a A

heißt erweiterte Matrix von Q.

Ae ist ebenfalls symmetrisch und ist bis auf einen konstanten Faktor durch die Quadrik Q

eindeutig bestimmt.

Beispiel: Q : 3x2 + 2xy + 5y2 + 6x + 4y + 8 = 0⇔

(x, y)

3 1

1 5

x

y

+ 2(3, 2)

x

y

+ 8 = 0⇔ (1, x, y)

8 3 2

3 3 1

2 1 5

1

x

y

= 0

Q↔

8 3 2

3 3 1

2 1 5

:Die gesamte Information uber die Quadrik Q ist in dieser symmetrischen Ma-

trix enthalten!

Um eine Ubersicht uber alle Quadriken zu gewinnen, fuhrt man eine affine Koordinatentrans-

formation

[x]alt = T [x]neu + ~t, T regular

durch. Die Gleichung der Quadrik geht dabei uber in:

Q : [x]tA[x] + 2~at[x] + a = 0→

(T [x]neu + ~t)tA(T [x]neu + ~t) + 2~at(T [x]neu + ~t) + a = 0

(~tt + [x]tneuT t)A(T [x]neu + ~t) + 2~at(T [x]neu + ~t) + a = 0

[x]tneu (T tAT )︸︷︷︸Aneu

[x]neu + 2 T t(~a + A~t)︸︷︷︸~aneu

[x]neu + ttA~t + 2~at~t + a︸︷︷︸aneu=f(~t)

= 0

272

Aneu := T tAaltT

~aneu := T t(~aalt + A~t)

aneu := ~ttA~t + 2~at~t + a = f(~t)

Auch dies kann man “summenfrei” mit der erweiterten Transformationsmatrix

Te :=

1 ~0t

~t T

∈ IR(n+1)(n+1)

schreiben als: T teAeT =

1 ~tt

~0 T t

a ~at

~a A

1 ~0t

~t T

=

aneu ~atneu

~aneu Aneu

= Ae neu

Daraus sieht man: Bezuglich zweier Koordinatensysteme werden einer Quadrik kongruente

erweiterte Matrizen zugeorndet.

Nach dem Tragheitsgesetz von SYLVESTER gibt es zur symmetrischen Matrix A einer Quadrik

eine Transformation T auf “SYLVESTER’sche Form”:

T tAT = diag(1, . . . , 1︸︷︷︸j

,−1, . . . ,−1

︸︷︷︸r

, 0, . . . , 0)

Dabei ist j = Index (A), r = rg(A).

Mittels einer geschickt gewahlten erweiterten Transformationsmatrix Te kann damit auch die

erweiterte Matrix Ae auf eine moglichst einfache Form gebracht werden.

Satz 25.1 Affine Klassifikation von Quadriken

V sei ein n−dimensionaler reeller Vektorraum. Q sei eine Quadrik mit der Koordinatengleichung

[x]tA[x] + 2~a[x] + a = 0⇔ (1, [x]t)Ae(1, [x])t = 0

r = rg(A), j = Index (A)

re = rg(Ae), je = Index (Ae)

Dann kann die Gleichung durch eine affine Koordinatentransformation [x]alt = T [x]neu + ~t auf

eine der 3 folgenden Form gebracht werden:

a)∑j

i=1 x2i −

∑ri=j+1 x2

i = 0 1 ≤ r ≤ n, j ≥ r2 ⇔ re = r und je = j

b)∑j

i=1 x2i −

∑ri=j+1 x2

i − 1 = 0 1 ≤ r ≤ n, 0 ≤ j ≤ r ⇔ re = r + 1 und je = j

c)∑j

i=1 x2i −

∑ri=j+1−2xr+1 = 0 1 ≤ r < n, j ≥ r

2 ⇔ re = r + 2 und je = j + 1

273

Sie heißen die affinen Normalformen der Quadrik.

Fur n=2 erhalt man folgende affine Normalformen nichtleerer Kurven 2. Ordnung.

r j re je Gleichung in Normalform Bezeichnung der Klasse

a) 2 2 2 2 x21 + x2

2 = 0 Doppelpunkt

2 1 2 1 x21 − x2

2 = 0 Zwei sich schneidende Geraden

1 1 1 1 x21 = 0 Doppelgerade

b) 2 2 3 2 x21 + x2

2 − 1 = 0 Ellipse

2 1 3 1 x21 − x2

2 − 1 = 0 Hyperbel

1 1 2 1 x21 − 1 = 0 Zwei parallele Geraden

c) 1 1 3 1 x21 − 2x2 = 0 Parabel

Fur n=3 erhalt man folgende affine Normalformen nichtleerer Flachen 2. Ordnung:

r j re je Gleichung in Normalform Bezeichnung der Klasse

a) 3 3 3 3 x21 + x2

2 + x23 = 0 Doppelpunkt

3 2 3 2 x21 + x2

2 − x23 = 0 Kegel

2 2 2 2 x21 + x2

2 = 0 Doppelgerade

2 1 2 1 x21 − x2

2 = 0 Zwei sich schneidende Ebenen

1 1 1 1 x21 = 0 Doppelebene

b) 3 3 4 3 x21 + x2

2 + x23 − 1 = 0 Ellipsoid

3 2 4 2 x21 + x2

2 − x23 − 1 = 0 Einschaliges Hyperboloid

3 1 4 1 x21 − x2

2 − x23 − 1 = 0 Zweischaliges Hyperboloid

2 2 3 1 x21 + x2

2 − 1 = 0 Elliptischer Zylinder

2 1 3 1 x21 − x2

2 − 1 = 0 Hyperbolischer Zylinder

1 1 2 1 x21 − 1 = 0 Zwei parallele Ebenen

c) 2 2 4 3 x21 + x2

2 − 2x3 = 0 Elliptisches Paraboloid

2 1 4 2 x21 − x2

2 − 2x3 = 0 Hyperbolisches Poaraboloid

1 1 3 2 x21 − 2x2 = 0 Parabolischer Zylinder

274

Statt eines Beweises wird nur das Verfahren geschildert:

Man schreibt Ae und die identische Matrix I nebeneinander an und bringt A mittels elementarer

Kongruenzumformungen auf SYLVESTER’sche Normalform diag(1, . . . , 1,−1, . . . ,−1, 0 . . . 0).

Es ist zweckmaßig, die Zahlung der Zeilen und Spalten mit 0 beginnen zu lassen. Oberhalb und

links der 1, . . . ,−1 konnen in der 0–ten Zeile bzw. Spalte ebenfalls mittels Kongruenztransfor-

mationen Nullen erzeugt werden. Insgesamt erhalt man so folgendes Tableau:

Ae neu =

0 1 n

c0 0 . . . . . . . . . . . . . . . . . . . . . 0 cr+1 . . . cn 0

0 1 1...

. . .... 1... −1...

. . .

0 −1

cr+1 0...

. . .

cn 0 n

1. Fall: (cr+1, . . . , cn) = (0, . . . ,0).

a) Ist c0 = 0⇒∑j

i=1 x2i −

∑ri=j+1 = 0.

b) Ist c0 6= 0, kann wieder mittels “Kongruenz–Multiplikation” der 0−ten Spalte bzw. 0–ten

Zeile c0 auf − gebracht werden. Also erhalt man die Gleichung∑j

i=1 x2i−

∑ri=j+1 x2

i−1 = 0.

2. Fall: (cr+1,..., cn) 6= (0, . . .0). Mit dem mindestens einem vorhandenen ci 6= 0 konnen in der

0−ten Zeile bzw. Spalte alle anderen Eintragungen durch Kongruenz–Multiplikationen

auf 0 gebracht werden und ci selbst auf −1, das daruber durch Vertauschungen auf die

(r + 1)−te Spalte gebracht werden kann. So erhalt man folgendes Tableau:

275

Ae neu =

0 0 . . . . . . . . . . . . . . . . . . . . . 0 −1 0 . . . 0

0 1...

. . .... 1... −1...

. . .

0 −1

−1 0

0...

. . .

0 0

Dieselben Spaltenumformungen, angewendet auf I, ergeben die erweiterte Transforma-

tionsmatrix Te, aus der T und ~t abgelesen werden konnen.

Beispiel: Q : x31 + 3x2

2 − 3x23 + 4x1x2 − 2x1x3 + 2x1 − 2x2 + 4x3 − 4 = 0.

A =

1 2 −1

2 3 0

−1 0 −3

~a =

1

−1

2

a = −4

Ae =

−4 1 −1 2

1 1 2 −1

−1 2 3 0

2 −1 0 −3

Ae

−1 1 −1 2

1 1 2 −1

−1 2 3 0

2 −1 0 −3

I

1 0 0 0

0 1 0 0

0 0 1 0

0 0 0 1

Das (−2)−fache der 1. Spalte (Zeile) wird zur 2. und die 1. Spalte (Zeile) wird zur 3. Spalte

(Zeile) addiert.

276

−4 1 −3 3

1 1 0 0

−3 0 −1 2

3 0 2 −4

1 0 0 0

0 1 −2 1

0 0 1 0

0 0 0 1

Das Doppelte der 2. Spalte (Zeile) wird zur 3. Spalte (Zeile) addiert.

−4 1 −3 −3

1 1 0 0

−3 0 −1 0

−3 0 0 0

1 0 0 0

0 1 −2 −3

0 0 1 2

0 0 0 1

Das (−1)−fache der 1. Spalte (Zeile) und das (−3)−fache der 2. Spalte (Zeile) werden zur 0–ten

Spalte (Zeile) addiert.

4 0 0 −3

0 1 0 0

0 −1 0

−3 0 0 0

1 0 0 0

5 1 −2 −3

−3 0 1 2

0 0 0 1

Schließlich wird das 23−fache der 3. Spalte (Zeile) zur 0–ten addiert und die 3. Spalte (Zeile)

dann mit 13 multipliziert; das Ergebnis:

0 0 0 −1

0 1 0 0

0 0 −1 0

−1 0 0 0

Ae neu

1 0 0 0

3 1 −2 −1

−53 0 1 2

3

23 0 0 1

3

Te

Der Matrix Te entnimmt man die Transformationsmatrix T und den Transformationsvektor ~t.

Dieser Transformation x1

x2

x3

=

1 −2 −1

0 1 23

0 0 13

x1

x2

x3

+

3

−53

23

277

entspricht die Einfuhrung eines Koordinatensymstems S mit dem Ursprung C(3,−53 , 2

3) und den

Einheitspunkten E1(4,−53 , 2

3), E2(2,−1, 1), in dem die Quadrik Q die Gleichung.

x21 − x2

2 − 2x3 = 0

besitzt. Nach der Normalformentabelle ist Q ein hyperbolisches Paraboloid.

Andere Losungsvariante durch “Quadratisch erganzen”:

Aus der Gleichung von Q bezuglich des kanonischen Koordinatensystems

x21 + 4x1x2 − 2x1x3 + 2x1 + 3x2

2 − 2x2 − 3x23 − 2x2 − 3x2

3 + 4x3 − 4 = 0

ergibt sich mittels quadratischer Erganzung (schwierig zu finden)

(x1 + 2x2 − x3 + 1)2 − (x2 − 2x3 + 3)2 − 2(3x3 − 2) = 0,

also mit der affinen Transformation

x1

x2

x3

:=

1 2 −1

0 1 −2

0 0 3

x1

x2

x3

+

1

3

−2

die oben genannte Normalform. Die Umkehrung dieser Transformation liefert dasselbe Koordi-

natensystem S wie oben.

25.2 Quadriken in Skalarproduktraumen

In Skalarproduktraumen (V,<, >) sucht man nach moglichst einfachen Gleichungsformen in

kartesischen Koordinatensystemen. Damit die Orthogonalitat und die Norm der Basisvektoren

erhalten bleibt, darf man in der Transformation T der Koordinaten nur orthogonale Matrizen

verwenden.

Sei Q : [x]tA[x] + 2~at[x] + a = 0, A ∈ IRn·n, symmetrisch, die Gleichung einer Quadrik Q in

kartesischen Koordinaten. Nach dem Hauptsatz der Linearen Algebra (Spektralsatz) exis-

tiert zu jeder symmetrischen Matrix A ∈ IRn·n eine orthogonale Matrix T ∈ IRn·n, so daß

T−1AT = T tAT = diag(λ1, . . . , λn) ist, wobei λ1, . . . , λn die stets reellen EW von A sind.

Nachdem orthogonale Ahnlichkeit eine spezielle Form der Kongruenz ist, gilt auch fur die or-

thogonale Transformation mit T der Tragheitssatz von SYLVESTER, d.h.

T tAT = diag(λ1, . . . , λj︸︷︷︸j>0

, λj+1, . . . , λr︸︷︷︸r−j<0

, λr+1, . . . , λn︸︷︷︸=0

),

278

wobei r = rg(A) und j = Index (A) ist.

Mittels weiterer Kongruenztransformationen wird versucht, auch fur diese erweiterte Koeffizi-

entematrix Ae von Q, also fur Ae

a ~at

~a A

, eine moglichst einfache Form zu erhalten, wobei

man nur erweiterte Transformationen Te =

1 ~0

~A T

mit orthogonalem T zulaßt.

Man erhalt:

T teAeTe =

1 ~t′

~0 T t

a ~at

~a A

1 ~0t

~t T

=

c0 0 . . . 0 cr+1 . . . cn

0 λ1

.... . .

0 λr

cr+1 0...

. . .

cn 0

Folgende Falle konnen auftreten:

1. (cr+1, . . . , cn) = (0, . . . ,0)

Diesem Tableau entsprechen folgende Gleichungen:

a) c0 = 0 : Durch eventuelle Mulitplikation mit (−1) erreicht man auf alle Falle j ≥ r2 .∑j

i=1 λix2i −

∑ri=j+1 |λi|x2

i = 0

b) c0 6= 0: Division durch −|c0|sgn(c0) ergibt (−1) statt c0:∑ji=1

λi|c0|x

2i −

∑ni=j+1

λi|c0|x

2i − 1 = 0 0 ≤ j ≤ r.

2. (cr+1, . . . , cn) 6= (0, . . . ,0): Dies ist nur moglich, wenn r < n.

Wieder ist mit dem vorhandenen ci 6= 0 folgende Normalform nach Vertauschungen er-

reichbar:

279

0 0 . . . 0 −|c1| 0 . . . 0

0 λ1

.... . .

0 λr

−|c1| 0

0. . .

.... . .

0 0

p := |c1|

Diesem Tableau entspricht die Gleichung:∑ji=1 λix

2i −

∑ri=j+1 |λi|x2

i − 2pxr+1 = 0, wobei p := |c1|.

Satz 25.2 Metrische Klassifikation von Quadriken

V sei ein reeller n−dimensionaler Skalarproduktraum. Dann existiert zu jeder Quadrik Q ein

kartesisches Koordinatensystem, in dem die Gleichung der Quadrik Q : [x]tA[x] + ~at[x] + a = 0

eine der drei folgenden Formen besitzt (Typ der Quadrik):

a)∑j

i=1x2i

a2i−

∑ri=j+1

x2i

a2i

= 0, 1 ≤ r ≤ n, j ≥ r2 , a2

i := 1|λi|

b)∑ x2

i

a2i−

∑ x2i

a2i− 1 = 0, 1 ≤ r ≤ n, 0 ≤ j ≤ r, a2

i :=∣∣∣ c0λi

∣∣∣c)

∑ x2i

a2i−

∑ x2i

a2i− 2xr+1 = 0, 1 ≤ r < n, j ≥ r

2 , a2i :=

∣∣∣ pλi

∣∣∣Dabei ist c0 der konstante Term in der transformierten Gleichung T t

eAeTe und p = |c1|.

280

Tabelle der moglichen Normalformen

n = 2pos. neg.

Typ j r − j Gleichung geometrische Bedeutung

1) a) 2 0 x21

a2 + x22

b2= 0 Nullpunkt

2) a) 1 1 x21

a2 −x22

b2= 0 Sich kreuzendes Geradenpaar

3) a) 1 0 x21

a2 = 0 Gerade

4) a) 0 0 0 = 0 Ganze Ebene

5) b) 2 0 x21

a2 + x22

b2= 1 Ellipse

6) b) 1 1 x21

a2 −x22

b2= 1 Hyperbel

7) b) 1 0 x21

a2 = 1 Paralleles Geradenpaar

8) b) 0 2 −x11

a2 −x22

b2= 1 ∅

9) b) 0 1 −x11

a2 = 1 ∅

10) b) 0 0 0 = 1 ∅

11) c) 1 0 x21

a2 = 2x2 Parabel

12) c) 0 1 −x21

a2 = 2x2 Parabel

13) c) 0 0 0 = 2x2 Gerade

281

n = 3pos. neg.

Typ j r − j Gleichung geometrische Bedeutung

1) a) 3 0 x21

a2 + x22

b2+ x2

3c2

= 0 Nullpunkt

2) a) 2 1 x21

a2 + x22

b2− x2

3c2

= 0 Kegel

3) a) 2 0 x21

a2 + x22

b2= 0 Gerade

4) a) 1 2 x21

a2 −x22

b2− x2

3c3

= 0 Kegel

5) a) 1 1 x21

a2 −x22

b2= 0 Ebenenpaar

6) a) 1 0 x21

a2 = 0 Ebene

7) a) 0 0 0 = 0 Ganzer Raum

8) b) 3 0 x21

a2 + x22

b2+ x2

3c2

= 1 Ellipsoid

9) b) 2 1 x21

a2 + x22

b2− x2

3c2

= 1 Einschaliges Hyperboloid

10) b) 2 0 x21

a2 + x22

b2= 1 Elliptischer Zylinder

11) b) 1 2 x21

a2 −x22

b2− x2

3c2

= 1 Zweischaliges Hyperboloid

12) b) 1 1 x21

a2 −x22

b2= 1 Hyperbolischer Zylinder

13) b) 1 0 x21

a2 = 1 Paralleles Ebenenpaar

14) b) 0 3 −x21

a2 −x22

b2− x2

3c2

= 1 ∅

15) b) 0 2 −x21

a2 −x22

b2= 1 ∅

16) b) 0 1 −x21

a2 = 1 ∅

17) b) 0 0 0 = 1 ∅

18) c) 2 0 x21

a2 + x22

b2= x3 Elliptisches Parabloid

19) c) 1 1 x21

a2 −x22

b2= 2x3 Hyperbolisches Paraboloid

20) c) 1 0 x21

a2 = 2x3 Parabloischer Zylinder

21) c) 0 2 −x21

a2 −x22

b2= 2x3 Elliptisches Paraboloid

22) c) 0 1 −x21

a2 = 2x3 Parabolischer Zylinder

23) c) 0 0 0 = 2x3 Ebene

282

Geometrische Veranschaulichung

Ellipse:x21

a2 + x22

b2= 1 (mit a ≥ b)

Die Ellipse ist die Menge aller Punkte des IR2,

fur die die Summe der Abstande von zwei festen

Punkte F1 und F2 (den Brennpunkten) konstant

ist.

Hyperbel:x21

a2 −x22

b2= 1

Die Hyperberl ist die Menge aller Punkte des

IR2, fur die die Differenz der Abstande von zwei

festen Punkten F1 und F2 (den Brennpunkten)

konstant ist.

Parabel:x21

a2 = 2x2

Die Parabel ist die Menge aller Punkte des IR2,

fur die der Abstand von einer Geraden (Leitli-

nie) und einem festen Punkt F (Brennpunkt)

stets gleich ist.

283

Ellipsoid:x21

a2 + x22

b2+ x2

3c2

= 1

Schnitte parallel zur ergeben

x1x2−Ebene Ellipsen



Einschaliges Hyperboloid:x21

a2 + x22

b2− x2

3c2

= 1



x1x3−Ebene Hyperbeln


Elliptischer Zylinder:x21

a2 + x22

b2= 1



x1x3−Ebene parallele Geradenpaare


284

Zweischaliges Hyperboloid:x21

a2 −x22

b2− x2

3c2

= 1




x2x3−Ebene Ellipse

Hyperbolischer Zylinder:x21

a2 −x22

b2= 1





Kegel:x21

a2 + x22

b2− x2

3c2

= 0





285

Elliptisches Paraboloid:x21

a2 + x22

b2= 2x3



x1x3−Ebene Parabeln


Hyperbolisches Paraboloid:x21

a2 −x22

b2= 2x3





Parabolischer Zylinder:x21

a2 = 2x3




x2x3−Ebene Geraden

286

Beispiel: Eine Flache 2. Ordnung habe bezuglich eines kartesischen Koordinatensystems die

Gleichung: x21 + 3x1x2 + 2x2x3 + x2

3 − 2x1 + 4x2 + 2x3 + 4 = 0. Dann ist

A :=

1 1 0

1 0 1

0 1 1

,~a :=

−1

2

1

, a := 4.

Die EW von A sind λ1 = −1, λ2 = 1, λ3 = 1. Zugehorige normierte Eigenvektoren sind

~t1 :=12

√2

−1

0

1

, ~t2 :=13

√3

1

1

1

bzw. ~t3 :=16

√6

1

−2

1

Mit der orthogonalen Matrix T := (~t1, ~t2, ~t3) erhalt man nun

1 ~0t

~0 T t

a ~at

~a A

1 ~0

~0 T

=

4

√2 2

3

√3 −2

3

√6

√2 1 0 0

23

√3 0 2 0

−23

√6 0 0 −1

Weitere Kongruenztransformationen liefern fur die erweiterte Matrix der Quadrik die gewunschte

einfache Gestalt; dieselben Spaltenumformungen der oben stehenden erweiterten Transformati-

onsmatrix ergeben die endgultige erweiterte Transformationsmatrix:4√

2 23

√3 −2

3

√6

√2 1 0 0

23

√3 0 2 0

−23

√6 0 0 −1

1 0 0 0

0 −12

√2 1

3

√3 1

6

√6

0 0 13

√3 −1

3

√6

0 12

√2 1

3

√3 1

6

√6

2 0 23

√3 −2

3

√6

0 1 0 023

√3 0 2 0

−23

√6 0 0 −1

1 0 0 0

1 −12

√2 1

3

√3 1

6

√6

0 0 13

√3 −1

3

√6

−1 12

√2 1

3

√3 1

6

√6

43 0 0 −2

3

√6

0 1 0 0

0 0 2 0

−23

√6 0 0 −1

1 0 0 023 −1

2

√2 1

3

√3 1

6

√6

−13 0 1

3

√3 −1

3

√6

−43

12

√2 1

3

√3 1

6

√6

287

4 0 0 0

0 1 0 0

0 0 2 0

0 0 0 −1

1 0 0 0

0 −12

√2 1

3

√3 1

6

√6

1 0 13

√3 −1

3

√6

−2︸︷︷︸~t

12

√2

13

√3

16

√6︸︷︷︸

T

Fuhrt man mit der Transformationsmatrix T und dem Vektor ~t := (0, 1,−2)t ein neues Koordi-

natensystem S ein, so ist es wegen des orthogonalen T wieder kartesisch, und die Quadik Q hat

bezuglich S die Gleichung x21 + 2x2

2 − x23 + 4 = 0 oder

−x21

4− x2

2

2+

x23

4− 1 = 0.

Nach der Normalformentabelle ist Q demnach ein zweischaliges Hyperboloid.

LINEARE ALGEBRA II · W des aﬃnen Raumes A = p+U, wenn W ein Teilraum von U und q ∈A ist. BCA...

Documents

Transcript of LINEARE ALGEBRA II · W des aﬃnen Raumes A = p+U, wenn W ein Teilraum von U und q ∈A ist. BCA...