Eigenwerttechniken 7 7.1 Matrixalgebra 7.2 Hauptkomponentenanalyse 7.3 Kanonische...

Eigenwerttechniken

7

7.1 Matrixalgebra

7.2 Hauptkomponentenanalyse

7.3 Kanonische Korrelationsanalyse

Matrixalgebra7.1

eine geordnete Liste von skalaren Variablenwerten heißt Vektor:

- Anzahl der Elemente xi , i=1..n in einem Vektor bestimmen die Dimension

- ein 1-dimensionaler Vektor ist demnach ein Skalar - per definitionem ist x ein Spaltenvektor und die Transponierte xT ein Zeilen- vektor - die Addition und Subtraktion von Vektoren vollzieht sich direkt über die Elemente der Vektoren – immer vorausgesetzt, dass die Vektoren die gleiche Dimension besitzen:

- Multiplikation von einem Vektor mit einem Skalar liefert einen Vektor:

nx

x

x

x

x

n

)dim(,...

2

1

nxxxxx n

T )dim(,,...,, 21

nnnn yx

yx

yx

y

y

y

x

x

x

yx.........

22

11

2

1

2

1

nxc

xc

xc

xc...

2

1

Matrixalgebra7.1 Vektoroperationen: - zwei Vektoren der gleichen Dimension können zum sog. Skalarprodukt miteinander multipliziert werden, Ergebnis ist ein Skalar:

- ein Vektor kennzeichnet einen Punkt in einem n-dimensionalen Raum:

- die sog. Euklidische Länge eines Vektors im Raum beschreibt die Distanz zwischen diesem Punkt und dem Ursprung (Skalar):

- Winkel zwischen zwei Vektoren ist gegeben durch:

xyyxyxyxyx

y

y

y

x

x

x

yxn

iiinn

nn

1

2211

2

1

2

1

.........

0)R im Pythagoras des (Satz n

1

2

n

iixx

yx

yx

1coszwei Vektoren sind orthogonal (cos(α) = 90°), wenn das Skalarprodukt gleich null ist, wegen:

cos(0) = 90°

Matrixalgebra7.1 eine Matrix ist eine 2-dimensionale rechtwinklige Datenstruktur mit n Zeilen und m Spalten:

- die Werte xij , i = 1..n, j = 1..m heißen die Elemente der Matrix

- Dimension einer Matrix:

- eine (1 x m)-dimensionale Matrix entspricht einem Zeilenvektor - eine (n x 1)-dimensionale Matrix entspricht einem Spaltenvektor - eine (1 x 1)-dimensionale Matrix ist eine Skalar - eine quadratische Matrix liegt vor bei:

- eine symmetrische Matrix liegt vor bei:

- Definition der Einheitsmatrix:

nmnn

m

m

xxx

xxx

xxx

X

...

............

...

...

21

22221

11211

..." mal "...)dim( mnX

mn

mjnixx jiij ..1,..1,

1...00

............

0...10

0...01

IDimension von I passt sichimmer der entsprechenMatrixoperation anHauptdiagonale

Matrixalgebra7.1

Matrixoperationen: - Transponierte einer Matrix durch Vertauschen von Zeilen und Spalten (Spiegelung an Hauptdiagonalen):

- für symmetrische Matrizen gilt:

- Multiplikation einer Matrix mit einem Skalar funktioniert ebenfalls über die Elemente:

- Addition/Subtraktion zweier Matrizen ist nur für identische Dimensionen definiert und vollzieht sich über die Elemente:

2313

2212

2111

232221

131211

xx

xx

xx

Xxxx

xxxX T

TXX

232221

131211

232221

131211

xcxcxc

xcxcxc

xxx

xxxcXc

232322222121

131312121111

232221

131211

232221

131211

yxyxyx

yxyxyx

yyy

yyy

xxx

xxxYX

Matrixalgebra7.1 Matrixoperationen: - Multiplikation zweier Matrizen ist nur definiert, wenn die Anzahl der Spalten in der linken Matrix der Anzahl der Zeilen in der rechten Matrix entspricht:

- graphisch lässt sich die Matrixmultiplikation veranschaulichen als eine Vielzahl von Skalarprodukten zwischen den entsprechenden Zeilen- und Spaltenvek- toren innerhalb der Matrizen:

- damit ist offensichtlich, dass für Matrizen das Kommutativgesetz der skalaren Multiplikation nicht gilt:

)()dim(

)()dim(,)()dim(,

2121

2211

mnZnm

mnYmnXZYX

)22()dim(

)23()dim(

)32()dim(

,

11

11

122

112

121

111

232221

131211

3231

2221

1211

Z

Y

X

Z

yxyx

yxyx

xxx

xxx

yy

yy

yy

YX

m

iii

m

iii

m

iii

m

iii

XYYX im obigen Fall würde Y∙X zu einer(3 x 3)-dimensionalen Matriz Z führen

Matrixalgebra7.1

Matrixoperationen: - Asymmetrie der Matrixmultiplikation kann am besten anhand von Vektoren veranschaulicht werden:

(Matrix)

(Skalar)

,

111111

111111

111111

3

2

1

321

1321

3

2

1

3

2

1

3

2

1

1

Z

yxyxyx

yxyxyx

yxyxyx

x

x

xyyy

yx

z

yxxxx

y

y

y

yx

y

y

y

y

x

x

x

x

T

m

iii

T

Matrixalgebra7.1

Matrixoperationen: - Summe der Diagonalelemente einer quadratischen Matrix heißt Spur:

- Determinante einer quadratischen Matrix ist eine skalare Größe, die in etwa dem Vektorbetrag entspricht:

- diese Berechnung ist rekursiv, d.h. es müssen zunächst alle Unter- determinanten von X berechnet werden bis det(X) = x11 bei n = m = 1

- nur vom Computer zu lösen außer bei (2 x 2)-Matrizen:

mn

iiixX

1

)sp(

...,

:mit

)1()det(

333231

232221

131211

12

333231

232221

131211

11

333231

232221

131211

1

1

11

xxx

xxx

xxx

H

xxx

xxx

xxx

H

xxx

xxx

xxx

X

HxXXmn

i

i

ii

21122211

2221

1211det)det( xxxxxx

xxX 36)18(74

71

84det)det(

A

Matrixalgebra7.1 Matrixoperationen: - eine Division ist nur für quadratische Matrizen definiert, die den sog. vollen Rang besitzen oder nichtsingulär sind:

- bei singulären Matrizen ist die Determinante gleich null - nichtsinguläre Matrizen sind invertierbar, d.h. es exisitert für Matrix X eine Matrix Y, so dass gilt:

- dann ist Y die Inverse von X:

- sehr rechenaufwendig (Computer!) außer bei (2 x 2)-Matrizen:

IXYYX

Matrix enthält keine redundante Information, d.h. keine Zeile oder Spalte kann durchLinearkombination aus einer anderen Zeile bzw. Spalte rekonstruiert werden:

xij ≠ c ∙ xkj , i ≠ k für alle j=1..m

IXXYXXY 111 ,

1121

1222

211222111121

12221 1

)det(

1

xx

xx

xxxxxx

xx

XX

IAAAAAA

111 ,

9

1

36

118

4

36

7

41

87

36

136

71

84det)det(

Matrixalgebra7.1 Matrixoperationen: - Diagonalmatrizen lassen sich ebenfalls sehr einfach invertieren, indem Kehrwert auf Diagonale eingesetzt wird:

- invertierte Matrix hat die gleiche Dimension wie die Ausgangsmatrix - wenn Ausgangsmatrix symmetrisch, ist auch die Inverse symmetrisch - weitere Gesetze bei Matrixoperationen:

33

22

11

1

33

22

11

100

01

0

001

00

00

00

x

x

x

X

x

x

x

X

Matrixalgebra7.1 Eigenwerte und Eigenvektoren einer quadratischen Matrix: - Eigenwerte sind Skalare und Eigenvektoren Vektoren, die der folgenden Gleichung genügen:

- dabei ist 0 eine Matrix mit allen Elementen gleich null - für jedes Paar Eigenwert-Eigenvektor, das dieser Gleichung genügt, genügt auch jedes skalare Vielfache des Eigenvektor dieser Gleichung - der Eindeutigkeit halber wird ferner gefordert, dass alle Eigenvektoren die Einheitslänge besitzen:

- damit bleibt aber das Vorzeichen des Eigenvektor beliebig, da (-1) ∙ e der Gleichung ebenfalls genügt - bei nichtsingulären Matrizen X existieren exakt n = m Paare Eigenwert-Eigen- vektor:

- bei singulären Matrizen ist wenigstens ein Eigenwert gleich null - wegen Einheitslänge ist Skalarprodukt eines Eigenvektors mit sich selbst immer gleich eins:

- bei symmetrischen Matrizen gilt ferner, dass verschiedene Eigenvektoren orthogonal sind:

0 eIXeeX

1e

nje j ..1,

ji

jiee ji ,0

,1

Matrixalgebra7.1 Eigenwerte und Eigenvektoren einer quadratischen Matrix: - in der Statistik werden Eigenwerte und Eigenvektoren meist für reelle (nicht komplexe) symmetrische Matrizen berechnet:

- meist werden die n Eigenvektoren zu einer Matrix zusammengefasst mit den Eigenvektoren in den n Spalten:

- die orthogonale Transformation bedeutet eine Rotation des n-dimensionalen Koordinatensystems von , genannt Eigenraum:

TT

nnnn

n

n

EEIEE

eee

eee

eee

E 1

21

22221

11211

,,

...

............

...

...

dann sind auch die Eigenwerte und Eigenvektoren reellwertig

1. Eigen-vektor

n. Eigen-vektor

xET x

0

deckt gleiches Gebiet ab wie Originalkoordinaten,aber mit anderen Axen, die bestimmten Eigenschaftenentsprechen:

z.B. Raumrichtungen der maximalen Kovarianz in X,wenn X eine Kovarianz-/Korrelationsmatrix ist

Matrixalgebra7.1 Eigenwerte und Eigenvektoren einer quadratischen Matrix: - die n Paare Eigenwert-Eigenvektor enthalten die gleiche Information wie die Ausgangsmatrix X, sind also eine Transformation von X - für symmetrische Matrizen kann das durch die sog. spektrale Jordan- Zerlegung ausgedrückt werden:

- diese Zerlegung kann auch wie folgt geschrieben werden:

- Ausgangsmatrix kann über eine mit den Eigenwerten λi gewichtete Summe

der Hilfsmatrizen Hi wiederhergestellt werden

- damit entspricht spektrale Zerlegung einer Matrix der Fouriertransformation einer einzelnen Zeitreihe

T

n

T EEEEX

...00

............

0...0

0...0

2

1

niniiniini

niiiiii

niiiiii

ni

i

i

niii

T

iii

n

iii

n

i

T

iii

eeeeee

eeeeee

eeeeee

e

e

eeee

eeHHeeX

...

............

...

...

...

...

,

21

22212

12111

2

1

21

11

Eigenwerte entsprechen Fourier-KoeffizientenEigenvektoren entsprechen Cosinus-Funktionen

Matrixalgebra7.1 Eigenwerte und Eigenvektoren einer quadratischen Matrix: - eine weitere wichtige Eigenschaft der spektralen Zerlegung ist, dass die Spur der Ausgangsmatrix der Summe der Eigenwerte entspricht:

- die Determinante der Ausgangsmatrix ist ebenfalls gegeben durch die Eigenwerte:

- eine reelle symmetrische Matrix heißt positiv definit, wenn alle Eigenwerte nichtnegativ sind:

- die Berechnung der Eigenwerte und Eigenvektoren ist selbst bei kleinen Matrizen sehr rechenaufwendig (Computer!) - der Algorithmus zur Berechnung der Eigenwerte und Eigenvektoren heißt auch Matrixdiagonalisierung, weil die Eigenvektoren die Ausgangsmatrix in eine Diagonalmatrix überführen:

- die Eigenvektoren einer Martrix X und ihrer Inversen X-1 sind identisch, aber mit reziproken Eigenwerten:

)sp()sp(11

n

ii

n

iiixX wenn X die Kovarianzmatrix, entspricht Summe

der Eigenwerte der Gesamtvarianz von X

)det()det(1

n

iiX damit muss bei einer singulären Matrix mit det(X) = 0

wenigstens ein Eigenwert gleich null sein

nii ..1,0

EXE 1

)()( 11 XX ii

Hauptkomponentenanalyse7.2

in den Geowissenschaften wird häufig mit komplexen Datensätzen oder komplexen Begrifflichkeiten gearbeitet: - es ist häufig erwünscht, die Datenvielfalt übersichtlicher zu gestalten, ohne dabei die wesentliche Information zu verlieren - dazu muss die Anzahl der Variablen im Raum, in der Zeit oder im Hinblick auf verschiedene Sachverhalte möglichst effektiv reduziert werden - es entstehen neue Variablen (Hauptkomponenten), die bspw. Regionen oder neue komplexere Sachverhalte charakterisieren

Zielsetzungen der Hauptkomponentenanalyse: - aus einer Menge von Variablen sollen Gruppen gebildet werden (Regiona- lisierung) - Menge der Variablen soll reduziert werden (Datenreduzierung) - Bildung von orthogonalen Variablen, die stochastisch unabhängig sind (z.B. Prädiktoren für die multiple Regression)

die Hauptkomponentenanalyse wird häufig auch als EOF-Analyse be-zeichnet, um der Tatsache Rechnung zu tragen, dass STP-Daten betrachtet werden:

Empirische Orthogonalfunktionen = Hauptkomponenten= Principal Component Analysis (PCA)


Bsp. klimatische Charakterisierung anhand von Temperaturvariablen in Deutschland:

Hauptkomponentenanalyse7.2 Bsp. klimatische Charakterisierung anhand von Temperaturvariablen in Deutschland: - Frage nach Temperaturvariablen, die hoch korreliert sind und somit zu neuen Indikatoren des Klimas zusammengefasst werden können - die Interkorrelation der Variablen wird in einer Korrelationsmatrix oder Kovarianzmatrix dokumentiert:

- hohe Korrelationen existieren zwischen TJan, TJahr, ZEis, ZFrost sowie zwischen TSJan und TSJul:

1. neuer Indikator: Temperatur als Funktion von φ und h2. neuer Indikator: Kontinentalität3. neuer Indikator: ?

Hauptkomponentenanalyse7.2 Kovariabilität kann über unterschiedliche Bezugseinheiten bestimmt werden – je nach Fragestellung bzw. Datenlage: - zwischen verschiedenen Variablen über räumliche oder zeitliche Bezugs- einheiten:

- bei einer Variablen zwischen verschiedenen Raumeinheiten über zeitliche Bezugseinheiten:

- seltener bei einer Variablen zwischen verschiedenen Zeiteinheiten über räum- liche Bezugseinheiten (zeitliche Regionalisierung)

Var 1 Var 2 … Var m

RE/ZE 1 x11 x12 … x1m

RE/ZE 2 x21 x22 … x2m

… … … … …

RE/ZE n xn1 xn2 … xnm

Kovariabilität

1 Zeitpunktbzw.1 Ort

RE 1 RE 2 … RE m

ZE 1 x11 x12 … x1m

ZE 2 x21 x22 … x2m

… … … … …

ZE n xn1 xn2 … xnm

Kovariabilität

1 Variable

Zielsetzung:neue Variablendefinieren

Zielsetzung:räumlicheRegionalisierung

z.B. Großwetterlagenklassifikation


Hauptkomponentenanalyse geht meist von Anomaliewerten aus:

- liefert gleiche Ergebnisse wie Original- daten - Formeln vereinfachen sich jedoch

n

iijjjijij x

nxxxx

1

' 1,


Berechnung der Kovarianzmatrix: - gegeben ist eine Datenmatrix X der Dimension (n x m) mit m Variablenerhe- bungen spaltenweise und einem STP-Umfang n zeilenweise:

- Kovarianzmatrix lässt sich direkt aus der folgenden Matrixoperation schätzen:

- Kovarianzmatrix ist quadratische, symmetrische und positiv definite Matrix:

''

2

'

1

'

2

'

22

'

21

'

1

'

12

'

11

...

............

...

...

nmnn

m

m

xxx

xxx

xxx

X

n : STP-Elemente (Zeit, Raum, Probanden) (Messwiederholungen)

m : Untersuchungselemente (Variablen, Raumeinheiten, Probanden, …)

...

),Cov()()(1

1

)Var()()(1

1

)()dim(,1

1

211

221112

11

111111

XXxxxxn

s

Xxxxxn

s

mmSXXn

S

n

iii

n

iii

T

)Var(...),Cov(),Cov(

............

),Cov(...)Var(),Cov(

),Cov(...),Cov()Var(

21

2212

1211

mmm

m

m

XXXXX

XXXXX

XXXXX

S

),Cov(),Cov( 1221 XXXX

Hauptkomponentenanalyse7.2 Berechnung der Korrelationsmatrix: - Korrelationsmatrix berechnet sich aus Kovarianzmatrix durch Wichtung mit den Einzelstandardabweichungen (vgl. Korrelationskoeffizient):

- Korrelationsmatrix ist ebenfalls quadratisch, symmetrisch und positiv definit - bei standardisierten Werten sind Kovarianz- und Korrelationsmatrix identisch:

21)Var()Var(

),Cov(

1)Var()Var(

)Var(

)()dim(,

21

2112

11

111

11

XXXX

XXr

XX

Xr

mmRDSDR

1...

...........

...1

...1

21

212

121

XXXX

XXXX

XXXX

mm

m

m

rr

rr

rr

R

)()dim(,

)Var(

1...00

...........

0...)Var(

10

0...0)Var(

1

1

2

1

1 mmD

X

X

X

D

m

)Var(

)(''

j

jij

ij X

XExx


Hauptkomponentenanalyse versus Faktorenanalyse: - Hauptkomponentenanalyse geht davon aus, dass sich gesamte Varianz der Datenmatrix durch eine Linearkombination von Hauptkomponenten Kl , l=1..q

reproduzieren lässt (multiple Regression):

- Faktorenanalyse geht davon aus, dass nur ein Teil der Gesamtvarianz von X durch eine Linearkombination von Faktoren Fl , l=1..q reproduziert werden

kann - darüber hinaus besitzt jede Variable noch einen Einzelrestfaktor Ej , der nicht

auf die Faktoren zurückzuführen ist (Stochastik, Fehler):

- Hauptkomponentenanalyse ist varianzorientiert (Gesamtvarianz zu erklären), Faktorenanalyse ist kovarianzorientiert (nur gemeinsame Varianz mit Fakto- ren zu erklären) - Faktorenanalyse für die meisten Fragestellungen geeigneter, aber Problem der Kommunalitätenschätzung (Kovariabilität): PCA gebräuchlicher

mjKXq

lljljj ..1,

1

mjEFX jj

q

lljljj ..1,

1

βjl = Regressionskoeffizienten bzw. Ladungen des Eigenvektor l für die Variable j

γj = partieller Regressionskoeffizient bzw. Ladung des Eigenvektors der Eigenva- rianz für die Variable j

Hauptkomponentenanalyse7.2 Vorgehensweise der PCA: - Datensatz mit Vielzahl von Variablen Xj , j=1..m soll reduziert werden auf

geringere Anzahl von Hauptkomponenten Kl , l=1..q:

- Hauptkomponenten (PCs) gehen aus Linearkombination der ursprünglichen Variablen hervor und sollen möglichst viel Varianz der Ausgangsdaten erklären - sehr effektiv, wenn q << m erreicht werden kann, d.h. wenn bedeutende Korrelationen zwischen den Variablen Xj existieren: Datenmatrix enthält

redundante Information; streng genommen aber praktisch immer q = m - 1. Hauptkomponente k1 erklärt größten gemeinsamen Varianzanteil von X

- nachfolgende Hauptkomponenten kl , l=2..q erklären jeweils nächst größeren

Varianzanteil unter der Vorgabe, dass sie unkorreliert (orthogonal) mit den PCs kleinerer Ordnungsnummer sind: Orthonormalsystem - PCs mit diesen Eigenschaften sind unmittelbar definiert über die Eigen- vektoren el , l=1..q der Kovarianzmatrix S:

- l-te PC kl zu bestimmen durch Projektion des

Datenvektors x auf den l-ten Eigenvektor el :

qkni

mxnixm

i

)dim( ,nenten Hauptkompotigenden berücksichzu qder Vektor : ..1,k

)dim( , )beobachtet mal-(nVariablen mmit r Datenvekto :..1,q

i

qlxexem

jjjll ..1,k

1l

m)(mdim(S),m)edim(


Vorgehensweise der PCA: - Verfahren setzt also Diagonalisierung der Kovarianz- oder Korrelationsmatrix voraus:

Kovarianzmatrix: unterschiedliche Varianz der m Variablen X j soll betont werden

Korrelationsmatrix: unterschiedliche Varianz der Variablen soll unberücksichtigt bleiben

Muster der typischen Bodendruck-variabilität auf der Nordhalbkugel:

Kovarianzmatrix: PCA fokussiert mehrauf das Islandtief, da dort die Kovarian-zen größer sind (Azorenhoch sehr stabil)

Korrelationsmatrix: Kovarianzen werdenstandardisiert, d.h. PCA hat keinen regi-onalen Fokus

bei Vergleich Tropen-Außertropen eher Korrelationsmatrix diagonalisieren


Vorgehensweise der PCA: - jeder Eigenvektor hat einen Eintrag für jede der Ausgangsvariablen: Ladungen des Eigenvektor:

- geometrisch zeigt der 1. Eigenvektor in die Richtung im m-dimensionalen Raum, in die die m Ausgangsvariablen gemeinsam die größte Variabilität besitzen:

Ladungen des Eigenvektor kennzeichnen die Kovariabilität zwischen der entsprechendenAusgangsvariablen und der neuen Variablen (PC)

damit kommt auch die Kovariabilität zwischen den Ausgangsvariablen zum Ausdruck

m = 2n = 28• : Realierung von x (Pfeilspitze jedes Vektors) : Ausrichtung der Kovarianz- matrix : 1. und 2. Eigenvektor als neue Axen des Koordinaten- systemsα := 90°

Var 1

Var 1

ix

1e

2e

α

rotiertes kartesisches Koordinatensystem


Vorgehensweise der PCA: - Hauptkomponenten entstehen durch Projektion der Daten auf die Eigen- vektoren:

- der Vektor aller Hauptkomponentenwerte zum Zeitpunkt i berechnet sich aus:

- über alle Zeitpunkte i entsteht eine Matrix, die in den Spalten die einzelnen Hauptkomponenten enthält:

- durch die Orthogonlität der Eigenvektoren sind auch die Hauptkom- ponenten wechselseitig unkorreliert

il xeilk

Wert der Hauptkomponenten l zum Zeitpunkt idurch Projektion des m-dimensionalen Datenvektorszum Zeitpunkz i auf den m-dimensonalen Eigenvektor l

mxmmEmk

xE

ii

i

T

)dim(,)()dim(,)dim(

k i

)()dim(,)()dim(,)()dim(

K

mnXmmEmnK

EX

Hauptkomponentenanalyse7.2 Vorgehensweise der PCA: - die Kovarianzmatrix der Hauptkomponenten ist folglich eine Diagonalmatrix, nämlich exakt die Matrix Λ der Eigenwerte:

- d.h. die Eigenwerte bezeichnen die Varianz der zugehörigen Hauptkompo- nente:

- durch die Unabhängigkeit der Hauptkomponenten (Orthogonalität) summieren sich die Eigenwerte zur Gesamtvarianz von X auf:

- damit lässt sich der erklärte Varianzanteil jeder Hauptkomponente berechnen zu:

- im Gegensatz zur Faktorenanalyse geht die PCA davon aus, dass die Ge- samtvarianz von X vollständig aus einer Linearkombination der PCs reproduziert wird

0)(,)Var( illil kEk

KKn

T

1

1

m

llX

1

)Var(

%100%100

11

2

m

jjj

lm

jj

ll

sR

Hauptkomponentenanalyse7.2 Vorgehensweise der PCA: - die Hauptkomponenten kil und die Originaldatenreihen xij sind über alle Be-

zugseinheiten i=1..n korreliert, wenn der Wert des zugehörigen Eigenvektors ejl ungleich null ist:

- Eigenvektoren und Hauptkomponentenmatrix enthalten die vollständige Information von X - d.h. die Ausgangsdatenmatrix kann über folgende Gleichung vollständig rekonstruiert werden, wenn alle q = m PCs und Eigenvektoren verwendet werden:

- eine approximative Rekonstruktion von X kann mit einem Subset q < m von Eigenvektoren und Hauptkomponenten bewerkstelligt werden, wenn die Vari- ablen in X stark korreliert sind:

n

ilil

n

ijij

n

ililjij

xk

kkxx

kkxxr

1

2

1

2

1

)()(

)()( Korrelation zwischen der Datenreihe Xvon Variable j und Hauptkomponente lüber alle STP-Elemente i=1..n

)()dim(,)()dim(,)()dim( mmEmnKmnX

EKX T

)()dim(,)()dim(,)()dim( qmEqnKmnX

EKX T


Beispiel zur PCA: - Ausgangsdatenmatrix:

1176,100001176,21,1176

2,100002.21,2

1,100001,21,1

x...x

............

x...x

x...x

x

x

x

X

beobachteter monatlicherNiederschlag in Afrika:

10000 Gitterpunkte über Land: m = 10000 Variablen im Raum dim(x) = 10000

1176 Zeitpunkte (Monatswerte 1901-1998): n = 1176

Datenmatrix X, dim(X) = (1176 x 1000):

Zeitreihe an Gitterpunkt 1(links oben)

Zeitreihe an Gitterpunkt 10000

(rechts unten)

Karte des Monatsniederschlages zu Zeitpunkt 1 (Jan. 1901):

Karte des Monatsniederschlages zu Zeitpunkt 1176 (Dez. 1998):

1ix

10000ix


Beispiel zur PCA: - Zielsetzung der PCA: Bildung neuer Variablen, die die Regionen der primären Niederschlagsvariabilität kennzeichnen - Berechnung der Kovarianzmatrix:

- die Kovarianzmatrix ist quadratisch und symmetrisch

)Var(...),Cov(),Cov(

............

),Cov(...)Var(),Cov(

),Cov(...),Cov()Var(

)1000010000()()dim(,1

1

10000210000110000

100002212

100001211

XXXXX

XXXXX

XXXXX

S

mmSXXn

S T

Varianz desMonatsnieder-schlages anGitterpunkt 1(links oben)

Kovarianz desMonatsnieder-schlages zwischenGitterpunkt 1 und Gitterpunkt 2

Kovarianz desMonatsnieder-schlages zwischenGitterpunkt 1 und Gitterpunkt 10000

Varianz desMonatsnieder-schlages anGitterpunkt 10000(rechts unten)


Beispiel zur PCA: - Diagonalisierung der Kovarianzmatrix:

- im vorliegenden Fall sind die Eigenvektoren darzustellen als Karten über Afrika (identisch mit räumlicher Auflösung der Ausgangsdaten mit m = 10000) - der erklärte Varianzanteil eines jeden Eigen- vektors ist gegeben durch die Normierung mit der Gesamtzahl der Eigenwerte:

10000

2

1

10000,100002,100001,10000

10000,22,21,2

10000,12,11,1

1

...00

............

0...0

0...0

...

............

...

...

eee

eee

eee

E

ESEmmmmmmmm

1. Eigenvektor(größter Varianz-

anteil)

10000. Eigenvektor(kleinster Varianz-

anteil)

Ladung des1. Eigenvektorsam Gitterpunkt1 (links oben)

Ladung des1. Eigenvektorsam Gitterpunkt10000 (rechts unten)

Ladung des10000.Eigenvektorsam Gitterpunkt 1

Ladung des 10000.Eigenvektors amGitterpunkt 10000

Eigenwert des1. Eigenvektors

Eigenwert des10000. Eigenvektors

%100%100

1,

1

2

m

lll

j

m

ll

j

j

sR

Hauptkomponentenanalyse7.2 Beispiel zur PCA: - Berechnung der Hauptkomponenten (PCs):

- im vorliegenden Fall ist jede PC als Zeitreihe über i = 1..n = 1..1176 Zeit- punkte darzustellen - insgesamt lassen sich alle m PCs mit den n Zeitpunkten zu einer Matrix zusammenfassen, die die identische Dimension wie die Ausgangsmatrix X besitzt:

- X und K beinhalten die gleiche Information, aber mit unterschiedlichen Koordinatenachsen

i

i

i

i

mi

mm

T

k

k

k

k

xE

10000

2

1

mi

...

k

Wert der 1. PC zu Zeitpunkt i

Wert der 10000. PC zu Zeitpunkt i

1176,100001176,21,1176

2,100002.21,2

1,100001,21,1

k...k

............

k...k

k...k

k

k

k

K

Zeitreihe der1. PC

Zeitreihe der10000. PC

)100001176()()dim( mnK

Hauptkomponentenanalyse7.2 Beispiel zur PCA: - graphische Darstellung der ersten 4 EOFs (Eigenvektoren, Hauptkomponen- ten und erklärter Varianzanteil:

1. EOF:- erklärt 9,3% der Gesamt- varianz- größte Ladungen im tropischen Afrika- gleiches Vorzeichen: homogene Variabilität in dieser Region- PC zeigt dekadische Variabilität und Trend seit 1970

2. EOF:- erklärt 7,1% der Gesamt- varianz- größte Ladungen im tropischen Afrika- umgekehrtes Vorzeichen: zonal gegensätzliche Variabilität- PC zeigt interannuelle Variabilität durch ENSO

3. EOF:- erklärt 5,8% der Gesamt- varianz- größte Ladungen im tropischen Afrika- umgekehrtes Vorzeichen: meridional gegensätz- liche Variabilität- PC zeigt Trend seit 1970 durch Gill-Modell

2. EOF:- erklärt 4,8% der Gesamt- varianz- größte Ladungen im tropischen Afrika- zonaler Tripol der Variabilität- PC zeigt interannuelle Variabilität durch ENSO bei höherer zonaler Wellenzahl


Beispiel zur PCA: - Fazit: mit nur 4 PCs statt 10000 Gitterpunktszeitreihen lassen sich bereits 27% der gesamten Niederschlagsvariabilität sowie einige wesentliche Pro- zesse der Klimabeeinflussung über Afrika reproduzieren

Hauptkomponentenanalyse ist in der vorgestellten Form nur für quadratische symmetrische Matrizen anwendbar: - Verallgemeinerung für beliebige (n x m)-Matrizen wird durch SVD-Analyse bewerkstelligt (Singular Value Decomposition = Einzelwertzerlegung):

- dieses Gleichungssystem ist ebenfalls durch vorgegebene mathematische Algorithmen zu lösen - Verbindung zwischen SVD und PCA:

mnRLX T

mmmmmnmn

,

X = DatenmatrixL = linke EinzelvektorenΩ = EinzelwerteR = rechte Einzelvektoren

Spaltenvektoren von R sind die Eigenvektoren von XTX

Spaltenvektoren von L sind die Eigenvektoren von XXT

Einzelwerte in Ω sind die Wurzel aus den Eigenwerten in Λ

Kanonische Korrelationsanalyse7.3

bei der PCA werden durch Linearkombination neue Variablen aus einem einzelnen multivariaten Datensatz bestimmt, die maximale Varianzanteile repräsentieren

bei der kanonischen Korrelationsanalyse (CCA = Canonical Correlation Analysis) werden aus zwei multivariaten Datensätzen durch Linearkombina-tion neue Muster (Eigenvektoren) erzeugt: - bei Projektion der Daten auf diese kanonischen Muster entstehen neue sog. kanonische Variablen, die maximal korreliert sind - kanonische Variablen sind wie Hauptkomponenten untereinander unkorreliert - PCA identifiziert interne Variabilität, CCA identifiziert den Zusammenhang zwischen zwei multivariaten ZVA - zu verstehen als eine Erweiterung der multiplen Regression:

- jetzt multivariater Prädiktand betrachtet

korreliert maximal Y riableAusgangsvamit :Variable neue : ˆ

:mit

ˆ

Y

xby i

T

i

iy


in den Geowissenschaften werden bei der CCA meist räumliche Felder betrachtet: - Vektor enthält verschiedene Raumeinheiten mit i=1..n Messwiederholun- gen einer bestimmten Variablen - Vektor enthält die gleichen oder beliebige andere Raumeinheiten mit i=1..n Messwiederholungen einer anderen Variablen - bei simultanen Messungen von und lässt sich Kopplung der beiden Felder diagnostizieren - bei zeitverzögerten Messungen lässt sich Feld aus Feld statistisch prognostizieren

Vorgehensweise der CCA: - Ausgangspunkt ist die gemeinsame Kovarianzmatrix zweier multivariater ZVA - dazu werden die beiden Datenvektoren zu einem neuen Vektor zusammengefasst:

iyix

ix

iy

iy

ix

niyyyxxxy

xc T

imiiimii

i

i

i ..1,),...,,,,...,,(21 2121

Kanonische Korrelationsanalyse7.3 Vorgehensweise der CCA: - unter Berücksichtigung der Messwiederholungen (meist Zeitpunkte) entsteht eine gemeinsame Datenmatrix mit Anomalien:

- dann lässt sich die zugehörige Kovarianzmatrix von C in vier Blöcke unter- teilen:

- die kanonischen Variablen vj und wj sind wieder Linearkombinationen der

Ausgangsvariablen X und Y:

)()dim(,

......

........................

......

......

21

2121

2222122221

1121111211

21

21

21

mmnC

yyyxxx

yyyxxx

yyyxxx

C

nmnnnmnn

mm

mm

T

YXXY

C

YYYX

XYXXT

C

SS

mmmmSSS

SSCC

nS

)()()dim(,1

12121

),min(..1,..1,

),min(..1,..1,

211

211

2

1

mmjniybybw

mmjnixaxav

m

liljli

T

jij

m

liljli

T

jij

v, w : kanonische Variablen

a, b : kanonische Vektoren (kanonische Muster)


Vorgehensweise der CCA: - kanonische Muster und zugehörige Datenvektoren müssen gleiche Dimension besitzen:

- Gesamtzahl zu extrahierender kanonischer Variablen entspricht kleinerer Dimension von X und Y:

- kanonische Variablen werden so gebildet, dass gilt:

2

1

)dim()dim(

)dim()dim(

myb

mxa

ij

ij

),min( 21 mmM

MjbSbwaSav

kj

kjwv

wvwvwv

jYY

T

jjjXX

T

jj

kj

MM

..1,1)Var()Var(

,0

,1),Corr(

0),Corr(...),Corr(),Corr( 2211

kanonische Variablen besitzen absteigende Korrelationskoeffizienten rvw : kanonische Korrelationen rC

a und b werden immer so gewichtet (-1), dass die rC ≥ 0

verschiedene kanonische Variablen sind wechselseitig unkorreliert

a und b so normiert, dass die kanonische Variablen die Varianz 1 haben


Vorgehensweise der CCA: - mit diesen Eigenschaften besitzt die gemeinsame Kovarianzmatrix der kanonischen Variablen die einfache Form:

- bei PCA wird neues kartesisches Koordinatensystem mit den Eigenvektoren der Kovarianzmatrix als Axen bestimmt - bei CCA werden mit a und b zwei neue Koordinatensysteme für X und Y bestimmt - die neuen Basisvektoren a und b sind jedoch nicht orthogonal und haben keine Einheitslänge

MC

C

C

C

C

C

WWV

VWV

K

r

r

r

R

IR

RI

SS

SSS

...00

............

0...0

0...0

:mit

2

1


Vorgehensweise der CCA: - die kanonischen Variablen lassen sich wieder spaltenweise zu einer Matrix zusammenfassen und berechnen sich durch Projektion der Daten auf die kanonischen Vektoren:

- die Zusammenhänge zwischen den Originalzeitreihen und kanonischen Variablen lassen sich über die lineare Einfachkorrelation bestimmen:

nMnn

M

M

MmmnMn

vvv

vvv

vvv

AXV

...

............

...

...

21

22221

11211

11

1. kanonischeVariabe

M. kanonischeVariabe

nenKorrelatio heterogene ..1,..1,))(),(Corr(

..1,..1,))(),(Corr(

nenKorrelatio homogene ..1,..1,))(),(Corr(

..1,..1,))(),(Corr(

1

2

2

1

mkMjixiw

mkMjiyiv

mkMjiyiw

mkMjixiv

kj

kj

kj

kj

Kanonische Korrelationsanalyse7.3 Vorgehensweise der CCA: - kanonische Vektoren a und b werden so gewählt, dass die Korrelation zwischen den resultierenden kanonischen Variablen v und w maximal ist - das impliziert jedoch nicht, dass auch die Varianz von X und Y gut abgebildet wird - bei hohen kanonischen Korrelationen aber geringer erklärter Varianz von X und Y ist physikalische Interpretation der kanonischen Moden (Vektoren und Variablen) fragwürdig - die Bestimmung der erklärten Varianz R2

j hängt davon ab, wie gut X und Y

aus jeder einzelnen kanonischen Variablen reproduziert werden können, wo- bei aus allen kanonischen Variablen exakt wieder die Gesamtinformation von X und Y rekonstruiert werden kann:

- wenn m1 = m2 sind die Matrizen A und B quadratisch und es gilt:

- wenn m1 ≠ m2 ist die Matrix A oder B mit größerer Dimension nicht quadra-

tisch und somit nicht invertierbar - fehlende Reihen der nicht quadratischen Matrix müssen mit Phantomwerten aufgefüllt werden (s.u.)

nm

T

mmnm

T

nm

T

mmnm

T

WBY

VAX

2222

1111

1

1

~

~

BB

AA

~

~


Vorgehensweise der CCA: - wegen (n-1)-1∙VTV=I und (n-1)-1∙WTW=I berechnet sich die Kovarianzmatrix der multivariaten ZVA X und Y zu:

- damit ist der Varianzanteil der j-ten kanonischen Variablen an der Gesamt- varianz von X bzw. Y:

- zur Berechnung der kanonischen Vektoren stehen verschiedene Algorithmen zur Verfügung:

1

1

1

11

1

11

~~)

~(

~1

1

~~)

~(

~

1

1

m

i

T

jj

TT

YY

m

i

T

jj

TT

XX

bbBBYYn

S

aaAAXXn

S

aaT und bbT sind Matrizen der Einzel-varianzen jeder kanonischen Variablen

Gesamtvarianz berechnet sich aus der Summe dieser Einzelvarianzen über allem1 bzw. m2 kanonischen Variablen

)sp(

)~~

sp()(

)sp(

)~~

sp()(

2

2

YY

T

jj

j

XX

T

jj

j

S

bbYR

S

aaXR

sind Spaltenvektoren in der inversen Matrix

sind Spaltenvektoren in der inversen Matrix

ja~

jb~

A~

B~

Eigenwertgleichungen wie bei PCA

Einzelwertzerlegung (SVD)

Kanonische Korrelationsanalyse7.3 Vorgehensweise der CCA: - gesucht sind Paare von Eigenvektoren ej für X und fj für Y mit zugehörigen

identischen Eigenwerten λj mit j=1..M

- diese Eigenvektoren können aus den folgenden Matrizen bestimmt werden:

- hierzu muss die Quadratwurzel einer Matrix bzw. einer inversen Matrix berechnet werden; es gilt für quadratische Matrizen:

)()dim(,:

)()dim(,:

22

21121

11

21121

mmSSSSSSf

mmSSSSSSe

YYXYXXYXYYj

XXYXYYXYXXj

XX

m

m

XX

T

xx

T

xx

S

SE

EESEES

von Eigenwerte : ,

1...00

............

0...1

0

0...01

,

...00

............

0...0

0...0

ren von Eigenvektoder Matrix :

:mit

,

j2

1

212

1

21

21212121

1

1


Vorgehensweise der CCA: - Berechnung der kanonischen Korrelationen auf Basis der Eigenvektoren ej

und fj bzw. der zugehörigen Eigenwerte:

- Berechnung der kanonischen Vektoren (Muster) auf Basis der Eigenvektoren:

- durch die Normierung der Eigenvektoren ej und fj auf 1 ist gewährleistet, dass

die die Varianz der kanonischen Variablen auch auf 1 normiert ist - Diagonalisierung großer Matrizen ist sehr rechenaufwendig, deshalb nur eine Eigenwertgleichung für ej gelöst und fj daraus abgeleitet:

- die Euklidische Normierung im Nenner bewirkt | fj | = 1

Mjr jC j..1,

MjfSb

MjeSa

jYYj

jXXj

..1,

..1,21

21

MjeSSS

eSSSf

jXXYXYY

jXXYXYY

j ..1,2121

2121

Kanonische Korrelationsanalyse7.3 Beispiel zur CCA: - Variable X: Meeresoberflächentemperaturen (SST) im Nordpazifik (1950-2000) - Variable Y: geopotentielle Höhe in 500 hPa (Z500) über außertropischer Nordhemisphä- re (1950-2000) - 1. kanonisches Muster der SST zeigt zona- len Dipol - zugehöriges 1. kanonisches Muster von Z500 zeigt typischen Wellenzug über NHK: positives PNA-Muster - d.h. warme SST im NE-Pazifik bewirken typische Tröge und Rücken in der Höhen- strömung - kanonische Korrelation beträgt 0,79 (stark) - 1. kanonische Mode erklärt 18% der SST- Variabilität und 23% der Z500-Variabilität - 1. kanonische Variable entspricht PNA-Zeitreihe:

1950 1960 1970 1980 1990 2000

PN

A-I

nd

ex

“Take-away“

Die statistische Analyse multivariater ZVA basiert auf den Regeln der Matrixalgebra.

Zielsetzung der Hauptkomponentenanalyse ist die Ableitung neuer komplexer Variablen bzw. die Reduzierung der Ausgangsvariablen nach der Vorgabe einer Varianzmaximierung.

Diese neuen Variablen werden Hauptkomponenten genannt.

Die Berechnung erfolgt auf der Basis von Eigenvektoren, die ein rotier-tes orthogonales Koordinatensystem der Ausgangsvariable aufspannen.

Die erklärte Varianzanteil jeder Hauptkomponente an der Gesamtvarianz der Ausgangsvariablen wird durch die Eigenwerte ausgedrückt.

Die kanonische Korrelationsanalyse untersucht den Zusammenhang zwischen zwei multivariaten ZVA.

Dabei entstehen ebenfalls neue sog. kanonische Variablen, die maximal miteinander korreliert sind und in Beziehung zu den kanonischen Vektoren (meist räumliche Muster) stehen.

7

Eigenwerttechniken 7 7.1 Matrixalgebra 7.2 Hauptkomponentenanalyse 7.3 Kanonische...

Documents

Transcript of Eigenwerttechniken 7 7.1 Matrixalgebra 7.2 Hauptkomponentenanalyse 7.3 Kanonische...