13.0 Dimensionsreduktion 13 Dimensionsreduktion 13.0 ... · 13 Dimensionsreduktion 13.1...

13
13 Dimensionsreduktion 13.0 Dimensionsreduktion Dimensionsreduktion 13 Dimensionsreduktion (aus: C. Weihs und J. Jessenberger (1998): Statistische Methoden zur Qualit¨ atssicherung und -optimierung in der Industrie; Wiley-VCH, Weinheim, 141–161) Jetzt wenden wir uns stetigen Zielgr¨ oßen zu. Wenn viele Merkmale beobachtet werden, besteht oft die Hoffnung, diese so geschickt zusammenfassen zu k¨ onnen, dass Unterschiede zwischen den Merkmalstr¨ agern in wenigen Dimensionen“ sichtbar werden. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 436 13 Dimensionsreduktion 13.0 Dimensionsreduktion Farbstoffbeispiel: Untersuchungen von 29 Merkmalen (19 analytische Eigenschaften und 11 Qualit¨ atsmerkmale) an 93 Farbstoffpartien. Das Ziel ist, die Unterschiede zwischen den Merkmalstr¨ agern zu entdecken und zu erkl¨ aren. Mit 29 Merkmalen hat man jedoch 29 Dimensionen, innerhalb derer sich die Partien unterscheiden k¨ onnen, und eine Beschreibung der Unterschiede f¨ ur jede einzelne dieser Dimensionen wird unanschaulich. Deshalb versucht man, unter den 29 Dimensionen (oder Merkmalen) diejenigen zu bestimmen, deren Kombination am meisten“ ¨ uber die Unterschiede in den Partien aussagt. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 437 13 Dimensionsreduktion 13.0 Dimensionsreduktion Etwas formaler wird durch Dimensionsreduktion versucht, diejenigen Richtungen in einem hochdimensionalen Raum zu bestimmen, in denen die wesentlichen Strukturen in den Daten deutlich werden. Wenn man besonders daran interessiert ist, die verschiedenen Merkmalstr¨ ager optimal unterscheiden zu k¨ onnen, liegt es nahe, diejenigen Richtungen zu suchen, in denen die Daten am meisten streuen. Das leistet die Hauptkomponentenanalyse. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 438 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1 Hauptkomponentenanalyse Dimensionsreduktion 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse Hauptkomponentenanalyse (HKA) = Principal Component Analysis (PCA) Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 439

Transcript of 13.0 Dimensionsreduktion 13 Dimensionsreduktion 13.0 ... · 13 Dimensionsreduktion 13.1...

Page 1: 13.0 Dimensionsreduktion 13 Dimensionsreduktion 13.0 ... · 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 De nitionen 13.1.1 Hauptkomponentenanalyse Bemerkungen: Diese

13 Dimensionsreduktion

13.0 Dimensionsreduktion

Dimensionsreduktion

13 Dimensionsreduktion(aus: C. Weihs und J. Jessenberger (1998): Statistische Methodenzur Qualitatssicherung und -optimierung in der Industrie;Wiley-VCH, Weinheim, 141–161)

Jetzt wenden wir uns stetigen Zielgroßen zu.

Wenn viele Merkmale beobachtet werden, besteht oft dieHoffnung, diese so geschickt zusammenfassen zu konnen, dassUnterschiede zwischen den Merkmalstragern in wenigen

”Dimensionen“ sichtbar werden.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 436

13 Dimensionsreduktion

13.0 Dimensionsreduktion

Farbstoffbeispiel:

Untersuchungen von 29 Merkmalen(19 analytische Eigenschaften und 11 Qualitatsmerkmale)an 93 Farbstoffpartien. Das Ziel ist, die Unterschiede zwischen denMerkmalstragern zu entdecken und zu erklaren. Mit 29 Merkmalenhat man jedoch 29 Dimensionen, innerhalb derer sich die Partienunterscheiden konnen, und eine Beschreibung der Unterschiede furjede einzelne dieser Dimensionen wird unanschaulich. Deshalbversucht man, unter den 29 Dimensionen (oder Merkmalen)diejenigen zu bestimmen, deren Kombination

”am meisten“ uber

die Unterschiede in den Partien aussagt.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 437

13 Dimensionsreduktion

13.0 Dimensionsreduktion

Etwas formaler wird durch Dimensionsreduktion versucht,diejenigen Richtungen in einem hochdimensionalen Raum zubestimmen, in denen die wesentlichen Strukturen in den Datendeutlich werden. Wenn man besonders daran interessiert ist, dieverschiedenen Merkmalstrager optimal unterscheiden zu konnen,liegt es nahe, diejenigen Richtungen zu suchen, in denen die Datenam meisten streuen. Das leistet die Hauptkomponentenanalyse.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 438

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse

13.1 Hauptkomponentenanalyse

Dimensionsreduktion

13 Dimensionsreduktion13.1 Hauptkomponentenanalyse

Hauptkomponentenanalyse (HKA)= Principal Component Analysis (PCA)

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 439

Page 2: 13.0 Dimensionsreduktion 13 Dimensionsreduktion 13.0 ... · 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 De nitionen 13.1.1 Hauptkomponentenanalyse Bemerkungen: Diese

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 Definitionen

13.1.1 Hauptkomponentenanalyse

Sei X = (x1 . . . xK ) die Spaltendarstellung einer Datenmatrix mit nBeobachtungen von K Merkmalen, wobei jede Spalte

xj =

x1j − xjx2j − xj

...xnj − xj

dem Vektor der n”mittelwertbereinigten“ Beobachtungswerte des

Merkmals Xj , j = 1, . . . ,K , entspricht.Bemerkung:

Von jeder Beobachtung eines Merkmals wird zunachst derarithmetische Mittelwert samtlicher Beobachtungen diesesMerkmals abgezogen.

Damit sind die Daten zentriert, ihr”Schwerpunkt“ liegt im

Nullpunkt.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 440

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 Definitionen

13.1.1 Hauptkomponentenanalyse

Definition 9 (Hauptkomponenten)

Die Hauptkomponenten (HKs) (Principal Components (PCs))Z1, . . . ,ZK sind mit dem X von der letzten Folie dann die KRichtungen im RK mit folgenden Eigenschaften:

1 Die HKs sind gewichtete Summen der Originalmerkmale.

2 Die”Beobachtungen“ der HKs sind definiert als die

entsprechend gewichteten Summen der Beobachtungen derOriginalmerkmale.

3 Die erste HK hat maximale empirische Varianz von allengewichteten Summen der

”Lange“ 1 der Originalmerkmale.

4 Die (p + 1)-te HK hat die maximale empirische Varianz vonallen gewichteten Summen der

”Lange“ 1 der

Originalmerkmale, die unkorreliert sind mit jeder der ersten pHKs.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 441

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 Definitionen

13.1.1 Hauptkomponentenanalyse

Definition 10 (Loadings)

Die Gewichte gjk der Originalmerkmale j = 1, . . . ,K in einer HKk = 1, . . . ,K heißen Loadings. Der zur k-ten HK gehorendeLoading-Vektor hat Lange 1:

gTk gk = 1, gk := (g1k . . . gKk)T , k = 1, . . . ,K .

Definition 11 (Scores)

Die Beobachtungen zik , i = 1, . . . , n,k = 1, . . . ,K , der HKs heißenScores. Fur den Vektor zj der Scores der j-ten HK Zj gilt:

zk = Xgk ,

wobei gk der Vektor der Loadings der k-ten HK ist.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 442

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 Definitionen

13.1.1 Hauptkomponentenanalyse

Bemerkungen:

Fur die Scores der k-ten HK gilt:

zik = (xi1 − x1)g1k + . . .+ (xiK − xK )gKk .

Die Beschrankung der Loading-Vektoren auf Lange 1 istnotwendig, da die empirische Varianz der Score-Vektorenquadratisch mit der Lange der Loading-Vektoren wachst.

HKs werden haufig als sog. implizite (latente) Merkmaleinterpretiert, weil sie selbst nicht beobachtet, sondern aus denOriginalmerkmalen abgeleitet werden, so dass dieBeobachtungen xi1 . . . xiK , i = 1, . . . , n, der Originalmerkmalezur Berechnung der Beobachtungen zik der HKs verwendetwerden.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 443

Page 3: 13.0 Dimensionsreduktion 13 Dimensionsreduktion 13.0 ... · 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 De nitionen 13.1.1 Hauptkomponentenanalyse Bemerkungen: Diese

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 Definitionen

13.1.1 Hauptkomponentenanalyse

Bemerkungen:

Diese Beobachtungen zik (die Scores) stellt man nun haufiggrafisch dar, um etwaige Strukturen oder Gruppen vonBeobachtungen zu entdecken. Dabei interessiert nur dierelative Lage der Beobachtungen zueinander. Da die HKsstandardisiert sind, sind die Absolutabstande zwischen denBeobachtungen nicht interpretierbar.

Bisher ist die Definition der HKs nicht konstruktiv, denn esbleibt unklar, wie die HKs berechnet werden, da dieKonstruktion der Loadings offen ist. Es ist lediglich klar, dassdie mittelwertbereinigten Merkmale X durch geeignete Wahlder Loadings in unkorrelierte implizite Merkmale, die HKs,transformiert werden. Eine elegante Konstruktionsvorschriftbasiert auf einer Eigenschaft von Kovarianzmatrizen.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 444

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.2 Berechnung

13.1.2 Berechnung der Hauptkomponenten

Die empirische Kovarianzmatrix S := XTXn−1 der mittelwertbereinigten

Merkmale in X lasst sich mit Hilfe der sog. Spektralzerlegung in eineDiagonalmatrix transformieren, wobei eine Matrix G konstruiert wird, sodass gilt:

GTSG = Λ,

wobei GTG = I , und Λ = Diagonalmatrix, deren Elemente alle 0 sindaußer den Diagonalelementen

λ11 ≥ . . . ≥ λKK ≥ 0.

Diese Matrix G := (g1 . . . gK ) erfullt die Eigenschaften derLoadingsmatrix, da gilt:

Λ = GTSG =GTXTXG

n − 1=

ZTZ

n − 1.

Die Spalten von Z := (Z1 . . .Zk), d.h. die Score-Vektoren der HKs, sindalso unkorreliert, und es gilt:

varZ1 = λ11 ≥ . . . ≥ λKK = varZK≥ 0.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 445

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.2 Berechnung

13.1.2 Berechnung der Hauptkomponenten

Samtliche K HKs zusammen spannen denselbenK -dimensionalen Raum auf wie die K Originalmerkmale. EineHauptkomponentenanalyse soll aber zurDimensionsreduktion verwendet werden.

Um festlegen zu konnen, wie viele Dimensionen notwendigsind, um die hochdimensionalen Daten zu charakterisieren,wird ein Dimensionsreduktionskriterium benotigt. Dazubietet sich der Anteil rp der ersten p HKs an der

”Gesamtvariation der Daten“ an, d.h. das Verhaltnis der

Varianz der ersten p HKs zu der Gesamtvarianz der Daten.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 446

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.2 Berechnung

13.1.2 Berechnung der Hauptkomponenten

Da die HKs empirisch unkorreliert sind, addieren sich dieempirischen Varianzen samtlicher K HKs

varZ1 + varZ2 + . . .+ varZK

zur Gesamtvariation der Daten, und es gilt:

rp :=varZ1 + varZ2 + . . .+ varZp

varZ1 + varZ2 + . . .+ varZK

.

Die HKA bietet sich nun insofern zur Dimensionsreduktionan, dass die ersten HKs den großten Anteil an derGesamtvariation reprasentieren.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 447

Page 4: 13.0 Dimensionsreduktion 13 Dimensionsreduktion 13.0 ... · 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 De nitionen 13.1.1 Hauptkomponentenanalyse Bemerkungen: Diese

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.2 Berechnung

13.1.2 Berechnung der Hauptkomponenten

Oft reduziert man die Dimension des Ausgangsproblems (=Anzahl Merkmale in X ) auf diejenige Anzahl HKs, diemindestens 95% der Gesamtvariation reprasentieren:

rp ≥ 0.95.

Dabei hofft man naturlich, dass schon zwei oder drei HKs95% der Gesamtvariation beschreiben, da so dieZusammenhange grafisch gut darstellbar sind.

Geometrisch gesehen handelt es sich bei einerDimensionsreduktion auf die großten HKs um eine(Orthogonal-) Projektion, da die weggelassenen HKsunkorreliert mit den

”reprasentativen“ HKs sind und damit

senkrecht (orthogonal) auf ihnen stehen.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 448

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.2 Berechnung

13.1.2 Screeplot

●● ●

● ●●

Screeplot

Var

ianc

es

2

4

6

8

Com

p.1

Com

p.2

Com

p.3

Com

p.4

Com

p.5

Com

p.6

Com

p.7

Com

p.8

Com

p.9

Com

p.10

●Varianz erklärt durch HKKandidat für max. Anzahl an HKs

Abb. 6 : Screeplot zur Bestimmung der Anzahl der Hauptkpomponenten

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 449

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.3 Beispiel

13.1.3 Berechnung der HKs – Farbstoffbeispiel

Farbstoffbeispiel:

Zur Veranschaulichung der Berechnung wird dieHauptkomponentenanalyse der zwei mittelwertbereinigtenMerkmale LAMBDAC (charakteristische Wellenlange) undHUEREMAL (Farbton bei Kunstlicht) vorgefuhrt. Die empirischeKovarianzmatrix ist gegeben durch:

S =1

92

(15.231828 −6.335172−6.335172 3.626028

)=

(0.16556335 −0.06886057−0.06886057 0.03941325

).

Dabei hat die empirische Varianz von LAMBDAC den Wert 0.1656und die empirische Varianz von HUEREMAL den Wert 0.0394.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 450

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.3 Beispiel

13.1.3 Berechnung der HKs – Farbstoffbeispiel

Die Spektralzerlegung dieser Kovarianzmatrix mit Hilfe einergeeigneten Software ergibt die Matrix der Loadings

G =

(0.9152732 0.4028337−0.4028337 0.9152732

),

so dass sich die HKs bestimmen lassen als

PC1 = 0.915 · LAMBDAC− 0.403 · HUEREMAL

PC2 = 0.403 · LAMBDAC + 0.915 · HUEREMAL

Die Matrix Z der HKs mit 93 Beobachtungen und zwei Spaltenergibt sich als

Z = XG .

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 451

Page 5: 13.0 Dimensionsreduktion 13 Dimensionsreduktion 13.0 ... · 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 De nitionen 13.1.1 Hauptkomponentenanalyse Bemerkungen: Diese

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.3 Beispiel

13.1.3 Berechnung der HKs – Farbstoffbeispiel

Dabei ist die Matrix X gegeben durch die 93 Beobachtungen derMerkmale LAMBDAC und HUEREMAL. Weiter lasst sich aus denMatrizen G und S die Diagonalmatrix Λ bestimmen als:

GTSG = Λ =

(0.195870536 0

0 0.009106159

).

Die Diagonalelemente dieser Matrix sind die empirischen Varianzender HKs, so dass die erste HK eine Varianz von ca. 0.20, die zweiteeine von ca. 0.01 aufweist. Der Anteil an der Gesamtvarianz, derdurch die erste HK erklart wird, ist

r1 =varZ1

varZ1 + varZ2

=0.195870536

0.2049767= 0.96.

Naturlich wird durch beide HKs die Gesamtvarianz der Datenerklart: r2 = 1.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 452

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.3 Beispiel

13.1.3 Berechnung der HKs – Farbstoffbeispiel

Haufig sind die Originalmerkmale so sehr voneinanderabhangig, dass sie selbst nur in r(< K ) Dimensionen variieren.Die n Beobachtungen der K Merkmale liegen dann in einemr -dimensionalen Unterraum des RK .

Dann gibt es K − r”

versteckte“ exakte lineareZusammenhange zwischen den K Merkmalen X1, . . . ,XK . Insolchen Fallen kann man K − r Merkmale aus den anderenausrechnen. Diese Merkmale sind also uberflussig!

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 453

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.3 Beispiel

13.1.3 Berechnung der HKs – Farbstoffbeispiel

Bestimmung uberflussiger Merkmale

Wenn r < K HKs ausreichen, um 100% der Gesamtvariation zureprasentieren, dann haben die K − r kleinsten HKs Zj Varianz 0,also var(Zj) = 0. Fur diese K − r gewichteten Summen der K(mittelwertbereinigten) Originalmerkmale Xk sind dann alleBeobachtungen konstant = 0, also

zik = (xi1 − x1)g1k + . . .+ (xiK − xK )gKk = 0,

mit i = 1, . . . , n; k = r + 1, . . . ,K .Diese K − r Gleichungen lassen sich dann nach K − rOriginalmerkmalen auflosen.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 454

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.3 Beispiel

13.1.3 Berechnung der HKs – Farbstoffbeispiel

Charakteristische Wellenlange (Lawton, Sylvester, 1971):

Fur funf produzierte Partien eines Farbstoffs liegt eincharakteristisches Absorptionsspektrum vor an den Wellenlangen410-700nm in 10nm Schritten (s. Abbildung). Die Daten bestehenalso aus funf Beobachtungen von 30 Merkmalen.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 455

Page 6: 13.0 Dimensionsreduktion 13 Dimensionsreduktion 13.0 ... · 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 De nitionen 13.1.1 Hauptkomponentenanalyse Bemerkungen: Diese

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.3 Beispiel

13.1.3 Berechnung der HKs – Farbstoffbeispiel

Abb. 7 : Charakteristische Absorptionsspektren

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 456

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.3 Beispiel

13.1.3 Berechnung der HKs – Farbstoffbeispiel

Kann man die Unterschiede zwischen den funf Partien ohnegroßen Informationsverlust einfacher charakterisieren, z.B. nurdurch die Unterschiede bei einer einzelnen (charakteristischen)Wellenlange?

Nach der Durchfuhrung der HKA der Originalmerkmale, d.h.auf Basis der Kovarianzmatrix, stellt sich heraus, dass dieerste HK schon 96% der Gesamtvariation reprasentiert. Diezweite HK erklart noch 3%, so dass die ersten beiden HKszusammen (nahezu) 100 % der Gesamtvariation in den funfBeobachtungen erklaren.

Die Loadings, also die Gewichte, mit denen dieOriginalmerkmale in die ersten beiden HKs eingehen, werdenin einer Tabelle dargestellt.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 457

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.3 Beispiel

13.1.3 Berechnung der HKs – Farbstoffbeispiel

Tab. 9 : Loadings der ersten beiden HKs

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 458

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.3 Beispiel

13.1.3 Berechnung der HKs – Farbstoffbeispiel

Der Absolutbetrag der Loadings ist maximal fur 590 nm beiPC1 und fur 550 nm bei PC2, so dass diese Wellenlangen ammeisten zur Variation der Daten beitragen. Andersausgedruckt heißt dies, dass sich die funf Partien desFarbstoffs am meisten bzgl. dieser Wellenlangenunterscheiden.

Der folgende Scores-Plot zeigt die funf Farbstoffpartien in derReihenfolge

1 Partie 1, 4, 3, 2, 5 in Richtung der ersten Hauptkomponente,bzw.

2 Partie 5, 1, 4, 3, 2 in Richtung der zweiten Hauptkomponente.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 459

Page 7: 13.0 Dimensionsreduktion 13 Dimensionsreduktion 13.0 ... · 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 De nitionen 13.1.1 Hauptkomponentenanalyse Bemerkungen: Diese

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.3 Beispiel

13.1.3 Berechnung der HKs – Farbstoffbeispiel

Abb. 8 : Scores der ersten beiden HKs

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 460

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.3 Beispiel

13.1.3 Berechnung der HKs – Farbstoffbeispiel

Partie 5 ist im Scores-Plot auffallig. Sie ist”am entferntesten“

von den anderen Partien und ihnen daher”am unahnlichsten“.

Wir hatten anhand der Loadings der HKs festgestellt, dasssich die funf Partien am meisten bzgl. der Wellenlangen 550nm und 590 nm unterscheiden.

Schon in den Absorptionskurven in Abhangigkeit von derWellenlange werden die Unterschiede zwischen den Partien inden Wellenlangen um 600 nm deutlich.

Andererseits ist der Zusammenhang zwischen denWellenlangen und den HKs durch ihre Loadings gegeben.

Die Loadings der HKs konnen also in Abhangigkeit derWellenlangen quasi als

”Pseudospektren“ dargestellt werden:

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 461

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.3 Beispiel

13.1.3 Berechnung der HKs – Farbstoffbeispiel

Abb. 9 : Loadings als”Pseudospektren“

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 462

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.3 Beispiel

13.1.3 Berechnung der HKs – Farbstoffbeispiel

Abb. 10 : Uberlagerung von Original- und Pseudospektren

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 463

Page 8: 13.0 Dimensionsreduktion 13 Dimensionsreduktion 13.0 ... · 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 De nitionen 13.1.1 Hauptkomponentenanalyse Bemerkungen: Diese

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.3 Beispiel

13.1.3 Berechnung der HKs – Farbstoffbeispiel

Die Uberlagerung von Pseudospektren und Originalspektren in dervorangehenden Abbildung deutet an, dass die erste HK dort ihrgroßtes Loading hat, wo die Originalspektren amunterschiedlichsten sind, namlich bei 590 nm. Fur dieses Beispielkonnte also gezeigt werden, dass vor allem die Wellenlange 590 nmund in geringerem Maß die Wellenlange 550 nm fur dieUnterschiedlichkeit der Partien verantwortlich ist.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 464

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.4 Nachteile der HKA

13.1.4 Nachteile der HKA

Nachteile der Hauptkomponentenanalyse

Eine wichtige, eher nachteilige, Eigenschaft der HKA ist, dass sienicht skaleninvariant ist.

Falls sich also die Einheiten der Merkmale andern, andert sichauch das Ergebnis der HKA. Z.B. werden sich aus HKs vondrei Merkmalen gemessen in kg, Meter und Jahren die HKsder entsprechenden Merkmale in g, cm und Monaten im Allg.nicht einfach durch Multiplizieren der Loadings derentsprechenden Merkmale mit 1000, 100 bzw. 1/12 ergeben.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 465

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.4 Nachteile der HKA

13.1.4 Nachteile der HKA

Der Wahl der Skaleneinheiten sollte also großteAufmerksamkeit geschenkt werden. Meist wird einer von zweiWegen beschritten:

1 Hauptkomponentenanalyse auf der Basis vonKovarianzen:Man sucht eine

”naturliche“ Einheit fur jedes der beteiligten

Merkmale.2 Hauptkomponenten auf der Basis von Korrelationen:

Man standardisiert samtliche Merkmale auf Varianz 1.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 466

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.4 Nachteile der HKA

13.1.4 Nachteile der HKA

Ein weiterer Nachteil der HKA ist die Tatsache, dass die HKsgewichtete Summen samtlicher untersuchter Merkmale sind.

Solche Summen lassen sich haufig schlecht interpretieren, u.a.weil die Merkmale unterschiedliche Einheiten aufweisen.

Nur wenn alle beteiligten Merkmale dieselbe Einheit besitzen,wie in unserem Beispiel nm, ist die Interpretation keinProblem.

Wenn die impliziten Merkmale aber nicht interpretierbar sind,sind sie fur den Anwender haufig wertlos. Leider hat diesesProblem keine allgemeingultige Losung. Manchmal wird dieInterpretation aber schon dadurch vereinfacht, dass an einerHK nicht samtliche Merkmale beteiligt sind, sondern nurwenige Originalmerkmale.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 467

Page 9: 13.0 Dimensionsreduktion 13 Dimensionsreduktion 13.0 ... · 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 De nitionen 13.1.1 Hauptkomponentenanalyse Bemerkungen: Diese

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.4 Nachteile der HKA

13.1.4 Nachteile der HKA

Gesucht ist deshalb eine Vereinfachungsmethode fur dieLoadings, die versucht, einmal gefundene HKs (wenigstensnaherungsweise) als gewichtete Summe moglichst wenigerOriginalmerkmale auszudrucken. Eine solche Vereinfachung hilftdann auch bei der Interpretation von HKs, bei denen alle beteiligtenOriginalmerkmale die gleiche Einheit besitzen.

Angestrebt wird die Identifikation derjenigen Originalmerkmale, dieeine HK hauptsachlich beeinflussen. Daraus resultiert dannidealerweise ein Loading-Vektor, in dem viele Komponentenverschwinden, d.h. den Wert 0 annehmen. Die Richtung diesesVektors wird trotzdem

”fast“ mit der Richtung der HK

ubereinstimmen; und der Vektor wird”fast“ unkorreliert mit den

anderen HKs sein.

Eine mogliche Methode besteht darin, die Scores der HKs mit Hilfevon schrittweiser Regression auf moglichst wenigeOriginalmerkmale zuruckzufuhren.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 468

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.5 Interpretation von HKs

13.1.5 Interpretation von Hauptkomponenten

Wir haben im letzten Abschnitt bei dem Beispiel zurcharakteristischen Wellenlange die Wichtigkeit derOriginalmerkmale fur die HKs anhand der Große der Loadingsbeurteilt.

Diese Vorgehensweise ist streng genommen nur richtig, wenndie beteiligten Werte der Originalmerkmale ahnlich groß sindund wenn die Originalmerkmale nicht korreliert sind.

Tatsachlich beeinflusst das Loading eines Originalmerkmalsdie HK uber den sog. Beitrag

(xij − xj) · gjk

der i-ten Beobachtung des j-ten Originalmerkmals zur i-tenBeobachtung der k-ten Hauptkomponente.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 469

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.5 Interpretation von HKs

13.1.5 Interpretation von Hauptkomponenten

Dieser Beitrag lasst sich also nur dann mit Hilfe des Loadingsallein beurteilen, wenn die Werte (xij − xj) fur alleOriginalmerkmale j = 1, . . . ,K ahnlich groß sind. Das gilt z.B.bei einer Hauptkomponentenanalyse auf der Basis vonKorrelationen, da dabei alle Originalmerkmale gleich skaliertsind, also in der gleichen Großenordnung schwanken.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 470

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.5 Interpretation von HKs

13.1.5 Interpretation von Hauptkomponenten

Auch wenn das Loading den Beitrag genugend gutcharakterisieren sollte, bedeutet ein großes Loading nicht, dassdie HK nicht ohne das dazugehorige Originalmerkmal

”darstellbar“ ware.

D.h. es kann moglich sein, die HK nur mit den anderenOriginalmerkmalen genugend gut anzunahern. Der Grund dafurist die im Allg. hohe Korrelation zwischen denOriginalmerkmalen (Kollinearitat), die bewirkt, dass derBeitrag eines Merkmals u.U. zu wesentlichen Teilen durchandere Merkmale abgedeckt werden kann.Tatsachlich wird sich, wie wir noch sehen werden, bei demBeispiel zur charakteristischen Wellenlange die Interpretationder Loadings als voreilig herausstellen.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 471

Page 10: 13.0 Dimensionsreduktion 13 Dimensionsreduktion 13.0 ... · 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 De nitionen 13.1.1 Hauptkomponentenanalyse Bemerkungen: Diese

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.5 Interpretation von HKs

13.1.5 Interpretation von Hauptkomponenten

Zur Identifikation von Einflussfaktoren, die eine Zielgroßehauptsachlich beeinflussen, wird deshalb schrittweise ein linearesModell fur die Zielgroße in Abhangigkeit von den Einflussfaktorenaufgebaut, indem zunachst derjenige Faktor identifiziert wird, derden großten Effekt auf die Zielgroße hat, dann der Faktor mit demgroßten zusatzlichen Effekt, usw. bis keine

”wesentliche“

Verbesserung der Modellanpassung mehr feststellbar ist.

Im Fall der Vereinfachung von Hauptkomponenten tritt eine HKan die Stelle der Zielgroße und die Originalmerkmale an die Stelleder Einflussfaktoren. Ein solches Verfahren heißt Vorwartsauswahlbzw. bei Verwendung des

”Kleinste-Quadrate-Kriteriums“ zur

Bewertung der Effektgroße gierige schrittweise Regression durchVorwartsauswahl (greedy stepwise regression with forwardselection).

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 472

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.5 Interpretation von HKs

13.1.5 Interpretation von Hauptkomponenten

Wesentlich fur die Funktionstuchtigkeit eines solchesVerfahrens ist die Wahl eines geeigneten Maßes fur die Guteder Modellanpassung. Wir verwenden hier zunachst dasadjustierte Bestimmtheitsmaß:

R2adj := 1− σ2

var(y),

wobei

σ2 :=RSS

n − K − 1,

RSS = Summe der quadrierten Residuen (Residual Sum ofSquares).

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 473

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.5 Interpretation von HKs

13.1.5 Interpretation von Hauptkomponenten

Der entscheidende Unterschied zwischen R2 und R2adj ist die

Tatsache, dass R2 bei Hinzunahme eines weiteren Faktors in das

Modell in jedem Fall großer wird, wahrend dies fur das adjustierte

Bestimmtheitsmaß nicht zu gelten braucht. Durch die Hinzunahme

eines Merkmals wird namlich einerseits RSS, andererseits aber auch

n− K − 1 kleiner. Je nachdem, was uberwiegt, wird R2adj fallen oder

steigen. Man sagt, dass bei Verwendung von R2adj die großere

Komplexitat des Modells durch die Hinzunahme eines weiteren

Merkmals gegen den Nutzen in Form der besseren Erklarung der

Zielgroße abgewogen wird. Deshalb wird im Folgenden bei der

schrittweisen Regression R2adj als Bestimmtheitsmaß verwendet.

Wenn n groß ist, spielt eine solche Angleichung naturlich keine

wesentliche Rolle.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 474

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.5 Interpretation von HKs

13.1.5 Interpretation von Hauptkomponenten

Schrittweise Regression

Bei der gierigen schrittweisen Regression durchVorwartsauswahl wird zunachst ein Faktor aus den moglichenFaktoren so ausgewahlt, dass die Summe der quadrierten ResiduenRSS fur das lineare Modell mit dem Achsenabschnitt und diesemFaktor minimal ist. Danach wird derjenige Faktor gewahlt, dessenHinzunahme in das Modell RSS am meisten verringert, usw. bisdas adjustierte Bestimmtheitsmaß R2

adj nicht mehr steigt.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 475

Page 11: 13.0 Dimensionsreduktion 13 Dimensionsreduktion 13.0 ... · 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 De nitionen 13.1.1 Hauptkomponentenanalyse Bemerkungen: Diese

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.5 Interpretation von HKs

13.1.5 Interpretation von Hauptkomponenten

Wird die schrittweise Regression zur Vereinfachung vonHauptkomponenten angewendet, so fuhrt das bei demeinfuhrenden Beispiel zu uberraschenden Ergebnissen.

Charakteristische Wellenlange:

Schrittweise Regression ergibt, dass sich die ersten beidenHKs hier schon sehr befriedigend durch jeweils eineWellenlange erklaren lassen (s. Tabelle). Insbesondere reichtdie Wellenlange 610 nm zur Charakterisierung der ersten HKaus. Die zweite HK wird charakterisiert durch die Wellenlange550 nm.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 476

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.5 Interpretation von HKs

13.1.5 Interpretation von Hauptkomponenten

Bei dieser Wellenlange weisen die Partien eine andereReihenfolge auf als in der ersten Hauptkomponente, namlichdiejenige Reihenfolge, die bei den Scores der zweiten HKbeobachtet wurde (s. Originalspektren und Scores-Plot). Umdie verschiedenen Farbstoffpartien zu unterscheiden, reicht indiesem Fall also die Betrachtung der beiden Wellenlangen 610nm und 550 nm aus.

Tab. 10 : Vereinfachung der HKs

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 477

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.5 Interpretation von HKs

13.1.5 Interpretation von Hauptkomponenten

Zur Illustration gibt die folgende Tabelle die Werte desadjustierten Bestimmtheitsmaßes bei der schrittweisenRegression der Wellenlangen auf die erste HK an. Schon beiWellenlange 610 nm im Modell werden fast 100 % derVariation der ersten HK PC1 erklart. Die zweitbesteErklarungsgute liefert Wellenlange 590 nm, die schon bei denLoadings auffallig war. Also liefert nicht die Wellenlange mitdem großten Loading (590 nm) den großten Beitrag zu derersten HKs, sondern die Wellenlange 610 nm, die nur dasviertgroßte Loading aufweist.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 478

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.5 Interpretation von HKs

13.1.5 Interpretation von Hauptkomponenten

Tab. 11 : Schrittweise Regression auf PC1

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 479

Page 12: 13.0 Dimensionsreduktion 13 Dimensionsreduktion 13.0 ... · 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 De nitionen 13.1.1 Hauptkomponentenanalyse Bemerkungen: Diese

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.6 Bi-Plot

13.1.6 Bi-Plot

Um eine gefundene Struktur zu verstehen, versucht man,Originalmerkmale zu finden, deren Anderung mit der Struktur inZusammenhang gebracht werden kann. In unserem Beispiel ware esz.B. ideal, wenn man die Richtung

”senkrecht zu den Clustern“

interpretieren konnte. Dann ware bekannt, in welchem (evtl.impliziten) Merkmal sich die Cluster unterscheiden.

Das kann mit dem sog. Bi-Plot versucht werden, in dem nebenden Beobachtungen auch die

”Richtungen der Originalvariablen

bzgl. der Hauptkomponenten“ eingezeichnet werden.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 480

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.6 Bi-Plot

13.1.6 Bi-Plot

Definition 12 (Bi-Plot)

Ein Bi-Plot ist eine Uberlagerung von zwei Plots, dem Scores-Plotder ersten beiden Hauptkomponenten und dem Plot der Loadingsdieser HKs, wobei die Punkte der beiden Plots unterschiedlichgekennzeichnet sind. Dabei wird der Nullpunkt der Loadings indas arithmetische Mittel der Punkte des Scores-Plots gelegt, unddie Loadings werden so skaliert, dass Scores-Plot undLoadings-Plot dieselbe

”Ausdehnung“ haben.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 481

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.6 Bi-Plot

13.1.6 Bi-Plot

Farbstoffbeispiel:Zur Konstruktion des Loadings-Plots werden die Originalmerkmaledurch ihre Gewichte in den HKs dargestellt. Um einen direktenVergleich mit den Beobachtungen zu ermoglichen, konnen dieVektoren der Originalmerkmale um denselben Faktor gestrecktoder gestaucht werden. Meist wird dieser Faktor so gewahlt, dassder langste Vektor gerade noch im Plot der Beobachtungen liegt.Z.B. hat SUMDYE in x-Richtung, also fur HK 1, das Loading0.6829 und in y -Richtung, also fur HK 2 das Loading -0.7080.Multiplikation beider Loadings mit dem Faktor 87.86 ergibt dieWerte 60 und -62.03, die im Plot abgetragen wurden. Die Loadingsder anderen Merkmale wurden ebenfalls mit demselben Faktormultipliziert und in die Grafik eingezeichnet.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 482

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.6 Bi-Plot

13.1.6 Bi-Plot

Die Richtung senkrecht zu den Clustern entspricht offenbarziemlich genau der Variablen SUMDYE, der Summe der Farbstoffein der chemischen Verbindung (s. nachste Abbildung). Nachfragenbeim Anwender ergab, dass im Laufe der Zeit tatsachlich gefundenwurde, dass auch weniger Farbstoffinput ausreicht, um dieselbeIntensitat der Farbung auf der Faser zu erreichen. Deshalb wurdedie Produktion zweimal umgestellt! Der Bi-Plot stutzt das insofern,dass u.a. die Farbstarke STRREM nahezu senkrecht auf SUMDYEsteht, dass Farbstarke und Summe der Farbstoffe also nahezuunkorreliert sind.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 483

Page 13: 13.0 Dimensionsreduktion 13 Dimensionsreduktion 13.0 ... · 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 De nitionen 13.1.1 Hauptkomponentenanalyse Bemerkungen: Diese

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.6 Bi-Plot

13.1.6 Bi-Plot

Abb. 11 : Bi-Plot

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 484

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.6 Bi-Plot

13.1.6 Typische Scores-Strukturen

Erinnerung: Hauptkomponentenanalyse hat das Ziel, mittelsDimensionsredktion niedrigdimensionale Strukturen aushochdimensionalen Daten herauszufiltern.

Dabei ist zu beachten, dass Projektionen aufHauptkomponenten hochstens nicht-lineare Strukturenzeigen konnen.

Lineare Zusammenhange zwischen den Originalmerkmalensind deshalb nicht sichtbar, weil die HKs so konstruiert wordensind, dass sie evtl. existierende lineare Zusammenhange oderStrukturen

”in sich aufnehmen“.

Technischer ausgedruckt sind HKs senkrecht aufeinanderstehende implizite Merkmale und deshalb unkorreliert.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 485

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.6 Bi-Plot

13.1.6 Typische Scores-Strukturen

Die nachste Abbildung zeigt typische Strukturen, die inStreudiagrammen nach Projektion auf HKs auftreten konnen:

1 ein sog.”Schrotschuss“ (uninteressante Struktur)

2 eine andere Variante von drei Clustern3 nicht-lineare funktionale Abhangigkeit zwischen HKs.

Abb. 12 : Typische Scores-Strukturen (PC1 gegen PC2)

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 486

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.6 Bi-Plot

13.1.6 Typische Scores-Strukturen

Bei interessanten nicht-linearen Strukturen stellt sichwiederum das Problem der Interpretation. Was nutzt dieeinfache Formulierung eines gefundenen Zusammenhangszwischen den Originalmerkmalen mit Hilfe von implizitenMerkmalen, wenn der Zusammenhang nicht interpretiertwerden kann? Hier konnen wiederum schrittweise Regressionund Bi-Plot wertvolle Hilfe leisten.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 487