9. Vorlesung Lineare Algebra, SVD und...

43
WS 2006/07 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 248 9. Vorlesung Lineare Algebra, SVD und LSI • Grundlagen lineare Algebra – Vektornorm, Matrixnorm – Eigenvektoren und Werte – Lineare Unabhängigkeit, Orthogonale Matrizen SVD, Singulärwerte und Matrixzerlegung LSI:Latent Semantic Indexing

Transcript of 9. Vorlesung Lineare Algebra, SVD und...

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 248

9. VorlesungLineare Algebra, SVD und LSI

• Grundlagen lineare Algebra– Vektornorm, Matrixnorm– Eigenvektoren und Werte– Lineare Unabhängigkeit, Orthogonale Matrizen

• SVD, Singulärwerte und Matrixzerlegung• LSI:Latent Semantic Indexing

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 249

Matrix-Vektor Multiplikation

Symbolisch

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 250

Beispiel

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 251

Alternative Präsentation von Matrix-Vektor Multiplikation

• Sei aj der j-te Spaltenvektor von A

• y ist eine Linearkombination der Spalten von A

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 252

Matrix-Matrix Multiplikation

• Sei und dann ist

• Jede Zeile in B wird mit A multipliziert.

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 253

Beispiel

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 254

Vektor Normen

• L1 Norm:• L2 Norm, Euklidische Norm• Lunendlich, Maximum Norm• Lp Norm

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 255

Allgemeine Definition von Vektornormen

• Eine Norm ist eine Funktion

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 256

Distanz zwischen Vektoren

• Distanz zwischen x und y ist wobei eine beliebige Norm ist

• Oft Euklidische Norm• Alternative: Winkel zwischen Vektoren

– Skalarprodukt– Beziehung zu Euklidischer Norm– Cosinus des Winkels zwischen zwei Vektoren

(Ähnlichkeit)

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 257

Beispiel Term-Dokument Matrix

• Termhäufigkeiten

• Mit Euklidischer Dist. sehen 1 und 2 unähnlich aus und 2 und 3 ähnlich, nur wegen der Dokumentlängen

• Mit Cosinus Ähnlichkeit sind 1 und 2 ähnlich und unähnlich zu 3.

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 258

Eigenwerte, Eigenvektoren

• Sei A eine n x n Matrix und v ein Vektor mit

• Dann ist v ein Eigenvektor von A und lambda ist ein Eigenwert

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 259

Beispiel

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 260

Matrixnormen

• Sei eine Vektornorm unddie korrespondierende Matrixnorm ist

• Wurzel des größten Eigenwertes von

• Max. der Zeilensummen• Max. der Spaltensummen• Frobeniusnorm:

korrenspondiert zu keiner Vektornorm

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 261

Lineare Unabhängigkeit

• Die Vektoren sind linear unabhängig, wenn gdw. für alle

• Eine Menge von m linear unabhängigen Vektoren aus wird Basis für genannt. Alle Vektoren aus können als Linearkombination der Basisvektoren ausgedrückt werden.

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 262

Beispiel

• Die Spalten sind nicht linear unabhängig, dafür

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 263

Rang einer Matrix

• Rang einer Matrix ist die maximale Anzahl linear unabhängiger Spalten.

• Eine quadratische Matrix mit Rang n ist nicht-singulär und hat eine Inversemit

• Die äußere Produktmatrix hat Rang 1

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 264

Orthogonalität

• Zwei Vektoren sind orthogonal wenn• Seien orthogonal mit

dann sind sie lin. unabhängig• Sei die Menge orthogonaler Vektoren

normalisiert mitdann ist sind sie eine orthonormale Basis

• Eine Matrix mit ortho-normalen Spalten, heißt orthogonale Matrix

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 265

Warum sind orthogonale Matrizen nett?• Eine orthogonale Matrix hat Rang m•• Inverse einer orthogonalen Matrix Q ist

• Euklidische Länge eines Vektors ist invariant bei einer orthogonalen Transformation Q

• Das Produkt von orthogonalen Matrizen istorthogonal:

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 266

Matrixdekomposition

• Eine Matrix A soll in ein Produkt von ein oder mehreren Matrizen zerlegt werden

• Die rechten Seiten sollen nützliche Eigenschaften haben

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 267

Beispiel SVD

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 268

Beispiel SVD

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 269

Singulärwertzerlegung

• Jede Matrix A mit kann zerlegt werden

• wobei und orthogonal sind und ist diagonal

• Abgespeckte Version:

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 270

Singulärwerte und Vektoren

• Die Diagonalelemente von sind die Singulärwerte der Matrix A.

• Die Spalten von U und V sind linke und rechte Singulärvektoren.

• Äquivalente Form der SVD:

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 271

Äußere Produktform• Beginnt mit abgespeckter Form

• Summe von Matrizen mit Rang 1.

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 272

Matrix Approximation

• Satz: Sei undund definiere

dann ist

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 273

Was bedeutet das?

• Die beste Approximation mit Rang k einer Matrix A ist

• Sinnvoll für– Kompression– Rauschunterdrückung– Finden von Konzepten oder Themen, LSI

• Korrekter Rang durch Singulärwerte

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 274

Beispiel: Rauschunterdrückung

• Angenommen eine Matrix besteht aus einer Matrix mit niedrigem Rang und Rauschen

• Singulärwerte

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 275

Log der Singulärwerte

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 276

Konsequenzen

• Beste Rang 1 Approximation von A ist

• Angenommen

dann

d.h. der Rang ist die Anzahl der Nicht-Null Singulärwerte von A

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 277

Störungstheorie

• Satz: Seien A und A+E in mitdann ist für

• E wird als Rauschen gedacht

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 278

Log der Singulärwerte

Eigengap

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 279

Eigenwert- und Singulärwertzerlegung

•• deshalb:

d.h. in Spaltenschreibweise

• Äquivalent giltmit

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 280

Singulärwerte und Vektoren

• Die Singulärwerte sind die nicht-negativen Wurzeln der Eigenwerte von

• Die Spalten von V sind die Eigenvektoren von

• Die Spalten von U sind die Eigenvektoren von

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 281

Latent Semantic Indexing

• Annahme: es gibt eine verborgene Struktur in den Daten

• Diese Struktur kann erhellt werden durch die Projekttion der Daten (Term-Dokument Matrix) in einen Unterraum mit niedriger Dimension durch SVD

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 282

LSI Methode• Normalisiere die Spalten auf Länge 1

(sonst dominieren lange Dok. die ersten Singulärwerte und Vektroren).

• Berechne SVD der Term-Dokument-Matrixund approximiere

• orthogonale Basis für alle Dokumente • Spalte j hat die Koodinaten von Dok. j in der

neue Basis• ist eine Projektion von A auf den von

aufgespannten Unterraum

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 283

Datenkompression

• hält die Koordinaten der Dokumente bezüglich der ersten k linken Singulär-vektoren

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 284

Beispiel

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 285

Dk fuer k=2Dokumente

7

6

2

4 13

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 286

Themen

• Tk sind die Koordinaten der Termebezüglich der ersten k rechtenSingulärvektoren

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 287

Themen, k=2

BabyChild

Guide

Health

Proofing

Safety

Toddler

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 288

Fehler der Approximation

• Relativer Fehler

• Beispiel:• Oft wird Frobeniusnorm statt Euklidischer

Norm genutzt

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 289

Anfragen mit LSI• Repräsentiere Term-Dok. Matrix als• Berechne

• Folding In der Anfrage• Ähnlichkeit

• Anfrage wird im k-dimensionalen Unterraum bearbeitet

WS 2006/07 Alexander Hinneburg,Martin-Luther-Universität Halle/Wittenberg

Seite 290

LSI Zusammenfassung

• LSI erhöht die Retrieval Qualität• Auch wenn der Approximationsfehler hoch

ist• LSI kann mit Synonymen umgehen• ... und auch mit Mehrfachbedeutungen