ISWeb - Information Systems & Semantic Web Marcin Grzegorzek [email protected] 5.4 Latent...

24
<is web> ISWeb - Information Systems & Semantic Web Marcin Grzegorzek [email protected] 1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von in Matrizen enthalten orthonormale Spaltenvektoren Matrix ist Diagonalmatrix reduzierte, zerlegte Matrizen bedeuten Speichereinsparung Zerlegung entspricht Abbildung auf minimale, „schlummernde“ (latente), künstliche Konzepte

Transcript of ISWeb - Information Systems & Semantic Web Marcin Grzegorzek [email protected] 5.4 Latent...

Page 1: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 1

5.4 Latent Semantic Indexing und Singulärwertzerlegung

Zerlegung von in Matrizen enthalten orthonormale Spaltenvektoren Matrix ist Diagonalmatrix reduzierte, zerlegte Matrizen bedeuten

Speichereinsparung

Zerlegung entspricht Abbildung auf minimale, „schlummernde“ (latente), künstliche Konzepte

Page 2: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 2

Zerlegung der Feature-Matrix

entspricht dem Rang der Matrix F

Page 3: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 3

Beispiel Feature-Vektoren

Page 4: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 4

Beispiel Feature-Vektoren nach Zerlegung

Vektoren

in Matrix :

Page 5: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 5

Analyse der Matrix

Diagonalwerte der Matrix

geben Relevanz der einzelnen Konzepte an→ niedrige Werte entsprechen geringer Relevanz und umgekehrt

absteigende Sortierung der Diagonalelemente durch geschicktes Tauschen der Spalten/Zeilen

Page 6: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 6

Dimensionsreduzierung: Entfernen der Konzepte mit den kleinsten Diagonalwerten→ minimierter Approximationsfehler

reduzierte Matrizen bedeuten häufig reduzierten Speicheraufwand

Analyse der Matrix (2)

Page 7: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 7

Dimensionsreduzierung graphisch

Page 8: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 8

Korrespondenz von Spalten und Zeilen

Page 9: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 9

Ähnlichkeitsvergleiche

Ähnlichkeitsberechnung auf der Basis der drei Matrizen

Vergleich von Feature-Vektoren: Skalarprodukt auf Matrizen und berechenbar daher Kosinusmaß und euklidsche Distanz leicht

berechenbar

Page 10: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 10

Vergleich der Dimensionen Skalarprodukt auf Matrizen und berechenbar

→ z.B. Synonymerkennung in Texten Skalarprodukt ähnlich der Kovarianz zweier Dimensionen

Ähnlichkeitsvergleiche

Page 11: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 11

Dynamische Feature-Matrix

ständige Neuberechnung der Zerlegung ist zu aufwändig

Lösungsansatz: Zerlegung einer repräsentativen, statischen Untermenge der Feature-Vektoren

neue Feature-Vektoren werden dann mit und multipliziert

Page 12: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 12

Bewertung des LSI-Verfahrens

Bewertung ähnlich zur KLT

Hauptunterschiede: Zerlegung der Feature-Matrix an Stelle der Kovarianzmatrix Speichern und Manipulieren der zerlegten Matrizen an

Stelle Rücktransformation nach Reduktion

Page 13: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 13

Beispiel Feature-Matrix

Beispiel Feature-Matrix:

Erzeugung einer dritten Dimension durch Summierung der ersten beiden plus 0,5:

Page 14: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 14

Singulärwertzerlegung

ist spaltenorthonormale -Matrix

ist -Diagonalmatrix

ist zeilenorthonormale -Matrix

ist Rang der Matrix

Page 15: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 15

Singulärwertzerlegung (2)

Berechnung durch Ausnutzung folgender Gesetze:

Page 16: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 16

Singulärwertzerlegung des Beispiels

Page 17: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 17

Reduzierung der Matrizen

Zeilen-/Spaltentausch damit Diagonalwerte von absteigen

Reduzieren heißt Streichen entspr. -Spalten→

Page 18: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 18

Reduzierung der Matrizen (2)

Approximationsfehler ist abhängig von entfernten Diagonalwertensiehe Matrizenproduktion in dyadischer Schreibweise:

Page 19: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 19

Reduzierung im Beispiel

Wert 0,2295 im Vergleich zu anderen Werten verschwindend klein

dritte Dimension wurde künstlich erzeugt

Reduzierung der dritten Dimension

Page 20: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 20

Transformation neuer Feature-Vektoren

Annahme: Zerlegung erfolgte auf repräsentativer Feature-Matrix

Ziel: Erzeugung der entsprechenden -Spaltenvektoren

es gilt:

Page 21: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 21

Transformation neuer Feature-Vektoren (2)

sei zu transformierender Feature-Vektor

erzeugt durch Multiplikation mit Matrizen und

Page 22: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 22

Transformation im Beispiel

Transformation von

zu

Page 23: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 23

Berechnungen auf transformierten Vektoren

Ausnutzung von zur Berechnung Skalarprodukt

Kosinusmaß:

Page 24: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 24

Berechnungen auf transformierten Vektoren (2)

Ausnutzung von zur Berechnung Skalarprodukt

euklidsche Distanz: