ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent...

Post on 05-Apr-2015

109 views 1 download

Transcript of ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent...

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 1

5.4 Latent Semantic Indexing und Singulärwertzerlegung

Zerlegung von in Matrizen enthalten orthonormale Spaltenvektoren Matrix ist Diagonalmatrix reduzierte, zerlegte Matrizen bedeuten

Speichereinsparung

Zerlegung entspricht Abbildung auf minimale, „schlummernde“ (latente), künstliche Konzepte

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 2

Zerlegung der Feature-Matrix

entspricht dem Rang der Matrix F

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 3

Beispiel Feature-Vektoren

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 4

Beispiel Feature-Vektoren nach Zerlegung

Vektoren

in Matrix :

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 5

Analyse der Matrix

Diagonalwerte der Matrix

geben Relevanz der einzelnen Konzepte an→ niedrige Werte entsprechen geringer Relevanz und umgekehrt

absteigende Sortierung der Diagonalelemente durch geschicktes Tauschen der Spalten/Zeilen

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 6

Dimensionsreduzierung: Entfernen der Konzepte mit den kleinsten Diagonalwerten→ minimierter Approximationsfehler

reduzierte Matrizen bedeuten häufig reduzierten Speicheraufwand

Analyse der Matrix (2)

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 7

Dimensionsreduzierung graphisch

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 8

Korrespondenz von Spalten und Zeilen

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 9

Ähnlichkeitsvergleiche

Ähnlichkeitsberechnung auf der Basis der drei Matrizen

Vergleich von Feature-Vektoren: Skalarprodukt auf Matrizen und berechenbar daher Kosinusmaß und euklidsche Distanz leicht

berechenbar

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 10

Vergleich der Dimensionen Skalarprodukt auf Matrizen und berechenbar

→ z.B. Synonymerkennung in Texten Skalarprodukt ähnlich der Kovarianz zweier Dimensionen

Ähnlichkeitsvergleiche

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 11

Dynamische Feature-Matrix

ständige Neuberechnung der Zerlegung ist zu aufwändig

Lösungsansatz: Zerlegung einer repräsentativen, statischen Untermenge der Feature-Vektoren

neue Feature-Vektoren werden dann mit und multipliziert

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 12

Bewertung des LSI-Verfahrens

Bewertung ähnlich zur KLT

Hauptunterschiede: Zerlegung der Feature-Matrix an Stelle der Kovarianzmatrix Speichern und Manipulieren der zerlegten Matrizen an

Stelle Rücktransformation nach Reduktion

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 13

Beispiel Feature-Matrix

Beispiel Feature-Matrix:

Erzeugung einer dritten Dimension durch Summierung der ersten beiden plus 0,5:

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 14

Singulärwertzerlegung

ist spaltenorthonormale -Matrix

ist -Diagonalmatrix

ist zeilenorthonormale -Matrix

ist Rang der Matrix

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 15

Singulärwertzerlegung (2)

Berechnung durch Ausnutzung folgender Gesetze:

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 16

Singulärwertzerlegung des Beispiels

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 17

Reduzierung der Matrizen

Zeilen-/Spaltentausch damit Diagonalwerte von absteigen

Reduzieren heißt Streichen entspr. -Spalten→

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 18

Reduzierung der Matrizen (2)

Approximationsfehler ist abhängig von entfernten Diagonalwertensiehe Matrizenproduktion in dyadischer Schreibweise:

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 19

Reduzierung im Beispiel

Wert 0,2295 im Vergleich zu anderen Werten verschwindend klein

dritte Dimension wurde künstlich erzeugt

Reduzierung der dritten Dimension

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 20

Transformation neuer Feature-Vektoren

Annahme: Zerlegung erfolgte auf repräsentativer Feature-Matrix

Ziel: Erzeugung der entsprechenden -Spaltenvektoren

es gilt:

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 21

Transformation neuer Feature-Vektoren (2)

sei zu transformierender Feature-Vektor

erzeugt durch Multiplikation mit Matrizen und

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 22

Transformation im Beispiel

Transformation von

zu

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 23

Berechnungen auf transformierten Vektoren

Ausnutzung von zur Berechnung Skalarprodukt

Kosinusmaß:

<is web>

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 24

Berechnungen auf transformierten Vektoren (2)

Ausnutzung von zur Berechnung Skalarprodukt

euklidsche Distanz: