1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

33
1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012

Transcript of 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

Page 1: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

1

Information Retrieval Modelle: Vektor-Modell

Karin Haenelt

25.10.2012

Page 2: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

Inhalt

Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell

Ziele Dokument- und Anfrage-Repräsentation

Termgewichtungen: tf und idf Rankingfunktion

Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus

Bedeutung des Vektormodells

© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

2

Page 3: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

Grundkomponenten des Information Retrieval

3

Doku-mente

D1

Anfrage

Analyse

Analyse

Reprä-sentation

Reprä-sentation

Ähnlichkeit:- Matching- Ranking

Doku-mente

D2

D2 D1

D

R(qk,dm)

Q

Komponentender Modelldefinition

© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 4: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

Information-Retrieval-Modell: Definition

Ein Information-Retrieval-Modell ist ein Quadrupel (D,Q,F,R(qk,dm))

4

D Dokument-Repräsentation Menge logischer Sichten auf Dokumente

Q Query-Repräsentation Menge logischer Sichten auf Anfragen (Queries

F Modellierungsrahmen (Framework) für - Dokumentrepräsentationen D - Queries Q - Beziehungen zwischen D und Q

R(qk,dm) Ranking-Funktion ordnet einer Query qk aus Q und einem Dokument dm aus D einen Wert zu, der die Reihenfolge der Dokumente aus D bezüglich einer Query qk definiert

© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 5: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

Inhalt

Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell

Ziele Dokument- und Anfrage-Repräsentation

Termgewichtungen: tf und idf Rankingfunktion

Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus

Bedeutung des Vektormodells

5© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 6: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

Boolesches Modell und VektormodellDokument- und Anfrage-Repräsentation

6

Dokumentvektor: (1,1,0)Anfragevektor: (1,1,0)

Term 1Öl

Term 2Preis

Term 3Alaska

1

1

1

1

0

0

binär (Boolesches Modell)

Dokumentvektor: (4,8,0)Anfragevektor: (3,6,0)

4

3

8

6

0

0

Frequenz (Vektormodell)

© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 7: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

Boolesches Modell und VektormodellIllustration der Dokumentvektoren durch geometrische Interpretation

7

Term 1Öl

Term 2Preis

Term 3Alaska

1

2

1

4

0

0

binär (Boolesches Modell)

Frequenz (Vektormodell)

Öl

Preis

© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 8: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

Boolesches Modell und VektormodellVergleich

Boolesches Modell Vektormodell

D, Q Repräsentation Termvorkommen Termfrequenz

F Framework Boolesche Algebra Vektoralgebra

R Ranking – Berechnung der Ähnlichkeit zwischen Anfragevektor und Dokumentvektor

Wahrheitswert der konjunktiven Verknüpfung von D und Q

Ähnlichkeitsmaß für Vektoren D und Q

Ergebnis - Passt / passt nicht zur Anfrage- Menge

-Numerische Ähnlichkeitswerte- geordnete Liste

8© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 9: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

Inhalt

Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell

Ziele Dokument- und Anfrage-Repräsentation

Termgewichtungen: tf und idf Rankingfunktion

Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus

Bedeutung des Vektormodells

9© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 10: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

VektormodellZiele

Berücksichtigung partieller Übereinstimmung zwischen Anfragetermen und Dokumenttermen

durch nicht-binäre Werte für Termgewichtung Berechnung der Ähnlichkeit zwischen Anfragetermen und

Dokumenttermen Sortierung von Dokumenten nach Grad der Ähnlichkeit Präzisere Beantwortung der Anfrage als Boolesches Modell

10

(Baeza-Yates/Ribeiro-Neto, 1999,27)

© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 11: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

Inhalt

Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell

Ziele Dokument- und Anfrage-Repräsentation

Termgewichtungen: tf und idf Rankingfunktion

Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus

Bedeutung des Vektormodells

11© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 12: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

VektormodellDokument- und Query-Vektoren: Definition

wi,m Gewicht für des Terms i in Dokument m;positiv, nicht binär

wi,k Gewicht des Terms i in Query k

x Anzahl der Index-Terme im System

Dokument-Vektor

Query-Vektor

12

),...,,( ,,2,1 kxkkk wwwq ),...,,( ,,2,1 mxmmm wwwd

(Baeza-Yates/Ribeiro-Neto, 1999,27)

© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 13: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

VektormodellTermgewichtungen einfache Häufigkeit

berücksichtigt Dokumentlänge nicht ergibt keine normalisierten Termvektoren nur mit normalisierenden Ähnlichkeitsmaßen (z.B. Cosinus) sinnvoll

verwendbar tf: normalisierte Termfrequenz (Term-Frequenz)

berücksichtigt Dokumentlänge ergibt normalisierte Termvektoren

tf-idf-Gewichtung (Term-Frequenz–inverse Dokument-Frequenz) berücksichtigt die Häufigkeitsverteilung von Termen im Corpus Terme, die in vielen Dokumenten vorkommen

haben möglicherweise wenig Unterscheidungswert werden abgewertet

13© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 14: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

VektormodellTermgewichtungen: tf, idf

tf Termfrequenz-Faktor Bedeutung: relative Anzahl der Vorkommen von

Term ti in Dokument dm

Zweck: soll besagen, wie gut ein Term denInhalt eines Dokuments beschreibt

idf inverse Dokument-Frequenz Sinn: Terme, die in vielen Dokumenten vorkommen,

sind möglicherweise nicht nützlich zur Differenzierung relevanter und irrelevanter

Dokumente

Beispiel:

14

(Baeza-Yates/Ribeiro-Neto, 1999,29)

d2

ein Brot200150

5050

d1

und Bier100150

5050

bei ungewichteter Anfrage„ein, Brot. und, ein, Bier“würden hier die Vorkommenvon „ein“ und „und“ über dieÄhnlichkeit entscheiden

© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 15: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

inverse

Dokumentfrequenz

VektormodellTermgewichtungen: tf, idf

15

N Gesamtzahl der Dokumente im Systemti Indextermni Anzahl der Dokumente, in denen Term ti vorkommtfreqi,m Anzahl der Erwähnungen von Term ti in Dokument dm

maxl freql,m Frequenz des höchstfrequenten Terms in Dok. dm

tfi,m normalisierte Frequenz von Term ti in Dokument dm

idfi inverse Dokumentfrequenz von Term i

mll

mimi

mi

freq

freqtf

w

,

,,

,

max

imimi idftfw ,,i

in

Nidf log

Termgewichtung mitnormalisierte Termfrequenz

tf-Formel tf-idf-Formel

mit dieser Formel erhält man für alle Terme Gewichte mit den Werten 0 ≤ wi,m ≤ 1

© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 16: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

16

)1024

2048log,

16

2048log,

128

2048log( 222

)10.1,78.0,44.0(

)10

10,

10

8,

10

4(

mll

mimi

freq

freqf

,

,,

maxnormalisierte

Termfreq tf

ii

n

Nidf loginverse

Dokfreq idf

imimi

n

Nfw log,, tf-idf-

Gewichtg.

Termfreq

Gesamtzahl der Dokumente im System: N=2048Index-Terme: „Öl“ in 128 Dokumenten

„Mexiko“ in 16 Dokumenten„Raffinerie“ in 1024 Dokumenten

Beispiel-Dokument:

)2log,128log,16log( 222

4 8 10

0.4 0.8 1.0

4 7 1

1.6 5.6 1.0

Öl M. R.

© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 17: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

VektormodellTermgewichtungen – inverse Dokumentfrequenz

17

0 200 400 600 800 1000 1200

Raffinerie

.

.

Öl

.

.

Mexiko

Termgwicht

Dok.-FrequenzdesTerms

© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 18: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

VektormodellTermgewichtungen – Erläuterungen des Beispiels

Der signifikanteste Term für das Beispieldokument ist „Mexiko“, da „Mexiko“ außer im Beispieldokument nur in 15 weiteren Dokumenten vorkommt

Der am häufigsten im Beispieldokument vorkommende Term „Raffinerie“ ist weniger signifikant, da er in 50% der Dokumente vorkommt

18

(Kowalski, 1997, 105)

© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 19: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

Inhalt

Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell

Ziele, Definitionen Dokument- und Anfrage-Repräsentation

Termgewichtungen: tf und idf Rankingfunktion

Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus

Bedeutung des Vektormodells

19© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 20: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

VektormodellRankingfunktion

Berechnung der Ähnlichkeit zwischen Anfrage und Dokument nach einem Ähnlichkeitsmaß zwischen Vektoren

Am häufigsten verwendetes Ähnlichkeitsmaß:Cosinus des Winkels zwischen zwei Vektoren

Andere Ähnlichkeitsmaße Dice-Koeffizient, Jaccard-Koeffizient,

Overlap-Koeffizient Euklidische Distanz …

20© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 21: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

VektormodellRanking-Funktion: Cosinus-Formel

Berechnung der Ähnlichkeit zweier Vektorennach dem Cosinus des Winkels zwischen den beiden Vektoren

21

Winkel: Aussage über den Grad derGemeinsamkeit der Richtungder Vektoren(Richtung: ~ Thema im IR)

Cosinus: Aussage über einen Winkelmit Wertebereich von-1 bis +1(bei Vektoren mit positiven Zahlenvon 0 bis +1)

Cosinus besser geeignet für Ranking-Angabeals Winkel

a

b

a

Wertebereich -1 <= cos <= 1

© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 22: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

VektormodellRanking-Funktion: Cosinus-Formel

Ähnlichkeit von Dokument dm und Anfrage q

22

x

i qi

x

i mi

x

iqimi

m

mm

ww

ww

qd

qdqdsim

1

2

,1

2

,

1,,

||||),(

Anmerkung:der Operator steht grundsätzlich für die eindeutige positive Lösung x2 = a

2

© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 23: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

VektormodellCosinus-Formel: Berechnungsbeispiel

23

x

i qi

x

i mi

x

iqimi

m

ww

wwqdsim

1

2

,1

2

,

1,,

),(

1)00()28()14(

),(

021084222222

1

qdsim

1)00()26()13(

),(

021063222222

2

qdsim

t2 t3

431

862

000

d1

d2

q

t1

d1

q

d2

q

© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 24: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

Cosinus-Formel: Ableitung

24

cos|||| baba

||||cos

ba

ba

(1) Skalarprodukt geometrische Formel

(2) Skalarprodukt arithmetische Formel nnbabababa ...2211

(3) Umformung von (1)

(4) Einsetzen von (2) in (3)

x

i qi

x

i mi

x

iqimi

m

mm

ww

ww

qd

qdqdsim

1

2

,1

2

,

1,,

||||),(

ab

a

n

i i

n

i i

n

iii

ba

ba

1

2

1

2

1cos

© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 25: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

VektormodellEin Beispiel

25

Dokumentvektor1: (4,8,0)Dokumentvektor2: (3,6,0)Queryvektor: (1,2,0)

Term 1Öl

Term 2Preis

Term 3Alaska

4

3

1

8

6

2

0

0

0

(vgl. Kowalski, 1997,153)

© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 26: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

VektormodellKommentar zum Beispiel

Ähnlichkeitsmaß: Cosinus-Formel Wenn Dokument- und Query-Vektor völlig ohne Beziehung sind,

sind die Vektoren orthogonal und der Cosinus-Wert ist 0 Die Länge der Vektoren bleibt unberücksichtigt

Daher ist die Formel verschiedentlich weiterentwickelt worden

26

(Kowalski, 1997,153)

© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 27: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

Inhalt

Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell

Ziele, Definitionen Dokument- und Anfrage-Repräsentation

Termgewichtungen: tf und idf Rankingfunktion

Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus

Bedeutung des Vektormodells

27© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 28: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

VektormodellVorteile

Termgewichtungsschema verbessert Retrievalergebnisse Strategie der partiellen Übereinstimmung ermöglicht Retrieval

von Dokumenten, die der Retrievalanfrage nahe kommen Cosinus-Ranking-Funktion ermöglicht Sortierung nach Grad der

Ähnlichkeit

28

(Baeza-Yates/Ribeiro-Neto, 1999,30)

© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 29: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

VektormodellNachteile

Annahme der Unabhängigkeit der Index-Terme Fall 1: Ist in der Praxis ein Vorteil

Viele Abhängigkeiten sind lokal Lokale Eigenschaften würden Gesamtauswertung negativ

beeinflussen

Fall 2: Ist problematisch Beispiel: Dokument mit zwei Schwerpunkten:

„Öl in Mexiko“ und „Kohle in Pennsylvania“hohe Werte für Anfrage: „Kohle in Mexiko“

29

(Baeza-Yates/Ribeiro-Neto, 1999,30)

(Kowalski, 1997, 105)

© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 30: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

VektormodellBedeutung

Mindestens genauso gut wie andere Modelle Möglicherweise besser Einfach Schnell

30

(Baeza-Yates/Ribeiro-Neto, 1999,30)

© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 31: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

Vielen Dank

Für das Aufspüren von Fehlern in früheren Versionen und für Verbesserungsvorschläge danke ich

Christian Roth Anand Mishra

31

Versionen: 25.10.2012, 25.10.2009, 13.10.2008, 20.12.2006, 24.10.2006,20.10.2006,26.10.2001

© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 32: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

Literatur

Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Eds.) (1999): Modern Information Retrieval.Essex: Addison Wesley Longman Limited

Ferber, Reginald (2003) Information Retrieval. Suchmodelle und Data-Mining-Verfahren für

Textsammlungen und das Web. Heidelberg: dpunkt-Verlag. http://information-retrieval.de/irb/ir.html

frühere Fassung (1998): Data Mining und Information Retrieval. Skript zur Vorlesung an der TH Darmstadt WS 1998/99

Kowalski, Gerald (1997): Information Retrieval Systems: Theory and Implementation. Kluwer Academic Publishers: Boston/Dordrecht/London.

Robertson, S.E.; Sparck Jones, Karen (1976): Relevance Weighting of Search Terms. In: Journal of the American Society for Information Science. May-June, 129-146

32© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Page 33: 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

Copyright

© Karin Haenelt, 2006All rights reserved. The German Urheberrecht (esp. § 2, § 13, § 63 , etc.). shall be applied to these slides. In accordance with these laws these slides are a publication which may be quoted and used for non-commercial purposes, if the bibliographic data is included as described below. Please quote correctly.

If you use the presentation or parts of it for educational and scientific purposes, please include the bibliographic data (author, title, date, page, URL) in your publication (book, paper, course slides, etc.).

please add a bibliographic reference to copies and quotations Deletion or omission of the footer (with name, data and copyright sign) is not permitted

if slides are copied Bibliographic data. Karin Haenelt. Information Retrieval Modelle. Vektormodell.

Kursfolien. 25.10.2009 (1 26.10.2001) http://kontext.fraunhofer.de/haenelt/kurs/folien/Haenelt_IR_Modelle_Vektor.pdf

graphics, texts or other objects which have not been created by me are marked as quotations

For commercial use: In case you are interested in commercial use please contact the author.

Court of Jurisdiction is Darmstadt, Germany

33© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012