Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf ·...

49
Information Retrieval Sommersemester 2009 Vorlesungen 3-4 Uwe Quasthoff Universität Leipzig Institut für Informatik [email protected]

Transcript of Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf ·...

Page 1: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

Information Retrieval

Sommersemester 2009 Vorlesungen 3-4

Uwe Quasthoff

Universität LeipzigInstitut für Informatik

[email protected]

Page 2: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 2

Das vector space model (vsm) von Salton• Seit Anfang der 60er Jahre von Salton et al. in Harvard/Cornell entwickelt.

• Implementierung als System Smart, mittlerweile Version 11

• Basisidee: Modellierung von Dokumenten wie Anfragen durch einen n-dimensionalen Vektorraum bei n unterschiedlichen Termen in der Indexierungssprache

• eignet sich durch direkten Interpretation von Anfragen in natürlicher Sprache, daher ein weites Einsatzgebiet (IR, automatische Klassifikation information filtering, routing etc.)

• Durch die Homomorphie von Anfrage- und Dokumentrepräsentation eignen sich z.B. auch Dokumentrepräsentationen als Anfragen (um z.B. "ähnliche Dokument zu finden oder relevance

Page 3: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 3

Formale Eigenschaften des vsm Repräsentation von Dokumenten und Anfragen als Vektor:

Einfachste Annahme: Binäre Kodierung (0,1) der Terme in den Vektoren, ohne weitere Termgewichtung (wie im Booleschen Modell).

Bei Termgewichtung: Dokumentrepräsentation durch Summierung über dem Produkt aus Termwert und Termvektor:

D a a a

Q q q q

i i i it

j j j jt

=

=

( , ,....., )

( , ,....., )

1 2

1 2

bzw.

∑=

=t

iirir TaD

1

Page 4: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 4

Bildliche Darstellung im zweidimensionalen Vektorraum

Die Berechnung der Ähnlichkeit zwischen Dokumenten und Anfragen kann im einfachsten Fall durch Skalarprodukt aus Gewichten und Vektoren in Anfrage und Dokumenten erfolgen:

sim D Q a q T Tr s ri si i ji j

t

( ),

∗ ==

∑1

T1

T2

Dr

T1 * Dr

T2 * Dr

ar1 * T1ar2 * T2

Page 5: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 5

Termkorrelation

Dabei besteht das Problem, daß man „an sich“ Kenntnis über Term-Term-Korrelationen (TiTj) benötigt!

Folge: (Unzulässige?) Vereinfachung des Modells – man nimmt der Einfachheit halber einen orthogonalen Vektorraum an, für den gilt:

Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen des Vektorraums) angenommen wird, eine Annahme die der Realität mit Sicherheit nicht entspricht. Eine Reihe von Modellen, die auf dem einfachen Vektorraummodell aufsetzen, versuchen diesen Nachteil zu beheben, ohne aber Term-Term-Korrelationen vollständig ausrechnen zu müssen. Dabei wird z.B. die Zahl der Dimensionen des Vektorraums, für die Korrelationen errechnet werden, deutlich reduziert.

T T falls i j

T T falls i ji j

i j

= ≠

= =

0

1

,

,

Page 6: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 6

Ohne Termkorrelation

Skalarprodukt der Vektoren als Ähnlichkeitsmaß für den Vergleich von Anfrage und Dokument bzw. Dokument und Dokument:

1. Dokument-Anfrage-Vergleich

2. Dokument-Dokument-Vergleich

sim D Q a qr s ri sii j

t

( ),

∗ ==

∑1

sim D D a ar s ri sii j

t

( ),

∗ ==

∑1

Page 7: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 7

Beispielrechnung im Vektorraum-modell ohne KorrelationTermmenge = {T1, T2, T3}

Dokumente (mit Termgewichten):

D1 = 2T1 + 3T2 + 5T3

D2 = 3T1 + 7T2 + 1T3

Anfrage:

Q = 0T1 + 0T2 + 2T3

Ähnlichkeitsberechnung (Skalarprodukt) ohne Term-Term-Korrelation:

sim(D1, Q) = 2× 0 + 3× 0 + 5× 2 = 10

sim(D2, Q) = 3× 0 + 7× 0 + 1× 2 = 2

Page 8: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 8

Beispielrechnung im Vektorraum-modell mit KorrelationZusatzinformation Term-Termkorrelation:

Zusätzlich zur Berechnung der Termgewichte in Anfrage und Dokument werden deren Produkte mit der jeweiligen Term-Term-Korrelation multipliziert, d.h.:

T1 T2 T3 T1 1 0.5 0 T2 0.5 1 -0.2 T3 0 -0.2 1

sim(D1, Q) = (2T1 + 3T2 + 5T3) (2T3) = 4 T1 T3 + 6 T2 T3 + 10 T3 T3 = -6×0.2 + 10×1 = 8.8 sim(D2, Q) = (3T1 + 7T2 + 1T3) (2T3) = 6 T1 T3 + 14T2 T3 + 2 T3 T3 = -14×0.2 + 2×1 = -0.8

Page 9: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 9

Diskussion des vsm: Vorteile• einfaches Modell, sehr anschaulich

• gleiche Repräsentation für Anfragen und Dokumente

• gute Retrievalergebnisse (z.B. deutlich besser als Boolesches Retrieval)

• benutzerfreundlich, da natürlichsprachliche Texte direkt als Anfrage verwendet werden können; damit ist auch die Ähnlichkeitssuche für Dokumente (routing, filtering) einfach zu implementieren

• Retrievalergebnisse mit Ranking, d.h. kein binäre, sondern nach Qualität geordnete Ausgabe der Trefferdokumente

• Erweiterbarkeit durch Relevance Feedback (s.u.)

Page 10: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 10

Diskussion des vsm: Nachteile• unzulässige Vereinfachung des Modells durch Annahme orthogonaler Vektoren

• viele heuristische Komponenten, d.h. im einzelnen läßt sich für die Einführung von Parametern und Koeffizienten keine theoretische Begründung angeben; sie sind vielmehr empirisch und in Abhängigkeit von Dokumentenkollektion, Systemzweck, Anfragetypen etc. motiviert.

• Funktionsweise für den Benutzer nicht unmittelbar einsichtig, insofern, als es nicht immer verständlich erscheint, wenn die Treffermenge Dokumente enthält, die Terme aus der Anfrage nicht enthalten

• Die formale Mächtigkeit der Anfragesprache ist an sich geringer als beim Booleschen Retrieval

Page 11: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 11

Optimierung durch Relevance Feedback

Idee:

• IR als zyklischer, iterativer Prozeß

• Auswertung von Suchergebnissen zur Modifikation der Anfrage

Ziel:

• Schrittweise Optimierung der Suche

Page 12: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 12

Schem

a des Feedbacks

Page 13: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 13

Experimentelle Ergebnisse zum Relevance Feedback

Experimentelle Ergebnisse zum Relevance Feedback zeigen, dass

• damit eine erhebliche Verbesserung der Retrievaleffektivität zu erreichen ist, wobei die Verwendung von gewichteten (statt binärer) Terme die Leistung ebenfalls erheblich steigert

• eine direkte Queryerweiterung (query expansion) um positive bei Anrechnung nur des schlechtesten negativen Terms am leistungsfähigsten ist,

• die volle Erweiterung gegenüber einer selektiven um die gebräuchlichsten Terme nur wenig zusätzliche Effektivität bewirkt und

• bei oben dargestelltem Verfahren die Parameterwahl bei α = 0,75, β = 0,25 liegen sollte.

Q Q D Di i iD R

iD Ni i

( ) ( )+∈ ′ ∈ ′

= + −∑ ∑1 α β

Page 14: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 14

Generalisierung des vsm nach Wong & Raghavan Beseitigung der wesentlichen Nachteile durch Einführung von orthogonalen

Konzepten (statt der einfachen Indexierungsterme), so daß folgendes gilt:

• Jedes Konzept entspricht der maximalen Teilmenge der Dokumentenmenge, die das Konzept enthalten

• Zwei Konzepte sind untereinander nicht verwandt (unrelated), wenn ihre entsprechenden Dokumententeilmengen eine leere Schnittmenge aufweisen

• Je größer die Schnittmenge zwischen zwei Dokumententeilmengen, um so größer die Verwandtschaft zwischen zwei Konzepten.

Die aus den Indexierungstermen abgeleiteten Konzepte werden anschließend als Basisvektoren des Vektorraums verwandt und heben formal die Nachteil der unzulässig angenommenen Orthogonalität im einfachen vsm auf.

Empirische Untersuchungen zeigen, dass das gvsm effektiver arbeitet als das einfache vsm, hat aber den Nachteil, dass die Berechnung der Konzepte sehr aufwendig ist (vgl. Wong et al. (1987)).

Page 15: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 15

Ranking-Verfahren: BestandteileDie Verwendung von Termgewichten, die aus der Termverteilung in der Dokumentkollektion

errechnet werden, erhöht die Effektivität der Recherche (bzw. verschlechtert sie nie).

Mögliche Parameter für ein auf dem VSM basierendes Ranking-Verfahren:

1. Termfrequenz: tfij = Frequenz von Term i in Dokument j

2. Inverse Dokumentenfrequenz: N = Gesamtanzahl der Dokumente in der Kollektionni = Anzahl der Dokumente mit Term i

3. DOCFREQ (within document frequency): Wie häufig ist Term i hier verglichen mit anderen Dokumenten, die i enthalten bzw. Verglichen mit der Dokumentlänge? Verschiedene Normierungsmöglichkeiten. Probleme treten auf bei sehr heterogenen Kollektionen, in denen auch kurze Dokumente auftreten (z.B. nur Titel). Folgende Berechnungsverfahren für DOCFREQ bieten sich an und sind gut erprobt (0<K<1):

1log2 +=i

i n

Nidf

2

2

log ( 1)(1 ) oder

log

mit Frequenz von Term in Dokument

ij ijij ij

j j

ij

freq freqcfreq K K nfreq

maxfreq length

freq i j

+= + − =

=

Page 16: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 16

Auswahl eines Ranking-Verfahren

1. Standard-Kombination: Termgewicht für Term i in Dokument j:tfij * idfi

2. Zusätzliche fakultative Faktoren: cfreqij, nfreqij

3. Weitere Modifikationen: Nur binäre Gewichtung für kurze Dokumente; nur DOCFREQ zur Errechnung von wiq bei langen Anfragen mit mehrfachem

Auftreten eines Suchterms.

4. Verwendung von spezifischen Gewichten für Strukturinformation (Titel, Überschrift etc.); benutzergesteuerte Gewichtung der Anfrageterme hat sich als wenig nützlich erwiesen.

Relevance Feedback kann einen hohen Effektivitätsgewinn bringen.

Page 17: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 17

Implementierung eines Ranking-Verfahrens Datenstrukturen und Algorithmen für Rankingverfahren beziehen sich auf zwei

komplementäre Verfahren: • Aufbau des Index (invertierte Datei)• Suche im Index (Retrieval durch den Benutzer) und Ausgabe von Dokumenten

bzw. Dokumenten-Ids.

Aufbau der invertierten Datei:Die Indexierung kann großzügig verfahren (kleine Stoppwortliste, Alternativen bei

Bindestrichen etc.)Die Mindestinformation, die im invertierten Datei vorhanden sein muss, ist die

Zuordnung von Termen und Dokumenten sowie Frequenzinformation. In Abhängigkeit von der Häufigkeit von Updates und dem Umfang der Kollektion bietet es sich an, die Gewichtungsparameter mit in der invertierten Datei abzulegen. Damit wird es natürlich um so schwieriger, das Gewichtungsverfahren zu modifizieren.

Page 18: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 18

Postings-Datei

Zusätzlich ist es in der Regel sinnvoll, die invertierte Datei in ein Lexikon, das pro Term nur einen Eintrag aufweist, und einzelne Postings-Dateien aufzusplitten, die für jeden Term, die Dokumente, in denen der Term auftritt auflistet und seine Frequenz angibt.

Für die Frequenzinformation in den Postings-Dateien bieten sich folgende Alternativen an:

• Nur absolute Frequenzen; sehr flexibel, Gewichtung muss aber während der Suche berechnet werden

• Speichern einer normalisierten Frequenz

• Abspeichern des abschließenden berechneten Termgewichts; sehr schnell (Suche) aber aufwendige Updates, da alle Postings-Dateien modifiziert werden müssen (IDF).

• Keine Frequenzinformation (within document frequency) abspeichern.

Page 19: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 19

Suche in der invertierten Datei1. Anfrage parsen2. Grundformenreduktion und Eliminierung von Stoppwörtern3. Binärsuche im Lexikon für die Suchterme4. Auswerten der Posting-Dateien für die Terme; jedes Dokument,

das dabei gefunden wird, bekommt einen Speicherplatz (Akkumulator), in dem die Gewichte aufaddiert werden. Bei diesem Schritt hängt die Berechnung davon ab, wieviel Information in der invertierten Datei abgelegt wurde. Sukzessive werden die für jeden weiteren Anfrageterm gefundenen Gewichte in den Akkumulatoren für die einzelnen Dokumente aufaddiert.

5. Abschließend werden die Dokumente nach ihrem "Endgewicht" sortiert und ausgegeben.

Page 20: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 20

Automatische DokumentenklassifikationZiel, die Menge der Dokumente in Teilmengen aufzuteilen, deren Elemente jeweils

eine möglichst große Ähnlichkeit aufweisen. Dies kann dazu benützt werden um• das Retrievalverfahren zu vereinfachen, da ausgehend von einer Anfrage jeweils

nur noch Teilbereiche des Dokumentraums mit der Anfrage verglichen werden müssen

• Browsing-Operationen zu unterstützen, da der Benutzer ausgehend von einem in der Ergebnismenge befindlichen und als relevant erachteten Dokument sich die jeweils „nächsten Nachbarn“ betrachten kann, d.h. die Dokumente die im gleichen Cluster sind.

Das Vektormodell erlaubt wie erläutert auch den Vergleich von Dokumenten

untereinander. Über die Bestimmung ihrer Ähnlichkeit lässt sich daher auch die Dokumentenkollektion a priori strukturieren und so dem Browsing in ähnlichen Dokumenten zugänglich machen.

Page 21: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 21

Clustering-Methoden Man unterscheidet nach der Art des eingesetzten Verfahrens• hierarchische und • heuristische Clustering-Methoden.

Beim Aufbau der Cluster unterscheidet man zusätzlich danach, ob• zunächst die gesamte Dokumentenmenge in Teilmengen zerlegt wird und

anschließend rekursiv immer kleinere Teilmengen entstehen (divisive clustering), oder ob

• ausgehend von den einzelnen Dokumenten diese mit allen anderen verglichen werden und die Cluster bottom-up entstehen (agglomerative clustering).

Das Ergebnis eines Clustering kann (je nach Algorithmus) von der Reihenfolge der bearbeiteten Dokument abhängen.

Page 22: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 22

HACM: hierarchical agglomerative clustering methods Verfahren:

1. Identifiziere die zwei ähnlichsten Kandidaten und kombiniere

sie zu einem Cluster2. Identifiziere die die nächsten ähnlichsten zwei Kandidaten,

wobei schon gebildete Cluster als gleichberechtigte Kandidaten verwendet werden.

3. Wenn mehr als ein Cluster übrigbleibt, gehe zu Schritt 1.

Es entsteht eine Ähnlichkeitshierarchie aus hypothetischen Dokumentenzentroiden und Superzentroiden.

Page 23: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 23

HACM

xx

x

xx

xx

x x

x

xx

x

x Dokumente

Hyperzentroid

Superzentroide

Dokumentzentroide

Page 24: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 24

Hierarchische Clusteringverfahren

Beim hierarchischen Clustering unterscheidet man im wesentlichen drei Verfahren:

• single-link clustering Bei jedem Clusterschritt werden die beiden ähnlichsten Kandidaten verschmolzen.

• complete-link clustering: Verwendung der beiden am wenigsten ähnlichen Kandidaten aus zwei Clustern, um deren Ähnlichkeit zu ermitteln; alle Einheiten in einem Cluster sind untereinander durch eine Mindestähnlichkeit verbunden

• group-average clustering Durchschnittswerte paarweiser Verbindungen in einem Cluster als Ähnlichkeitsmaß; gute Evaluierungsergebnisse.

• Ward's Methode: Erweitern eines Clusters um den Kandidaten, der die mittlere Varianz (Fehlerquadratsumme) des bisherigen Clusters am wenigsten erhöht.

Page 25: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 25

Heuristisches Clustering

Clustering in einem Durchgang möglich, daher effizient, aber nicht invariant bzgl. der Reihenfolge. Allgemeines Verfahren:

1. Erstes Dokument D1 kommt in einen ersten Cluster C1.

2. Berechne Ähnlichkeit des iten Dokuments für alle Cluster.3. Füge das Dokument zu dem Cluster hinzu, zu dem es (jenseits

eines Schwellenwertes für die Mindestähnlichkeit) die größte Ähnlichkeit aufweist, sonst bilde neuen Cluster. Berechne ggfs. den für den Cluster repräsentativen Vektor neu.

4. Verbleiben noch Dokumente, gehe zu Schritt 2.5. Optionale: Heuristik für Aufteilen von Clustern bei Erreichen

einer bestimmten Größe.

Page 26: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 26

Probabilistische Modelle

Grundannahmen• Unsicherheit der Suche (inexact match vs. exact match)• Relevanz gefundener Dokumente als Bewertungskriterium• probability ranking principle im IR (Robertson & Sparck Jones 1976:140ff, Robertson

1977):

[...] the best rank ordering of a set of documents for presentation to the user is that in which the documents most likely to be relevant are nearest to the top. We are then faced with the question: what information can we use and how can we use it to assess the probability of relevance of any given document? (Robertson & Sparck Jones 1976:140).

• Bei Operationalisierung des probabilistischen Retrieval gilt die Annahme, dass sich die Verteilung der Indexierungsterme über relevante und nicht-relevante Dokument unterscheidet; dies erst macht die Umsetzung als probabilistisches Indexieren möglich

• Üblicherweise ist eine Dokumentenbeschreibung durch (binäre oder gewichtete) Vektoren vorausgesetzt.

Page 27: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 27

Wdhlg: Nachteile des vector space model

• Fälschliche Annahme orthogonaler Termvektoren

• große Zahl heuristischer Parameter

• zahlreiche unterschiedlicher Maße ohne ausreichende Begründung im Rahmen des Modells

Page 28: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 28

Zwei typische Ansätze des probablistischen IR1. Relevanzbezogener subjektiver Ansatz („klassisch“): subjektive Einschätzungen

des Benutzers über die Dokumentenqualität bezüglich seiner Anfrage dienen als Ausgangspunkt der Bestimmung von (Relevanz-)Wahrscheinlichkeiten für Dokumente bzw. deren Indexierungsterme (hier im Folgenden diskutiert)

2. Information Retrieval als uncertain inference (jüngere Entwicklung, logik-basiert, cf. VAN RIJSBERGEN 1986): IR als Generalisierung deduktiver Datenbanken, wo jede Anfrage logisch mit Hilfe des Datenbankinhalts bewiesen werden muß, d.h. der Datenbankinhalt wird als Menge logischer Formeln interpretiert, mit deren Hilfe der „Wahrheitswert“ der Anfrage bewiesen werden soll, d.h. die Inferenz ist zu überprüfen (Praktische Anwendung: Inferenznetzwerke, cf. Croft & Turtle 1990)

Page 29: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 29

Folgerungen für das relevanzbezogene Modell Die Wahrscheinlichkeit, daß ein Dokument bezüglich einer bestimmten Anfrage

relevant ist, ist der zentrale Begriff im probabilistischen Retrieval.

Für den praktischen Retrievalprozess ist daher ein Lernprozess erforderlich, bei dem z.B. an einem aus der Dokumentenkollektion ausgewählten learning sample oder iterativ durch Relevanzbewertungen der Benutzer Schätzungen für die bedingten Wahrscheinlichkeit der Relevanz von Dokumenten (bzw. ihrer Indexierungsterme) bezüglich bestimmter Anfragen ermittelt werden können. Konkret kann sich durch jeden Retrievalzyklus (Anfrage Ergebnis Bewertung Überarbeitung der Anfrage, relevance feedback) die Retrievalfunktion ändern (information retrieval as an sequential learning process, cf. Bookstein 1983, bes. 338f).

Page 30: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 30

Das binary independence model (BIR) Ableitung einer einfachen probabilistischen Retrievalfunktion (Salton 1989:343ff):

Ausgangsgrößen:Wahrscheinlichkeit, dass ein Dokument relevant ist: P(rel)Wahrscheinlichkeit, dass ein Dokument nicht relevant ist: P(nrel)Unter der Voraussetzung, dass Relevanz bzw. Nichtrelevanz zwei sich wechselseitig

ausschließende Ereignisse sind, gilt:P(rel) = 1 - P(nrel)

Zusätzlich kann man Kostenfaktoren für das Auffinden nicht-relevanter Dokumente (c1) bzw. das Nichtauffinden relevanter Dokumente (c2) einführen, so dass sich aus der Forderung

die folgende Retrievalfunktion g ergibt:1 1

2 2

( ) ( )

( ) 1 ( )

P rel c P rel cg

P nrel c P rel c= − = −

)()( 12 nrelPcrelPc ≥

Page 31: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 31

Die Retrieval-Funktion für ein DokumentDer Einfachheit halber sei ab jetzt immer c1=c2. Wir betrachten für ein Dokument x die

Werte P(rel|x) bzw. P(nrel|x). Nach Bayes gilt

Wenn wir die Retrieval-Funktion maximieren wollen, müssen wir also folgende Ausdrücke maximieren:

bzw.

( ) ( ) ( )( )Pr

Pr Pr

PrA B

A B A

Bi

i i=

( ) ( )( )

( )( ) 1−•=nrelP

relP

nrelxP

relxPxg

( ) ( )( )

( )( )nrelP

relP

nrelxP

relxPxg logloglog +=

Page 32: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 32

Für unabhängige Terme:

Nimmt man der Einfachheit halber an, dass die Terme unabhängig voneinander auftreten, so gelangt man zu einer probabilistischen Reformulierung des vector space models:

und obige Retrievalfunktion g(x) lässt sich durch Bezug auf die Indexterme konkretisieren:

( ) ( )∏=

=t

ii relxPrelxP

1

( ) ( )( ) Konstantenlog

1

+= ∑=

t

i i

i

nrelxP

relxPxg

Page 33: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 33

Weitere VereinfachungenWir berücksichtigen nur Terme, die in der Anfrage Qk vorkommen. D.h. wir nehmen an, dass

die Termwahrscheinlichkeiten (rel/nrel) für Terme, die nicht im Dokument enthalten sind, gleich und daher vernachlässigbar sind.

Wir setzen

Das sich so ergebende Retrievalmaß heißt retrieval status value (RSV) eines Dokumentes:

( ) ( ),,1P ,,1 kiikkiik qnrelxqprelxPp ====

( )( )∑

∩∈ −−==

Tk

Tmi qdt ikik

ikikikik pq

qpcc

11

logmitRSV

Page 34: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 34

Die fehlenden WahrscheinlichkeitenEin wesentliches Problem verbleibt: Die tatsächlichen Wahrscheinlichkeiten P(xi|rel), die ja für eine

Dokumentenkollektion D und die bezüglich ihr möglichen Anfragen Q nicht ermittelbar sind, müssen geschätzt werden. Dazu benutzen wir wieder ein relevance feedback-Verfahren.

Beispiel: Es sei

f = die Zahl gefundener Dokumenter = die Zahl gefundener relevanter Dokumentefi = die Zahl gefundener Dokumente, die ti enthalten

ri = die Zahl gefundener relevanter Dokumente, die ti enthalten

Dann soll als einfache Schätzung gelten:

( ) ( )rfrfqrrp iiiii −−≈≈ und

Page 35: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 35

Relevance feedback im Beispiel

Das Beispiel bezieht sich auf eine Dokumentenkollektion aus 20 Dokumenten und eine Anfrage mit zwei Termen. Die Tabelle zeigt die Relevanzbeurteilungen:

(r: relevant, n: nicht relevant)

Im Beispiel sind dann: Die Relevanzwahrscheinlichkeiten:

p1 = 8/12, q1 = 5/8, p2 = 7/12, q2 = 4/8

Querytermgewicht c1 = ln 10/3 = 1.2

Querytermgewicht c2 = ln 7/5 = 0.33

di 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

x1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0

x2 1 1 1 1 1 0 0 0 0 0 0 1 1 1 1 1 1 0 0 0

r(q, di) r r r r n r r r r n n r r r n n n r n n

Vektor tatsächlich BIR-Modell

(1,1) 0.8 (4/5) 0.76

(1,0) 0.67 (4/6) 0.67

(0,1) 0.5 (3/6) 0.5

(0,0) 0.33 (1/3) 0.33

Page 36: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 36

Repräsentation und Indexierung von DokumentenWie erfolgt die Dokumentenbeschreibung?

Grundsätzlich ergeben sich folgende Unterscheidungen:

• Bezug der Erschließung:Formale Erfassung vs. Inhaltliche Erschließung; nachfolgend ist v.a. die inhaltliche Erschließung von Bedeutung

• Art der Repräsentation:(Einzelterme, Thesaurus, Mehrwortbegriffe, Phrasen, Art des Indexierungsvokabulars, kontrolliertes Vokabular)

• Umfang der Indexierung:d.h. die Frage, was indexiert wird: Das Gesamtdokument (Volltext) oder von vorneherein nur ein Dokumentensurrogat (Abstract)

• Durchführung der Indexierung:Intellektuell, automatisch oder als Mischform

Page 37: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 37

Repräsentationsverfahren zur dokumentarischen Erschließung von Texten

Traditionelle Möglichkeiten der inhaltlichen Erschließung

• Sachtitelaufnahme

• Annotation

• Abstract

• "freies Indexieren" durch Schlagwörter bzw. Sachwörter (Schlagwortvergabe, evtl. mit Klassifikation der Schlagworte)

• gebundenes Indexieren, d.h. Indexieren unter Zuhilfenahme eines Ordnungssystems (s.u.)

Page 38: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 38

Deskriptorenauswahl

Ziel: Begriffsbildung und terminologische Kontrolle

Schwierigkeiten:

• Welche Wörter dürfen verwendet werden?

• Wie verwende ich die Wörter „richtig“, z.B. bei Mehrdeutigkeiten?

Page 39: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 39

Homonyme

Echte Homonyme (Titan, Tenor, Stift, Kanton, Rentier, diskret)

Ursprünglich verwandte Begriffe: Heide, Kapelle, Schloss, Luxemburg

Wörtliche/übertragene Bedeutung: auspacken, verzetteln

Einfluss der Fachterminologie: Masse, Term, Anker

Unspezifische Bedeutung, die nur durch Kontext zu erschließen ist: Anlage, System

Problem: unterschiedliche Verwendung bei Indexierung und Recherche

Page 40: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 40

Synonyme

Vollsynonyme:

Kochsalz-Natriumchlorid, Trafo-Transformator, Appendizitis-Blinddarmentzündung, allg. Akronym-Vollbenennung

Quasisynonyme (gleicher Bezug, aber andere Deutung/Wertung):

Pferd-Gaul, PKW-Auto, Militär-Kommiss-Barras

Teilsynonyme (Übereinstimmung in wesentlichen Teilbereichen)

Ei-Hühnerei, Holland-Niederlande, Rad-Fahrrad.

Hier können unterschiedliche semantische Relationen zum Ausdruck kommen.

Sprachliche Varianz, die das Auffinden relevanter Dokumente erschwert

Page 41: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 41

Lösungsansätze für Homonyme und SynonymeLösungsansätze bei Homonymen:

• Thematische Begrenzung (Homonyme)

• Ausarbeiten hierarchischer Strukturen (Homonyme)

• Systematische Anordnung (Homonyme)

Lösungsansätze bei Synonymen:

• Auffinden aller Synonyme bei der Suche

• Gebundenes Indexieren (mit allen Konsequenzen für die Recherche)

• Anbieten von Synonymbrücken

• Äquivalenzklassen

Page 42: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 42

Beispiel: Äquivalenzklasse

Äquivalenzklasse: Araberpferd, Berberpferd, Brauner, Falbem Fohlen, Fuchs, Füllen, Gaul, Haflinger, Hannoveranerpferd, Hengst, Holsteinerpferd, Islandpony, Jährling, Kaltblut, Klepper, Lippizzaner, Mähre, Oldenburgerpferd, Pony, Pferd, Rappe, Remonte, Roß, Schecke, Schimmel, Shetlandpony, Stute, Trakehner, Vollblut, Wallach

Vorzugsbenennung: Pferd

Page 43: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 43

Klassifikationen als OrdnungsprinzipTypen von Klassifikationen• Klassifikation/Begriffshierarchien

• Register

• Facettenklassifikation

• Begriffskombination

Eigenschaften von Klassifikationen• Polyhierarchie vs. Monohierachie

• Monodimensionalität vs. Polydimensionalität

• Klassifikation mit/ohne Überlagerung (disjunkte/nicht-disjunkte Teilmengen)

• top-down vs. bottom-up Klassifikation

• bottom-up Facettenklassifikation: disjunkte Facettenmenge mit monodimensionaler Unterteilung

• Zahl der Klassen (Übersichtlichkeit vs. Indexierungsgenauigkeit)

Page 44: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 44

Begriffshierarchien

Semantische Relationen:

• Allbegriff

• Überordnung (broader term)

• Unterordnung (narrower term)

• Gleichordnung (related term)

Beim Durchwandern der Hierarchie ergeben sich absteigende bzw. aufsteigende Begriffsketten; die einzelnen Begriffe stehen jeweils auf einem bestimmten Begriffsniveau (Ebene in der Hierarchie).

Durch 1:n-Ornung von Ober- und Unterbegriffen entsteht eine Mono- durch n:m-Zuordnung eine Polyhierarchie; eine Polyhierarchie kann u.U. in eine Monohierarchie überführt werden.

Page 45: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 45

Beispiele von Klassifikationssystemen 1 Dezimalklassifikation nach Dewey

Auszug:

3 Sozialwissenschaften, Recht, Verwaltung

33 Volkswirtschaftslehre

336 Finanzen

3367 Geldwesen

33676 Börsenwesen

336763 Wertpapiere

3367633 Obligationen

33676331 Allgemeines

336763311 Verzinsliche Schuldpapiere

3367633111 Langfristig Verzinsliche Schuldpapiere

Page 46: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 46

Beispiele von Klassifikationssystemen 2 • Computing Reviews Classificationclassification codes : dreistufige monohierachische Klassifikation

Beispiel:

H Informationssysteme

H.3 Information Storage & Retrieval

H 3.1 Content Analysis and Indexing

• ICD-10Klassifikation der Krankheiten (seit 1853): Internationale statistische Klassifikation

der Krankheiten und verwandter Gesundheitsprobleme, 10. Revision (1994), in Deutschland betreut von Deutschen Institut für Medizinische Dokumentation und Information (DIMDI)

Page 47: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 47

Facettenklassifikation Problem: Zuordnung einer Dokumentationseinheit zu genau einer Klasse.

Facettenklassifikation schafft systematisch die Möglichkeit, eine Dokumentation unter mehreren Gesichtspunkte durchzuführen, d.h. es wird ein Ordnungssystem entwickelt, das eine Reihe von (Einzel-)Klassifikationen enthält, nach denen die Dokumentationseinheiten zu indexieren sind. Die Verknüpfung der Zuordnungen zu den Teilklassifikationen ergibt eine detaillierte Gesamtnotation. Deren Anzahl berechnet sich aus dem Produkt der Anzahl der Klassen in den Einzelfacetten.

Beispiel: 5 Facetten:

Resultierende Anzahl: 10 × 40 × 20 × 50 × 10 = 4.000.000 Notationen

Facette Anzahl Klassen1 102 403 204 505 10

Page 48: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 48

Register

Register: klassisches Beispiel einer invertierten Datei (Buchregister)

Eigenschaften:

• Ordnungskriterium (Sortierreihenfolge)

• Anzahl der Niveaus (hierarchisch/einfach)

• Einzel- oder Mehrfachregister (z.B. Orts-, Namens-, Sachregister)

• Auswahl der Begriffe (freies oder gebundenes Indexieren)

Page 49: Sommersemester 2009 Vorlesungen 3-4asv.informatik.uni-leipzig.de/document/file_link/92/IR3-4.pdf · Das bedeutet, daß eine völlige Unabhängigkeit der Terme (d.h. der Dimensionen

U. Quasthoff Information Retrieval 49

Begriffskombination

Vergabe mehrerer Schlagwörter zu einer Dokumentationseinheit ohne die Notwendigkeit der Zuordnung zu disjunkten Klassen. Auf diesem Prinzip baut die automatische Indexierung wie auch die intellektuelle Beschlagwortung für IR-Systeme auf. Durch die logische Verknüpfung der Einzelbegriffe (oder die Verwendung von Termgewichten) können über Begriffskombinationen Teilmengen der Dokumentenkollektion zu einer Anfrage selektiert werden.

Bei D unterschiedlichen Deskriptoren und d Deskriptoren, die einer Dokumentationseinheit zuzuordnen sind, ergeben sich

unterschiedliche Kombinationen der Beschlagwortung für ein Dokument.

)!(!

!

dDd

D

d

D

−=