G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/...

29
G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren der Datenverarbeitung Wissen Semantisch begründete Verfahren der Wissensrepräsentation Information Pragmatisch kontrollierte Informationserarbeitung zur informationellen Handlungsabsicherung ("Information ist Wissen in Aktion", im Unterschied zur nachrichtentechnischen Orientierung des Shannonschen

Transcript of G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/...

Page 1: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 20011

INFORMATION RETRIEVAL (IR)Begriffsbildung für Daten/ Wissen/ Information

Daten Syntaktisch definierte Verfahren der Datenverarbeitung

Wissen Semantisch begründete Verfahren der

WissensrepräsentationInformation Pragmatisch kontrollierte

Informationserarbeitung zur informationellen Handlungsabsicherung ("Information ist Wissen in Aktion", im Unterschied zur nachrichtentechnischen Orientierung des Shannonschen Informationsbegriffs)

Page 2: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 20012

Grundprinzip des IR:Gegeben: Informationsbedürfnisse und Informationssammlungen (irgendeiner Art)

Ziel des IR: geeignete Abbildungsfunktion, die zu beliebigen Informationsbedürfnissen eine passende Auswahl in der Informationsmenge vornimmt.

Dabei spielen unter anderem eine Rolle: Formulierungsprozeß für Informationsbedürfnisse durch

den Benutzer oder automatisch durch das System (automatic query formulation)

Abbildung des Informationsbedürfnisses auf eine interne Repräsentation

Abbildung der Dokumente auf eine interne Repräsentation (z.B. invertierte Datei)

Ähnlichkeitsfunktion für die internen Repräsentationen von Dokumenten und Anfragen (Indexierungssprache)

Page 3: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 20013

Definitionen (1)Information Retrieval (IR) is concerned with the representation, storage, organization, and accessing of information items. In principle, no restriction is placed on the type of item handled in information retrieval. In actuality, many of the items found in ordinary retrieval systems are characterized by an emphasis on narrative information.

(Salton & McGill 1983:1f.).

Information retrieval is concerned with the processes involved in the representation, storage, searching and finding of information which is relevant to a requirement for information desired by a human user (Ingwersen 1992:49).

Page 4: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 20014

Definitionen (2)Im Information Retrieval (IR) werden Informationssysteme in Bezug auf ihre im Prozess des Wissenstransfers vom menschlichen Wissensproduzenten zum Informations- Nachfragenden betrachtet. [ ... ]

Die Darstellungsform des in einem IR-Systems gespeicherten Wissens ist im Prinzip nicht beschränkt (z. B. Texte, multimediale Dokumente, Fakten, Regeln, semantische Netze). Die Unsicherheit (oder die Unvollständigkeit) dieses Wissens resultiert meist aus der begrenzten Repräsentation von dessen Semantik [ ... ]. Aus dieser Problematik ergibt sich die Notwendigkeit zur Bewertung der Qualität der Antworten eines Informationssystems, wobei in einem weiteren Sinne die Effektivität des Systems in Bezug auf die Unterstützung des Benutzers bei der Lösung seines Anwendungsproblems beurteilt werden sollte. ( GI-FACHGRUPPE IR (1991). Beschreibung von Aufgaben und Zielen, zitiert nach FUHR 1993)

Page 5: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 20015

Definitionen (3)[ ... ] information science is concerned with, at least in part, the issues of how and why people engage in information-seeking behavior, and of how they use information [ ... ] (BELKIN 1990 )

The explicit consequences of this view are that: the goal of the IR system is to support the user in her / his entire range of information-seeking behaviors; the user must be considered the central component of the IR system; and interaction [ ... ] is the central process of IR (BELKIN 1993).

[ ... ] computerized information retrieval has been limited by many factors, such as storage capacitiers, [ ... ] costs of capturing data, and the practices of the publishing industry. With improvements in technology, we can break through these limitations, and manage large digital libraries of multimedia objects [ ... ] (FOX 1993).

Page 6: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 20016

Problem

Page 7: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 20017

Modelle des Information Retrieval

Formalisierung der IR-ModellierungAusgangspunkt sind eine Menge von Dokumenten D und eine Menge von Anfragen Q. Von zwei Seiten lässt sich eine Beziehung zwischen Dokumenten und Anfragen herstellen: Benutzerseite: Der Benutzer führt Relevanzbewertungen durch und gibt damit an, welche Dokumente bezüglich einer Anfrage als (nicht) relevant einzuschätzen sind, dargestellt als Menge R der Relevanzbewertungen. Systemseite: Das System selektiert als Antwort auf eine Anfrage Q eine (möglicherweise leere) Untermenge der Dokumente. Dabei kommt eine Retrievalfunktion zum Einsatz.

Page 8: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 20018

System: semantische Repräsentation (D bzw. Q)Für die Verarbeitung der Dokumente und Anfragen werden semantische Repräsentationen verwendet, die durch die Abbil-dungen D (Indexierung) Q (Formalisierung der Anfrage) gewonnen werden. Intern sind Dokumente durch Dokumen-tenbeschreibungen DD

, Anfragen durch logische Frage-Repräsentationen QD dargestellt. Ziel eines IRS: Deckungsgleichheit zwischen und R, d.h. das System soll aus der Dokumentenmenge die und nur die Dokumente selektieren, die der Benutzer bezüglich seiner Anfrage als relevant erachtet. Es ergibt sich folgendes Schema:

Relevanz-

bewertungR

D

Q

D

Q

DD

QD

Retrieval-funktion

D D

Q Q

Page 9: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 20019

Es werden also immer drei Ebenen unterschieden: (ursprüngliche) Fragen und Dokumente (bzw.

Antwortmengen) deren Beschreibung (semantische Sicht, formalisierte

Anfrage) die interne Beschreibung von Anfragen und Dokumenten

(Fragelogik, Objektattribute für Dokumente)

Notation:qk Frageqk Frage-Repräsentationqk

D (interne) Fragebeschreibungdm Dokument mdm semantische Dokumentbeschreibungdm

D Interne DokumentenrepräsentationDokumentbeschreibung als Menge/Vektor von Indexierungsgewichten

},,{1 nmmm ddd

Page 10: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 200110

Um die Dokumentenbeschreibungen zu erstellen,verwendet man i.d.R. ein Indexierungsvokabular T = {t1, ..., tn}, das aus Grundformen (Termen) besteht (vgl. unten Automatische Indexierung), wo bei die Beschreibung sowohl manuell wie automatisch erstellt werden kann.

Üblich sind auch Mischformen, wo zu einer automatischen Indexierung des Volltextes eine manuelle Beschlagwortung hinzukommt.

Page 11: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 200111

Vergleich der wichtigsten IR-ModelleÜberblick nach Fuhr 1997:Kap-5.2Modell BOOLEsches Vector Probability Fuzzy Clustering Retrieval SpaceBasis BOOLEsche Vektor- Wahrschein- Theorie Vektor-

Logik algebra lichkeits- unscharfer algebra theorie Mengen

Bezug zur — --- + ( + ) ---Retrieval-qualitätGewichtete Indexierung — + + + +Gewichtete Anfrageterme — + + (+) +Anfrage-struktur BOOLEsch linear linear BOOLEsch N/AAnfrage-modus Suchen Suchen Suchen Suchen Browsen

Page 12: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 200112

Exsample of Boolean IR system

Page 13: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 200113

Boolesches Retrieval

Beim Booleschen Retrieval gibt es keine Indexierungsgewichte, d.h. jeder Term ist einem Dokument zugeordnet oder nicht (0,1), bzw. formal:

nidddimm

Dm ,...,1für}1,0{mit

Die Fragebeschreibungen und Retrievalfunktion lassen sich wie folgt rekursiv aufbauen:

DD

DD

DD

Dii

QqQq

QqqQqq

QqqQqq

QtTt

2121

2121

,

,Frage-beschreibungen QD

Page 14: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 200114

Die Retrievalfunktion ergibt sich dann zu:

),(1),(

)),(),,(max()(

)),(),,(min()(

),(

2121

2121

mm

mm

mm

mmii

dqdq

dqdqqq

dqdqqq

ddtTti

Wertemenge der Retrievalfunktion : {0,1}, d.h. die Anfrage hat ein positives oder negatives Ergebnis.

Basis der Bewertung:Dokument-Termvektoren, bei denen für jedes Dokument verzeichnet ist, ob es durch einen Term indexiert ist (1) oder nicht (0).

Page 15: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 200115

Jede Anfrage teilt die Dokumentenbasis in zwei Mengen:Diejenigen Dokumente, die die Retrievalfunktion einer Anfrage zuordnet und diejenigen, die sie ihr nicht zuordnet. Ausgehend von dieser Trennung leiten sich auch die klassischen Bewertungsmaße in der IR-Evaluierung ab (siehe unten ausführlicher).Hohe Mächtigkeit: Man kann zeigen, daß sich für eine Dokumentenmenge D Anfragen konstruieren lassen, die jede beliebige Teilmenge aus D selektieren.

Nachteile:• Binäre Zuordnung, • Komplexität der Booleschen Algebra, • kein Ranking• formale Anfragesprache

Page 16: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 200116

Die Abarbeitung von Booleschen Anfragenkann über einfache Operationen zum Verschmelzen von Listen (Implementierung von Funktionen für Schnitt- und Vereinigungsmengenbildung) erfolgen; Details im Kap. Implementierung). Praktisches Beispiel nach Salton 1989

Einträge in der invertierten Datei T1: {D1, D3}

T2: {D1, D2}T3: {D2, D3, D4}

Abarbeitung: ErgebnisVereinigung T1, T2 {D1, D2, D3}Schnittmenge mit T3 {D1}

Anfrage ((T1 ODER T2) UND NICHT T3)

In der Praxis setzt man für die Repräsentation von Mengen Bitvektoren und Hashing-Funktionen ein, für die jeweils die notwendigen Mengenoperationen implementiert sind.

Page 17: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 200117

Das vector space model (vsm) von Salton Seit Anfang der 60er Jahre von Salton et al. in

Harvard/Cornell entwickelt. Implementierung als System Smart Basisidee: Modellierung von Dokumenten wie Anfragen

durch einen n-dimensionalen Vektorraum bei n unterschiedlichen Termen in der Indexierungssprache

eignet sich durch direkten Interpretation von Anfragen in natürlicher Sprache, daher ein weites Einsatzgebiet (IR, automatische Klassifikation information filtering, routing etc.)

Durch die Homomorphie von Anfrage- und Dokument-repräsentation eignen sich z.B. auch Dokument-repräsentationen als Anfragen (um z.B. "ähnliche „Dokumente zu finden oder relevance feedback durchzuführen).

Page 18: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 200118

Formale Eigenschaften des vsmRepräsentation von Dokumenten und Anfragen als Vektor:

),.....,,(

bzw.

),.....,,(

21

21

jtjjj

itiii

qqqQ

aaaD

Einfachste Annahme: Binäre Kodierung (0,1) der Terme in den Vektoren, ohne weitere Termgewichtung (wie im Booleschen Modell).

Page 19: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 200119

Bildliche Darstellung eines zweidimensionalen Vektorraumes:

ar2 * T2

T2 * Dr

T2

Dr

ar1 * T1

T1 * Dr

T1

Page 20: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 200120

Die Berechnung der Ähnlichkeit zwischen Dokumentenund Anfragen kann im einfachsten Fall durch Skalarprodukt aus Gewichten und Vektoren in Anfrage und Dokumenten erfolgen:

t

jijisirisr TTqaQDsim

1,

)(

Dabei besteht das Problem, daß man “an sich” Kenntnis über Term-Term-Korrelationen (TiTj) benötigt!Folge: (Unzulässige?) Vereinfachung des Modells – man nimmt der Einfachheit halber einen orthogonalen Vektorraum an, für den gilt:

jifallsTT

jifallsTT

ji

ji

,1

,0

Page 21: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 200121

Das bedeutet, dass eine völlige Unabhängigkeit der Terme(d.h. der Dimensionen des Vektorraums) angenommen wird, eine Annahme, die der Realität mit Sicherheit nicht entspricht.

Eine Reihe von Modellen, die auf dem einfachen Vektorraummodell aufsetzen, versuchen diesen Nachteil zu beheben, ohne aber Term-Term-Korrelationen vollständig ausrechnen zu müssen. Dabei wird z.B. die Zahl der Dimensionen des Vektorraums, für die Korrelationen errechnet werden, deutlich reduziert.

Page 22: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 200122

Unter der Annahme orthogonaler Vektorenfällt also die Berechnung der Termkorrelation weg, und es ergibt sich (im einfachsten Fall) das Skalarprodukt der Vektoren als Ähnlichkeitsmaß für den Vergleich von Anfrage und Dokument bzw. Dokument und Dokument:

1. Dokument-Anfrage-Vergleich

t

jisirisr qaQDsim

1,

)(

2. Dokument-Dokument-Vergleich

t

jisirisr aaDDsim

1,

)(

Page 23: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 200123

Beispielrechnung zum VektorraummodellDie nachfolgende Beispielrechnung zum Vekorraummmodell

errechnet Anfrage-Dokumentähnlichkeiten ohne und mit Berücksichtigung von Term-Term-Korrelationen (vgl. Salton 1989):

Voraussetzungen: Termmenge Dokumentenkollektion Anfrage Dokument-Term-Matrix Term-Term-Korrelationsmatrix

Termmenge = {T1, T2, T3}Dokumente (mit Termgewichten):

D1 = 2T1 + 3T2 + 5T3

D2 = 3T1 + 7T2 + 1T3

Page 24: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 200124

Anfrage:

Q = 0T1 + 0T2 + 2T3

Ähnlichkeitsberechnung (Skalarprodukt) ohne Term-Term-Korrelation:

sim(D1, Q) = 20 + 30 + 52 = 10sim(D2, Q) = 30 + 70 + 12 = 2

Zusatzinformation Term-Term-Korrelation:

T1 T2 T3

T1 1 0.5 0

T2 0.5 1 -0.2

T3 0 -0.2 1

Page 25: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 200125

Ähnlichkeitsberechnung (Skalarprodukt) mit

Term-Term-Korrelation:Zusätzlich zur Berechnung der Termgewichte in Anfrage und Dokument werden deren Produkte mit der jeweiligen Term-Term-Korrelation multipliziert, d.h.:

sim(D1, Q) = (2T1 + 3T2 + 5T3) (2T3)= 4 T1 T3 + 6 T2 T3 + 10 T3 T3

= -60.2 + 101= 8.8

sim(D2, Q) = (3T1 + 7T2 + 1T3) (2T3)= 6 T1 T3 + 14T2 T3 + 2 T3 T3

= -140.2 + 21= -0.8

Page 26: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 200126

Evaluationskriterien

Die Qualität einer Anfrage bemisst sich neben Ihrer Vollständigkeit (und an sich auch der Qualität der enthaltenen Dokumentationseinheiten) vor allem nach ihrer Effektivität, d.h. nach der Möglichkeit, auf ein Informationsbedürfnis die passenden (relevanten) und nur die passenden Einheiten zu finden.

Diese Effektivitätsmaße können durch die klassischen Parameter der Retrieval-Evaluierung bestimmt werden, bei der die Dokumentenkollektion nach den Kriterien relevant/ nicht relevant und nachgewiesen/ nicht nachgewiesen aufgeteilt wird.

Page 27: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 200127

Im einzelnen ergeben sich folgende Mengen:

Zahl nachgewiesener relevanter Dokumentationseinheiten aZahl nachgewiesener nicht relevanter Dokumentationseinheiten dZahl nicht nachgewiesener relevanter Dokumentationseinheiten bZahl nicht nachgewiesener nicht relevanter Dokumentationseinheiten c

Zahl nachgewiesener Dokumentationseinheiten a + bZahl nicht nachgewiesener Dokumentationseinheiten c + dZahl relevanter Dokumentationseinheiten a + dZahl nicht relevanter Dokumentationseinheiten b + c

Zahl aller Dokumentationseinheiten a + b + c + d

Page 28: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 200128

Recall und Precision

Recall: Verhältnis gefundener relevanter Dokumente zur Gesamtmenge relevanter Dokumente

(a/ a+d)

Recall: 0 <= r <= 1

Precision: Verhältnis der gefundenen relevanten Dokumente zur Gesamtmenge gefundener Dokumente

(a/a+b)

Precision: 0 < p <= 1

Page 29: G.Heyer Sprachprodukttechnologie SS 2001 1 INFORMATION RETRIEVAL (IR) Begriffsbildung für Daten/ Wissen/ Information Daten Syntaktisch definierte Verfahren.

G.Heyer Sprachprodukttechnologie SS 200129

Typischer Verlauf eines recall - precision - Graphen:

0 10,1 0,80,2 0,60,3 0,50,4 0,450,5 0,40,6 0,350,7 0,20,8 0,180,9 0,151 0,05

Recall-Precision-Graph

0

0,2

0,4

0,6

0,8

1

1,2

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Recall

Precision

Reihe1