Information Retrieval

49
Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs

description

Information Retrieval. IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs. Was ist IR?. „Information Storage and Retrieval” Das systematische Vorgehen, um Daten zu sammeln und derart zu katalogisieren, dass sie auf Anfrage wieder aufgefunden und angezeigt werden können. - PowerPoint PPT Presentation

Transcript of Information Retrieval

Page 1: Information Retrieval

Information Retrieval

IR-Grundlagen von Suchmaschinen im Überblick

Björn Gustavs

Page 2: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 2

Was ist IR?

„Information Storage and Retrieval”Das systematische Vorgehen, um Daten zu sammeln und derart zu katalogisieren, dass sie auf Anfrage wieder aufgefunden und angezeigt werden können.

Für Suchmaschinen „alle“ Dokumente im Internet aufspüren, analysieren und auf Abfrage optimal wiedergeben

Page 3: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 3

Motivation Einblick: Web Traversierung IR-Probleme

Methoden der Index-Erstellung Methoden des IR auf dem Index

Zusammenfassung

Inhalt / Ausblick

Page 4: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 4

Informationsgehalt im Internet: Mai 2003 Anzahl der Seiten > 6 Milliarden verdoppelt sich alle 4-8 Monate rund 40% des Internets verändert sich

monatlich um dieses Potential zu nutzen gewünschte

Inhalte effizient & gezielt finden Textinformation rechnergestützt auswerten

Motivation

Page 5: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 5

Dokumentensuche im Web

1. Suchroboter (aka: Web robot, wanderer, worm, walker, spider,

knownbot) traversieren das Web pro Anfrage Nutzer gibt Suchbegriff an Roboter durchsucht systematisch das Web nach

Dokumenten Relevanzberechnung Rückgabe einer rang-sortieren Liste

Größe des Netzes & Wachstum machen diesen Ansatz praktisch unmöglich

Page 6: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 6

2. vorbereiteter Index wird durchsucht Index ist ein durchsuchbares Archiv mit

Referenzen zu Dokumenten im Web Suche wird auf dem Index ausgeführt

Dokumentensuche im Web

Page 7: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 7

Der Index (1)

Index ist eine Dokumentenrepräsentation Dokumente durch Inhaltsbeschreibung und

enthaltenen Termen repräsentiert Terme dienen zu Ermittlung der Relevanz bei

Suchanfragen Terme können automatisch oder von

Spezialisten erzeugt werden

Page 8: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 8

Index-Erzeugung (1)

Seiten sammelnAnalysieren,AufbereitenIndex Programme (Robots, Crawler) suchen „alle“

Webseiten Ausgehend von einer Anfangsadresse werden alle URLs in

Tiefen- oder Breitensuche verfolgt. von Menge von Anfangsadressen aus- abhängig von der

Popularität der jeweiligen Seite Partitionierung des WWW- ausgehend von Internetnamen

oder Landesgrenzen - wird das WWW rekursiv durchsucht. Auslesen von Metaangaben (manuell erstellte

Beschreibungen) Textanalyse

Ermitteln von inhaltsrelevanten Termen zum Dokument, Häufigkeit

Page 9: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 9

Index-Erzeugung (3)-Qualität

Effektivität eines Indexing Systems wird bestimmt über: Indexing exhaustivity: Erfassungsgrad der

Dokumententhemen in den Index- exhaustive: alle Aspekte der Themen erfassen- nonexhaustive: weniger, aber die Kernthemen

Term specificity: Grad, zu welchem die Menge aller vorhandenen nützlichen Dokumente erfasst werden allgemeine/umfassende Terme viele nützliche & viele

unnütze Resultate genaue Terme weniger Resultate, evtl. auch verpasste

gute Ergebnisse

Page 10: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 10

IR Qualität (1)

Genannte Parameter haben Auswirkung auf das Indexierungssystem:

Resultierende Retrieval Effiziens über 2 Parameter beschrieben: Recall (Vollständigkeit)

Precision (Trefferquote)

Page 11: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 11

IR Qualität (2) - Recall

Recall (Vollständigkeit)Wieviele der relevanten Dokumente werden erfasst?

Verhältnis der - Anzahl erfasster, relevanter Dokumente zur - Anzahl relevanter Dokumente

Page 12: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 12

IR Qualität (3) - Precision

Precision:wieviele relevante Dokumente werden erfasst

Verhältnis der - Anzahl erfasster, relevanter Dokumentezur- Anzahl erfasster Dokumente

Page 13: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 13

IR Qualität (2)

Optimal: hohe Recall & Precision Aber gehen jeweils auf Kosten des anderen Effektivität wird gemessen anhand verschiedenen

Precision, bei festen Recall-Werten Kompromiss:

Recall

Speed

Precision

Page 14: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 14

Der Index (4)

Suchmaschinen nutzen „inverted index“ besteht aus

durchsuchbares Wörterbuch, mit allen Wörtern im Index, enthält # Vorkommen Verweis auf „ inverted list“ des Wortes

„ inverted list“ für jedes Wort im Index, enthält Verweise auf Dokumente Häufigkeit des Wortes im Dokument weitere Optimierungen, z.B. Position/Offset des Wortes im

Dokument

Page 15: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 15

„Inverted Index“, Beispiel

Lexikon inverted index list

Page 16: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 16

„Index Builder“

„Index Builder“Sortierung, 1. nach Term, dann nach DocID,…

Page 17: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 17

Indexierungsmethoden

Automatische Indexierungsmethoden: Single Term Indexierung

Statistische Methoden Informationstheoretische Methoden Probabilistische Methoden

Mutli-Term / Phrasen – Indexierung Statistische Methoden Probabilistische Methoden Linguistische Methoden

Page 18: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 18

Single Term Indexing (1)

Welche Wörter eines Dokumentes in den Index?

1. alle Worte herauslösen

2. unwichtige Worte herausfiltern („Stoppwörter“, Füllworte,…)

3. evtl. Rückführung auf Wortstamm

4. Häufigkeit im Dokument ermitteln

Page 19: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 19

Single Term Indexing (2)

pro Dokument wird analysiert Menge der auftretenden Wörter deren Häufigkeiten

Ziel: hohes Recall Vorgehensweisen, Wörter zu gewichten:

Statistisch informations-theoretisch probabilistische

Page 20: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 20

Single Term Indexing(3)-statistisch

Statistische Methode

z.B. basiert rein auf Termhäufigkeit

wij = tfij * log(N / dfj)

tfij – Term Frequency, des Terms j im Dokument i

dfj – Document Frequency, Häufigkeit des Terms in allen Dokumenten

Page 21: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 21

Single Term Indexing (4)-inf.th.

Informationstheoretische Methode

basiert auf Aussage:„Term, dessen Vorkommen am unwahrscheinlichsten ist, birgt meiste Information“

Methode bevorzugt in einzelnen Dokumenten konzentrierte Terme

Page 22: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 22

Single Term Indexing(5)-probal.

Probabilistische Methode basiert auf Relevanz-Wahrscheinlichkeit erfordert „Training“ für

Berechnungsgrundlage Benutzer bewerten Relevanz von Suchresultaten aus Trainingsergebnissen wird Termgewichtung

basierend auf bedingter Wahrscheinlichkeit des Auftretens eines Terms berechnet

Page 23: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 23

Multi-Term/Phrase Indexing (1)

„Phrasen“ verhindern Doppeldeutigkeit einzelner Wörter ohne Zusammenhang

Term trägt spezifischere Bedeutung soll Precision erhöhen Methoden zur Erzeugung von Phrasen für

Index: statistisch probabilistisch sprachtheoretisch

Page 24: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 24

Multi Term Indexing (2) -statistisch

Statistische Methode

„Phrase“ besteht aus Kopf und Zusätzen Hier muss der Kopf in weiteren Dokumenten

auftretenund weiteren Komponenten im gleichen Satz

wenn Kombinationen in vielen Dokumenten auftreten, werden diese gruppiert

(dies erzwingt keine semantische Beziehung zwischen den Worten), fehleranfällig

Page 25: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 25

Multi Term Indexing (3) –lingust.

Linguistische Methode

Einsatz von sprachlicher Analyse für Term- Zusammenhängen(Adjektive, Substantive, Verben)

verbessert statistischen Methoden, Reduktion falscher Wortzusammenhänge

Einbringen semantischer Faktoren in die Gruppierung

Page 26: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 26

Multi Term Indexing (4) -probabil.

Probabilistische Methode

erzeugt komplexe Indexstrukturen, basierend auf Abhängigkeiten der Terme

man müsste exponentielle Anzahl von Term-Kombinationen betrachten

daher kaum Anwendung

Page 27: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 27

Information Retrieval

Rückblick auf Indexerzeugung Auffinden von Dokumenten im Netz Analyse des Inhaltes

Metainformationen Textinformationen (Inhalt) auswerten Kurzbeschreibung erstellen (Terme)

Single- vs. Multi-term Indexing

jetzt: RetrievalSuchmechanismen auf dem Index

Page 28: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 28

Ein IR-Modell wird beschrieben durch: Repräsentation für Dokumente & Abfragen Strategien zur Bewertung der Relevanz von Dokumenten

bzgl. der Abfrage eines Benutzer Ranking-Methoden, gewichtete Ordnung der Resultate Methoden zum Erhalt von nutzerrelevantem-Feedback

4 Verfahren: Boolesche Verfahren Statistische Verfahren

Vektorraum Verfahren Probabilistisches Verfahren

Hybrid Verfahren

Information Retrieval Modelle

Page 29: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 29

basiert auf Mengenlehre und boolescher Algebrabekannteste Verfahren, oft von IR Systemen genutzt

Abfragen werden gebildet durch Terme, verbunden durch logische Operatoren

Term aus Query im Dokument enthalten? Dokument ist Treffer, wenn boolesche

Auswertung der Query wahr ist

Boolesches Modell (1)

Page 30: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 30

Boolesches Modell (2)-Beispiel

DocID Term „A“ Term „B“ Term „C“ Term „D“

1 ٧ ٧

2 ٧ ٧

3 ٧ ٧

4 ٧

Anfrage Ergebnis

A AND (C OR D) Doc1, Doc3

B OR C Doc1, Doc2, Doc4

Page 31: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 31

Boolesches Verfahren (3)

Vorteile: leicht implementierbar effizient in Anwendung (Computer & DB)

Nachteile: nicht triviale Queries schwierig zu formulieren „Ganz oder gar nicht“

keine Gewichtung keine Reihenfolge

Page 32: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 32

Boolesches Verfahren,erweitert (3)

„Smart Boolean“ Anwender gibt sprachliche Frage ein, wird dann

automatisch in ein boolesches Konstrukt umgewandelt

Techniken, um Abfragen einzuschränken & zu erweitern

Page 33: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 33

Boolesches Verfahren,erweitert (4)

Fuzzy-Mengen Modell Ziel: Boolesche Strenge aufweichen & Ranking Fuzzytheorie

auch Dokumente als Resultat, die wenn Query nur teilweise WAHR ist

Ergebnisstufen zwischen 0 und 1 Aufweichung des GoG

Stufe beschreibt, wie stark Term dem Query entspricht

Page 34: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 34

Vektorraumverfahren (1)

Wurde in den 60ern in Havard im Laufe des „Smart“-Projektes entwickelt und in den 80ern überarbeitet

Dokumente & Abfragen als Vektoren in einem mehrdimensionalen Vektorraum aufgefasst

Dimensionen sind die Terme des Dokumentenindexes

Vektoren enthalten Gewichte aller Terme Terme in Query können gewichtet werden

Page 35: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 35

Vektorraumverfahren (2)

Dokument 1

QueryDokument 2

Term2

Dokument 3

Term3

Term1

Jedes Dokument wird anhand des Auftretens & Gewichtung der Suchterme im Dokument, durch einen Vektor repräsentiert.Nähe zum Query-Vektor bestimmt Suchresultat &-Reihenfolge.

Page 36: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 36

Vektorraumverfahren (3)

im „Smart“-Projekt wurden heuristische Formeln zur Berechnung von Gewichten für die Indexierung entwickelt verbesserte Suchergebnisse

Trefferberechnung: Vergleich von Dokumenten- & Query-Vektoren Vergleich z.B. cosinus-basiert

Page 37: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 37

Vektorraumverfahren (4)

Vorteile: Relevanzabstufungen möglich (durch

Termgewichtungen) Sortierung nach Ähnlichkeitsgrad möglich Rang

Nachteile: es wird vorausgesetzt, dass Therme

wechselseitig unabhängig sind

Page 38: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 38

Hybrid-Modell (extended boolean)

Verbindung des Booleschen Modells mit dem Vektormodell, für freie Gewichtung

Idee: Nutzer kann boolesche Anfrage stellen zusätzlicher Parameter steuert die Interpretation; wie

strikt AND,OR ausgewertet werden von 2 bis unendlich 2 keine Unterscheidung zwischen AND,OR unendlich binäres „Ranking“ (Treffer, nicht Treffer) beste Werte, empirische Untersuchungen: 2 <= p <= 5

Page 39: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 39

Berechnung der Wahrscheinlichkeit, dass Dokument relevant ist

Training erforderlich Berechnung stützt sich auf Parameter:

Wahrscheinlichkeit der Relevanz UND Irrelevanz eines Dokumentes auf die Query Kostenparameter. Verlust bei

Auffinden eines irrelevanten Dokumentes Nichtauffinden eines relevanten Dokumentes

Probabilistisches Verfahren (1)

Page 40: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 40

Probabilistisches Verfahren (2)

Vorteile: Gefundene Dokumente werden nach

Wahrscheinlichkeit ihrer Relevanz sortiert

Nachteil: ist so gut, wie die Wahrscheinlichkeitsberechnung

eingepegelt ist (Training) Häufigkeit eines Terms im Dokument ist irrelevant

Page 41: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 41

IR-Modelle-Zusammenfassung

Boolesches Modell im Vergleich schlechte Ergebnisse, aber verbreitet.

Page 42: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 42

Relevanz der Ergebnisse

alle relevanten Dokumente gefunden? Ranking hilfreich?

Relevanz-Feedback vom Anwender gewünscht

Anwender bewertet Dokument des Suchergebnisses 2-Level: brauchbar – nicht brauchbar Multi-Level: Zwischenstufen & im Bezug zu

anderen Dokumenten (weniger relevant als…)

Page 43: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 43

Relevanz-Feedback-Nutzung

1. Query anpassen

Gewichtungen der Query verändern (Termgewichte des Queryvektors)

Query Erweiterung (Hinzufügen von Termen) Query Splitting

Page 44: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 44

Relevanz-Feedback-Nutzung (2)

2. Index verändern Index manipulieren (Gewichtungen im Index)

Page 45: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 45

Relevanz-Feedback (4)

kein Suchdienst bietet heute Relevanz-Feedback Techniken!

Gefahren?

Page 46: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 46

Zusammenfassung

Rückblick: versch. Methoden zur Bestimmung der Relevanz

von Query zu indexierten Dokumenten damit verbunden, Ranking-Verfahren Hilfe vom Benutzer wünschenswert

Page 47: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 47

IR und das WWW

IR viele Einsatzfelder Besonderheiten im Web:

riesige Datenmengen, dunkle Bereiche im Web (~500x sichtbares Web) , wachsend)

oft nicht-statische Seiten (generierte Seiten, DB) Dynamik (verdoppelt sich alle 4-8 Monate)

tote Links Sprachenvielfalt Duplikate hohe Verlinkung (~8Links/Seite) Indexierungsaufwand Benutzerverhalten kennen (Geschwindigkeit,

Ergebnisseiten)

Page 48: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 48

Noch Fragen ?

Page 49: Information Retrieval

Information Retrieval - Seminar Web Suchmaschinen 49

Literaturangaben

Venkat N. Gudivada, Vijay V. Raghavan, William I. Grosky, Rajesh Kasanagottu.: Information Retrieval on the World Wide Web. IEEE Internet Computing. September-October 1997 (Vol. 1, No. 5). pp. 58-68

Mei Kobayashi, Koichi Takeda. Information Retrieval on the Web. ACM Computing Surveys, Vol. 32, No. 2, June 2000. pp 144-173.

IR und das Web, Interuniversitäres Seminar 2001, Martin Waldburger, PDF „Building Fast Search Engines“, Hugh E. Williams, http://www.hughwilliams.com/t1.pdf Datamining im WWW,Knowledge Discovery im Internet, Johann Zehentner, Ausarbeitung 2000