5. Information Retrieval - Softwarelabor (SWL)swl. § Volltextsuche(z.B. in MS SQL Server und...

download 5. Information Retrieval - Softwarelabor (SWL)swl. § Volltextsuche(z.B. in MS SQL Server und PostgreSQL)

of 35

  • date post

    17-Sep-2018
  • Category

    Documents

  • view

    214
  • download

    0

Embed Size (px)

Transcript of 5. Information Retrieval - Softwarelabor (SWL)swl. § Volltextsuche(z.B. in MS SQL Server und...

  • 5. Information Retrieval

  • 2

    Inhalt

    5.1 Information Retrieval

    5.2 Vorverarbeitung der Dokumente

    5.3 Boolesches Retrieval

    5.4 Vektorraum-Modell

    5.5 Evaluation

    5.6 Implementierung

    5.7 Websuche

    Datenbanken & Informationssysteme / Kapitel 5: Information Retrieval

  • 3

    5.1 Information Retrieval

    Information Retrieval ist ein Fachgebiet in der Schnittmenge von Informationswissenschaft,Informatik und Computerlinguistik

    Weitgehend unabhngige, parallele Entwicklung zum Fachgebiet Datenbanken der Informatik mitnun zunehmendem Ideenaustausch

    Datenbanken & Informationssysteme / Kapitel 5: Information Retrieval

    Information Retrieval (IR) is finding material (usually documents) of an

    unstructured nature (usually text)that satisfies an information need from within

    large collections (usually stored on computers)

    [Manning 2008]

  • 4

    Information Retrieval

    Information Retrieval befasst mit Suche nach Inhalten

    Artikel (z.B. aus Wissenschaft und Presse)

    Webseiten

    Office-Dokumente (z.B. Prsentationen und Spreadsheets)

    E-Mails

    Benutzerprofile (z.B. auf Facebook oder XING)

    Datenbanken & Informationssysteme / Kapitel 5: Information Retrieval

    Information Retrieval (IR) is finding material (usually documents) of an

    unstructured nature (usually text)that satisfies an information need from within

    large collections (usually stored on computers)

    [Manning 2008]

  • 5

    Information Retrieval

    Daten haben meist keine oder nur wenig Struktur

    Einfache Textdokumente (keine Struktur)

    HTML (berschriften und Abstze markiert)

    JSON und XML (semistrukturiert)

    RDBMSs, im Gegensatz, betrachten strukturierte Daten

    Datenbanken & Informationssysteme / Kapitel 5: Information Retrieval

    Information Retrieval (IR) is finding material (usually documents) of an

    unstructured nature (usually text)that satisfies an information need from within

    large collections (usually stored on computers)

    [Manning 2008]

  • 6

    Information Retrieval

    Informationsbedrfnis des Benutzers als Ausgangspunkt

    selten przise (z.B. Was kann man in Berlin unternehmen?)

    ungenau als Anfrage formuliert (z.B. berlin sights)

    RDBMSs, im Gegensatz, bieten Anfragesprache mitgenau definierter Semantik (z.B. relationale Algebra)

    Datenbanken & Informationssysteme / Kapitel 5: Information Retrieval

    Information Retrieval (IR) is finding material (usually documents) of an

    unstructured nature (usually text)that satisfies an information need from within large collections (usually stored on computers)

    [Manning 2008]

  • 7

    Information Retrieval

    Groe Datenmengen mit rapidem Wachstum

    Desktop ~ 100.000 Dokumente

    The New York Times (19872007) ~ 2.000.000 Dokumente

    WWW im Jahr 1998 ~ 800.000.000 Dokumente

    WWW im Jahr 2008 ~ 1.000.000.000.000 Dokumente

    Datenbanken & Informationssysteme / Kapitel 5: Information Retrieval

    Information Retrieval (IR) is finding material (usually documents) of an

    unstructured nature (usually text)that satisfies an information need from within

    large collections (usually stored on computers)

    [Manning 2008]

  • 8

    Historisches

    Bibliotheken (seit ca. 2000 v. Chr.)

    Katalogisierung nach Titel, Erscheinungsjahr,Autoren oder Schlagwrtern

    Klassifikationsschemata zur inhaltlichenEinordnung (z.B. Dewey-Dezimalklassifikation)

    Vannevar Bushs Memex (1945) [3]

    erweitertes Gedchtnis (memory extender)

    Verknpfung und Annotation von Inhalten

    Datenbanken & Informationssysteme / Kapitel 5: Information Retrieval

    JMC Photos@flickr

  • 9

    Historisches

    SMART System von Salton et al. (1960er)

    Rangordnung der Ergebnisse

    Bercksichtigung von Rckmeldungen des Benutzers

    TREC und andere Benchmark-Initiativen (seit 1992)

    Google und andere Suchmaschinen (seit frhen 1990er)

    Datenbanken & Informationssysteme / Kapitel 5: Information Retrieval

  • 10

    IR vs. DBMSs

    IR-Systeme und DBMSs unterscheiden sich wie folgt

    unstrukturierte vs. strukturierte Daten(z.B. Zeitungsartikel vs. Attribute eines Produkts)

    vages vs. genau definiertes Informationsbedrfnis(z.B. Berichte ber Berlin vs. meistverkauftes Produkt)

    vage vs. genau definierte Semantik der Anfragen(z.B. Schlsselwortanfragen vs. Relationale Algebra)

    Rangordnung vs. keine Rangordnung der Ergebnisse(z.B. Berichte ber Berlin vs. Studenten im dritten Semester)

    Mensch vs. Anwendung als typischer Anwender

    Datenbanken & Informationssysteme / Kapitel 5: Information Retrieval

  • 11

    IR in DBMSs

    DBMSs integrieren zunehmend IR-Funktionalitt

    Volltextsuche (z.B. in MS SQL Server und PostgreSQL)auf textuellen Attributen mit linguistischer Vorverarbeitung,sowie Rangordnung der Ergebnisse

    IR-Systeme werden zunehmend als DBMSs eingesetzt

    Elasticsearch und Apache Solr erweitern Apache Lucene als traditionelles IR-System zur Indexierung und Suche vonsemi-strukturierten Dokumenten (z.B. in JSON oder XML)und knnen je nach Anwendung ein (R)DBMS ersetzen

    Datenbanken & Informationssysteme / Kapitel 5: Information Retrieval

  • 12

    Gtemae im Information Retrieval

    Informationsbedrfnis des Benutzers undSemantik der Anfragen sind vage

    Gtemae messen inwiefern das von einem IR-Systemzurckgelieferte Ergebnis das Informationsbedrfnisdes Benutzers befriedigen kann

    Alle Dokumente in der Dokumentensammlung werden hierzu als relevant bzw. nicht-relevant fr das Informationsbedrfnis des Benutzers klassifiziert

    Datenbanken & Informationssysteme / Kapitel 5: Information Retrieval

  • 13

    Przision und Ausbeute (precision and recall) Przision (precision) und Ausbeute (recall) als zwei Mae

    der Ergebnisgte relativ zum Informationsbedrfnis

    Relevante Ergebnisse(true positives)

    Irrelevante Ergebnisse(false positives)

    Relevante Nicht-Ergebnisse(false negatives)

    Irrelevante Nicht-Ergebnisse(true negatives)

    Datenbanken & Informationssysteme / Kapitel 5: Information Retrieval

    tn tn tn tn tn tn

    tn tn

    tn tn

    tn

    tn

    tn tn tn tn tn tn

    tn tn

    tn

    tn

    tn

    fp

    fp fp fp

    tptp

    fn fn fn

    fn

    fnfnfn

    Relevante DokumenteErgebnis

  • 14

    Przision und Ausbeute (precision and recall) Przision (precision)

    misst Fhigkeit nur relevante Dokumente zu liefern

    Ausbeute (recall)

    misst Fhigkeit alle relevanten Dokumente zu liefern

    Datenbanken & Informationssysteme / Kapitel 5: Information Retrieval

    #tp

    #tp + #fn=

    # relevanter Dokumente im Ergebnis

    # relevanter Dokumente

    #tp

    #tp + #fp=

    # relevanter Dokumente im Ergebnis

    # Dokumente im Ergebnis

  • 15

    Literatur

    C. D. Manning, P. Raghavan, H. Schtze:Introduction to Information Retrieval,Cambridge University Press, 2008[PDF]

    W. Bruce Croft, D. Metzler, T. Strohman:Search Engines Information Retrievalin Practice, Pearson Education, 2010[PDF]

    Datenbanken & Informationssysteme / Kapitel 5: Information Retrieval

  • 16

    5.2 Vorverarbeitung der Dokumente

    Dokumente durchlaufen Vorverarbeitung (preprocessing),bevor sie indexiert werden, um dann mit Hilfe des Index Anfragen bearbeiten zu knnen, z.B.

    Entfernen von Formatierungen (z.B. HTML-Tags)

    Zerlegung (tokenization) in Bestandteile (tokens)

    Normalisierung der Bestandteile zu Termen (terms)

    Datenbanken & Informationssysteme / Kapitel 5: Information Retrieval

  • 17

    Zerlegung (tokenization) Dokumente werden in Bestandteile (tokens) zerlegt, indem

    das Dokument u.a. an Leerzeichen (white spaces) aufgeteilt wird und Satzzeichen entfernt werden

    Zustzlich kann eine Aufteilung von Mehrwortgruppen(compound splitting) vorgenommen werden(z.B. bodenseeschifferpatentantrag)

    Datenbanken & Informationssysteme / Kapitel 5: Information Retrieval

  • 18

    Normalisierung (normalization) Normalisierung der Bestandteile fhrt zu Termen

    (terms), die indexiert und gesucht werden knnen, z.B.

    Umwandlung in Kleinbuchstaben (lower casing)

    Vereinheitlichung von Umlauten (z.B. wird zu ae) Vereinheitlichung von Datumsangaben (z.B. 2011/05/21)

    Datenbanken & Informationssysteme / Kapitel 5: Information Retrieval

  • 19

    Wortreduktion (stemming, lemmatization) Wrter kommen in verschiedenen Beugungsformen vor

    Konjugation bei Verben(z.B. go, gone, went)

    Deklination bei Substantiven und Adjektiven(z.B. boat, boats, mouse, mice)

    Komparation bei Adjektiven(z.B. cheap, cheaper, cheapest)

    Wrter knnen zudem den gleichen Wortstamm haben(z.B. work, worker, working, drive, driver, driven)

    Datenbanken & Informationssysteme / Kapitel 5: Information Retrieval

  • 20

    Grundformreduktion

    Reduktion auf Grundform (auch: Lemmatisierung) (lemmatization) erfolgt immer auf ein existierendes Wort

    Nominativ Singular bei Substantiven und Adjektiven(z.B. boat und boats wird zu boat)

    Infinitiv bei Verben(z.B. go, gone und went wird zu go)

    Bestimmung der korrekten Grundform ist oft schwierigund bedarf zustzlicher Information in Form von

    Kontext oder Wortart (part of speech)

    Wrterbuch (z.B. um mice auf mouse abzubilden)

    Datenbanken & Informationssysteme / Kapitel 5: Information Retrieval