Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des...
Transcript of Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des...
Datenbank-Recherche
SS 2014 2. Veranstaltung – 10. April 2014
Philipp Mayr - [email protected]
Philipp Schaer - [email protected]
GESIS – Leibniz-Institut für Sozialwissenschaften
Vorstellung Philipp Schaer
• 2000 – 2005: Studium der Informatik an der Universität Koblenz (Diplom)
• 2006 – 2013: Wissenschaftlicher Mitarbeiter
– Universität Koblenz: AG Software-Ergonomie und Information Retrieval
– Informationszentrum Sozialwissenschaften, Forschung und Entwicklung: Software-Entwicklung für das Open-Access-Repository SSOAR
– GESIS Köln, Wissenstechnologien für die Sozialwissenschaften: Forschungsprojekte IRM I & II – Retrieval in digitalen Bibliotheken
• 2013: Promotion in Informatik an der Uni Koblenz Schwerpunkte: Information Retrieval, digitale Bibliotheken und Informetrie
• Seit 2013: PostDoc und Teamleiter Knowledge Discovery
2
Alle Materialien unter http://www.schaer.de/recherche-2014
Aktualisiert: Terminplanung im SS 2014 Termin Veranstaltung (VL) Termin Veranstaltung (VL)
3.4. Einführung, Überblick, Formalia 12.6. Zusammenfassung, Wiederholung
10.4. Grundlagen des boolschen Retrieval 25.6. Klausur
17.4. Grundlagen Datenbanken, Begrifflichkeiten, Fachdatenbanken: pubmed, sowiport…
24.4. Suchwerkzeuge (Thesauri und Klassifikationen etc.)
8.5.
Suchstrategien, Berry-Picking, Footnote-Chasing (Bates) etc.
22.5
Methoden und Techniken des IR, Rankingmethoden, TF-IDF
5.6. Relevanz, Relevanzeinschätzung
3
Wiederholung 1. Veranstaltung
• Vorstellung
• Organisatorisches – Beachten Sie die aktualisierte Terminplanung
• Einführung in die Thematik der Vorlesung – Verständnis der Recherche-Problematik
– Praktische Kenntnisse in der Recherche-Fähigkeit
– Allgemeine Informationskompetenz
• Erste praktische Übung (Hausaufgaben) – Käsekuchen und Plagiatsverdacht
4
Themen der heutigen Veranstaltung
• Boolesche Anfragen und das Boolesche Retrievalmodell
• Beispielsysteme
• Beispielanfragen
• Term-Dokument-Matrizen
• Vor- und Nachteile des Booleschen Modells
5
Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln, England; † 8. Dezember 1864 in Ballintemple, in der Grafschaft Cork, Irland) war ein englischer Mathematiker (Autodidakt), Logiker und Philosoph.
Boolesche Retrievalmodell und Anfragen
• Das Boolesche Retrievalmodell kann alle Anfragen auflösen, die sich als ein Boolescher Ausdruck formulieren lassen. – Es erlaubt den Einsatz der Operatoren UND, ODER sowie NICHT um
einzelne Anfrageterme zu verknüpfen.
– Jedes Dokument ist in diesem Modell eine Menge von Termen (bag of words), die keiner besonderen Ordnung folgen.
– Es ist sehr präzise: Ein Dokument passt zur Anfrage oder nicht!
• Im professionellen Einsatz seit mehr als 40 Jahren und immer noch sehr beliebt. – Man weiß, was man bekommt – Nachvollziehbarkeit des Ergebnisses.
• Viele Suchsysteme basieren auf dem Booleschen Modell...
6
7
8
9
Unstrukturierte Daten im Jahr 1680
• Welches Stück von Shakespeare enthält die Wörter Brutus UND Caesar aber NICHT Calpurnia?
• Ein naiver Versuch: Wir durchsuchen alle Texte, die Shakespeare geschrieben hat nach den Wörtern Brutus und Caesar, danach werden alle Zeilen mit dem Wort Calpurnia gelöscht.
• Warum ist das (aus technischer Sicht) keine gute Idee? – Langsam (für große Textkorpora)
– NICHT Calpurnia ist nicht trivial
– Andere Operationen (z.B., finde das Wort Romans nahe countrymen) nicht möglich
– Kein geranktes Ergebnis (das oder die „passendste“ Dokumente finden, kommt in einer späteren Vorlesung)
10
Antony
and Cleopatra
Julius Caesar
The Tempest
Hamlet Othello Macbeth
Antony 1 1 0 0 0 1 Brutus 1 1 0 1 0 0 Caesar 1 1 0 1 1 1
Calpurnia 0 1 0 0 0 0 Cleopatra 1 0 0 0 0 0
mercy 1 0 1 1 1 1 worser 1 0 1 1 1 0
Term-Dokument-Matrix
1 wenn Dokument
das Wort enthält,
ansonsten 0
Brutus UND Caesar ABER
NICHT Calpurnia
Einschub: Boolesche Algebra
• Die boolesche Algebra hat nur die zwei Elemente 0 und 1.
• Es sind die folgenden Verknüpfungen definiert:
– Konjunktion (∧) bzw. „und“,
– Disjunktion (∨) bzw. „oder“ und
– Negation (¬) bzw. „nicht.
• Klammerungen für Gruppierungen sind erlaubt.
Konjunktion Disjunktion Negation
12
∧ 0 1
0 0 0
1 0 1
∨ 0 1
0 0 1
1 1 1
¬
0 1
1 0
Boolesche Operatoren I
13
Boolesche Operatoren II
14
Boolesche Operatoren III
15
Der Lösungsweg: Rechnen mit Term-Vektoren
• Für jeden Term (Brutus, etc.) gibt es einen 0/1-Vektor (Zeile in der Term-Dokument-Matrix): – 1: der Term kommt in dem Stück vor,
– 0: der Term kommt nicht in dem Stück vor.
• Um die Frage zu beantworten: Nehme die drei Vektoren für – Brutus (110100),
– Caesar (110111) und
– Calpurnia (010000 101111, invertiert)
• Verknüpfe alle Vektoren mittels UND (∧).
110100 UND 110111 UND 101111 = 100100.
16
Was sagt uns dieser Vektor?
• 110100 UND 110111 UND 101111 = 100100.
17
Antony and
Cleopatra
Julius Caesar
The Tempest
Hamlet Othello Macbeth
Brutus 1 1 0 1 0 0
Caesar 1 1 0 1 1 1
Calpurnia (invertiert)
1 0 1 1 1 1
Ergebnis 1 0 0 1 0 0
Die Antwort auf die Anfrage
• Antony and Cleopatra, Akt III, Szene ii Textstelle:
Agrippa [Aside to DOMITIUS ENOBARBUS]: Why, Enobarbus,
When Antony found Julius Caesar dead,
He cried almost to roaring; and he wept
When at Philippi he found Brutus slain.
• Hamlet, Akt III, Szene ii Textstelle
Lord Polonius: I did enact Julius Caesar I was killed i' the
Capitol; Brutus killed me.
18
Vor- und Nachteile des Booleschen Modells I
• Kerneigenschaft: Präzise Anfragen sind möglich – Dokumente passen zur Anfrage oder nicht!
• Daher gut für Experten geeignet, die – das zugrundeliegende Modell verstehen und anwenden können,
– die verwendete Dokumentenbasis (den Korpus) kennen und
– die wissen, was sie wollen!
• Gut für (Computer-)Systeme, die einfach tausende von Ergebnissen verarbeiten können.
19
Vor- und Nachteile des Booleschen Modells II
• Nicht für die Mehrheit der Nutzer geeignet!
• Viele Nutzer sind nicht in der Lage mit Booleschen Anfragen zu arbeiten – viele syntaktische Fehler,
– verstehen das Modell nicht,
– können ihr Informationsbedürfnis nicht in Anfragesprache übersetzen...
• Das fehlende Ranking der Ergebnisse ist für normale Anwender nicht praxistauglich, da sie nicht Hunderte von Ergebnissen auswerten möchten.
• Dies gilt insbesondere im Bereich der Web-Suche.
20
Feast or Famine
• Boolesche Anfragen liefern oft zu wenige (=0) oder zu viele Ergebnisse (1000+).
• Anfrage 1: „standard user dlink 650“
– 200.000 Treffer Feast
• Anfrage 2: „standard user dlink 650 no card found“ – 0 Treffer Famine
• Beim Booleschen Retrievalmodell benötigt es eine Menge Kenntnis und Übung eine Anfrage zu formulieren, die eine überschaubare Anzahl an Ergebnissen hervorbringt!
21
Von Feast or Famine zum Ranked Retrieval
• Große Ergebnismengen sind mit Ranked Retrieval kein Problem mehr.
• Ranked Retrieval erlaubt es z.B. nur die Top 10 Ergebnisse zu betrachten und so den Nutzer zu entlasten.
• Voraussetzung ist ein Ranking-Algorithmus, der relevantere Ergebnisse vor weniger relevantere Ergebnisse sortiert.
22
Erweitertes Boolesches Modell
• In der Praxis wird ein Ranking durch einfache Sortierungen umgesetzt: – Chronologische Sortierung (neuste Ergebnisse zuerst),
– Alphabetische Sortierung (z.B. der Autorennamen).
• Es sind aber auch Gewichtungen möglich z.B. Häufigkeit der Anfrageterme im Dokument: Häufiges Auftreten von Anfragetermen im Dokument ist ein Zeichen für Relevanz.
• Allerdings handelt es sich hierbei um Sortierungen, kein wirkliches Ranking (dass eine Bewertung der Relevanz voraussetzt).
23
Zusammenfassung Boolesches Retrieval
• Einfache boolesche/binäre Entscheidungen (vorhanden / nicht vorhanden).
• Vorteile: – Simple Anfragen sind leicht zu verstehen
– Relativ leicht zu implementieren (Term-Dokument-Matrix)
• Nachteile: – Schwierig, genaue Anfragen zu spezifizieren
– Zu viel / zu wenig (Feast or Famine)
– Sortierung, aber nicht Ranking
• Meistgenutzte IR-Modell bis zum Durchbruch des Web.
24
Fragen
…?
25
Kontakt
• Dr. Philipp Mayr Tel: + 49 (0) 221 / 47694-533 [email protected]
• Dr. Philipp Schaer Tel: + 49 (0) 221 / 47694-521 [email protected]
• Maria Zens Tel: + 49 (0) 221 / 47694-236 [email protected]
http://www.schaer.de/teaching/recherche-2014
26