XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität...

34
XIRQL: Eine Anfragesprache für Information Retrieval in XML-Dokumenten Norbert Fuhr Universität Dortmund

Transcript of XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität...

Page 1: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

XIRQL: Eine Anfragesprache für Information Retrieval in XML-Dokumenten

Norbert Fuhr

Universität Dortmund

Page 2: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Gliederung

Strukturen in Dokumenten

XML-Anfragesprachen

XIRQL

Anwendungen

Zusammenfassung und Ausblick

Page 3: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Stufen der Nutzung von Dokumenten

1) Konsumieren

2) Analysieren

3) Synthetisieren

Für Stufen 2 und 3 (Integration in die eigentliche Arbeit) Unterstützung durch geeignete (elektronische) Dokumentformate notwendig

Page 4: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Strukturen in Dokumenten

IR in

J. Doe

networks

IRnetworksheterogeneityeffectivnessuser friendlyn.

inhaltlicheStruktur

chapterhead chapter

title autor section section section

document

logischeStruktur Layout-

Struktur

Dokument

Page 5: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Informationszugriff

formale

Anfrage

Informations-bedürfnis

inhaltlich Layoutlogisch

Selektions-

bedingungen

Resultat-Sicht

inhaltlich Layoutlogisch

(Transform.)

Page 6: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

XML: explizite logische Struktur<book class="H.3.3"> <author>John Smith</author> <title>XML Retrieval</title> <chapter> <heading>Introduction</heading> This text explains all about XML and IR. </chapter> <chapter> <heading> XML Query Language XQL </heading> <section> <heading>Examples</heading> </section> <section> <heading>Syntax</heading> Now we describe the XQL syntax. </section> </chapter></book>

Elemente:StarttagEndetagInhaltAttribut

Page 7: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Graphische Darstellung

document

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query Language XQL

section

We describesyntax of XQL

chapter

Page 8: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

XML-Anfragesprachen

Daten-zentrierte Sicht: XML als Austauschformat für strukturierte Daten

Dokumenten-zentrierte Sicht: XML als Format zur Repräsentation der logischen Struktur von Dokumenten

W3C-Empfehlung für XML-Anfragesprache: XQuery

Fokussierung auf die Daten-zentrierte Sicht

hier:

Information Retrieval für die Dokumenten-zentrierte Sicht

Ausgangspunkt: XQL

Page 9: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

XQLdocument

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query Language XQL

section

We describesyntax of XQL

chapter

Pfadbedingung: Eltern-/Kindknoten chapter/heading

Page 10: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

XQLdocument

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query Language XQL

section

We describesyntax of XQL

chapter

Pfadbedingung: Vorfahr-Nachfahr chapter//heading

Page 11: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

XQLdocument

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query Language XQL

section

We describesyntax of XQL

chapter

Filter bzgl. Struktur: //chapter[heading]

Page 12: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

XQLdocument

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query Language XQL

section

We describesyntax of XQL

chapter

Filter bzgl. Inhalt:

/document[@class="H.3.3" author="John Smith"]

Page 13: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Eigenschaften von XQL

Bedingungen bzgl. der logischen Struktur (Bedingungen bzgl. des Inhalts) Vollständige Elemente als Antworten (logische

Resultatsicht)

- Boolesches Retrieval (schlechte Retrievalqualität)

- inhaltliche Struktur wird nicht unterstützt

- nur wenige Datentypen

Page 14: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

XIRQL: XML IR Query Language

probabilistisches Retrieval mit gewichteter Dokumentindexierung

Relevanz-orientierte Suche (inhaltliche Resultatsicht)

(erweiterbare) Datentypen mit vagen Prädikaten

Page 15: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Probabilistisches Retrieval in XIRQL

Problem: Gewichtung unterschiedlicher Vorkommensformen von Termen

/document[.//heading "XML" .//section//* "XML"]

document

Introduction

chapter

heading This. . .

heading

SyntaxExamples

headingXML Query Language XQL

section

We describesyntax of XQL

chapter

heading section

Page 16: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Gewichtung von Term-Vorkommen in Dokumenten

a) Gewichtung bezüglich einzelner Fragebedingungen

mögliche Überlappung von Fragebedingungen

abhängige probabilistische Ereignisse

nur Wahrscheinlichkeitsintervalle für Antworten

keine lineare Rangordnung der Dokumente

Page 17: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Gewichtung von Term-Vorkommen in Dokumenten

b) Gewichtung bezüglich bestimmter Dokumenttteile

Termgewichtung abhängig vom Kontext (Dokumentteil) des Vorkommens

alle Vorkommen in einem Kontext bezeichnen dasselbe Ereignis

nur identische und unabhängige Ereignisse Punktwahrscheinlichkeiten für Antworten lineare Rangordnung der Dokumente

Page 18: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Indexknoten als Einheiten zur Termgewichtung

Anwendung bekannter Indexierungsfunktionen (z.B. tf*idf)

1 2 3

4 5

document

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query

Lang. XQL

section

We describesyntax of

XQL

chapter

Page 19: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Probabilistische Ereignisse und Ereignisausdrücke

Problem: probabilistisch korrekte Kombination von Termgewichten bzgl. einer Anfrage

probabilistisches Basisereignis: Vorkommen eines Terms in einem Indexknoten

Basisereignisse sind voneinander unabhängig! (verschiedene Terme, gleicher Term in verschiedenen Indexknoten)

Ereignisausdrücke beschreiben die Kombination von Basisereignissen in einem Dokument bzgl. einer Anfrage

Page 20: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Ereignisausdrücke

1 2 3

4 5

document

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query

Lang. XQL

section

We describesyntax of

XQL

chapter

//section[.//* "XQL" .//* "syntax"]

[5,XQL] [5,syntax]

Page 21: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Ereignisausdrücke

/document/chapter [.//* "XQL" .//* "syntax"]

([3,XQL] [5,XQL]) [5,syntax]

1 2 3

4 5

document

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query

Lang. XQL

section

We describesyntax of

XQL

chapter

Page 22: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Auswertung von Ereignisausdrücken

1. Transformation des Ereignisausdrucks in disjunktive Normalforme = C1 … Cn

Ci: Konjunktion von Ereignisatomen

Ereignisatom: positives oder negiertes Basisereignis

2. Anwendung der Einschluss-/Ausschlussformel:

)...()( 1 nCCPeP

n

i njj

jji

i

iCCPeP1 ...1

1

1

1 )...()1()(

Page 23: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Relevanz-orientierte SucheRealisierung der inhaltsorientierten Sicht

(insbesondere für Anfragen unabhängig von der Dokumentstruktur)

1) Einschränkung der möglichen Antworten

(nicht alle Elemente sind geeignet)

2) Retrievalstrategie: liefere spezifischsten Teilbaum, der die Anfrage beantwortet

aber: Verrechnung mit gewichteter Indexierung?

Lösung:

1) Indexknoten als Wurzeln von möglichen Antworten

2) Augmentierung als Konzept zur Verrechnung des Tradeoff zwischen Indexierungsgewichten und Spezifität von Antworten

Page 24: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Indexknoten für Relevanz-orientierte Suche

1 2 3

4 5

document

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query

Lang. XQL

section

We describesyntax of

XQL

chapter

Page 25: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Augmentierung…durch Disjunktion

Beispielanfrage: syntax example

0.5 example 0.8 XQL0.7 syntax

section1 section2

0.3 XQL

chapter

0.5 example0.7 syntax

0.860.7*0.5

Page 26: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Augmentierung…durch Disjunktion

0.5 example 0.8 XQL0.7 syntax

section1 section2

0.3 XQL

chapter

0.5 example0.7 syntax

0.86

Beispielanfrage: XQL

0.86

0.8

Page 27: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Augmentierung…mit Augmentierungsgewicht

0.5 example 0.8 XQL0.7 syntax

section1 section2

0.3 XQL

chapter

0.30 example0.42 syntax

0.64

Beispielanfrage: XQL

0.6 0.6

0.64

0.8

Page 28: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

XIRQL: Datentypen mit vagen Prädikaten

XML-Markup ermöglicht detaillierte Auszeichnung von Textelementen

Ausnutzung des Markups für präzisere Suchen

gleichzeitig Berücksichtigung von Unsicherheit und Vagheit beim Retrieval

Datentypen mit vagen Prädikaten

``Suche Informationen über das Werk eines Künstlers namens Ulbrich, der um 1900 im Rhein-Main-Gebiet tätig war''

Ernst Olbrich, Darmstadt, 1899

(Erweiterbare) Datentypen für Dokumenten-zentrierte Sicht

(Personennamen, Datumsangaben, geogr. Bezeichnungen, Klassifikationen / Bilder, Audio, Video,...)

Page 29: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Erweiterbare Typhierarchie

Erweiterbare Typhierarchie mit vagen Prädikaten für jeden Datentyp

1) text: substring-Match

2) westliche Sprache: Wortsuche, Trunkierung, Wortabstandssuche

3) deutscher Text: Grund- und Stammformsuche, Komponenten von Komposita

Datentypen der XML-Elemente werden in erweiterter DTD definiert

Page 30: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Prozessierung von XIRQL-Anfragen

1. Übersetzung in eine Pfad-Algebra

(Ergebnisse sind stets vollständige Elemente der ursprünglichen Dokumente)

2. Anfrageoptimierung

3. Entwicklung von Algorithmen für Best-Match-Anfragen

a) Zugriffspfade mit Ranking bzgl. einzelner Bedingungen

(Pfeifer & Fuhr 93, Fagin 96, Güntzer et al. 00)

b) nach Dokumentnummer geordnete Zugriffspfade (Textsuche)

(Buckley & Lewit 85, Pfeifer & Pennekamp 97)

Page 31: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Anwendung: Projekt CARMENDigitale Bibliotheken mit Metadaten von verteilt

gespeicherten Dokumenten (MathNet, PhysNet)

W

W

WIndexer

UserInterface

Web

Browser

Gatherer

RDF->XML

http

ftp

http

SearchEngine

HyREX

Reposit.

RDF

XML

Database

Page 32: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Anwendung: Projekt CYCLADESServices für vernetzte Open Archives (Preprint-Server)

Recommendation Service

Collaborative Work Service

Personalization Service

Query & Browse Mediator Service

Cyclades Mediator Service

Collection Service

Access Service

NDLTD. . .

arXiv NCSTRL clinmed RePEc

Page 33: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Zusammenfassung

strukturierte Dokumentformate zur besseren Nutzung von Dokumenten

Unterstützung der drei Arten von Strukturen in Dokumenten

(logische, Layout- und inhaltliche Struktur)

sowohl bei Selektion als auch bei anschließenden Transformationen

XIRQL: Anfragesprache für logische und inhaltliche Struktur

Page 34: XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Ausblick

Effektivität: Evaluierung von Volltext-Retrieval (Projekt FOCUS)

Effizienz: Entwicklung von Zugriffsstrukturen, Anfrageoptimierung

Ausdrucksstärke: Erweiterung in Richtung XQuery (Restrukturierung, Aggregierung)

(Projekt CLASSIX)