XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität...

Post on 05-Apr-2015

111 views 1 download

Transcript of XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität...

XIRQL: Eine Anfragesprache für Information Retrieval in XML-Dokumenten

Norbert Fuhr

Universität Dortmund

Gliederung

Strukturen in Dokumenten

XML-Anfragesprachen

XIRQL

Anwendungen

Zusammenfassung und Ausblick

Stufen der Nutzung von Dokumenten

1) Konsumieren

2) Analysieren

3) Synthetisieren

Für Stufen 2 und 3 (Integration in die eigentliche Arbeit) Unterstützung durch geeignete (elektronische) Dokumentformate notwendig

Strukturen in Dokumenten

IR in

J. Doe

networks

IRnetworksheterogeneityeffectivnessuser friendlyn.

inhaltlicheStruktur

chapterhead chapter

title autor section section section

document

logischeStruktur Layout-

Struktur

Dokument

Informationszugriff

formale

Anfrage

Informations-bedürfnis

inhaltlich Layoutlogisch

Selektions-

bedingungen

Resultat-Sicht

inhaltlich Layoutlogisch

(Transform.)

XML: explizite logische Struktur<book class="H.3.3"> <author>John Smith</author> <title>XML Retrieval</title> <chapter> <heading>Introduction</heading> This text explains all about XML and IR. </chapter> <chapter> <heading> XML Query Language XQL </heading> <section> <heading>Examples</heading> </section> <section> <heading>Syntax</heading> Now we describe the XQL syntax. </section> </chapter></book>

Elemente:StarttagEndetagInhaltAttribut

Graphische Darstellung

document

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query Language XQL

section

We describesyntax of XQL

chapter

XML-Anfragesprachen

Daten-zentrierte Sicht: XML als Austauschformat für strukturierte Daten

Dokumenten-zentrierte Sicht: XML als Format zur Repräsentation der logischen Struktur von Dokumenten

W3C-Empfehlung für XML-Anfragesprache: XQuery

Fokussierung auf die Daten-zentrierte Sicht

hier:

Information Retrieval für die Dokumenten-zentrierte Sicht

Ausgangspunkt: XQL

XQLdocument

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query Language XQL

section

We describesyntax of XQL

chapter

Pfadbedingung: Eltern-/Kindknoten chapter/heading

XQLdocument

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query Language XQL

section

We describesyntax of XQL

chapter

Pfadbedingung: Vorfahr-Nachfahr chapter//heading

XQLdocument

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query Language XQL

section

We describesyntax of XQL

chapter

Filter bzgl. Struktur: //chapter[heading]

XQLdocument

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query Language XQL

section

We describesyntax of XQL

chapter

Filter bzgl. Inhalt:

/document[@class="H.3.3" author="John Smith"]

Eigenschaften von XQL

Bedingungen bzgl. der logischen Struktur (Bedingungen bzgl. des Inhalts) Vollständige Elemente als Antworten (logische

Resultatsicht)

- Boolesches Retrieval (schlechte Retrievalqualität)

- inhaltliche Struktur wird nicht unterstützt

- nur wenige Datentypen

XIRQL: XML IR Query Language

probabilistisches Retrieval mit gewichteter Dokumentindexierung

Relevanz-orientierte Suche (inhaltliche Resultatsicht)

(erweiterbare) Datentypen mit vagen Prädikaten

Probabilistisches Retrieval in XIRQL

Problem: Gewichtung unterschiedlicher Vorkommensformen von Termen

/document[.//heading "XML" .//section//* "XML"]

document

Introduction

chapter

heading This. . .

heading

SyntaxExamples

headingXML Query Language XQL

section

We describesyntax of XQL

chapter

heading section

Gewichtung von Term-Vorkommen in Dokumenten

a) Gewichtung bezüglich einzelner Fragebedingungen

mögliche Überlappung von Fragebedingungen

abhängige probabilistische Ereignisse

nur Wahrscheinlichkeitsintervalle für Antworten

keine lineare Rangordnung der Dokumente

Gewichtung von Term-Vorkommen in Dokumenten

b) Gewichtung bezüglich bestimmter Dokumenttteile

Termgewichtung abhängig vom Kontext (Dokumentteil) des Vorkommens

alle Vorkommen in einem Kontext bezeichnen dasselbe Ereignis

nur identische und unabhängige Ereignisse Punktwahrscheinlichkeiten für Antworten lineare Rangordnung der Dokumente

Indexknoten als Einheiten zur Termgewichtung

Anwendung bekannter Indexierungsfunktionen (z.B. tf*idf)

1 2 3

4 5

document

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query

Lang. XQL

section

We describesyntax of

XQL

chapter

Probabilistische Ereignisse und Ereignisausdrücke

Problem: probabilistisch korrekte Kombination von Termgewichten bzgl. einer Anfrage

probabilistisches Basisereignis: Vorkommen eines Terms in einem Indexknoten

Basisereignisse sind voneinander unabhängig! (verschiedene Terme, gleicher Term in verschiedenen Indexknoten)

Ereignisausdrücke beschreiben die Kombination von Basisereignissen in einem Dokument bzgl. einer Anfrage

Ereignisausdrücke

1 2 3

4 5

document

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query

Lang. XQL

section

We describesyntax of

XQL

chapter

//section[.//* "XQL" .//* "syntax"]

[5,XQL] [5,syntax]

Ereignisausdrücke

/document/chapter [.//* "XQL" .//* "syntax"]

([3,XQL] [5,XQL]) [5,syntax]

1 2 3

4 5

document

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query

Lang. XQL

section

We describesyntax of

XQL

chapter

Auswertung von Ereignisausdrücken

1. Transformation des Ereignisausdrucks in disjunktive Normalforme = C1 … Cn

Ci: Konjunktion von Ereignisatomen

Ereignisatom: positives oder negiertes Basisereignis

2. Anwendung der Einschluss-/Ausschlussformel:

)...()( 1 nCCPeP

n

i njj

jji

i

iCCPeP1 ...1

1

1

1 )...()1()(

Relevanz-orientierte SucheRealisierung der inhaltsorientierten Sicht

(insbesondere für Anfragen unabhängig von der Dokumentstruktur)

1) Einschränkung der möglichen Antworten

(nicht alle Elemente sind geeignet)

2) Retrievalstrategie: liefere spezifischsten Teilbaum, der die Anfrage beantwortet

aber: Verrechnung mit gewichteter Indexierung?

Lösung:

1) Indexknoten als Wurzeln von möglichen Antworten

2) Augmentierung als Konzept zur Verrechnung des Tradeoff zwischen Indexierungsgewichten und Spezifität von Antworten

Indexknoten für Relevanz-orientierte Suche

1 2 3

4 5

document

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query

Lang. XQL

section

We describesyntax of

XQL

chapter

Augmentierung…durch Disjunktion

Beispielanfrage: syntax example

0.5 example 0.8 XQL0.7 syntax

section1 section2

0.3 XQL

chapter

0.5 example0.7 syntax

0.860.7*0.5

Augmentierung…durch Disjunktion

0.5 example 0.8 XQL0.7 syntax

section1 section2

0.3 XQL

chapter

0.5 example0.7 syntax

0.86

Beispielanfrage: XQL

0.86

0.8

Augmentierung…mit Augmentierungsgewicht

0.5 example 0.8 XQL0.7 syntax

section1 section2

0.3 XQL

chapter

0.30 example0.42 syntax

0.64

Beispielanfrage: XQL

0.6 0.6

0.64

0.8

XIRQL: Datentypen mit vagen Prädikaten

XML-Markup ermöglicht detaillierte Auszeichnung von Textelementen

Ausnutzung des Markups für präzisere Suchen

gleichzeitig Berücksichtigung von Unsicherheit und Vagheit beim Retrieval

Datentypen mit vagen Prädikaten

``Suche Informationen über das Werk eines Künstlers namens Ulbrich, der um 1900 im Rhein-Main-Gebiet tätig war''

Ernst Olbrich, Darmstadt, 1899

(Erweiterbare) Datentypen für Dokumenten-zentrierte Sicht

(Personennamen, Datumsangaben, geogr. Bezeichnungen, Klassifikationen / Bilder, Audio, Video,...)

Erweiterbare Typhierarchie

Erweiterbare Typhierarchie mit vagen Prädikaten für jeden Datentyp

1) text: substring-Match

2) westliche Sprache: Wortsuche, Trunkierung, Wortabstandssuche

3) deutscher Text: Grund- und Stammformsuche, Komponenten von Komposita

Datentypen der XML-Elemente werden in erweiterter DTD definiert

Prozessierung von XIRQL-Anfragen

1. Übersetzung in eine Pfad-Algebra

(Ergebnisse sind stets vollständige Elemente der ursprünglichen Dokumente)

2. Anfrageoptimierung

3. Entwicklung von Algorithmen für Best-Match-Anfragen

a) Zugriffspfade mit Ranking bzgl. einzelner Bedingungen

(Pfeifer & Fuhr 93, Fagin 96, Güntzer et al. 00)

b) nach Dokumentnummer geordnete Zugriffspfade (Textsuche)

(Buckley & Lewit 85, Pfeifer & Pennekamp 97)

Anwendung: Projekt CARMENDigitale Bibliotheken mit Metadaten von verteilt

gespeicherten Dokumenten (MathNet, PhysNet)

W

W

WIndexer

UserInterface

Web

Browser

Gatherer

RDF->XML

http

ftp

http

SearchEngine

HyREX

Reposit.

RDF

XML

Database

Anwendung: Projekt CYCLADESServices für vernetzte Open Archives (Preprint-Server)

Recommendation Service

Collaborative Work Service

Personalization Service

Query & Browse Mediator Service

Cyclades Mediator Service

Collection Service

Access Service

NDLTD. . .

arXiv NCSTRL clinmed RePEc

Zusammenfassung

strukturierte Dokumentformate zur besseren Nutzung von Dokumenten

Unterstützung der drei Arten von Strukturen in Dokumenten

(logische, Layout- und inhaltliche Struktur)

sowohl bei Selektion als auch bei anschließenden Transformationen

XIRQL: Anfragesprache für logische und inhaltliche Struktur

Ausblick

Effektivität: Evaluierung von Volltext-Retrieval (Projekt FOCUS)

Effizienz: Entwicklung von Zugriffsstrukturen, Anfrageoptimierung

Ausdrucksstärke: Erweiterung in Richtung XQuery (Restrukturierung, Aggregierung)

(Projekt CLASSIX)