Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund [email protected].

41
Information Retrieval in XML-Dokumenten Norbert Fuhr Universität Dortmund [email protected]

Transcript of Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund [email protected].

Page 1: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

Information Retrieval in XML-Dokumenten

Norbert Fuhr

Universität Dortmund

[email protected]

Page 2: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

Inhalt

I. Einführung

II. IR-Konzepte für XML

III. XIRQL

IV. HyREX-Retrievalengine

V. Zusammenfassung und Ausblick

Page 3: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

I. Einführung

Daten- vs. Dokument-orientierte Sicht auf XML

XQuery

Information Retrieval

IR = Unsicherheit und Vagheit

Page 4: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

Daten-orientierte Sicht auf XML<?xml version="1.0"?> <rdf:RDF xmlns:rdf = "http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:vCard = "http://www.w3.org/2001/vcard-rdf/3.0#"> <rdf:Description rdf:about = "http://ls6-www.cs.uni-dortmund/~fuhr" > <vCard:FN> Norbert Fuhr </vCard:FN> <vCard:N rdf:parseType="Resource"> <vCard:Family> Fuhr </vCard:Family> <vCard:Given> Norbert </vCard:Given> </vCard:N> <vCard:TITLE> University Professor </vCard:TITLE> <vCard:TEL rdf:parseType="Resource"> <rdf:value> +49 231 755 2045 </rdf:value> </vCard:TEL> <vCard:EMAIL rdf:parseType="Resource"> <rdf:value> [email protected] </rdf:value> </vCard:EMAIL> </rdf:Description> </rdf:RDF>

Page 5: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

Dokument-orientierte Sicht auf XML<book class="H.3.3"> <author>John Smith</author> <title>XML Retrieval</title> <chapter> <heading>Introduction</heading> This text explains all about XML and IR. </chapter> <chapter> <heading> XML Query Language XQL </heading> <section> <heading>Examples</heading> </section> <section> <heading>Syntax</heading> Now we describe the XQL syntax. </section> </chapter></book>

Page 6: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

Daten- vs. Dokument-orientierte Sicht

Daten-orientierte Sicht

XML als Austauschformat für strukturierte Daten

Dokumenten-orientierte Sicht

XML als Format zur Repräsentation der logischen Struktur von Dokumenten

Page 7: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

XQuery

FOR/LET PathExpression

WHERE AdditionalSelectionCriteria

RETURN ResultConstruction

Page 8: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

XQuerydocument

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query Language XQL

section

We describesyntax of XQL

chapter

Pfadbedingung: Eltern-/Kindknoten chapter/heading

Page 9: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

XQuerydocument

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query Language XQL

section

We describesyntax of XQL

chapter

Pfadbedingung: Vorfahr-Nachfahr chapter//heading

Page 10: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

XQuerydocument

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query Language XQL

section

We describesyntax of XQL

chapter

Filter bzgl. Struktur: //chapter[heading]

Page 11: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

XQuerydocument

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query Language XQL

section

We describesyntax of XQL

chapter

Filter bzgl. Inhalt:

/document[@class="H.3.3" author="John Smith"]

Page 12: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

Information Retrieval

Beispiel: Internet-Suchmaschinen

Page 13: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.
Page 14: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.
Page 15: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

IR = Unsicherheit und Vagheit

Unsichere Repräsentation des Inhalts von Dokumenten

Vage Beschreibungen des eigentlichen Informationswunsches

Gewichtung von Dokumenten bzgl . Anfragebedingungen

Rangordnung von Dokumenten als Antwort

Page 16: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

IR-Konzepte in XQuery

Nur boolesches Retrieval keine Gewichtung keine Rangordnungen

Bislang nur Funktionen zur Suche nach einzelnen Wörtern

Page 17: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

II. IR-Konzepte für XML

Gewichtung und Ranking

Relevanz-orientierte Suche

Datentypen mit vagen Prädikaten

Struktureller Relativismus

Page 18: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

Gewichtung und RankingProblem: Gewichtung unterschiedlicher Vorkommensformen von

Termen

/document[.//heading "XML" .//section//* "XML"] document

Introduction

chapter

heading This. . .

heading

SyntaxExamples

headingXML Query Language XQL

section

We describesyntax of XQL

chapter

heading section

Page 19: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

Indexknoten als Einheiten zur Termgewichtung

Anwendung bekannter Indexierungsfunktionen (z.B. tf*idf)

1 2 3

4 5

document

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query

Lang. XQL

section

We describesyntax of

XQL

chapter

Page 20: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

Indexknoten als Einheiten zur Termgewichtung

document

class="H.3.3"

author title

chapter

heading This. . .

heading

0.4 XML

heading

sectionheading

0.6 XML

section

chapter

/document[.//heading "XML" .//section//* "XML"]

0.6 XML 0.4 XML

0.6 XML 0.4 XML 0.4+0.6-0.4*0.6 = 0.86

Page 21: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

Relevanz-orientierte Suchefür Anfragen unabhängig von der Dokumentstruktur

(z.B.: “Suche Dokument(teil)e über XML-Anfragesprachen”)

Einschränkung der möglichen Antworten

(nicht alle Elemente sind geeignet) Retrievalstrategie: liefere spezifischsten Teilbaum, der die

Anfrage beantwortet

aber: Verrechnung mit gewichteter Indexierung?

Lösung:

Indexknoten als Wurzeln von möglichen Antworten

Augmentierung als Konzept zur Verrechnung des Tradeoff zwischen Indexierungsgewichten und Spezifität von Antworten

Page 22: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

Indexknoten für Relevanz-orientierte Suche

1 2 3

4 5

document

class="H.3.3"

author

John Smith

title

XML Retrieval Introduction

chapter

heading This. . .

heading

SyntaxExamples

heading

sectionheading

XML Query

Lang. XQL

section

We describesyntax of

XQL

chapter

Page 23: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

Augmentierung

0.5 example 0.8 XQL0.7 syntax

section1 section2

0.3 XQL

chapter

0.30 example0.42 syntax

0.64

Beispielanfrage: syntax & example

0.6 0.6

0.126

Page 24: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

Augmentierung

0.5 example 0.8 XQL0.7 syntax

section1 section2

0.3 XQL

chapter

0.30 example0.42 syntax

0.64

Beispielanfrage: XQL

0.6 0.6

0.64

0.8

Page 25: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

Datentypen mit vagen Prädikaten

XML-Markup ermöglicht detaillierte Auszeichnung von Textelementen

Ausnutzung des Markups für präzisere Suchen

gleichzeitig Berücksichtigung von Unsicherheit und Vagheit beim Retrieval

Datentypen mit vagen Prädikaten

``Suche Informationen über das Werk eines Künstlers namens Ulbrich, der um 1900 im Rhein-Main-Gebiet tätig war''

Ernst Olbrich, Darmstadt, 1899

(Erweiterbare) Datentypen für Dokumenten-zentrierte Sicht

(Personennamen, Datumsangaben, geogr. Bezeichnungen, Klassifikationen / Bilder, Audio, Video,...)

Page 26: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

Erweiterbare Typhierarchie

Erweiterbare Typhierarchie mit vagen Prädikaten für jeden Datentyp

1. text: substring-Match

2. westliche Sprache: Wortsuche, Trunkierung, Wortabstandssuche

3. deutscher Text: Grund- und Stammformsuche, Komponenten von Komposita

Datentypen der XML-Elemente werden in XML-Schema definiert

Page 27: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

Struktureller Relativismus

Unterscheidung Element/Attribut fallenlassen:

~author="Smith"

Suche in allen Elementen eines bestimmten Datentyps:

#date=2001

Page 28: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

III. XIRQL

Erweiterung der Path Expressions von XQuery:

probabilistisches Retrieval mit gewichteter Dokumentindexierung

Relevanz-orientierte Suche

Datentypen mit vagen Prädikaten

Struktureller Relativismus

XML IR Query Language

Page 29: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

XIRQL-Path-Expressions

Vage Prädikate

text $c-word$ “compute”

author $soundslike$ “meier”

Gewichtete Fragebedingungen

0.7 . $c-word$ “retrieval” + 0.3 . $c-word$ “XML”

Relevanz-orientierte Anfragen

inode()[… $c-phrase$ “XML retrieval”]

Struktureller Relativismus:

//#person $soundslike$ “meier”

Page 30: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

XIRQL vs. XQuery

XIRQL prozessiert Teilmenge von XQuery-Anfragen:

FOR $X=PathExpression

RETURN $X

Keine Restrukturierung von Antworten

Keine Werte-basierten Joins zwischen verschiedenen Dokumenten

Erweiterte Path Expressions für IR

Page 31: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

IV. HyREX

Hypermedia Retrieval Engine for XML

Open-Source-Software für Information Retrieval in XML-Dokumenten

Gefördert vom BMBF im Rahmen des GlobalInfo-Projektes CARMEN

Page 32: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

HyREX-Architektur

HyGate: Web-Gateway

XIRQL: Anfragesprache auf der logischen Ebene

HyPath: Zugriffspfade (physische Ebene)

SearchNavigate

Results

WWW Browser

HyPath

Logical Level

XIRQL

HyGate

HyREX

Physical Level

Page 33: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

HyREX-Datentypen

Text

Base

DatePersonName Numeric

French Portuguese Dutch Danish Norwegian Swedish

English German Italian Spanish ACMCCS MSCPACS

Classification

Page 34: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

Query by Example: Werte-orientiert

Page 35: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

Query by Example: Struktur-orientiert

Page 36: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

Ergebnis-Visualisierung: Textbars

Page 37: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

Ergebnis-Visualisierung: Treemaps

Page 38: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.
Page 39: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

V. Zusammenfassung und Ausblick

Dokument-orientierte XML-Anwendungen erfordern Information-Retrieval-Funktionen

IR muss Unsicherheit und Vagheit berücksichtigen

W3C-Vorschlag XQuery nicht ausreichend für IR

Page 40: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

Zusammenfassung

IR-Konzepte für XML:Gewichtung und Ranking

Datentypen und vage Prädikate

Relevanz-orientierte Suche

Struktureller Relativismus

XIRQL als IR-Erweiterung einer XQuery-Teilmenge

HyREX: Open-Source-Retrievalengine für XML:

ls6-www.cs.uni-dortmund.de/hyrex(BMBF-Projekt CARMEN)

Page 41: Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.

Ausblick

Entwicklung von Verfahren für effizientes Best-Match-Retrieval für XIRQL

Kombination von XIRQL und XQuery: probabilistische Variante von XQuery

(DFG-Projekt CLASSIX, zusammen mit Gerhard Weikum, Univ. Saarbrücken, ab 1.2.02)