XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität...
-
Upload
hrodebert-kempker -
Category
Documents
-
view
111 -
download
1
Transcript of XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität...
XIRQL: Eine Anfragesprache für Information Retrieval in XML-Dokumenten
Norbert Fuhr
Universität Dortmund
Gliederung
Strukturen in Dokumenten
XML-Anfragesprachen
XIRQL
Anwendungen
Zusammenfassung und Ausblick
Stufen der Nutzung von Dokumenten
1) Konsumieren
2) Analysieren
3) Synthetisieren
Für Stufen 2 und 3 (Integration in die eigentliche Arbeit) Unterstützung durch geeignete (elektronische) Dokumentformate notwendig
Strukturen in Dokumenten
IR in
J. Doe
networks
IRnetworksheterogeneityeffectivnessuser friendlyn.
inhaltlicheStruktur
chapterhead chapter
title autor section section section
document
logischeStruktur Layout-
Struktur
Dokument
Informationszugriff
formale
Anfrage
Informations-bedürfnis
inhaltlich Layoutlogisch
Selektions-
bedingungen
Resultat-Sicht
inhaltlich Layoutlogisch
(Transform.)
XML: explizite logische Struktur<book class="H.3.3"> <author>John Smith</author> <title>XML Retrieval</title> <chapter> <heading>Introduction</heading> This text explains all about XML and IR. </chapter> <chapter> <heading> XML Query Language XQL </heading> <section> <heading>Examples</heading> </section> <section> <heading>Syntax</heading> Now we describe the XQL syntax. </section> </chapter></book>
Elemente:StarttagEndetagInhaltAttribut
Graphische Darstellung
document
class="H.3.3"
author
John Smith
title
XML Retrieval Introduction
chapter
heading This. . .
heading
SyntaxExamples
heading
sectionheading
XML Query Language XQL
section
We describesyntax of XQL
chapter
XML-Anfragesprachen
Daten-zentrierte Sicht: XML als Austauschformat für strukturierte Daten
Dokumenten-zentrierte Sicht: XML als Format zur Repräsentation der logischen Struktur von Dokumenten
W3C-Empfehlung für XML-Anfragesprache: XQuery
Fokussierung auf die Daten-zentrierte Sicht
hier:
Information Retrieval für die Dokumenten-zentrierte Sicht
Ausgangspunkt: XQL
XQLdocument
class="H.3.3"
author
John Smith
title
XML Retrieval Introduction
chapter
heading This. . .
heading
SyntaxExamples
heading
sectionheading
XML Query Language XQL
section
We describesyntax of XQL
chapter
Pfadbedingung: Eltern-/Kindknoten chapter/heading
XQLdocument
class="H.3.3"
author
John Smith
title
XML Retrieval Introduction
chapter
heading This. . .
heading
SyntaxExamples
heading
sectionheading
XML Query Language XQL
section
We describesyntax of XQL
chapter
Pfadbedingung: Vorfahr-Nachfahr chapter//heading
XQLdocument
class="H.3.3"
author
John Smith
title
XML Retrieval Introduction
chapter
heading This. . .
heading
SyntaxExamples
heading
sectionheading
XML Query Language XQL
section
We describesyntax of XQL
chapter
Filter bzgl. Struktur: //chapter[heading]
XQLdocument
class="H.3.3"
author
John Smith
title
XML Retrieval Introduction
chapter
heading This. . .
heading
SyntaxExamples
heading
sectionheading
XML Query Language XQL
section
We describesyntax of XQL
chapter
Filter bzgl. Inhalt:
/document[@class="H.3.3" author="John Smith"]
Eigenschaften von XQL
Bedingungen bzgl. der logischen Struktur (Bedingungen bzgl. des Inhalts) Vollständige Elemente als Antworten (logische
Resultatsicht)
- Boolesches Retrieval (schlechte Retrievalqualität)
- inhaltliche Struktur wird nicht unterstützt
- nur wenige Datentypen
XIRQL: XML IR Query Language
probabilistisches Retrieval mit gewichteter Dokumentindexierung
Relevanz-orientierte Suche (inhaltliche Resultatsicht)
(erweiterbare) Datentypen mit vagen Prädikaten
Probabilistisches Retrieval in XIRQL
Problem: Gewichtung unterschiedlicher Vorkommensformen von Termen
/document[.//heading "XML" .//section//* "XML"]
document
Introduction
chapter
heading This. . .
heading
SyntaxExamples
headingXML Query Language XQL
section
We describesyntax of XQL
chapter
heading section
Gewichtung von Term-Vorkommen in Dokumenten
a) Gewichtung bezüglich einzelner Fragebedingungen
mögliche Überlappung von Fragebedingungen
abhängige probabilistische Ereignisse
nur Wahrscheinlichkeitsintervalle für Antworten
keine lineare Rangordnung der Dokumente
Gewichtung von Term-Vorkommen in Dokumenten
b) Gewichtung bezüglich bestimmter Dokumenttteile
Termgewichtung abhängig vom Kontext (Dokumentteil) des Vorkommens
alle Vorkommen in einem Kontext bezeichnen dasselbe Ereignis
nur identische und unabhängige Ereignisse Punktwahrscheinlichkeiten für Antworten lineare Rangordnung der Dokumente
Indexknoten als Einheiten zur Termgewichtung
Anwendung bekannter Indexierungsfunktionen (z.B. tf*idf)
1 2 3
4 5
document
class="H.3.3"
author
John Smith
title
XML Retrieval Introduction
chapter
heading This. . .
heading
SyntaxExamples
heading
sectionheading
XML Query
Lang. XQL
section
We describesyntax of
XQL
chapter
Probabilistische Ereignisse und Ereignisausdrücke
Problem: probabilistisch korrekte Kombination von Termgewichten bzgl. einer Anfrage
probabilistisches Basisereignis: Vorkommen eines Terms in einem Indexknoten
Basisereignisse sind voneinander unabhängig! (verschiedene Terme, gleicher Term in verschiedenen Indexknoten)
Ereignisausdrücke beschreiben die Kombination von Basisereignissen in einem Dokument bzgl. einer Anfrage
Ereignisausdrücke
1 2 3
4 5
document
class="H.3.3"
author
John Smith
title
XML Retrieval Introduction
chapter
heading This. . .
heading
SyntaxExamples
heading
sectionheading
XML Query
Lang. XQL
section
We describesyntax of
XQL
chapter
//section[.//* "XQL" .//* "syntax"]
[5,XQL] [5,syntax]
Ereignisausdrücke
/document/chapter [.//* "XQL" .//* "syntax"]
([3,XQL] [5,XQL]) [5,syntax]
1 2 3
4 5
document
class="H.3.3"
author
John Smith
title
XML Retrieval Introduction
chapter
heading This. . .
heading
SyntaxExamples
heading
sectionheading
XML Query
Lang. XQL
section
We describesyntax of
XQL
chapter
Auswertung von Ereignisausdrücken
1. Transformation des Ereignisausdrucks in disjunktive Normalforme = C1 … Cn
Ci: Konjunktion von Ereignisatomen
Ereignisatom: positives oder negiertes Basisereignis
2. Anwendung der Einschluss-/Ausschlussformel:
)...()( 1 nCCPeP
n
i njj
jji
i
iCCPeP1 ...1
1
1
1 )...()1()(
Relevanz-orientierte SucheRealisierung der inhaltsorientierten Sicht
(insbesondere für Anfragen unabhängig von der Dokumentstruktur)
1) Einschränkung der möglichen Antworten
(nicht alle Elemente sind geeignet)
2) Retrievalstrategie: liefere spezifischsten Teilbaum, der die Anfrage beantwortet
aber: Verrechnung mit gewichteter Indexierung?
Lösung:
1) Indexknoten als Wurzeln von möglichen Antworten
2) Augmentierung als Konzept zur Verrechnung des Tradeoff zwischen Indexierungsgewichten und Spezifität von Antworten
Indexknoten für Relevanz-orientierte Suche
1 2 3
4 5
document
class="H.3.3"
author
John Smith
title
XML Retrieval Introduction
chapter
heading This. . .
heading
SyntaxExamples
heading
sectionheading
XML Query
Lang. XQL
section
We describesyntax of
XQL
chapter
Augmentierung…durch Disjunktion
Beispielanfrage: syntax example
0.5 example 0.8 XQL0.7 syntax
section1 section2
0.3 XQL
chapter
0.5 example0.7 syntax
0.860.7*0.5
Augmentierung…durch Disjunktion
0.5 example 0.8 XQL0.7 syntax
section1 section2
0.3 XQL
chapter
0.5 example0.7 syntax
0.86
Beispielanfrage: XQL
0.86
0.8
Augmentierung…mit Augmentierungsgewicht
0.5 example 0.8 XQL0.7 syntax
section1 section2
0.3 XQL
chapter
0.30 example0.42 syntax
0.64
Beispielanfrage: XQL
0.6 0.6
0.64
0.8
XIRQL: Datentypen mit vagen Prädikaten
XML-Markup ermöglicht detaillierte Auszeichnung von Textelementen
Ausnutzung des Markups für präzisere Suchen
gleichzeitig Berücksichtigung von Unsicherheit und Vagheit beim Retrieval
Datentypen mit vagen Prädikaten
``Suche Informationen über das Werk eines Künstlers namens Ulbrich, der um 1900 im Rhein-Main-Gebiet tätig war''
Ernst Olbrich, Darmstadt, 1899
(Erweiterbare) Datentypen für Dokumenten-zentrierte Sicht
(Personennamen, Datumsangaben, geogr. Bezeichnungen, Klassifikationen / Bilder, Audio, Video,...)
Erweiterbare Typhierarchie
Erweiterbare Typhierarchie mit vagen Prädikaten für jeden Datentyp
1) text: substring-Match
2) westliche Sprache: Wortsuche, Trunkierung, Wortabstandssuche
3) deutscher Text: Grund- und Stammformsuche, Komponenten von Komposita
Datentypen der XML-Elemente werden in erweiterter DTD definiert
Prozessierung von XIRQL-Anfragen
1. Übersetzung in eine Pfad-Algebra
(Ergebnisse sind stets vollständige Elemente der ursprünglichen Dokumente)
2. Anfrageoptimierung
3. Entwicklung von Algorithmen für Best-Match-Anfragen
a) Zugriffspfade mit Ranking bzgl. einzelner Bedingungen
(Pfeifer & Fuhr 93, Fagin 96, Güntzer et al. 00)
b) nach Dokumentnummer geordnete Zugriffspfade (Textsuche)
(Buckley & Lewit 85, Pfeifer & Pennekamp 97)
Anwendung: Projekt CARMENDigitale Bibliotheken mit Metadaten von verteilt
gespeicherten Dokumenten (MathNet, PhysNet)
W
W
WIndexer
UserInterface
Web
Browser
Gatherer
RDF->XML
http
ftp
http
SearchEngine
HyREX
Reposit.
RDF
XML
Database
Anwendung: Projekt CYCLADESServices für vernetzte Open Archives (Preprint-Server)
Recommendation Service
Collaborative Work Service
Personalization Service
Query & Browse Mediator Service
Cyclades Mediator Service
Collection Service
Access Service
NDLTD. . .
arXiv NCSTRL clinmed RePEc
Zusammenfassung
strukturierte Dokumentformate zur besseren Nutzung von Dokumenten
Unterstützung der drei Arten von Strukturen in Dokumenten
(logische, Layout- und inhaltliche Struktur)
sowohl bei Selektion als auch bei anschließenden Transformationen
XIRQL: Anfragesprache für logische und inhaltliche Struktur
Ausblick
Effektivität: Evaluierung von Volltext-Retrieval (Projekt FOCUS)
Effizienz: Entwicklung von Zugriffsstrukturen, Anfrageoptimierung
Ausdrucksstärke: Erweiterung in Richtung XQuery (Restrukturierung, Aggregierung)
(Projekt CLASSIX)