28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

18
28.02.2006 Ebru Iscan, Andrea K Experiment e Seminar "Experimentielle Evaluierung im IR"

Transcript of 28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

Page 1: 28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

28.02.2006 Ebru Iscan, Andrea Kováčová

Experimente

Seminar "Experimentielle Evaluierung im IR"

Page 2: 28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

28.02.2006 Ebru Iscan, Andrea Kováčová

Aufgabe 1

DTF vs. DTF max. 5 DL vs. DTF max. 10 DLs

BM 25 vs. TF.IDF

c=1

P0=0.5 vs. P0=1

Page 3: 28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

28.02.2006 Ebru Iscan, Andrea Kováčová

ExpUtils.java

Hier wird der Zugang zur Datenbank vorkonfiguriert (thibault)Parameter der Aufgabe werden durch die Kommandozeile übergebenParameter dtf:Syntax: -dtf <Anzahl>Default: 0 (DTFRS)In der Aufgabe 1 wahlweise DTFRS (0) oder MaxNumDTFRS(5) oder

MaxNumDTFRS(10)Indexierungsfunktionen:Syntax: -type plain|stemen_bm25|stemen_tfidfDefault: plainIn der Aufgabe wahlweise stemen_bm25 oder stemen_tfidfAlso muss angegeben werdenParameter c:Syntax: -c <Wert>Default: 1.0In der Aufgabe 1 immer 1.0 – muss nicht angegeben werdenParameter P0:Syntax: -p0 <Wert>Default: 1.0In der Aufgabe 1 wahlweise 0.5 oder 1.0Wesentliche Funktionen:parseArgs() – Ermittelt die Afgabeparameter aus der KommandozeilegetDB() – Baut die Verbindung automatisch aufcreatePIRE(<KollektionsName>) – registriet jeweilige Operatoren und bildet

ihre Attribute im PIREcreateRS() – baut den jeweilgen Resource Selection Objekt auf – DTFRS

oder MaxNumDTFRS(n)

Page 4: 28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

28.02.2006 Ebru Iscan, Andrea Kováčová

Indexierung

Die allgemeine Indexierung der Dokumenteninhalte wird ausgeführt

Operatoren über den Textinhalt und ihre interne Konfiguration werden mit den Parameter aus der Kommandozeile gesetzt

Die Indexierung wurde auf alle Kollektionen ausgeweitet Für jede Kollektion wird ein PIRE-Objekt gebildet Aus allen *.gz-Dateien in der jeweiligen Kollektion werden

anhand der vordefinierten Trennzeichen Dok-Ids extrahiert, danach wird der Dokumenteninhalt als TextAttribut für die Indexierung registriet

Danach werden alle Indexe der Kollektion/PIRE-Objekt berechnet

Page 5: 28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

28.02.2006 Ebru Iscan, Andrea Kováčová

Indexierung

Page 6: 28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

28.02.2006 Ebru Iscan, Andrea Kováčová

Aufbau der digitalen Bibliothek

Die Resource Description nach dem allgemeinen Format für Digitale Bibliotheken wird erstellt

Die digitale Bibliothek wird 24 mal (pro Kollektion) durch Verwendung des zustänidgen PIRE-Objekts gebaut

Standardkonfiguration für DTF wird verwendet Interne Konfigurationswerte (c und P0) werden anschliessend

gespeichert

Page 7: 28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

28.02.2006 Ebru Iscan, Andrea Kováčová

Resource Description

Page 8: 28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

28.02.2006 Ebru Iscan, Andrea Kováčová

Abfragekosten bestimmen

Die Kosten der Abfragen werden im bestimmt Immer pro Kollektion mit dem zuständigen PIRE-Objekt Konfiguration der digitalen Bibliothek wird dazu geladen Die Kosten werden immer einzeln für die jeweilige digitale

Bibliothek berechnet In dem aktuellen Verzeichnis wird die Datei 51.costs mit den

Ergebnissen gebildet

Page 9: 28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

28.02.2006 Ebru Iscan, Andrea Kováčová

Kosten berechnen

Page 10: 28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

28.02.2006 Ebru Iscan, Andrea Kováčová

Vorbereitung der Abfrage

Die berechneten Abfragekosten werden ausgewert Die Resource Selection untersucht alle digitalen Bibliotheken Die entsprechenden Abfragekosten werden aus der vorher

angelegten Datei geladen Resource Selection wird auf 300 relevante Dokumente

begrenzt Ergebnise sind auch auf dem Bilschirm sichtbar

Page 11: 28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

28.02.2006 Ebru Iscan, Andrea Kováčová

Resource Selection

Page 12: 28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

28.02.2006 Ebru Iscan, Andrea Kováčová

Retrieval durchführen

Retrieval der Dokumente wird ausgeführt Alle Kollektionen mit vorberechneten Abfragekosten werden

dazu genommen Ergebnis wird in die Datei result im aktuellen Verzeichnis

gespeichert Ergebnisse im standarden TREC-Format

Page 13: 28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

28.02.2006 Ebru Iscan, Andrea Kováčová

Retrieval

Page 14: 28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

28.02.2006 Ebru Iscan, Andrea Kováčová

Probleme

ERROR unidu.db - select count(distinct

concat(concat(prob,concat('@@@',arg0)),concat('@@@',arg1))) from ap88_1a_text_plain_df java.sql.SQLException: General error message from server:

"Table 'exp_f.ap88_1a_text_plain_df' doesn't exist“Ursache: Nicht bekannt, wahrscheinlich muss ist eine spezielle

Konfigurierung notwendig, damit nich „plain“ als Default, sondern je nach Experiment stemen_bm25 oder stemen_tfidf gewählt wird

java.io.FileNotFoundException: conf/trec123.topics (No such file or directory)Ursache: Konfigurationsdateien nicht im CLASSPATH, sondern

im aktuellen Verzeichnis erwartetUmgehungslösung: Konfiguration ins aktuelle Verzeichnis

kopieren oder ein Link setzen Unter Eclipse ist kein Debuggen möglich, weil die

Zeitmessung beim Start FileNotFoundException wirft

Page 15: 28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

28.02.2006 Ebru Iscan, Andrea Kováčová

Tabelle in DB

Beispiel: Werte in der Datenbank –Document Frequency einzelner nach stemen() extrahierten Wörter mit Gewichtung

Page 16: 28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

28.02.2006 Ebru Iscan, Andrea Kováčová

Aufgabe 2

DTF max. 10 DLs vs. DTF max. 20 DLs

c=1

P0=0.25 vs. P0=0.75

Page 17: 28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

28.02.2006 Ebru Iscan, Andrea Kováčová

ComputeForTopic

Page 18: 28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

28.02.2006 Ebru Iscan, Andrea Kováčová

ComputeForTopic