Praxisteil

27
Praxisteil Seminar „experimentelle Evaluierung in IR“ WS05/06 Gruppe A

description

Praxisteil. Seminar „experimentelle Evaluierung in IR“ WS05/06 Gruppe A. Experimental setup. Collections : TREC-123, wt10g Index :BM25 und TFIDF Queries : -Topics 51-100 aus trec123.topics (für den ersten Teil) -Topics 736083,... Aus wt10g.topics.1000 - PowerPoint PPT Presentation

Transcript of Praxisteil

Page 1: Praxisteil

PraxisteilSeminar „experimentelle Evaluierung in IR“

WS05/06Gruppe A

Page 2: Praxisteil

Experimental setup

• Collections: TREC-123, wt10g• Index: BM25 und TFIDF• Queries:

- Topics 51-100 aus trec123.topics

(für den ersten Teil)

- Topics 736083,... Aus wt10g.topics.1000

(100 aus 1000 Topics für den zweiten Teil)

Page 3: Praxisteil

Aufgabenstellung Experiment (1)

DTF vs. DTF max. 5 DL vs. DTF max. 10 DLs BM 25 vs. TF.IDF c=0.5 P0=0.5 vs. P0=1

Experiment (2) DTF vs. DTF max. 10 DLs

c=0.5 vs. c=1 P0=1

Page 4: Praxisteil

Vorgehensweise• Indexierung

• Resource description

• Kostenberechnung

• Resource selection

Page 5: Praxisteil

Vorgehensweise• Indexierung

eigentliche Inhalte rausnehmen und zusammen mit Dokument-ID in PIRE speichern

Page 6: Praxisteil

Vorgehensweise• Indexierung (cont.)• Show tables from exp_a like ‚ap88%‘;

| ap88_8c_text_stemen_bm25_dl || ap88_8c_text_stemen_bm25_docid || ap88_8c_text_stemen_bm25_expectation || ap88_8c_text_stemen_bm25_idb_rd || ap88_8c_text_stemen_bm25_rd || ap88_8c_text_stemen_bm25_tf || ap88_8c_text_stemen_bm25_tmp1 || ap88_8c_text_stemen_bm25_variance || ap88_8c_text_stemen_bm25_weight || ap88_8c_text_stemen_tfidf_df || ap88_8c_text_stemen_tfidf_dl || ap88_8c_text_stemen_tfidf_docid || ap88_8c_text_stemen_tfidf_expectation || ap88_8c_text_stemen_tfidf_idb_rd || ap88_8c_text_stemen_tfidf_maxTF || ap88_8c_text_stemen_tfidf_rd || ap88_8c_text_stemen_tfidf_tf || ap88_8c_text_stemen_tfidf_tmp1 || ap88_8c_text_stemen_tfidf_variance || ap88_8c_text_stemen_tfidf_weight |+-------------------------------------------------------------+

Page 7: Praxisteil

Vorgehensweise• Resource description

Page 8: Praxisteil

Vorgehensweise

• Resource selection

Page 9: Praxisteil

Vorgehensweise• Resource selection

ResourceSelection{

GenericDL[ap88_4c]=[num=50,costs=0.15566352713854062],Generic DL[ap88_4a]=[num=71,costs=0.2210565707566304], GenericDL[ap88_2c]=[num=41,costs= 0.12752493057416925], GenericDL[ap88_3a]=[num=42,costs=0.13079528016015488],GenericDL[ap88_4b]=[num=96,costs=0.29874969566379744]}

ResourceSelection{

GenericDL[ap88_3b]=[num=62,costs=0.1706536429720925], GenericD L[ap88_4a]=[num=55,costs=0.15093146996168677], GenericDL[ap88_2c]=[num=56,costs= 0.15418909002719608], GenericDL[ap88_3a]=[num=58,costs=0.1593030015695942], Gene ricDL[ap88_1b]=[num=69,costs=0.18973110056079268]}

...

Page 10: Praxisteil

Vorgehensweise

• Resource selection (Durchlaufen von 100 Topics):Relevanzurteile: (DTF5, bm25)

051 0 AP880212-0020 1 0.999999999999978 1

051 0 AP880212-0093 1 0.673631123919296 1

051 0 AP880212-0120 1 0.655220742817087 1

052 0 AP880212-0060 1 1.0 1

052 0 AP880212-0009 1 0.970960077124136 1

052 0 AP880212-0056 1 0.438141643714791 1

052 0 AP880212-0019 1 0.400958727204647 1

Page 11: Praxisteil

BM25 vs. TFIDF• BM25

- Ein Ranking Modell- Die Performance von BM25 Ranking Algorithmus ist sehr abhängig von der Auswahl der Parameter.- Dieses Modell ist nur dann möglich wenn die Dokumentkollektionen,

die Anfragenmenge und die Menge von dem Relevanzurteil vorher schon vorhanden sind.

• TF-IDF

- TF: Term Frequency

- IDF: Inverse Document Frequency log(N/DF)

N: Gesamtzahl der Dokumente der Kollektion

DF: Dokumentfrequenz = Anzahl Dokumente, in denen Term i auftritt

Page 12: Praxisteil

BM25 vs. TFIDF (cont.)

• BM25

• TFIDF

)(

||log

)(5.15.0),(

),(:),(

tdf

DL

avgdl

ddldttf

tdtftdw

5.0log)(

5.0log

),(max

),(:),(

N

tdf

N

tdtf

tdtftdw

dt

Page 13: Praxisteil

Trec_eval (Bsp.)• Queryid (Num): 100• Total number of documents over all queries• Retrieved: 29157• Relevant: 48365• Rel_ret: 2030• Interpolated Recall - Precision Averages:• at 0.00 0.3369• at 0.10 0.0481• at 0.20 0.0120• at 0.30 0.0022• at 0.40 0.0000• at 0.50 0.0000• at 0.60 0.0000• at 0.70 0.0000• at 0.80 0.0000• at 0.90 0.0000• at 1.00 0.0000• Average precision (non-interpolated) for all rel docs(averaged over queries)• 0.0142• Precision:• At 5 docs: 0.1580• At 10 docs: 0.1460• At 15 docs: 0.1493• At 20 docs: 0.1525• At 30 docs: 0.1450• At 100 docs: 0.1095• At 200 docs: 0.0836• At 500 docs: 0.0406• At 1000 docs: 0.0203• R-Precision (precision after R (= num_rel for a query) docs retrieved):• Exact: 0.0480

Page 14: Praxisteil

Ergebnisse

Page 15: Praxisteil

DTF vs. DTF5 vs. DTF10 (BM 25, c = 0.5, P0=1)

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Recall

Pre

cisi

on n

DTF

DTF5

DTF10

Evaluation: fixed number of selected DLs (BM25)

Page 16: Praxisteil

Evaluation: fixed number of selected DLs (BM25)

Precision DTF DTF5 DTF10

At 5 docs: 0,216 0,00% 0,24 11,11% 0,22 1,85%

At 10 docs: 0,207 0,00% 0,22 6,28% 0,232 12,08%

At 15 docs: 0,212 0,00% 0,1933 -8,82% 0,2213 4,39%

At 20 docs: 0,219 0,00% 0,18 -17,81% 0,205 -6,39%

At 30 docs: 0,212 0,00% 0,161 -24,06% 0,1873 -11,65%

At 100 docs: 0,144 0,00% 0,0838 -41,81% 0,1158 -19,58%

At 200 docs: 0,1065 0,00% 0,053 -50,23% 0,076 -28,64%

At 500 docs: 0,0498 0,00% 0,0234 -53,01% 0,0351 -29,52%

At 1000 docs: 0,0249 0,00% 0,0117 -53,01% 0,0175 -29,72%

Average Precision 0,02 0,00% 0,0103 -48,50% 0,014 -30,00%

R Precision 0,0575 0,00% 0,0284 -50,61% 0,0419 -27,13%

DTF vs. DTF5 vs. DTF10 (BM 25, c = 0.5, P0=1)

Page 17: Praxisteil

Evaluation: fixed number of selected DLs (BM25)

-60,00% -50,00% -40,00% -30,00% -20,00% -10,00% 0,00% 10,00% 20,00%

1

2

3

4

5

6

7

8

9

DTF

DTF10

DTF5

Page 18: Praxisteil

DTF vs. DTF5 vs. DTF10 (TFIDF, c = 0.5, P0=1)

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Recall

Pre

cisi

on n

DTF

DTF5

DTF10

Page 19: Praxisteil

Evaluation: fixed number of selected DLs (TFIDF)

Precision DTF DTF5 DTF10

At 5 docs: 0,158 0,00% 0,168 6,33% 0,156 -1,27%

At 10 docs: 0,146 0,00% 0,142 -2,74% 0,155 6,16%

At 15 docs: 0,1493 0,00% 0,1313 -12,06% 0,146 -2,21%

At 20 docs: 0,1525 0,00% 0,121 -20,66% 0,136 -10,82%

At 30 docs: 0,145 0,00% 0,108 -25,52% 0,125 -13,79%

At 100 docs: 0,1095 0,00% 0,0622 -43,20% 0,0799 -27,03%

At 200 docs: 0,0836 0,00% 0,037 -55,74% 0,0527 -36,96%

At 500 docs: 0,0406 0,00% 0,0153 -62,32% 0,0216 -46,80%

At 1000 docs: 0,0203 0,00% 0,0077 -62,07% 0,0108 -46,80%

Average Precision 0,0142 0,00% 0,0063 -55,63% 0,0082 -42,25%

R Precision 0,048 0,00% 0,0189 -60,63% 0,028 -41,67%

Page 20: Praxisteil

Evaluation: fixed number of selected DLs (TFIDF)

-70,00% -60,00% -50,00% -40,00% -30,00% -20,00% -10,00% 0,00% 10,00%

1

2

3

4

5

6

7

8

9

DTF

DTF10

DTF5

Page 21: Praxisteil

Ergebnisse (BM25 vs. TFIDF)

Run

Number of retrieved relevant

documents

Average Precision

R Precision

BM25, DTF2489 out of

291760.0200 0.0575

TFIDF, DTF2030 out of

291570.0142 0.0480

BM25, DTF101754 out of

289390.0140 0.0419

TFIDF, DTF101081 out of

198840.0082 0.0280

BM25, DTF51172 out of

287690.0103 0.0284

TFIDF, DTF5767 out of

192180.0063 0.0189

Page 22: Praxisteil

Parameterauswahl

• Die Veränderung von dem Parameter p0 wird die gesamten Retrievalergebnisse nicht beeinflussen.

• Die Veränderung von c führt aber zur Änderung der Retrievalqualität.

Run

Number of retrieved relevant

documents

Average Precision

R Precision

TFIDF, DTF10

c = 0.5 1081 out of

198840.0082 0.0280

TFIDF, DTF10

c = 11434 out of

288710.0104 0.0348

Page 23: Praxisteil

Experiment Teil2

• Fast gleicher Code für Retrieval• Unterschiedliche Topics• Änderung von Operator

(plain statt stemen_bm25 oder stemen_tfidf)• Größere Kollektionsmenge

Page 24: Praxisteil

Probleme• (1) ArrayIndexOutOfBounds Exception bei ComputeForTopic

Grund: Ohne Indexierung und Resource Description können Kosten nicht berechnet werden und somit ist costs leer. Intern löst das dann die

ArrayIndexOutOfBoundsException aus.Lösung: Erst Indexierung, um die Datenbanken zu erzeugen.

• (2) Bei jedem Durchlauf des Programms erscheint immer dasselbe Ergebnis in der Result Datei.

Grund: Jedes mal werden die Ergebnisse immer wieder an der Datei angehängt.

Lösung: Man muss die Datei jedes mal leeren oder man kann bei jedem Durchlauf eine neue Datei mit

anderem Namen auswählen.

Page 25: Praxisteil

Probleme (cont.)

• (3) Bei dem zweiten Teil wurden nur leere Menge bei Resource Selection geliefert.Grund: Zu jeder Kollektion wurden PIRE nicht richtig erzeugt,

so dass Resource Description nicht richtig funktioniert hat.Lösung: Bei DTFPDatalogConfig „exp_“ durch „wt10g_“

ersetzen

• (4) Nachdem die codes geändert worden sind, wurde komischerweise ein java.lang.OutOfMemoryError geliefert...Grund: Das hat irgendwie mit Speicher von Heap zu tun...Lösung: ?

Page 26: Praxisteil

Zusammenfassung• DTF:

- guter Ranking Algorithmus- abhängig von der Anzahl der zu selektierenden DLs

- bessere Ergebnisse – ohne Beschränkung auf die

Anzahl der zu selektierenden DLs• Bei BM25 können im Vergleich zu TFIDF bessere Ergebnisse

geliefert werden.• Die Recall-Precision Funktion p0 hat keinen Einfluss auf die

Retrievalergebnisse.• Eine Erhöhung von der linearen mapping Funktion c führt

aber zur Verbesserung der Retrievalqualität.• Wie kann man die Ergebnisse noch verbessern?

-> Relevance Feedback, DTF-cori

Page 27: Praxisteil

Vielen Dank für die Aufmerksamkeit!