Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin...

63
Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011

Transcript of Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin...

Page 1: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Evaluierung von Information Retrieval Systemen

Minimal Test Collection (MTC)- Verfahren

Karin Haenelt

15.12.2013 / 5.12.2011

Page 2: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Inhalt

Einführung des MTC-Verfahrens Vorbetrachtungen

Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als

Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus

Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel

Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse

2© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Page 3: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

BeurteilungsmethodeMinimal Test Collection (MTC)

Ben Carterette (2008). Low-Cost and Robust Evaluation of Information Retrieval Systems. PhD thesis, University of Massachusetts Amherst

Ben Carterette, James Allan, and Ramesh K. Sitaraman. Minimal test collections for retrieval evaluation. In: Proceedings of SIGIR, pages 268-275, 2006. http://ir.cis.udel.edu/~carteret/papers/sigir06.pdf

James Allan, Ben Carterette, Javed A. Aslam, Virgil Pavlu, Blagovest Dachev, Evangelos Kanoulas (2007). Million Query Track 2007 Overview. Proceedings of TREC 2007. http://maroo.cs.umass.edu/pub/web/getpdf.php?id=800

auch UMass-Verfahren genannt (University of Massachusetts Amherst)

3© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Page 4: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection Verfahren (MTC)Grundgedanken

Genaue Schätzung der Information Retrieval Evaluierungsmetriken erfordert eine riesige Menge von Relevanzbeurteilungen

Eine neue Sicht auf die durchschnittliche Präzision (average precision – AP) zeigt, dass es möglich ist, eine Menge von Retrievalsystemen mit hoher Konfidenz mit einer minimalen Menge von Beurteilungen zu evaluieren

Diese Sicht führt auch zu einem Algorithmus zum inkrementellen Aufbau von Testkollektionen

4© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

(Carterette, Allan, Sitamaran, 2006)

Page 5: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Inhalt

Einführung des MTC-Verfahrens Vorbetrachtungen

Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als

Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus

Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel

Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse

5© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Page 6: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Abkürzungen

6© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

A, B, C Dokumente s1, s2 System 1, System 2 s1(i) Rang von Dokument i in System 1 R Relevanz N Nichtrelevanz |R| Anzahl der relevanten Dokumente r Rang n Anzahl der Dokumente xi ∊ {0,1} boolescher Indikator für Relevanz von Dokument i i, k Laufvariabeln

Menge der beurteilten Dokumente (judged)

Page 7: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Beispiel für diese Folien

2 Systeme: System 1 (S1) und System 2 (S2)

3 Dokumente: A, B, C Ausgabelisten der beiden Systeme:

7© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

System 1 System 2 Rang Dokument Relevanz Rang Dokument Relevanz 1 A N 1 C R 2 B R 2 A N 3 C R 3 B R

Page 8: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Beispiel für diese FolienÜbersicht zu den nachfolgenden Betrachtungsvarianten der Evaluierungsmaße

8© Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013

Rang prec@r SP AP Relevanz x1=0 x2=1 x3=1 1 x1=0 0/1 0 0 2 x2=1 0/2 1/2 1/2 + 1/2 3 x3=1 0/3 1/3 1/3 2/3 + 2/3 = 7/6

7/6 : 2 = 7/12

prec@r Precision auf Rang rSP sum precisionAP average precision

Page 9: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Inhalt

Einführung des MTC-Verfahrens Vorbetrachtungen

Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als

Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus

Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel

Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse

9© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Page 10: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Anforderungen an Information Retrieval-Evaluierungsmaße

Ein gutes Evaluierungsmaß sollte folgende Systemeigenschaften hoch bewerten Das System setzt relevante Systeme auf die oberen Ränge

(precision) Das System findet viele relevante Dokumente (recall)

Die durchschnittliche Präzision (AP) erfasst sowohl precision als auch recall eines Systems

10© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Page 11: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Evaluierungsmaß: Präzision auf Rang r

11© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Rang Relevanz 1 N 2 R 3 R

Ausgabeliste

50.02

12@ precision

r

rrprecision

| Rangbis Dokumenterelevante|@

66.03

23@ precision

nach einem Beispiel von (Carterette,Kanoulas,Yilmaz, 2010)

Page 12: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Evaluierungsmaß: Durchschnittliche Präzision(average precision – AP)

12© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Ausgabeliste

Rd

rprecR

AP @||

1

58.012

7

2

3/22/1

AP

Rang Relevanz precision 1 N 2 R 1/2 3 R 2/3

nach einem Beispiel von (Carterette,Kanoulas,Yilmaz, 2010)

58.02/)66.050.0( AP

Page 13: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Inhalt

Einführung des MTC-Verfahrens Vorbetrachtungen

Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als

Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus

Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel

Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse

13© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Page 14: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Evaluierungsmaße: Präzision und durchschnittliche PräzisionDarstellung als Zufallsexperimente

Darstellung als Gleichungen über Bernoulli Experimente Xi für die Relevanz von Dokument i

xi Boolescher Indikator der Relevanz von Dokument i

14© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Rang Relevanz Wert der Zufallsvariablen Xi 1 N x1=0 2 R x2=1 3 R x3=1

Page 15: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Rang Relevanz Wert der Zufallsvariablen Xi 1 N x1=0 2 R x2=1 3 R x3=1

Evaluierungsmaß: PräzisionDarstellung als Zufallsexperiment

Auswahl eines Ranges aus der Menge {1, …, t}, 1 ≤ r ≤ t Ausgabe der binären Dokumentrelevanz auf diesem Rang Formel und Beispiel

15© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Ausgabeliste

3

2)110(

3

13@ prec

r

iix

rrprec

1

1@

nach einem Beispiel von (Carterette,Kanoulas,Yilmaz, 2010)

Page 16: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Evaluierungsmaß: Durchschnittliche PräzisionDarstellung als Zufallsexperiment

16© Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013

xxxx ir

n

r

r

i

r

i

in

rr rRrR

AP

1 111

1

||

1

||

1

multipliziert mit

binäre Dokumentrelevanzauf Rang r

precision auf dem Rangder relevanten Dokumente

Page 17: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Darstellungen der Evaluierungsmaße

17© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

r

rbis RangDokumente relevante rprecision

| |@

Rd

rprecR

AP @||

1

50.02

12@ precision 58.0

12

7

2

3/22/1

AP

oder: 58.02/)66.050.0( AP

r

iix

rrprec

1

1@ xxxx ir

n

r

r

i

r

i

in

rr rRrR

AP

1 111

1

||

1

||

1

0)0(1

11@ prec

2

1)10(

2

12@ prec

3

2)110(

3

13@ prec

Standard

Zufallsexperiment

Page 18: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

18© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Beispiel zu

r

i

in

rr rR

AP xx11||

1

r 1 2 3 i 1 1 2 1 2 3 xr x1 x2 x3 xi x1 x1 x2 x1 x2 x3

r

i

in

rr rR

AP xx11||

1

=

( + + + + + )

(

+

+

+

+

+

)

( 0 +

+

+

) =

Rang Relevanz Xi 1 N x1=0 2 R x2=1 3 R x3=1

Page 19: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Beispiel zu

19© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

r 1 2 3 i 1 1 2 1 2 3 xr x1 x2 x3 xi x1 x1 x2 x1 x2 x3

( + + + + + )

(

+

+

+

+

+

) =

xx ir

n

r

r

i rRAP

1 1

1

||

1

Rang Relevanz Xi 1 N x1=0 2 R x2=1 3 R x3=1

Precision auf Rang 1

Precision auf Rang 2 Precision auf Rang 3

Page 20: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Evaluierungsmaß: Durchschnittliche PräzisionFormel für beliebige Dokumentreihenfolge

für eine Betrachtung der Dokumente in beliebiger Reihenfolge ist zu ersetzen durch den Koeffizienten aij:

20© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

ij

jiij

n

i

xxaR

AP1

1

)}(),(max{

1

jrankirankaij

r

1

(Carterette, Allan, Sitamaran, 2006)

Page 21: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Beispiel Variante 1

21© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

)}(),(max{

1

||

1

1

jrankirank

RAP

a

xxa

ij

ji

n

i ijij

i = 1 2 3 j = 1 2 3 2 3 3 Rang (xi) 1 1 1 2 2 3 Rang(xj) 1 2 3 2 3 3

(

+

+

+

+

+

)

(

+

+

+

+

+

)

(

+

+

) =

Rang Relevanz Xi 1 N x1=0 2 R x2=1 3 R x3=1

Page 22: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Beispiel Variante 2

22© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

)}(),(max{

1

||

1

1

jrankirank

RAP

a

xxa

ij

ji

n

i ijij

Doc i Doc j max {rank(i), rank(j)} = Rang 1

max {rank(i), rank(j)} = Rang 2

max {rank(i), rank(j)} = Rang 3

*

x1 x1 1

* 0

x2 2

* 0

x3 3

* 0

x2 x2 2

* 1

x3 3

* 1

x3 x3 3

* 1

Rang Relevanz Xi 1 N x1=0 2 R x2=1 3 R x3=1

Page 23: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Inhalt

Einführung des MTC-Verfahrens Vorbetrachtungen

Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als

Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus

Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel

Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse

23© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Page 24: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection Verfahren (MTC)Ziele und Methode

Ziel vergleichende Evaluierung zweier oder mehrerer Systeme Durchführung eines Minimums an Relevanzbewertungen

Methode neue Sicht auf durchschnittliche Präzision (AP) ermöglicht

Algorithmus zur Auswahl des nächsten zu bewertenden Dokuments: Dokument mit dem nächst größten Einfluss auf AP

Abbruchkriterium für die Evaluierung Schätzung des Grades der Konfidenz auf der Basis einer

Verteilung möglicher Dokumentbeurteilungen

24© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

(Carterette, Allan, Sitamaran, 2006)

Page 25: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection Verfahren (MTC)Grundstruktur des Dokumentselektionsalgorithmus

Ableitung eines Dokumentgewichts aus einem algebraischen Ausdruck der Differenz zweier Systeme bezüglich des gewählten Evaluierungsmaßes1)

Ordnung der Dokumente nach Dokumentgewicht und Beurteilung des höchstgewichteten Dokuments

Aktualisierung der Dokumentgewichte unter Berücksichtigung der Beurteilungen der beurteilten Dokumente

Wiederholung bis zum Erreichen der Abbruchbedingung

1) Berechnung mit verschiedenen Maßen möglich: precision, recall, DCG, avarage precision

25© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Carterette, Kanoulas, Yilmaz (2010:77/1)

Page 26: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection (MTC) MethodeDifferenz der durchschnittlichen Präzision zweier Systeme

26© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

(Carterette, Allan, Sitamaran, 2006)

)}(),(max{

1

||

1

1

jrankirank

RAP

a

xxa

ij

ji

n

i ijij

n

i ijjiij xxc

RAPAPAP

121

1

ijijij bac

Die Differenz der durchschnittlichen Präzision zweier Systeme ist

Die durchschnittliche Präzision eines Systems ist

Page 27: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Evaluierungsmaß: Durchschnittliche PräzisionZusammenwirken von Relevanzbeurteilungen

Bei der Berechnung der durchschnittlichen Präzision wirken die Relevanzbeurteilungen zusammen wenn das Dokument auf Rang 1 relevant ist, erhöht sich der

Beitrag jedes folgenden relevanten Dokuments wenn das Dokument auf Rang 1 nicht relevant ist, verringert

sich der maximal mögliche Beitrag jedes folgenden relevanten Dokuments

27© Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013

Page 28: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Evaluierungsmaß: Durchschnittliche PräzisionZusammenwirken von Relevanzbeurteilungen

Sei SP (sum precision) = AP ∙ |R| Wenn Dokument A relevant ist, ist sein

Gesamtbeitrag zu SP :1 + 1/2 + 1/3 -- abhängig von der Relevanz der nachfolgenden Dokumente, da für AP nur die Werte auf den Rängen relevanter Dokumente gezählt werden

Wenn Dokument A nicht relevant ist, kann SP nicht größer sein als |R| - 1 – 1/2 – 1/3

Beurteilungen als „nicht relevant“ sind also informativ für AP

28© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

System 1 Rang Dokument 1 A 2 B 3 C

Carterette, Kanoulas, Yilmaz (2010:93/1)

Page 29: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Einfluss einer positiven Dokumentbeurteilung auf die inkrementelle Berechnung von 𝚫SP - Beispiel

Angenommen, alle Dokumente gelten als nicht relevant

wenn ein Dokument als relevant beurteilt wird, ergibt sich folgende Veränderung:

29© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

System 1 System 2 Xi Dokument Dokument Xi x1 A C x3 x2 B A x1 x3 C B x2

x1: SP1 = 1/1, SP2 = 1/2 SP = 0.50 x2: SP1 = 1/2, SP2 = 1/3 SP = 0.16 x3: SP1 = 1/3,SP2 = 1/1 SP = -0.66

Beispiel nach (Carterette,Kanoulas,Yilmaz, 2010)

Rd

rrankprecSP )(@

nPräzisionederSummeSP

Rd

rrankprecR

AP )(@1

RAPSP

Page 30: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Einfluss einer negativen Dokumentbeurteilung auf die inkrementelle Berechnung von 𝚫SP - Beispiel

Angenommen, alle Dokumente gelten als relevant

wenn ein Dokument als nicht relevant beurteilt wird, ergibt sich folgende Veränderung:

30© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

System 1 System 2 Xi Dokument Dokument Xi x1 A C x3 x2 B A x1 x3 C B x2

Beispiel nach (Carterette,Kanoulas,Yilmaz, 2010)

x1: SP1 = 1/2 + 2/3 SP2 = 1 + 2/3

SP = -0.50

x2: SP1 = 1 + 2/3 SP2 = 1 + 1

SP = -0.33

x3: SP1 = 1 + 1 SP2 = 1/2 + 2/3

SP = 0.83

Beurteilung vonDokument C hat den nächstgrößten Einfluss

Page 31: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection (MTC) MethodeDokument-Selektions-Algorithmus zum Nachweis von ΔSP

31© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

⟵ ø

< 0 < ⟵ +

⟵ + +

⟵ ⟵ ⟵ ⟵

(Carterette, 2008:42)

Page 32: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Inhalt

Einführung des MTC-Verfahrens Vorbetrachtungen

Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als

Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus

Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel

Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse

32© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Page 33: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection (MTC) MethodeDokument-Selektions-Algorithmus zum Nachweis von ΔSP: Dokumentgewichte

33© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

⟵ +

⟵ + +

Basis-Effekt

Zusammenwirkenmit beurteiltenDokumenten

zusätzliche Basis für nonrel-Gewichte 1)

1) zusätzliche Basis für rel-Gewichte: unbeurteilte Dokumente sind nicht-relevant: xk=0 zusätzliche Basis für nonrel-Gewichte: unbeurteilte Dokumente sind relevant: xk=1

(Carterette, 2008:42) (Carterette,Kanoulas,Yilmaz, 2010)

Page 34: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Inhalt

Einführung des MTC-Verfahrens Vorbetrachtungen

Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als

Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus

Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel

Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse

34© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Page 35: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

System s1 System s2 Xi Dokument Dokument Xi x1 A C x3 x2 B A x1 x3 C B x2

Minimal Test Collection (MTC) Dokumentgewichte Start Detail wA

R, wBR, wC

R

35© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

wiR ⟵ cii

cii = aii - bii i doci cii =

-

ø wAR 1 A cAA =

-

ø wBR 2 B cBB =

-

ø wCR 3 C CCC =

-

Page 36: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

System s1 System s2 Xi Dokument Dokument Xi x1 A C x3 x2 B A x1 x3 C B x2

Minimal Test Collection (MTC) Dokumentgewichte Start Detail wA

N

36© Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013

wiN ⟵

cik = aik - bik i doci k dock cik =

-

ø wAN 1 A 1 A cAA =

-

cii

- + 0

1 A 2 B cAB +

-

1 A 3 C CAC +

-

(max {rank(A),rank(C)}in System s1) = 3 (max {rank(A),rank(C)}in System s2) = 2

Annahme, alle nicht-betrachteten Dokumente seien relevantBewertung von A als nicht-relevant führt zur gezeigten Verminderung der maximal erreichbaren SP

Page 37: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Inhalt

Einführung des MTC-Verfahrens Vorbetrachtungen

Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als

Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus

Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel

Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse

37© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Page 38: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection (MTC)Selektionsalgorithmus Start

38© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

System s1 System s2 Xi Dokument Dokument Xi x1 A C x3 x2 B A x1 x3 C B x2

⟵ cii +

ø ⟵ cAA

ø ⟵ cBB

ø ⟵ cCC

Page 39: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection (MTC)Selektionsalgorithmus Start

39© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

System s1 System s2 Xi Dokument Dokument Xi x1 A C x3 x2 B A x1 x3 C B x2

⟵ cii + +

ø ⟵ cAA + - + cAB + cAC

ø ⟵ cBB + - + cBA + cBC

ø ⟵ cCC + - + cCA + cCB

Page 40: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection (MTC) Selektionsalgorithmus Start

40© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

wi = max {|wiR|, |wi

N|} = 0.83 i* = arg maxi wi = 3 (Dokument C) xi*= judgement on document i* (im Beispiel ist Dok C relevant) : x3 = 1

= ∪ i* = {3}

Page 41: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

System s1 System s2 Xi Dokument Dokument Xi x1 A C + x3 x2 B A x1 x3 C + B x2

Minimal Test Collection (MTC)Selektionsalgorithmus 1.Iteration

41© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

⟵ cii +

{3} ⟵ cAA + cAC

{3} ⟵ cBB + cBC

- C als relevant beurteilt: x3 = 1- neue Dokumentgewichte für die übrigen Dokumente:

Page 42: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

System s1 System s2 Xi Dokument Dokument Xi x1 A C + x3 x2 B A x1 x3 C + B x2

Minimal Test Collection (MTC)Selektionsalgorithmus 1.Iteration

42© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

- C als relevant beurteilt: x3 = 1- neue Dokumentgewichte für die übrigen Dokumente:

wN

⟵ cii + +

{3} ⟵ cAA + cAC + cAB

{3} ⟵ cBB + cBC + cBA

Page 43: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection (MTC) Selektionsalgorithmus 1. Iteration

43© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

wi = max {|wiR|, |wi

N|} = 0.50 i* = arg maxi wi = 1 (Dokument A) xi*= judgement on document i* (im Beispiel ist Dok A nicht relevant) : x1 = 0

= ∪ i* = {1,3}

Page 44: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

System s1 System s2 Xi Dokument Dokument Xi x1 A - C + x3 x2 B A - x1 x3 C + B x2

Minimal Test Collection (MTC)Selektionsalgorithmus 2.Iteration

44© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

⟵ cii +

{1,3} ⟵ cBB + cBC

- C als relevant beurteilt: x3 = 1- A als nicht-relevant beurteilt: x1 = 0- neue Dokumentgewichte für die übrigen Dokumente:

⟵ cii + +

{1,3} ⟵ cBB + cBC + -

Page 45: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Inhalt

Einführung des MTC-Verfahrens Vorbetrachtungen

Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als

Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus

Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel

Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse

45© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Page 46: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection (MTC) MethodeAbbruchkriterium für die Berechnung

Abbruch: wenn feststeht, ob AP1 > AP2 oder umgekehrt

ein Dokument, das die Hypothese Δ AP > 0 unterstützt ist relevant und hat ein „positives Gewicht“ (d.h. es hat einen höheren Rang in

System 1) ein Dokument, das die Hypothese Δ AP < 0 unterstützt hat ein

„negatives Gewicht“

46© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

(Carterette, Allan, Sitamaran, 2006)

Page 47: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection (MTC) MethodeAbbruchkriterium für die Berechnung

wenn die Summe der Gewichte der relevanten Dokumente größer ist als das mögliche Maximum der Summe der Gewichte der „negativen“ Dokumente, können wir folgern: Δ AP > 0

Sei S die Menge der beurteilten relevanten DokumenteT die Menge der unbeurteilten Dokumente,

dann ist ein hinreichendes Abbruchkriterium

47© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

LHS: Δ AP berechnet über beurteilte relevante Dokumente

RHS: obere Grenze des Betrages, um den Δ AP vermindert würde, wenn unbeurteilte Dokumente als relevant beurteilt würden

(Carterette, Allan, Sitamaran, 2006)

Page 48: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection (MTC) MethodeAbbruchkriterium für die Berechnung

48© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Carterette,Kanoulas,Yilmaz, 2010: S. 98a)

Page 49: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection (MTC) MethodeAbbruchkriterium für die Berechnung

49© Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013

Carterette,Kanoulas,Yilmaz, 2010: S. 98b)

Page 50: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection (MTC) MethodeAbbruchkriterium für die Berechnung

50© Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013

Carterette,Kanoulas,Yilmaz, 2010: S. 99a

Dokument-Selektions-Algorithmus zum Nachweis von ΔSP

Page 51: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection (MTC) MethodeEin optimaler Algorithmus

Wir wollen jeweils das Dokument finden, das auf einer der beiden Seiten (LHS bzw. RHS) den größten Einfluss hat:

jedes Dokument erhält ein

das nächste zu beurteilende Dokument, ist das Dokument, das max {piwi

R,(1 - pi)wiN} , pi = P(xi = 1) maximiert

51© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Relevanzgewicht wiR Betrag, den Dokument i

(falls relevant) zu LHS hinzufügen würde

Nicht-Relevanzgewicht wiN Betrag, den Dokument i

(falls nicht relevant) von RHS abziehen würde

(Carterette, Allan, Sitamaran, 2006)

Page 52: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection (MTC) MethodeEin optimaler Algorithmus

Stand bevor ein Dokument beurteilt wurde LHS = 0 RHS Summe aller negativen Koeffizienten

Optimierungsziel Erhöhung der LHS durch Auffinden relevanter Dokumente Erniedrigung der RHS durch Auffinden nicht-relevanter

Dokumente

52© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Page 53: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Inhalt

Einführung des MTC-Verfahrens Vorbetrachtungen

Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als

Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus

Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel

Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse

53© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Page 54: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection (MTC) MethodeKonfidenz

Betrachtung der Differenz der durchschnittlichen PräzisionΔ AP zwischen zwei Systemen s1 und s2

Δ AP hat eine Verteilung über alle möglichen Relevanzbeurteilungen der unbeurteilten Dokumente:

Δ AP konvergiert mit zunehmender Anzahl beurteilter Dokumente zu einer Normalverteilung

Normalverteilung ermöglicht Angabe einer Konfidenz für das beim jeweiligen Fortschritt der Beurteilung erreichte Ergebnis

54© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

(Carterette, Allan, Sitamaran, 2006)

Page 55: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection (MTC) MethodeKonfidenz

75% Konfidenz, dass System A besser ist als System B bedeutet: die Wahrscheinlichkeit, dass die Bewertung der relativen Qualität der verglichenen Systeme sich ändert, wenn weitere Dokumente in die Beurteilung einbezogen werden, beträgt maximal 25%.

Berechnung der Konfidenz beruht auf einer Annahme der Wahrscheinlichkeit der Relevanz unbeurteilter Dokumente: jedes unbeurteilte Dokument ist mit gleicher Wahrscheinlichkeit relevant oder nicht relevant

55© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

(Carterette, 2007)

Page 56: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection (MTC) MethodeDurchschnittspräzision ist normalverteilt

Testbeispiel: 2 Ranglisten mit je 100 Dokumenten pi = P(xi = 1) auf .5 gesetzt

zufällig 5000 Mengen vonRelevanzbeurteilungenerzeugt

Δ AP für jede Menge von Relevanz-beurteilungen für die beiden Ranglistenberechnet

d.h. bei unvollständigen Testkollektionen ist AP normalverteilt über alle möglichen Relevanzzuordnungen zu unbeurteilten Dokumenten

56© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

(Carterette, Allan, Sitamaran, 2006)

Page 57: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection (MTC) MethodeDurchschnittspräzision ist normalverteilt

Testbeispiel: d.h. bei unvollständigen

Testkollektionen ist APnormalverteilt über allemöglichen Relevanzzuordnungenzu unbeurteilten Dokumenten

die meisten queries liegen in derMitte (geringe Differenz zwischenzwei Systemen)

57© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

(Carterette, Allan, Sitamaran, 2006)

Page 58: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection (MTC) MethodeKumulative Dichtefunktion zum Auffinden von

Gegeben eine Menge von Relevanzbeurteilungen Verwendung der normalen kumulativen Dichtefunktion zum

Auffinden von Wenn , würden mindestens 95% der

möglichen Relevanzzuordnungen folgern 95 % Konfidenz für die Folgerung

Neue Abbruchbedingung

Annahme: pi = 0.5 für unbeurteilte Dokumente

58© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

)0( APP

)0( APP05.)0( APP

0AP0AP

(Carterette, Allan, Sitamaran, 2006)

Page 59: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Inhalt

Einführung des MTC-Verfahrens Vorbetrachtungen

Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als

Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus

Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel

Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse

59© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

Page 60: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection (MTC) MethodeErgebnisse

60© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

(Carterette, Allan, Sitamaran, 2006)

Page 61: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection (MTC) MethodeErgebnisse

61© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

(Carterette, Allan, Sitamaran, 2006)

Page 62: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Minimal Test Collection (MTC) MethodeErgebnisse TREC 2007

Vergleich der Ergebnisse TREC-Standardmethode über Terabyte-Corpus MTC über MillionQueries-Corpus statMap über MillionQueries-Corpus

Übereinstimmung in der relativen Ordnung der Systeme statMap vermutlich bessere Schätzung der mean average

precision (MAP) MTC vermutlich ein korrektes Ranking der Systeme MTC bessere Konfidenz

62© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011

(Allan, Carterette, Aslam, Pavlu, Dachev, Kanoulas, 2007)

Page 63: Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011.

Literatur

James Allan, Ben Carterette, Javed A. Aslam, Virgil Pavlu, Blagovest Dachev, Evangelos Kanoulas (2007). Million Query Track 2007 Overview. Proceedings of TREC 2007. http://maroo.cs.umass.edu/pub/web/getpdf.php?id=800

Ben Carterette (2008). Low-Cost and Robust Evaluation of Information Retrieval Systems. PhD thesis, University of Massachusetts Amherst

Ben Carterette (2007). Robust Test Collections for Retrieval Evaluation. IN: Proceedings of SIGIR’07, July 23–27, 2007

Ben Carterette, Evangelos Kanoulas, Emine Yilmaz (2010). Low-Cost Evaluation in information Retrieval. Tutorial of the 33rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. http://ir.cis.udel.edu/SIGIR10tutorial/slides.pdf

Ben Carterette, James Allan, and Ramesh K. Sitaraman. Minimal test collections for retrieval evaluation. In: Proceedings of SIGIR’06, pages 268-275, 2006. http://ir.cis.udel.edu/~carteret/papers/sigir06.pdf

Eliah Ninyo, Keren Kenzi (o.J.). Minimal Test Collections for Retrieval Evaluation. B. Carterette et al. http://cs.haifa.ac.il/courses/infor/students/Minimal Test Collections for Retrieval Evaluation-Eli+Keren.ppt

63© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011