Evaluierung von Web-Suchmaschinen

36
Evaluierung von Web-Suchmaschinen Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg, Department Information [email protected]

description

 

Transcript of Evaluierung von Web-Suchmaschinen

Page 1: Evaluierung von Web-Suchmaschinen

Evaluierung von Web-Suchmaschinen Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg, Department Information [email protected]

Page 2: Evaluierung von Web-Suchmaschinen

1 | Dirk Lewandowski

Standardaufbau von Retrievaltests (für Suchmaschinen)

Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten

Erweiterung der Methodik der Retrievaltests

Fazit

Agenda

Einleitung: Wozu evaluieren?

Page 3: Evaluierung von Web-Suchmaschinen

2 | Dirk Lewandowski

Standardaufbau von Retrievaltests (für Suchmaschinen)

Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten

Erweiterung der Methodik der Retrievaltests

Fazit

Agenda

Einleitung: Wozu evaluieren?

Page 4: Evaluierung von Web-Suchmaschinen

3 | Dirk Lewandowski

Suchmaschinenmarkt: Deutschland 2011

(Webhits, 2011)

Page 5: Evaluierung von Web-Suchmaschinen

4 | Dirk Lewandowski

Die Qualität von Suchmaschinen kann nur durch eine Kombination unterschiedlicher Faktoren gemessen werden.

•  Qualität des Index –  Größe des Datenbestands, Abdeckung des Web –  Abdeckung bestimmter Bereiche (Sprachräume, Länder) –  Überschneidungen der Indices –  Aktualität des Datenbestands

•  Qualität der Suchresultate –  Retrievaleffektivität –  Zuverlässigkeit der Suchergebnisse –  Zufriedenheit der Nutzer –  Überschneidungen der (Top-)Ergebnisse

•  Qualität der Suchfunktionen

•  Nutzerfreundlichkeit + Benutzerführung –  Aufbau der Trefferseiten

(Lewandowski & Höchstötter 2007; ergänzt)

Page 6: Evaluierung von Web-Suchmaschinen

5 | Dirk Lewandowski

Die Qualität von Suchmaschinen kann nur durch eine Kombination unterschiedlicher Faktoren gemessen werden.

•  Qualität des Index –  Größe des Datenbestands, Abdeckung des Web –  Abdeckung bestimmter Bereiche (Sprachräume, Länder) –  Überschneidungen der Indices –  Aktualität des Datenbestands

•  Qualität der Suchresultate –  Retrievaleffektivität –  Zuverlässigkeit der Suchergebnisse –  Zufriedenheit der Nutzer –  Überschneidungen der (Top-)Ergebnisse

•  Qualität der Suchfunktionen

•  Nutzerfreundlichkeit + Benutzerführung –  Aufbau der Trefferseiten

(Lewandowski & Höchstötter 2007; ergänzt)

Page 7: Evaluierung von Web-Suchmaschinen

6 |

Kernkomponenten einer Suchmaschine

(Risvik & Michelsen 2002)

Page 8: Evaluierung von Web-Suchmaschinen

7 | Dirk Lewandowski

Standardaufbau von Retrievaltests (für Suchmaschinen)

Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten

Erweiterung der Methodik der Retrievaltests

Fazit

Agenda

Einleitung: Wozu evaluieren?

Page 9: Evaluierung von Web-Suchmaschinen

8 |

Was soll eigentlich gemessen werden?

•  Relevanz der Ergebnisse •  Durchschnittliche Bewertung der Suchergebnisse (Systemseite) •  Bewertung jedes einzelnen gefundenen Treffers hinsichtlich seiner Eignung zur

Beantwortung der Suchanfrage. •  Ergebnisse mehrerer Suchmaschinen können gemischt werden; Herkunft der

Treffer kann verschleiert werden.

•  Zufriedenheit der Nutzer mit einem Suchprozess •  Durchschnittliche Bewertung der Suchprozesse (Nutzerseite) •  Bewertung jeder einzelnen Suchsession. •  Jeder Nutzer kann nur eine Suchmaschine bewerten; Kenntnis der Suchmaschine.

•  Wissenszuwachs •  Durchschnittliche Bewertung dessen, „was hängen geblieben ist“ (Nutzerseite) •  Bewertung des Wissenszuwachses nach einer Suchsession. •  Jeder Nutzer kann nur eine Suchmaschine bewerten; Kenntnis der Suchmaschine.

Page 10: Evaluierung von Web-Suchmaschinen

9 |

Entscheidungen beim Design klassischer Retrievaltests

1. Welche Suchmaschine(n)?

2. Wie viele Suchanfragen? 3. Welche Suchanfragen? 4. Wie viele Ergebnisse pro Suchanfrage?

5. Wie viele Juroren? 6. Welche Juroren(gruppen)? 7. Wie viele Juroren je Suchanfrage?

8. Wie sollen Dokumente bewertet werden (Skalen)? 9. Sollen Dokumentbeschreibungen berücksichtigt werden?

10.  Mit welchen Kennzahlen soll gemessen werden?

Page 11: Evaluierung von Web-Suchmaschinen

10 | Dirk Lewandowski

Recall-Precision-Graph (top20 results)

(Lewandowski 2008)

Page 12: Evaluierung von Web-Suchmaschinen

11 | Dirk Lewandowski

Standardaufbau von Retrievaltests (für Suchmaschinen)

Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten

Erweiterung der Methodik der Retrievaltests

Fazit

Agenda

Einleitung: Wozu evaluieren?

Page 13: Evaluierung von Web-Suchmaschinen

12 | Dirk Lewandowski

x

(Eyetracking-Studie HAW-Hamburg 2010)

Page 14: Evaluierung von Web-Suchmaschinen

13 | Dirk Lewandowski

x

Page 15: Evaluierung von Web-Suchmaschinen

14 | Dirk Lewandowski 14 |

Results selection (top11 results)

(Granka et al. 2004)

Page 16: Evaluierung von Web-Suchmaschinen

15 | Dirk Lewandowski

x

Page 17: Evaluierung von Web-Suchmaschinen

16 | Dirk Lewandowski

x

Page 18: Evaluierung von Web-Suchmaschinen

17 |

x

Page 19: Evaluierung von Web-Suchmaschinen

18 |

x

Anzeigen

Nachrichten

Bilder

Videos

Blogbeiträge

Page 20: Evaluierung von Web-Suchmaschinen

19 |

Eye-Tracking

•  x

Page 21: Evaluierung von Web-Suchmaschinen

20 | Dirk Lewandowski

Standardaufbau von Retrievaltests (für Suchmaschinen)

Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten

Erweiterung der Methodik der Retrievaltests

Fazit

Agenda

Einleitung: Wozu evaluieren?

Page 22: Evaluierung von Web-Suchmaschinen

21 | Dirk Lewandowski

Probleme des Standarddesigns

•  Problematische Grundannahmen – Modell des “dedicated searcher” (der bereit ist, ein Ergebnis nach dem anderen

anzuklicken und zu prüfen) – Nutzer wünscht sowohl hohe Precision als auch hohen Recall

•  Der Testaufbau berücksichtigt nicht – wie viele Dokumente ein Nutzer bereit ist anzusehen / wie viele Dokumente zur

Befriedigung des Informationsbedürfnisses benötigt werden. – wie häufig die in dem Test verwendeten Suchanfragen gestellt werden – dass Relevanzbeurteilungen differenziert erfolgen – verschiedenen Relevanzbewertungen durch unterschiedliche Nutzer – verschiedene Anfragetypen – den Einfluss der Trefferbeschreibungen – das typische Selektionsverhalten – die unterschiedliche Präsentation der Ergebnisse – die Bevorzugung bestimmter Suchmaschinen durch die Nutzer – die Durchmischung der Trefferlisten (bzw. Top-Resultate) –  ...

Page 23: Evaluierung von Web-Suchmaschinen

22 | Dirk Lewandowski

Probleme des Standarddesigns

•  Problematische Grundannahmen – Modell des “dedicated searcher” (der bereit ist, ein Ergebnis nach dem anderen

anzuklicken und zu prüfen) – Nutzer wünscht sowohl hohe Precision als auch hohen Recall

•  Der Testaufbau berücksichtigt nicht – wie viele Dokumente ein Nutzer bereit ist anzusehen / wie viele Dokumente zur

Befriedigung des Informationsbedürfnisses benötigt werden. – wie häufig die in dem Test verwendeten Suchanfragen gestellt werden – dass Relevanzbeurteilungen differenziert erfolgen – verschiedenen Relevanzbewertungen durch unterschiedliche Nutzer – verschiedene Anfragetypen – den Einfluss der Trefferbeschreibungen – das typische Selektionsverhalten – die unterschiedliche Präsentation der Ergebnisse – die Bevorzugung bestimmter Suchmaschinen durch die Nutzer – die Durchmischung der Trefferlisten (bzw. Top-Resultate) –  ...

Page 24: Evaluierung von Web-Suchmaschinen

23 | Dirk Lewandowski

Precision-Recall-Graph (binär)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Google 0,75 0,71 0,71 0,67 0,64 0,62 0,59 0,58 0,55 0,55 0,54 0,53 0,52 0,52 0,51 0,50 0,49 0,49 0,48 0,48

Yahoo 0,73 0,69 0,69 0,68 0,61 0,62 0,61 0,60 0,60 0,60 0,59 0,58 0,57 0,56 0,55 0,54 0,53 0,53 0,53 0,52

MSN 0,58 0,50 0,51 0,53 0,52 0,49 0,49 0,48 0,47 0,45 0,44 0,43 0,42 0,40 0,39 0,39 0,38 0,38 0,37 0,37

Ask 0,65 0,60 0,59 0,56 0,53 0,53 0,52 0,52 0,50 0,50 0,49 0,48 0,47 0,47 0,46 0,46 0,45 0,45 0,44 0,44

Seekport 0,58 0,53 0,51 0,52 0,51 0,50 0,48 0,45 0,44 0,43 0,44 0,44 0,43 0,42 0,41 0,40 0,39 0,38 0,37 0,37

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

Pre

cisi

on

Number of results

Google

Yahoo

MSN

Ask

Seekport

Page 25: Evaluierung von Web-Suchmaschinen

24 | Dirk Lewandowski

Precision-Recall-Graph (Fünferskala)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Google 2,54 2,19 2,14 2,04 1,93 1,86 1,77 1,72 1,63 1,59 1,59 1,53 1,49 1,45 1,42 1,38 1,35 1,35 1,32 1,32

Yahoo 2,33 2,21 2,11 2,00 1,82 1,81 1,75 1,69 1,68 1,67 1,64 1,62 1,58 1,54 1,53 1,50 1,47 1,46 1,45 1,42

MSN 1,80 1,53 1,53 1,55 1,51 1,42 1,38 1,34 1,31 1,24 1,22 1,17 1,15 1,11 1,09 1,06 1,05 1,03 1,01 0,99

Ask 1,73 1,53 1,45 1,35 1,27 1,31 1,33 1,34 1,30 1,28 1,26 1,23 1,18 1,18 1,17 1,16 1,16 1,16 1,13 1,12

Seekport 1,65 1,48 1,41 1,44 1,40 1,36 1,32 1,24 1,20 1,17 1,18 1,16 1,13 1,11 1,07 1,04 1,01 1,00 0,98 0,97

0,00

0,50

1,00

1,50

2,00

2,50

3,00

Du

rch

sch

nit

tlic

he P

reci

sio

n

Trefferplatz

Vergleich der Precision nach Listenplatz (Top20; Skala)

Google

Yahoo

MSN

Ask

Seekport

Page 26: Evaluierung von Web-Suchmaschinen

25 |

Drei Anfragetypen

Anfragetypen nach Broder (2002)

•  Informational (informationsorientiert) – Nutzer möchte sich zu einem Thema informieren. – Ziel sind mehrere Dokumente.

•  Navigational (navigationsorientiert) – Ziel ist es, eine bestimmte Seite (wieder) zu finden. – Typisch: Suche nach Homepage („Daimler Chrysler“). – Ziel ist i.d.R. ein Dokument.

•  Transactional (transaktionsorientiert) – Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden

soll. – Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.

Page 27: Evaluierung von Web-Suchmaschinen

26 |

Drei Anfragetypen

Anfragetypen nach Broder (2002)

•  Informational (informationsorientiert) – Nutzer möchte sich zu einem Thema informieren. – Ziel sind mehrere Dokumente.

•  Navigational (navigationsorientiert) – Ziel ist es, eine bestimmte Seite (wieder) zu finden. – Typisch: Suche nach Homepage („Daimler Chrysler“). – Ziel ist i.d.R. ein Dokument.

•  Transactional (transaktionsorientiert) – Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden

soll. – Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.

Page 28: Evaluierung von Web-Suchmaschinen

27 | Dirk Lewandowski

Successful answered queries on results position n

(Lewandowski 2011)

Page 29: Evaluierung von Web-Suchmaschinen

28 | Dirk Lewandowski

•  Results selection simple

Page 30: Evaluierung von Web-Suchmaschinen

29 | Dirk Lewandowski

•  results selection with descriptions

Page 31: Evaluierung von Web-Suchmaschinen

30 | Dirk Lewandowski

Precision of descriptions vs. precision of results (Google)

Google: Treffer vs. Beschreibungen (ja/nein)

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Treffer

Beschreibungen

Page 32: Evaluierung von Web-Suchmaschinen

31 | Dirk Lewandowski

Recall-precision graph (top20 descriptions)

Page 33: Evaluierung von Web-Suchmaschinen

32 | Dirk Lewandowski

Recall-Precision-Graph (Top20, DRprec = relevant descriptions leading to relevant results)

Page 34: Evaluierung von Web-Suchmaschinen

33 | Dirk Lewandowski

Standardaufbau von Retrievaltests (für Suchmaschinen)

Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten

Erweiterung der Methodik der Retrievaltests

Fazit

Agenda

Einleitung: Wozu evaluieren?

Page 35: Evaluierung von Web-Suchmaschinen

34 | Dirk Lewandowski

Fazit

•  Es gibt Standardverfahren, die für bestimmte Fragestellungen gut geeignet sind.

•  Allerdings bilden Sie die typischen Nutzungsszenarien nicht ausreichend ab.

•  Viele Erweiterungen der Standardverfahren wurden vorgeschlagen, jedoch bislang kein integrierter Ansatz.

Beim Design eigener Tests ist es wichtig, die Möglichkeiten und Grenzen der verwendeten Methodik zu kennen!

Page 36: Evaluierung von Web-Suchmaschinen

Vielen Dank für Ihre Aufmerksamkeit.

www.bui.haw-hamburg.de/lewandowski.html

Aktuelles Buch: Handbuch Internet-Suchmaschinen 2

E-Mail: [email protected]