Evaluierung von Web-Suchmaschinen

Evaluierung von Web-Suchmaschinen Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg, Department Information dirk.lewandowski@haw-hamburg.de

1 | Dirk Lewandowski

Standardaufbau von Retrievaltests (für Suchmaschinen)

Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten

Erweiterung der Methodik der Retrievaltests

Agenda

Einleitung: Wozu evaluieren?

Agenda

Suchmaschinenmarkt: Deutschland 2011

(Webhits, 2011)

Die Qualität von Suchmaschinen kann nur durch eine Kombination unterschiedlicher Faktoren gemessen werden.

•  Qualität des Index –  Größe des Datenbestands, Abdeckung des Web –  Abdeckung bestimmter Bereiche (Sprachräume, Länder) –  Überschneidungen der Indices –  Aktualität des Datenbestands

•  Qualität der Suchresultate –  Retrievaleffektivität –  Zuverlässigkeit der Suchergebnisse –  Zufriedenheit der Nutzer –  Überschneidungen der (Top-)Ergebnisse

•  Qualität der Suchfunktionen

•  Nutzerfreundlichkeit + Benutzerführung –  Aufbau der Trefferseiten

(Lewandowski & Höchstötter 2007; ergänzt)

Die Qualität von Suchmaschinen kann nur durch eine Kombination unterschiedlicher Faktoren gemessen werden.

•  Qualität des Index –  Größe des Datenbestands, Abdeckung des Web –  Abdeckung bestimmter Bereiche (Sprachräume, Länder) –  Überschneidungen der Indices –  Aktualität des Datenbestands

•  Qualität der Suchresultate –  Retrievaleffektivität –  Zuverlässigkeit der Suchergebnisse –  Zufriedenheit der Nutzer –  Überschneidungen der (Top-)Ergebnisse

•  Qualität der Suchfunktionen

•  Nutzerfreundlichkeit + Benutzerführung –  Aufbau der Trefferseiten

(Lewandowski & Höchstötter 2007; ergänzt)

Kernkomponenten einer Suchmaschine

(Risvik & Michelsen 2002)

Agenda

Was soll eigentlich gemessen werden?

•  Relevanz der Ergebnisse •  Durchschnittliche Bewertung der Suchergebnisse (Systemseite) •  Bewertung jedes einzelnen gefundenen Treffers hinsichtlich seiner Eignung zur

Beantwortung der Suchanfrage. •  Ergebnisse mehrerer Suchmaschinen können gemischt werden; Herkunft der

Treffer kann verschleiert werden.

•  Zufriedenheit der Nutzer mit einem Suchprozess •  Durchschnittliche Bewertung der Suchprozesse (Nutzerseite) •  Bewertung jeder einzelnen Suchsession. •  Jeder Nutzer kann nur eine Suchmaschine bewerten; Kenntnis der Suchmaschine.

•  Wissenszuwachs •  Durchschnittliche Bewertung dessen, „was hängen geblieben ist“ (Nutzerseite) •  Bewertung des Wissenszuwachses nach einer Suchsession. •  Jeder Nutzer kann nur eine Suchmaschine bewerten; Kenntnis der Suchmaschine.

Entscheidungen beim Design klassischer Retrievaltests

1. Welche Suchmaschine(n)?

2. Wie viele Suchanfragen? 3. Welche Suchanfragen? 4. Wie viele Ergebnisse pro Suchanfrage?

5. Wie viele Juroren? 6. Welche Juroren(gruppen)? 7. Wie viele Juroren je Suchanfrage?

8. Wie sollen Dokumente bewertet werden (Skalen)? 9. Sollen Dokumentbeschreibungen berücksichtigt werden?

10.  Mit welchen Kennzahlen soll gemessen werden?

Recall-Precision-Graph (top20 results)

(Lewandowski 2008)

Agenda

(Eyetracking-Studie HAW-Hamburg 2010)

14 | Dirk Lewandowski 14 |

Results selection (top11 results)

(Granka et al. 2004)

Anzeigen

Nachrichten

Bilder

Videos

Blogbeiträge

Eye-Tracking

•  x

Agenda

Probleme des Standarddesigns

•  Problematische Grundannahmen – Modell des “dedicated searcher” (der bereit ist, ein Ergebnis nach dem anderen

anzuklicken und zu prüfen) – Nutzer wünscht sowohl hohe Precision als auch hohen Recall

•  Der Testaufbau berücksichtigt nicht – wie viele Dokumente ein Nutzer bereit ist anzusehen / wie viele Dokumente zur

Befriedigung des Informationsbedürfnisses benötigt werden. – wie häufig die in dem Test verwendeten Suchanfragen gestellt werden – dass Relevanzbeurteilungen differenziert erfolgen – verschiedenen Relevanzbewertungen durch unterschiedliche Nutzer – verschiedene Anfragetypen – den Einfluss der Trefferbeschreibungen – das typische Selektionsverhalten – die unterschiedliche Präsentation der Ergebnisse – die Bevorzugung bestimmter Suchmaschinen durch die Nutzer – die Durchmischung der Trefferlisten (bzw. Top-Resultate) –  ...

Probleme des Standarddesigns

•  Problematische Grundannahmen – Modell des “dedicated searcher” (der bereit ist, ein Ergebnis nach dem anderen

anzuklicken und zu prüfen) – Nutzer wünscht sowohl hohe Precision als auch hohen Recall

•  Der Testaufbau berücksichtigt nicht – wie viele Dokumente ein Nutzer bereit ist anzusehen / wie viele Dokumente zur

Befriedigung des Informationsbedürfnisses benötigt werden. – wie häufig die in dem Test verwendeten Suchanfragen gestellt werden – dass Relevanzbeurteilungen differenziert erfolgen – verschiedenen Relevanzbewertungen durch unterschiedliche Nutzer – verschiedene Anfragetypen – den Einfluss der Trefferbeschreibungen – das typische Selektionsverhalten – die unterschiedliche Präsentation der Ergebnisse – die Bevorzugung bestimmter Suchmaschinen durch die Nutzer – die Durchmischung der Trefferlisten (bzw. Top-Resultate) –  ...

Precision-Recall-Graph (binär)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Google 0,75 0,71 0,71 0,67 0,64 0,62 0,59 0,58 0,55 0,55 0,54 0,53 0,52 0,52 0,51 0,50 0,49 0,49 0,48 0,48

Yahoo 0,73 0,69 0,69 0,68 0,61 0,62 0,61 0,60 0,60 0,60 0,59 0,58 0,57 0,56 0,55 0,54 0,53 0,53 0,53 0,52

MSN 0,58 0,50 0,51 0,53 0,52 0,49 0,49 0,48 0,47 0,45 0,44 0,43 0,42 0,40 0,39 0,39 0,38 0,38 0,37 0,37

Ask 0,65 0,60 0,59 0,56 0,53 0,53 0,52 0,52 0,50 0,50 0,49 0,48 0,47 0,47 0,46 0,46 0,45 0,45 0,44 0,44

Seekport 0,58 0,53 0,51 0,52 0,51 0,50 0,48 0,45 0,44 0,43 0,44 0,44 0,43 0,42 0,41 0,40 0,39 0,38 0,37 0,37

Number of results

Google

Seekport

Precision-Recall-Graph (Fünferskala)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Google 2,54 2,19 2,14 2,04 1,93 1,86 1,77 1,72 1,63 1,59 1,59 1,53 1,49 1,45 1,42 1,38 1,35 1,35 1,32 1,32

Yahoo 2,33 2,21 2,11 2,00 1,82 1,81 1,75 1,69 1,68 1,67 1,64 1,62 1,58 1,54 1,53 1,50 1,47 1,46 1,45 1,42

MSN 1,80 1,53 1,53 1,55 1,51 1,42 1,38 1,34 1,31 1,24 1,22 1,17 1,15 1,11 1,09 1,06 1,05 1,03 1,01 0,99

Ask 1,73 1,53 1,45 1,35 1,27 1,31 1,33 1,34 1,30 1,28 1,26 1,23 1,18 1,18 1,17 1,16 1,16 1,16 1,13 1,12

Seekport 1,65 1,48 1,41 1,44 1,40 1,36 1,32 1,24 1,20 1,17 1,18 1,16 1,13 1,11 1,07 1,04 1,01 1,00 0,98 0,97

Trefferplatz

Vergleich der Precision nach Listenplatz (Top20; Skala)

Google

Seekport

Drei Anfragetypen

Anfragetypen nach Broder (2002)

•  Informational (informationsorientiert) – Nutzer möchte sich zu einem Thema informieren. – Ziel sind mehrere Dokumente.

•  Navigational (navigationsorientiert) – Ziel ist es, eine bestimmte Seite (wieder) zu finden. – Typisch: Suche nach Homepage („Daimler Chrysler“). – Ziel ist i.d.R. ein Dokument.

•  Transactional (transaktionsorientiert) – Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden

soll. – Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.

Drei Anfragetypen

Anfragetypen nach Broder (2002)

•  Informational (informationsorientiert) – Nutzer möchte sich zu einem Thema informieren. – Ziel sind mehrere Dokumente.

•  Navigational (navigationsorientiert) – Ziel ist es, eine bestimmte Seite (wieder) zu finden. – Typisch: Suche nach Homepage („Daimler Chrysler“). – Ziel ist i.d.R. ein Dokument.

•  Transactional (transaktionsorientiert) – Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden

soll. – Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.

Successful answered queries on results position n

(Lewandowski 2011)

•  Results selection simple

•  results selection with descriptions

Precision of descriptions vs. precision of results (Google)

Google: Treffer vs. Beschreibungen (ja/nein)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Treffer

Beschreibungen

Recall-precision graph (top20 descriptions)

Recall-Precision-Graph (Top20, DRprec = relevant descriptions leading to relevant results)

Agenda

•  Es gibt Standardverfahren, die für bestimmte Fragestellungen gut geeignet sind.

•  Allerdings bilden Sie die typischen Nutzungsszenarien nicht ausreichend ab.

•  Viele Erweiterungen der Standardverfahren wurden vorgeschlagen, jedoch bislang kein integrierter Ansatz.

Beim Design eigener Tests ist es wichtig, die Möglichkeiten und Grenzen der verwendeten Methodik zu kennen!

Vielen Dank für Ihre Aufmerksamkeit.

www.bui.haw-hamburg.de/lewandowski.html

Aktuelles Buch: Handbuch Internet-Suchmaschinen 2

E-Mail: dirk.lewandowski@haw-hamburg.de

Evaluierung von Web-Suchmaschinen

Technology

Transcript of Evaluierung von Web-Suchmaschinen

Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

etourism Fitness Basiskurse Grabs / Grabs-Schrempf ...fhs30932/suchmaschinen...etourism Fitness Basiskurse | Grabs / Grabs-Schrempf: Suchmaschinen Optimierung | Inhaltsverzeichnis

Web-Suche · Websuche: Benutzer-Schnittstelle • Web-Suchmaschinen brauchen natürlich eine web-basierte Benutzer-Schnittstelle. • Die Suchseite muss einen Anfragestring entgegennehmen

Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005

Web-Conferencing Software Tools Evaluierung der Marktführer · 2016. 2. 27. · Web-Conferencing Software Tools Evaluierung der Marktführer Universität St. Gallen - Hochschule

Suchmaschinen im Internet Was sind Suchmaschinen? Funktionsprinzip der Suchmaschinen Notwendige Ausrüstung (PC und Programme) Der „Browser“! Als Beispiel.

Attraktive Geschäftslösungen 2020 · 2020-01-02 · Suchmaschinen Optimierung (SEO) Suchmaschinen Marketing (SEM) Socialmedia Marketing ab 599.-SUCHMASCHINEN MARKETING & OPTIMIERUNGEN

Interoperabilität im Web 2.0: Evaluierung und ...l3s.de/~zerr/teaching/Masterarbeit-Tristan-Wehrmaker-Display.pdf · A New Approach to Web Applications\ erw ahnt [ Gar05]. Damit

Wie Suchmaschinen die Inhalte des Web interpretieren

Suchmaschinen vs. OPAC

Maßgeschneiderte Suchmaschinen

Pi Suchmaschinen Marketing

Wie beeinflussen Suchmaschinen den Informationsmarkt?

Anpassungen des allgemeinen Layouts an das neue Web-Seiten Layout aus 2010 Themen 2011 Evaluierung der Verbünde CBS Version 5.0 LBS4 Web Scale Management.

Recruiting Trends Automotive, Finance & It 2010fis.uni-bamberg.de/bitstream/uniba/1293/1/Recruiting Trends... · » Web 2.0 und Suchmaschinen haben noch geringe Bedeutung: ... „Recruiting

Suchmaschinen im Internet

Workshop Suchmaschinen- und Online-Marketing

Optimierung von Inhalten für Suchmaschinen Oder: Was eine Website bei Suchmaschinen erfolgreich macht!

Suchmaschinen werden sozial

Insuma GmbH - Intelligente Suchmaschinen Insuma GmbH Intelligente Portal-/Intranet-Suchmaschinen Insuma Focus.