Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen,...

43
Blick hinter die Kulissen einer Suchmaschine

Transcript of Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen,...

Page 1: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Blick hinter die Kulissen einer Suchmaschine

Page 2: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Matthias Dreier, SCIL St. Gallen,[email protected]

Page 3: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Werner Hartmann, ETH Zürich undinfoSense,

[email protected]

Page 4: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Warum eine didaktische

Suchmaschine?

Page 5: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Typisches Suchverhalten

• Bekannte Sites sind wichtige Ausgangspunkte für User und werden immer wieder besucht.

• User surfen auf dem Web und benutzen dabei eine lokale Backtracking-Strategie.

• User verwenden oft Suchmaschinen und wechseln den Suchdienst eher selten.

• User planen die Suche kaum, verwenden einfache Suchanfragen und nutzen die Interaktion mit dem Suchdienst (z.B. Relevanzfeedback) kaum.

• User schätzen die Glaubwürdigkeit der Informationen auf dem Web als hoch ein.

Marilyn Domas White, Mirja Iivonen: Questions as a factor in Web search strategy. Information Processing and Management 37 (2001), Heft 5, 721–740.

Page 6: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Gefragt: Langlebiges Konzeptwissen

Gängige Suchmaschinen sind heute technisch fast ausgereizt. Entscheidende Verbesserungen können nur durch systematischeres Vorgehen der Benutzer erreicht werden.

Amanda Spink: A user-centered approach to evaluating human interaction with Web search engines: an exploratory study. In: Information Processing and Management 38 (2002), Heft 3, 401–426.

Amanda Spink, Bernard J. Jansen, Dietmar Wolfram, Tefko Saracevic: From E-Sex to E-Commerce: Web Search Changes. In: IEEE Computer 35 (2002), Heft 3, 107–109.

Marilyn Domas White, Mirja Iivonen: Questions as a factor in Web search strategy. Information Processing and Management 37 (2001), 5, 721–740.

Page 7: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Mangelndes Problembewusstsein

Eine aktuelle Untersuchung aus den USA zeigt:

• 96% der User sind überzeugt von ihren Suchfähigkeiten, 62% sogar sehr überzeugt

• 87% haben gute Erfahrungen mit Suchmaschinen, 17% sagen sogar, sie finden immer was sie suchen

• 68% glauben, Suchmaschinen liefern zuverlässige, unparteiische Informationen

Fallows, D. (2005) Search Engine Users. Internet searchers are confident, satisfied and trusting – but they are also unaware and naïve. PEW Internet & American Life Project, Washington.

Page 8: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Was müsste man über Suchmaschinen

wissen?

Page 9: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.
Page 10: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Das müsste man wissen:Typen von Fragestellungen

Geschlossene Frage,bekannte Quelle

Wie hoch ist die Lebens-erwartung gemäss BFS inder Schweiz?

Offene Frage, bekannte Quelle

Was unternimmt die WHO zur Bekämpfung der Bilharziose in Afrika?

Geschlossene Frage,unbekannte Quelle

Welche Bedeutung hat der Ausdruck „geile Reben“?

Offene Frage,unbekannte Quelle

Wie unterscheiden sich die US- und EU-Ansätze bzgl. Datenschutz im Internet?

Page 11: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Das müsste man wissen:Ausbeute versus Präzision

relevante Dokumente

gefundene Dokumente

Dokumentenkollektiongeringe Ausbeutegeringe Präzision

Dokumentenkollektion

relevante Dokumente

gefundene Dokumente

hohe Ausbeutegeringe Präzision

Dokumentenkollektion

relevante Dokumente

gefundene Dokumente

geringe Ausbeutehohe Präzision

Dokumentenkollektion

relevante Dokumente

gefundene Dokumente

hohe Ausbeutehohe Präzision

Page 12: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Warum geht das so schnell?

Eine halbe Million Dokumente ...... aus der ganzen Welt ...

... im Bruchteil einer Sekunde ...

UNMÖGLICH!

Page 13: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Das müsste man wissen:Gute Vorbereitung ist alles

Web-Roboter beschafftDokumente aus Internet

Suchsystem indexiert Dokumenteund erstellt Tabelle mit Begriffen

Page 14: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Informationsanbieter müssten wissen:

Das sieht eine Suchmaschine

Page 15: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.
Page 16: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Das müsste man wissen:So sieht ein Index aus!

Das „Stichwortverzeichnis“ einer Suchmaschine

Page 17: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

So arbeitet die Suchmaschine mit dem Index

Gesucht: Übersicht über die Planeten unseres Sonnensystems

Anfrage: mars

Resultat: Alle Webseiten zum Begriff „mars“aus dem Index, kaum etwas zu Planeten

Page 18: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

So arbeitet die Suchmaschine mit dem Index

Anfrage: mars

Page 19: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Zweiter Versuch

Gesucht: Übersicht über die Planeten unseres Sonnensystems

Anfrage: mars pluto saturn

Resultat: Suchmaschine kombiniert Listenzu „mars“, „saturn“ und „pluto“aus dem Index.=> bessere Resultate

Page 20: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Zweiter Versuch

Anfrage: mars pluto saturn

Page 21: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Das müsste man wissen:Wenige häufige Worte

Sex

Bier

Fussball

Auto

Iglu

Gölä

Börkin

Neadron

....

....

Seltene Suchbegriffe helfen der

Suchmaschine

Page 22: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Darf man in der Schweiz ohne Führerausweis ein Auto

umparkieren, wenn man den Motor nicht anlässt?

Page 23: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Da der Rote Sumpfkrebs mit Raubfischen bekämpft werden kann, ist diese Massnahme dem Gifteinsatz gegen Sumpfkrebse vorzuziehen.

Krebse bekämpfen mit Gift

Dokument

Normalisierung

rot sumpf krebs raub fisch kaempf massnahm gift einsetz sumpf krebs vorzieh

krebs kaempf gift

Anfrage

Das müsste man wissen:Jeder Vergleich braucht

Normalisierung

Page 24: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Ganz viele Löcher ......

Page 25: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Wer kann das erklären?

Page 26: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Das müsste man wissen:Offene Fragestellungen -

schlechte Normalisierung kann verheerend sein

1. Google ist so erfolgreich, weil präzisionsorientiert

2. Google ist so präzisionsorientiert, weil • die Suchbegriffe mit „UND“

verknüpft werden.• nur eine minimale Normalisierung

stattfindet.

3. Bei der einfachen Google-Suche bleibt die Ausbeute auf der Strecke.

Page 27: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.
Page 28: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Anfrage:

Ausdehnung Ozonloch Antarktis

Packeis

Die Ausdehnung des Packeises über der Antarktis beträgt im Winter über 20 Millionen Quadratkilometer.

Ozonloch

Das Ozonloch über der Antarktis erreichte im September 2001 eine Fläche von 29 Millionen Quadratkilometer.

Dokument 1:

Dokument 2:

Das müsste man wissen:Dokumentenbasierte Rangierung

Page 29: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Das müsste man wissen:Dokumentenunabhängige Rangierung

Page 30: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Das müsste man wissen:Geldbasierte Rangierung

Page 31: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Das müsste man wissen:

Internet

Indexierungvon Dokumenten

Web Roboter

Dokumente

Vergleich von

Anfragen mit

Dokumenten

Index

Benutzer-schnittstelle

Resultate

Indexierung von Anfragen

Anfragen

Art des Informations-bedürfnisses

Page 32: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Unsere Unterrichtserfahrung:Leute verstehen „Index“ nicht

Das Problem:Index einer

Suchmaschine ist eine Black-Box.

Didaktische Konsequenz:• Index sichtbar machen• Experimente mit dem

Index ermöglichen

Page 33: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Was zeigt Soekia?Erfassen von Dokumenten

Index

Indexierung

Ausbeute / Präzision

Dokumentenbasierte Rangierung

Page 34: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

„Gezippter“ Ablauf einer

Unterrichtseinheit mit Soekia

Page 35: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Vorkenntnisse der Schüler/innen

• Alle haben schon verschiedene Suchmaschinen benutzt.

• Alle haben schon einmal den Blick hinter die Kulissen einer Webseite geworfen und wissen, dass Webseiten in html geschrieben sind.

• Ausbeute und Präzision wurden thematisiert.

Lernziele: Wir lernen effizienter und effektiver suchen!

Page 36: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

1. Teil: Index einer Suchmaschine

Index entspricht demStichwortverzeichnis am Schluss eines Buches.......Nur ist der Index einer Suchmaschine ein bisschen grösser ;-)

Entdecken Sie die Funktionsweise von Suchmaschinen selber!

Page 37: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Schnell einige html-Seiten erzeugen

<html><body>

Das ist meine Webseite, abgespeichert als

meineseite.html

Für den Index spannend sind Worte mit vielen Formen:

Fussball, Fussballer, Fussballerin, Fussballes, Fussbälle, Fussballs, Fussballspiel, ….

</body></html>

Page 38: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Entdeckendes Lernen

Page 39: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

2. Teil: Ausbeute und Präzision

Wann wurde das Ozonloch entdeckt?

Entdecken Sie die Bedeutung der Normalisierung selber!

Page 40: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Lernaufgabe Normalisierung, Ausbeute und Präzision

Page 41: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

3. Teil: Rangierung

Warum erscheint Avis vor Hertz?

Spielen Sie mit den verschiedenen Rangierungsprinzipien!

Page 42: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

Zum Abschluss: Spamwettbewerb

Page 43: Blick hinter die Kulissen einer Suchmaschine. Matthias Dreier, SCIL St. Gallen, matthias.dreier@unisg.ch.

www.educeth.ch/informatik/soekia