Blick hinter die Kulissen einer Suchmaschine ISSEP 2005, Klagenfurt
M. Dreier, W. Hartmann 1
Blick hinter die Kulissen einer Suchmaschine
Matthias Dreier, SCIL St. Gallen,[email protected]
Werner Hartmann, ETH Zürich undinfoSense, [email protected]
Warum eine didaktische
Suchmaschine?
Informationsbeschaffung ist teuer!
„A recent study has shown that in Europe white collar workers spend up to 20% of theirtime reading, writing, retrieving and otherwise processing written documents. Thisamounts to 9.1 million man-years activity per year in Europe alone. Approximately onemillion man-years is attributed to IR tasksalone.“
P.M.Hearn and D.F.Button, Language Industries Atlas, IOS Press, 1994.
Nutzung von Suchmaschinen: Eine didaktische Herausforderung
Amanda Spink, Bernard J. Jansen, Dietmar Wolfram, Tefko Saracevic: From E-Sex to E-Commerce: Web Search Changes. In: IEEE Computer 35 (2002), Heft 3, 107–109.
Blick hinter die Kulissen einer Suchmaschine ISSEP 2005, Klagenfurt
M. Dreier, W. Hartmann 2
Typisches Suchverhalten
• Bekannte Sites sind wichtige Ausgangspunkte für User und werden immer wieder besucht.
• User surfen auf dem Web und benutzen dabei eine lokale Backtracking-Strategie.
• User verwenden oft Suchmaschinen und wechseln den Suchdienst eher selten.
• User planen die Suche kaum, verwenden einfache Suchanfragen und nutzen die Interaktion mit dem Suchdienst (z.B. Relevanzfeedback) kaum.
• User schätzen die Glaubwürdigkeit der Informationen auf dem Web als hoch ein.
Marilyn Domas White, Mirja Iivonen: Questions as a factor in Web search strategy. Information Processing and Management 37 (2001), Heft 5, 721–740.
Gefragt: Langlebiges Konzeptwissen
Gängige Suchmaschinen sind heute technisch fast ausgereizt. Entscheidende Verbesserungen können nur durch systematischeres Vorgehen der Benutzer erreicht werden.
Amanda Spink: A user-centered approach to evaluating human interaction with Web search engines: an exploratory study. In: Information Processingand Management 38 (2002), Heft 3, 401–426.
Amanda Spink, Bernard J. Jansen, Dietmar Wolfram, Tefko Saracevic: From E-Sex to E-Commerce: Web Search Changes. In: IEEE Computer 35 (2002), Heft 3, 107–109.
Marilyn Domas White, Mirja Iivonen: Questions as a factor in Web search strategy. Information Processing and Management 37 (2001), 5, 721–740.
Mangelndes ProblembewusstseinEine aktuelle Untersuchung aus den USA zeigt:• 96% der User sind überzeugt von ihren
Suchfähigkeiten, 62% sogar sehr überzeugt• 87% haben gute Erfahrungen mit
Suchmaschinen, 17% sagen sogar, sie finden immer was sie suchen
• 68% glauben, Suchmaschinen liefern zuverlässige, unparteiische Informationen
Fallows, D. (2005) Search Engine Users. Internet searchers are confident, satisfied and trusting – but they are also unaware and naïve. PEW Internet & American Life Project, Washington.
Was müsste man über
Suchmaschinen wissen?
Das müsste man wissen:Typen von Fragestellungen
Offene Frage,unbekannte Quelle
Wie unterscheiden sich die US- und EU-Ansätze bzgl. Datenschutz im Internet?
Geschlossene Frage,unbekannte Quelle
Welche Bedeutung hat der Ausdruck „geile Reben“?
Offene Frage, bekannte Quelle
Was unternimmt die WHO zur Bekämpfung der Bilharziose in Afrika?
Geschlossene Frage,bekannte Quelle
Wie hoch ist die Lebens-erwartung gemäss BFS inder Schweiz?
Blick hinter die Kulissen einer Suchmaschine ISSEP 2005, Klagenfurt
M. Dreier, W. Hartmann 3
Das müsste man wissen:Ausbeute versus Präzision
relevante Dokumente
gefundene Dokumente
Dokumentenkollektiongeringe Ausbeutegeringe Präzision
Dokumentenkollektion
relevante Dokumente
gefundene Dokumente
hohe Ausbeutegeringe Präzision
Dokumentenkollektion
relevante Dokumente
gefundene Dokumente
geringe Ausbeutehohe Präzision
Dokumentenkollektion
relevante Dokumente
gefundene Dokumente
hohe Ausbeutehohe Präzision
Warum geht das so schnell?
Eine halbe Million Dokumente ...... aus der ganzen Welt ...
... im Bruchteil einer Sekunde ...
UNMÖGLICH!
Das müsste man wissen:Gute Vorbereitung ist alles
Web-Roboter beschafftDokumente aus Internet
Suchsystem indexiert Dokumenteund erstellt Tabelle mit Begriffen
Informationsanbieter müssten wissen: Das sieht eine Suchmaschine
Tipps für den Unterricht
Mehr: www.educeth.ch/informatik/entdecken/
Blick hinter die Kulissen einer Suchmaschine ISSEP 2005, Klagenfurt
M. Dreier, W. Hartmann 4
Das müsste man wissen:So sieht ein Index aus!
Das „Stichwortverzeichnis“ einer Suchmaschine
So arbeitet die Suchmaschine mit dem Index
Gesucht:Übersicht über die Planeten unseres Sonnensystems
Anfrage:mars
Resultat:Alle Webseiten zum Begriff „mars“aus dem Index, kaum etwas zu Planeten
So arbeitet die Suchmaschine mit dem Index
Anfrage: mars
Zweiter Versuch
Gesucht:Übersicht über die Planeten unseres Sonnensystems
Anfrage:mars pluto saturn
Resultat:Suchmaschine kombiniert Listenzu „mars“, „saturn“ und „pluto“aus dem Index.=> bessere Resultate
Zweiter Versuch
Anfrage: mars pluto saturn
Das müsste man wissen:Wenige häufige Worte
Auto
Fussball
Bier
Sex
Neadron
Börkin
Gölä
Iglu
....
....
Seltene Suchbegriffe helfen der Suchmaschine
Blick hinter die Kulissen einer Suchmaschine ISSEP 2005, Klagenfurt
M. Dreier, W. Hartmann 5
Darf man in der Schweiz ohne Führerausweis ein Auto umparkieren, wenn man den Motor nicht anlässt?
Da der Rote Sumpfkrebs mit Raubfischen bekämpft werden kann, ist diese Massnahme dem Gifteinsatzgegen Sumpfkrebse vorzuziehen.
Krebse bekämpfen mit Gift
Dokument
Normalisierung
rot sumpf krebs raub fisch kaempfmassnahm gift einsetz sumpf krebs vorzieh
krebs kaempf gift
Anfrage
Das müsste man wissen:Jeder Vergleich braucht Normalisierung
Ganz viele Löcher ...... Wer kann das erklären?
Das müsste man wissen:Offene Fragestellungen - schlechte
Normalisierung kann verheerend sein
1. Google ist so erfolgreich, weil präzisionsorientiert
2. Google ist so präzisionsorientiert, weil • die Suchbegriffe mit „UND“ verknüpft
werden.• nur eine minimale Normalisierung
stattfindet.
3. Bei der einfachen Google-Suche bleibt die Ausbeute auf der Strecke.
Blick hinter die Kulissen einer Suchmaschine ISSEP 2005, Klagenfurt
M. Dreier, W. Hartmann 6
Anfrage: Ausdehnung Ozonloch Antarktis
Packeis
Die Ausdehnung des Packeises über der Antarktis beträgt im Winter über 20 Millionen Quadratkilometer.
Ozonloch
Das Ozonloch über der Antarktis erreichte im September 2001 eine Fläche von 29 Millionen Quadratkilometer.
Dokument 1: Dokument 2:
Das müsste man wissen:Dokumentenbasierte Rangierung
Das müsste man wissen:Dokumentenunabhängige Rangierung
Das müsste man wissen:Geldbasierte Rangierung
Das müsste man wissen:
Internet
Indexierungvon Dokumenten
Web Roboter
Dokumente
Vergleich von Anfragen mit Dokumenten
Index
Benutzer-schnittstelle
Resultate
Indexierung von Anfragen
Anfragen
Art des Informations-bedürfnisses
Unsere Unterrichtserfahrung:Leute verstehen „Index“ nicht
Das Problem:Index einer Suchmaschine
ist eine Black-Box.
Didaktische Konsequenz:• Index sichtbar machen• Experimente mit dem
Index ermöglichen
Was zeigt Soekia?Erfassen von Dokumenten
Index
Indexierung
Ausbeute / Präzision
Dokumentenbasierte Rangierung
Blick hinter die Kulissen einer Suchmaschine ISSEP 2005, Klagenfurt
M. Dreier, W. Hartmann 7
„Gezippter“ Ablauf einer
Unterrichtseinheit mit Soekia
Vorkenntnisse der Schüler/innen• Alle haben schon verschiedene
Suchmaschinen benutzt.• Alle haben schon einmal den Blick hinter
die Kulissen einer Webseite geworfen und wissen, dass Webseiten in htmlgeschrieben sind.
• Ausbeute und Präzision wurden thematisiert.
Lernziele: Wir lernen effizienter und effektiver suchen!
1. Teil: Index einer Suchmaschine
Index entspricht demStichwortverzeichnis am Schluss eines Buches.......Nur ist der Index einer Suchmaschine ein bisschen grösser ;-)
Entdecken Sie die Funktionsweise von Suchmaschinen selber!
Schnell einige html-Seiten erzeugen
<html><body>
Das ist meine Webseite, abgespeichert als
meineseite.html
Für den Index spannend sind Worte mit vielen Formen:
Fussball, Fussballer, Fussballerin, Fussballes, Fussbälle, Fussballs, Fussballspiel, ….
</body></html>
Entdeckendes Lernen 2. Teil: Ausbeute und Präzision
Wann wurde das Ozonloch entdeckt?
Entdecken Sie die Bedeutung der Normalisierung selber!
Blick hinter die Kulissen einer Suchmaschine ISSEP 2005, Klagenfurt
M. Dreier, W. Hartmann 8
Lernaufgabe Normalisierung, Ausbeute und Präzision 3. Teil: Rangierung
Warum erscheint Avis vor Hertz?
Spielen Sie mit den verschiedenen Rangierungsprinzipien!
Zum Abschluss: Spamwettbewerb www.educeth.ch/informatik/soekia
Top Related