Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios...

57
Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017 1/29

Transcript of Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios...

Page 1: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Ideen und Konzepte der Informatik

WebsucheAntonios Antoniadis

(Basierend auf Folien von Kurt Mehlhorn)

13. Nov. 2017

13. Nov. 2017 1/29

Page 2: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Suchmaschinen

1990: Archie (sehr elementar). . .1995: AltaVista1998: Google

13. Nov. 2017 1/29

Page 3: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

mehr als 40 000 Anfragen pro SekundeMarktanteil in DE, über 90%Internetdienstleistungen, Internethandel, WerbungSoftwareentwicklung, Handyhersteller. . .

Thema Heute:Grundzüge der Google-SuchmaschineAktuelle Forschung

13. Nov. 2017 2/29

Page 4: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

mehr als 40 000 Anfragen pro SekundeMarktanteil in DE, über 90%Internetdienstleistungen, Internethandel, WerbungSoftwareentwicklung, Handyhersteller. . .

Thema Heute:Grundzüge der Google-SuchmaschineAktuelle Forschung

13. Nov. 2017 2/29

Page 5: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Was bedeutet Websuche?

Eingabe: einige WorteAusgabe: Webseiten, die die Schlüsselwörter enthalten.Geordnet von wichtig, zu weniger wichtigQualitätsmaß: Nutzerzufriedenheit. („Wichtigkeit einerWebseite“ kann von Nutzer zu Nutzer unteschiedlich sein)

Webseiten bestehen aus Inhalt und Verweisen. (Content undLinks.) Verweise auf eine Webseite, können ein gutes Indiz fürWichtigkeit sein.

13. Nov. 2017 3/29

Page 6: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Was bedeutet Websuche?

Eingabe: einige WorteAusgabe: Webseiten, die die Schlüsselwörter enthalten.Geordnet von wichtig, zu weniger wichtigQualitätsmaß: Nutzerzufriedenheit. („Wichtigkeit einerWebseite“ kann von Nutzer zu Nutzer unteschiedlich sein)

Webseiten bestehen aus Inhalt und Verweisen. (Content undLinks.) Verweise auf eine Webseite, können ein gutes Indiz fürWichtigkeit sein.

13. Nov. 2017 3/29

Page 7: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Wichtige Anmerkung

In der Vergangenheit hatten Suchmaschinen keinTextverständnis. Sie finden Webseiten, die gegebeneSuchworte enthalten (einfach) und ordnen diese geschickt an(das ist die Leistung!)Aktuelle Forschung und immer mehr in aktuellenSuchmaschinen vertreten: Textverständnis. Allerdings noch imAnfangsstatus.

13. Nov. 2017 4/29

Page 8: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Ein Beispiel und Drei Fragen

1. Frage: Woherkennen Suchmaschinenso viele Webseiten?

2. Frage: Wie werdenSeiten gefunden die„Ideen“ und „Informatik“enthalten? Wie Seitendie nur „Ideen “enthalten?3. Frage: Wie wird nachWichtigkeit (FachbegriffRelevanz) sortiert?

13. Nov. 2017 5/29

Page 9: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Ein Beispiel und Drei Fragen

1. Frage: Woherkennen Suchmaschinenso viele Webseiten?2. Frage: Wie werdenSeiten gefunden die„Ideen“ und „Informatik“enthalten? Wie Seitendie nur „Ideen “enthalten?

3. Frage: Wie wird nachWichtigkeit (FachbegriffRelevanz) sortiert?

13. Nov. 2017 5/29

Page 10: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Ein Beispiel und Drei Fragen

1. Frage: Woherkennen Suchmaschinenso viele Webseiten?2. Frage: Wie werdenSeiten gefunden die„Ideen“ und „Informatik“enthalten? Wie Seitendie nur „Ideen “enthalten?3. Frage: Wie wird nachWichtigkeit (FachbegriffRelevanz) sortiert?

13. Nov. 2017 5/29

Page 11: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

1. Frage: Woher kennen Suchmaschinen soviele Webseiten?

Web Crawler

13. Nov. 2017 6/29

Page 12: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

1. Frage: Woher kennen Suchmaschinen soviele Webseiten?

Web Crawler

13. Nov. 2017 6/29

Page 13: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Web Crawler

Kriechen über das Netz, indem sie von ein paar Startseiten(Seed Pages) ausgehend systematisch Verweisen (Links)folgenEine Kopie von jeder besuchten Seite wird zum Organisatordes Webcrawls gesendet

⇒ Google hat eine Kopie des ganzen erreichbaren Webs(mehrere Milliarden Webseiten)

13. Nov. 2017 7/29

Page 14: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Web Crawler

Kriechen über das Netz, indem sie von ein paar Startseiten(Seed Pages) ausgehend systematisch Verweisen (Links)folgenEine Kopie von jeder besuchten Seite wird zum Organisatordes Webcrawls gesendet⇒ Google hat eine Kopie des ganzen erreichbaren Webs(mehrere Milliarden Webseiten)

13. Nov. 2017 7/29

Page 15: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Graphen

Ein Graph besteht aus Knoten undKanten.

Eine Kante verbindet zwei Knoten.Jede Kante ist entweder gerichtet(Einbahnstraße) oder ungerichtet.

Graphen könen darstellen: Straßen-netzwerke, Firmengeflechte, Inter-net, Freundschaftsbeziehungen,Abhängigkeit von Aufgaben,. . .

A B

C

D

E

FG

13. Nov. 2017 8/29

Page 16: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Kriechen: Systematisches Durchsuchen

A← Menge der Saatknoten

while es existiert eine Kante (Verweis/Link) (u, v) mit u in A undv nicht in A:

füge v zu A hinzu.

Dieser Algorithmus findet alle Knoten, die von den Saatknotenaus erreichbar sind.

13. Nov. 2017 9/29

Page 17: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Kriechen: Systematisches Durchsuchen

A← Menge der Saatknoten

while es existiert eine Kante (Verweis/Link) (u, v) mit u in A undv nicht in A:

füge v zu A hinzu.

Dieser Algorithmus findet alle Knoten, die von den Saatknotenaus erreichbar sind.

13. Nov. 2017 9/29

Page 18: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

2. Frage: Frage: Wie werden Seiten gefundendie „Ideen“ und „Informatik“ enthalten? WieSeiten die nur „Ideen“ enthalten?

Vorkommen von Worten in Texten,Vorkommenslisten.

13. Nov. 2017 10/29

Page 19: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

2. Frage: Frage: Wie werden Seiten gefundendie „Ideen“ und „Informatik“ enthalten? WieSeiten die nur „Ideen“ enthalten?

Vorkommen von Worten in Texten,Vorkommenslisten.

13. Nov. 2017 10/29

Page 20: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Vorkommen von Worten in Texten

Text: „Phantasie ist wichtiger als Wissen, denn Wissen istbegrenzt. “Sortieren der Worte ergibt:als begrenzt denn ist ist Phantasie wichtiger Wissen Wissen

Nun kann man einfach für jedes Wort die Anzahl derVorkommen bestimmen.

13. Nov. 2017 11/29

Page 21: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Vorkommen von Worten in Texten

Text: „Phantasie ist wichtiger als Wissen, denn Wissen istbegrenzt. “Sortieren der Worte ergibt:als begrenzt denn ist ist Phantasie wichtiger Wissen WissenNun kann man einfach für jedes Wort die Anzahl derVorkommen bestimmen.

13. Nov. 2017 11/29

Page 22: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

VorkommenslistenAngenommen wir haben schon Ordnung von Seiten nachRelevanz.

Seite1: „Phantasie ist wichtiger als Wissen, denn Wissen istbegrenzt. “Seite2: „Zu wissen, was man weiss, und zu wissen, was mantut, das ist Wissen. “

Erzeuge Paare: (Phantasie 1) (ist 1) (wichtiger 1) . . . (zu 2)(wissen 2)Sortiere: (als 1) (begrenzt 1) . . . (Wissen 1) (Wissen 2)(wissen 2) . . .Extrahiere Vorkommenslisten:begrenzt: 1 . . .Wissen: 1 2 . . .

13. Nov. 2017 12/29

Page 23: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

VorkommenslistenAngenommen wir haben schon Ordnung von Seiten nachRelevanz.

Seite1: „Phantasie ist wichtiger als Wissen, denn Wissen istbegrenzt. “Seite2: „Zu wissen, was man weiss, und zu wissen, was mantut, das ist Wissen. “

Erzeuge Paare: (Phantasie 1) (ist 1) (wichtiger 1) . . . (zu 2)(wissen 2)Sortiere: (als 1) (begrenzt 1) . . . (Wissen 1) (Wissen 2)(wissen 2) . . .Extrahiere Vorkommenslisten:begrenzt: 1 . . .Wissen: 1 2 . . .

13. Nov. 2017 12/29

Page 24: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Ordnung nach Relevanz undVorkommenslistenEs gibt mehrere Milliarden Webseiten. Circa 45 Milliarden (1Milliarde = 109). Diese können nach Relevanz sortiert werden (3.Frage):

1. Bibel2. Kapital3. . . .

Für jedes mögliche Suchwort (Wort im Duden, und, und . . . )führt man eine Liste, auf welchen Webseiten es vorkommt:

Phantasie: 1, 10, 45,. . .Wissen: 1, 2, 198, 3462,. . .

Je kleiner die Zahl, desto wichtiger die Webseite.

13. Nov. 2017 13/29

Page 25: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Ordnung nach Relevanz undVorkommenslistenEs gibt mehrere Milliarden Webseiten. Circa 45 Milliarden (1Milliarde = 109). Diese können nach Relevanz sortiert werden (3.Frage):

1. Bibel2. Kapital3. . . .

Für jedes mögliche Suchwort (Wort im Duden, und, und . . . )führt man eine Liste, auf welchen Webseiten es vorkommt:

Phantasie: 1, 10, 45,. . .Wissen: 1, 2, 198, 3462,. . .

Je kleiner die Zahl, desto wichtiger die Webseite.

13. Nov. 2017 13/29

Page 26: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Ordnung nach Relevanz undVorkommenslistenEs gibt mehrere Milliarden Webseiten. Circa 45 Milliarden (1Milliarde = 109). Diese können nach Relevanz sortiert werden (3.Frage):

1. Bibel2. Kapital3. . . .

Für jedes mögliche Suchwort (Wort im Duden, und, und . . . )führt man eine Liste, auf welchen Webseiten es vorkommt:

Phantasie: 1, 10, 45,. . .Wissen: 1, 2, 198, 3462,. . .

Je kleiner die Zahl, desto wichtiger die Webseite.

13. Nov. 2017 13/29

Page 27: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Suche nach „Wissen “

Finde V-Liste von „Wissen “:Wissen: 1, 2, 198, 3462,. . .

Und gebe die Webseiten mit diesen Nummern aus.

Wie sollten wir nach der V-Liste suchen? Binärsuche!

13. Nov. 2017 14/29

Page 28: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Suche nach „Wissen “

Finde V-Liste von „Wissen “:Wissen: 1, 2, 198, 3462,. . .

Und gebe die Webseiten mit diesen Nummern aus.

Wie sollten wir nach der V-Liste suchen?

Binärsuche!

13. Nov. 2017 14/29

Page 29: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Suche nach „Wissen “

Finde V-Liste von „Wissen “:Wissen: 1, 2, 198, 3462,. . .

Und gebe die Webseiten mit diesen Nummern aus.

Wie sollten wir nach der V-Liste suchen? Binärsuche!

13. Nov. 2017 14/29

Page 30: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Suche nach „Turing Award“

Finde V-Listen für „Turing“ und „Award“:– Turing: 4, 12, 32, 145, 167, 168. . .– Award: 12, 35, 167, 231. . .

Gebe die Gemeinsamen Einträge aus: 12, 167,. . .Wie schnell geht das?

Duden: ca 145000 WörterOxford Englisch Dictionary: ca 620000 Wörter

Binärsuche: weniger als 20 Vergleiche.Turing: 19.300.000 Seiten (0.71secs)Award: 1.210.000.000 Seiten (0.76secs)Turing Award: 2.910.000 Seiten (0.95secs)

V-Listen sind zwar lang, aber man braucht nur die Ersten zehngemeinsame Einträge: Mischen der beiden Listen.

13. Nov. 2017 15/29

Page 31: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Suche nach „Turing Award“

Finde V-Listen für „Turing“ und „Award“:– Turing: 4, 12, 32, 145, 167, 168. . .– Award: 12, 35, 167, 231. . .

Gebe die Gemeinsamen Einträge aus: 12, 167,. . .

Wie schnell geht das?Duden: ca 145000 WörterOxford Englisch Dictionary: ca 620000 Wörter

Binärsuche: weniger als 20 Vergleiche.Turing: 19.300.000 Seiten (0.71secs)Award: 1.210.000.000 Seiten (0.76secs)Turing Award: 2.910.000 Seiten (0.95secs)

V-Listen sind zwar lang, aber man braucht nur die Ersten zehngemeinsame Einträge: Mischen der beiden Listen.

13. Nov. 2017 15/29

Page 32: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Suche nach „Turing Award“

Finde V-Listen für „Turing“ und „Award“:– Turing: 4, 12, 32, 145, 167, 168. . .– Award: 12, 35, 167, 231. . .

Gebe die Gemeinsamen Einträge aus: 12, 167,. . .Wie schnell geht das?

Duden: ca 145000 WörterOxford Englisch Dictionary: ca 620000 Wörter

Binärsuche: weniger als 20 Vergleiche.Turing: 19.300.000 Seiten (0.71secs)Award: 1.210.000.000 Seiten (0.76secs)Turing Award: 2.910.000 Seiten (0.95secs)

V-Listen sind zwar lang, aber man braucht nur die Ersten zehngemeinsame Einträge: Mischen der beiden Listen.

13. Nov. 2017 15/29

Page 33: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Suche nach „Turing Award“

Finde V-Listen für „Turing“ und „Award“:– Turing: 4, 12, 32, 145, 167, 168. . .– Award: 12, 35, 167, 231. . .

Gebe die Gemeinsamen Einträge aus: 12, 167,. . .Wie schnell geht das?

Duden: ca 145000 WörterOxford Englisch Dictionary: ca 620000 Wörter

Binärsuche: weniger als 20 Vergleiche.

Turing: 19.300.000 Seiten (0.71secs)Award: 1.210.000.000 Seiten (0.76secs)Turing Award: 2.910.000 Seiten (0.95secs)

V-Listen sind zwar lang, aber man braucht nur die Ersten zehngemeinsame Einträge: Mischen der beiden Listen.

13. Nov. 2017 15/29

Page 34: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Suche nach „Turing Award“

Finde V-Listen für „Turing“ und „Award“:– Turing: 4, 12, 32, 145, 167, 168. . .– Award: 12, 35, 167, 231. . .

Gebe die Gemeinsamen Einträge aus: 12, 167,. . .Wie schnell geht das?

Duden: ca 145000 WörterOxford Englisch Dictionary: ca 620000 Wörter

Binärsuche: weniger als 20 Vergleiche.Turing: 19.300.000 Seiten (0.71secs)Award: 1.210.000.000 Seiten (0.76secs)Turing Award: 2.910.000 Seiten (0.95secs)

V-Listen sind zwar lang, aber man braucht nur die Ersten zehngemeinsame Einträge: Mischen der beiden Listen.

13. Nov. 2017 15/29

Page 35: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Suche nach „Turing Award“

Finde V-Listen für „Turing“ und „Award“:– Turing: 4, 12, 32, 145, 167, 168. . .– Award: 12, 35, 167, 231. . .

Gebe die Gemeinsamen Einträge aus: 12, 167,. . .Wie schnell geht das?

Duden: ca 145000 WörterOxford Englisch Dictionary: ca 620000 Wörter

Binärsuche: weniger als 20 Vergleiche.Turing: 19.300.000 Seiten (0.71secs)Award: 1.210.000.000 Seiten (0.76secs)Turing Award: 2.910.000 Seiten (0.95secs)

V-Listen sind zwar lang, aber man braucht nur die Ersten zehngemeinsame Einträge: Mischen der beiden Listen.

13. Nov. 2017 15/29

Page 36: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Speicher?

Wie viel Speicherplatz benötigen wir?

ca 107 viele Schlagwörter, jeweils mit V-Liste der Länge 106 bis109.

Gesamtlänge, nicht mehr als 1016 Zahlen.Dieser Rechner kann 1

16 · 1012 viele Zahlen speichern(256Gbyte Festplatte).160.000 kleine Rechner sind ausreichend.

13. Nov. 2017 16/29

Page 37: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Speicher?

Wie viel Speicherplatz benötigen wir?

ca 107 viele Schlagwörter, jeweils mit V-Liste der Länge 106 bis109.Gesamtlänge, nicht mehr als 1016 Zahlen.Dieser Rechner kann 1

16 · 1012 viele Zahlen speichern(256Gbyte Festplatte).

160.000 kleine Rechner sind ausreichend.

13. Nov. 2017 16/29

Page 38: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Speicher?

Wie viel Speicherplatz benötigen wir?

ca 107 viele Schlagwörter, jeweils mit V-Liste der Länge 106 bis109.Gesamtlänge, nicht mehr als 1016 Zahlen.Dieser Rechner kann 1

16 · 1012 viele Zahlen speichern(256Gbyte Festplatte).160.000 kleine Rechner sind ausreichend.

13. Nov. 2017 16/29

Page 39: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

3. Frage: Wie wird nach Wichtigkeit (Relevanz)sortiert?

Zentrale Idee: Inhalt ignorieren und auf Linkskonzentrieren! PageRank

13. Nov. 2017 17/29

Page 40: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

3. Frage: Wie wird nach Wichtigkeit (Relevanz)sortiert?

Zentrale Idee: Inhalt ignorieren und auf Linkskonzentrieren! PageRank

13. Nov. 2017 17/29

Page 41: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

PageRankEine Seite ist wichtig, wenn wichtige Seiten auf sie verweisen.(Ähnlich: Ein Mensch ist wichtig, wenn wichtige Leute ihn fürwichtig halten)

Sergey Brin, Larry Page. Ähnlich: Jon Klein-berg’s HITS.

13. Nov. 2017 18/29

Page 42: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

PageRankEine Seite ist wichtig, wenn wichtige Seiten auf sie verweisen.(Ähnlich: Ein Mensch ist wichtig, wenn wichtige Leute ihn fürwichtig halten)Sergey Brin, Larry Page.

Ähnlich: Jon Klein-berg’s HITS.

13. Nov. 2017 18/29

Page 43: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

PageRankEine Seite ist wichtig, wenn wichtige Seiten auf sie verweisen.(Ähnlich: Ein Mensch ist wichtig, wenn wichtige Leute ihn fürwichtig halten)Sergey Brin, Larry Page. Ähnlich: Jon Klein-

berg’s HITS.

13. Nov. 2017 18/29

Page 44: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

PageRank

bw = Relevanz der Seite w ,Wir tun so, als ob wir bw kennen.Wenn Seite w auf fünf andere Seiten verweist, dann gibt sie anjede bw/5 an Relevanz weiter.

Allgemeiner:Jede Seite w gibt an jeden Nachfolger den gleichen Bruchteilseiner Wichtigkeit bw weiter (z.B. bei drei Nachfolgernbekommt jeder bw/3.Jeder Knoten sammelt die ihm mitgeteilte Wichtigkeit auf; wsammelt sw auf.Forderung: bw = sw .

13. Nov. 2017 19/29

Page 45: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

PageRank

bw = Relevanz der Seite w ,Wir tun so, als ob wir bw kennen.Wenn Seite w auf fünf andere Seiten verweist, dann gibt sie anjede bw/5 an Relevanz weiter.

Allgemeiner:Jede Seite w gibt an jeden Nachfolger den gleichen Bruchteilseiner Wichtigkeit bw weiter (z.B. bei drei Nachfolgernbekommt jeder bw/3.Jeder Knoten sammelt die ihm mitgeteilte Wichtigkeit auf; wsammelt sw auf.Forderung: bw = sw .

13. Nov. 2017 19/29

Page 46: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Ein Beispiel

1

2

3

4

b1 = s1 =?

b2 = s2 = b1 +b4

2

b3 = s3 =b2

2

b4 = s4 =b3

2

b1 =7

21,b2 =

821

,

b3 =421

,b4 =2

21

13. Nov. 2017 20/29

Page 47: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Ein Beispiel

1

2

3

4

b1 = s1 =?

b2 = s2 = b1 +b4

2

b3 = s3 =b2

2

b4 = s4 =b3

2

b1 =7

21,b2 =

821

,

b3 =421

,b4 =2

2113. Nov. 2017 20/29

Page 48: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Wie Lösen?

Gleichungssystem aufstellen und lösen: Aufwendig.

Man simuliert das System:– Gib jedem Knoten w ein bw von 1000.– Wiederhole:

Jeder Knoten verteilt seine Wichtigkeitauf seine Nachfolger.

– bw ist die Anzahl der Wichtigkeitspunkte nach vielenSimulationsschritten.

13. Nov. 2017 21/29

Page 49: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Wie Lösen?

Gleichungssystem aufstellen und lösen: Aufwendig.

Man simuliert das System:– Gib jedem Knoten w ein bw von 1000.– Wiederhole:

Jeder Knoten verteilt seine Wichtigkeitauf seine Nachfolger.

– bw ist die Anzahl der Wichtigkeitspunkte nach vielenSimulationsschritten.

13. Nov. 2017 21/29

Page 50: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Beispiel: Simulation

1

2

3

4

Siehe Tafel

b1 =7

21,b2 =

821

,

b3 =421

,b4 =2

21

13. Nov. 2017 22/29

Page 51: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Kritik?

Wichtig/Relevant = Populär. Die Qualität wird nicht unbedingt mitberücksichtigt.

13. Nov. 2017 23/29

Page 52: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Werbung

Neben den Antworten der Suchmaschine gibt es auch noch„bezahlte Antworten (= Anzeigen)“Hier bezahlen Firmen die Suchmaschine dafür, dass beibestimmten Suchwörtern bestimmte Anzeigen gezeigt werden,etwa

– Anfrage Auto führt zu Anzeige von autoscout24.de.– Wenn Nutzer auf die Anzeige klickt, wird die Suchmaschine

bezahlt. Im Dollarbereich.

13. Nov. 2017 24/29

Page 53: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Zusammenfassung Websuche

Webseiten werden nach Wichtigkeit sortiert.Wichtigkeit wird mit selbst-referentiellem Prozess bestimmt.Geordnete Vorkommensliste für jedes Schlagwort.Suche:

– Finde V-Liste für jedes Schlagwort in der Frage,– Bilde Durchschnitt,– Gebe Webseiten in Reihenfolge aus.

13. Nov. 2017 25/29

Page 54: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Aktuelle Forschung

Gerhard Weikum, MPI für InformatikVon Information zu Wissen

13. Nov. 2017 26/29

Page 55: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

1. Schritt

Benutze WordNet Kategorien:– z.B. Mann ≤ Mensch ≤ Säugetier ≤ Tier

Sammle Fakten:– z.B. KM ist Informatiker, KM geboren in Ingolstadt, KM

verheiratet mit Ena, KM geboren 1949, KM Direktor MPI-INF,. . .– beginne mit Wikipedia Infoboxen– Dann einfache Aussagesätze in Texten

Großes Problem: Konsistenz

13. Nov. 2017 27/29

Page 56: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Beantwortung von Fragen

Wer war Nationaltrainer als Schweinsteiger geboren wurde?– Finde Geburtsjahr von Schweinsteiger.– Finde Deutschen Nationaltrainer in diesem Jahr.

Was haben Manfred Pinkal, Michael Dell und ReneeZellwenger gemeinsam?

– Finde eine Eigenschaft (geboren-in, lebt, arbeitet, studiert,verheiratet-mit) die Pinkal, Dell und Zellwenger gemeinsamhaben.

Politiker die auch Wissenschaftler sind?– Finde ein X , das sowohl Politiker als auch Wissenschaftler ist.

13. Nov. 2017 28/29

Page 57: Ideen und Konzepte der Informatik - Websuche · Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017

Jeopardy!

US Quizshow3 SpielerQuizmaster stellt Fragen,Spieler drücken BuzzerRichtige (falsche)Antworten werden belohnt(bestraft)Mehr Information: Watsonin Wikipedia

Beispielfragen:

Its largest airport isnamed for a World War IIhero; its second largest,for a World War II battle.Almost exactly equal tothe mass of 1000 cubiccentimeters of water; it isa base unit in the metricsystem.Just add 273.15 to yourCelsius readings to getthis.

13. Nov. 2017 29/29