HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm....

18
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 gorithm. Grundlagen des Internets . Juni 2002 Christian Schindelhauer Vorlesung Sommersemester 2002 Algorithmische Grundlagen des Internets (VII) Christian Schindelhauer [email protected] HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik AG Meyer auf der Heide

Transcript of HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm....

Page 1: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

1Algorithm. Grundlagen des Internets03. Juni 2002

Christian Schindelhauer

Vorlesung Sommersemester 2002

Algorithmische Grundlagen des Internets (VII)

Christian [email protected]

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/InformatikAG Meyer auf der Heide

Page 2: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

2Algorithm. Grundlagen des Internets03. Juni 2002

Christian Schindelhauer

2. Kapitel

Der Web-Graph

Page 3: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

3Algorithm. Grundlagen des Internets03. Juni 2002

Christian Schindelhauer

Eigenschaften des WWW

o WWW: Speicher für Informationen Neues Medium Nicht geplant, unkoordiniert

• Im Gegensatz zu Stromnetz, Telefon, Straßen, Eisenbahn Trotzdem Gesetzmäßigkeiten Selbstorganisation Ändert sich dauernd

o Analyse der Webstruktur ermöglicht Bessere Suchmaschinen Automatisch erzeugte Webverzeichnisse Gezielte Suchdienste Filter

Page 4: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

4Algorithm. Grundlagen des Internets03. Juni 2002

Christian Schindelhauer

Der Webgraph

o GWWW:

Statische HTML-Seiten sind Knoten Links sind gerichtete Kanten

o Ausgrad eines Knoten: Anzahl Links auf einer Webseite

o Eingrad eines Knoten: Anzahl der Links zu einer Webseite

o Gerichteter Pfad von Knoten u zu Knoten v: Folge der Webseiten, um von u zu v durch Links zu kommen

o Ungerichteter Pfad (u=w0,w2,…,wm-1,v=wm) von Knoten u zu Knoten v: Für alle i:

Von wi zu wi+1 existiert Link oder umgekehrt

o Starke (schwache) Zusammenhangskomponente: Knotenmenge, in der (un-)gerichteter Pfad von jedem Knoten zu

jedem anderen existiert

Page 5: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

5Algorithm. Grundlagen des Internets03. Juni 2002

Christian Schindelhauer

Ein-/Ausgradverteilung

o Ein-/ und Ausgrade sind Paretoverteilt, d.h. Ein/Ausgrad i erscheint mit Häufigkeit ~ 1/iα

o Experimentell überprüft von Kumar et al 97: 40 Mio Webseiten Barabasi et al 99: Domain *.nd.edu + Webseiten im Abstand 3 Broder et al 00: 204 Mio Webseiten (Scan Mai+Okt. 1999)

Page 6: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

6Algorithm. Grundlagen des Internets03. Juni 2002

Christian Schindelhauer

Ein-/Ausgradverteilung von Gn,p (I)

o Zufallsgraph Gn,p:

n Knoten Jede gerichtete Kante erscheint mit unabhängiger W’keit p

o Kann der Webgraph durch Gn,p beschrieben werden?

o Erwarteter Ein/Ausgrad in Gn,p = (n-1)p

Da durchschnittl. Grad in GWWW konstant, wähle

Betrachte feste Webseite r• Sei X die Anzahl der Links auf r

• Sei Xi =1 wenn Link nach i existiert, sonst 0

• Dann ist P[Xi=1]=p und P[Xi=0]=1-p

Page 7: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

7Algorithm. Grundlagen des Internets03. Juni 2002

Christian Schindelhauer

Pareto-Verteilung (I)

o Diskrete Paretoverteilung für x {1,2,3,…}

mit konstanten Faktor

Es gilt

o Heavy-Tail-Eigenschaft: Nicht alle Momente E[Xk] sind definiert Erwartungswert existiert, gdw, α>2 Varianz und E[X2] definiert, gdw. α>3 E[Xk] definiert, gdw. α>k+1

o Dichtefunktion der kontinuierlichen Paretoverteilung für x>x0

Page 8: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

8Algorithm. Grundlagen des Internets03. Juni 2002

Christian Schindelhauer

Pareto-Verteilung (II)

o Beispiele für Paretoverteilungen

Pareto 1897: Privatvermögen in Bevölkerung Yule 1944: Wortlängen in Sprachen Zipf 1949: Größe von Städten Länge gewisser Molekülketten Dateilängen in Unix-Filesystem ….

Zugriffshäufigkeit von Webseiten Besuchshäufigkeit einzelner Websurfer auf einer

bestimmten Seite …

Page 9: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

9Algorithm. Grundlagen des Internets03. Juni 2002

Christian Schindelhauer

Zusammenhangskomponenten

o Starke und schwache Zus.-komponenten sind Paretoverteilt

o Riesige schwache Zus.-Kompontente mit 91% aller Seiten

o Größte starke Zus.Komponente nur 28% Durchmesser ≥ 28 Wo ist der Rest?

Page 10: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

10Algorithm. Grundlagen des Internets03. Juni 2002

Christian Schindelhauer

Ein Bild des Webgraphen

Weberfassung durch Altavista Mai+Oktober 1999:

Page 11: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

11Algorithm. Grundlagen des Internets03. Juni 2002

Christian Schindelhauer

Web-SucheDer Suchraum

o Besonderheiten des Web als Suchraum: Größe: 1998: 350 Mio. Dokumente

2002: > 1 Mrd. Dokumente Dynamik: Jeden Tag gibt es Veränderungen

Halbwertszeit einer Webseite: 55 Monate Heterogenität:

• Bilder, Tondateien, Text, Filme, etc. Sprachvielfalt:

• > 100 verschiedene Sprachen Kopien

• Mehr als 30% der Webseiten sind Kopien anderer Hohe Vernetzung:

• Durchschnittlich ~7-8 Links pro Seite

Page 12: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

12Algorithm. Grundlagen des Internets03. Juni 2002

Christian Schindelhauer

Überblick über Suchmaschinen (I)http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/SearchEngines.html

Google

AlltheWeb

(Advanced)

Alta Vista (Advance

d)

Size HUGE. Claims over 1.5 billion pages, but may be counting pages not fully indexed. Biggest in tests.

HUGE. Claims will reach a billion pages soon. Sometimes ties for first in tests

LARGE. Claims to be the biggest also.

TypeGeneral Web database with often useful ranking by popularity. Far from comprehensive, but often finds "the best" pages.

General Web database. Excellent ranking.

General Web database

Boolean logic

Partial. AND assumed between words.Capitalize OR.- excludes.No ( ) or nesting.

AND default.For OR, enclose terms or phrases in (  ) without typing "or".

AND (default), OR, AND NOT, NEAR (within 10 words). 

Sub-Searchin

g

Yes No No

Page 13: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

13Algorithm. Grundlagen des Internets03. Juni 2002

Christian Schindelhauer

Überblick über Suchmaschinen (II)http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/SearchEngines.html

Google

AlltheWeb

(Advanced)

Alta Vista (Advanced)

Results

Ranking

Based on page popularity measured in links to it from other pages: high rank if a lot of other pages link to it. Fuzzy AND also invoked.

Automatic Fuzzy AND. Also seems to use "importance" and links to pages.

Automatic Fuzzy AND.Some of the top results have purchased the right to be there

Truncation

NoNo Use *.

Case sensitivity

NoNo

Yes. Upper case retrieves only matching upper case.Lower case retrieves either lower or upper case. Also accent and character sensitive.

Language 

Yes. Major Romanized and non-Romanized languages

Yes, extensive list includes major

Romanized and non-Romanized languages.

Yes, extensive list includes major Romanized and non-

Romanized languages.

Translation

Yes No Yes

Page 14: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

14Algorithm. Grundlagen des Internets03. Juni 2002

Christian Schindelhauer

Überblick Suchmaschinenhttp://www.searchengineshowdown.com/

(Stand März 2002)

Search Engines Boolean Default Proximity Truncation Case Fields Limits Stop Sorting

Google   -, OR and Phrase No Nointitle, inurl,

moreLanguage,

filetype, dateYes, +

searchesRelevance, site

WiseNut     - only and Phrase No No No LanguageYes, +

searchesRelevance, site

AllTheWeb     +, -, or with () and  Phrase No Notitle, URL, link, more

Language, domain, 

NoRelevance,

site 

Lycos   

+, - and  Phrase No Notitle, URL, link, more

Language, domain

No Relevance

Northern Light  

and, or, not, ( ), +, - 

and  Phrase Yes * %, auto plurals

Notitle,URL,

moreDoc type date, more

NoRelevance, site, date,

folders

AltaVista Simple    

+, -, AND, OR, AND NOT, ( )

and usually Phrase, NEAR Yes * < 6 ** unlimited

Notitle, URL, link, more

Language No Relevance, site

AltaVista Adv. and, or, and not, ( ) PhrasePhrase, near, within, <, <~

Yes * < 6 ** unlimited

Yestitle, URL, link, more

Language, date

NoRelevance, if

used

HotBot and, or, not, ( ), +, - 

And Phrase Yes * Yes title, moreLanguage, date, more

Yes Relevance, site

MSN Search AND, OR, NOT, ( ), +, - 

And Phrase No Yes title, linkLanguage, date, more

Yes Relevance

Teoma  - only And Phrase No No No NoYes, +

searches

Folders, Relevance, metasites

Page 15: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

15Algorithm. Grundlagen des Internets03. Juni 2002

Christian Schindelhauer

Überblick Suchmaschinenhttp://www.searchengineshowdown.com/

(Stand März 2002)

o Gespeicherte Dokumentmenge:

Search EngineShowdown

Estimate (millions)

Claim  (millions)

Google 968 1,500

WiseNut 579 1,500

AllTheWeb 580 507

Northern Light 417 358

AltaVista 397 500

Hotbot 332 500

MSN Search  292 500

Page 16: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

16Algorithm. Grundlagen des Internets03. Juni 2002

Christian Schindelhauer

Weberfassung

o Web-Crawler: Robust und sorgfältig getestet wegen Heterogenität des

Webs Extern:

• Keine Überlastung von Web-surfer

• Kein unvorhersehbares Verhalten Intern

• Effizienter Umgang mit riesigen Datenmengen

• Bestimmt Reihenfolge der Suche im Web-Graph- Wichtige Seiten zuerst!

• Richtige Wahl Frequenz der Wiederkehr auf besuchte Seiten

o Z.B. Google Verteiltes Crawling-System Jeder Crawler

• hat 300 Verbindungen gleichzeitig

• 100 Webseiten/Sekunde - 600 Kbyte Daten pro Sekunde

Page 17: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

17Algorithm. Grundlagen des Internets03. Juni 2002

Christian Schindelhauer

Webseitensuche

o Moderne Websuchalgorithmen verlassen sich nicht nur auf textuelle Suche: Problem des Überflusses an Trefferseiten

• 10.000 Wörter decken 95% jedes Texts ab (Paretoverteilung)

• Mehr Web-Seiten als Wörter

Gesucht: wichtige Seiten, d.h. Seiten mit Autorität Wichtige Seiten enthalten nicht den Suchbegriff

• http://www.porsche.com: weder Sportwagen oder Auto

• http://www.airbus.com: weder Aircraft noch Airjet

• http://www.google.de/ weder Search engine noch Suchmaschine

Bestimmte Seiten besitzen fast alle Schlüsselwörter• http://wortschatz.uni-leipzig.de/top10000en.txt

Web-Verzeichnisse, Z.B. www.yahoo.com, www.web.de, www.netscape.com

• enthalten viele Begriffe, aber keine Autoritäten für ein Gebiet Namensgebung der URL irreführend:

• http://www.haus.com/ ist Webverzeichnis

Bestimmte Suchbegriffe fast überall z.B. WWW, Web, windows, java

Page 18: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

18Algorithm. Grundlagen des Internets03. Juni 2002

Christian Schindelhauer

Webseitensuche

o PageRank [Brin&Page 98] Vergibt jeder Web-Seite einen absoluten Rang (rank)/Autorität Rang berücksichtigt Eingrad und Autorität des Eingrads Idee Seiten sind wichtig, wenn wichtige Seite auf sie zeigen

o HITS (HyperText Induces Topic Search) [Kleinberg 98] Ausgehend von einem Seitenstamm aus einer textuellen Suche Betracht Hubs (Verteiler) und Autoritäten, Idee:

• Gute Hubs zeigen gute Autoritäten an• Gute Autoritäten werden von guten Hubs adressiert

o Anchor Text (Google) Text unter Link und Webseite zusammengenommen

→ Grafiken können gesucht werden

→ Auch Seiten ohne Suchbegriff können werden gefunden