HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm....

27
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 gorithm. Grundlagen des Internets . Juni 2002 Christian Schindelhauer Vorlesung Sommersemester 2002 Algorithmische Grundlagen des Internets (IX) Christian Schindelhauer [email protected] HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik AG Meyer auf der Heide

Transcript of HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm....

Page 1: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

1Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Vorlesung Sommersemester 2002

Algorithmische Grundlagen des Internets (IX)

Christian [email protected]

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/InformatikAG Meyer auf der Heide

Page 2: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

2Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Vereinfachter PageRank-Algorithmus

o Vereinfachter PageRank-Algorithmus Rank einer Web-Seite R(u) [0,1] Wichtige Seiten vererben ihr Gewicht (gleichmäßig unter ihren

Nachfolgern)

c ist Normalisierungsfaktor, so dass ||R(u)||1=1

Vorgängermenge Bu

Nachfolgermenge Fu

Page 3: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

3Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Vereinfachter PageRankBeispiel

Page 4: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

4Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Vereinfachter PageRank-Algorithmus

o Konvergiert der vereinfachte PageRank-Algorithmus?

o Wieviele Lösungen gibt es?

o Wie sinnvoll sind diese?

Page 5: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

5Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Matrixdarstellung

R c M R ,wobei R Vektor (R(1),R(2),… R(n)) und M folgende n n – Matrix ist:

Page 6: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

6Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Eigenvektor als Fixpunkt der RekursionStochastische Matrix

o Für Vektor R, n n-Matrix und Zahl c: Wenn M R = c R , ist R Eigenvektor und c Eigenwert

o Jede n n-Matrix M hat höchstens n Eigenwerte

o Beobachtung:

Stochastische Matrizen beschreiben Markov-Prozesse über den Zustandsraum {1,..,n}

Prob[ij] = Mij

Page 7: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

7Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Eigenvektor als Fixpunkt der RekursionStochastische Matrix

o Die L1-Norm eines Vektors ist gegeben als

Eigenwerte von M |i| 1

Page 8: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

8Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

PeriodizitätBeispiel 1

Page 9: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

9Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

PeriodizitätBeispiel 2

Page 10: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

10Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Notwendige Bedingung für Periodizität

Page 11: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

11Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Notwendige Bedingung für Periodizität

Page 12: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

12Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Notwendige Bedingung für Periodizität

Page 13: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

13Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Hinreichende Bedingung für Konvergenz

Page 14: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

14Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Notwendige Bedingung für Periodizität

Page 15: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

15Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Notwendige Bedingung für Periodizität

Page 16: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

16Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Hinreichende Bedingung für Konvergenz

Page 17: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

17Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Hinreichende Bedingung für Konvergenz

Page 18: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

18Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Nachteile des vereinfachten PageRank-Algorithmus

o Web-Graph hat Senken, d.h. Seiten ohne Links M ist keine stochastische Matrix

o Web-Graph ist periodisch Konvergenz unmöglich

o Web-Graph ist nicht stark zusammenhängend Verschiedene Konvergenzvektoren möglich

o Rang-Senken: Sarke Zusammenhangskompenenten ohne ausgehenden Kangen „saugen“ Gewicht der Vorgänger auf

Page 19: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

19Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Lösung durch PageRank

o Prozess startet mit zufälliger Seite

o Jede Senke erhält Links auf jede Seite in V

o Nur mit Wahrscheinlichkeit q < 1 wird vereinfachter PageRank durchgeführtAnsonsten starte mit zufälliger Startseite

o M ist stochastisch!

Page 20: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

20Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

PageRank-Algorithmus

o Graph der Matrix besteht aus einer starken Zus.-komponente

o Rundwege der Länge 1 existieren

PageRank konvergiert gegen den eindeutigen Eigenvektor mit Eigenwert 1

Page 21: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

21Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Kleinbergs HITS-Algoirhtmus(HyperText Induced Search)

o Anwendung: Textuelle Suche führt zu großen Anzahl von Treffern, z.B.

• Suche nach „windows“ Gewünschte Seite enthält nicht Suchwort

• z.B. http://www.porsche.com enthält weder „Sportwagen“ noch „Auto“

Suche nach allgemeinen Begriffen

o Idee des Algorithmus Autorität/Relevanz einer Web-Seite wird durch Links auf

Hinweisseiten (hubs) bezeugt• z.B. Eisenbahnfans sammeln Links von

Eisenbahngesellschaften Autoritäten weisen auf die Qualität von Hinweisseiten hin Ähnlicher Mechanismus wie PageRank-Algorithmus

Page 22: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

22Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Basismengenauswahl

o Ideal: S ist relativ klein S enthält viele relevante

Web-Seiten S enthält die meisten

(oder viele) der wichtigstenAutoritäten

o Knotenheuristik Erweitere um Nachfolger

•da Hinweisseiten in R auf diese zeigen

Erweitere um max. d Vorgänger•um ausreichende Anzahl von Hinweisseiten zu erhalten

Page 23: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

23Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Kantenmengenheuristik

o Neben Knoten werden Kanten eingeschränkt:

o Kantenmengenheuristik Lösche interne Links (innerhalb der selben Domain)

• wegen Navigationslinks• wegen Links auf Autor

Erlaube maximal m ( 4-8) Links aus gleicher Domain auf eine Seite

• wegen Werbelinks• wegen Links auf Softwaretool

Page 24: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

24Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Gegenseitige Verstärkung

o Gewichtung für Autorität einer Seite i: xi

o Gewichtung für Hinweiseigenschaft einer Seite i: yi

o Autorität/Relevanz einer Web-Seite wird durch Links auf Hinweisseiten (hubs) bezeugt

o Autoritäten weisen auf die Qualität von Hinweisseiten hin

c1, c2 normieren x und y bezüglich der L2-Norm:

Page 25: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

25Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Der HITS-Algorithmus

Page 26: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

26Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Matrixdarstellung

o Aus Adjazenzmatrix:

o Autoritäten:

o Hinweisseiten:

o Nach t Iterationen:

o D.h.

Page 27: HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUTUniversität Paderborn

Fachbereich Mathematik/Informatik

27Algorithm. Grundlagen des Internets24. Juni 2002

Christian Schindelhauer

Matrixdarstellung

o M = A AT ist symmetrische Matrix

o Für symmetrische Matrizen sind alle n Eigenwerte reell sind die n Eigenvektoren orthogonal

o Es existiert die Darstellung

o wobei für die Spaltenvektoren Si gilt

o Falls größter Eigenwert 1 > 2 konvergiert der HITS-Algorithmus

folgt aus Übungsaufgabe 20