Die Größe des Netzes - thi.informatik.uni-frankfurt.de · Connectivity Analyse Die zentrale...

46
Die Größe des Netzes Schätzungen gehen weit auseinander: I Über eine Milliarde im Gebrauch befindliche IP-Adressen I Zwischen 20 Milliarden und einer Billion indizierte Webseiten. Ungefähr 200 Millionen Websites und mehr als 1.5 Milliarden Internetnutzer. Die Gesamtgröße des indizierten Webs liegt im Bereich von mehreren Hundert Terabytes. Die durchschnittliche Größe eines Dokuments liegt zwischen 5 und 10 Kilobytes. Im .com Bereich scheinen sich 40% aller Dokumente täglich zu ändern; rund die Hälfte aller Webseiten scheint eine Lebenszeit von nur 10 Tagen zu besitzen. Suchmaschinen: Für einen sich rasant ändernden Suchraum gigantischer Größe sind Anfragen ohne merkliche Reaktionszeit zu beantworten. Suchmaschinen 1 / 46

Transcript of Die Größe des Netzes - thi.informatik.uni-frankfurt.de · Connectivity Analyse Die zentrale...

Die Größe des Netzes

Schätzungen gehen weit auseinander:I Über eine Milliarde im Gebrauch befindliche IP-AdressenI Zwischen 20 Milliarden und einer Billion indizierte Webseiten.

Ungefähr 200 Millionen Websites und mehr als 1.5 MilliardenInternetnutzer.Die Gesamtgröße des indizierten Webs liegt im Bereich vonmehreren Hundert Terabytes.

Die durchschnittliche Größe eines Dokuments liegt zwischen 5 und10 Kilobytes.

Im .com Bereich scheinen sich 40% aller Dokumente täglich zuändern; rund die Hälfte aller Webseiten scheint eine Lebenszeitvon nur 10 Tagen zu besitzen.

Suchmaschinen:Für einen sich rasant ändernden Suchraum gigantischer Größe sindAnfragen ohne merkliche Reaktionszeit zu beantworten.

Suchmaschinen 1 / 46

Der Aufbau einer Suchmaschine

Der Webgraph besteht aus den durch Hyperlinks verbundenenWebdokumenten.

1 Der Crawler traversiert den Webgraphen mit Hilfe der Hyperlinks:Die gefundenen Dokumente werden erfasst (und damit indiziert).

2 Die Dokumente werden in einem Web Repository verwaltet.I Das Einfügen und Entfernen von Webseiten ist zu unterstützen.I Dokumente zu einer gegebenen Stichwortmenge müssen schnell

auffindbar sein.I Man verwendet unter anderem B-Bäume und Hashing.

3 Die gefundenen Dokumente für eine Stichwortmenge sind zubewerten. Wie?

I Syntaktische Eigenschaften wie Häufigkeit der Stichworte, ihreSchriftgröße werden ausgenutzt

I ebenso wie das Vorkommen der Stichworte in Hyperlinks, die aufdie Weibseite zeigen sowie

I eine Bewertung der Relevanz der Webseite.

Suchmaschinen 2 / 46

Connectivity Analyse und Page Rank

Connectivity Analyse 3 / 46

Connectivity Analyse

Die zentrale Annahme der Connectivity Analyse: Wenn einDokument A auf Dokument B zeigt, dann

- gibt es eine inhaltliche Beziehung zwischen den beidenDokumenten und

- der Autor des Dokuments A hält Dokument B für wertvoll.

Und die Konsequenz:

Schließe von der relativen Wertschätzung zwischen Dokumentenauf die absolute Relevanz der Dokumente.Bewerte Dokumente aufgrund der Graphstruktur des WWW.

Connectivity Analyse 4 / 46

Relevanz Bewertung durch Google

- Syntaktische Eigenschaften der Stichworte werden benutzt.- Der Page-Rank pr(w) einer Webseite w ist die zentrale

Komponente in der Bewertung.Bewerte die Relevanz der Webseite ohne Bezug auf Stichworte.

Verschiedene Sichtweisen in der Berechnung des Page-Rank:I Der Random Surfer

F springt zufällig von Seite zu Seite.F pr(w) ist die relative Häufigkeit des Besuchs der Seite w .

I Im Peer-Review wird angenommen, dass ein Dokument u mit duHyperlinks seinen Page-Rank pr(u) gleichmäßig verteilt:

F Wenn u auf Dokument w zeigt, dann „erbt“ w den Bruchteil pr(u)du

.F Die Seite w erbt insgesamt den Betrag

pr(w) =∑

u zeigt auf w

pr(u)du

.

Verschiedene Sichtweisen, identische Resultate?

Google 5 / 46

Markoff-Ketten: Die stationäre Verteilung

Google Markoff-Ketten 6 / 46

Der Random Surfer und Markoff-Ketten

Eine Matrix P heißt stochastisch, wenn

P > 0 und∑

w

P[v ,w ] = 1 für alle Zeilen v gilt.

Eine Markoff-Kette (G,P) besteht aus- einem gerichteten Graphen G = (V ,E) und- einer stochastischen Übergangsmatrix P, deren Zeilen und

Spalten mit Knoten aus V indiziert sind.

Eine Markoff-Kette (G,P) definiert einen Random Walk auf G:I P[v ,w ] ist die Wahrscheinlichkeit, dass der Random Walk zum

Knoten w wechselt, wenn Knoten v erreicht wird.Unsere Anwendung:

I Wähle G als den Webgraphen und P[v ,w ] = 1dv

, wenn die Webseitev auf die Webseite w zeigt und v genau dv Hyperlinks besitzt.

I Der Random Walk modelliert den Random Surfer.

Google Markoff-Ketten 7 / 46

Peer-Review und die stationäre Verteilung

Sei (G,P) eine Markoff-Kette mit G = (V ,E). Die Verteilungπ = (πv | v ∈ V ) heißt stationär, falls πT = πT · P gilt.

Wählen wir einen Startknoten gemäß einer stationärenVerteilungen π und führen einen Schritt der Markoff-Kette durch,dann verbleiben wir in π.Wenn der Page-Rank nach der Perspektive des Peer-Reviewdefiniert wird, dann ist

pr(w) =∑

u zeigt auf w

pr(u)du

.

Wenn die Übergangsmatrix P durch

P[u,w ] =

{ 1du

(u,w) ist ein Hyperlink0 sonst.

definiert wird, dann ist der Page-Rank eine stationäre Verteilung!

Google Markoff-Ketten 8 / 46

Random Surfer und Grenzverteilung (1/3)

Sei p(k)i,j die Wahrscheinlichkeit den Knoten j vom Knoten i aus in k

Schritten zu erreichen. Dann ist

p(k)i,j = Pk [i , j].

Induktion nach k : Die Verankerung für k = 1 ist offensichtlich.Nach Induktionsannahme gilt

p(k+1)i,j =

∑r

p(k)i,r · P[r , j] =

∑r

Pk [i , r ] · P[r , j] = Pk+1[i , j].

und das war zu zeigen.

Die Grenzwahrscheinlichkeit limk→∞ p(k)i,j , den Knoten j vom Knoten i

aus zu erreichen, stimmt überein mit

limk→∞

Pk [i , j].

Google Markoff-Ketten 9 / 46

Random Surfer und Grenzverteilung (2/3)

Es ist gefährlich, wenn die Grenzverteilung limk→∞ Pk [i , j] vomStartknoten i abhängt.

Die Markoff-Kette (G,P) heißt genau dann ergodisch, wenn für allei1, i2 und j

limk→∞

Pk [i1, j] = limk→∞

Pk [i2, j] > 0 gilt.

- Eine Markoff-Kette (G,P) ist genau ergodisch, wennI G irreduzibel ist: Zu je zwei Knoten i und j gibt es einen Weg von i

nach jI und G aperiodisch ist: Es gibt kein d > 1, so dass die Länge aller

Wege, die zu ihrem Startknoten zurückkehren, durch d teilbar ist.

- Der Webgraph ist sicherlich aperiodisch, aber nicht irreduzibel:Webseiten ohne Hyperlinks sind Sackgassen!

Google Markoff-Ketten 10 / 46

Random Surfer und Grenzverteilung (3/3)

Google legt deshalb einen Random Walk zugrunde, der- mit Wahrscheinlichkeit (1− d) ein benachbartes Dokument

aufsucht und- mit Wahrscheinlichkeit d zu einem zufälligen Dokument springt.

Wenn wir annehmen, dass es genau n Dokumente gibt, dannerhalten wir die Übergangsmatrix

P ′[u,w ] =

{(1− d

n ) ·1du

(u,w) ist ein Hyperlinkdn sonst.

Die neue „Web-Kette“ ist aperiodisch und irreduzibel.Die Random Surfer Perspektive: Der Page-Rank stimmt mit derGrenzverteilung überein und die Grenzverteilung hängt nicht vonder Anfangsverteilung ab.

Google Markoff-Ketten 11 / 46

Peer-Review = Random Surfer

Jede ergodische Markoff-Kette (G,P) besitzt genau eine stationäreVerteilung, nämlich die Grenzverteilung π∞ mit

π∞j = limk→∞

Pk [1, j].

Für jede Verteilung π ist πT · P∞ = (π∞)T :

πT · P∞ =

(N∑

i=1

πi · P∞[i ,1], . . . ,N∑

i=1

πi · P∞[i ,N]

)

=

(P∞[1,1] ·

N∑i=1

πi , . . . , P∞[1,N] ·N∑

i=1

πi

)= (P∞[1, j] | j = 1, . . . ,N) = (π∞)T .

Ist π∞ wirklich stationär?

Google Markoff-Ketten 12 / 46

Stationäre Verteilungen und ergodische Ketten

Die Grenzverteilung π∞ ist stationär, denn

(π∞)T = (π∞)T · P∞ = (π∞)T · limk→∞

Pk

= (π∞)T · limk→∞

Pk+1 = (π∞)T · P∞ · P = (π∞)T · P.

Sei π eine beliebige stationäre Verteilung.I Es ist πT = πT · P und damit natürlich auch πT = πT · P∞.I Andererseits wissen wir: πT · P∞ = (π∞)T .I Die Eindeutigkeit der stationären Verteilung ist nachgewiesen.

Die Perspektiven des Peer Review und des Random Surferssind identisch!

Google Markoff-Ketten 13 / 46

Die Berechnung des Page-Rank

Sollten wir versuchen, das lineare Gleichungssystem πT · P ′ = π zulösen?

Sehr naiver Versuch bei einer Matrix P ′ mit hunderten MilliardenZeilen und Spalten!

Es ist limk→∞ πT0 · (P ′)

k = pr für jede Anfangsverteilung π0.

Beginne mit der uniformen Verteilung π0 und führe die Iterationπk+1 = πT

k · P ′ aus.Wir haben Glück:

I Schnelle Konvergenz: Das Netz ist hochgradigzusammenhängend.

I Relativ wenige Hyperlinks pro Seite⇒ Die Übergangsmatrix P ′ istdünn besetzt.

I Die Berechnung des Matrix-Vektor Produkts ist parallelisierbar.

Google Berechnung 14 / 46

Topic sensitiver Page-Rank

- Die große Schwäche: Der Page-Rank ist anfrage-unabhängig.- Natürlich arbeitet Google bereits „topic sensitiv“.

Themengebiete des Open Directory Projects bieten sich an:1 Arts (Movies, Television, Music,...),2 Business (Jobs, Real Estate, Investing,...),3 Computers (Internet, Software, Hardware,...),4 Games (Video Games, RPGs, Gambling,...),5 Health (Fitness, Medicine,...),6 Home (Family, Consumers, Cooking,...),7 Kids and Teens (School, Teen Life,...),8 News (Media, Newspapers, Weather,...),9 Recreation (Travel, Food, Outdoors, Humor,...),

10 Reference (Maps, Education, Libraries,...),11 Science (Computer Science, Biology, Physics,...)

Google Themenabhängigkeit 15 / 46

Eine mögliche Personalisierung

Definiere den Page-Rank für Themengebiet Ti durch

pr(i) = d · p(i) + (1− d) · pr(i) · P,

I Bisher haben wir die Gleichverteilung für p(i) gewählt. Jetzt sollp(i)

w die Relevanz von Seite w für Themengebiet Ti wiedergeben.I Berechne p(i)

w offline.

Für eine Suchanfrage Q = (Qj | j):I Berechne prob[Qj | Ti ] offline.

I Ermittle prob[Ti | Q] =Πj prob[Qj | Ti ]·prob[Ti ]

Πj prob[Qj ].

Berechne den „Rang“ der Seite w (über alle ausgewähltenThemengebiete) durch

Rang(w | Q) =∑

i

prob[Ti | Q] · pr(i)w .

Google Themenabhängigkeit 16 / 46

Hubs und Authorities

HITS-Algorithmus 17 / 46

Hubs und Authorities

Für eine Suchanfrage σ möchten wir die aussagekräftigstenWebseiten erhalten.

Die Idee: Unterscheide- Hubs: Seiten mit „guten“ Links- und Authorities: Aussagekräftige Seiten.

Bestimme Authorities mit Hilfe der Hubs.Das Problem:Wir kennen anfänglich weder Hubs noch Authorities!Das Vorgehen: Gehe iterativ vor.

I Ein Dokument, das auf viele Dokumente mit hohemAuthority-Gewicht zeigt, soll ein hohes Hub-Gewicht erhalten,

I ein Dokument, auf das viele Dokumente mit hohem Hub-Gewichtzeigt, soll ein hohes Authority-Gewicht erhalten.

HITS-Algorithmus 18 / 46

Hyperlink Induced Topic Search (HITS) (1/3)

Wir treffen zuerst eine Vorauswahl der für σ interessanten Seiten.

1. σ ist die Suchanfrage.2. Sei Wσ die Menge aller Dokumente, die die Stichworte der

Anfrage enthalten.I Bestimme eine kleine Teilmenge Rσ relevanter Dokumente mit Hilfe

einer textbasierten Suchmaschine.I Die besten Seiten sind möglicherweise nicht in Rσ enthalten:

Deshalb vergrößern wir die Menge im nächsten Schritt.

HITS-Algorithmus 19 / 46

Hyperlink Induced Topic Search (HITS) (2/3)

3. Setze Sσ = Rσ. Für jedes Dokument w ∈ Rσ:I Füge alle Dokumente zu Sσ hinzu, auf die w zeigt.

// Das werden nicht viele Seiten sein:// Wir sollten jetzt fast alle Authorities erhalten haben.

I Füge alle Dokumente zu Sσ hinzu, die auf w zeigen: Wenn zuviele,dann wähle eine beliebige Teilmenge aus.// Das oberste Ziel ist die Bestimmung aller Authorities:// Wir sorgen dafür, das die gerade gewonnenen Authorities// genügend Unterstützung haben.

4. Berechne Hub- und Authority-Gewichte.

HITS-Algorithmus 20 / 46

Hyperlink Induced Topic Search (HITS) (3/3)

Wir beschränken uns auf den Graphen Gσ = (Sσ,Eσ). Die Kantenentsprechen den Hyperlinks zwischen Dokumenten aus Sσ.

1 Es sei n = |Sσ|. Setze Aw = Hw = 1√n .

Kommentar: ||A|| = ||H|| = 1.2 Wiederhole genügend oft:

I Hu =∑

w, (u,w)∈EσAw .

/* Das Hub-Gewicht von u ist groß, wenn u auf viele Dokumente mithohem Authority-Gewicht zeigt. */

I Au =∑

w, (w,u)∈EσHw .

/* Das Authority-Gewicht von u ist groß, wenn viele Dokumente mithohem Hub-Gewicht auf u zeigen. */

I Normalisiere A und H, d.h. setze A = A||A|| und H = H

||H|| .

HITS-Algorithmus 21 / 46

Analyse

- Setze x0 = (1/√

n, . . . ,1/√

n)T und- bezeichne den Authority- bzw. den Hub-Vektor nach der i ten

Iteration mit Ai bzw. mit H i .

Sei M die Adjazenzmatrix von Gσ. Ohne Normalisierung gilt

H i+2 = M · Ai+1 und Ai+1 = MT · H i .

Und als Konsequenz:

H i+2 = M ·Ai+1 = M ·MT ·H i und Ai+2 = MT ·H i+1 = MT ·M ·Ai .

Also ist

H2k = (M ·MT )k · x0 und A2k = (MT ·M)k · x0.

Beachte: M ·MT und MT ·M sind symmetrische Matrizen!

HITS-Algorithmus 22 / 46

Symmetrische Matrizen: Was muß man wissen?

HITS-Algorithmus 23 / 46

Symmetrische Matrizen

Sei K eine symmetrische Matrix mit n Zeilen und Spalten.(a) Sämtliche Eigenwerte λ1, . . . , λn von K sind reellwertig.(b) Es gibt eine Orthonormalbasis b1, . . . ,bn von Eigenvektoren von

K . (D.h. es ist K · bi = λi · bi und das innere Produkt 〈bi ,bj〉verschwindet für i 6= j und ist Eins für i = j .)

(c) Der betragsmäßig größte Eigenwert λ1 sei vom Betrag her größerals der betragsmäßig zweitgrößte Eigenwert. Wenn der Vektor x0nicht senkrecht auf dem Eigenvektor v von λ steht, dannkonvergiert die Folge ( xk

λk1| k ∈ N) mit

xk+1 =K · xk

||K · xk ||.

gegen ±v .

HITS-Algorithmus 24 / 46

Warum konvergiert die Folge?

Es gibt eine Orthonormalbasis v1, . . . , vn aus den Eigenvektorenzu den Eigenwerten λ1 > λ2 > · · · > λn.Also gibt es eine Linearkombination x0 =

∑ni=1 αi · vi .

Weiterhin ist K · x0 =∑n

i=1 αi · K · vi =∑n

i=1 αi · λi · vi und nacht-facher Iteration

K t · x0 =n∑

i=1

αi · λti · vi .

Falls α1 6= 0Das Gewicht des Eigenvektors v1 nimmt am stärksten zu, denn

limt→∞

λti /λ

t1 = 0

gilt für i 6= 1.

HITS-Algorithmus 25 / 46

Und die Konsequenzen für das HITS-Verfahren?

In unserer Situation ist K = MMT oder K = MT M.

Wenn der größte Eigenwert größer als der zweitgrößte Eigenwertist und der Vektor x0 nicht senkrecht auf dem größten Eigenvektorsteht, dann konvergieren

I die HITS Authority-Gewichte bis auf das Vorzeichen gegen dengrößten Eigenvektor von MT M und

I die HITS Hub-Gewichte bis auf das Vorzeichen gegen den größtenEigenvektor von MMT .

Übungsaufgabe:I Alle Eigenwerte sind nicht-negativ.I Die Folge (xk | k ∈ N) konvergiert immer.I Wenn ein Vektor x0 nur positive Komponenten hat, dann kann x0

nicht senkrecht auf dem größten Eigenvektor stehen.

HITS-Algorithmus 26 / 46

HITS versus Page-Rank

- Berechnungsaufwand:I Der Aufwand für Page-Rank ist gering, da die Bewertungen

vorberechnet sind.I Für das HITS Verfahren wird experimentell beobachtet, dass 20

Iterationen für Mengen Sσ mit |Sσ| ≈ 1000) „reichen“.- Spamming:

I Die Page-Rank Bewertung ist global.I HITS ist bei einer „verdorbenen“ Auswahl Rσ verloren.

- Qualität des Suchergebnisses:I Beide Verfahren liefern im Allgemeinen Ergebnisse guter Qualität.I HITS bezieht die Suchanfrage in seinem Ranking mitein.

HITS-Algorithmus 27 / 46

Meta-Suchmaschinen und Social Choice Theorie

Meta-Suchmaschinen 28 / 46

Meta-Suchmaschinen

Eine Meta-Suchmaschine gibt eine Anfrage an mehrereSuchmaschinen weiter und berechnet aus den einzelnen Reihenfolgeneine neue Reihenfolge hoffentlich relevanter Dokumente.

Das Integrationsproblem:

- Gegeben sind Teilmengen T1, . . . ,Tn ⊆ U eines Universums Usowie vollständige Ordnungen (oder Reihenfolgen) <1, . . . , <n,wobei <i eine Reihenfolge auf der Teilmenge Ti ist.

- Es ist eine möglichst „gute“ Reihenfolge für die TeilmengeT =

⋃ni=1 Ti zu bestimmen.

Was sollte man von einer möglichst guten Lösung fordern?

Meta-Suchmaschinen 29 / 46

Das Integrationsproblem: Eine Anwendung

Welche Vorschläge sollte ein Flug-Reservierungssystem erstellen,wenn Präferenzen im Hinblick auf

Preis,Reisezeit,Reiselänge,Anzahl der Zwischenstops,Wahl von Fenster- oder Gangsitzen,Frequent-Flier Optionen undTicket-Rückgaberecht

bekannt sind?

Meta-Suchmaschinen 30 / 46

Social Choice Theorie

Wie sollte man eine kollektive Entscheidung fällen, wenn nurindividuelle Präferenzen bekannt sind?

- Wie sollte man Abstimmungen, bzw. Wahlen bei komplexenSachverhalten organisieren?

I Was sind komplexe Sachverhalte?Nicht eine Option aus zwei Optionen ist zu bestimmen, sonderneine Reihenfolge für mindestens drei Optionen.

- Das kann doch nicht schwer sein!Wähle z. B. eine Reihenfolge, die Option A höher als Option Bwertet, wenn eine Mehrheit A gegenüber B vorzieht.

Meta-Suchmaschinen 31 / 46

Das Condorcet Paradox

Drei Personen x , y und z haben verschiedene Vorlieben:- x bevorzugt die Reihenfolge A,B,C.- y bevorzugt die Reihenfolge B,C,A, und- z bevorzugt die Reihenfolge C,A,B.

Eine Mehrheit bevorzugt Option A vor B, Option B vor Option Caber auch Option C vor Option A.Was ist passiert? Mehrheitsentscheidungen sind nichtnotwendigerweise transitiv!

Wenn über je zwei Optionen abgestimmt wird, dann erhält man nichtnotwendigerweise eine Reihenfolge.

Meta-Suchmaschinen 32 / 46

Der Unmöglichkeitssatz von Arrow

Meta-Suchmaschinen Der Satz von Arrow 33 / 46

Der Unmöglichkeitssatz von Arrow (1/2)

Wir betrachten Reihenfolgen auf einem Universum U.

Ein Präferenzen-Funktional P ordnet n Reihenfolgen <1, . . . , <n eineReihenfolge < zu.

- P respektiert Einstimmigkeit , falls für alle x , y ∈ U giltx<iy für alle i ∈ {1, . . . ,n} ⇒ x<y .

- P ist unabhängig von irrelevanten Alternativen, wenn für allex , y ∈ U nur die n individuellen Vergleiche zwischen x und y überdie Präferenz x<y entscheiden.

- Gibt es Funktionale, die Einstimmigkeit respektieren undunabhängig von irrelevanten Attributen sind?

- Ja, das Diktatur-Funktional Di(<1, . . . , <n) = <i .

Meta-Suchmaschinen Der Satz von Arrow 34 / 46

Der Unmöglichkeitssatz von Arrow (2/2)

Es gelte |U| > 3. Wenn ein Präferenzen-Funktional P unabhängig vonirrelevanten Alternativen ist und Einstimmigkeit respektiert, dann istP ein Diktatur-Funktional.

Und nun?

Unser Funktional sollte Einstimmigkeit respektieren, oder?

Für die Entscheidung zwischen zwei Optionen sollte doch einedritte Option keine Rolle spielen, oder?!

Meta-Suchmaschinen Der Satz von Arrow 35 / 46

Unabhängigkeit von irrelevanten Attributen?!

Als Nachtisch wurden dem amerikanischem Philosophen SidneyMorgenbesser Apfel- und Blaubeerkuchen angeboten.

I Er entschied sich für den Apfelkuchen.I Als die Kellnerin ergänzte, das auch Erdbeerkuchen im Angebot

sei, nahm er den Blaubeerkuchen.

Aber jetzt im Ernst: Und wenn zwei Optionen starkeRangunterschiede in den einzelen Reihenfolgen aufweisen?

I Diese Rangunterschiede entstehen durch „Dritte“ und dürfendeshalb nicht berücksichtigt werden!?

Meta-Suchmaschinen Der Satz von Arrow 36 / 46

Der Satz von Gibbard-Satterthwaite (1/2)

Gibt es zumindest eine überzeugende „soziale Option“?

Das Funktional Q weise einer Folge <1, . . . , <n von Ordnungen eineOption u ∈ U zu. Das Funktional Q heißt monoton, wenn gilt

Q(<1, . . . , <i , . . . , <n) = a 6= b = Q(<1, . . . ,≺i , . . . , <n)

⇒ b <i a ∧ a ≺i b.

Wenn sich die gewählte Option ändert, weil eine Reihenfolge geändertwurde, dann

muss die neue Reihenfolge die neue Option gegenüber der altenund die alte Reihenfolge die alte Option gegenüber der neuenvorziehen.

Ist Q nicht monoton, dann kann es vorteilhaft sein, sich taktisch zuverhalten und gegen die eigenen Überzeugungen zu stimmen:Warum für eine chancenlose Option stimmen?

Meta-Suchmaschinen Gibbard-Satterthwaite 37 / 46

Der Satz von Gibbard-Satterthwaite (2/2)

- Es gelte |U| > 3.- Q sei ein monotones Funktional, das jede Option in U mindestens

einmal als Wert annehmen kann.

Dann ist Q ein Diktator-Funktional:Q wählt stets die beliebteste Option einer fixierten Eingabe-Ordnung.

Es ist zu entscheiden, welches von mindestens drei Baumaßnahmenmit Steuergeldern zu finanzieren ist.

Für die Entscheidung ist die ehrliche Angabe der Präferenzeneine Vorbedingung.Nach dem Satz von Gibbard-Satterthwaite gibt es aber keinEntscheidungsverfahren, das taktisches, unehrliches Verhaltenausschließen kann.

Meta-Suchmaschinen Gibbard-Satterthwaite 38 / 46

Gibbard-Satterthwaite als Konsequenz von Arrow

Angenommen Q ist ein monotones Funktional mit Eingaben<1, . . . , <n.

Wir erzeugen ein Präferenzen-Funktion P aus Q und zeigen, dassP Einstimmigkeit respektiert und unabhängig von irrelevantenAttributen ist.

Die Behauptung folgt dann aus dem Satz von Arrow.Um die Ordnung P(<1, . . . , <n) =< festzulegen, genügt es für jezwei Optionen u, v ∈ U zu klären, ob u < v oder v < u gilt.

I Dazu bewegen wir u und v in jeder Ordnung <i ganz nach oben,behalten die ursprüngliche Präferenz zwischen u und v aber bei.

I Wenn ≺1, . . . ,≺n die neuen Ordnungen sind, dann setze

u < v ⇔ Q(≺1, . . . ,≺n) = v .

I Zeige, dass P Einstimmigkeit respektiert und unabhängig vonirrelevanten Attributen ist.

Meta-Suchmaschinen Gibbard-Satterthwaite 39 / 46

Borda’s Regel,die Kendall- und die Spearman Distanz

Meta-Suchmaschinen Borda’s Regel 40 / 46

Borda’s Regel

- Für jedes x ∈ U ist

Rangi(x) = |{z ∈ U | z 6i x}|

der Rang von x bezüglich <i .- Bestimme eine Reihenfolge gemäß steigender Rangsumme∑n

i=1 Rangi(x).

Borda’s Regel respektiert Einstimmigkeit, verletzt aberUnabhängigkeit von irrelevanten Alternativen:

Rangunterschiede sind in Borda’s Regel entscheidendund werden durch „Dritte“ hervorgerufen.

Borda’s Regel verletzt auch dieabgeschwächte Demokratie-Eigenschaft (ADE):

Wenn für irgendeine Teilmenge S ⊆ U und für alle y ∈ S und x ∈ Sstets eine Mehrheit der Reihenfolgen y gegenüber x bevorzugt,dann ist x < y .

Meta-Suchmaschinen Borda’s Regel 41 / 46

Die Kendall Distanz

ADE: Wenn für eine Teilmenge S ⊆ U und für alle y ∈ S, x ∈ S stetseine Mehrheit der Reihenfolgen y über x bevorzugt, dann ist x < y .

Wenn ADE gilt, kann Spamming unterdrückt werden, solange eineMehrheit der Suchmaschinen Spamming-Versuche erkennt.Kendall-Reihenfolgen erfüllen ADE (Beweis später):

I Die Kendall-Distanz der Reihenfolgen <1 und <2 ist

K (<1, <2) = |{(u, v) | u <1 v , v <2 u}|.

I Eine Kendall-Reihenfolge < für <1, . . . , <n minimiert die Summe

n∑i=1

K (<i , <)

der Kendall-Distanzen.

Meta-Suchmaschinen Kendall Distanz 42 / 46

Kendall-Reihenfolgen erfüllen ADE

Leider führt die Bestimmung einer Kendall-Reihenfolge auf einNP-vollständiges Problem.Aber jede Approximation < der Kendall-Reihenfolge kann weiterverbessert werden, so dass ADE gilt.

Die Reihenfolgen <1, . . . , <n und < seien vorgegeben. Dann kann eineReihenfolge <∗ in Zeit O(n · |

⋃ni=1 Ti |2) bestimmt werden, so dass

- die Reihenfolge <∗ ADE erfüllt und-∑

i K (<i , <∗) 6

∑i K (<i , <) gilt.

Meta-Suchmaschinen Kendall Distanz 43 / 46

Die Verbesserungsstrategie

Die Reihenfolgen <1, . . . , <n und < seien vorgegeben.

O.B.d.A. gelte U = {1, . . . , |U|} und 1 > 2 > · · · > |U|.Die neue Reihenfolge <∗ sei bereits auf {1, . . . , k} definiert.

I Vertausche k + 1 mit dem bzgl. <∗ k -kleinsten Element, wenn eineMehrheit der Reihenfolgen dies verlangt.

Die Kendall-Distanz kann höchstens fallen.I Wiederhole, falls notwendig.

Die Reihenfolge <∗ erfüllt ADE. Warum?Wenn nicht, dann ist eine Menge S ⊆ U ein Gegenbeispiel:

Eine Mehrheit bevorzugt s ∈ S über t ∈ S, aber „S > S“ gilt nicht.u ∈ S, v 6∈ S sei ein Gegenbeispiel mit geringster Distanz bzgl.<∗. Insbesondere ist also u <∗ · · · <∗ w <∗ v .

I Es ist w ∈ S: Sonst ist u,w ein Gegenbeispiel kleinerer Distanz.I Also bevorzugt eine Mehrheit w über v : Unsere Verbessserungs-

strategie würde aber w und v vertauschen: Widerspruch.

Meta-Suchmaschinen Kendall Distanz 44 / 46

Eine Approximation der Kendall-Reihenfolge

- Die Spearman-Distanz S(<1, <2) =∑

x∈U |Rang1(x)− Rang2(x)|summiert Rangunterschiede auf.

- Eine Spearman-Reihenfolge < minimiert∑n

i=1 S(<i , <).

Übungsaufgabe: K (<1, <2) 6 S(<1, <2) 6 2 · K (<1, <2). Also isteine Spearman-Reihenfolge 2-approximativ.Eine Spearman-Reihenfolge kann effizient bestimmt werden.

I Betrachte den vollständigen bipartiten Graphen mit Knoten-mengen V1 = U und V2 = {1, . . . , |U|}.

Für ein Element x ∈ V1 und eine „Position“ p ∈ V2 füge die Kante{x , p} mit Gewicht

∑ni=1 |Rangi(x)− p| ein.

I Ordnungen R ⇔ perfekte Matchings MR :F Das Kantengewicht des Matchings MR stimmt mit der

Spearman-Distanz von R überein.I Ein perfektes Matching mit minimalem Gewicht ist effizient

konstruierbar.

Meta-Suchmaschinen Spearman Distanz 45 / 46

Zusammenfassung

Connectivity Analysis:I Google bestimmt die stationäre Verteilung der Web-Kette und

benutzt sie als Page-Rank.I Der HITS-Algorithmus bestimmt Authorities (Seiten hoher Qualität

für eine Suchanfrage) mit Hilfe von Hubs (Seiten mit guten Links).Das Integrationsproblem:

I Der Satz von Arrow zeigt, dass überzeugende Lösungen nichtexistieren.

I Kendall-Reihenfolgen erfüllen zumindest die abgeschwächteDemokratie-Eigenschaft.

I Die schwierig zu bestimmenden Kendall-Reihenfolgen könnendurch Spearman-Reihenfolgen approximiert werden.

I Sind Kendall-Reihenfolgen überzeugende Lösungen?

Meta-Suchmaschinen Spearman Distanz 46 / 46