AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web...

21
Struktur-basiertes Ranking Seminar Web Suchmaschinen WS 2003/04 Ivonne Thomas 24.11.2003 Seminar Web Suchmaschinen 2 AGENDA Motivation und Einleitung Was ist Ranking? Strukturbasierte Ranking Algorithmen WebQuery PageRank HITS Zusammenfassung

Transcript of AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web...

Page 1: AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web Suchmaschinen 17 AGENDA Motivation und Einleitung Was ist Ranking? Ranking Algorithmen WebQuery

1

Struktur-basiertes Ranking

Seminar Web Suchmaschinen

WS 2003/04

Ivonne Thomas

24.11.2003 Seminar Web Suchmaschinen 2

AGENDAMotivation und Einleitung

Was ist Ranking?

Strukturbasierte Ranking AlgorithmenWebQuery

PageRank

HITS

Zusammenfassung

Page 2: AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web Suchmaschinen 17 AGENDA Motivation und Einleitung Was ist Ranking? Ranking Algorithmen WebQuery

2

24.11.2003 Seminar Web Suchmaschinen 3

Motivationaus: Murphys Computergesetze

Die Suchmaschinenerkenntnis:Das einzige Dokument, das die Information enthält, die du brauchst

steht immer auf Platz 56.000, wenn du von vorne blätterststeht auf Platz 21, wenn du die „20 Treffer pro Seite“ -Seiten von hinten durchgehstwird durch die Filterbedingungen ausgeblendet

24.11.2003 Seminar Web Suchmaschinen 4

Was ist Ranking?Mechanismus zur Bewertung der Relevanz von Suchergebnissen

Sortierung der Suchergebnisse nach Ihrem Ranking-Wert

bestimmend für den Erfolg einer Suchmaschine

2 MöglichkeitenTextbasiertes Ranking

Strukturbasiertes Ranking

Page 3: AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web Suchmaschinen 17 AGENDA Motivation und Einleitung Was ist Ranking? Ranking Algorithmen WebQuery

3

24.11.2003 Seminar Web Suchmaschinen 5

textbasiertVorkommen eines Suchbegriffes in den Inhalten einer Seite wird als Maßstab für Wichtigkeit genommen

Probleme:Wenig resistent gegen suchmaschinenoptimierte Seiten,

macht Treffermenge unbrauchbar

mit zunehmender Größe des WWW sind Contentinformationenallein nicht mehr ausreichend

24.11.2003 Seminar Web Suchmaschinen 6

strukturbasiertBeurteilung der Wichtigkeit eines Dokuments anhand der Verlinkungsstruktur der Dokumente untereinander

Relevanzbewertung aufgrund der Metainformationen, die sich aus der strukturellen Organisation des WWW als Hypertext ergeben

Page 4: AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web Suchmaschinen 17 AGENDA Motivation und Einleitung Was ist Ranking? Ranking Algorithmen WebQuery

4

24.11.2003 Seminar Web Suchmaschinen 7

AGENDAMotivation und EinleitungWas ist Ranking?Ranking Algorithmen

WebQuery• Idee • Algorithmus• Systemüberblick• Visualisierung • Zusammenfassung

PageRankKleinberg‘s Algoritmus

Zusammenfassung, Ausblick

24.11.2003 Seminar Web Suchmaschinen 8

WebQuery - IdeeBereits 1995 von Carriere und Kazman veröffentlicht

Resultiert aus 2 Beobachtungen:textbasierte Suchen liefern zunehmend unzureichende Ergebnisse

starke Referenzierung innerhalb einer Web-Communities Clusterbildung

Erweiterung der Ergebnismenge um weitere eng verlinkteSeiten strukturbasiertes Suchen

Ranking einer Seite durch Analyse der Verlinkungsstruktur

Visualisierung der Ergebnismenge

Page 5: AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web Suchmaschinen 17 AGENDA Motivation und Einleitung Was ist Ranking? Ranking Algorithmen WebQuery

5

24.11.2003 Seminar Web Suchmaschinen 9

WebQuery - AlgorithmusAusgangspunkt: Linkstruktur des Web als gerichteterGraph

2 PhasenPreprocessing

• Sammeln von Informationen über Verlinkungsstruktur

• Spider indexieren gesamten Graphen

• Redundante Information wird rausgefiltert

• Datenbank mit Strukturinformationen wird erstellt

Runtime

24.11.2003 Seminar Web Suchmaschinen 10

WebQuery – Algorithmus(2)

RuntimeAbfrage durch Suchmaschine liefert Ergebnismenge ohne Relevanzbewertung

Erweiterung der Ergebnismenge um forward- und back-Links

Für jeden Knoten berechne

Ranking anhand des Connectivity-Wertes

Visualisierung des Suchergebnisses VANISH

" "connectivity eines Knoten Anzahl aller eingehenden LinksAnzahl aller ausgehenden Links

=+

Page 6: AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web Suchmaschinen 17 AGENDA Motivation und Einleitung Was ist Ranking? Ranking Algorithmen WebQuery

6

24.11.2003 Seminar Web Suchmaschinen 11

Systemüberblick

24.11.2003 Seminar Web Suchmaschinen 12

VisualisierungVANISH

Tool zur Darstellung eines Spannbaumes

Je nach Knotenanzahl verschiedene Darstellungen sinnvoll:

„bullseye“

3D-Graph

2D-Kegel

Page 7: AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web Suchmaschinen 17 AGENDA Motivation und Einleitung Was ist Ranking? Ranking Algorithmen WebQuery

7

24.11.2003 Seminar Web Suchmaschinen 13

Beispiel BullsEye

24.11.2003 Seminar Web Suchmaschinen 14

Beispiel 3D-Graph

Page 8: AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web Suchmaschinen 17 AGENDA Motivation und Einleitung Was ist Ranking? Ranking Algorithmen WebQuery

8

24.11.2003 Seminar Web Suchmaschinen 15

Beispiel 2D-Kegel

24.11.2003 Seminar Web Suchmaschinen 16

ZusammenfassungErstmals Links als wichtige Informationsquelle erkannt

Erweitert und filtert die Ergebnismenge einer textbasierten Suche

Ranking durch Summierung der Verbindungen von und zu einem Knoten

Ausnutzung der menschlichen Fähigkeiten Sachverhalte graphisch zu erfassen

Page 9: AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web Suchmaschinen 17 AGENDA Motivation und Einleitung Was ist Ranking? Ranking Algorithmen WebQuery

9

24.11.2003 Seminar Web Suchmaschinen 17

AGENDAMotivation und EinleitungWas ist Ranking?Ranking Algorithmen

WebQueryPageRank

• Idee• Algorithmus• Random Surfer Modell• PageRank in Google• Zusammenfassung

Kleinberg‘s Algoritmus

Zusammenfassung, Ausblick

24.11.2003 Seminar Web Suchmaschinen 18

PageRank - IdeeEntwickelt von den Google-Gründern Lawrence Page und Sergey Brin an der Stanford University

Jede Seite besitzt so genannten „PageRank“gibt Wichtigkeit/Relevanz der Seite an

2 Annahmen:

1) Auf wichtige Seiten wird häufiger verlinkt als auf unwichtige.

2) Wichtige Seiten verlinken auf weitere wichtige Seiten.

www.microsoft.com www.intel .de

Page 10: AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web Suchmaschinen 17 AGENDA Motivation und Einleitung Was ist Ranking? Ranking Algorithmen WebQuery

10

24.11.2003 Seminar Web Suchmaschinen 19

PageRank - AlgorithmusWie berechnet sich der PageRank einer Seite?

Sei u eine Webseite, dann berechnet sich ihr Rang R(u) mit

Back links von u

Forward links von v

Dämpfungs-faktor

( )( ) (1 )uv B v

R vR u d dF∈

= − + ∑

24.11.2003 Seminar Web Suchmaschinen 20

Beispiel

99

10 33

3833

33

5

5

33

Page 11: AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web Suchmaschinen 17 AGENDA Motivation und Einleitung Was ist Ranking? Ranking Algorithmen WebQuery

11

24.11.2003 Seminar Web Suchmaschinen 21

Random Surfer ModellPageRank soll Benutzerverhalten abbilden

Annahme eines Zufalls-SurfersVerfolgt beliebige Links ohne auf den Inhalt zu achten

Wahrscheinlichkeit für einen bestimmten Link ergibt sich als 1/Anzahl aller Links (Gleichverteilung)

Dämpfungsfaktor d simuliert Verhalten, dass der Zufalls-Surfer die Verfolgung eines Links abbricht

24.11.2003 Seminar Web Suchmaschinen 22

PageRank in GoogleSeitenbewertung basiert auf 3 Faktoren

Seitenspezifische Faktoren, z.B. Titel, URLAnkertext eingehender Links

wird multiplikativ gekoppelt mit PageRank beurteilt Relevanz der Suchergebnisse

Implikation:PageRank hat größten Einfluß auf unspezifische Suchen mit nur einem Suchbegriff

Berechnung des PageRank aller indexierten Seiten geschieht iterativ in mehreren Berechnungsrunden

Page 12: AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web Suchmaschinen 17 AGENDA Motivation und Einleitung Was ist Ranking? Ranking Algorithmen WebQuery

12

24.11.2003 Seminar Web Suchmaschinen 24

PageRank 0 und BadRank

Bestrafung einer Seite durch Vergabe eines PR 0 statt Entfernung aus dem Index, i.B. bei Suchmaschinenspamming

Weiteres Verfahren BadRank, welches negative Bedeutung einer Webseite misst Umkehrung von PageRank

analysiert die Linkstruktur von der bzw. zu der spammendenSeite

Reduzierung des PageRank aller verlinkenden Seiten

Offiziell nicht bestätigt

24.11.2003 Seminar Web Suchmaschinen 25

AGENDAMotivation und EinleitungWas ist Ranking?Ranking Algorithmen

WebQueryPageRankHITS

• Probleme bisheriger Algorihmen• Idee• Algorithmus• Zusammenfassung

Zusammenfassung, Ausblick

Page 13: AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web Suchmaschinen 17 AGENDA Motivation und Einleitung Was ist Ranking? Ranking Algorithmen WebQuery

13

24.11.2003 Seminar Web Suchmaschinen 26

MotivationProbleme bisher vorgestellter Algorithmen:

Suchstring ist oft nicht in treffendster Seite enthalten• z.B. „Automobil Hersteller“ findet keine Homepage eines namhaften

Autoherstellers

Balance zwischen relevanten Seiten und populären Seiten • z.B. populäre Seiten (wie z.B. Yahoo) werden gefunden, sobald Suchstring

enthalten ist

24.11.2003 Seminar Web Suchmaschinen 27

HITS - IdeeHyperlink-Induced Topic Search

Entwickelt von Jon Kleinberg, Cornell

University (USA)

in der Suchmaschine Clever von

IBM implementiert

Ziel: aus einer großen Menge an irgendwie relevanten Seiten sollen die herausgesucht werden, die für die Suchanfrage am „kompetentesten“ sind

Page 14: AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web Suchmaschinen 17 AGENDA Motivation und Einleitung Was ist Ranking? Ranking Algorithmen WebQuery

14

24.11.2003 Seminar Web Suchmaschinen 28

HITSWeb als gerichteter Graph

Algorithmus operiert auf Teil des Graphen

Algorithmus unterscheidet zwischen “kompetenten” Seiten für ein Thema (sogenannten Authorities) und den Seiten, die auf Authorities verlinken (sogenannte Hubs)

24.11.2003 Seminar Web Suchmaschinen 29

Hubs und AuthoritiesHubs (engl.: Mittelpunkt) – Webseite, von der viele Links ausgehen

Authorities (engl.: Kompetenz) – Webseite, auf die viele andere Webseiten verlinken

HITS nutzt Gleichgewicht

zwischen Hubs und

Authorities im Web-

Graphen

authoritieshubs

Page 15: AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web Suchmaschinen 17 AGENDA Motivation und Einleitung Was ist Ranking? Ranking Algorithmen WebQuery

15

24.11.2003 Seminar Web Suchmaschinen 30

HITS - Algorithmus1. Finden einer Teilmenge S von Seiten des WWW für eine

gegebene Suchanfrage (=Basismenge)Ziel: Begrenzung des Berechnungsaufwandes auf eine kleine Menge relevanter Seiten, d.h.

S sollte relativ klein sein (1)

S sollte viele relevante Seiten enthalten (2)

S sollte viele starke Authorities enhalten (3)

24.11.2003 Seminar Web Suchmaschinen 31

Einfachste LösungS ist die Menge aller Seiten, die den Suchstring enthalten

Nachteile

- Menge kann über eine Million Seite enthalten

Erheblicher Berechnungsaufwand

- einige oder die meisten der besten Authorities sind nicht enthalten

Page 16: AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web Suchmaschinen 17 AGENDA Motivation und Einleitung Was ist Ranking? Ranking Algorithmen WebQuery

16

24.11.2003 Seminar Web Suchmaschinen 32

Finden der Basismenge IStart mit Grundmenge R (root set)

z.B. die 200 ersten Ergebnisseiten

einer textbasierten Suche, die

Suchstring enthalten

Erfüllt Eigenschaften (1) und (2)

root set

:S R=

24.11.2003 Seminar Web Suchmaschinen 33

Finden der Basismenge IIErweiterung der Grundmenge um alle ausgehenden Links:

root set

: ( )ii

S R L pp R

+= ∪

∀ ∈

Page 17: AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web Suchmaschinen 17 AGENDA Motivation und Einleitung Was ist Ranking? Ranking Algorithmen WebQuery

17

24.11.2003 Seminar Web Suchmaschinen 34

Finden der Basismenge IIIErweiterung der Grundmenge um maximal d eingehende Links pro Seite

root set

: ( ) ( )

, | ( ) |i i

i i

S R L p L pp R L p d

+ −

= ∪ ∪

∀ ∈ ≤

24.11.2003 Seminar Web Suchmaschinen 35

Finden der Basismenge IVHinzunahme aller Links zwischen neuen Seiten

root set

Basismenge

Page 18: AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web Suchmaschinen 17 AGENDA Motivation und Einleitung Was ist Ranking? Ranking Algorithmen WebQuery

18

24.11.2003 Seminar Web Suchmaschinen 36

Finden der Authorities IEinfache Lösung: Ranking nach Anzahl eingehender SeitenProblem:

Suche nach „java“ liefert z.B. Seiten zur Programmiersprache, Südseeinsel, amazon Homepage sowie unrelevanten Seiten mit vielen eingehenden LinksKein thematischer Zusammenhang erkennbar

Extrahieren weiterer Informationen aus der Linkstruktur: Seiten, die auf authorities verweisen, sollten sich theoretisch überlappen = hubs

24.11.2003 Seminar Web Suchmaschinen 37

Finden der Authorities II

authoritieshubs Unrelevante Seite mit vielen eingehenden Links

Page 19: AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web Suchmaschinen 17 AGENDA Motivation und Einleitung Was ist Ranking? Ranking Algorithmen WebQuery

19

24.11.2003 Seminar Web Suchmaschinen 38

Finden der Authorities III

Nutzt Beziehung zwischen Hubs und Authorities

Jede Seite besitzt Hub-Gewicht hub (p) und Authority-Gewicht auth(p)

Hubs und Authorities verstärken sich gegenseitig:Wenn eine Seite auf viele Seiten mit einem hohen Authority-Gewicht zeigt, dann sollte sie ein hohes Hub-Gewicht haben.

Wenn eine Seite auf viele Seiten mit einem hohen Hub-Gewicht zeigt, dann sollte sie ein hohes Authority-Gewichthaben.

p S∈

p S∈

24.11.2003 Seminar Web Suchmaschinen 39

Finden der Authorities III

Iteratives VorgehenStart: Initialiserung mit 1 und Normalisierung

2( ) 1p Sauth p

=∑2( ) 1

p Shub p

=∑

Page 20: AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web Suchmaschinen 17 AGENDA Motivation und Einleitung Was ist Ranking? Ranking Algorithmen WebQuery

20

24.11.2003 Seminar Web Suchmaschinen 40

Finden der Authorities IV1. Für jede Seite berechne:

• Authority-Gewicht:

• Hub-Gewicht:

• Normalisiere und goto 1

2. Ranke Seiten nach höchstem auth-Gewicht und hub-Gewicht

( , )( ) ( )

p q Eauth p hub q

= ∑

( , )( ) ( )

p q Ehub p auth q

= ∑

p

q1

q2

q3auth(p) = hub(q1)+hub(q2)+hub(q3)

p

q1

q2

q3

hub(p) = auth(q1)+auth(q2)+auth(q3)

24.11.2003 Seminar Web Suchmaschinen 41

FazitSeiten, welche die Anfrageterme nicht enthalten, können gefunden werden

lange Berechnungszeiten

Query-spezifisch, d.h. Ordnung der Dokumente hängt von der Anfrage ab

Page 21: AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web Suchmaschinen 17 AGENDA Motivation und Einleitung Was ist Ranking? Ranking Algorithmen WebQuery

21

24.11.2003 Seminar Web Suchmaschinen 42

Zusammenfassung

Nur auf durch Anfrage bestimmter Menge

Global, alle Seiten

Global, alle Seiten

Rankingmenge

Berechnet hubsund authorities-gewichte

Berechnet PageRank

Summiert alle Links

Ranking

ja

Nein

Ja

Erweiterung der Ergebnismenge

HITS

PageRank

WebQuery

24.11.2003 Seminar Web Suchmaschinen 43

LiteraturWebQuery

J. Carriere and R. Katzman. WebQuery: Searching and visualizing the Web through connectivity,1997. http://www.cgl.uwaterloo.ca/Projects/Vanish/webquery-1.html.

PageRankSergey Brin and Lawrence Page. The anatomy of a large-scale hypertextual Web search engine, 1998. http://www-db.stanford.edu/pub/papers/google.pdf.Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. The pagerankcitation ranking: Bringing order to the web. Technical report, 1998. http://stanford.edu/~backrub/pageranksub.ps.A Survey of Google's PageRankhttp://pr.efactory.de

HITSJon M. Kleinberg. Authoritative sources in a hyperlinked environment, 1999.http://www.cs.cornell.edu/home/kleinber/auth.pdf