AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web...
Transcript of AGENDA - AG Netzbasierte Informationssysteme · 2018. 3. 4. · 24.11.2003 Seminar Web...
1
Struktur-basiertes Ranking
Seminar Web Suchmaschinen
WS 2003/04
Ivonne Thomas
24.11.2003 Seminar Web Suchmaschinen 2
AGENDAMotivation und Einleitung
Was ist Ranking?
Strukturbasierte Ranking AlgorithmenWebQuery
PageRank
HITS
Zusammenfassung
2
24.11.2003 Seminar Web Suchmaschinen 3
Motivationaus: Murphys Computergesetze
Die Suchmaschinenerkenntnis:Das einzige Dokument, das die Information enthält, die du brauchst
steht immer auf Platz 56.000, wenn du von vorne blätterststeht auf Platz 21, wenn du die „20 Treffer pro Seite“ -Seiten von hinten durchgehstwird durch die Filterbedingungen ausgeblendet
24.11.2003 Seminar Web Suchmaschinen 4
Was ist Ranking?Mechanismus zur Bewertung der Relevanz von Suchergebnissen
Sortierung der Suchergebnisse nach Ihrem Ranking-Wert
bestimmend für den Erfolg einer Suchmaschine
2 MöglichkeitenTextbasiertes Ranking
Strukturbasiertes Ranking
3
24.11.2003 Seminar Web Suchmaschinen 5
textbasiertVorkommen eines Suchbegriffes in den Inhalten einer Seite wird als Maßstab für Wichtigkeit genommen
Probleme:Wenig resistent gegen suchmaschinenoptimierte Seiten,
macht Treffermenge unbrauchbar
mit zunehmender Größe des WWW sind Contentinformationenallein nicht mehr ausreichend
24.11.2003 Seminar Web Suchmaschinen 6
strukturbasiertBeurteilung der Wichtigkeit eines Dokuments anhand der Verlinkungsstruktur der Dokumente untereinander
Relevanzbewertung aufgrund der Metainformationen, die sich aus der strukturellen Organisation des WWW als Hypertext ergeben
4
24.11.2003 Seminar Web Suchmaschinen 7
AGENDAMotivation und EinleitungWas ist Ranking?Ranking Algorithmen
WebQuery• Idee • Algorithmus• Systemüberblick• Visualisierung • Zusammenfassung
PageRankKleinberg‘s Algoritmus
Zusammenfassung, Ausblick
24.11.2003 Seminar Web Suchmaschinen 8
WebQuery - IdeeBereits 1995 von Carriere und Kazman veröffentlicht
Resultiert aus 2 Beobachtungen:textbasierte Suchen liefern zunehmend unzureichende Ergebnisse
starke Referenzierung innerhalb einer Web-Communities Clusterbildung
Erweiterung der Ergebnismenge um weitere eng verlinkteSeiten strukturbasiertes Suchen
Ranking einer Seite durch Analyse der Verlinkungsstruktur
Visualisierung der Ergebnismenge
5
24.11.2003 Seminar Web Suchmaschinen 9
WebQuery - AlgorithmusAusgangspunkt: Linkstruktur des Web als gerichteterGraph
2 PhasenPreprocessing
• Sammeln von Informationen über Verlinkungsstruktur
• Spider indexieren gesamten Graphen
• Redundante Information wird rausgefiltert
• Datenbank mit Strukturinformationen wird erstellt
Runtime
24.11.2003 Seminar Web Suchmaschinen 10
WebQuery – Algorithmus(2)
RuntimeAbfrage durch Suchmaschine liefert Ergebnismenge ohne Relevanzbewertung
Erweiterung der Ergebnismenge um forward- und back-Links
Für jeden Knoten berechne
Ranking anhand des Connectivity-Wertes
Visualisierung des Suchergebnisses VANISH
" "connectivity eines Knoten Anzahl aller eingehenden LinksAnzahl aller ausgehenden Links
=+
6
24.11.2003 Seminar Web Suchmaschinen 11
Systemüberblick
24.11.2003 Seminar Web Suchmaschinen 12
VisualisierungVANISH
Tool zur Darstellung eines Spannbaumes
Je nach Knotenanzahl verschiedene Darstellungen sinnvoll:
„bullseye“
3D-Graph
2D-Kegel
7
24.11.2003 Seminar Web Suchmaschinen 13
Beispiel BullsEye
24.11.2003 Seminar Web Suchmaschinen 14
Beispiel 3D-Graph
8
24.11.2003 Seminar Web Suchmaschinen 15
Beispiel 2D-Kegel
24.11.2003 Seminar Web Suchmaschinen 16
ZusammenfassungErstmals Links als wichtige Informationsquelle erkannt
Erweitert und filtert die Ergebnismenge einer textbasierten Suche
Ranking durch Summierung der Verbindungen von und zu einem Knoten
Ausnutzung der menschlichen Fähigkeiten Sachverhalte graphisch zu erfassen
9
24.11.2003 Seminar Web Suchmaschinen 17
AGENDAMotivation und EinleitungWas ist Ranking?Ranking Algorithmen
WebQueryPageRank
• Idee• Algorithmus• Random Surfer Modell• PageRank in Google• Zusammenfassung
Kleinberg‘s Algoritmus
Zusammenfassung, Ausblick
24.11.2003 Seminar Web Suchmaschinen 18
PageRank - IdeeEntwickelt von den Google-Gründern Lawrence Page und Sergey Brin an der Stanford University
Jede Seite besitzt so genannten „PageRank“gibt Wichtigkeit/Relevanz der Seite an
2 Annahmen:
1) Auf wichtige Seiten wird häufiger verlinkt als auf unwichtige.
2) Wichtige Seiten verlinken auf weitere wichtige Seiten.
www.microsoft.com www.intel .de
10
24.11.2003 Seminar Web Suchmaschinen 19
PageRank - AlgorithmusWie berechnet sich der PageRank einer Seite?
Sei u eine Webseite, dann berechnet sich ihr Rang R(u) mit
Back links von u
Forward links von v
Dämpfungs-faktor
( )( ) (1 )uv B v
R vR u d dF∈
= − + ∑
24.11.2003 Seminar Web Suchmaschinen 20
Beispiel
99
10 33
3833
33
5
5
33
11
24.11.2003 Seminar Web Suchmaschinen 21
Random Surfer ModellPageRank soll Benutzerverhalten abbilden
Annahme eines Zufalls-SurfersVerfolgt beliebige Links ohne auf den Inhalt zu achten
Wahrscheinlichkeit für einen bestimmten Link ergibt sich als 1/Anzahl aller Links (Gleichverteilung)
Dämpfungsfaktor d simuliert Verhalten, dass der Zufalls-Surfer die Verfolgung eines Links abbricht
24.11.2003 Seminar Web Suchmaschinen 22
PageRank in GoogleSeitenbewertung basiert auf 3 Faktoren
Seitenspezifische Faktoren, z.B. Titel, URLAnkertext eingehender Links
wird multiplikativ gekoppelt mit PageRank beurteilt Relevanz der Suchergebnisse
Implikation:PageRank hat größten Einfluß auf unspezifische Suchen mit nur einem Suchbegriff
Berechnung des PageRank aller indexierten Seiten geschieht iterativ in mehreren Berechnungsrunden
12
24.11.2003 Seminar Web Suchmaschinen 24
PageRank 0 und BadRank
Bestrafung einer Seite durch Vergabe eines PR 0 statt Entfernung aus dem Index, i.B. bei Suchmaschinenspamming
Weiteres Verfahren BadRank, welches negative Bedeutung einer Webseite misst Umkehrung von PageRank
analysiert die Linkstruktur von der bzw. zu der spammendenSeite
Reduzierung des PageRank aller verlinkenden Seiten
Offiziell nicht bestätigt
24.11.2003 Seminar Web Suchmaschinen 25
AGENDAMotivation und EinleitungWas ist Ranking?Ranking Algorithmen
WebQueryPageRankHITS
• Probleme bisheriger Algorihmen• Idee• Algorithmus• Zusammenfassung
Zusammenfassung, Ausblick
13
24.11.2003 Seminar Web Suchmaschinen 26
MotivationProbleme bisher vorgestellter Algorithmen:
Suchstring ist oft nicht in treffendster Seite enthalten• z.B. „Automobil Hersteller“ findet keine Homepage eines namhaften
Autoherstellers
Balance zwischen relevanten Seiten und populären Seiten • z.B. populäre Seiten (wie z.B. Yahoo) werden gefunden, sobald Suchstring
enthalten ist
24.11.2003 Seminar Web Suchmaschinen 27
HITS - IdeeHyperlink-Induced Topic Search
Entwickelt von Jon Kleinberg, Cornell
University (USA)
in der Suchmaschine Clever von
IBM implementiert
Ziel: aus einer großen Menge an irgendwie relevanten Seiten sollen die herausgesucht werden, die für die Suchanfrage am „kompetentesten“ sind
14
24.11.2003 Seminar Web Suchmaschinen 28
HITSWeb als gerichteter Graph
Algorithmus operiert auf Teil des Graphen
Algorithmus unterscheidet zwischen “kompetenten” Seiten für ein Thema (sogenannten Authorities) und den Seiten, die auf Authorities verlinken (sogenannte Hubs)
24.11.2003 Seminar Web Suchmaschinen 29
Hubs und AuthoritiesHubs (engl.: Mittelpunkt) – Webseite, von der viele Links ausgehen
Authorities (engl.: Kompetenz) – Webseite, auf die viele andere Webseiten verlinken
HITS nutzt Gleichgewicht
zwischen Hubs und
Authorities im Web-
Graphen
authoritieshubs
15
24.11.2003 Seminar Web Suchmaschinen 30
HITS - Algorithmus1. Finden einer Teilmenge S von Seiten des WWW für eine
gegebene Suchanfrage (=Basismenge)Ziel: Begrenzung des Berechnungsaufwandes auf eine kleine Menge relevanter Seiten, d.h.
S sollte relativ klein sein (1)
S sollte viele relevante Seiten enthalten (2)
S sollte viele starke Authorities enhalten (3)
24.11.2003 Seminar Web Suchmaschinen 31
Einfachste LösungS ist die Menge aller Seiten, die den Suchstring enthalten
Nachteile
- Menge kann über eine Million Seite enthalten
Erheblicher Berechnungsaufwand
- einige oder die meisten der besten Authorities sind nicht enthalten
16
24.11.2003 Seminar Web Suchmaschinen 32
Finden der Basismenge IStart mit Grundmenge R (root set)
z.B. die 200 ersten Ergebnisseiten
einer textbasierten Suche, die
Suchstring enthalten
Erfüllt Eigenschaften (1) und (2)
root set
:S R=
24.11.2003 Seminar Web Suchmaschinen 33
Finden der Basismenge IIErweiterung der Grundmenge um alle ausgehenden Links:
root set
: ( )ii
S R L pp R
+= ∪
∀ ∈
17
24.11.2003 Seminar Web Suchmaschinen 34
Finden der Basismenge IIIErweiterung der Grundmenge um maximal d eingehende Links pro Seite
root set
: ( ) ( )
, | ( ) |i i
i i
S R L p L pp R L p d
+ −
−
= ∪ ∪
∀ ∈ ≤
24.11.2003 Seminar Web Suchmaschinen 35
Finden der Basismenge IVHinzunahme aller Links zwischen neuen Seiten
root set
Basismenge
18
24.11.2003 Seminar Web Suchmaschinen 36
Finden der Authorities IEinfache Lösung: Ranking nach Anzahl eingehender SeitenProblem:
Suche nach „java“ liefert z.B. Seiten zur Programmiersprache, Südseeinsel, amazon Homepage sowie unrelevanten Seiten mit vielen eingehenden LinksKein thematischer Zusammenhang erkennbar
Extrahieren weiterer Informationen aus der Linkstruktur: Seiten, die auf authorities verweisen, sollten sich theoretisch überlappen = hubs
24.11.2003 Seminar Web Suchmaschinen 37
Finden der Authorities II
authoritieshubs Unrelevante Seite mit vielen eingehenden Links
19
24.11.2003 Seminar Web Suchmaschinen 38
Finden der Authorities III
Nutzt Beziehung zwischen Hubs und Authorities
Jede Seite besitzt Hub-Gewicht hub (p) und Authority-Gewicht auth(p)
Hubs und Authorities verstärken sich gegenseitig:Wenn eine Seite auf viele Seiten mit einem hohen Authority-Gewicht zeigt, dann sollte sie ein hohes Hub-Gewicht haben.
Wenn eine Seite auf viele Seiten mit einem hohen Hub-Gewicht zeigt, dann sollte sie ein hohes Authority-Gewichthaben.
p S∈
p S∈
24.11.2003 Seminar Web Suchmaschinen 39
Finden der Authorities III
Iteratives VorgehenStart: Initialiserung mit 1 und Normalisierung
•
•
2( ) 1p Sauth p
∈
=∑2( ) 1
p Shub p
∈
=∑
20
24.11.2003 Seminar Web Suchmaschinen 40
Finden der Authorities IV1. Für jede Seite berechne:
• Authority-Gewicht:
• Hub-Gewicht:
• Normalisiere und goto 1
2. Ranke Seiten nach höchstem auth-Gewicht und hub-Gewicht
( , )( ) ( )
p q Eauth p hub q
∈
= ∑
( , )( ) ( )
p q Ehub p auth q
∈
= ∑
p
q1
q2
q3auth(p) = hub(q1)+hub(q2)+hub(q3)
p
q1
q2
q3
hub(p) = auth(q1)+auth(q2)+auth(q3)
24.11.2003 Seminar Web Suchmaschinen 41
FazitSeiten, welche die Anfrageterme nicht enthalten, können gefunden werden
lange Berechnungszeiten
Query-spezifisch, d.h. Ordnung der Dokumente hängt von der Anfrage ab
21
24.11.2003 Seminar Web Suchmaschinen 42
Zusammenfassung
Nur auf durch Anfrage bestimmter Menge
Global, alle Seiten
Global, alle Seiten
Rankingmenge
Berechnet hubsund authorities-gewichte
Berechnet PageRank
Summiert alle Links
Ranking
ja
Nein
Ja
Erweiterung der Ergebnismenge
HITS
PageRank
WebQuery
24.11.2003 Seminar Web Suchmaschinen 43
LiteraturWebQuery
J. Carriere and R. Katzman. WebQuery: Searching and visualizing the Web through connectivity,1997. http://www.cgl.uwaterloo.ca/Projects/Vanish/webquery-1.html.
PageRankSergey Brin and Lawrence Page. The anatomy of a large-scale hypertextual Web search engine, 1998. http://www-db.stanford.edu/pub/papers/google.pdf.Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. The pagerankcitation ranking: Bringing order to the web. Technical report, 1998. http://stanford.edu/~backrub/pageranksub.ps.A Survey of Google's PageRankhttp://pr.efactory.de
HITSJon M. Kleinberg. Authoritative sources in a hyperlinked environment, 1999.http://www.cs.cornell.edu/home/kleinber/auth.pdf