Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen...
-
Upload
alexa-maus -
Category
Documents
-
view
220 -
download
4
Transcript of Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen...
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 1
7. Besondere Datentypen und Anwendungen
Inhalt dieses Kapitels
7.1 Temporal Data MiningProblemstellung, Sequential Patterns, Modifikation des Apriori-Algorithmus
7.2 Spatial Data Mining
Aufgaben und Probleme, typische Methoden, räumliche Charakterisierung und
Trenderkennung
7.3 Text- und Web-MiningAufgaben und Probleme, Clustering von Web-Dokumenten, Suchmaschine mitBerücksichtigung der Linkstruktur, intelligenter Crawler
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 2
7.1 Temporal Data Mining
Problemstellung
• Analyse von zeitbezogenen Daten
• Anwendungen
Finanzen: Aktienkurse, Inflationsraten, . . .
Medizin: Blutdruck, . . .
Meteorologie: Niederschläge, Temperaturen, . . .
• ausgezeichnetes Attribut:
Punkte oder Abschnitte in einem zeitlichen Bezugssystem
impliziert zeitliche Ordnung der Datensätze
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 3
7.1 Temporal Data Mining
Problemstellung
• zwei Arten von Methoden
Analyse zeitlicher Zusammenhänge innerhalb einzelner Abläufe
Analyse zeitlicher Zusammenhänge zwischen verschiedenen Abläufen
• Besonderheit des Temporal Data Mining
komplexe zeitliche Relationen zwischen Zeitpunkten und Zeitintervallen: „während“, „überschneidend“, „direkt aufeinanderfolgend“ . . .
neue Typen interessanter Regeln
zusätzliche Komplexität der Algorithmen
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 4
7.1 Zeitreihen -Analyse
Beispiel
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 5
7.1 Zeitreihen-Analyse
Komponenten von Zeitreihen [Fahrmeier et al.1999]
Trendkomponente
langfristige systematische Veränderung
Konjunkturkomponente
Verlauf von Konjunkturzyklen
Saisonalkomponente jahreszeitlich bedingte Schwankungen
Restkomponente Irreguläre Veränderungen, zufällig, relativ gering
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 6
7.1 Zeitreihen-Analyse
Methoden [Fahrmeier et al.1999]
Globale Regression• Auswahl eines Funktionstyps• Schätzung der unbekannten Parameter mit Hilfe der Methode der kleinsten Fehlerquadrate
globaler Trend häufig zu grob
Lokale Methoden• gleitender Durchschnitt (Moving Window)
Glättung• lokale Regression
Regressionsfunktion für Umgebung des jeweiligen Punkts
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 7
7.1 Sequential Patterns
Motivation
• nicht einzelne Transaktionen, sondern Mengen von zusammengehörigenund zeitlich geordneten Sequenzen von Transaktionen
• häufige Sequenz: viele Kunden, die zu einem Zeitpunkt Produkte A, B, C eingekauft haben, haben zu einem späteren Zeitpunkt auch die Produkte D, E und F gekauft
„5% aller Kunden haben zuerst das Buch Solaris, danach das Buch Transfer und dann Der Futurologische Kongreß gekauft.“
• AnwendungKunde hat schon Solaris gekauft, bestellt jetzt Transfer:
empfehle Der Futurologische Kongreß
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 8
7.1 Sequential Patterns
Grundbegriffe [Srikant & Agrawal 1996]
• I = {i1, ..., im}: Menge von Literalen, genannt „Items“
• Sequenz s = <s1, ..., sn>:
geordnete Liste von Itemsets,si = (x1, ..., xm) lexikographisch geordnet für i = 1, ..., n
• <a1, ..., an> ist Untersequenz einer Sequenz <b1, ..., bm>:
jedes Element aus <a1, ..., an> Teilmenge eines Elementes aus <b1, ..., bm>
unter Beibehaltung der Reihenfolge • A = <a1, ..., an> zusammenhängende Untersequenz von B = <b1, ..., bm>:
A Untersequenz von Bdie Elemente von A sind in aufeinanderfolgenden Elementen von B enthalten
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 9
7.1 Sequential Patterns
Grundbegriffe
• Beispiel: B = <(1 2), (3 4), (5), (6)> zusammenhängende Untersequenzen von B: <(2), (3 4), (5)>, <(1 2), (3), (5), (6)>, <(3), (5)>Untersequenzen von B, die nicht zusammenhängen: <(1 2), (3 4), (6)>, <(1), (5), (6)>
• Datenbank: Menge von Datensequenzen, d.h. zeitlich geordnete Liste von Transaktionen
• Transaktion T: Menge von Items, Sequenz-Id(T), Transaktions-Zeit(T) • Support einer Sequenz S in D: Anteil der Datensequenzen in D, die S unterstützen• Datensequenz DS unterstützt eine Sequenz S: S ist Untersequenz von DS
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 10
7.1 Sequential Patterns
Support unter Berücksichtigung der exakten Zeitpunkte
• Bisher:
ein Element si = (x1, ..., xm) einer Sequenz muß von einer einzigen
Transaktion der Datensequenz unterstützt werden
• Jetzt:
mehrere aufeinanderfolgende Transaktionen zählen wie eine einzige,
wenn sie zeitlich nahe genug zusammen liegen
• Parameter window-size:
„Breite“ des Zeitfensters
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 11
7.1 Sequential Patterns
Support unter Berücksichtigung der exakten Zeitpunkte• Zeit-Constraints
für den zeitlichen Abstand zwischen den Gruppen von Transaktionen,die ein Element einer Sequenz unterstützen
• z.B. beim Support der Sequenz <(Solaris), (Transfer)> Datensequenzen nichtberücksichtigen, wo zwischen Kauf von Solaris und Transfer drei Jahre liegen
• Parameter min-gap und max-gap
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 12
7.1 Sequential Patterns
Algorithmus GSP („Generalized Sequential Patterns“)
• gleiche Struktur wie der Apriori-Algorithmus zum Finden von Frequent Itemsets• erster Durchlauf: Bestimmung des Supports für jedes einzelne Item Bildung der häufigen 1-Sequenzen aus einem Element mit einem einzigen Item• folgende Durchläufe: Bildung von Kandidatensequenzen mit k+1 Items aus den im vorhergehenden Durchlauf bestimmten häufigen Sequenzen mit k Items• Zählen des Supports der Kandidaten und Selektion nach gefundenem Support • Modifikationen des Apriori-Algorithmus:
Kandidatengenerierung, Zählen des Supports von Kandidaten und Berücksichtigung von Item-Taxonomien
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 13
7.2 Spatial Data Mining
Problemstellung
• Analyse von raumbezogenen Daten
• ausgezeichnetes Attribut:
Lage und Ausdehnung in einem 2- oder 3-dimensionalen Raum
Punkte, Linien, Polygone, Polyeder
• Anwendungen
Geographie: Topologische Karten, Thematische Karten, . . .
Biologie: Proteine, . .
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 14
7.2 Spatial Data Mining
Problemstellung
• Aufgaben
Analyse von einzelnen räumlichen Verteilungen bestimmter Attribute
Analyse von Abhängigkeiten zwischen räumlichen Verteilungen von Attributen• Anwendungen
Geo-Marketing
Verkehrssteuerung
Umweltschutz . . .• Besonderheit des Spatial Data Mining
Attribute von Nachbarn beeinflussen ein gegebenes Objekt
Einfluß hängt ab von räumlichen Nachbarschaftsbeziehungen
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 15
7.2 Spatial Data MiningBasisoperationen zum Spatial Data Mining
[Ester, Frommelt, Kriegel & Sander 2000]
Räumliche Nachbarschaftsbeziehungen• topologische Beziehungen • Distanzbeziehungen • Richtungsbeziehungen
C southeast A
rep(A)A
B
C
D north A
C south A
B east A,C east A
D
A disjoint B A overlap B A contains BB inside A
A distance=0 B A distance=c B A distancec B
B northeast A
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 16
7.2 Spatial Data MiningBasisoperationen zum Spatial Data Mining
• neighbor: Nachbarschaftsbeziehung
• DB Objects: Datenbank
• Nachbarschaftsgraph GDBneighbor: Graph (N,E) mit
N DB und
(n1,n2) E n1 neighbor n2
• Nachbarschaftspfad: Pfad in einem Nachbarschaftsgraphen
• Operationen auf Nachbarschaftsgraphen und -pfaden:
neighbors: Ngraphs x Objects 2Objects
extensions: Ngraphs x 2NPaths x Int 2NPaths
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 17
7.2 Clustering und Erklärung der ClusterÜberblick [Knorr & Ng 1996]
1. Clustering der Objekte beliebiger Clustering-Algorithmus
2. „Erklärung“ der Cluster durch die Nachbarschaft Klassifikationsproblem
Cluster1
Cluster2
Cluster3
High School
Primary School
College
xx xxx
x xx
xxxx
x xx
x
xx X teures Haus
Cluster teurer Häuser
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 18
7.2 Clustering und Erklärung der Cluster
Erklärung der Cluster
Bestimmung der Nachbarschaft jedes Clusters• Input: ein Cluster von Punkten
• Output: Liste der k nächstgelegenen Objekte
Bestimmung gemeinsamer Objekttypen in den Nachbarschaften• Input: n Listen von je k nächstgelegenen Objekten (je eine pro Cluster)
• Output: Objekttypen, die in allen oder in den meisten Nachbarschaften der
n Cluster auftreten
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 19
7.2 Clustering und Erklärung der Cluster
Bestimmung der Nachbarschaft eines Clusters
Distanzfunktionen• Distanz zwischen den Zentren
berücksichtigt nicht die Form und die Größe
• Distanz zwischen den Rändern
berücksichtigt nicht dieVerteilung der Punkte im Cluster
• gewichtete Summe der Distanzen der Punkte des Clusters zum Rand des Objekts
hoher Aufwand zur Berechnung dieser Distanzfunktion
xxx
x
xx
xx
x xxx
xx x
Park
School
Cluster
x
x x xx
xx
x
xx
x
x
xx
x
xx
x
x
x
xxGolfCourse
Sports-ground
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 20
7.2 Clustering und Erklärung der Cluster
Bestimmung gemeinsamer Objekttypen
Maße der Gemeinsamkeit• Objekttyp tritt in der Nachbarschaft von mindestens m (m n) Clustern auf • Summe der invertierten Ränge der Objekttypen in den Nachbarschaftslisten• Kombiniertes Maß
Problem• wenn m n: Menge der gemeinsamen Objekttypen evtl. leer• deshalb: Generalisierung der gemeinsamen Objekttypen• Beispiel einer Erklärung:
„teure Häuser haben meist eine Schule in ihrer Nachbarschaft“
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 21
7.2 Räumliche Charakterisierung und Trenderkennung
Überblick [Ester, Frommelt, Kriegel & Sander 1998]
Räumliche Charakterisierung• verwandt mit „Proximity Analysis“ (Erklärung der Cluster)• bisher: nur für Cluster jetzt: für beliebige räumliche Objekte• Charaktersierung nicht nur durch Objekttypen
sondern auch (nichträumliche) Attribute von Nachbarn
Räumliche Trenderkennung • Bezug zur Zeitreihen-Analyse• hier: Analyse „räumlicher Reihen“
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 22
7.2 Räumliche Charakterisierung
Grundbegriffe
• targets DB: Menge ausgezeichneter Objekte aus der Datenbank
• Eigenschaft: (Attribut, Wert) oder (“Typ”, konkreter Objekttyp)
• Häufigkeitsfaktor von prop in Bezug auf targets und DB:
f prop
frequency targetscardinality targets
frequency DBcardinality DB
prop prop
frequencyprop(DB) / card(DB) frequencyprop(targets) / card(targets) f(prop)
Wert
Attribut Wert
Attribut Wert
Attribut
signi-ficance
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 23
7.2 Räumliche Charakterisierung
Grundbegriffe
• prop charakterisiert targets:
f(prop) significance
oder f(prop) 1/significance
• Bisher
nicht-räumliche Charaktersisierung
• Räumliche Charakterisierung
Berücksichtigung der Nachbarn der targets, die durch max-step Kanten
eines Nachbarschaftsgraphen GDBneighbor erreichbar sind
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 24
7.2 Räumliche Charakterisierung
Grundbegriffe
• Aufgabe
finde alle Eigenschaften prop und ganze Zahlen s max-step mit
1) prop charakterisiert targets mit s Erweiterungen in GDBneighbor
2) prop charakterisiert mindestens proportion viele t targets mit s
Erweiterungen in GDBneighbor
Target Berg
t1
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 25
7.2 Räumliche Charakterisierung
Beispiel
Gemeinde mit „Rentneranteil = hoch“ Wohnungen pro Gebäude = sehr niedrig (i = 0, f(prop) = 9.1)
Auslnderanteil = sehr niedrigi = 0, f(prop) = 8.9Akademikeranteil = mittel (i = 0, f(prop) = 6.3)
Objekttyp = Berg (i = 3, f(prop) = 4.1)
GIS Bayern
Target
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 26
7.2 Räumliche Trenderkennung
Grundbegriffe
• räumlicher Trend
regelmäßige Änderung von nicht-räumlichen Attributen
in der Nachbarschafts eines bestimmten Startobjekts
• Regressionsanalyse zum Bestimmen solcher Trends
unabhängiges Attribut: räumliche Distanz zum Startobjekt
abhängige Attribute: Differenzen der nicht-räumlichen Attributwerte..
. .....
Distanz
.
(a) positiver Trend
..
.. ..... ....
...Distanz Distanz
Differenz DifferenzDifferenz
(b) negativer Trend (c) kein Trend
. ....
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 27
7.2 Räumliche Trenderkennung
Grundbegriffe
• Input
Nachbarschaftsgraph G, Objekt O, Menge von Attributen a,
ganze Zahlen min-length und max-length, relle Zahl min-conf
• Output
Menge aller Nachbarschaftspfade in G der spezifizierten Länge mit Startobjekt
O, die einen Trend in a besitzen mit einer Korrelation von mindestens min-conf
• Methoden
– Finden globaler räumlicher Trends
– Finden lokaler räumlicher Trends
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 28
7.2 Räumliche Trenderkennung
Methoden
Finden globaler Trends Finden lokaler Trends
erzeuge alle Pfade derselben Länge erzeuge einen Pfad mit Länge max-length
Regressionsanalyse auf dieser Menge Regressionsanalyse auf diesem Pfad
Erweiterung aller Pfade Erzeugung des nächsten Pfadesum eine Kante mit Länge max-length
eine Menge von Pfaden zwei Mengen von Pfaden
mit einem signifikanten Trend (positive und negative Trends)
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 29
7.2 Räumliche Trenderkennung
Beispiel
globaler Trend lokale Trends
fallende Attributwerte
GIS Bayern
a: Durchschnittsmiete, O: Regensburg
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 30
7.3 Text- und Web-MiningProblemstellung
• Analyse von Text- und Hypertext-Daten sowie ihrer Benutzung
• Anwendungen
elektronische Mails einer Firma
Newsgroup-Artikel
Webseiten aus dem Internet oder dem Intranet einer Firma
• Text- und Hypertext-DatenTextPräsentationInhaltHyper-Links
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 31
7.3 Text- und Web-MiningProblemstellung
• TextTransformation eines Dokuments D in Vektor r(D) = (h1, ..., hd)hi 0: die Häufigkeit des Terms ti in D Reduktion der Anzahl der Terme
Stop-Listen, Stemming, Entfernen besonders häufiger bzw. seltener Terme
• Präsentation (HTML)
<h1> Bibliography </h1><p> <i>Knowledge Discovery in Databases</i>, Ester, Sander <br> Springer-Verlag, 2000. </p>. . .
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 32
7.3 Text- und Web-Mining
Problemstellung• Inhalt (XML)
<bibliography> <book> <title> Knowledge Discovery in Databases </title><author> Ester </author> <author> Sander </author><publisher> Springer-Verlag </publisher><year> 2000 </year></book>. . .
</bibliography> • Hyper-Links
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 33
7.3 Text- und Web-Mining
Problemstellung
• Aufgaben
Analyse von Inhalt und Struktur von Hypertext-Dokumenten Analyse der Link-Struktur einer Menge von Hypertext-DokumentenAnalyse der Benutzung einer Menge von Hypertext-Dokumenten
• Besonderheit des Text- und Web-Mining
Diversität des Vokabulars, z.B. verschiedene Sprachen
Vagheit der Texte
Unterschiedliche Qualität der Texte
Link-Struktur
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 34
7.3 Clustering der Antwortmengen von Suchmaschinen
Motivation• Ergebnisse von Web-Suchmaschinen im allgemeinen in Form einer Liste• Probleme
Antwortlisten typischerweise sehr langviele Terme treten in ganz verschiedenen Kontexten aufsehr unübersichtliche Darstellung
z.B. „Cluster“: Datenanalyse, Rechnernetze, Astronomie, . . .
• ZielClustering der Antwortmengen nach KontextenBrowsen des Clustering statt der Antwortliste
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 35
7.3 Clustering der Antwortmengen von Suchmaschinen
Suffix-Tree-Clustering [Zamir & Etzioni 1998]
• Ähnlichkeit von Texten nicht Ähnlichkeitsmaß für Featurevektoren
sondern gemeinsames Vorkommen von Termen• Stärken des Suffix-Tree-Clustering (STC)
Effizienz: Laufzeit O(n) für n DokumenteInkrementalität: Dokumente müssen nicht alle anfangs vorhanden seinÜberlappung der ClusterClusterbeschreibung: einfach und leicht verständlich
• Ablauf des STC1. Datenvorbereitung2. Identifikation von Basisclustern 3. Kombination von Basisclustern
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 36
7.3 Clustering der Antwortmengen von Suchmaschinen
Suffix-Tree-Clustering
Datenvorbereitung• Entfernen von HTML-Tags, Zahlen und Satzzeichen • Stemming
Identifikation von Basisclustern • Basiscluster: Menge von Dokumenten, die eine Phrase gemeinsam haben
• Phrase: Mehrwort-Term
• Wichtigkeit eines Basisclusters: Produkt aus Anzahl der Dokumente im Cluster und Anzahl der Wörter in der beschreibenden Phrase
• Identifikation der Basiscluster durch Aufbau eines Suffix-Baums
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 37
7.3 Clustering der Antwortmengen von Suchmaschinen
Suffix-Baum
Suffix-Baum für eine Menge von Strings S:
Baum mit den Eigenschaften
• Jeder innere Knoten hat mindestens 2 Söhne.• Beschriftung der Kanten: nicht-leerer Teilstring eines Strings aus S
Beschriftung eines Knotens: Konkatenation aller Kanten auf dem Pfadvon der Wurzel zu diesem Knoten
• Die Beschriftungen aller von einem Knoten ausgehenden Kanten beginnen mit verschiedenen Wörtern.
• Für jedes Suffix s eines jeden Strings aus S existiert auch ein Knoten im Baum mit der Beschriftung s.
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 38
7.3 Clustering der Antwortmengen von Suchmaschinen
Beispiel
Einfügen von (1) „cat ate cheese“
Einfügen von (2) „mouse ate cheese too“
cat ate cheese cheese ate cheese
too too
mouse ate cheese too
too
1, 1 1, 2
2, 2
1, 3
2, 3
2, 1
2, 4
cat ate cheese cheese ate cheese
1, 1 1, 2 1, 3
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 39
7.3 Clustering der Antwortmengen von Suchmaschinen
Kombination von Basisclustern
• viele überlappende Basiscluster
• Basiscluster mit hoher Überlappung werden verschmolzen • Ähnlichkeitsmaß zwischen zwei Basisclustern A und B:
gleich 1, wenn sowohl |A B| / |A| > 0,5 als auch |A B| / |B| > 0,5sonst gleich 0
• Basiscluster-Graph:Knoten: BasisclusterKante genau dann, wenn die Knoten eine Ähnlichkeit von 1 besitzen
• zusammengesetzter Cluster: Zusammenhangskomponente im Basiscluster-Graphen
enthält die Vereinigung all seiner Basiscluster
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 40
7.3 Clustering der Antwortmengen von Suchmaschinen
Beispiel
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 41
7.3 Intelligenter Web-Crawler
Motivation
Probleme der Web-Suchmaschinen• indizieren höchstens 30% aller Webseiten• Antworten sind oft veraltet• liefern oft zu viele (uninteressante) Antworten
schlechter Recall und schlechte Precision
Ansatz eines intelligenten (fokussierten) Crawlers• miteinander verlinkte Webdokumente besitzen häufig ähnliche Themen• arbeitet nicht mit einem relativ statischen Index• startet von vorgegebenen interessanten Webdokumenten, untersucht die jeweils durch Links erreichbaren Nachbardokumente
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 42
7.3 Intelligenter Web-Crawler
Ablauf [Chakrabarti, Berg & Dom 1999]
• Manuelle Spezifikation der interessanten ThemenAngabe einer Menge von interessanten Webseiten (Trainingsseiten)
• Interaktives Lernen eines Klassifikatorsaus den Trainingsseitenum weitere Webseiten als „interessant“ / „uninteressant“ zu klassifizierenKlassifikator kann vom Benutzer korrigiert werden
• Automatischer CrawlStart bei den Trainingsdokumentenverfolgt die Links zu den Nachbardokumentengefundene Webseiten werden klassifiziert:„interessant“: Antwort und Ausgangspunkt für weitere Suche„uninteressant“: Ende der Suche
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 43
7.3 Intelligenter Web-Crawler
Klassifikator
• Gegeben:
Taxonomie und Menge von Trainingsseiten
• Gesucht:
die Klassen der Taxonomie, in die die Trainingsseiten am besten passen.
• Merkierung einer Teilmenge dieser Klassen als „interessant“
durch den Benutzer
• Vorschlag von weiteren Webseiten aus der Nachbarschaft der Trainingsseiten
durch das System
• Lernen des endgültigen Klassifikators
von der endgültigen Menge von Trainingsseiten
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 44
7.3 Intelligenter Web-Crawler
Klassifikator
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 45
7.3 Intelligenter Web-Crawler
Distiller• Gegeben: die von einer „interessanten“ Webseite ausgehenden Links• Gesucht: Reihenfolge, in der diese Links verfolgt werden sollen• Beispiele
Seite mit viel Text ist sehr relevant, enthält aber keine Links „Sackgasse“Seite enthält evtl. wenig Text, aber viele gute Links „Hub“
• Methodewähle erst Webseiten mit hohem Page Rank bzw. hohem Authorative Rank und Hub Rank
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 46
7.3 Intelligenter Web-Crawler
Distiller
Zeit
PageAcquisition
Rate(Precision)