Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen...

46
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 1 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data Mining Problemstellung, Sequential Patterns, Modifikation des Apriori- Algorithmus 7.2 Spatial Data Mining Aufgaben und Probleme, typische Methoden, räumliche Charakterisierung und Trenderkennung 7.3 Text- und Web-Mining Aufgaben und Probleme, Clustering von Web-Dokumenten, Suchmaschine mit Berücksichtigung der Linkstruktur, intelligenter Crawler

Transcript of Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen...

Page 1: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 1

7. Besondere Datentypen und Anwendungen

Inhalt dieses Kapitels

7.1 Temporal Data MiningProblemstellung, Sequential Patterns, Modifikation des Apriori-Algorithmus

7.2 Spatial Data Mining

Aufgaben und Probleme, typische Methoden, räumliche Charakterisierung und

Trenderkennung

7.3 Text- und Web-MiningAufgaben und Probleme, Clustering von Web-Dokumenten, Suchmaschine mitBerücksichtigung der Linkstruktur, intelligenter Crawler

Page 2: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 2

7.1 Temporal Data Mining

Problemstellung

• Analyse von zeitbezogenen Daten

• Anwendungen

Finanzen: Aktienkurse, Inflationsraten, . . .

Medizin: Blutdruck, . . .

Meteorologie: Niederschläge, Temperaturen, . . .

• ausgezeichnetes Attribut:

Punkte oder Abschnitte in einem zeitlichen Bezugssystem

impliziert zeitliche Ordnung der Datensätze

Page 3: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 3

7.1 Temporal Data Mining

Problemstellung

• zwei Arten von Methoden

Analyse zeitlicher Zusammenhänge innerhalb einzelner Abläufe

Analyse zeitlicher Zusammenhänge zwischen verschiedenen Abläufen

• Besonderheit des Temporal Data Mining

komplexe zeitliche Relationen zwischen Zeitpunkten und Zeitintervallen: „während“, „überschneidend“, „direkt aufeinanderfolgend“ . . .

neue Typen interessanter Regeln

zusätzliche Komplexität der Algorithmen

Page 4: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 4

7.1 Zeitreihen -Analyse

Beispiel

Page 5: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 5

7.1 Zeitreihen-Analyse

Komponenten von Zeitreihen [Fahrmeier et al.1999]

Trendkomponente

langfristige systematische Veränderung

Konjunkturkomponente

Verlauf von Konjunkturzyklen

Saisonalkomponente jahreszeitlich bedingte Schwankungen

Restkomponente Irreguläre Veränderungen, zufällig, relativ gering

Page 6: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 6

7.1 Zeitreihen-Analyse

Methoden [Fahrmeier et al.1999]

Globale Regression• Auswahl eines Funktionstyps• Schätzung der unbekannten Parameter mit Hilfe der Methode der kleinsten Fehlerquadrate

globaler Trend häufig zu grob

Lokale Methoden• gleitender Durchschnitt (Moving Window)

Glättung• lokale Regression

Regressionsfunktion für Umgebung des jeweiligen Punkts

Page 7: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 7

7.1 Sequential Patterns

Motivation

• nicht einzelne Transaktionen, sondern Mengen von zusammengehörigenund zeitlich geordneten Sequenzen von Transaktionen

• häufige Sequenz: viele Kunden, die zu einem Zeitpunkt Produkte A, B, C eingekauft haben, haben zu einem späteren Zeitpunkt auch die Produkte D, E und F gekauft

„5% aller Kunden haben zuerst das Buch Solaris, danach das Buch Transfer und dann Der Futurologische Kongreß gekauft.“

• AnwendungKunde hat schon Solaris gekauft, bestellt jetzt Transfer:

empfehle Der Futurologische Kongreß

Page 8: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 8

7.1 Sequential Patterns

Grundbegriffe [Srikant & Agrawal 1996]

• I = {i1, ..., im}: Menge von Literalen, genannt „Items“

• Sequenz s = <s1, ..., sn>:

geordnete Liste von Itemsets,si = (x1, ..., xm) lexikographisch geordnet für i = 1, ..., n

• <a1, ..., an> ist Untersequenz einer Sequenz <b1, ..., bm>:

jedes Element aus <a1, ..., an> Teilmenge eines Elementes aus <b1, ..., bm>

unter Beibehaltung der Reihenfolge • A = <a1, ..., an> zusammenhängende Untersequenz von B = <b1, ..., bm>:

A Untersequenz von Bdie Elemente von A sind in aufeinanderfolgenden Elementen von B enthalten

Page 9: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 9

7.1 Sequential Patterns

Grundbegriffe

• Beispiel: B = <(1 2), (3 4), (5), (6)> zusammenhängende Untersequenzen von B: <(2), (3 4), (5)>, <(1 2), (3), (5), (6)>, <(3), (5)>Untersequenzen von B, die nicht zusammenhängen: <(1 2), (3 4), (6)>, <(1), (5), (6)>

• Datenbank: Menge von Datensequenzen, d.h. zeitlich geordnete Liste von Transaktionen

• Transaktion T: Menge von Items, Sequenz-Id(T), Transaktions-Zeit(T) • Support einer Sequenz S in D: Anteil der Datensequenzen in D, die S unterstützen• Datensequenz DS unterstützt eine Sequenz S: S ist Untersequenz von DS

Page 10: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 10

7.1 Sequential Patterns

Support unter Berücksichtigung der exakten Zeitpunkte

• Bisher:

ein Element si = (x1, ..., xm) einer Sequenz muß von einer einzigen

Transaktion der Datensequenz unterstützt werden

• Jetzt:

mehrere aufeinanderfolgende Transaktionen zählen wie eine einzige,

wenn sie zeitlich nahe genug zusammen liegen

• Parameter window-size:

„Breite“ des Zeitfensters

Page 11: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 11

7.1 Sequential Patterns

Support unter Berücksichtigung der exakten Zeitpunkte• Zeit-Constraints

für den zeitlichen Abstand zwischen den Gruppen von Transaktionen,die ein Element einer Sequenz unterstützen

• z.B. beim Support der Sequenz <(Solaris), (Transfer)> Datensequenzen nichtberücksichtigen, wo zwischen Kauf von Solaris und Transfer drei Jahre liegen

• Parameter min-gap und max-gap

Page 12: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 12

7.1 Sequential Patterns

Algorithmus GSP („Generalized Sequential Patterns“)

• gleiche Struktur wie der Apriori-Algorithmus zum Finden von Frequent Itemsets• erster Durchlauf: Bestimmung des Supports für jedes einzelne Item Bildung der häufigen 1-Sequenzen aus einem Element mit einem einzigen Item• folgende Durchläufe: Bildung von Kandidatensequenzen mit k+1 Items aus den im vorhergehenden Durchlauf bestimmten häufigen Sequenzen mit k Items• Zählen des Supports der Kandidaten und Selektion nach gefundenem Support • Modifikationen des Apriori-Algorithmus:

Kandidatengenerierung, Zählen des Supports von Kandidaten und Berücksichtigung von Item-Taxonomien

Page 13: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 13

7.2 Spatial Data Mining

Problemstellung

• Analyse von raumbezogenen Daten

• ausgezeichnetes Attribut:

Lage und Ausdehnung in einem 2- oder 3-dimensionalen Raum

Punkte, Linien, Polygone, Polyeder

• Anwendungen

Geographie: Topologische Karten, Thematische Karten, . . .

Biologie: Proteine, . .

Page 14: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 14

7.2 Spatial Data Mining

Problemstellung

• Aufgaben

Analyse von einzelnen räumlichen Verteilungen bestimmter Attribute

Analyse von Abhängigkeiten zwischen räumlichen Verteilungen von Attributen• Anwendungen

Geo-Marketing

Verkehrssteuerung

Umweltschutz . . .• Besonderheit des Spatial Data Mining

Attribute von Nachbarn beeinflussen ein gegebenes Objekt

Einfluß hängt ab von räumlichen Nachbarschaftsbeziehungen

Page 15: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 15

7.2 Spatial Data MiningBasisoperationen zum Spatial Data Mining

[Ester, Frommelt, Kriegel & Sander 2000]

Räumliche Nachbarschaftsbeziehungen• topologische Beziehungen • Distanzbeziehungen • Richtungsbeziehungen

C southeast A

rep(A)A

B

C

D north A

C south A

B east A,C east A

D

A disjoint B A overlap B A contains BB inside A

A distance=0 B A distance=c B A distancec B

B northeast A

Page 16: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 16

7.2 Spatial Data MiningBasisoperationen zum Spatial Data Mining

• neighbor: Nachbarschaftsbeziehung

• DB Objects: Datenbank

• Nachbarschaftsgraph GDBneighbor: Graph (N,E) mit

N DB und

(n1,n2) E n1 neighbor n2

• Nachbarschaftspfad: Pfad in einem Nachbarschaftsgraphen

• Operationen auf Nachbarschaftsgraphen und -pfaden:

neighbors: Ngraphs x Objects 2Objects

extensions: Ngraphs x 2NPaths x Int 2NPaths

Page 17: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 17

7.2 Clustering und Erklärung der ClusterÜberblick [Knorr & Ng 1996]

1. Clustering der Objekte beliebiger Clustering-Algorithmus

2. „Erklärung“ der Cluster durch die Nachbarschaft Klassifikationsproblem

Cluster1

Cluster2

Cluster3

High School

Primary School

College

xx xxx

x xx

xxxx

x xx

x

xx X teures Haus

Cluster teurer Häuser

Page 18: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 18

7.2 Clustering und Erklärung der Cluster

Erklärung der Cluster

Bestimmung der Nachbarschaft jedes Clusters• Input: ein Cluster von Punkten

• Output: Liste der k nächstgelegenen Objekte

Bestimmung gemeinsamer Objekttypen in den Nachbarschaften• Input: n Listen von je k nächstgelegenen Objekten (je eine pro Cluster)

• Output: Objekttypen, die in allen oder in den meisten Nachbarschaften der

n Cluster auftreten

Page 19: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 19

7.2 Clustering und Erklärung der Cluster

Bestimmung der Nachbarschaft eines Clusters

Distanzfunktionen• Distanz zwischen den Zentren

berücksichtigt nicht die Form und die Größe

• Distanz zwischen den Rändern

berücksichtigt nicht dieVerteilung der Punkte im Cluster

• gewichtete Summe der Distanzen der Punkte des Clusters zum Rand des Objekts

hoher Aufwand zur Berechnung dieser Distanzfunktion

xxx

x

xx

xx

x xxx

xx x

Park

School

Cluster

x

x x xx

xx

x

xx

x

x

xx

x

xx

x

x

x

xxGolfCourse

Sports-ground

Page 20: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 20

7.2 Clustering und Erklärung der Cluster

Bestimmung gemeinsamer Objekttypen

Maße der Gemeinsamkeit• Objekttyp tritt in der Nachbarschaft von mindestens m (m n) Clustern auf • Summe der invertierten Ränge der Objekttypen in den Nachbarschaftslisten• Kombiniertes Maß

Problem• wenn m n: Menge der gemeinsamen Objekttypen evtl. leer• deshalb: Generalisierung der gemeinsamen Objekttypen• Beispiel einer Erklärung:

„teure Häuser haben meist eine Schule in ihrer Nachbarschaft“

Page 21: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 21

7.2 Räumliche Charakterisierung und Trenderkennung

Überblick [Ester, Frommelt, Kriegel & Sander 1998]

Räumliche Charakterisierung• verwandt mit „Proximity Analysis“ (Erklärung der Cluster)• bisher: nur für Cluster jetzt: für beliebige räumliche Objekte• Charaktersierung nicht nur durch Objekttypen

sondern auch (nichträumliche) Attribute von Nachbarn

Räumliche Trenderkennung • Bezug zur Zeitreihen-Analyse• hier: Analyse „räumlicher Reihen“

Page 22: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 22

7.2 Räumliche Charakterisierung

Grundbegriffe

• targets DB: Menge ausgezeichneter Objekte aus der Datenbank

• Eigenschaft: (Attribut, Wert) oder (“Typ”, konkreter Objekttyp)

• Häufigkeitsfaktor von prop in Bezug auf targets und DB:

f prop

frequency targetscardinality targets

frequency DBcardinality DB

prop prop

frequencyprop(DB) / card(DB) frequencyprop(targets) / card(targets) f(prop)

Wert

Attribut Wert

Attribut Wert

Attribut

signi-ficance

Page 23: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 23

7.2 Räumliche Charakterisierung

Grundbegriffe

• prop charakterisiert targets:

f(prop) significance

oder f(prop) 1/significance

• Bisher

nicht-räumliche Charaktersisierung

• Räumliche Charakterisierung

Berücksichtigung der Nachbarn der targets, die durch max-step Kanten

eines Nachbarschaftsgraphen GDBneighbor erreichbar sind

Page 24: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 24

7.2 Räumliche Charakterisierung

Grundbegriffe

• Aufgabe

finde alle Eigenschaften prop und ganze Zahlen s max-step mit

1) prop charakterisiert targets mit s Erweiterungen in GDBneighbor

2) prop charakterisiert mindestens proportion viele t targets mit s

Erweiterungen in GDBneighbor

Target Berg

t1

Page 25: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 25

7.2 Räumliche Charakterisierung

Beispiel

Gemeinde mit „Rentneranteil = hoch“ Wohnungen pro Gebäude = sehr niedrig (i = 0, f(prop) = 9.1)

Auslnderanteil = sehr niedrigi = 0, f(prop) = 8.9Akademikeranteil = mittel (i = 0, f(prop) = 6.3)

Objekttyp = Berg (i = 3, f(prop) = 4.1)

GIS Bayern

Target

Page 26: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 26

7.2 Räumliche Trenderkennung

Grundbegriffe

• räumlicher Trend

regelmäßige Änderung von nicht-räumlichen Attributen

in der Nachbarschafts eines bestimmten Startobjekts

• Regressionsanalyse zum Bestimmen solcher Trends

unabhängiges Attribut: räumliche Distanz zum Startobjekt

abhängige Attribute: Differenzen der nicht-räumlichen Attributwerte..

. .....

Distanz

.

(a) positiver Trend

..

.. ..... ....

...Distanz Distanz

Differenz DifferenzDifferenz

(b) negativer Trend (c) kein Trend

. ....

Page 27: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 27

7.2 Räumliche Trenderkennung

Grundbegriffe

• Input

Nachbarschaftsgraph G, Objekt O, Menge von Attributen a,

ganze Zahlen min-length und max-length, relle Zahl min-conf

• Output

Menge aller Nachbarschaftspfade in G der spezifizierten Länge mit Startobjekt

O, die einen Trend in a besitzen mit einer Korrelation von mindestens min-conf

• Methoden

– Finden globaler räumlicher Trends

– Finden lokaler räumlicher Trends

Page 28: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 28

7.2 Räumliche Trenderkennung

Methoden

Finden globaler Trends Finden lokaler Trends

erzeuge alle Pfade derselben Länge erzeuge einen Pfad mit Länge max-length

Regressionsanalyse auf dieser Menge Regressionsanalyse auf diesem Pfad

Erweiterung aller Pfade Erzeugung des nächsten Pfadesum eine Kante mit Länge max-length

eine Menge von Pfaden zwei Mengen von Pfaden

mit einem signifikanten Trend (positive und negative Trends)

Page 29: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 29

7.2 Räumliche Trenderkennung

Beispiel

globaler Trend lokale Trends

fallende Attributwerte

GIS Bayern

a: Durchschnittsmiete, O: Regensburg

Page 30: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 30

7.3 Text- und Web-MiningProblemstellung

• Analyse von Text- und Hypertext-Daten sowie ihrer Benutzung

• Anwendungen

elektronische Mails einer Firma

Newsgroup-Artikel

Webseiten aus dem Internet oder dem Intranet einer Firma

• Text- und Hypertext-DatenTextPräsentationInhaltHyper-Links

Page 31: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 31

7.3 Text- und Web-MiningProblemstellung

• TextTransformation eines Dokuments D in Vektor r(D) = (h1, ..., hd)hi 0: die Häufigkeit des Terms ti in D Reduktion der Anzahl der Terme

Stop-Listen, Stemming, Entfernen besonders häufiger bzw. seltener Terme

• Präsentation (HTML)

<h1> Bibliography </h1><p> <i>Knowledge Discovery in Databases</i>, Ester, Sander <br> Springer-Verlag, 2000. </p>. . .

Page 32: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 32

7.3 Text- und Web-Mining

Problemstellung• Inhalt (XML)

<bibliography> <book> <title> Knowledge Discovery in Databases </title><author> Ester </author> <author> Sander </author><publisher> Springer-Verlag </publisher><year> 2000 </year></book>. . .

</bibliography> • Hyper-Links

Page 33: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 33

7.3 Text- und Web-Mining

Problemstellung

• Aufgaben

Analyse von Inhalt und Struktur von Hypertext-Dokumenten Analyse der Link-Struktur einer Menge von Hypertext-DokumentenAnalyse der Benutzung einer Menge von Hypertext-Dokumenten

• Besonderheit des Text- und Web-Mining

Diversität des Vokabulars, z.B. verschiedene Sprachen

Vagheit der Texte

Unterschiedliche Qualität der Texte

Link-Struktur

Page 34: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 34

7.3 Clustering der Antwortmengen von Suchmaschinen

Motivation• Ergebnisse von Web-Suchmaschinen im allgemeinen in Form einer Liste• Probleme

Antwortlisten typischerweise sehr langviele Terme treten in ganz verschiedenen Kontexten aufsehr unübersichtliche Darstellung

z.B. „Cluster“: Datenanalyse, Rechnernetze, Astronomie, . . .

• ZielClustering der Antwortmengen nach KontextenBrowsen des Clustering statt der Antwortliste

Page 35: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 35

7.3 Clustering der Antwortmengen von Suchmaschinen

Suffix-Tree-Clustering [Zamir & Etzioni 1998]

• Ähnlichkeit von Texten nicht Ähnlichkeitsmaß für Featurevektoren

sondern gemeinsames Vorkommen von Termen• Stärken des Suffix-Tree-Clustering (STC)

Effizienz: Laufzeit O(n) für n DokumenteInkrementalität: Dokumente müssen nicht alle anfangs vorhanden seinÜberlappung der ClusterClusterbeschreibung: einfach und leicht verständlich

• Ablauf des STC1. Datenvorbereitung2. Identifikation von Basisclustern 3. Kombination von Basisclustern

Page 36: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 36

7.3 Clustering der Antwortmengen von Suchmaschinen

Suffix-Tree-Clustering

Datenvorbereitung• Entfernen von HTML-Tags, Zahlen und Satzzeichen • Stemming

Identifikation von Basisclustern • Basiscluster: Menge von Dokumenten, die eine Phrase gemeinsam haben

• Phrase: Mehrwort-Term

• Wichtigkeit eines Basisclusters: Produkt aus Anzahl der Dokumente im Cluster und Anzahl der Wörter in der beschreibenden Phrase

• Identifikation der Basiscluster durch Aufbau eines Suffix-Baums

Page 37: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 37

7.3 Clustering der Antwortmengen von Suchmaschinen

Suffix-Baum

Suffix-Baum für eine Menge von Strings S:

Baum mit den Eigenschaften

• Jeder innere Knoten hat mindestens 2 Söhne.• Beschriftung der Kanten: nicht-leerer Teilstring eines Strings aus S

Beschriftung eines Knotens: Konkatenation aller Kanten auf dem Pfadvon der Wurzel zu diesem Knoten

• Die Beschriftungen aller von einem Knoten ausgehenden Kanten beginnen mit verschiedenen Wörtern.

• Für jedes Suffix s eines jeden Strings aus S existiert auch ein Knoten im Baum mit der Beschriftung s.

Page 38: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 38

7.3 Clustering der Antwortmengen von Suchmaschinen

Beispiel

Einfügen von (1) „cat ate cheese“

Einfügen von (2) „mouse ate cheese too“

cat ate cheese cheese ate cheese

too too

mouse ate cheese too

too

1, 1 1, 2

2, 2

1, 3

2, 3

2, 1

2, 4

cat ate cheese cheese ate cheese

1, 1 1, 2 1, 3

Page 39: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 39

7.3 Clustering der Antwortmengen von Suchmaschinen

Kombination von Basisclustern

• viele überlappende Basiscluster

• Basiscluster mit hoher Überlappung werden verschmolzen • Ähnlichkeitsmaß zwischen zwei Basisclustern A und B:

gleich 1, wenn sowohl |A B| / |A| > 0,5 als auch |A B| / |B| > 0,5sonst gleich 0

• Basiscluster-Graph:Knoten: BasisclusterKante genau dann, wenn die Knoten eine Ähnlichkeit von 1 besitzen

• zusammengesetzter Cluster: Zusammenhangskomponente im Basiscluster-Graphen

enthält die Vereinigung all seiner Basiscluster

Page 40: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 40

7.3 Clustering der Antwortmengen von Suchmaschinen

Beispiel

Page 41: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 41

7.3 Intelligenter Web-Crawler

Motivation

Probleme der Web-Suchmaschinen• indizieren höchstens 30% aller Webseiten• Antworten sind oft veraltet• liefern oft zu viele (uninteressante) Antworten

schlechter Recall und schlechte Precision

Ansatz eines intelligenten (fokussierten) Crawlers• miteinander verlinkte Webdokumente besitzen häufig ähnliche Themen• arbeitet nicht mit einem relativ statischen Index• startet von vorgegebenen interessanten Webdokumenten, untersucht die jeweils durch Links erreichbaren Nachbardokumente

Page 42: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 42

7.3 Intelligenter Web-Crawler

Ablauf [Chakrabarti, Berg & Dom 1999]

• Manuelle Spezifikation der interessanten ThemenAngabe einer Menge von interessanten Webseiten (Trainingsseiten)

• Interaktives Lernen eines Klassifikatorsaus den Trainingsseitenum weitere Webseiten als „interessant“ / „uninteressant“ zu klassifizierenKlassifikator kann vom Benutzer korrigiert werden

• Automatischer CrawlStart bei den Trainingsdokumentenverfolgt die Links zu den Nachbardokumentengefundene Webseiten werden klassifiziert:„interessant“: Antwort und Ausgangspunkt für weitere Suche„uninteressant“: Ende der Suche

Page 43: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 43

7.3 Intelligenter Web-Crawler

Klassifikator

• Gegeben:

Taxonomie und Menge von Trainingsseiten

• Gesucht:

die Klassen der Taxonomie, in die die Trainingsseiten am besten passen.

• Merkierung einer Teilmenge dieser Klassen als „interessant“

durch den Benutzer

• Vorschlag von weiteren Webseiten aus der Nachbarschaft der Trainingsseiten

durch das System

• Lernen des endgültigen Klassifikators

von der endgültigen Menge von Trainingsseiten

Page 44: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 44

7.3 Intelligenter Web-Crawler

Klassifikator

Page 45: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 45

7.3 Intelligenter Web-Crawler

Distiller• Gegeben: die von einer „interessanten“ Webseite ausgehenden Links• Gesucht: Reihenfolge, in der diese Links verfolgt werden sollen• Beispiele

Seite mit viel Text ist sehr relevant, enthält aber keine Links „Sackgasse“Seite enthält evtl. wenig Text, aber viele gute Links „Hub“

• Methodewähle erst Webseiten mit hohem Page Rank bzw. hohem Authorative Rank und Hub Rank

Page 46: Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 46

7.3 Intelligenter Web-Crawler

Distiller

Zeit

PageAcquisition

Rate(Precision)