Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen...

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 1

7. Besondere Datentypen und Anwendungen

Inhalt dieses Kapitels

7.1 Temporal Data MiningProblemstellung, Sequential Patterns, Modifikation des Apriori-Algorithmus

7.2 Spatial Data Mining

Aufgaben und Probleme, typische Methoden, räumliche Charakterisierung und

Trenderkennung

7.3 Text- und Web-MiningAufgaben und Probleme, Clustering von Web-Dokumenten, Suchmaschine mitBerücksichtigung der Linkstruktur, intelligenter Crawler


7.1 Temporal Data Mining

Problemstellung

• Analyse von zeitbezogenen Daten

• Anwendungen

Finanzen: Aktienkurse, Inflationsraten, . . .

Medizin: Blutdruck, . . .

Meteorologie: Niederschläge, Temperaturen, . . .

• ausgezeichnetes Attribut:

Punkte oder Abschnitte in einem zeitlichen Bezugssystem

impliziert zeitliche Ordnung der Datensätze


7.1 Temporal Data Mining

Problemstellung

• zwei Arten von Methoden

Analyse zeitlicher Zusammenhänge innerhalb einzelner Abläufe

Analyse zeitlicher Zusammenhänge zwischen verschiedenen Abläufen

• Besonderheit des Temporal Data Mining

komplexe zeitliche Relationen zwischen Zeitpunkten und Zeitintervallen: „während“, „überschneidend“, „direkt aufeinanderfolgend“ . . .

neue Typen interessanter Regeln

zusätzliche Komplexität der Algorithmen


7.1 Zeitreihen -Analyse

Beispiel


7.1 Zeitreihen-Analyse

Komponenten von Zeitreihen [Fahrmeier et al.1999]

Trendkomponente

langfristige systematische Veränderung

Konjunkturkomponente

Verlauf von Konjunkturzyklen

Saisonalkomponente jahreszeitlich bedingte Schwankungen

Restkomponente Irreguläre Veränderungen, zufällig, relativ gering


7.1 Zeitreihen-Analyse

Methoden [Fahrmeier et al.1999]

Globale Regression• Auswahl eines Funktionstyps• Schätzung der unbekannten Parameter mit Hilfe der Methode der kleinsten Fehlerquadrate

globaler Trend häufig zu grob

Lokale Methoden• gleitender Durchschnitt (Moving Window)

Glättung• lokale Regression

Regressionsfunktion für Umgebung des jeweiligen Punkts


7.1 Sequential Patterns

Motivation

• nicht einzelne Transaktionen, sondern Mengen von zusammengehörigenund zeitlich geordneten Sequenzen von Transaktionen

• häufige Sequenz: viele Kunden, die zu einem Zeitpunkt Produkte A, B, C eingekauft haben, haben zu einem späteren Zeitpunkt auch die Produkte D, E und F gekauft

„5% aller Kunden haben zuerst das Buch Solaris, danach das Buch Transfer und dann Der Futurologische Kongreß gekauft.“

• AnwendungKunde hat schon Solaris gekauft, bestellt jetzt Transfer:

empfehle Der Futurologische Kongreß



Grundbegriffe [Srikant & Agrawal 1996]

• I = {i1, ..., im}: Menge von Literalen, genannt „Items“

• Sequenz s = <s1, ..., sn>:

geordnete Liste von Itemsets,si = (x1, ..., xm) lexikographisch geordnet für i = 1, ..., n

• <a1, ..., an> ist Untersequenz einer Sequenz <b1, ..., bm>:

jedes Element aus <a1, ..., an> Teilmenge eines Elementes aus <b1, ..., bm>

unter Beibehaltung der Reihenfolge • A = <a1, ..., an> zusammenhängende Untersequenz von B = <b1, ..., bm>:

A Untersequenz von Bdie Elemente von A sind in aufeinanderfolgenden Elementen von B enthalten



Grundbegriffe

• Beispiel: B = <(1 2), (3 4), (5), (6)> zusammenhängende Untersequenzen von B: <(2), (3 4), (5)>, <(1 2), (3), (5), (6)>, <(3), (5)>Untersequenzen von B, die nicht zusammenhängen: <(1 2), (3 4), (6)>, <(1), (5), (6)>

• Datenbank: Menge von Datensequenzen, d.h. zeitlich geordnete Liste von Transaktionen

• Transaktion T: Menge von Items, Sequenz-Id(T), Transaktions-Zeit(T) • Support einer Sequenz S in D: Anteil der Datensequenzen in D, die S unterstützen• Datensequenz DS unterstützt eine Sequenz S: S ist Untersequenz von DS



Support unter Berücksichtigung der exakten Zeitpunkte

• Bisher:

ein Element si = (x1, ..., xm) einer Sequenz muß von einer einzigen

Transaktion der Datensequenz unterstützt werden

• Jetzt:

mehrere aufeinanderfolgende Transaktionen zählen wie eine einzige,

wenn sie zeitlich nahe genug zusammen liegen

• Parameter window-size:

„Breite“ des Zeitfensters



Support unter Berücksichtigung der exakten Zeitpunkte• Zeit-Constraints

für den zeitlichen Abstand zwischen den Gruppen von Transaktionen,die ein Element einer Sequenz unterstützen

• z.B. beim Support der Sequenz <(Solaris), (Transfer)> Datensequenzen nichtberücksichtigen, wo zwischen Kauf von Solaris und Transfer drei Jahre liegen

• Parameter min-gap und max-gap



Algorithmus GSP („Generalized Sequential Patterns“)

• gleiche Struktur wie der Apriori-Algorithmus zum Finden von Frequent Itemsets• erster Durchlauf: Bestimmung des Supports für jedes einzelne Item Bildung der häufigen 1-Sequenzen aus einem Element mit einem einzigen Item• folgende Durchläufe: Bildung von Kandidatensequenzen mit k+1 Items aus den im vorhergehenden Durchlauf bestimmten häufigen Sequenzen mit k Items• Zählen des Supports der Kandidaten und Selektion nach gefundenem Support • Modifikationen des Apriori-Algorithmus:

Kandidatengenerierung, Zählen des Supports von Kandidaten und Berücksichtigung von Item-Taxonomien



Problemstellung

• Analyse von raumbezogenen Daten

• ausgezeichnetes Attribut:

Lage und Ausdehnung in einem 2- oder 3-dimensionalen Raum

Punkte, Linien, Polygone, Polyeder

• Anwendungen

Geographie: Topologische Karten, Thematische Karten, . . .

Biologie: Proteine, . .



Problemstellung

• Aufgaben

Analyse von einzelnen räumlichen Verteilungen bestimmter Attribute

Analyse von Abhängigkeiten zwischen räumlichen Verteilungen von Attributen• Anwendungen

Geo-Marketing

Verkehrssteuerung

Umweltschutz . . .• Besonderheit des Spatial Data Mining

Attribute von Nachbarn beeinflussen ein gegebenes Objekt

Einfluß hängt ab von räumlichen Nachbarschaftsbeziehungen


7.2 Spatial Data MiningBasisoperationen zum Spatial Data Mining

[Ester, Frommelt, Kriegel & Sander 2000]

Räumliche Nachbarschaftsbeziehungen• topologische Beziehungen • Distanzbeziehungen • Richtungsbeziehungen

C southeast A

rep(A)A

B

C

D north A

C south A

B east A,C east A

D

A disjoint B A overlap B A contains BB inside A

A distance=0 B A distance=c B A distancec B

B northeast A


7.2 Spatial Data MiningBasisoperationen zum Spatial Data Mining

• neighbor: Nachbarschaftsbeziehung

• DB Objects: Datenbank

• Nachbarschaftsgraph GDBneighbor: Graph (N,E) mit

N DB und

(n1,n2) E n1 neighbor n2

• Nachbarschaftspfad: Pfad in einem Nachbarschaftsgraphen

• Operationen auf Nachbarschaftsgraphen und -pfaden:

neighbors: Ngraphs x Objects 2Objects

extensions: Ngraphs x 2NPaths x Int 2NPaths


7.2 Clustering und Erklärung der ClusterÜberblick [Knorr & Ng 1996]

1. Clustering der Objekte beliebiger Clustering-Algorithmus

2. „Erklärung“ der Cluster durch die Nachbarschaft Klassifikationsproblem

Cluster1

Cluster2

Cluster3

High School

Primary School

College

xx xxx

x xx

xxxx

x xx

x

xx X teures Haus

Cluster teurer Häuser


7.2 Clustering und Erklärung der Cluster

Erklärung der Cluster

Bestimmung der Nachbarschaft jedes Clusters• Input: ein Cluster von Punkten

• Output: Liste der k nächstgelegenen Objekte

Bestimmung gemeinsamer Objekttypen in den Nachbarschaften• Input: n Listen von je k nächstgelegenen Objekten (je eine pro Cluster)

• Output: Objekttypen, die in allen oder in den meisten Nachbarschaften der

n Cluster auftreten



Bestimmung der Nachbarschaft eines Clusters

Distanzfunktionen• Distanz zwischen den Zentren

berücksichtigt nicht die Form und die Größe

• Distanz zwischen den Rändern

berücksichtigt nicht dieVerteilung der Punkte im Cluster

• gewichtete Summe der Distanzen der Punkte des Clusters zum Rand des Objekts

hoher Aufwand zur Berechnung dieser Distanzfunktion

xxx

x

xx

xx

x xxx

xx x

Park

School

Cluster

x

x x xx

xx

x

xx

x

x

xx

x

xx

x

x

x

xxGolfCourse

Sports-ground



Bestimmung gemeinsamer Objekttypen

Maße der Gemeinsamkeit• Objekttyp tritt in der Nachbarschaft von mindestens m (m n) Clustern auf • Summe der invertierten Ränge der Objekttypen in den Nachbarschaftslisten• Kombiniertes Maß

Problem• wenn m n: Menge der gemeinsamen Objekttypen evtl. leer• deshalb: Generalisierung der gemeinsamen Objekttypen• Beispiel einer Erklärung:

„teure Häuser haben meist eine Schule in ihrer Nachbarschaft“


7.2 Räumliche Charakterisierung und Trenderkennung

Überblick [Ester, Frommelt, Kriegel & Sander 1998]

Räumliche Charakterisierung• verwandt mit „Proximity Analysis“ (Erklärung der Cluster)• bisher: nur für Cluster jetzt: für beliebige räumliche Objekte• Charaktersierung nicht nur durch Objekttypen

sondern auch (nichträumliche) Attribute von Nachbarn

Räumliche Trenderkennung • Bezug zur Zeitreihen-Analyse• hier: Analyse „räumlicher Reihen“


7.2 Räumliche Charakterisierung

Grundbegriffe

• targets DB: Menge ausgezeichneter Objekte aus der Datenbank

• Eigenschaft: (Attribut, Wert) oder (“Typ”, konkreter Objekttyp)

• Häufigkeitsfaktor von prop in Bezug auf targets und DB:

f prop

frequency targetscardinality targets

frequency DBcardinality DB

prop prop

frequencyprop(DB) / card(DB) frequencyprop(targets) / card(targets) f(prop)

Wert

Attribut Wert

Attribut Wert

Attribut

signi-ficance



Grundbegriffe

• prop charakterisiert targets:

f(prop) significance

oder f(prop) 1/significance

• Bisher

nicht-räumliche Charaktersisierung

• Räumliche Charakterisierung

Berücksichtigung der Nachbarn der targets, die durch max-step Kanten

eines Nachbarschaftsgraphen GDBneighbor erreichbar sind



Grundbegriffe

• Aufgabe

finde alle Eigenschaften prop und ganze Zahlen s max-step mit

1) prop charakterisiert targets mit s Erweiterungen in GDBneighbor

2) prop charakterisiert mindestens proportion viele t targets mit s

Erweiterungen in GDBneighbor

Target Berg

t1



Beispiel

Gemeinde mit „Rentneranteil = hoch“ Wohnungen pro Gebäude = sehr niedrig (i = 0, f(prop) = 9.1)

Auslnderanteil = sehr niedrigi = 0, f(prop) = 8.9Akademikeranteil = mittel (i = 0, f(prop) = 6.3)

Objekttyp = Berg (i = 3, f(prop) = 4.1)

GIS Bayern

Target


7.2 Räumliche Trenderkennung

Grundbegriffe

• räumlicher Trend

regelmäßige Änderung von nicht-räumlichen Attributen

in der Nachbarschafts eines bestimmten Startobjekts

• Regressionsanalyse zum Bestimmen solcher Trends

unabhängiges Attribut: räumliche Distanz zum Startobjekt

abhängige Attribute: Differenzen der nicht-räumlichen Attributwerte..

. .....

Distanz

.

(a) positiver Trend

..

.. ..... ....

...Distanz Distanz

Differenz DifferenzDifferenz

(b) negativer Trend (c) kein Trend

. ....



Grundbegriffe

• Input

Nachbarschaftsgraph G, Objekt O, Menge von Attributen a,

ganze Zahlen min-length und max-length, relle Zahl min-conf

• Output

Menge aller Nachbarschaftspfade in G der spezifizierten Länge mit Startobjekt

O, die einen Trend in a besitzen mit einer Korrelation von mindestens min-conf

• Methoden

– Finden globaler räumlicher Trends

– Finden lokaler räumlicher Trends



Methoden

Finden globaler Trends Finden lokaler Trends

erzeuge alle Pfade derselben Länge erzeuge einen Pfad mit Länge max-length

Regressionsanalyse auf dieser Menge Regressionsanalyse auf diesem Pfad

Erweiterung aller Pfade Erzeugung des nächsten Pfadesum eine Kante mit Länge max-length

eine Menge von Pfaden zwei Mengen von Pfaden

mit einem signifikanten Trend (positive und negative Trends)



Beispiel

globaler Trend lokale Trends

fallende Attributwerte

GIS Bayern

a: Durchschnittsmiete, O: Regensburg


7.3 Text- und Web-MiningProblemstellung

• Analyse von Text- und Hypertext-Daten sowie ihrer Benutzung

• Anwendungen

elektronische Mails einer Firma

Newsgroup-Artikel

Webseiten aus dem Internet oder dem Intranet einer Firma

• Text- und Hypertext-DatenTextPräsentationInhaltHyper-Links


7.3 Text- und Web-MiningProblemstellung

• TextTransformation eines Dokuments D in Vektor r(D) = (h1, ..., hd)hi 0: die Häufigkeit des Terms ti in D Reduktion der Anzahl der Terme

Stop-Listen, Stemming, Entfernen besonders häufiger bzw. seltener Terme

• Präsentation (HTML)

<h1> Bibliography </h1><p> <i>Knowledge Discovery in Databases</i>, Ester, Sander <br> Springer-Verlag, 2000. </p>. . .


7.3 Text- und Web-Mining

Problemstellung• Inhalt (XML)

<bibliography> <book> <title> Knowledge Discovery in Databases </title><author> Ester </author> <author> Sander </author><publisher> Springer-Verlag </publisher><year> 2000 </year></book>. . .

</bibliography> • Hyper-Links


7.3 Text- und Web-Mining

Problemstellung

• Aufgaben

Analyse von Inhalt und Struktur von Hypertext-Dokumenten Analyse der Link-Struktur einer Menge von Hypertext-DokumentenAnalyse der Benutzung einer Menge von Hypertext-Dokumenten

• Besonderheit des Text- und Web-Mining

Diversität des Vokabulars, z.B. verschiedene Sprachen

Vagheit der Texte

Unterschiedliche Qualität der Texte

Link-Struktur


7.3 Clustering der Antwortmengen von Suchmaschinen

Motivation• Ergebnisse von Web-Suchmaschinen im allgemeinen in Form einer Liste• Probleme

Antwortlisten typischerweise sehr langviele Terme treten in ganz verschiedenen Kontexten aufsehr unübersichtliche Darstellung

z.B. „Cluster“: Datenanalyse, Rechnernetze, Astronomie, . . .

• ZielClustering der Antwortmengen nach KontextenBrowsen des Clustering statt der Antwortliste



Suffix-Tree-Clustering [Zamir & Etzioni 1998]

• Ähnlichkeit von Texten nicht Ähnlichkeitsmaß für Featurevektoren

sondern gemeinsames Vorkommen von Termen• Stärken des Suffix-Tree-Clustering (STC)

Effizienz: Laufzeit O(n) für n DokumenteInkrementalität: Dokumente müssen nicht alle anfangs vorhanden seinÜberlappung der ClusterClusterbeschreibung: einfach und leicht verständlich

• Ablauf des STC1. Datenvorbereitung2. Identifikation von Basisclustern 3. Kombination von Basisclustern



Suffix-Tree-Clustering

Datenvorbereitung• Entfernen von HTML-Tags, Zahlen und Satzzeichen • Stemming

Identifikation von Basisclustern • Basiscluster: Menge von Dokumenten, die eine Phrase gemeinsam haben

• Phrase: Mehrwort-Term

• Wichtigkeit eines Basisclusters: Produkt aus Anzahl der Dokumente im Cluster und Anzahl der Wörter in der beschreibenden Phrase

• Identifikation der Basiscluster durch Aufbau eines Suffix-Baums



Suffix-Baum

Suffix-Baum für eine Menge von Strings S:

Baum mit den Eigenschaften

• Jeder innere Knoten hat mindestens 2 Söhne.• Beschriftung der Kanten: nicht-leerer Teilstring eines Strings aus S

Beschriftung eines Knotens: Konkatenation aller Kanten auf dem Pfadvon der Wurzel zu diesem Knoten

• Die Beschriftungen aller von einem Knoten ausgehenden Kanten beginnen mit verschiedenen Wörtern.

• Für jedes Suffix s eines jeden Strings aus S existiert auch ein Knoten im Baum mit der Beschriftung s.



Beispiel

Einfügen von (1) „cat ate cheese“

Einfügen von (2) „mouse ate cheese too“

cat ate cheese cheese ate cheese

too too

mouse ate cheese too

too

1, 1 1, 2

2, 2

1, 3

2, 3

2, 1

2, 4

cat ate cheese cheese ate cheese

1, 1 1, 2 1, 3



Kombination von Basisclustern

• viele überlappende Basiscluster

• Basiscluster mit hoher Überlappung werden verschmolzen • Ähnlichkeitsmaß zwischen zwei Basisclustern A und B:

gleich 1, wenn sowohl |A B| / |A| > 0,5 als auch |A B| / |B| > 0,5sonst gleich 0

• Basiscluster-Graph:Knoten: BasisclusterKante genau dann, wenn die Knoten eine Ähnlichkeit von 1 besitzen

• zusammengesetzter Cluster: Zusammenhangskomponente im Basiscluster-Graphen

enthält die Vereinigung all seiner Basiscluster



Beispiel


7.3 Intelligenter Web-Crawler

Motivation

Probleme der Web-Suchmaschinen• indizieren höchstens 30% aller Webseiten• Antworten sind oft veraltet• liefern oft zu viele (uninteressante) Antworten

schlechter Recall und schlechte Precision

Ansatz eines intelligenten (fokussierten) Crawlers• miteinander verlinkte Webdokumente besitzen häufig ähnliche Themen• arbeitet nicht mit einem relativ statischen Index• startet von vorgegebenen interessanten Webdokumenten, untersucht die jeweils durch Links erreichbaren Nachbardokumente



Ablauf [Chakrabarti, Berg & Dom 1999]

• Manuelle Spezifikation der interessanten ThemenAngabe einer Menge von interessanten Webseiten (Trainingsseiten)

• Interaktives Lernen eines Klassifikatorsaus den Trainingsseitenum weitere Webseiten als „interessant“ / „uninteressant“ zu klassifizierenKlassifikator kann vom Benutzer korrigiert werden

• Automatischer CrawlStart bei den Trainingsdokumentenverfolgt die Links zu den Nachbardokumentengefundene Webseiten werden klassifiziert:„interessant“: Antwort und Ausgangspunkt für weitere Suche„uninteressant“: Ende der Suche



Klassifikator

• Gegeben:

Taxonomie und Menge von Trainingsseiten

• Gesucht:

die Klassen der Taxonomie, in die die Trainingsseiten am besten passen.

• Merkierung einer Teilmenge dieser Klassen als „interessant“

durch den Benutzer

• Vorschlag von weiteren Webseiten aus der Nachbarschaft der Trainingsseiten

durch das System

• Lernen des endgültigen Klassifikators

von der endgültigen Menge von Trainingsseiten



Klassifikator



Distiller• Gegeben: die von einer „interessanten“ Webseite ausgehenden Links• Gesucht: Reihenfolge, in der diese Links verfolgt werden sollen• Beispiele

Seite mit viel Text ist sehr relevant, enthält aber keine Links „Sackgasse“Seite enthält evtl. wenig Text, aber viele gute Links „Hub“

• Methodewähle erst Webseiten mit hohem Page Rank bzw. hohem Authorative Rank und Hub Rank



Distiller

Zeit

PageAcquisition

Rate(Precision)

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen...

Documents

Transcript of Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen...