Kapitel 4: Data Mining SYSTEMS...

16
DATABASE SYSTEMS GROUP Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019 Überblick Kapitel 4: Data Mining 1 4.1 Einleitung 4.2 Clustering 4.3 Klassifikation

Transcript of Kapitel 4: Data Mining SYSTEMS...

Page 1: Kapitel 4: Data Mining SYSTEMS Überblickdmm.dbs.ifi.lmu.de/content/lehre/SS19/infonf/skript/InfoNF_04_Teil02.pdf · Kapitel 4: Data Mining 11 Grundlagen • Idee –Cluster als Gebiete

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Überblick

Kapitel 4: Data Mining

1

4.1 Einleitung

4.2 Clustering

4.3 Klassifikation

Page 2: Kapitel 4: Data Mining SYSTEMS Überblickdmm.dbs.ifi.lmu.de/content/lehre/SS19/infonf/skript/InfoNF_04_Teil02.pdf · Kapitel 4: Data Mining 11 Grundlagen • Idee –Cluster als Gebiete

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Ziel des Clustering

Kapitel 4: Data Mining

Ziel: Identifikation einer endlichen Menge von Kategorien, Klassen oder Gruppen (Cluster) in den Daten

• Objekte im gleichen Cluster sollen möglichst ähnlich sein

• Objekte aus verschiedenen Clustern sollen möglichst unähnlich zueinander sein

Herausforderungen:

• Cluster unterschiedlicher Größe, Form und Dichte

• hierarchische Cluster

• Rauschen (Noise)

=> unterschiedliche Clustering-Algorithmen

2

Page 3: Kapitel 4: Data Mining SYSTEMS Überblickdmm.dbs.ifi.lmu.de/content/lehre/SS19/infonf/skript/InfoNF_04_Teil02.pdf · Kapitel 4: Data Mining 11 Grundlagen • Idee –Cluster als Gebiete

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Typen von Clustering-Verfahren

•Partitionierende Verfahren– Parameter: Anzahl k der Cluster, Distanzfunktion

– sucht ein „flaches“ Clustering in k Cluster mit minimalen Kosten

•Dichtebasierte Verfahren– Parameter: minimale Dichte in einem Cluster, Distanzfunktion

– erweitert Punkte um ihre Nachbarn solange Dichte groß genug

Kapitel 4: Data Mining

3

Page 4: Kapitel 4: Data Mining SYSTEMS Überblickdmm.dbs.ifi.lmu.de/content/lehre/SS19/infonf/skript/InfoNF_04_Teil02.pdf · Kapitel 4: Data Mining 11 Grundlagen • Idee –Cluster als Gebiete

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Partitionierende Verfahren

Grundlagen

• Ziel

– Partitionierung in k Cluster so dass eine Kostenfunktion minimiert wird(Gütekriterium)

• Lokal optimierendes Verfahren

– wähle k initiale Cluster-Repräsentanten

– optimiere diese Repräsentanten iterativ

– ordne jedes Objekt seinem ähnlichsten Repräsentanten zu

• Typen von Cluster-Repräsentanten

– Mittelwert des Clusters (Centroid)

– Element des Clusters (Medoid)

– Wahrscheinlichkeitsverteilung des Clusters (Erwartungsmaximierung)

Kapitel 4: Data Mining

4

Page 5: Kapitel 4: Data Mining SYSTEMS Überblickdmm.dbs.ifi.lmu.de/content/lehre/SS19/infonf/skript/InfoNF_04_Teil02.pdf · Kapitel 4: Data Mining 11 Grundlagen • Idee –Cluster als Gebiete

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Partitionierende Verfahren

Kapitel 4: Data Mining

1

1

5

5

x Centroide

x

x

x

1

1

5

5

x Centroidex

x

x

1

1

5

5

1

1

5

5

Beispiel

Cluster Cluster-Repräsentanten

schlechtes Clustering

optimales Clustering

5

Page 6: Kapitel 4: Data Mining SYSTEMS Überblickdmm.dbs.ifi.lmu.de/content/lehre/SS19/infonf/skript/InfoNF_04_Teil02.pdf · Kapitel 4: Data Mining 11 Grundlagen • Idee –Cluster als Gebiete

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Partitionierende Verfahren: k-means

Kapitel 4: Data Mining

Grundbegriffe

• Objekte sind Punkte p=(p1, ..., pd) in einem euklidischen Vektorraum

• euklidische Distanz

• Centroid mC: Mittelwert aller Punkte im Cluster C

• Maß für die Kosten (Kompaktheit) eines Clusters C

• Maß für die Kosten (Kompaktheit) eines Clustering

TD C dist p C

p C

2 2( ) ( , )

m

TD TD Ci

i

k

2 2

1

( )

6

Page 7: Kapitel 4: Data Mining SYSTEMS Überblickdmm.dbs.ifi.lmu.de/content/lehre/SS19/infonf/skript/InfoNF_04_Teil02.pdf · Kapitel 4: Data Mining 11 Grundlagen • Idee –Cluster als Gebiete

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Partitionierende Verfahren: k-means

Kapitel 4: Data Mining

Idee des Algorithmus

• Algorithmus startet z.B. mit zufällig gewählten Punkten als Cluster-Repräsentanten

• Der Algorithmus besteht aus zwei alternierenden Schritten:

– Zuordnung jedes Datenpunktes zum räumlich nächsten Repräsentanten

– Neuberechnung der Repräsentanten (Centroid der zugeordneten Punkte)

• Diese Schritte werden so lange wiederholt, bis sich keine Änderung mehr ergibt

7

Page 8: Kapitel 4: Data Mining SYSTEMS Überblickdmm.dbs.ifi.lmu.de/content/lehre/SS19/infonf/skript/InfoNF_04_Teil02.pdf · Kapitel 4: Data Mining 11 Grundlagen • Idee –Cluster als Gebiete

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Partitionierende Verfahren: k-means

Kapitel 4: Data Mining

Algorithmus

ClusteringDurchVarianzMinimierung(Punktmenge D, Integer k)

Erzeuge eine „initiale“ Zerlegung der Punktmenge D in k Klassen;

Berechne die Menge C’={C1, ..., Ck} der Zentroide für die k Klassen;

C = {};

repeat

C = C’;

Bilde k Klassen durch Zuordnung jedes Punktes zum

nächstliegenden Zentroid aus C;

Berechne die Menge C’={C’1, ..., C’k} der Zentroide für die neu

bestimmten Klassen;

until C = C’;

return C;

8

Page 9: Kapitel 4: Data Mining SYSTEMS Überblickdmm.dbs.ifi.lmu.de/content/lehre/SS19/infonf/skript/InfoNF_04_Teil02.pdf · Kapitel 4: Data Mining 11 Grundlagen • Idee –Cluster als Gebiete

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Partitionierende Verfahren: k-means

Kapitel 4: Data Mining

Beispiel

0

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 10

0

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 10

Berechnung der

neuen Zentroide

0

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 10

Zuordnung zum nächsten Zentroid

0

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 10

Berechnung der

neuen Zentroide

9

Page 10: Kapitel 4: Data Mining SYSTEMS Überblickdmm.dbs.ifi.lmu.de/content/lehre/SS19/infonf/skript/InfoNF_04_Teil02.pdf · Kapitel 4: Data Mining 11 Grundlagen • Idee –Cluster als Gebiete

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Partitionierende Verfahren: k-means

Kapitel 4: Data Mining

10

Diskussion

+ Effizienz:

• Anzahl der Iterationen ist im allgemeinen klein (~ 5 - 10).

+ einfache Implementierung:

• k-means ist das populärste partitionierende Clustering-Verfahren

- Anfälligkeit gegenüber Rauschen und Ausreißern

(alle Objekte gehen ein in die Berechnung des Zentroids)

- Cluster müssen konvexe Form haben

- die Anzahl k der Cluster muss bekannt sein

- starke Abhängigkeit von der initialen Zerlegung

(sowohl Ergebnis als auch Laufzeit)

Page 11: Kapitel 4: Data Mining SYSTEMS Überblickdmm.dbs.ifi.lmu.de/content/lehre/SS19/infonf/skript/InfoNF_04_Teil02.pdf · Kapitel 4: Data Mining 11 Grundlagen • Idee –Cluster als Gebiete

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Dichtebasiertes Clustering

Kapitel 4: Data Mining

11

Grundlagen

• Idee

– Cluster als Gebiete im d-dimensionalen Raum, in denen die Objekte dicht beieinander liegen

– getrennt durch Gebiete, in denen die Objekte weniger dicht liegen

• Anforderungen an dichtebasierte Cluster

– für jedes Objekt eines Clusters überschreitet die lokale Punktdichte einen gegebenen Grenzwert

– die Menge von Objekten, die den Cluster ausmacht, ist räumlich zusammenhängend

Page 12: Kapitel 4: Data Mining SYSTEMS Überblickdmm.dbs.ifi.lmu.de/content/lehre/SS19/infonf/skript/InfoNF_04_Teil02.pdf · Kapitel 4: Data Mining 11 Grundlagen • Idee –Cluster als Gebiete

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Dichtebasiertes Clustering

Kapitel 4: Data Mining

12

Grundlagen

minPts = 4

Parameter:

• R

• minPts N

• Distanzfunktion dist

• -Umgebung eines Punktes p: N(p) = {q | dist(p,q) }

Page 13: Kapitel 4: Data Mining SYSTEMS Überblickdmm.dbs.ifi.lmu.de/content/lehre/SS19/infonf/skript/InfoNF_04_Teil02.pdf · Kapitel 4: Data Mining 11 Grundlagen • Idee –Cluster als Gebiete

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Dichtebasiertes Clustering

Kapitel 4: Data Mining

13

Grundlagen

minPts = 4

Parameter:

• R

• minPts N

• Distanzfunktion

• -Umgebung eines Punktes p: N(p) = {q | dist(p,q) }

• Kernpunkt p: |N(p)| minPts

• Randpunkt / Rauschen ???

• Dichte-Verbundenheit: sammle rekursiv

alle Punkte, die in der -Umgebung eines

Kernpunktes liegen auf

Page 14: Kapitel 4: Data Mining SYSTEMS Überblickdmm.dbs.ifi.lmu.de/content/lehre/SS19/infonf/skript/InfoNF_04_Teil02.pdf · Kapitel 4: Data Mining 11 Grundlagen • Idee –Cluster als Gebiete

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Dichtebasiertes Clustering

Kapitel 4: Data Mining

14

Grundlagen

minPts = 4

Parameter:

• R

• minPts N

• Distanzfunktion

• -Umgebung eines Punktes p: N(p) = {q | dist(p,q) }

• Kernpunkt p: |N(p)| minPts

• Randpunkt / Rauschen ???

• Dichte-Verbundenheit: sammle rekursiv

alle Punkte, die in der -Umgebung eines

Kernpunktes liegen auf

Page 15: Kapitel 4: Data Mining SYSTEMS Überblickdmm.dbs.ifi.lmu.de/content/lehre/SS19/infonf/skript/InfoNF_04_Teil02.pdf · Kapitel 4: Data Mining 11 Grundlagen • Idee –Cluster als Gebiete

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Dichtebasiertes Clustering

Algorithmus DBSCAN

• Entdecken eines Clusters:

− Finde einen beliebigen Kernpunkt des Clusters

− Expandiere das Cluster, d.h. finde alle dichteverbundenen Punkte, indem rekursiv alle Punkte, die in der -Umgebung eines Kernpunkts liegen, aufgesammelt werden

• Algorithmus:

− Prüfe jeden noch nicht markierten Punkt ob es ein Kernpunkt ist

− Wenn ja, expandiere einen neuen Cluster (alle Punkte des Clusters werden mit der entspr. Cluster-ID markiert)

− Wenn nein, markiere Punkt als Rauschen (Randpunkte werden bei der Expansion des entspr. Clusters später richtig markiert)

Kapitel 4: Data Mining

15

Page 16: Kapitel 4: Data Mining SYSTEMS Überblickdmm.dbs.ifi.lmu.de/content/lehre/SS19/infonf/skript/InfoNF_04_Teil02.pdf · Kapitel 4: Data Mining 11 Grundlagen • Idee –Cluster als Gebiete

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Dichtebasiertes Clustering

Kapitel 4: Data Mining

16

Diskussion

+ Effizienz:

• -Umgebungen i.d.R. effizient auswertbar

+ einfache Implementierung:

+ keine Anfälligkeit gegenüber Rauschen und Ausreißern

+ Cluster unterschiedlicher Form erkennbar

+ Anzahl der Cluster wird automatisch bestimmt

- Parameter (Dichtegrenzwert) nicht immer einfach zu bestimmen

(Cluster unterschiedlicher Dichte)