Clustering - ifis.uni-luebeck.de · Einführung in Web-und Data-Science Clustering Prof. Dr. Ralf...

Einführung in Web- und Data-ScienceClustering

Prof. Dr. Ralf MöllerUniversität zu Lübeck

Institut für Informationssysteme

Tanya Braun (Übungen)

Danksagung

• Zur Vorbereitung dieser Präsentationen wurdenMaterialien verwendet von – Eamonn Keogh (University of California – Riverside) und– Sascha Szott (HPI Potsdam)

Clustering

• Form des unüberwachten Lernens• Suche nach natürlichen Gruppierungen von Objekten

– Klassen direkt aus Daten bestimmen• Hohe Intra-Klassen-Ähnlichkeit• Kleine Inter-Klassen-Ähnlichkeit

– Ggs.: Klassifikation

• Distanzmaße

Einflüsse des Distanzmaßes auf Clusterbildung

Abhilfe: Gewichtung, z. B. durch Normalisierung

Hierarchisches Clustering

• Kostenfunktion– Substitution 1– Einfügung 1– Lösung 1

• Dist(Peter, Piotr) = 3

Pioter

Einfügung (o)

Lösung(e)

Substitution (i for e)

Dendrogramm

0 1 2 3 4 5

Partitionierung:K-meansClustering(1)

0 1 2 3 4 5

K-meansClustering(2)

0 1 2 3 4 5

K-meansClustering(3)Algorithm: k-means, Distance Metric: Euclidean Distance

0 1 2 3 4 5

K-Means

K-Means-Ergebnis hängt vom Startwert ab

Diskussion

• Meist relativ wenige Schritte notwendig– Findet aber ggf. nur lokales Optimum

• Nur anwendbar, wenn Mittel definiert– Erweiterungen für kategoriale Daten existieren

• Basiert auf vorgegebener Clusteranzahl k• Cluster haben meist gleiche Größe• Probleme bei nichtkonvexen Formen

– Varianten von K-Means (z.B. K-Medoid)

14Trend Wunsch

Anpassung von Gauß-Funktionen

Anpassung über Expectation-Minimization

cici ci ci ci

Ci' Ci'

N(xk, 𝜇, 𝜎2)

Initialisierung

• Weise Parametern zufällige Werte zu

E-Schritt

• Nehme an, Parameter sind bekannt• Weise Daten zu

M-Schritt

• Passe Parameter über zugeordnete Punktmenge an

Iteration 1

Die Cluster-Mittelwertewerdenzufälliggewählt

Iteration 2

Iteration 5

Iteration 25

Diskussion EM

• Bestimmung einer Mixtur von multivariaten Gauss-Kurven(Gaussian mixture)– K-Means ist spezielle Form des EM-Verfahrens

• Wahrscheinlichkeitsbasierte Zuordnung zu Clustern anstelleeiner deterministischen Zuordnung– Cluster können verschiedene Größen haben (Varianz)

26Wikipedia

Inkrementelle Clusterbildung

• Nächste-Nachbarn-Clusterbildung– Nicht verwechseln mit Nächsten-Nachbarn-Klassifikation

• Neue Datenpunkte inkrementell in bestehende Cluster integriert, so dass Distanz minimiert

• Schwellwert t, um zu bestimmen, ob neues Cluster aufgemacht werden soll

1 2 3 4 5 6 7 8 9 10

Schwellwert t

1 2 3 4 5 6 7 8 9 10

Neuer Datenpunkt …

… ist im Schwellwertbereich des Cluster 1, also fügen wir ihn hin und aktualisieren den Clustermittelpunkt

1 2 3 4 5 6 7 8 9 10

Neuer Datenpunkt …

… ist nicht im Schwerwertbereich von Cluste 1, also erzeugen wir ein neues Cluster, und so weiter ...

Ergebnis des Verfahrens istklar von der Reichenfolgeabhängig…

Es ist nicht einfach, den Schwellwert t zu bestimmen …

Was ist die richtige Anzahl von Clustern?

• Offenes Problem• Viele Approximierungs-

methoden

1 2 3 4 5 6 7 8 9 10

123456789

1 2 3 4 5 6 7 8 9 10

k = 1: Zielfunktion liefert 873.0

1 2 3 4 5 6 7 8 9 10

0.00E+00

1.00E+02

2.00E+02

3.00E+02

4.00E+02

5.00E+02

6.00E+02

7.00E+02

8.00E+02

9.00E+02

1.00E+03

1 2 3 4 5 6k

Dichtebasierendes partitionierendes Clustering

• DBSCAN-Verfahren (Density Based Spatial Clustering of Applications with Noise)

• Motivation: Punktdichte innerhalb eines Clusters hoher als außerhalb des Clusters

• Resultierende Cluster konnen beliebige Form haben– Bei distanzbasierten Methoden ausschließlich konvexe

Cluster

• Clusteranzahl k muss nicht initial vorgegeben werden

DBSCAN – Definitionen

DBSCAN – Lemma 1

DBSCAN – Lemma 2

DBSCAN

ExpandCluster

Clustering - ifis.uni-luebeck.de · Einführung in Web-und Data-Science Clustering Prof. Dr. Ralf...

Documents

Transcript of Clustering - ifis.uni-luebeck.de · Einführung in Web-und Data-Science Clustering Prof. Dr. Ralf...

Clustering - About us ... | E-Commercedieter/teaching/dm08-clustering.pdf · Clustering 188.646, Data Mining, 2 VO Sommersemester 2008 Dieter Merkl e-Commerce Arbeitsgruppe Institut

9. Classification, Clustering, and Learning to Rank€¦ · IR & WS, Lecture 9: Classification, Clustering, and Learning to Rank 20.4.2020. LSI reduction –example This leaves us

Clustering - Gruppieren von Datenpunkten

Hackholzerzeugung in Energieweideplantagen Holland Alma GmbH H-4375, Piricse, Rózsa Tanya .

The Art of Clustering - German Edition

Kapitel 12: Clustering - dbs.ifi.lmu.deKapitel 12: Clustering. 2 Motivation Phone Company Astronomy Credit Card Retail • Big data sets are collected in databases • Manual analysis

Clustering in Sensornetzwerken - ITI Algorithmik I · Seminar Algorithmen fur Sensornetzwerke Clustering in Sensornetzwerken Marcus Krug Universit at Karlsruhe (TH) Fakult at fur

2. Clustering - uni-muenchen.de · 28 2.1 Einleitung Ziel des Clustering • Identifikation einer endlichen Menge von Kategorien, Klassen oder Gruppen (Cluster) in den Daten• Objekte

Semantic Clustering: exploiting Linguistic Informationscg.unibe.ch/archive/masters/Kuhn06a.pdf · 1.1 Semantic Clustering This work introduces Semantic Clustering, a novel technique

Clustering - stat.ethz.ch · Seminar für Statistik | | Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von

Kapitel 5: Clustering - uni-muenchen.de€¦ · 178 5.1 Einleitung Ziel des Clustering • Identifikation einer endlichen Menge von Kategorien, Klassen oder Gruppen (Cluster) in den

3. Clustering - uni-kassel.de€¦ · 3.6 Inkrementelles dichte-basiertes Clustering Data Mining in einem Data Warehouse • Updates werden gesammelt und periodisch im Data Warehouse

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 62 3. Clustering Inhalt dieses Kapitels 3.1 Einleitung Ziel des Clustering, Distanzfunktionen,

Text-Mining: Clustering - Philosophische Fakultät · Clustering im TM Flaches Clustering Hierarchisches Clustering Erweiterungen, LabelingLiteratur Cluster-Hypothese \Documents in

Statistical Regeneration and Scalable Clustering of Big Data … › bitstream › ubsi › 1062 › 1 › ... · 2019-09-02 · Statistical Regeneration and Scalable Clustering of

Clustering von Infra- strukturerneuerung und -instandhaltung · 2017-06-22 · IHRUS-Fachtagung, Luzern Clustering von Infra-strukturerneuerung und -instandhaltung. Einleitung. Streckennetz

Clustering (hierarchische Algorithmen) · Clustering Allgemein Definition: Beim Clustering geht es darum, eine chaotische verteilte Menge zu gruppieren Entstehende Gruppen werden

Kumpulan Tanya Jawab Program-Program Penanggulangan Kemiskinan

Clustering mit MySQL 5 - fsmni.thm.defsmni.thm.de/mediawiki/images/2/21/Seminar_MySQL-Cluster_final... · Seminar MySQL Cluster 09.03.2007 1 Einleitung - warum Clustering? Kein Rechner

Inkrementelles hierarchisches Clustering · Institut f”ur Informatik Lehr- und Forschungseinheit f”ur Datenbanksysteme Diplomarbeit Inkrementelles hierarchisches Clustering Elke