Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des...

53
Clustering Methods Course: Gene Expression Data Analysis -Day FourRainer Spang

Transcript of Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des...

Page 1: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Clustering

Methods Course: Gene Expression Data Analysis

-Day Four–

Rainer Spang

Page 2: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Eine Krankheit

Drei alternative Therapien

Page 3: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Klinische Studie

Im Mittel

75% 55% 35%

Erfolg

Page 4: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Drei Subtypen der Krankheit

A B C

Page 5: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

A B C

100% 60% 65%

40% 40% 85%

10% 90% 5%

Page 6: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

A

B

C

100%

85%

90% 91,7%

Page 7: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Der Therapieerfolg ist angestiegen durch eine

verbesserte Diagnose

75%

91,7%

Ohne daß eine neue Therapie entwickelt

wurde

Fazit

Page 8: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Clustering

Ziel:

Gruppiere ähnliche Objekte in das gleiche Cluster und

unähnliche Objekte in unterschiedliche Cluster

Daten Clustering

Page 9: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Cluster von Genen

Finde koregulierte Gene

Funktionale Klassifikation von Genen

Fasse Variablen ähnlichen Informationsgehalts

zusammen

Dimensionsreduktion

Borrowing Information across Genes

Page 10: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Cluster von Arrays?

Suchen nach a priori unbekannten Gruppierungen der

Arrays

Pathologie

Beispiel:

Arrays = Genexpressiosnprofile von Patienten

Cluster = Potentielle Subentitäten einer Krankheit

Kein Clustering-Problem:

Rekonstruktion bekannter Gruppierungen der Arrays

Diagnostik

Page 11: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Leukämie

Chiaretti et al. (2004)

Gene expression profile

of adult T-cell acute

lymphocytic leukemia

identities distinct

subsets of patients with

different response to

therapy and survival.

Blood 103(7):2771-8

Page 12: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Analyse von Methoden vs. Analyse von

Daten

Hat man a priori gelabelte Daten, wie die B und T-ALL im Chiaretti

Datensatz so ist man in einer Situation überwachten Lernens, und sollte

die dafür vorhandenen Methoden einsetzen.

Nichtsdestotrotz kann man das Verhalten von Clusteringverfahren in

diesen Situationen analysieren

Finden sie die Struktur wieder?

Page 13: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Clustering - Die Zutaten

Zwei Dinge bestimmen das Ergebnis:

Distanzmaß:

Quantifizierung der (Un-)Ähnlichkeit der Objekte

Cluster-Algorithmus:

Verfahren, dass die Gruppierung basierend auf dem

gewählten Distanzmaß durchführt

Page 14: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Der euklidische Abstand

Expressionsprofile

x = (x1, …, xn),

y = (y1, …, yn)

n

i

iiE yxyxd1

2)(),(

Die “Luftlinie”

zwischen zwei

Punkten

Das Quadrat

macht den

Abstand sensibel

gegen Ausreißer

Page 15: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Die Manhattan-Distanz

.),(1

n

i

iiM yxyxd

Abstand, wenn nur parallel zu den

Koordinatenachsen gelaufen werden

darf

(wie in den Straßen von Manhattan)

Ausreißer fallen weniger ins Gewicht

Page 16: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Die Pearson-Korrelation

.)()(

))((

1),(

1

2

1

2

1

i

i

i

i

i

ii

C

yyxx

yyxx

yxd

Die Pearson Korrelation

beschreibt die lineare

Abhängigkeit zweier Profile

dc(x, y)= dc(ax+b, y), a > 0

Sie vergleicht den Verlauf

Page 17: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Beispiel: Clustering von Zeitreihen

steep up: x1=(2,4,5,6)

up: x2=(2/4,4/4,5/4,6/4)

down: x3=(6/4,4/4,3/4,2/4)

change: x4=(2.5,3.5,4.5,1)

Page 18: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

0 2.60 2.75 2.25

2.60 0 1.23 2.14

2.75 1.23 0 2.15

2.25 2.14 2.15 0

Matrix of pairwise distances

Euklidischer Abstand

Page 19: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Matrix of pairwise distances

Manhatten-Distanz

0 12.75 13.25 6.50

12.75 0 2.50 8.25

13.25 2.50 0 7.75

6.50 8.25 7.75 0

Page 20: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Matrix of pairwise distances

Korrelations-Abstand

0 0.82 1.18 1.18

0.82 0 2 2

1.18 2 0 0

1.18 2 0 0

Aus d(x,y)=0 folgt nicht x=y

Keine Metrik

Page 21: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Alle Distanzen wurden auf das Interval [0,10] normalisiert

und gerundet

Normalisierte Abstands-Skalen

0 0 0 7 5 4 7 6 5 8 4 5 change

7 5 4 0 0 0 4 1 10 10 10 10 down

7 6 5 4 1 10 0 0 0 9 9 0 up

8 4 5 10 10 10 9 9 0 0 0 0 steep up

change down up steep up

Euklid. Manh. Korr.

Page 22: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

ˆ

ˆ

xx

2

1 2 1 2( , ) 2 ( , )E Cd x x nd x x

Standardeinheiten

Transformiere die Daten auf

Standardeinheiten

Dann ergeben euklidische Distanz und

Korrelation proportionale Abstände

Page 23: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Cluster-Algorithmen

Die Algorithmen sind Verfahren, die die Daten in

Gruppen einteilen

Sie bauen dabei auf den Distanzmaßen auf

Wir diskutieren:

• Hierachichal Clustering

• K-Means-Clustering

• Partitioning around Medoids

Page 24: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Hierarchisches Clustern

Zu Anfang bildet jedes Profil ein

Cluster mit einem Element

Berechne alle Abstände zwischen

Profilen

Suche das Paar mit dem kleinsten

Abstand

Vereinige es zu einem neuen Cluster

Berechne die Abstände zwischen dem

neuen Cluster und allen anderen

Wiederhole bis nur noch 1 Cluster

übrig bleibt.

Page 25: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Abstand zwischen Clustern

Bisher hatten wir nur

Abstandsmasse auf einzelnen

Punkten diskutiert

Beim hierarchischen Clustering

werden aber auch Abstände von

Clustern zu Punkten benötigt

Wie werden diese definiert?

Page 26: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Linkage

Das Minimum der Abstände

(single linkage)

Der Mittelwert der Abstände

(average linkage)

Das Maximum der Abstände

(complete linkage)

Berechne die Distanzen von allen Profilen in Cluster 1 zu

allen Profilen in Cluster 2

Der Abstand der Cluster zu einander ist dann:

Page 27: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Dendrogramm

Wenn zwei Cluster zusammengelegt werden, werden sie im

Dendrogramm durch eine Klammer verbunden

Die Höhe der Klammer entspricht dem Abstand der Cluster

Page 28: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Dendrogramm

Das Dendrogramm wird oft

über eine Heatmap

geplotted

Dazu müssen die Profile

geordnet werden

Beachte: Das

Dendrogramm legt die

Ordnung nicht eindeutig

fest

Man kann an allen

Verzweigungen spiegeln

Hierarchie ist nicht gleich

Ordnung

Page 29: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Heatmap der Distanzen

Die Distanzen der Cluster sind im

Dendrogramm durch die Höhen der

Äste repräsentiert

Es gibt n(n-1)/2 Distanzen, aber nur

n-1 Asthöhen

Information geht verloren

Alternativ kann man die Distanzen

aller Profile in einer Heatmap

darstellen

Diese ist nur übersichtlich wenn die

Profile günstig geordnet sind

Dazu kann man wiederum das

Dendrogramm verwenden

Page 30: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Hierarchien von Clusterings

Der Algorithmus produzierte ein

Dendrogramm aber noch kein Clustering

Das Dendrogramm kann auf verschiedenen

Levels geschnitten werden

Jeder Schnitt definiert ein Clustering

Der orange Schnitt generiert die drei Cluster

(G1,G6,G5), (G2,G3), (G4)

Der blaue Schnitt generiert vier Cluster

(G1,G6),(G5), (G2,G3), (G4)

Es entsteht eine Hierarchie von Clusterings

Page 31: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Euklidischer Abstand

Page 32: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Manhattan-Distanz

Page 33: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Korrelations-Abstand

Page 34: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Akute Lymphoblastische Leukämie

bei Kinder

… aber das war kein Clustering-Problem, da die Subentitäten AML und

ALL schon a priori bekannt waren

Golub et al. Science 1999

Page 35: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

K-Means Clustering

Die Anzahl K der Cluster

muss gewählt werden

Suche H Punkte zufällig

aus, dies sind die ersten

Zentroide

Ordne jeden Punkt dem

nächst gelegenen

Zentroid zu

Page 36: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Iteration

Bestimme die Zentroide der

so entstandenen Cluster

und ordne die Punkte

wiederum dem

nächstgelegenen Zentroid

zu

Iteriere bis alle Punkte im

gleichen Cluster bleiben

x

x

x

x

x

x

Page 37: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

2

1 ( ) ( )

1( ) ( , )

2

K

E i j

k C i C j k

W C d x x

Optimales Clustering

Wir haben K-means Clustering als Algorithmus eingeführt

Man kann es auch als ein Optimierungproblem definieren:

Ordne die Profile den K-Clustern so zu, dass die folgende Funktion

optimiert wird:

Der Algorithmus ist eine Heuristik zur Minimerung dieser Funktion

Natürlich ist das Clustering nur optimal relativ zu dieser Objective

Function

Mann kann auch andere Objective Functions wählen und erhält

andere Clusterings

Page 38: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Partioning around Medoids PAM

Robustere Variante des K-Means Algorithmus durch eine

andere Objective Funktion

Die Cluster werden nicht durch Zentroide, sondern durch

prototypische Datenpunkte (Medoide) repräsentiert

Ziel ist es den Abstand zum nächsten Medoid über alle

Punkte gleichzeitig zu minimieren

Minimiert wird also die Objective Function

Page 39: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

PAM Algorithmus

Initialisierung: Suche zufällig K Prototypen (Medoide)

Iteriere bis zur Konvergenz

Swapping:

Für alle Paare (i,j) bei denen i ein Medoid und j kein Medoid

ist: Berechne den Unterschied in der Objective Funktion, der

entstünde wenn man j zum Medoid an Stelle von i machte

Führe das Swapping durch, wenn es günstig ist

Page 40: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Wie viele Cluster sind in den Daten?

Für jeden Datenpunkt können wir die Silhouette s(i) berechnen:

a(i) := Mittler Abstand von Punkt i zu allen Punkten im gleichen Cluster

b(i) := minC d(i,C),

wobei d(i,C) der mittlere Abstand von Punkt i zu allen Punkten in Cluster C ist.

Das Minimum wird über alle Cluster in denen Punkt i nicht liegt genommen – Bestes Konkurenzcluster -

s(i) nahe 1 : Profil ist im „richtigen“ Cluster

s(i) nahe -1: Profil ist im „falschen“ Cluster

s(i) nahe 0: Profil kann sich nicht entscheiden

Page 41: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Silhouette Plot

Page 42: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Silhouette Plot

Alle Profile in diesem

Cluster haben einen

hohen Silhouetten Score

In diesem Cluster gibt es

Profile mit kleinem

Silhouetten Score

Gibt es in Wirklichkeit drei Cluster in den Daten?

T-cell Leukemia

Chiaretti et al., 2004

Page 43: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Silhouette Plot

Nein! Die Aufteilung des

oberen Clusters in zwei

Cluster verschlechtert

den Silhouetten Plot

T-cell Leukemia

Chiaretti et al., 2004

Page 44: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Kein Clustering Problem

Sie wollen zu einem Referenzprofil die Profile suchen, die

ihm am ähnlichsten sind

Falscher Ansatz: Sie clustern alle Profile und schauen sich

die Profile an, die im selben Cluster wie ihr Referenzprofil

liegen

Was man bekommt Was man gerne hätte

Page 45: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Screening Problem

Sie wollen zu einem Referenzprofil die Profile suchen, die

ihm am ähnlichsten sind

Richtiger Ansatz: Sie berechnen die Abstände aller Profile

zum Referenzprofil und sehen sich die Profile mit kleinstem

Abstand an

Clustering Screening

Page 46: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Self Fulfilling Prophecy

Sie besitzen a priori label – 2 Gruppen von Profilen -

Wählen differentiell exprimierte Gene aus

Clustern die Daten nur unter Einschluss dieser Gene

Beobachten, dass die a priori Gruppen zusammen

clustern

Interpretieren dies als Bestätigung der a priori label

Die Gruppen clustern unter umständen nur wegen der

Genauswahl zusammen

Zufällige Daten hätten dies auch getan

Page 47: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Self Fulfilling Prophecy

Randomisierte Labels

Clustering mit

supervidierter

Genselektion

Ohne Genselektion

Page 48: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Nicht supervidierte Geneselektion

Der Microarray hält 30.000 Gene

Nicht alle diese Gene zeigen sinnvolle Clustering Struktur

Hybridisierungs-Artefakte produzieren oft kleine Veränderungen

in allen Genen

Normalisierung kann diese nicht immer eliminieren

In den Distanzmaßen summieren sie sich auf

Ansatz: Benutze nur stark variierende Gene zum Clustering

Page 49: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Clustering mit allen Genen

B- und T-cell ALL Chiaretti et al., 2004

Page 50: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Clustering mit den Top 100

variabelsten Genen

B- und T-cell ALL Chiaretti et al., 2004

Page 51: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Genselektion

Gene 2 Gene 4

Problem: Unterschiedliche Gene induzieren ein

unterschiedliches Clustering

Page 52: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Lymphome

Alizadeh et al Nature 2000

Gene und Profile von verschiedenen

Lymphomen und lymphoiden Zellinen

wurden geclustert

Globales Clustering:

Die bekannten Lymphom Entitäten bilden

Cluster aus

Genselktion:

Der orange Block von Genen

Clustert einen Teil der DLBCL Lymphome

mit Keimzentrumszellinien und einen

anderen Teil mit aktivierten B-Zellen

Page 53: Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Acknowledgement

Für diese Vorlesung habe ich Folien, Graphiken und

Ideen ausgeliehen bei:

Jörg Rahnenführer

Tobias Müller

Anja v. Heydebreck