(Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf ·...

47
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Kapitel 4 (Forts.) Genexpression Genexpressionsexperimente Verfahren Anwendungsgebiete Systematische Probleme, Normalisierung Analyse von Genexpressionsdaten Differentielle Expression Clustering zur Ko-Expression Datenmanagment Übersicht zu bestehenden Genexpressions-DBs Datenarten, Datenmodelle

Transcript of (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf ·...

Page 1: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Kapitel 4 (Forts.) Genexpression

• Genexpressionsexperimente– Verfahren– Anwendungsgebiete– Systematische Probleme, Normalisierung

• Analyse von Genexpressionsdaten– Differentielle Expression– Clustering zur Ko-Expression

• Datenmanagment– Übersicht zu bestehenden Genexpressions-DBs– Datenarten, Datenmodelle

Page 2: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

(C) Prof. E. Rahm, Dr. R. Müller 68

Genexpression■ Was ist Genexpression?

− Aktivierung der Gentranskription durch endogene, exogene Einflüsse

− Ausbildung der einem Gen inhärenten Eigenschaften

■ Ziele der Genexpressionsanalyse− Charakterisierung der Funktion von Genen, deren Interde-

pendenzen, Interaktionen und Einfluss in verschiedenen Netzwerken (metabolische N., regulatorische N. etc.)

■ Messung der Genexpression■ Ziele:

− Messung der RNA Konzentration in Zellen unter verschiede-nen Bedingungen (gesundes vs. krankes Gewebe)

− Suche nach Genen mit gleicher Expression (Koexpression) bzw. differenzieller Expression

■ Techniken: Northern Blotting, SAGE, Microarray ...

Page 3: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

(C) Prof. E. Rahm, Dr. R. Müller 69

Microarrays■ cDNA Arrays, Oligo Arrays

− Chiptechnologie (Wafer)− ’single stranded’ Sequenzen− Unterscheidung nach Sequenzart, Sequenzlänge

■ Hersteller: Affymetrix, Agilent, Rosetta Inpharmics etc.

■ einfarbige vs. zweifarbige Arrays

Verteilung von Untersuchungsgewebe + Kontrolle auf einem oder mehreren Chips

Page 4: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

(C) Prof. E. Rahm, Dr. R. Müller 70

Affymetrix GeneChip Technologie■ verschiedene Chiptypen

− Abbildung unterschiedlicher Spezies, Transkriptteile

■ Terminologie

■ Hybridisierungsprozess (stark vereinfacht)

A C T A T CG1 25

T A G T CG G CA T A C GTG C T A

A C T A T CG1 25

T A G A CG G CA T A C GTG C T A

PM

MM

komplementäre Mittelbaseprobe probe pairprobe set

„Roh“-Chip Bindungsprozess „hybridisierter“ Chip

Bildquelle: Affymetrix, http://www.affymetrix.com

Page 5: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

(C) Prof. E. Rahm, Dr. R. Müller 71

Expressionsexperiment und -analyse

■ Analyse ist abhängig vom verfolgten Ziel bzw. der Fragestellung

sample

(5) Image Analysis

(4) Array Scan

(1) Cell Selection

(2) RNA/DNA Preparation

(3) Hybridization chip

array spot intensities

array image

labeling(6) Preprocessing

spot intensities forexperiment series

gene expression matrix

(7) Expression Analysis/Data mining

mRNA

xy

x

y

Page 6: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Zweifarbaufnahmen

Page 7: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Ergebnis

Page 8: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Anwendungsgebiete

Page 9: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Diagnostik

Page 10: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Systematische Probleme

Page 11: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Systematische Probleme 2

Page 12: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Normalisierung

Page 13: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Normalisierung

Page 14: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Vergleich Genexpression - Sequenzierung

Page 15: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Analyse von Genexpressionsdaten

• Differentielle Expression• Rohdaten

– Expressionsintensitäten einzelner Gene– Experimentreihen: Sample 1(Kontrolle), Sample 2 (Krank)

Page 16: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Differentielle Exprimierung

Page 17: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Simple Fold

Page 18: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Probleme des Simple Fold• Vergleicht nur die Mittelwerte

• Unabhängig von absoluten Größen und Fehlerraten

• Unabhängig von Streuung

Page 19: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Statistischer Test: t-Test

Page 20: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Anwendung des t-Tests

Page 21: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Beispiel

Page 22: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Differentielle Exprimierung

Page 23: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Ko-Regulation• Bisher: Erkennen des auffälligen Verhaltens eines Gens• Jetzt: Erkennen, welche Gene gemeinsam auf einen Stimulus reag.

– Pearson’s Korrelations Koeffizient ( )( )

( ) ( )∑∑

==

=

−−

−−=

n

iyyi

n

ixxi

yyi

n

ixxi

ssss

ssssr

1

2

1

2

1

Page 24: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Hierarchische Clusterverfahren

•Ziel– Konstruktion einer Hierarchie von Clustern (Dendrogramm), so daß immer

die Cluster mit minimaler Distanz verschmolzen werden

•Dendrogramm– ein Baum, dessen Knoten jeweils ein Cluster repräsentieren, mit folgenden– Eigenschaften:

• die Wurzel repräsentiert alle Gene

• die Blätter repräsentieren einzelne Gene

• ein innerer Knoten repräsentiert die Vereinigung aller Gene, die im darunterliegenden Teilbaum repräsentiert werden

Page 25: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Hierarchische Clusterverfahren

•Beispiel eines Dendrogramms

•Typen von hierarchischen Verfahren• Bottom-Up Konstruktion des Dendrogramms (agglomerative)• Top-Down Konstruktion des Dendrogramms (divisive)

1

1

5

5

132 4

65

78 9

1 2 3 4 5 6 7 8 90

1

2

Distanz zwischenden Clustern

Page 26: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Hierarchische Clusterverfahren

Agglomeratives hierarchisches Clustering (bottom up)

1. Bilde initiale Cluster, die jeweils aus einem Gen bestehen,und bestimme die Distanzen zwischen allen Paaren dieser Cluster.

2. Bilde einen neuen Cluster aus den zwei Clustern,welche die geringste Distanz zueinander haben.

3. Bestimme die Distanz zwischen dem neuen Cluster und allen anderenClustern.

4. Wenn alle Gene sich in einem einzigen Cluster befinden:Fertig, andernfalls wiederhole ab Schritt 2.

Page 27: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Hierarchische Clusterverfahren

•Generische Distanzfunktionen für Cluster• Sei eine Distanzfunktion dist(x,y) für Paare von Genen

• Seien X, Y Cluster, d.h. Mengen von Objekten.

• Centroid-Link

• Single-Link

• Complete-Link

• Average-Link

),(min),Dist(singleLink,

yxdistYXYyXx ∈∈

=

),dist(max),nkDist(completeLi,

yxYXYyXx ∈∈

=

∑∈∈

⋅⋅

=YyXx

yxdistYX

YX,

),(||||

1),kDist(averageLin

∑∑∈∈

===YyXx

yY

yxX

xyxYX 1 ,1 ),,dist(),nkDist(centroidLi

Page 28: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Reale Daten

Page 29: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Komplexität und Bewertung

Page 30: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

• Idee– Model für K überlappende Clusters, Zuordnung der Gene durch

member-scores– Ein Gen kann in mehreren Clustern Mitglied sein

• Minimiere Zielfunktion:– Xi … Expressionsmuster des i-ten Gens– Vj … Repräsentant von Cluster j– dXiVj … Pearson Korrelation (zw. -1 und 1)– mXiVj … Membership-Score von Xi in Cluster j

Fuzzy k-Means [GE02]

Page 31: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Fuzzy k Means• Heuristik um einen guten Wert für k zu bestimmen• Drei Zyklen

1. Init. Zentroide auf Eigenvektoren, bestimme Membership und verschiebe Zentroide zum gewichteten Durchschnitt bis dasVerfahren konvergiert

2. Fasse ähnliche Zentroide zusammen (Pearson corr. >0.9), entferneGene mit Pearson Korr. >0.7, füge neue Zentroide hinzu

3. Wiederhole Schritt 2

• Abschluß: bestimme Mitgliedschaft der Gene zu den gefundenen Clustern

Page 32: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Fuzzy k Means Beispiel

Page 33: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Zusammenfassung

• Datenanalyse– Differentielle Expression: Signifikanz von Änderungen

• Simple Fold• T-Test

– Ko-Regulation von Genen: Gemeinsame Aufgaben• Hierarchisches Clustering• K-Means• Bi-Clustering ...

• Viele Methoden und Implementierungen (Exel, R, ...)

Page 34: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

(C) Prof. E. Rahm, Dr. R. Müller 72

Beispiele bestehender GE-DatenbankenName Organisation / Institut DBMS

ArrayDB National Human Genome Research Institute (NHGRI), USAhttp://genome.nggri.nih.gov/arraydb

RDBMSSybase

ExpressDB Havard University, USAhttp://arep.med.havard.edu/ExpressDB

RDBMSSybase

GeneX National Centre for Genome Resources (NCGR), USAhttp://genebox.ncgr.org/genex

RDBMSSybase

GIMS University of Manchester, GBhttp://www.cs.man.ac.uk/~norm/gims

ODBMSPoet

M-CHIPS German Cancer Research Centre, Germanyhttp://www.mchips.de

RDBMSPostGreSQL

RAD2 University of Pennsylvania, USAhttp://www.cbil.upenn.edu/RAD2

RDBMSOracle

SMD Stanford University, USAhttp://genome-www4.stanford.edu/MicroArray/SMD

RDBMSOracle

YMD Yale University, USA http://info.med.yale.edu/microarray

RDBMSOracle

Page 35: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

(C) Prof. E. Rahm, Dr. R. Müller 74

Datenarten■ Verschiedene Arten von Genexpressionsdaten mit unterschiedlicher Charakteristik und An-

forderungen erfordern differenzierte Sichtweise

■ vielfach keine Speicherung der Bilddaten

■ Management von Daten mehrerer Genexpressionstechniken

Datenart Quelle Datentyp Charakteristik Nutzung

Bilddaten Experiment, Scanvorgang

binär große Dateien (>20MB)

Generierung von Expressionsdaten

Expressionsdaten Bildanalyse ASCII, Zahlen-format

schnell wach-sende Menge

statistische Ana-lyse (Clustering), Visualisierung und

Annota-tions-daten

Experiment & Sample- annotation

Benutzereingabe Text manuelle Eingabe, oft Textfelder

Integration in GE-Analyse, notwendig zur Interpretation der AnalyseergebnisseGenanno-

tationexterne, öffentli-che Quellen

regelmäßge Aktu-alisierungen in den Datenquellen

Page 36: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

(C) Prof. E. Rahm, Dr. R. Müller 75

Experimentannotationen■ Dokumentation des experimentellen Prozesses

■ vielfach Freitext, keine Benutzung abgestimmter bzw. standardisierter Vokabulare

■ "Minimal Information About Microarray Experiment" - MIAME Standard

− Umfang für spezielle Domains nicht ausreichend MIAME/Tox (Toxicogenomics) u.a.− Datenaustausch per MAGE-ML (MAGE-OM)− "Microarray Gene Expression Data" (MGED) Society http://www.mged.org

Bildquelle: MGED

Page 37: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Prozesse

Page 38: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

MIAME

Page 39: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

MAGE

Page 40: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Mage Workflow

Page 41: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Mage Workflow (2)

Page 42: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

MAGE Objektmodell

Page 43: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Eigenschaften

Page 44: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Bewertung

Page 45: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

(C) Prof. E. Rahm, Dr. R. Müller 77

Mechanismen zur Datenintegration■ Virtuelle Integration: Web Links und föderierte DBS■ Web Links auf Basis spezifischer Identifikatoren

− weit verbreitete Navigation per Link− Beispiel einer URL: http://www.ncbi.nlm.nih.gov/UniGene/clust.cgi?ORG=Hs&CID=75212

■ Föderierte Datenbanksysteme− Schema Intergation (globales Schema generiert aus lokalen Schemas)− On-the-Fly Datenintegration: Transformation, Bereinigung, Herstellen der Relation (Join)− kaum Anwendung, aber spezifische Tools wie Discovery Link (IBM)

■ Materialisierte Integration (Data Warehouse)− lokale/zentralisierte Speicherung aller Expressionsdaten und notwendigen (!) Annotationsdaten− Stanford Microarray Database (SMD), sonst kaum Anwendung

■ Hybride Ansätze− Kombination von materialiserter und föderierter Integration− speziefische Systeme: SRS (Lion BioScience), BioMax

weiterführende Information: siehe Kapitel Datenintegration

Page 46: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

(C) Prof. E. Rahm, Dr. R. Müller 80

Systemvergleich GeneX M-CHIPS RAD2 SMD

Datenarten Images nein nein nein Dateisystem Arrays cDNA, Oligo,

SAGE cDNA, Oligo, SAGE

cDNA, Oligo, SAGE cDNA

Experiment Ann.

Geschlecht, Alter, Gewebe, Stadium, ..., Hardware and Softwareparameter

Sehr umfassendes Annotationsschema

Geschlecht, Alter, Krankh., Stadium, ..., RNA Amplifikation, Labeling Protokoll, Scanparameter

Geschlecht, Alter, Status, ...

Vokabulare lokale Vokabulare

lokale Vokabulare

Standardvokabulare lokale Vokabulare

Integrationsform Web Link SGD, MGD, dbEST,

GenBank, KEGG, SwissProtGenBank GenBank, AllGenes, KEGG dbEST, GeneMap,

LocusLink, SwissProt, föderiert nein Materialisiert nein GO functions nein GO Funktionen (SGD),

Gennamen (WormPD), UniGene

Auto. Update - nein - ja Datenanalyse

Software Tools RClust, Eisen, CyberT (Web)

proprietär nein XCluster (Web)

Integration Datenbank API Datenbank API Datenbank API Data Mining Hier., K-means, PCA Korrespondenzanalyse,

Hier. Clustering nein Hier., K-means, SOM, SVD

Statistik T-Tests, Bonferonni Korrektur, …

nein nein nein

Visualisierung interaktive Dendrogramme, Clusterbäume

Korrespondenzanalyse Biplot

- zoombare Punktgraphiken, interaktive Clusterbilder

Quelle: Do, Kirsten, Rahm, Proc. 10th BTW. 2003

Page 47: (Forts.) Genexpression - dbs.uni-leipzig.dedbs.uni-leipzig.de/skripte/DBSBIO/PDF/kap4-2.pdf · Fuzzy k Means bestimmen Zyklen Membership und as konvergiert Pearson corr. >0.9), entferne

© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm

Zusammenfassung