Einführung in die Phylogenie (lat.: phylum = Stamm)

47
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-1 Einführung in die Phylogenie Einführung in die Einführung in die Phylogenie Phylogenie (lat.: phylum = Stamm) (lat.: phylum = Stamm)

description

Einführung in die Phylogenie (lat.: phylum = Stamm). Phylogenetische Bäume. Stammbaum ( Phylogenetic Tree ). Stammbäume versus Klassifikation. Zuerst war die Klassifikation Carl Linnaeus, ca. 1740: Systema Naturae Annahme: Arten verändern sich nicht ( Prä -Darwin) - PowerPoint PPT Presentation

Transcript of Einführung in die Phylogenie (lat.: phylum = Stamm)

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-1Einführung in die Phylogenie

Einführung in die PhylogenieEinführung in die Phylogenie

(lat.: phylum = Stamm)(lat.: phylum = Stamm)

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-2Einführung in die Phylogenie

Phylogenetische BäumePhylogenetische Bäume

Stammbaum (Phylogenetic Tree)

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-3Einführung in die Phylogenie

Stammbäume versus KlassifikationStammbäume versus Klassifikation

Zuerst war die Klassifikation- Carl Linnaeus, ca. 1740: Systema

Naturae- Annahme: Arten verändern sich

nicht (Prä-Darwin)- Einteilung der Lebewesen in

• Kingdoms -classes–orders–families–genera-species

• SKOFGA (Stamm, Klasse, Ordnung, Familie, Gattung, Art)

- Innere Knoten einer Klassifikation sind abstrakt

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-4Einführung in die Phylogenie

Tree of LifeTree of Life

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-5Einführung in die Phylogenie

KlassifikationKlassifikation

Eukaryoten Tiere diverse Zwischenstufen Chraniata (Schädelknochen) Vertebraten (Wirbeltier) Viele Zwischenstufen Mammals(Säugetiere) Eutheria(Plazentatiere/Höhere Säuger) Primaten (Affen) Catarrhini (Altweltaffen) Hominidae(Mensch, Schimpanse, Orang-

Utan, Gorilla) Homo (erectus, sapiens ...) Homo Sapiens

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-6Einführung in die Phylogenie

StammbäumeStammbäume

Charles Darwin: „The origin of species“ (1859)- Arten sind nicht unveränderlich, sondern

unterliegen im Laufe der Zeit einem Wandel- „Survivalof the fittest“- Damals noch unklar, was sich eigentlich

wandelt Stammbäume(Abstammungsbäume)

- Ergeben sich aus der Annahme der Evolution

- Auch Stammbäume wurden lange aus morphologischen Eigenschaften abgeleitet

- Jeder Knoten in einem Stammbaum hat einmal als Art existiert–Knoten im Baum (also Spezies) heißen taxa

Was definiert eine Spezies?

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-7Einführung in die Phylogenie

„„Homo floresiensis“ (Hobbit?)Homo floresiensis“ (Hobbit?)

Entdeckung 2003 Lebte vermutlich vor 95000 bis

vor 12000 Jahren auf der indonesischen Insel Flores

Körperhöhe nur ca. 100 cm Gehirnvolumen nur 380 cm3

- Homo erectus: 600-1200, h. sapiens: 1400

Rückentwicklung? Vorläufer?

Quelle: Brown, P. et al. Nature431, 1055-1061 (2004).

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-8Einführung in die Phylogenie

Evolutionsgeschichte neu geschriebenEvolutionsgeschichte neu geschrieben

Stammbaum –welche Art geht aus welcher hervor?

Evolutionsgeschichte neu geschrieben

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-9Einführung in die Phylogenie

Computer-AbstammungComputer-Abstammung

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-10Einführung in die Phylogenie

Moderne StammbaumberechnungModerne Stammbaumberechnung

Molecular phylogeny Mendel + Darwin: Das Erbgut unterliegt dem Wandel Berechnung von Stammbäumen aus molekularen Daten

- Zuckerkandl und Pauling, 1965 Berechnung aufgrund von DNA

oder Proteinsequenzen Annahme: Evolution verläuft

in kleinen Schritten Wenn sich Sequenzen ähnlich

sind, sind die Speziesevolutionär eng verwandt- Denn zufällige Ähnlichkeit ist

zu unwahrscheinlich

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-11Einführung in die Phylogenie

Arten von StammbäumenArten von Stammbäumen

Individuelle Abstammung- Stammbäume, Ahnentafeln- Natürlich kein Baum: Zwei Eltern- Rekombination

Speziesstammbäume- Ein Baum, wenn Spezies nicht

verschmelzen können- Sprachen verschmelzen

Gene Trees- Geschichte eines

Sequenzabschnitts- Nicht leicht zu definieren- Baumförmig, wenn Gene nicht

verschmelzen- Aber: 2 Allele jedes Gens vorhanden

(Besser: HaplotypTree)

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-12Einführung in die Phylogenie

Wozu?Wozu?

Aufklärung der evolutionären Verhältnisse Aufklärung von familiären Verhältnissen

- Wenn genügend Sequenzen vorhanden Aufklärung von Infektionswegen

- Bei schnell mutierenden Viren (z.B. HIV)- Varianten werden in verschiedenen Personen gefunden- Herausrechnen des Verbreitungsweges anhand der

Abstammungsverhältnisse Phylogenetic Inference

- Wenn alle nahe verwandten Spezies ein bestimmtes Gen haben, dann sollte ich das auch haben

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-13Einführung in die Phylogenie

EvolutionsmodellEvolutionsmodell

Lebewesen vermehren sich durch Kopieren Kopieren mit kleinen Fehlern (Mutationen)

- Führen (manchmal) zu veränderter „Funktion“ Selektion – „Survival of the fittest“

- Fatale Mutationen lassen Nachkommen gar nicht erst entstehen- Einschränkungen der Überlebensfähigkeit führen zur schnellen

Ausrottung Speziation

- Unterschiedliche Mutationen sind in unterschiedlichen Lebensräumen unterschiedlich vorteilhaft

- Anpassungan ökologische Nischen- Führt zur Akkumulation von Änderungen- Schließlich geht die gemeinsame Fortpflanzungsfähigkeit verloren

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-14Einführung in die Phylogenie

ArtenbildungArtenbildung

Arten entstehen durch Veränderungen aus einer anderen Art

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-15Einführung in die Phylogenie

MutationsfrequenzenMutationsfrequenzen

Treten Mutationen in gleicher Frequenz auf?- Sind alle Mutationen gleich wahrscheinlich?- Substitutionsmatrizen- Gibt es Zeiten erhöhter Mutationshäufigkeit?

• Sonneneruptionen, …

- Gibt es Zeiten erhöhten Selektionsdrucks?• Meteoriteneinschlag, Klimaverschiebungen, …

- Gibt es Teilbäume, die schneller mutieren?• Abhängig vom Anpassungsdruck oder der Güte der Reparaturmechanismen

- Gibt es Sequenzabschnitte, die unterschiedlich schnell mutieren?• Codingversus non-coding Regions, House-Keeping genes, …

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-16Einführung in die Phylogenie

Molecular ClockMolecular Clock

Häufige Annahme: Molecular Clock- Mutationen setzen sich bzgl. der Zeit immer mit gleicher Häufigkeit

durch- Unabhängig von Teilbaum, Zeitpunkt, Ort und Art der Mutation- Anzahl der beobachteten Mutationen proportional zur vergangenen

Zeit Die ist manchmal hilfreich, aber falsch

- Unterschiedliche Zeiten erzeugen unterschiedlichen Selektionsdruck- Unterschiedliche Sequenzabschnitte unterliegen unterschiedlichem

Selektionsdruck- Unterschiedliche Spezies unterliegen unterschiedlicher Frequenz

erfolgreicher Mutationen- …

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-17Einführung in die Phylogenie

DatenDaten

Messen kann man nur die DNA existierender Arten Zwei mögliche Ziele

- Rekonstruktion des wahrscheinlichsten Stammbaums der Arten- Rekonstruktion der wahrscheinlichsten Ur-DNA und aller

Zwischenstufen Den tatsächlichen Stammbaum kann man nicht berechnen

- Man kennt die ausgestorbenen Arten nicht- Man kann ausgestorbene Mutationen nicht erkennen- Man kann Doppelmutationen nicht erkennen

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-18Einführung in die Phylogenie

BäumeBäume

Knoten = Arten Blätter = Lebende Arten Kanten

- Länge kann (aber muss nicht) mitzeitlicher Entfernung korrelieren

- Scaledtrees Jeder Knoten hat exakt

einen Vater Eine Wurzel Binäre Bäume

- Reihenfolge der Kinder ist egal Viele Visualisierungsvarianten

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-19Einführung in die Phylogenie

Distanzbasierte PhylogenieDistanzbasierte Phylogenie An innere Knoten eines Stammbaum kann man den

Speziationzeitpunkt schreiben („branchpoints“) Wenn die Molecular Clock Theory gilt

- Ist die Menge an Veränderungen auf einer Kante proportional zu der verstrichenen Zeit

- Damit proportional zur Länge der Kante- Damit ist der Editabstand zweier Knoten (=Evolution dazwischen)

proportional zur Summe der Editabstände beider Knoten zum kleinsten gemeinsamen Vater

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-20Einführung in die Phylogenie

UltrametrikenUltrametriken

Wenn man den Baum und die Zeitpunkte weiß, dann gilt- Alle Zahlen auf einem Pfad von der Wurzel zu einem beliebigen Blatt

nehmen strikt ab- Der Zeitpunkt der Aufspaltung ist ein Abstandsmaß für zwei Arten

• Für Blätter X, Y sei d(X,Y) das Label des kleinsten gemeinsamen Vorfahren• Im Beispiel: d(A,B)=80, d(B,C)=100, d(A,D)=80

- Das ist eine Metrik• d(X,X)=0, d(X,Y)>0, d(X,Y)=d(Y,X), und d(X,Y)≤d(X,Z)+d(Z,Y)

- Es ist sogar eine Ultrametrik(gleich)

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-21Einführung in die Phylogenie

Ultrametrische BäumeUltrametrische Bäume

DefinitionSei T ein Baum und D eine symmetrische Matrix mit nZeilen und n Spalten. T heißt ultrametrischer Baum für Dwenn gilt:- T hat n Blätter, beschriftet mit den Zeilen von D- Jeder innere Knoten von T hat zwei Kinder und ist mit einem Wert aus

D beschriftet- Auf jedem Pfad von der Wurzel zu einem Blatt in T sind die Zahlen

strikt abnehmend- Für alle Blätter i,j mit i≠j gilt: der kleinste gemeinsame Vorfahr von i

und j ist mit D(i,j) beschriftet Bemerkung

- Jeder Stammbaum ist ultrametrisch für die Abstandsmatrix mit den Aufsplittzeitpunkten als Abstandsmaß

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-22Einführung in die Phylogenie

BeispielBeispiel

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-23Einführung in die Phylogenie

ÜberlegungenÜberlegungen

Das kann auch nicht immer gehen- Matrix hat (n2-n)/2 relevante Zellen- Baum hat nur n-1 innere Knoten- Eine Matrix, zu der man einen ultrametrischen Baum konstruieren

kann, muss also Duplikate enthalten Definition

Eine symmetrische Matrix D mit n Spalten und Zeilen istultrametrisch, wenn für beliebige Zeilen i, j, k gilt, dass das Maximum von D(i,j), D(j,k) und D(i,k) genau zweimal vorkommt

Es gilt also• D(i,j)=D(j,k) und D(i,j)>D(i,k) oder• D(i,j)=D(i,k) und D(i,j)>D(j,k) oder• D(j,k)=D(i,k) und D(j,k)>D(i,j)

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-24Einführung in die Phylogenie

UltrametrikUltrametrik

Definition Ultrametrik

Eine Ultrametrik ist eine Metrik für die gilt:

d(a,c) ≤ max( d(a,b), d(b,c) )

Bemerkung Metrik

Für Metriken muss nur gelten:

d(a,c) ≤d(a,b)+d(b,c)

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-25Einführung in die Phylogenie

UltrametrikUltrametrik

Theorem

Eine symmetrische Matrix D hat einen ultrametrischen Baum gdw. D selber ultrametrisch ist

Beweis- Nehmen wir erst an, dass zu D ein ultrametrischer Baum T existiert- Nehmen wir an, dass i, j, k wie folgt liegen (alle anderen Knoten

können wir ignorieren)- Dann gilt offensichtlich D(i,k)=D(j,k)=Y und D(i,k)>D(i,j)=X- Dito kann man für die zwei anderen Varianten der möglichen Lage

von i, j, k verfahren- Das gilt für alle Tripel von Knoten- Also ist D ultrametrisch

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-26Einführung in die Phylogenie

Distanzbasierte AlgorithmenDistanzbasierte Algorithmen

Konstruktion des ultrametrischen Baumes basiert rein auf Distanzmassen- Einen ultrametrischen Baum gibt es nicht für alle Matrizen- Es gibt weniger empfindliche Verfahren

Die Geschichte einzelner „Sites“ wird nicht berücksichtigt Solche Algorithmen zur Berechnung von Stammbäumen

nennt man distanzbasiert

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-27Einführung in die Phylogenie

UPGMA -Hierarchisches ClusteringUPGMA -Hierarchisches Clustering

UPGMA- „Unweighted pair group method with arithmetic mean“- Anderer Name: Hierarchisches Clustering

Sehr einfaches und allgemeines Verfahren, kann bei allen möglichen Problemen angewandt werden

Wenn eine Matrix ultrametrisch ist, dann findet UPGMA den dazugehörenden ultrametrischen Baum- UPGMA nimmt die Molecular Clock an – alle Pfade von einem Blatt

zur Wurzel haben am Ende die selbe Länge Achtung: UPGMA konstruiert immer einen Baum

- Auch wenn die Matrix nicht ultrametrisch ist

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-28Einführung in die Phylogenie

UPGMA VerfahrenUPGMA Verfahren

Gegeben: Distanzmatrix D Erzeuge ein „Baumgerüst“ mit n Blättern Wähle den kleinsten D(i,j) Wert der Matrix und verbinde die

Knoten i und j durch einen neuen Knoten (ij) mit Beschriftung D(i,j) und Kanten zu i und zu j- Anfangs sind i und j Blätter, später können es auch innere Knoten

sein Lösche Zeilen und Spalten i und j aus D Füge in D eine Zeile und eine Spalte (ij) hinzu mit D(ij,k) =

(D(i,k)+D(j,k))/2 Wiederhole, bis D leer ist

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-29Einführung in die Phylogenie

Beispiel: Distanzbaum (I)Beispiel: Distanzbaum (I)

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-30Einführung in die Phylogenie

Beispiel: Distanzbaum (II)Beispiel: Distanzbaum (II)

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-31Einführung in die Phylogenie

AnwendungsbeispielAnwendungsbeispiel

Sequenzierung der mitochondrialer DNA (16 KB) von 86 geographisch verteilt lebenden Personen

Ergebnis: mitochondriale DNA scheint nach einer molekularen Uhr abzulaufen; Divergenz ist ca. 1,7E-8 pro Base und Jahr

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-32Einführung in die Phylogenie

Distanz versus ZeichenDistanz versus Zeichen

Distanzbasierte Algorithmen abstrahieren von einzelnen Zeichen und basieren auf dem Abstand von Taxa

Character-basierte Verfahren betrachten die Entwicklung jedes einzelnen „Characters“- Nuklein- oder Aminosäure- Morphologische Eigenschaften- Vorhandensein / Abwesenheit bestimmter Gene/Funktionen- ...

Character sollten in einem Abstammungsverhältnis stehen- Sequenzen müssen homolog sein

Wahl der Character beeinflusst das Ergebnis erheblich- Eine „korrekte“ Wahl gibt es nicht –erheblicher Freiraum

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-33Einführung in die Phylogenie

Mögliche Probleme Genetischer Distanz Mögliche Probleme Genetischer Distanz

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-34Einführung in die Phylogenie

Beispiel für Zeichen/Character-MatrixBeispiel für Zeichen/Character-Matrix

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-35Einführung in die Phylogenie

Abgeleiteter Phylogenetischer BaumAbgeleiteter Phylogenetischer Baum

Gesucht: Der Baum mit den wenigsten Änderungen

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-36Einführung in die Phylogenie

Idee der Perfekten PhylogenyIdee der Perfekten Phylogeny

Für Sequenzen unrealistisch, für komplexe Eigensch. nicht Definition

- Sei D eine binäre Matrix aus n Zeilen (Arten) und m Spalten (Character). D(i,j)=1 gdw Art i Eigenschaft j hat

- T ist ein (perfekt-) phylogenetischer Baum für D, wenn gilt• T hat n Blätter, beschriftet mit den Zeilen von D• Jeder Character, der in mindestens einer Art vorhanden ist, steht an genau einer

Kante von T• Für jede Art i gilt, dass die Beschriftungen der Kanten auf dem Pfad von der Wurzel

zu i genau die Character sind, die i hat

Bemerkungen- Nicht an jeder Kante von T muss ein Character stehen, aber jeder

Character muss an genau einer Kante stehen

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-37Einführung in die Phylogenie

Beispiel Beispiel

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-38Einführung in die Phylogenie

ZusammenfassungZusammenfassung

Phylogenie als Konzept zur Analyse der Evolutionärer Mechanismen- Gilt nur bei einfachen

Evolutionsmodellen- Güte hängt von den

Eigenschaften der Daten ab Distanzbasierte Methoden

- Am ungenauesten, dafür schnell- Brauchen numerische

Abstandsmasse Zeichen-basierte Methoden:

Besser, aber aufwendig zu berechnen- Scoring aller möglichen Baum-

Topologien

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-39Einführung in die Phylogenie

Werkzeuge zur phylogenetischen Werkzeuge zur phylogenetischen SequenzanalyseSequenzanalyse

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-40Einführung in die Phylogenie

Paarweises AlignmentPaarweises Alignment

Distanzberechnung basierend auf Alignement- Sequenzabständen- Strukturalignement

Proportionalität zwischen Sequenz- und evolutionärer Abstand

Vergleich der Entwicklung von homologen Genen

Verschiedenen Spezies haben Struktur und Funktionsgleiche Proteine- „Housekeeping“ Proteine- z.B. „alcohol dehydrogenase“

Enzym im Glykolyse-Stoffwechsel

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-41Einführung in die Phylogenie

BeispielBeispiel

Enzym: Alkoholdehydrogenase (ADH)- An alcohol + NAD+ = an aldehyde or ketone + NADH

Spezies- Human- Chimpanzee- Mouse- Dog- Frog- Zebrafish- Fruit flig- Rice- E. coli

Quelle: KEGG http://www.genome.jp

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-42Einführung in die Phylogenie

Proteinsequenzen ADHProteinsequenzen ADH

KEGG: 330 Gene über mehrere Spezies zu ADH

http://www.genome.jp/dbget-bin/www_bget?ko:K00001

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-43Einführung in die Phylogenie

SequenzextraktionSequenzextraktion

>HumanMSTAGKVIKCKAAVLWELKKPFSIEEVEVAPPKAHEVRIKMVAVGICGTDDHVVSGTMVTPLPVIL

GHEAAGIVESVGEGVTTVKPGDKVIPLAIPQCGKCRICKNPESNYCLKNDVSNPQGTLQDGTSRFTCRRKPIHHFLGISTFSQYTVVDENAVAKIDAASPLEKVCLIGCGFSTGYGSAVNVAKVTPGSTCAVFGLGGVGLSAIMGCKAAGAARIIAVDINKDKFAKAKELGATECINPQDYKKPIQEVLKEMTDGGVDFSFEVIGRLDTMMASLLCCHEACGTSVIVGVPPDSQNLSMNPMLLLTGRTWKGAILGGFKSKECVPKLVADFMAKKFSLDALITHVLPFEKINEGFDLLHSGKSIRTILMF

>ChimpanzeeMSTAGKVIKCKAAVLWEVKKPFSIEDVEVAPPKAYEVRIKMVAVGICRTDDHVVSGNLVTPLPAIL

HEAAGIVESVGEGVTTVKPGDKVIPLFTPQCGKCRVCKNPESNYCLKNDLGNPRGTLQDGTRRFTCRGKPIHHFLGTSTFSQYTVVDENAVAKIDAASPLEKVCLIGCGFSTGYGSAVNVAKVTPGSTCAVFGLGGVGLSAVMGCKAAGAARIIAVDINKDKFAKAKELGATECINPQDYKKPIQEVLKEMTDGGVDFSFEVIGRLDTMMASLLCCHEACGTSVIVGVPPASQNLSINPMLLLTGRTWKGAVYGGFKSKEGIPKLVADFMAKKFSLDALITHVLPFEKINEGFDLLHSGKSIRTVLTF

>Fruit flyMSRKNVLGLINTIVANSCKCPAHSHNYGSAAPTASQTGRMEYAFEMSASTVRFGPGVSAEVGADLR

NLGARKVCLVTDKNVVQLPSVKVALDSLARNGINYEVYDETRVEPTDGSMWHAVEFARGKEFDAFLAIGGGSAMDTAKAANLFSSDANAEFLDYVNCPIGRGKEISVKLKPLIAMPTTSGTGSETTGVAIFDYKKLHAKTGISSKFLKPTLAVIDPLHTLSQPQRVMAFAGFDVFCHALESFTAVDYRERGLAPSDPSLRPTYQGRNPVSDVWARFALETIRKNFVNAIYQPDNLEARSQMHLASTMAGVGFGNAGVHLCHGLSYPISGNVRDYKPKGYSADHALIPHGLSVVISAPAVFEFTAPACPDRHLEAAQLLGAEVRGVEKADAGRLLADTVRGFMQRAGIENGLRELGFSSSDIPALVEGTLPQERITKLAPRAQTQENLSQLFEKSMEVY

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-44Einführung in die Phylogenie

Multiples Alignement ClustalW Multiples Alignement ClustalW

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-45Einführung in die Phylogenie

ClustalW SequenzeingabeClustalW Sequenzeingabe

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-46Einführung in die Phylogenie

ClustalW Resultat: AlignmentClustalW Resultat: Alignment

Ulf

Les

er: A

lgor

ithm

isch

e B

ioin

form

atik

, Win

ters

emes

ter

2005

/200

6

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #8-47Einführung in die Phylogenie

ClustalW Resultat: Phylogenetischer BaumClustalW Resultat: Phylogenetischer Baum