Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur:...

81
Softwarewerkzeuge der Bioinformatik 1 V3 - Multiples Sequenz Alignment und Phylogenie iteratur: Kapitel 4 in Buch von David Mount hioredoxin-Beispiel heute aus Buch von Arthur Lesk 3. Vorlesung SS 2009

Transcript of Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur:...

Page 1: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 1

V3 - Multiples Sequenz Alignment und Phylogenie

Literatur: Kapitel 4 in Buch von David Mount

Thioredoxin-Beispiel heute aus Buch von Arthur Lesk

3. Vorlesung SS 2009

Page 2: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 2

• Homologie: Ähnlichkeit, die durch

Abstammung von einem gemeinsamen

Ursprungsgen herrührt –

die Identifizierung und Analyse von

Homologien ist eine zentrale Aufgabe

der Phylogenie.

• Ein Alignment ist eine Hypothese

für die positionelle Homologie

zwischen Basenpaaren bzw.

Aminosäuren.

Definition von “Homologie”

http://www.cellsignal.com3. Vorlesung SS 2009

Page 3: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 3

Einfach

Schwierig wegen Insertionen und Deletionen (indels)

Alignments können einfach oder schwer sein

GCGGCCCA TCAGGTACTT GGTGGGCGGCCCA TCAGGTAGTT GGTGGGCGTTCCA TCAGCTGGTT GGTGGGCGTCCCA TCAGCTAGTT GGTGGGCGGCGCA TTAGCTAGTT GGTGA******** ********** *****

TTGACATG CCGGGG---A AACCGTTGACATG CCGGTG--GT AAGCCTTGACATG -CTAGG---A ACGCGTTGACATG -CTAGGGAAC ACGCGTTGACATC -CTCTG---A ACGCG******** ?????????? *****

Kann man beweisen, dass ein Alignment korrekt ist?

3. Vorlesung SS 2009

Page 4: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 4

Homo sapiens DjlA protein

Escherichia coli DjlA protein

Protein-Alignment kann durch tertiäre Strukturinformationen geführt werden

Nur so kann man letztlich bewerten, ob ein Sequenzalignment korrekt ist.Beweisen im strikten Sinne kann man dies nie.

Gaps einesAlignmentssolltenvorwiegendin Loops liegen, nichtin Sekundär-struktur-elementen.

3. Vorlesung SS 2009

Page 5: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 5

MSA für Thioredoxin-FamilieFarbe Aminosäuretyp Aminosäurengelb klein, wenig polar Gly, Ala, Ser, Thrgrün hydrophob Cys, Val, Ile, Leu

Pro, Phe, Tyr, Met, Trpviolett polar Asn, Gln, Hisrot negativ geladen Asp, Glublau positiv geladen Lys, Arg

3. Vorlesung SS 2009

Page 6: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 6

Infos aus MSA von Thioredoxin-Familie

Thioredoxin: aus 5 beta-Strängen bestehendes beta-Faltblatt, das auf beiden Seiten von alpha-Helices flankiert ist.

Gemeinsamer Mechanismus: Reduktion von Disulfidbrücken in Proteinen

3. Vorlesung SS 2009

Page 7: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 7

Infos aus MSA von Thioredoxin-Familie

1) Die am stärksten konservierten Abschnitte entsprechen wahrscheinlich dem

aktiven Zentrum. Disulfidbrücke zwischen Cys32 und Cys35 gehört zu dem

konservierten WCGPC[K oder R] Motiv. Andere konservierte Sequenzabschnitte,

z.B. Pro76Thr77 und Gly92Gly93 sind an der Substratbindung beteiligt.

3. Vorlesung SS 2009

Page 8: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 8

Infos aus MSA von Thioredoxin-Familie

2) Abschnitte mit vielen Insertionen und Deletionen entsprechen vermutlich

Schleifen an der Oberfläche. Eine Position mit einem konservierten Gly oder

Pro lässt auf eine Wendung der Kette (‚turn‘) schließen.

3. Vorlesung SS 2009

Page 9: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 9

Infos aus MSA von Thioredoxin-Familie3) Ein konserviertes Muster hydrophober Bausteine mit dem Abstand 2 (d.h.,

an jeder zweiten Position), bei dem die dazwischen liegenden Bausteine

vielfältiger sind und auch hydrophil sein können, lässt auf ein -Faltblatt an der

Moleküloberfläche schließen.

3. Vorlesung SS 2009

Page 10: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 10

Infos aus MSA von Thioredoxin-Familie

4) Ein konserviertes Muster hydrophober Aminosäurereste mit dem Abstand

von ungefähr 4 lässt auf eine -Helix schließen.

3. Vorlesung SS 2009

Page 11: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 11

Hier gibt es vor allem folgende 2 wichtigen Methoden:

• Dynamische Programmierung

– liefert garantiert das optimale Alignment!

– aber: betrache 2 Proteinsequenzen von 100 Aminosäuren Länge.

wenn es 1002 Sekunden dauert, diese beiden Sequenzen erschöpfend

zu alignieren, dann wird es

1003 Sekunden dauern um 3 Sequenzen zu alignieren,

1004 Sekunden für 4 Sequenzen und

1.90258x1034 Jahre für 20 Sequenzen.

• Progressives Alignment

Automatisches multiples Sequenzalignment

3. Vorlesung SS 2009

Page 12: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 12

berechne zunächst paarweise Alignments

für 3 Sequenzen wird Würfel aufgespannt:

D.h. dynamische Programmierung hat nun Komplexität n1 * n2 * n3mit den Sequenzlängen n1, n2, n3.

Sehr aufwändig! Versuche, Suchraum einzuschränken und nur einen kleinenTeil des Würfels abzusuchen.

dynamische Programmierung mit MSA Programm

3. Vorlesung SS 2009

Page 13: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 13

• wurde von Feng & Doolittle 1987 vorgestellt

• ist eine heuristische Methode.

Daher ist nicht garantiert, das “optimale” Alignment zu finden.

• benötigt (n-1) + (n-2) + (n-3) ... (n-n+1) paarweise Sequenzalignments als

Ausgangspunkt.

• weitverbreitete Implementation in Clustal (Des Higgins)

• ClustalW ist eine neuere Version, in der den Parameter für Sequenzen und

Programm Gewichte (weights) zugeteilt werden.

Progressives Alignment

3. Vorlesung SS 2009

Page 14: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 14

• Berechne alle möglichen paarweisen Alignments von Sequenzpaaren.

Es gibt (n-1)+(n-2)...(n-n+1) Möglichkeiten.

• Berechne aus diesen isolierten paarweisen Alignments den “Abstand”

zwischen jedem Sequenzpaar.

• Erstelle eine Abstandsmatrix.

• aus den paarweisen Distanzen wird ein Nachbarschafts-Baum erstellt

• Dieser Baum gibt die Reihenfolge an, in der das progressive Alignment

ausgeführt werden wird.

ClustalW- Paarweise Alignments

3. Vorlesung SS 2009

Page 15: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 15

Schnelle paarweise Alignments:

berechne Matrix der Abstände

1 PEEKSAVTALWGKVN--VDEVGG2 GEEKAAVLALWDKVN--EEEVGG3 PADKTNVKAAWGKVGAHAGEYGA4 AADKTNVKAAWSKVGGHAGEYGA5 EHEWQLVLHVWAKVEADVAGHGQ

Hbb_Human 1 -Hbb_Horse 2 .17 -

Hba_Human 3 .59 .60 -Hba_Horse 4 .59 .59 .13 -Myg_Whale 5 .77 .77 .75 .75 -

Hbb_Human

Hbb_Horse

Hba_Horse

Hba_Human

Myg_Whale

2

1

3 4

2

1

3 4

alpha-helices

Nachbar-Verbindungs-

Baumdiagramm

progressive Alignments

entsprechend dem

Baumdiagramm

CLUSTAL W

Überblick der ClustalW Prozedur

3. Vorlesung SS 2009

Page 16: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 16

Vorteil:

– Geschwindigkeit.

Nachteile:

– keine objektive Funktion.

– Keine Möglichkeit zu quantifizieren ob Alignment gut oder schlecht ist

(vgl. E-value für BLAST)

– Keine Möglichkeit festzustellen, ob das Alignment “korrekt” ist

Mögliche Probleme:

– Prozedur kann in ein lokales Minimum geraten.

D.h. falls zu einem frühen Zeitpunkt ein Fehler im Alignment eingebaut

wird, kann dieser später nicht mehr korrigiert werden, da die bereits

alignierten Sequenzen fest bleiben.

– Zufälliges Alignment.

ClustalW- Vor- und Nachteile

3. Vorlesung SS 2009

Page 17: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 17

• Sollen all Sequenzen gleich behandelt werden?

Obwohl manche Sequenzen eng verwandt und andere entfernt verwandt sind?

Sequenzgewichtung

• Variable Substitutionsmatrizen

• Residuen-spezifische Gap-Penalties und verringerte

Penalties in hydrophilen Regionen (externe Regionen

von Proteinsequenzen), bevorzugt Gaps in Loops

anstatt im Proteinkern.

• Positionen in frühen Alignments, an denen Gaps geöffnet wurden, erhalten lokal

reduzierte Gap Penalties um in späteren Alignments Gaps an den gleichen Stellen zu

bevorzugen

ClustalW- Besonderheiten

3. Vorlesung SS 2009

Page 18: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 18

• Zwei Parameter sind festzulegen (es gibt Default-Werte, aber man sollte

sich bewusst sein, dass diese abgeändert werden können):

• Die GOP- Gap Opening Penalty ist aufzubringen um eine Lücke in

einem Alignment zu erzeugen.

Bevor irgendein Sequenzpaar aligniert wird, wird eine Tabelle von GOPs

erstellt für jede Position der beiden Sequenzen.

Die GOP werden positions-spezifisch behandelt und können über die

Sequenzlänge variieren.

• Die GEP- Gap Extension Penalty ist aufzubringen um diese Lücke um

eine Position zu verlängern.

ClustalW- vom Benutzer festzulegende Parameter

3. Vorlesung SS 2009

Page 19: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 19

• Falls ein GAP an einer Position existiert, werden die GOP und GEP penalties

herabgesetzt – und alle anderen Regeln treffen nicht zu. Daher wird die

Bildung von Gaps an Positionen wahrscheinlicher, an denen bereits Gaps

existieren.

• Solange kein GAP offen ist, wird GOP hochgesetzt falls die Position

innerhalb von 8 Residuen von einem bestehenden Gap liegt. Dadurch

werden Gaps vermieden, die zu eng beieinander liegen.

• An jeder Position innerhalb einer Reihe von hydrophilen Residuen wird GOP

herabgesetzt, da diese gewöhnlich in Loop-Regionen von Proteinstrukturen

liegen.

• Eine Reihe von 5 hydrophilen Residuen gilt als hydrophiler stretch.

Vermeide zu viele Gaps

3. Vorlesung SS 2009

Page 20: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 20

• Es macht wenig Sinn, proteinkodierende DNS-Abschnitte

zu alignieren!

ATGCTGTTAGGGATGCTCGTAGGG

ATGCT-GTTAGGGATGCTCGT-AGGG

Das Ergebnis kann sehr unplausibel sein und entspricht eventuell nicht dem

biologischen Prozess.

Es ist viel sinnvoller, die Sequenzen in die entsprechenden Proteinsequenzen

zu übersetzen, diese zu alignieren und dann in den DNS-Sequenzen an den

Stellen Gaps einzufügen, an denen sie im Aminosäure-Alignment zu finden

sind.

Alignment von Protein-kodierenden DNS-Sequenzen

3. Vorlesung SS 2009

Page 21: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 21

Progressive Alignments sind die am weitesten verbreitete Methode für

multiple Sequenzalignments.

Sehr sensitive Methode ebenfalls: Hidden Markov Modelle (HMMer)

Multiples Sequenzalignment ist nicht trivial. Manuelle Nacharbeit kann

in Einzelfällen das Alignment verbessern.

Multiples Sequenzalignment erlaubt Denken in Proteinfamilien und –

funktionen.

Zusammenfassung

3. Vorlesung SS 2009

Page 22: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 22

Rekonstruiere Phylogenien aus einzelnen Gensequenzen

Material dieser Vorlesung aus

- Kapitel 6, DW Mount „Bioinformatics“

und aus Buch von Julian Felsenstein.

Eine phylogenetische Analyse einer Familie

verwandter Nukleinsäure- oder Proteinsequenzen

bestimmt, wie sich diese Familie durch Evolution

entwickelt haben könnte.

Die evolutionären Beziehungen der Sequenzen

können durch Darstellung als Blätter auf einem Baum

veranschaulicht werden.

Phylogenien, oder evolutionäre Bäume, sind die Grundlage um Unterschiede

zwischen Arten zu beschreiben und statistisch zu analysieren.

Es gibt sie seit über 140 Jahren und seit etwa 40 Jahren mit Hilfe von

statistischen, algorithmischen und numerischen Verfahren.

3. Vorlesung SS 2009

Page 23: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 23

3 Hauptansätze für Phylogenien einzelner Gene

- maximale Parsimonie

- Distanzmatrix

- maximum likelihood (wird hier nicht behandelt)

Häufig verwendete Programme:

PHYLIP (phylogenetic inference package – J Felsenstein)

PAUP (phylogenetic analysis using parsimony – Sinauer Assoc)

3. Vorlesung SS 2009

Page 24: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 24

Parsimonie Methoden

Edwards & Cavalli-Sforza (1963):

derjenige evolutionäre Baum ist zu bevorzugen, der „den minimalen Anteil an

Evolution“ enthält.

suche Phylogenien, die gerade so viele Zustandsänderungen beinhalten, wenn

wir mit ihnen die evolutionären Vorgänge rekonstruieren, die zu den vorhandenen

Daten (Sequenzen) führen.

(1) Für jede vorgeschlagene Phylogenie müssen wir in der Lage sein, die

Vorgänge zu rekonstruieren, die am wenigsten Zustandsänderungen benötigen.

(2) Wir müssen unter allen möglichen Phylogenien nach denen suchen können,

die eine minimale Anzahl an Zustandsänderungen beinhalten.

3. Vorlesung SS 2009

Page 25: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 25

Ein einfaches Beispiel

Gegeben seien 6 Buchstaben lange Sequenzen aus 5 Spezies,

die die Werte 0 oder 1 annehmen können

Erlaubt seien Austausche 0 1 und 1 0.

Der anfängliche Zustand an der Wurzel des Baums kann 0 oder 1 sein.

3. Vorlesung SS 2009

Page 26: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 26

Bewerte einen bestimmten Baum

Um den Baum höchster Parsimonität zu finden müssen wir berechnen können,

wie viele Zustandsänderungen für einen gegebenen Baum nötig sind.

Dieser Baum stelle die Phylogenie des ersten Buchstabens dar.

3. Vorlesung SS 2009

Page 27: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 27

Bewerte einen bestimmten Baum

Es gibt zwei gleich gute Rekonstruktionen,

die jede nur eine Buchstabenänderung benötigen.

Sie nehmen unterschiedliche Zustände an der Wurzel des Baums an

und unterschiedliche Positionen für die eine Änderung.

3. Vorlesung SS 2009

Page 28: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 28

Bewerte einen bestimmten Baum

Hier sind drei gleich gute Rekonstruktionen für den zweiten Buchstaben gezeigt, die

jeweils zwei Zustandsänderungen benötigen.

3. Vorlesung SS 2009

Page 29: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 29

Bewerte einen bestimmten Baum

Die gesamte Anzahl an Zustandsänderungen für die 6 Buchstaben auf diesem

Baum ist

1 + 2 + 1 + 2 + 2 + 1 = 9

Rekonstruktion der Zustandsänderungen auf diesem Baum

3. Vorlesung SS 2009

Page 30: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 30

Bewerte einen bestimmten Baum

Ein anderer Baum, der nur 8 Zustandsänderungen benötigt.

Die minimale Anzahl an Zustandsänderungen ist 6, da es 6 Buchstaben gibt, die

jeweils 2 Zustände annehmen können.

3. Vorlesung SS 2009

Page 31: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 31

Finde den besten Baum durch heuristische Suche

Die naheliegende Methode, den Baum höchster Parsimonie zu finden ist,

ALLE möglichen Bäume zu betrachten und einzeln zu bewerten.

Leider ist die Anzahl an möglichen Bäumen üblicherweise zu groß.

verwende heuristische Suchmethoden, die versuchen,

die besten Bäume zu finden ohne alle möglichen Bäume zu betrachten.

(1) Konstruiere eine erste Abschätzung des Baums

und verfeinere diesen durch kleine Änderungen

= finde „benachbarte“ Bäume.

(2) Wenn irgendwelche dieser Nachbarn besser sind,

verwende diese und setze die Suche fort.

3. Vorlesung SS 2009

Page 32: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 32

Zähle evolutionäre Zustandsänderungen

Hierfür existieren zwei verwandte Algorithmen, die dynamische Programmierung

verwenden: Fitch (1971) und Sankoff (1975)

- bewerte eine Phylogenie Buchstabe für Buchstabe

- betrachte jeden Buchstaben als Baum mit Wurzel an einem geeigneten Platz.

- propagiere eine Information von oben nach unten durch den Baum;

beim Erreichen der Blätter ist die Anzahl der Zustandsänderungen bekannt.

Dabei werden die Zustandsänderungen oder internen Zustände an den Knoten des

Baums nicht konstruiert.

3. Vorlesung SS 2009

Page 33: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 33

Sankoff Algorithmus

Ermöglicht es, die Werte für jeden Knoten zu berechnen,

und somit auch für den Wurzelknoten.

Setze dazu die minimalen Kosten S(i) für den Wurzelknoten

Dieses Vorgehen beschreibt die minimalen evolutionären Zustandsänderungen für

den jeweiligen Zustand.

In den Anfangsknoten (den Blättern) ist S(i) einfach zu berechnen. Die Kosten sind

0, wenn der beobachtete Zustand i ist, ansonsten sind die Kosten unendlich.

Nun benötigen wir einen Algorithmus, der die minimalen Kosten S(i) für die mittleren

Knoten berechnet, die die „Vorfahren“ von jeweils zwei Vorgängerknoten bilden.

iSSi

0min

3. Vorlesung SS 2009

Page 34: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 34

Sankoff-Algorithmus

Definiere die beiden Vorgängerknoten als „l“ (linker Knoten) und „r“ (rechter Knoten).

Berechne für den inneren (ancestor) Knoten Sa(i):

kScjSciS rikk

lijj

a minmin

Die kleinst-möglichen Kosten dafür dass Knoten a im Zustand i ist, sind die Kosten

cij für den Übergang von Zustand i nach j in dem linken Ast plus die Kosten Sl(j) für

Prozesse weiter oben im Teil des Baums, die entstehen wenn Knoten l im Zustand s

j ist. Wähle j so, dass diese Summe minimal wird.

Für den rechten Ast wird dieselbe Berechnung durchgeführt die Summe der

beiden Minima sind die minimalen Kosten für den Teil des Baums über Knoten a,

wenn dieser im Zustand i ist.

Die Gleichung wird von oben nach unten für alle Knoten im Baum angewandt.

Aus den berechneten S0(i)-Werten ergeben sich die minimalen Kosten für den

ganzen Baum ermittelt.

3. Vorlesung SS 2009

Page 35: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 35

Sankoff-Algorithmus

Der Vektor (6,6,7,8) an den Blättern besitzt ein Minimum von 6

= dies sind die minimalen Gesamtkosten dieses Baums für diesen Buchstaben.

3. Vorlesung SS 2009

Page 36: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 36

neighbor-joining Methode

durch Saitou und Nei (1987) eingeführt – der Algorithmus verwendet Clustering und

das Modell minimaler Evolution. ClustalW benutzt diesen Algorithmus.

„Modell minimaler Evolution“

wähle unter den möglichen Baumtopologien die mit der minimalen Gesamtlänge

der Äste.

Wenn die Distanzmatrix den Baum exakt abbildet, garantiert die Neighbor-joining

Methode, als Methode der geringsten Quadrate den optimalen Baum zu finden.

3. Vorlesung SS 2009

Page 37: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 37

neighbor-joining Methode

(1) Berechne für jedes Blatt

(2) Wähle i und j sodass Dij – ui – uj minimal ist.

(3) Verbinde i und j. Berechne die Astlängen von

i zum neuen Knoten (vi) und vom j zum neuen

Knoten (vj) als

(4) Berechne den Abstand zwischen dem neuen Knoten (ij) und den übrigen Blättern

als

(5) Lösche die Blätter i und j aus den Listen und ersetze sie durch den neuen

Knoten, (ij), der nun als neues Blatt behandelt wird.

(6) Falls mehr als 2 Knoten übrig bleiben, gehe nach Schritt (1) zurück. Andernfalls

verbinde die zwei verbleibenden Knoten (z.B. l und m) durch einen Ast der Länge

Dlm.

n

ij

iji n

Du

2

ijijj

jiiji

uuDv

uuDv

2

1

2

12

1

2

1

2,ijjkik

kij

DDDD

3. Vorlesung SS 2009

Page 38: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Softwarewerkzeuge der Bioinformatik 38

zusätzliche Folien

Page 39: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 39

Methoden für Einzel-Gen-Phylogenien

Wähle Menge von

verwandten

Sequenzen

Berechne

multiples

Sequenz-

alignment

Gibt es

starke

Sequenz-

ähnlichkeit?

Maximale

Parsimonie

Methoden

Ja

Nein

Gibt es deutlich erkenn-

bare Sequenzähnlichkeit?

JaDistanz-

methoden

Nein

Maximum likelihood

Methoden

Analysiere wie

gut die Daten die

Vorhersage

unterstützen

Page 40: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 40

Bewerte einen bestimmten Baum

Eine Rekonstruktion für den dritten Buchstaben mit einer Zustandsänderung.

Page 41: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 41

für Buchstaben 6 ist eine

Zustandsänderung erforderlich.

Bewerte einen bestimmten Baum

der vierte und fünfte Buchstabe

haben dasselbe Muster, das zwei

Zustandsänderungen erfordert.

Page 42: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 42

Infos aus MSA von Thioredoxin-Familie

Die Thioredoxine sind Teil einer Superfamilie, zu der auch viele weiter entfernte

homologe Protein gehören,

z.B. Glutaredoxin (Wasserstoffdonor für die Reduktion von Ribonukleotiden bei

der DNA-Synthese)

Protein-Disulfidisomerase (katalysiert bei der Proteinfaltung den Austausch

falsch gefalteter Disulfidbrücken)

Phosducin (Regulator in G-Protein-abhängigen Signalübertragungswegen)

Glutathion-S-Transferasen (Proteine der chemischen Abwehr).

Die Tabelle des MSAs für Thioredoxinsequenzen enthält implizit Muster,

die man zur Identifizierung dieser entfernteren Verwandten nutzen kann.

Page 43: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 43

Es gibt im wesentlichen 3 unterschiedliche Vorgehensweisen:

(1) Manuell

ein manuelles Alignment bietet sich an falls

• Alignment einfach ist.

• es zusätzliche (strukturelle) Information gibt

• automatische Alignment –Methoden in lokalen Minima feststecken.

• ein automatisch erzeugtes Alignment manuell “verbessert” werden kann.

(2) Automatisch

(3) Kombiniert

Multiples Sequenz-Alignment - Methoden

Page 44: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 44

GDE- The Genetic Data Environment (UNIX)

CINEMA- Java applet available from:

– http://www.biochem.ucl.ac.uk

Seqapp/Seqpup- Mac/PC/UNIX available from:

– http://iubio.bio.indiana.edu

SeAl for Macintosh, available from:

– http://evolve.zoo.ox.ac.uk/Se-Al/Se-Al.html

BioEdit for PC, available from:

– http://www.mbio.ncsu.edu/RNaseP/info/programs/BIOEDIT/bioedit.html

Software für manuelle Alignments

Page 45: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 45

Sequenz: MGGRSSCEDP GCPRDEERAP RMGCMKSKFL QVGGNTFSKT ETSASPHCPVYVPDPTSTIK PGPNSHNSNT PGIREAGSED IIVVALYDYE AIHHEDLSFQKGDQMVVLEE SGEWWKARSL ATRKEGYIPS NYVARVDSLE TEEWFFKGISRKDAERQLLA PGNMLGSFMI RDSETTKGSY SLSVRDYDPR QGDTVKHYKIRTLDNGGFYI SPRSTFSTLQ ELVDHYKKGN DGLCQKLSVP CMSSKPQKPWEKDAWEIPRE SLKLEKKLGA GQFGEVWMAT YNKHTKVAVK TMKPGSMSVEAFLAEANVMK TLQHDKLVKL HAVVTKEPIY IITEFMAKGS LLDFLKSDEGSKQPLPKLID FSAQIAEGMA FIEQRNYIHR DLRAANILVS ASLVCKIADFGLARVIEDNE YTAREGAKFP IKWTAPEAIN FGSFTIKSDV WSFGILLMEIVTYGRIPYPG MSNPEVIRAL ERGYRMPRPE NCPEELYNIM MRCWKNRPEERPTFEYIQSV LDDFYTATES QYQQQP

SMART ergibt:

Beispiel: Src-Kinase HcK

Page 46: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 46

Kinase-Einheit

Beispiel: Src-Kinase HcK

Protein Data Bankhttp://www.rcsb.org1ATP

Page 47: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 47

SH3 Domäne

Src homology 3 (SH3) Domänen binden an Zielproteine mit Sequenzen, die Proline

und hydrophobe Aminosäuren enthalten. Pro-enthaltende Polypeptide können an

SH3 in zwei verschiedenen Orientierungen binden. SH3 Domänen sind kleine

Proteinmodule von ungefähr 50 Residuen Länge. Man findet sie in vielen

intrazellulären oder Membran-assoziierten Proteinen …

Beispiel: Src-Kinase HcK

CATH: 1abo

Page 48: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 48

SH2 Domäne

Die Src homology 2 (SH2) Domäne ist eine Proteindomäne mit etwa 100

Aminosäuren. SH2 Domänen funktionieren als Regelmodule von intrazellulären

Signalkaskaden indem sie mit grosser Affinität an Phospho-Tyrosin enthaltende

Peptide binden. SH2 Domänen findet man oft zusammen mit SH3 Domänen …

Ihre Struktur ist alpha+beta …

Beispiel: Src-Kinase HcK

CATH: 1g83 1fbz 1aot

Page 49: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 49http://jkweb.berkeley.edu/

Beispiel: Src-Kinase HcK

Page 50: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 50

http://www.cellsignal.com

Was kann man mit modularem Denken erreichen?

Page 51: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 51

Least square method

DAB + DAC + DAD + DAE = 4v1 + v2 + v3 + v4 + v5 + 2v6 + 2v7

DAB + DBC + DBD + DBE = v1 + 4v2 + v3 + v4 + v5 + 2v6 + 3v7

DAC + DBC + DCD + DCE = v1 + v2 + 4v3 + v4 + v5 + 3v6 + 2v7

DAD + DBD + DCD + DDE = v1 + v2 + v3 + 4v4 + v5 + 2v6 + 3v7

DAE + DBE + DCE + DDE = v1 + v2 + v3 + v4 + 4v5 + 3v6 + 2v7

DAC + DAE + DBC + DBE + DCD + DDE = 2v1 + 2v2 + 3v3 + 2v4 + 3v5 + 6v6 + 4v7

DAB + DAD + DBC + DCD + DBE + DDE = 2v1 + 3v2 + 2v3 + 3v4 + 2v5 + 4v6 + 6v7

Stack up the (4 + 3 + 2 + 1 = 10) Dij, in alphabetical order, into a vector

and the coefficients xijk

are arranged in a matrix X

with each row corresponding

to the Dij in the row of d and

containing a 1 if branch k

occurs on the path between

species i and j.

DE

CE

CD

BE

BD

BC

AE

AD

AC

AB

D

D

D

D

D

D

D

D

D

D

d

1111000

0010100

1101100

1110010

0001010

1100110

0110001

1001001

0100101

1000011

X

Page 52: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 52

Least square method

If we also stack up the 7 vi into a vector v, the previous set of linear equations can

be compactly expressed as:

Multiplied from the left by the inverse of XTX one can solve for the least squares

branch lengths

This is a standard method of expressing least squares problems in matrix notation

and solving them.

check for example :-)

vXXdX TT

dXXXv TT 1

Page 53: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 53

Least square method

When we have weighted least squares, with a diagonal matrix of weights in the

same order as the Dij:

DE

CE

CD

BE

BD

BC

AE

AD

AC

AB

w

w

w

w

w

w

w

w

w

w

000000000

000000000

000000000

000000000

000000000

000000000

000000000

000000000

000000000

000000000

W

then the least square equations can be written

vWXXWdX TT

and their solution WdXWXXv TT 1

Page 54: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 54

Finding the least squares tree topology

Now that we are able to assign branch lengths to each tree topology.

we need to search among tree topologies.

This can be done by the same methods of heuristic search that were presented for

the Maximum Parsimony method.

Note: no-one has sofar presented a branch-and-bound method for finding the least

squares tree exactly. Day (1986) has shown that this problem is NP-complete.

The search is not only among tree topologies, but also among branch lengths.

Page 55: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 55

Methods of rooting the tree

There are many rooted trees, one for each branch of this unrooted tree,

and all have the same number of changes of state.

The number of changes of state only depends on the unrooted tree, and not at all on

where the tree is then rooted.

Biologists want to think of trees as rooted

need method to place the root in an otherwise unrooted tree.

(1) Outgroup criterion

(2) Use a molecular clock.

Page 56: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 56

Outgroup criterion

Assumes that we know the answer in advance.

Suppose that we have a number of great apes,

plus a single old-world monkey.

Suppose that we know that the great apes are a monophyletic group.

If we infer a tree of these species, we know that the root must be placed on the

lineage that connects the old-world monkey (outgroup) to the great apes (ingroup).

Page 57: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 57

Molecular clock

If an equal amount of changes were observed on all lineages, there should be a

point on the tree that has equal amounts of change (branch lengths) from there to

all tips.

With a molecular clock, it is only the expected amounts of change that are equal.

The observed amounts may not be.

using various methods find a root that makes the amounts of change

approximately equal on all lineages.

Page 58: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 58

Branch lengths

Having found an unrooted tree, locate the changes on it and find out how many

occur in each of the branches.

The location of the changes can be ambiguous.

average over all possible reconstructions of each character for which there is

ambiguity in the unrooted tree.

Fractional numbers in some branches of left tree

add up to (integer) number of changes (right)

Page 59: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 59

Open questions

* Particularly for larger data sets, need to know how to count number of changes

of state by use of an algorithm.

* need to know algorithm for reconstructing states at interior nodes of the tree.

* need to know how to search among all possible trees for the most parsimonious

ones, and how to infer branch lengths.

* sofar only considered simple model of 0/1 characters.

DNA sequences have 4 states, protein sequences 20 states.

* Justification: is it reasonable to use the parsimony criterion?

If so, what does it implicitly assume about the biology?

* What is the statistical status of finding the most parsimonious tree?

Can we make statements how well-supported it is compared to other trees?

Page 60: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 60

dynamische Programmierung mit MSA Programm

Links: Baum für 5 Sequenzen ohne Paarung von Sequenzen.

Neighbour-joining Methode: berechne Summe aller Kantenlängen

S = a + b + c + d + e (Kantenlängen sind bekannt)

In diesem Fall seien sich A und B am nächsten. Konstruiere daher den Baum rechts.

Generell: Verbinde die Sequenzpaare mit den kürzesten Abständen …

Man erhält den Baum mit der kleinsten Summe der Kantenlängen.

Konstruiere anhand phylogenetischem Baum ein versuchsweises Multiples Sequenz Alignment.

Page 61: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 61

Dieses Alignment dient dazu, den möglichen Raum inmitten des Würfels

einzugrenzen, in dem das beste MSA zu finden sein sollte.

Grosse Rechenersparnis!

dynamische Programmierung mit MSA Programm

Page 62: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 62

limitation of distance methods

Distance matrix methods are the easiest phylogeny method to program,

and they are very fast.

Distance methods have problems when the evolutionary rates vary largely.

One can correct for this in distance methods as well as in likelihood methods.

When variation of rates is large, these corrections become important.

In likelihood methods, the correction can use information from changes in one part

of the tree to inform the correction in others.

Once a particular part of the molecule is seen to change rapidly in the primates, this

will affect the interpretation of that part of the molecule among the rodents as well.

But a distance matrix method is inherently incapable of propagating the information

in this way. Once one is looking at changes within rodents, it will forget where

changes were seen among primates.

Page 63: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 63

Evaluating a particular tree

Figure right shows another tree also requiring 8 changes. These two most

parsimonious trees are the same tree when the roots of the tree are removed.

Page 64: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 64

• Die am meisten divergenten Sequenzen (also am stärksten von allen

anderen Sequenzen verschiedenen) sind gewönlich am

schwierigsten zu alignieren

• Es ist manchmal besser, ihr Alignment auf einen späteren Zeitpunkt

zu verschieben (nachdem die einfacheren Sequenzen aligniert

wurden)

• Man kann dazu einen Cutoff wählen (der Default liegt bei 40%

Identität).

Divergente Sequenzen

Page 65: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 65

Fitch algorithm

intended to count the number of changes in a bifurcating tree with nucleotide

sequence data, in which any one of the 4 bases (A, C, G, T) can change to any

other.

At the particular site, we have observed the bases C, A, C, A and G in the 5 species.

Give them in the order in which they appear in the tree, left to right.

Page 66: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 66

Fitch algorithm

For the left two, at the node that is their immediate common ancestor,

attempt to construct the intersection of the two sets.

But as {C} {A} = instead construct

the union {C} {A} = {AC} and count 1

change of state.

For the rightmost pair of species, assign

common ancestor as {AG},

since {A} {G} = and count another

change of state.

.... proceed to bottom

Total number of changes = 3. Algorithm works on arbitrarily large trees.

Page 67: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 67

Complexity of Fitch algorithm

Fitch algorithm can be carried out in a number of operations that is proportional to

the number of species (tips) on the tree.

Don‘t we need to multiply this by the number of sites n ?

Any site that is invariant (which has the same base in all species, e.g. AAAAA) can

be dropped.

Other sites with a single variant base (e.g. ATAAA) will only require a single change

of state on all trees. These too can be dropped.

For sites with the same pattern (e.g. CACAG) that we have already seen, simply use

number of changes previously computed.

Pattern following same symmetry (e.g. TCTCA = CACAG) need same number of

changes numerical effort rises slower than linearly with the number of sites.

Page 68: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 68

Sankoff algorithm

Fitch algorithm is very effective – but we can‘t understand why it works.

Sankoff algorithm: more complex, but its structure is more apparent.

Assume that we have a table of the cost of changes cij between each character state

i and each other state j.

Compute the total cost of the most parsimonious combinations of events by

computing it for each character.

For a given character, compute for each node k in the tree a quantity Sk(i).

This is interpreted as the minimal cost, given that node k is assigned state i,

of all the events upwards from node k in the tree.

Page 69: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 69

Least square method

Number species in alphabetical order.

The expected distance between species A and D d14 = v1 + v7 + v4

The expected distance between species B and E d25 = v5 + v6 + v7 + v2.

v1v2

v3

v4

v5 v6 v7

Page 70: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 70

• aligniere die beiden ähnlichsten Sequenzen zuerst.

• dieses Alignment ist dann “fest” und wird nicht mehr angetastet.

Falls später ein GAP eingeführt werden muss, wird er in beiden

Sequenzen an der gleichen Stelle eingeführt.

• Deren relatives Alignment bleibt unverändert.

Multiples Alignment - Erstes Paar

Page 71: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 71

Ziehe den Baum heran um festzulegen, welches Alignment als nächstes

durchgeführt werden soll:

– aligniere eine dritte Sequenz zu den ersten beiden

oder

– aligniere zwei total verschiedene Sequenzen miteinander.

Option 1Option 1 Option 2Option 2

Clustal W – Zeit der Entscheidung

Page 72: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 72

Wenn beim Alignment einer dritten Sequenz mit

den ersten beiden eine Lücke eingefügt werden

muss um das Alignment zu verbessern, werden

beide als Einzelsequenzen betrachtet.

+

ClustalW- 2 Alternativen

+Falls, andererseits, zwei getrennte Sequenzen

aligniert werden müssen, werden diese zunächst

miteinander aligniert.

Page 73: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 73

gctcgatacgatacgatgactagctagctcgatacaagacgatgacagctagctcgatacacgatgactagctagctcgatacacgatgacgagcgactcgaacgatacgatgactagct

gctcgatacgatacgatgactagctagctcgatacaagacgatgac-agcta

Progressives Alignment – 1. Schritt

Page 74: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 74

gctcgatacgatacgatgactagctagctcgatacaagacgatgacagctagctcgatacacgatgactagctagctcgatacacgatgacgagcgactcgaacgatacgatgactagct

gctcgatacacgatgactagctagctcgatacacgatgacgagcga

Progressives Alignment – 2. Schritt

Page 75: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 75

gctcgatacgatacgatgactagctagctcgatacaagacgatgac-agcta+gctcgatacacgatgactagctagctcgatacacgatgacgagcga

gctcgatacgatacgatgactagctagctcgatacaagacgatgac-agctagctcgatacacga---tgactagctagctcgatacacga---tgacgagcga

Progressives Alignment – 3. Schritt

Page 76: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 76

gctcgatacgatacgatgactagctagctcgatacaagacgatgac-agctagctcgatacacga---tgactagctagctcgatacacga---tgacgagcga+ctcgaacgatacgatgactagct

gctcgatacgatacgatgactagctagctcgatacaagacgatgac-agctagctcgatacacga---tgactagctagctcgatacacga---tgacgagcga-ctcga-acgatacgatgactagct-

Progressives Alignment – letzter Schritt

Page 77: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 77

• Progressives Alignment ist ein mathematischer Vorgang, der völlig unabhängig von

der biologischen Realität abläuft.

• Es kann eine sehr gute Abschätzung sein.

• Es kann eine unglaublich schlechte Abschätzung sein.

• Erfordert Input und Erfahrung des Benutzers.

• Sollte mit Vorsicht verwendet werden.

• Kann (gewöhnlich) manuell verbessert werden.

• Es hilft oft, farbliche Darstellungen zu wählen.

• Je nach Einsatzgebiet sollte der Benutzer in der Lage sein, die zuverlässigen

Regionen des Alignments zu beurteilen.

• Für phylogenetische Rekonstruktionen sollte man nur die Positionen verwenden, für

die eine zweifelsfreie Hypothese über positionelle Homologie vorliegt.

Tips für progressives Alignment

Page 78: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 78

Distance matrix methods

introduced by Cavalli-Sforza & Edwards (1967)

and by Fitch & Margoliash (1967)

general idea „seems as if it would not work very well“ (Felsenstein):

- calculate a measure of the distance between each pair of species

- find a tree that predicts the observed set of distances as closely as possible.

All information from higher-order combinations of character states is left out.

But computer simulation studies show that the amount of lost information is

remarkably small.

Best way to think about distance matrix methods:

consider distances as estimates of the branch length separating that pair of

species.

Page 79: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 79

Least square method

- observed table (matrix) of distances Dij

- any particular tree leads to a predicted set of distances dij.

Page 80: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 80

Least square method

Measure of the discrepancy between the observed and expected distances:

n

i

n

jijijij dDwQ

1 1

2

where the weights wij can be differently defined:

- wij = 1 (Cavalli&Sforza, 1967)

- wij = 1/Dij2 (Fitch&Margoliash, 1967)

- wij = 1/Dij (Beyer et al., 1974)

Aim: Find tree topology and branch lengths that minimize Q.

Equation above is quadratic in branch lengths.

Take derivative with respect to branch lengths, set = 0,

and solve system of linear equations. Solution will minimize Q.

Doug Brutlag‘s course

Page 81: Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik 81

Least square method

Number all branches of the tree and introduce an indicator variable xijk:

xijk = 1 if branch k lies in the path from species i to species j

xijk = 0 otherwise.

The expected distance between i and j will then be

and

For the case with wij = 1 ij.

Note: these are k equations for each of the k branches.

k

kkijji vxd ,,

n

i ij kkkijijij vxDwQ

1

2

,

n

i ij kkkijijkijij

k

vxDxwdv

dQ

1,, 02