Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche...

52
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche Sequenzvergleiche

Transcript of Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche...

Page 1: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1Sequenzvergleiche

SequenzvergleicheSequenzvergleiche

Page 2: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-2Sequenzvergleiche

GliederungGliederung

Überblick Dotplot Maße für Sequenzähnlichkeit Sequenzalignments Bedeutung des Alignments Multiple Alignments

Page 3: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-3Sequenzvergleiche

Einführung (I)Einführung (I) gegeben zwei Sequenzen gesucht:

- Ähnlichkeit quantitativ erfassen- Entsprechungen zwischen einzelnen Bausteinen

beider Sequenzen feststellen- Gesetzmäßigkeiten der Konservierung und

Variabilität beobachten- Rückschlüsse auf entwicklungsgeschichtliche

Verwandtschaftsverhältnisse ziehen Anwendung: Annotation von Genomen

-> Zuordnung von Funktion und Struktur für möglichst viele Gene

Page 4: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-4Sequenzvergleiche

Einführung (II)Einführung (II) Wie kann man ein quantitatives Maß für Sequenzähnlichkeit

definieren? -> Definition von Entsprechungen

Sequenz-Alignment ist der Nachweis solcher Entsprechungen zwischen Sequenzbausteinen-> DAS GRUNDLEGENDE WERKZEUG der BIOINFORMATIK!

Zuordnung von Entsprechungen, bei der Reihenfolge der Bausteine erhalten bleibt, ist ein Alignment

Lücken sind dabei erlaubt! Beispiel:

Folge 1 = a b c d e Folge 2 = a c d e fAlignment:

a b c d e –a – c d e f

Page 5: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-5Sequenzvergleiche

DOTPLOT (I)DOTPLOT (I) Dotplot = Punkteschema Ähnlichkeit von zwei Sequenzen Zusammenhang zu Alignments nicht offensichtlich Tabelle oder Matrix:

- Zeilen entsprechen Bausteine der ersten Sequenz- Spalten entsprechen Bausteine der zweiten Sequenz

wenn Übereinstimmung dann Füllen der Felder Abschnitte mit ähnlichen Bausteinen werden als Diagonalen

von links oben (Nordwest) nach rechts unten (Südost) sichtbar Beispiel (engl. Proteinkristallografin):

- D O R O T H Y C R O W F O O T H O D G K I N- D O R O T H Y H O D G K I N

Page 6: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-6Sequenzvergleiche

DOTPLOT (II)DOTPLOT (II)

Page 7: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-7Sequenzvergleiche

DOTPLOT (III) DOTPLOT (III)

Repetitive Sequenz:

A B R A C A D A B R A C A D A B R A

Page 8: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-8Sequenzvergleiche

DOTPLOT (IV)DOTPLOT (IV)

PallindromischeSequenz:

M A X I S T A YA W A YA T S I X A M

Page 9: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-9Sequenzvergleiche

JDotter: JDotter: A Dot Matrix Plotter for JavaA Dot Matrix Plotter for Java

Page 10: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-10Sequenzvergleiche

DOTPLOT und AlignmentDOTPLOT und AlignmentD O R O T H Y C R O W F O O T H O D G K I ND O R O T H Y - - - - - - - - H O D G K I N

Jeder Pfad von links obenNach rechts unten durch den Dotplot läuft durch eine Abfolge von Zellen, und jede dieser Zellen repräsentiert zwei Positionen- eine aus der Zeile, die andere aus derSpalte -, die einander im Alignment entsprechen, oder aber sie stellt eine Lücke in einer der Sequenzen dar!

Page 11: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-11Sequenzvergleiche

Maße für Sequenzähnlichkeit (I)Maße für Sequenzähnlichkeit (I) Stand: Dotplots und „Alignments nach Augenmaß“ Gesucht: quantitative Maße für Ähnlichkeiten Beispiele:

- Hamming-Distance:zwischen zwei per Definition gleich langen Sequenzen,ist die Zahl der Positionen mit unterschiedlichen Zeichen.agtccgta Hamming-Abstand = 2

- Levenshtein-Distance (Edit Distance):zwischen zwei Sequenzen (nicht unbedingt gleich lang), ist die Mindestzahl von Editieroperationen, die erforderlich sind, um eine Kette in die andere umzuwandeln. ag-tcccgctca Levenshtein-Abstand = 3Editieroperationen: Deletion, Insertion oder Punktmutation in einer SequenceBestimmte Abfolge von Editieroperationen führt zu einem einzigen Alignment, aber umgekehrt gilt dieser Zusammenhang nicht!

Page 12: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-12Sequenzvergleiche

Maße für Sequenzähnlichkeit (II)Maße für Sequenzähnlichkeit (II)

Problem: bestimmte Abweichungen unterschiedlich wahrscheinlich:- Ähnliche Aminosäuren (physikalische, chemische

Eigenschaften) häufiger ausgetauscht verschiedene Editieroperationen bekommen

unterschiedliche Wichtung Computerprogramm ermittelt nicht nur Mindest-

Editierabstand sondern auch optimales Alignment Wichtungen für Einzelschritte addieren und so

Gesamt-SCORE ermitteln Bei Substitutionen wird Wert der Mutation addiert. Bei horizontalen und vertikalen Zügen wird

„Lückenstrafe“ (gap penalty) gezählt.

Page 13: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-13Sequenzvergleiche

Maße für Sequenzähnlichkeit:Maße für Sequenzähnlichkeit:Scoring-Schemata (I)Scoring-Schemata (I)

entspricht einem Bewertungssystem Handling von Substitutionen, Insertionen und Deletionen Sequenz 1 Insertion -> Sequenz 2 Deletion und umgekehrt Gewichtung der Deletion (Lücken in Sequenz) hängt von Länge ab Hamming und Leveshtein -> Maße für Unähnlichkeit!!!

geringer Abstand -> ähnlich großer Abstand -> unähnlich

Scores in Molekularbiologie sind Maß für Sequenzähnlichkeit:ähnliche Sequenz -> hoher Scoreunähnliche Sequenz -> niedriger Score

Algorithmen zum Finden des optimalen Alignments suchen entweder nach geringem Wert für Unähnlichkeit oder nach möglichst hohem Score für Ähnlichkeit!

Achtung Unterschied zwischen Homologie und Ähnlichkeit beachten!!!

Page 14: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-14Sequenzvergleiche

Maße für Sequenzähnlichkeit:Maße für Sequenzähnlichkeit:Scoring-Schemata (II)Scoring-Schemata (II)

bei Nukleinsäuresequenzen häufig Verwendung eines einfaches Schemas für Substitutionen: - Übereinstimmung: +1- Fehlpaarung: -1

komplizierte Schemata berücksichtigen folgende Tatsache:- Transitionen häufiger als Transversionen- Transition: Purin <-> Purin, Pyrimidin <-> Pyrimidin, z. B. a <-

> g, t <-> c - Transversion: Purin <-> Pyrimidin, (a, g) <-> (t, c)- Beispiel:

a t g ca 20 5 10 5t 5 20 5 10g 10 5 20 5c 5 10 5 20

Page 15: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-15Sequenzvergleiche

Maße für Sequenzähnlichkeit:Maße für Sequenzähnlichkeit:Scoring-Schemata (III)Scoring-Schemata (III)

bei Aminosäuresequenzen verschieden Bewertungssysteme:- ähnliche physikalische und chemische Eigenschaften (+1 und -1)- lernen der Schemata (M. O. Dayhoff): statistische

Austauschhäufigkeit in bekannten Sequenzen werden ausgenutzt -> heute veraltet

- heute Nutzung neue Sequenzdaten und Mutationsstatistiken- neue Matrizen:

• PAM (Percent Accepted Mutation): 2 Sequenzen mit PAM 1 zu 99% identische Sequenzen

• BLOSUM (BLOcks SUbstitution Matrix) von S. Henikoff und J. G. Henikoff Basis BLOCKS-Datenbank für Protein-Sequenaligments für Abschnitte sehr ähnlicher Proteine, bei denen Alignment ohne Lücken

möglich, wird Verhältnis zwischen Zahl beobachteter Aminosäurenpaare an jeder einzelnen Position und der Zahl solcher Paare die man aufgrund der Gesamthäufigkeit der Aminosäuren erwartet, berechnet

Verhältnis logarithmisch angeben zur Vermeidung der Übergewichtung eng verwandter Sequenzen Ersetzung

der Proteingruppen über einem bestimmten Schwellenwert durch einen einzigen Vertreter oder durch gewichteten Mittelwert

Beispiel Schwellwert 62 % -> BLOSUM62

Page 16: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-16Sequenzvergleiche

Beispiel: BLOSUM62 MatrixBeispiel: BLOSUM62 MatrixAla A Arg RAsn NAsp DCys CGln QGlu EGly GHis HIle ILeu LLys KMet MPhe FPro PSer SThr TTrp WTyr YVal V

Page 17: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-17Sequenzvergleiche

Bewertung von Insertionen und Bewertung von Insertionen und Deletionen (Lückengewichtung)Deletionen (Lückengewichtung)

neben Substitutionsmatrizen weiteres Kriterium erforderlich Welche Bedeutung haben Insertionen und Deletionen im

Verhältnis zu Substitutionen? Beispiele:

aaagaaaaaa-aaa

Erweiterung von Lücken:aaaggggaaaaaa----aaa

Empfehlung von CLUSTAL-W für DNA-Sequenzen:- +1 für Übereinstimmung- 0 für Unterschied- Strafe von 10 für neu eingeführte Lücken- sowie 0,1 für die Lückenerweiterung um einen Baustein

Empfehlung von CLUSTAL-W für AA-Sequenzen:- BLOSUM-Matrix für Substitutionen- Strafe von 11 für neu eingeführte Lücken- sowie 1 für die Lückenerweiterung um einen Baustein

Page 18: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-18Sequenzvergleiche

Berechnung des Alignements von zwei Berechnung des Alignements von zwei SequenzenSequenzen

Voraussetzung: 2 Sequenzen,

Scoring-Schema (Substitutionsmatrix + Gap Penalty)

Gesucht: Alignment mit möglichst hohem Score Beispiel für Lösung: Dynamic Programing

- Verfahren für garantiert zu einem globalen Optimum: bestes Alignment mit höchstem Score wird gefunden

- schlecht: viele Alignments haben gleichen Optimalwert! Frage: Wie vergleichen -> Struktur!

- Rechenzeit: n x m Sequenzen alignen -> Zeit ist proportional zu n x m -> Effizienzproblem

Abwandlungen des Verfahrens: Needleman & Wunsch oder Smith & Waterman (Verweis auf Literatur)

Näherungsverfahren

Page 19: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-19Sequenzvergleiche

Globales vs. Lokales AlignmentGlobales vs. Lokales Alignment

Page 20: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-20Sequenzvergleiche

BLAST BLAST II BLAST (Altschul et al. 1990) = Basic Local Alignment Search Tool BLAST berechnet zu einem Datenbankstring T und Anfragestring

W alle Segmentpaare, die sich mit einem Score mit einer Mindestgröße alignieren lassen.

Alle diese Segmentpaare lassen sich effizient ermitteln, wenngleich dies algorithmisch nicht völlig trivial ist.

Sie werden „hot-spots“ oder „hits“ genannt. Nun versucht BLAST, durch Ausdehnen der hot-spots an den

beiden Enden sog. lokal maximale Segmentpaare zu erzeugen.

Dabei heißt ein Segmentpaar lokal maximal, falls es weder durch Verlängern um jeweils einen Buchstaben an einem Ende noch durch Verkürzen um jeweils einen Buchstaben an einem Ende möglich ist, den Score zu vergrößern.

Page 21: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-21Sequenzvergleiche

BLAST BLAST IIII Beispielsweise wäre folgendes (hell- und dunkelblau gezeichnete)

Segmentpaar (bei einer einfachen Editier-Scoringfunktion) lokal maximal:

Sowohl Verlängern wie Verkürzen würde den Score reduzieren! Das lokal maximale Segmentpaar aus dem (dunkelblau gezeichneten) „hot-

spot“ AGT ist durch Verlängern hervor gegangen. Damit wird klar, dass bei diesem Vorgang zeitweise eine Verschlechterung

des Scores hingenommen werden musste. BLAST toleriert solche zeitweiligen Verschlechterungen, aber nur bis zu einem

gewissen Maß, das vom bislang schon erreichten besten Score und Voreinstellungen abhängt.

Lokal maximale Segmentpaare werden sodann zu größeren lokalen Alignments kombiniert; hierbei ergeben sich nun auch InDels in den Alignments.

Page 22: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-22Sequenzvergleiche

Verschiedene BLAST-VerfahrenVerschiedene BLAST-Verfahren

Werkzeuge zurSuche ähnlicher

Sequenzen

Aminosäuren-sequenz DNA-Sequenz

BLASTx tBLASTxBLASTntBLASTnBLASTp

Vergleich mitProteinsequenz-

datenbank

Vergleich mitübersetzter

Nucleotidsequenz-datenbank

Vergleich mitNucleotidsequenz-

datenbank

Vergleich mitProteinsequenz-

datenbank

Vergleich mitübersetzter

Nucleotidsequenz-datenbank

Page 23: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-23Sequenzvergleiche

Beispiel zum BLASTenBeispiel zum BLASTen Eingabe: menschliches Calmodulin:

MADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREADIDGDGQVNYEEFVQMMTAK

BLASTp gegen eine Protein-Datenbank z.B. SWISS-PROT

Ergebnis?

Treffer bei Calmodulin der Gerste:>sp|P13565|CALM_HORVU|D82AB985CC12833C (CAM..)Calmodulin.[Hordeum vulgare] Length = 148 Score = 274 bits (701), Expect = 2e-73 Identities = 134/148 (90%), Positives = 144/148 (96%) Query: 2 ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGN ADQLT++QIAEFKEAFSLFDKDGDG ITTKELGTVMRSLGQNPTEAELQDMINEVDADGN Sbjct: 1 ADQLTDDQIAEFKEAFSLFDKDGDGCITTKELGTVMRSLGQNPTEAELQDMINEVDADGN ...

ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGN ADQLTDDQIAEFKEAFSLFDKDGDGCITTKELGTVMRSLGQNPTEAELQDMINEVDADGN

Page 24: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-24Sequenzvergleiche

Gersten-CalmodulinGersten-Calmodulin

„Entdeckung“ Ende der 80er Jahre(10 Jahre später als menschliches Calmodulin)

wahrscheinlich Erkenntnis durch in silico Biologie

Grund ist große Übereinstimmung in der Aminosäure-Sequenz

durch unterschiedlichen Codon-Usage ist Ähnlichkeit auf Nukleotid-Sequenz-Ebene nicht so groß

Page 25: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-25Sequenzvergleiche

Detailliertes Beispiel für Detailliertes Beispiel für BLAST-OutputBLAST-Output

Input im FASTA-Format:>HO03H10SCCATCACCAAAGGTGGCCCAAGAGAGCCATGGCATGATATCCATTCACGATTGGAAGGTCCAATTGCCTGGGATGTTCTTTACAATTNCGAGCNCAGATGGANAAAGCAGGGTGGCANANATCTTCTCGTGCAGCTCAGGGATCTCTCTGACATAATTATCCCCCCATCTCCCGTCATGTTNCCAGAGGACAGAGATACATGGAATGTCCAGCTCTTCAGATCTATTGATGGTGGTGCTGCTTTTGGCTTCCCTGACACTCCCGAGGAAGCTGCCAGGGCTGGGCTTGTAAGTGGAAAGGATCAAATCATTGACAGGAGCATCCAGNATGCATACATCAATGCCATTCGGCGGGCGAAGGACTTTCATCTACATTGAGAACCAGTACTTCCTTTGG

Blast-Programm: BLASTX Ziel - “Datenbank“: NRPEP vollständiges – Resultat: Übung

Page 26: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-26Sequenzvergleiche

Bedeutung des Alignments IBedeutung des Alignments I Ähnlichkeit festgestellt ->

neue Frage: Zufall oder Signifikanz bei Münzwurf Wahrscheinlichkeit eines Treffers leicht

berechenbar schwieriger in unserem Fall, wenn es um Sequenzen

geht!!! praktische Lösung des Problems:

- Ist die Gewichtung des tatsächlich beobachteten Alignments nicht größer als man es nach zufälliger Umstellung der Sequenz erwartet, hat man es wahrscheinlich mit einem Zufallsergebnis zu tun!

- Sequenz kann viele Male nach Zufallsprinzip verändert werden - danach Alignment durchführen, Scores sammeln und Ergebnis

analysieren- wenn Zufallssequenzen gleichen Score ergeben ist

ursprüngliches Alignment nicht aussagekräftig

Page 27: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-27Sequenzvergleiche

Bedeutung des Alignments IIBedeutung des Alignments II Notwendigkeit der Definition von Maßen für Güte eines Alignments 1. Möglichkeit: Z-Score Z-Score ist ein Maß dafür, wie ungewöhnlich oder originell eine

Übereinstimmung ist, gemessen am Mittelwert und der Standardabweichung für die Scores der gesamten Population.

für Alignment mit Score S gilt:

Beispiel: Z-Score = 0 -> beobachtete Ähnlichkeit ist nicht größer als im Durchschnitt der Kontrollpopulation und kann demnach durch „Zufall“ entstanden sein

je höher Z-Score, desto höher Wahrscheinlichkeit das Alignment kein Zufallsprodukt

Erfahrung Z-Score 5 -> Signifikanz

weichungStandardabMittelwert - S S von Score-Z

Page 28: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-28Sequenzvergleiche

Bedeutung des Alignments IIIBedeutung des Alignments III2. Möglichkeit: P-Wert P ist Wahrscheinlichkeit, dass das Alignment nicht besser als ein

Zufallsprodukt ist. Beziehung zwischen Z und P abhängig von der Verteilung der Scores

in der Kontrollpopulation, entspricht aber nicht der Normalverteilung Richtlinie für die Interpretation von P-Werten:

P 10-100 genaue ÜbereinstimmungP zwischen 10-100 und 10-50 nahezu identische Sequenzen, z. B. Allele oder SNPsP zwischen 10-50 und 10-10 eng verwandte Sequenzen, Homologie gesichertP zwischen 10-10 und 10-1 in der Regel entfernte VerwandteP > 10-1 Ähnlichkeit vermutlich nicht signifikant

Page 29: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-29Sequenzvergleiche

Bedeutung des Alignments IIIBedeutung des Alignments III3. Möglichkeit: E-Wert E ist die voraussichtliche Zahl der Sequenzen, die den gleichen oder besseren

Z-Wert liefern, wenn die Datenbank mit einer Zufallssequenz durchsucht wird. E ist Produkt aus P und der Größe der durchsuchten Datenbank -> E abhängig von der Größe der Datenbank -> P nicht abhängig von der Größe der Datenbank P liegt immer zwischen 0 und 1 E liegt zwischen 0 und Gesamtzahl der Sequenzen in der Datenbank Richtlinie für die Interpretation von E-Werten:

E 0,02 Sequenzen vermutlich homologE zwischen 0,02 und 1 Homologie ist nicht auszuschließenE > 1 Es ist damit zu rechnen, dass diese

„gute“ Übereinstimmung reiner Zufall ist Achtung:

Statistik liefert nur Anhaltspunkte, ist aber kein Ersatz für vernünftiges Nachdenken über die Ergebnisse und für die weitere Analyse derer, die viel versprechend aussehen!!!

Page 30: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-30Sequenzvergleiche

Multiple AlignmentsMultiple Alignments

Motivation:

“The Holy Grail”

“Pairwise alignment whispers multiple alignment shouts out loud”

im Anschluss: kurzer Überblick anschließend Präsentation anhand eines speziellen Verfahrens

Page 31: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-31Sequenzvergleiche

Multiple Alignments I :Multiple Alignments I :Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik) Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik)

und EMBO-Kurs 2002und EMBO-Kurs 2002

Page 32: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-32Sequenzvergleiche

Multiple Alignments II :Multiple Alignments II :Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik) Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik)

und EMBO-Kurs 2002und EMBO-Kurs 2002

Page 33: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-33Sequenzvergleiche

Multiple Alignments III :Multiple Alignments III :Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik) Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik)

und EMBO-Kurs 2002und EMBO-Kurs 2002

Page 34: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-34Sequenzvergleiche

Multiple Alignments IV :Multiple Alignments IV :Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik) Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik)

und EMBO-Kurs 2002und EMBO-Kurs 2002

Page 35: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-35Sequenzvergleiche

Multiple Alignments V :Multiple Alignments V :Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik) Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik)

und EMBO-Kurs 2002und EMBO-Kurs 2002

Page 36: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-36Sequenzvergleiche

Multiple Alignments VI :Multiple Alignments VI :Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik) Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik)

und EMBO-Kurs 2002und EMBO-Kurs 2002

Page 37: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-37Sequenzvergleiche

Multiple Alignments VII :Multiple Alignments VII :Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik) Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik)

und EMBO-Kurs 2002und EMBO-Kurs 2002

Page 38: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-38Sequenzvergleiche

Multiple Alignments VIII :Multiple Alignments VIII :Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik) Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik)

und EMBO-Kurs 2002und EMBO-Kurs 2002

Page 39: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-39Sequenzvergleiche

Multiple Alignments IX :Multiple Alignments IX :Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik) Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik)

und EMBO-Kurs 2002und EMBO-Kurs 2002

Page 40: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-40Sequenzvergleiche

Multiple Alignments X :Multiple Alignments X :Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik) Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik)

und EMBO-Kurs 2002und EMBO-Kurs 2002

Page 41: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-41Sequenzvergleiche

Multiple Alignments XI :Multiple Alignments XI :Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik) Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik)

und EMBO-Kurs 2002und EMBO-Kurs 2002

Page 42: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-42Sequenzvergleiche

Multiple Alignments XII :Multiple Alignments XII :Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik) Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik)

und EMBO-Kurs 2002und EMBO-Kurs 2002

Page 43: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-43Sequenzvergleiche

Multiple Alignments XIII :Multiple Alignments XIII :Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik) Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik)

und EMBO-Kurs 2002und EMBO-Kurs 2002

Page 44: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-44Sequenzvergleiche

Multiple Alignments XIV :Multiple Alignments XIV :Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik) Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik)

und EMBO-Kurs 2002und EMBO-Kurs 2002

Page 45: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-45Sequenzvergleiche

Multiple Alignments XV :Multiple Alignments XV :Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik) Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik)

und EMBO-Kurs 2002und EMBO-Kurs 2002

Page 46: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-46Sequenzvergleiche

Multiple Alignments XVI :Multiple Alignments XVI :Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik) Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik)

und EMBO-Kurs 2002und EMBO-Kurs 2002

Page 47: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-47Sequenzvergleiche

Multiple Alignments XVII :Multiple Alignments XVII :Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik) Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik)

und EMBO-Kurs 2002und EMBO-Kurs 2002

Page 48: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-48Sequenzvergleiche

Multiple Alignments XVIII :Multiple Alignments XVIII :Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik) Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik)

und EMBO-Kurs 2002und EMBO-Kurs 2002

Page 49: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-49Sequenzvergleiche

Multiple Alignments XIX :Multiple Alignments XIX :Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik) Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik)

und EMBO-Kurs 2002und EMBO-Kurs 2002

Page 50: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-50Sequenzvergleiche

Multiple Alignments XX :Multiple Alignments XX :Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik) Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik)

und EMBO-Kurs 2002und EMBO-Kurs 2002

Page 51: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-51Sequenzvergleiche

Multiple Alignments XXI :Multiple Alignments XXI :Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik) Vorlagen: Vorlesung Uni-Jena (Softwarewerkzeuge in der Bioinformatik)

und EMBO-Kurs 2002und EMBO-Kurs 2002

Page 52: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-1 Sequenzvergleiche Sequenzvergleiche.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #3-52Sequenzvergleiche

Beispiel Multiple Alignments:Beispiel Multiple Alignments:http://pgrc.ipk-gatersleben.de/cr-esthttp://pgrc.ipk-gatersleben.de/cr-est

praktischen Beispiel für multiple Alignments: Clustering von ESTs -> berechnete Consensus-Sequenzen