1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005...

25
1 Whole Genome Alignment mit Suffixbäumen „Fortgeschrittene Algorithmische Bioinformatik“ SoSe 2005 Emre Kutbay

Transcript of 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005...

Page 1: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

1

Whole Genome Alignment mit Suffixbäumen

„Fortgeschrittene Algorithmische Bioinformatik“SoSe 2005

Emre Kutbay

Page 2: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

2

Agenda

• Einleitung - Was ist MUMer?

• MUMer Core-Algorithmus

• NUCmer - PROmer

• weitere Tools

Fortgeschrittene Algorithmische Bioinformatik, SS05

Page 3: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

3

Einleitung – was ist MUMer

• Chromosome von Säugetieren alignieren

• Inversionen & Duplikationen finden

• alignieren der DNA-Sequenzen auf Proteinebene

Fortgeschrittene Algorithmische Bioinformatik, SS05

Page 4: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

4

Einleitung – was ist MUMer

Fortgeschrittene Algorithmische Bioinformatik, SS05

Quelle: Multi-BUS: An algorithm for resolving multi-species gene correspondence and gene family relationships.

Page 5: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

5

Einleitung – was ist MUMer

• Output von verschiedenen Assemblern bewerten

• Assemblierung in verschiedenen Stadien eines WGSS-Projektes bewerten

• Modularer Aufbau

• Open Source - http://mummer.sourceforge.net

Fortgeschrittene Algorithmische Bioinformatik, SS05

Page 6: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

6

Agenda

• Einleitung

• MUMer Core-Algorithmus

• NUCmer - PROmer

• weitere Tools

Fortgeschrittene Algorithmische Bioinformatik, SS05

Page 7: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

7

Algorithmen

1. Suffix-Tree mit 12.5-15.4 bytes/bp• Krutz

2. Streaming der query-Sequenz• Nur eine Sequenz wird gespeichert

3. Cluster bilden und konsistente Pfade innerhalb von Clustern finden

• Rearrangements in Chromosomen finden

Fortgeschrittene Algorithmische Bioinformatik, SS05

Page 8: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

8

Algorithmus: streaming

Querysequenz:…atgtcc…

Fortgeschrittene Algorithmische Bioinformatik, SS05

Refernzsequenz:

Page 9: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

9

Algorithmus: streaming

Vorteil: • Nur einer der beiden Sequenzen wird

im Suffixtree gespeichert• Viele Sequenzen können gegen diesen

gestreamt werdenNachteil:• Erhöht Aufwand um uniqueness in der

Querysequenz sicherzustellen…• braucht man nicht immer

Fortgeschrittene Algorithmische Bioinformatik, SS05

Page 10: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

10

Agenda

• Einleitung

• Algorithmen von MUMer

• NUCmer – PROmer

• weitere Tools

Fortgeschrittene Algorithmische Bioinformatik, SS05

Page 11: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

11

NUCmer: clustering

1. mit MUMer: MUMs der Länge mindestens l finden

2. 2 MUMs maximal g Nukleotide voneinander entfernt: cluster bilden

3. Pfad mit den meisten kolinearen Matches in jedem Cluster ermitteln

4. Wenn die Anzahl der Matches > c: SW-Alignment in Zwischenräumen der Matches und Grenzen des Clusters

Fortgeschrittene Algorithmische Bioinformatik, SS05

Page 12: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

12

PROmer: entfernte Verwandte

1. Übersetzen aller 6 reading Frames der Referenz- und der Querysequenz in Proteine

2. MUMs finden mittels MUMer3. Cluster bilden und erweitern mittels

BLOSSUM624. Alle Alignments zurück auf DNA-

Koordinaten abbilden

Fortgeschrittene Algorithmische Bioinformatik, SS05

Page 13: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

13

NUCmer – PROmer: output

Output: Serie von unabhängigen Alignment Regionen

Fortgeschrittene Algorithmische Bioinformatik, SS05

Page 14: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

14

NUCmer – PROmer: Kritik

Clustering:

• Problem: MUMs in einem Cluster überlappen sich

• NUCmer/PROmer sucht kolineares Alignment, mit den meißten MUMs

• am besten alle im Cluster

• entfernen überlappender Teile der MUMs -> inkonsistentes Alignment

Fortgeschrittene Algorithmische Bioinformatik, SS05

Page 15: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

15

Optimal

MUMer

NUCmer – PROmer: Kritik

Fortgeschrittene Algorithmische Bioinformatik, SS05

MUMs

Page 16: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

16

PROmer: Kritik

Sensitivität: • MUMer sucht nach allen „l-guten“

Teilwörtern – auch bei Proteinen• Blast:

1. erzeuge Keyword-Tree aller Permutationen der Amino-Suchsequenz,

2. bewerte diese mit BLOSUM623. nimmt die Sequenzen mit einem größeren

Score als l mit in die Suchquery auf Bsp.: MASGTLVWG und MTSDTSVRG

Fortgeschrittene Algorithmische Bioinformatik, SS05

Page 17: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

17

Agenda

• Einleitung

• Algorithmen von MUMer

• NUCmer - PROmer

• weitere Tools

Fortgeschrittene Algorithmische Bioinformatik, SS05

Page 18: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

18

shotgung-sequencing

1. Genom wird in Stücke zerlegt• Viele Millionen: 2 bis 150 kb

2. Ca. 650 bp werden sequenziert• Das sind die „reads“

• Genom ist zu >99% sequenziert, wenn man genug reads hat um es 8x abzudecken

Stück (2 – 150kbp) read (650bp)

Fortgeschrittene Algorithmische Bioinformatik, SS05

Page 19: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

19

shotgung-sequencing

• Bei 2Mb bakterielles Genom braucht man ca. 25.000 reads, da:25.000 x 650bp > 2.000.000bp x8

4. Reads werden assembliert• output: viele Tausend contigs

5. „Finishing“: Reihenfolge und Orientierung der Contigs ermitteln und Gaps füllen

Fortgeschrittene Algorithmische Bioinformatik, SS05

Page 20: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

20

Weitere Tools – DisplayMUMs

Fortgeschrittene Algorithmische Bioinformatik, SS05

zoomend in nucleotide alignment

alignment summary

Alignment tiles

Page 21: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

21

DisplayMUMs

• Vergleich des Outputs zweier Assembler

– Bewertung der „Güte“ von Assemblern

aus: Weizman Institute of Science

• Vergleich von Sequenzen zweier nah verwandter Spezies

Fortgeschrittene Algorithmische Bioinformatik, SS05

Page 22: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

22

Weitere Tools – MapView

Fortgeschrittene Algorithmische Bioinformatik, SS05

Referenzsequenz

Match

Vergrößerung

Alternative Splicevarianten

100%

75%

50%

Page 23: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

23

ReferenzenReferenzen:

Fast algorithms for large-scale genome alignment and comparison• Delcher, A. L., Phillippy, A., Carlton, J. and Salzberg, S. L.

Versatile and open software for comparing large genomes• Stefan Kurtz, Adam Phillippy, Arthur L Delcher, Michael Smoot, Martin

Shumway, Corina Antonescu and Steven L. Salzberg

An applications-focused review of comparative genomics tools: capabilities, limitations and future challenges.

• Chain, P., Kurtz, S., Ohlebusch, E. and Slezak, T.

Skript Bioinformatik WS 2004/2005• Leser U.

Fortgeschrittene Algorithmische Bioinformatik, SS05

Page 24: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

24

ReferenzenBildmaterial:

Multi-BUS: An algorithm for resolving multi-species gene correspondenceand gene family relationships• Matthew Rasmussen, Manolis Kellis

Weizman Institute of Science• http://www.weizmann.ac.il/biological_services/dna_seq/dna_seq.html

Fortgeschrittene Algorithmische Bioinformatik, SS05

Page 25: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

25

Ende

Fragen?

Fortgeschrittene Algorithmische Bioinformatik, SS05