R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten ...

89
R N A Falten & Finden

Transcript of R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten ...

Page 1: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

R N AFalten & Finden

Page 2: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 2

Übersicht:

RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2

Beispiele Leptomonas collosoma Bakteriophage Auswertung

Probability Profiling Accessibility Plots Samplegröße Sfold

RNA finden

Page 3: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 3

Übersicht:

RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2

Beispiele Leptomonas collosoma Bakteriophage Auswertung

Probability Profiling Accessibility Plots Samplegröße Sfold

RNA finden

Page 4: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 4

Sekundärstrukturen und deren Funktion

Ständig wiederkehrende Motive in RNA-Struktur erkennbar

RNA besteht hauptsächlich aus Kombinationen dieser Motive

Achtung: keine Pseudoknoten berücksichtigt

Page 5: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 5

Sekundärstrukturen und deren Funktion

RNA-Sekundärstrukturen wichtig für: Katalyse (Ribozyme) RNA-Splicing Regulation der Translation Interaktionen zwischen Nucleinsäuren

Sekundärstrukturen bestimmen auch die Tertiärstruktur

korrekte Sekundärstruktur wichtig für korrekte Tertiärstruktur

korrekte Sekundärstruktur wichtig für korrekte Funktion

Strukturbestimmung experimentell schwierig Besonders für langkettige Nucleinsäuren

rechnergestützte Strukturvorhersage extrem wichtig

Page 6: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 6

Übersicht:

RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2

Beispiele Leptomonas collosoma Bakteriophage Auswertung

Probability Profiling Accessibility Plots Samplegröße Sfold

RNA finden

Page 7: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 7

Algorithmus - Grundidee

Annahme: Faltung nur in bestimmte Sekundärstrukturelemente

Ansatz verfolgt Minimierung der freien Energie

Energie (U): Nimmt ab, wenn z.B. Bindungen ausgebildet werden

Entropie (S): Maß für die „Unordnung“ eines Systems Nimmt nach 2. Hauptsatz der Thermodynamik zu

Freie Energie (Helmholtz Energie, F): F = U – T*S Setzt Entropie und Energie in Beziehung

Page 8: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 8

Algorithmus - Grundidee

Algorithmus arbeitet in 2 Schritten:

Schritt 1: Untersucht bildbare Sekundärstrukturen der Sequenz (und ihre freie Energie) Errechnet „Zustandssummen“ für Teilsequenzen

Schritt 2: Errechnet mit Zustandssummen Gibbs-Boltzmann-Verteilung (Ws) der Strukturen Wählt zufällige Kombination von Sekundärstrukturen aus

********************************* --______------_----_--_-_----

„Teilergebnisse“ Sammlung von Basenpaaren

Sekundärstruktur

1) 2)

Page 9: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 9

Algorithmus - Grundidee - Probleme

freien Energie für Sekundärstrukturen nur approximiert durch Änderungen andere Faltungen wahrscheinlicher

Tertiärstruktur (und Effekte) unberücksichtigt

Struktur mit minimaler freier Energie (MFE) muss nicht die reale sein Realität suboptimal

Aber: Algorithmus sucht nicht unbedingt die wahrscheinlichsten Teilstrukturen aus

Page 10: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 10

Übersicht:

RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2

Beispiele Leptomonas collosoma Bakteriophage Auswertung

Probability Profiling Accessibility Plots Samplegröße Sfold

RNA finden

Page 11: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 11

Algorithmus – Vorgehen (I)

Berechnen der „Boltzmann-Statistik“ („Gibbs-Boltzmann-Verteilung“) einerSekundärstruktur Ifür eine gegebene Sequenz S

nach

E(S, I): freie Energie der Sekundärstruktur für diese Sequenz R: Gaskonstante U: Zustandssumme aller zulässigen Sekundärstrukturen für S

Bedeutung: Wahrscheinlichkeit einer bestimmten Sekundärstruktur für eine gegebene Sequenz unter Berücksichtigung aller möglichen Sekundärstrukturen

URT

ISE

IP

),(exp)(

I RTISEU ),(exp

Page 12: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 12

Algorithmus – Vorgehen (I) – Defs.

n: Anzahl an Ribonukleotiden

Rij: Teilsequenz von Nukleotid i bis Nukleotid j 1 ≤ i,j ≤ n rk: Nukleotid an Position k, rk {A, C, G, U} i ≤ k ≤ j

Iij: Sekundärstruktur für Rij, ri und rj paaren eventuell IPij: Sekundärstruktur für Rij, ri und rj paaren miteinander

5‘ 3‘

1… i ….. j… n

Rij

…..…..

Page 13: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 13

Algorithmus – Vorgehen (I)

Zustandssummen für Rij:

mit Sekundärstruktur Iij:

mit Sekundärstruktur IPij:(i und j gepaart)

E(Rij, x): freie Energie der Sekundärstruktur x für Rij R: Gaskonstante T: 310,15 K

Rekursive Berechnung durch Algo vom McCaskill

Iij

ijij

RTIREjiu ),(exp),(

IPij

jij

RTIPiREjiup ),(exp),(

Teilsequenz

Sek.-Strt.

Sek.-Strt.

I RTISEU ),(exp

Erinnerung: Benötigt in:

URT

ISE

IP

),(exp)(

Page 14: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 14

Algorithmus – Vorgehen (I)

Berechnung der u(i, j) bzw. up(i, j)…..

Mit u(1, n) kann Boltzmann-Verteilung (Ws) einer I1n für R1n berechnet werden

URT

ISE

IP

),(exp)(

I RTISEU ),(exp

Iij

ijij

RTIREjiu ),(exp),(

),1(

),(exp)|(

11

11 nuRT

IRE

RIP

nn

nn

Sek.-Strt. = S (Gesamtsequenz)

Genutzt in Schritt 2

Page 15: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 15

Übersicht:

RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2

Beispiele Leptomonas collosoma Bakteriophage Auswertung

Probability Profiling Accessibility Plots Samplegröße Sfold

RNA finden

Page 16: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 16

Algorithmus – Vorgehen (II)

Rij kann 5 verschiedene Zustände annehmen:

5‘ 3‘

1… i ….. j… n

Rij

…..…..

Page 17: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 17

Algorithmus – Vorgehen (II) – nötige Variablen(1)

Ws, eine dieser 5 Möglichkeiten zu wählen (unbekannt, ob r i und rj paaren):

Strafe für Paarung AC bzw. GU

freie Energie für dangling 5‘

freie Energie für dangling 3‘

Array mit zuvor berechneten Variablen

Zuerst h variieren, dann zu den Positionen von h l verändern

URT

ISE

IP

),(exp)(

Page 18: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 18

Algorithmus – Vorgehen (II) – nötige Variablen(2)

Bekannt, dass ri und rj paaren Ws für die 5 möglichen Strukturen:

freie Energie eines Hairpin geschlossen von ri und rj

freie Energie des Stacking-Bp ri und rj

freie Energie eines Bulge bzw. Interior Loop

Möglichkeiten, zwischen h und l einen Bulge bzw. Interior Loop zu sampeln

URT

ISE

IP

),(exp)(

Page 19: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 19

Algorithmus – Vorgehen (II)

Sampeln: berechne die Struktur-Ws für Rij (mit den u(i,j) aus Schritt 1) wähle über eine Zufallsvariable gemäß den berechneten Wahrscheinlichkeiten eine

Möglichkeit

Benutzt zwei Stacks A: verwaltet Tupel (i, j, I) (noch zu faltendes Teilstück)

Sequenz von Nukleotid i bis j I = 1: Nukeotid i und j bilden eine Bindung aus; I = 0: unbekannt, ob i und j paaren

B: Wird durch Algorithmus gefüllt sammelt Basenpaare und ungepaarte Basen

enthält nötige Informationen für Sekundärstruktur

Startzustand: A enthält (1, n, 0)

0 1

Page 20: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 20

Algorithmus – Vorgehen (II)

1) Start mit R1n (also (1, n, 0) auf Stack A), Paarung nicht bekannt bilde die P0, Pij, {Phi}, {Pil}, {Ps1h} für i = 1, j = n; wähle eine Möglichkeit

Mögliche Ergebnisse:

A: ungefaltete Bereiche B: Bindungsbeziehungen

Erinnerung:

I = 0

Keine Paarung, füge ungepaarte Basen von 1 bis n in Stack B ein

(1, n, 1) in Stack A einfügen

(h, n, 1) in Stack A einfügenungepaarte Basen 1 bis (h-1) in Stack B einfügen

(1, l, 1) & (l+1, n, 0) in Stack A einfügen

(h, l, 1) & (l+1, n, 0) in Stack A einfügenUngepaarte Basen von 1 bis (h-1) in Stack B einfügen

Page 21: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 21

Algorithmus – Vorgehen (II)

Füge die ungepaarten Basen in Stack B einFüge das schließende Basenpaar in Stack B einNimm neues Tupel von Stack A

Füge das Basenpaar ij in Stack B einFüge (i+1, j-1, 1) in Stack A einNimm neues Tupel von Stack A

Berechne die QhlBI, i < h,l, < j

Füge Basenpaar ij und ungepaarte Basen des Loops in Stack B einFüge (h, l, 1) in Stack A einNimm neues Tupel von Stack A

2) Nimm nächstes Tupel (i, j, I) für Rij von Stack Aa) I = 0: verfahre wie im letzten Schritt: berechne die P--

b) I = 1: i und j paaren, betrachte die QijH, QijS, QijBI, QijM

A: ungefaltete Bereiche B: Bindungsbeziehungen

Erinnerung:

Page 22: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 22

Algorithmus – Vorgehen (II)

…..

…..

…..

…..

1) Sampel das erste innere Basenpaar (bilde die P--, wähle Möglichkeit, verfahre entsprechend)

2) Sampel das nächste Basenpaar

3) Wiederhole 2, bis alle abgearbeitetNimm neues Tupel von Stack A

Page 23: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 23

Algorithmus – Vorgehen(II)

Sampling im Überblick:

Schritt 1nimm (i, j, I) von A

SampelBasenpaar

I = 0

SampelLoop

I = 1Möglichkeiten der Paarbildung bestimmt

Für jedes Basenpaarinnerhalb des MB-Loop

Struktur bestimmt, zu der Basenpaar zugehörig ist

Stack A Stack B

Stack A leer?

Page 24: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 24

Algorithmus – Vorgehen(II)

Samling-Schritt arbeitet, bis Stack A leer ist Stack B enthält Angaben über Paarungen der n Basen in R1n

1 SekundärstrukturWahrscheinlichkeit eines Struktur nimmt exponentiell mit wachsender freier Energie ab (bedingt durch Boltzmann-Verteilung):

Mit hoher Wahrscheinlichkeit: optimale MFE Mit relativ hoher Wahrscheinlichkeit: gute (suboptimale) MFE Mit geringer Wahrscheinlichkeit: schlechte MFE

Sinnvoll: Sampling-Schritt mehrfach ablaufen lassen statistisch repräsentatives Ergebnis

„Konsensus“-Struktur

Page 25: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 25

Übersicht:

RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2

Beispiele Leptomonas collosoma Bakteriophage Auswertung

Probability Profiling Accessibility Plots Samplegröße Sfold

RNA finden

Page 26: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 26

Beispiele – Leptomonas collosoma

Faltung der „spliced leader“ RNA (SL RNA) von L. collosoma 56 nt lang 2 Sekundärstrukturen identifiziert (Funktion unbekannt)

Vorgehen: Mit Schritt 1 die Ws der Substrukturen berechnet 1000 mal gesampelt Entstandene Sekundärstrukturen verglichen

Ergebnis: 2 generelle Klassen Klasse 1 mit 3 Unterklassen (A, B, C) Klasse 2 mit 2 Unterklassen (A, B)

Page 27: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 27

Beispiele – Leptomonas collosoma

Klasse 1: Alle Unterklassen mit 2 identischen Helices 1: 2:

34203519361837173816 ,,,, CGUAAUCGAU

3025302431233222 ,,, CGUAGCAU

2925302431233222 ,,, CGUAGCAU

Quadratgröße = Häufigkeit der Basenpaare in Samples

mfold(3.1)-Struktur

MFE-Struktur

Weitere 2 Helices gemeinsam

Unterschied in Hairpin

Page 28: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 28

Beispiele – Leptomonas collosoma

Klasse 2: Unterklassen erneut mit 2 identischen Helices Unterklasse B mit zusätzlichem Stem am 5‘-Ende

Quadratgröße = Häufigkeit der Basenpaare in Samples

Page 29: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 29

Beispiele – Leptomonas collosoma

Repräsentanten der Klasse 1:

mfold(3.1)-Struktur

MFE-Struktur

Bis auf Fehlen der kurzen Helix mit mfold-Struktur identisch

identisch

Experimentell bestimmte Faltungsart 1

Page 30: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 30

Beispiele – Leptomonas collosoma

Repräsentanten der Klasse 2:

Experimentell bestimmte Faltungsart 2

identisch

Page 31: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 31

Beispiele – Leptomonas collosoma

Gesamtübersicht Häufigkeiten der Klassen und deren Repräsentanten

• Tatsächliche Faltungsart 1

Tatsächliche Strukturen mit geringer Ws

• mfold-Struktur (MFE)

• Leicht veränderte mfold-Struktur (suboptimale MFE)

• Tatsächliche Faltungsart 2

Page 32: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 32

Übersicht:

RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2

Beispiele Leptomonas collosoma Bakteriophage Auswertung

Probability Profiling Accessibility Plots Samplegröße Sfold

RNA finden

Page 33: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 33

Beispiele – Bakteriophage

Zwischen-Ergebnis aus Tests mit L. collosoma:Algo erzeugt viele alternative Strukturen

Weitere Untersuchung mit Vorhersage von mRNA-Strukturen

Charakteristische Bereiche der cIII-mRNA des Bakteriophagen : das Startcodon (AUG) (0 bis 3) die Shine-Dalgarno-Sequenz (-13 bis -7) nötig zur Translationsinitiierung

Kommt in 2 Konformationen vor

Vorgehen: Sampling-Schritt 100 mal wiederholt Die 100 erzeugten Strukturen von Hand betrachtet und charakterisiert

Page 34: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 34

Beispiele – Bakteriophage

Struktur A: Shine-Dalgarno-Sequenz und Startcodon in Sekundärstrukturen keine Translation Struktur B: Shine-Dalgarno-Sequenz und Startcodon zugänglich Translation möglich

rightmoststem

leftmoststem

middlestem

Page 35: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 35

Beispiele – Bakteriophage

Ergebnis des Samplings: 89/100 Strukturen leichte Variationen von

Struktur A leftmost-Stem in 67/89 exakt

vorhergesagt rightmost-Stem in 72/89 nahezu exakt

vorhergesagt (gelegentlich 2 zusätzliche Paare)

3/100 Strukturen Variationen von Struktur Bzusätzliche Helix in SD-Sequenz enthalten

8 Strukturen, die weder an A noch an B erinnern

rightmoststem

leftmoststem

middlestem

Page 36: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 36

Übersicht:

RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2

Beispiele Leptomonas collosoma Bakteriophage Auswertung

Probability Profiling Accessibility Plots Samplegröße Sfold

RNA finden

Page 37: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 37

Beispiele - Auswertung

Algorithmus erzeugt leicht suboptimale Faltungen, die nahe der MFE liegen

ABER: suboptimale Faltung ist nicht gleich tatsächlicher (suboptimaler) Faltung

Erklärung der Autoren: unbekannte Einflüsse der Tertiärstruktur für verantwortlich für Stabilität

Besser geeignet zur Faltung von mRNA als für funktionelle RNA (z.B. spliced leader)

Page 38: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 38

Übersicht:

RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2

Beispiele Leptomonas collosoma Bakteriophage Auswertung

Probability Profiling Accessibility Plots Samplegröße Sfold

RNA finden

Page 39: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 39

Probability Profiling

Einzelsträngige (ungepaarte) RNA-Regionen interagieren potentiell mit DNA RNA Proteinen (z.B. in Translation)

Vorhersage dieser „accessible sites“ mit dem Sampling-Teil des Algorithmus Erstellen von „Probability Profiles“ (Diagramme) der Weite W (in Nukleotiden)

An Position i wird die Ws aufgetragen, dass die Nukleotide i bis i+(W-1) ungepaart sind(ergibt sich aus Multiplikation der Einzelwahrscheinlichkeiten (aus Statistik))

Zum Vergleich: ss-count; Statistik, in wieviel Prozent aller erzeugten Faltungen Base i ungepaart war

Page 40: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 40

Probability Profiling - Beispiel

mRNA Homo sapiens -Glutamyl-Hydrolase Nukleotide 0 – 60

Page 41: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 41

Probability Profiling - Beispiel

mRNA Homo sapiens -Glutamyl-Hydrolase Nukleotide 1261 – 1322

Page 42: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 42

Probability Profiling - Ergebnis

MFE-Struktur gibt für Vorhersage von „accessible sites“ keine Hinweise Da nur 1 Struktur die MFE-Struktur ist Binäre Entscheidung: in 1 Struktur ist Base in Basenpaar oder nicht

ss-count: betrachtet nur Statistik eines Nukleotids, keine Aussage über nachfolgende

Probability Profile: verlässlichste Aussage der 3 Möglichkeiten da Ws der nachfolgenden Paarungen berücksichtigt

Page 43: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 43

Probability Profiling für Loops

Bisher nur berücksichtig ob gepaart oder ungepaart

Sampling-Schritt gibt aber mit zurück, in welchem Loop-Typ sie enthalten sind Probability Profiling für bestimmte Loops möglich

Page 44: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 44

Probability Profiling für Loops

Loop-Probability-Profiles für Escherichia coli Alanin-tRNA

Hairpin Bulge

Internal MultiKleeblattstruktur der tRNA

Multi

External

Enthält keine Bulges oder Internal Loops dort keine Peaks

„dangling“-3‘-Ende aus Nukleotiden

16% der gesampelten Strukturen haben einen einzelsträngigen Bereich,der zwei gefaltete Domänen vebrindet

Page 45: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 45

Probability Profiling für Loops

Weitere Bedeutung des Hairpin-Loop-Profiles:

Höchster Peak konserviertester Loop

HPlot-Ws der Basen des Anticodon-Loops: G34: 0,968 G35: 0,961 C36: 0,962

Selbst wenn sich die restliches Strukturnicht zum Kleeblatt faltet, bleibt diese„accessible site“ erhalten

Untersuchung weiterer tRNAs interessant, aber schwierig, da modifizierte Basen vorhanden

Page 46: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 46

Übersicht:

RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2

Beispiele Leptomonas collosoma Bakteriophage Auswertung

Probability Profiling Accessibility Plots Samplegröße Sfold

RNA finden

Page 47: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 47

Probability Profiling für Accessibility Plots

Probability Profiles geben Differenzierung zwischen gebunden / einzelsträngig Nucleinsäuren müssen einzelsträngig sein, um zu interagieren Probability Profiles überlagern, um Interaktion vorherzusagen

Target: Homo sapiens -Glutamyl-Hydrolase mRNA

Antisense: insgesamt 1233 nt

Gute Zugänglichkeit zwischen 730 und 750 (target)

Zugängliche Bereiche müssen nicht an gleichen Stellen liegen

Sollten aber gleich lang sein

Page 48: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 48

Übersicht:

RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2

Beispiele Leptomonas collosoma Bakteriophage Auswertung

Probability Profiling Accessibility Plots Samplegröße Sfold

RNA finden

Page 49: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 49

Sampelgröße

Standardgröße: 1000 – repräsentativ!

Beispiel: Homo sapiens -Glutamyl-Hydrolase mRNA 1187 nt ~10303 Sekundärstrukturen (Vergleich: ~1080 Atome im Universum) 2 Sammlungen von 1000 Samples erstellt

Für jede Sammlung ein Histogramm erstelltHistogramme sind identisch

Probability Profiles erstellt:nahezu deckungsgleich

Aber: keine einzige Struktur kommt doppelt vor

Page 50: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 50

Samplegröße - Histogramme

Page 51: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 51

Samplegröße - Probability Profiles

Page 52: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 52

Übersicht:

RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2

Beispiele Leptomonas collosoma Bakteriophage Auswertung

Probability Profiling Accessibility Plots Samplegröße Sfold

RNA finden

Page 53: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 53

Sfold Algorithmus integriert in Paket Sfold Erhältlich z.B. über sfold.wadsworth.org

Laufzeit des Algo: O(n³) Vergleich: Eddy/Rivas: O(n6)

Reeder/Giegerich:O(n4)

Aber dafür mit Pseudoknoten

Sequenz Länge (nt) Zeit (sek) Speicher (MB)

E. coli tRNAAla 76 1,48 14,6

H. sapiens BCRP mRNA 2418 3.505,86 149,2

H. sapiens ESR mRNA 6450 92.995,25 969,1

Vergleich von Rechenzeit und Speicherverbrauch beim Berechnen der Zustandssummen und anschließendem Sampeln von 1000 Strukturen

Page 54: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 54

Übersicht:

RNA falten

RNA finden Motivation und Ansätze Modelle

Prinzip Parameterschätzung Piktogramme

Algorithmus Tests und Ergebnisse Verbesserungen

Page 55: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 55

Übersicht:

RNA falten

RNA finden Motivation und Ansätze Modelle

Prinzip Parameterschätzung Piktogramme

Algorithmus Tests und Ergebnisse Verbesserungen

Page 56: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 56

Motivation & Ansätze

Gefaltete RNA funktionell bedeutsam Steuerung der eigenen Translation Funktion als tRNA Ribozyme

Nicht alle RNA wird wie mRNA translatiert Nicht alle Gene auf DNA codieren für Proteine Einige kodieren auch für funktionelle nicht kodierende RNA (ncRNA)

Ziel: Gene auf DNA erkennen, die für ncRNA kodieren

Problem: entsprechende Gene bisher nicht einheitlich charakterisierbar

Page 57: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 57

Motivation & Ansätze

Maizel 1988: Sekundärstruktur bestimmt Funktion Funktionelle RNA muss also stabile Sekundärstruktur haben Stabil = Minimum der freien Energie Ergebnis Faltungsvorhersage weniger divers Ergebnisse enttäuschend

Badger & Olsen 1999: Anderes Gebiet: Identifizierung von codierenden Regionen in Bakterien Arbeitet mit Alignments von Sequenzen Nutzen BLASTN um Sequenzidentität zwischen 2 Species zu bestimmen Programm CRITICA untersucht Mutationsmuster der gaplosen Bereiche

Mutationen, die AS nicht verändern (synonym): + Score Mutationen, die AS verändern: - Score

Page 58: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 58

Motivation & Ansätze

Rivas & Eddy 2001: Aufbauend auf Idee von Badger & Olsen Erweiterungen: Probabilistisches Modell (Aussage mit Ws)

dritter zusätzlicher Zustand (funktionelle RNA)Alignments mit Gaps zugelassenAlignment nur teilweise relevant (irrelevante Flanken

möglich) Ziel: gegebene Sequenz klassifizieren in

Kodierend für Proteine kodierend für ncRNA Andere Bereiche

Ansatz findet ncRNA mit konservierter Struktur – Probleme: Manche bekannte ncRNA-Gene nicht konserviert Manche konservierte Bereiche nicht ncRNA-Gene

„ncRNA-Gen“ beschreibt Bereich mit konservierter Struktur, Funktionalität muss untersucht werden

Page 59: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 59

Motivation & Ansätze

Eingabe eines Alignments zweier verwandter Genome (DNA-Sequenzen)

Analyse der beobachteten Mutationen Kodierend: Synonyme Mutationen (gleiche AS kodiert) Funktionell: kompensierend, Struktur erhalten Keins: zufällige Mutation

Analyse: Jeder Fall 1 Modell, das entsprechende Sequenzen baut „Nachbau“ des Alignments mit den 3 Modellen Ausgabe der Ws, dass Alignment einem Modell enstpringt Modell mit höchster Ws gewinnt

AGTGCTAGCT

GATGCTAGCT

ncRNA?

Page 60: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 60

Übersicht:

RNA falten

RNA finden Motivation und Ansätze Modelle

Prinzip Parameterschätzung Piktogramme

Algorithmus Tests und Ergebnisse Verbesserungen

Page 61: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 61

Modelle - Prinzip

OTH (weder kodierend noch funktionell) pair-HMM

16 verschiedene Parameter: pOTH(a,b) = Ws(a in Seq X, b in Seq Y) Wahrscheinlichkeit des Alignments: Produkt der Ws der alignierten Positionen

GTTAACTGAGTAACG

GCAAGCTGAGTTACG

| x x | x | | | | | | x | | | GTTAACTGAGTAACG

HMMpair-HMM

Page 62: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 62

Modelle - Prinzip

COD (Gen kodierend für Proteine) pair-HMM Alignierte Sequenzen sollten für gleiches Protein kodieren Synonyme Mutationen, AS-Sequenz unverändert

64 * 64 Parameter: pCOD(a1a2a3, b1b2b3) Emission erfolgt Codon für Codon Gleichzeitig: a1a2a3 in Sequenz X

b1b2b3 in Sequenz Y

Ws des Alignments für einen Reading-Frame: Produkt der Doppel-Codon-Ws Richtiger Reading-Frame nicht bekannt Ws des Alignments:

f

CODfPCODfXYPCODXYP )|(*),|()|(

f = Frame; P(f|COD) = 1/6

GGT……

GGA……

Sequenz X

Sequenz Y

1 Ereignis

G

Page 63: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 63

Modelle - Prinzip

RNA (Gen kodierend für ncRNA) pair Stochastic Context Free Grammar (pSCFG) Mutation ändert Sekundärstruktur nicht Von gleichen Positionen zu gleichen Positionen Watson-Crick-Paarung möglich

Abschnitte in Sek-Struktur: 16 * 16 Parameter pRNA(aLaR, bLbR) Ws (Emission eines Basenpaars in X, homologes Basenpaar in Y)

Ungepaarte Abschnitte: 4 * 4 Parameter pRNA(a, b) Analog zu OTH-Modell

Ws für ein Alignment mit Struktur s: Produkt aus pRNA(xixj, yiyj) für gepaarten Positionen i,j pRNA(xk, yk) für einzelsträngige Positionen k

Richtige Struktur nicht bekannt Ws des Alignments:

TTGTTCGAAAGAACG

TTGACCGAAAGGTCG

s

RNAsPRNAsXYPRNAXYP )|(*),|()|(s = Sekundärstruktur

u vp

Page 64: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 64

Modelle - Prinzip

Problem bei RNA-Modell In COD-Modell alle Frames gleich wahrscheinlich Gilt nicht für Sek-Strukturen in RNA-Modell P(s|RNA) muss für jedes s berechnet werden Gelöst durch früheren Algorithmus von Rivas und Eddy

Viertes Modell (IID) : Erzeugt unabhängige Sequenzen 8 Parameter: pX(a) pY(b)

Klassifikation durch Likelihoods: Wahrscheinlichkeit des Modells gegeben die Daten Bayes‘sche-Posteriori-Ws berechnet: a priori alle 3 Modelle gleich wahrscheinlich Hohe RNA-posteriori-Ws: Alignment Kandidat für ncRNA-Gene

Beurteilung der Güte der Aussage durch log-odds-Score

Page 65: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 65

Übersicht:

RNA falten

RNA finden Motivation und Ansätze Modelle

Prinzip Parameterschätzung Piktogramme

Algorithmus Tests und Ergebnisse Verbesserungen

Page 66: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 66

Modelle - Parameterschätzung

4392 Emission-Ws zu bestimmen Ideal: Trainings-Sets aus Alignments von

Real existierenden RNAs Kodierende Genomregionen Konservierte nicht kodierende Regionen

Keine genügend großen Trainings-Sets verfügbar Mit zufällig erzeugten Sequenzen:

Sequenzen erzeugen Mit Werten aus AS-Substitutionsmatrizen (BLOSUM62) Codon-Ws errechnen (pCOD) Daraus Nucleotid-Substitutions-Ws des OTH-Modells errechnen OTH-Ws mit Basenpaarhäufigkeiten kombinieren RNA-Ws

48 Transitions-Ws „von Hand“ erzeugt: Modelle generieren Sequenzen, mit realen verglichen Suboptimale Methode, bisher aber keine Alternative

Page 67: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 67

Übersicht:

RNA falten

RNA finden Motivation und Ansätze Modelle

Prinzip Parameterschätzung Piktogramme

Algorithmus Tests und Ergebnisse Verbesserungen

Page 68: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 68

Modelle - Piktogramme

IID-Modell: erzeugt 2 unabhängige Sequenzen

S K T

X

Y

F

Emittiert in Seq. X

Emittiert in Seq. Y

Page 69: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 69

Modelle - Piktogramme

OTH-Modell: erlaubt lokale Alignments zwischen 2 Sequenzen

FL

B XY

FJ

FR

E

X

Y

X: emittiert in X, Gap in Y

XY: emittiert in X und Y

Y: emittiert in Y, Gap in X

F: „Flanking States“

O

Page 70: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 70

Modelle - Piktogramme

COD-Modell: Alignment kodierender Bereiche eingebettet in unabhängige Bereiche Neuer Typ von Zuständen: COD

Ermöglichen „indels“ (Insertionen oder Deletionen) Kompensieren Verlust durch Shotgun-Sequenzierung & BLASTN (positions-unabhängig) Emission von ungleichen (und überzähligen) AS-Anzahlen Exemplarische Angabe der entsprechenden Ws:

C(3,3)

C(3,2) 3 verschiedene Zustände

C(3,4) 4 verschiedene Zustände

C(3,0)

3

),(_),( 321321213212,3

b

COD bbbaaapbbaaap

)(*),(),( 432132143213214,3 bpbbbaaapbbbbaaap YCOD

321 ,,

3213213210,3 ),(___),(bbb

COD bbbaaapaaap

)(),( 321,3213213213,3 bbbaaapbbbaaap COD

Alle Möglichkeiten: p,(a1…a,b1…b)

, {0,2,3,4}; a,b {A,C,G,U}

Page 71: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 71

Modelle - Piktogramme

OB B E OE

COD-Modell: Alignment kodierender Bereiche eingebettet in unabhängige Bereiche

C(3,0)

C(0,3)

OJ

Page 72: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 72

Modelle - Piktogramme

RNA-Modell: erzeugt ncRNA-Gene eingebettet in unabhängige Bereiche

Grammatik hat 3 verschiedene Zustände (nicht-Terminale): V: Sequenzfragment, dessen Enden sicher gepaart sind W : Sequenzfragment, dessen Enden eventuell gepaart sind WB: wie W, wird nur benutzt, um Multi-Loops zu starten

11

,01

,10

ee

ee

ee

y

x

'y

x

'y

x

i

i

i

i

yx

yx

WB: identisch

NukleotidY*ustandEmissionszNukleotidX*ustandEmissionsz

2 Arten von Emissionswahrscheinlichkeiten:

))b,(as),b,(as(p RRLL jiRNA

b))(a,s(pRNA

aL………………….aR

bL………………….bR

Emission von gepaarten Nukleotiden in beide Sequenzen

Emission von ungepaarten Nukleotiden

Nukleotid-VektorEmission ja/nein

Erzeugen Gaps im Alignment

Page 73: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 73

Modelle - Piktogramme

RNA-Modell: erzeugt ncRNA-Gene eingebettet in unabhängige Bereiche

OB

OJ

OERNA

Page 74: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 74

Übersicht:

RNA falten

RNA finden Motivation und Ansätze Modelle

Prinzip Parameterschätzung Piktogramme

Algorithmus Tests und Ergebnisse Verbesserungen

Page 75: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 75

Algorithmus - Vorgehen

Eingabe: paarweises Sequenz-Alignment von L alignierten Paaren Scoring des Alignments:

OTH, COD (HMM): Viterbi/Forward Speicher: O(L) Zeit: O(L) RNA (SCFG): CYK/Inside Speicher: O(L²) Zeit O(L³) Für jedes Modell: Ws, dass Alignment von Modell generiert wurde

Alignment Klassifizieren (Bayes‘sche-Posteriori-Ws): Annahme: P(Modeli) sind gleich

)()(*)|()|(

XYPModelPModelXYPXYModelP ii

i

},,{

)(*)|()(OTHCODRNAi

jj ModelPModelXYPXYP

Ws der Klasse bei gegebenem Alignment

Ws des Alignments bei verwendetem Modell

Ws des Modells

Ws des Alignments

Page 76: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 76

Algorithmus - Ergebnis

Bilden von log-odds-Score zur Gütebeurteilung: ld ( beobachtet / erwartet ) Aussage darüber, wie nahe Erwartung an beobachtetem Ereignis ist

Annahme: weder für Proteine noch ncRNA kodierend Log-odds-Score von COD und RNA zu OTH bilden

2 Werte, als Koordinaten in Diagramm Diagramm-Repräsentation der Information

(„Phase Diagram“)

3 verschiedene Fälle: y > x y > 0 RNA x > y x > 0 COD x < 0 y < 0 OTH

)|()|(,

)|()|(),(

XYOTHPXYRNAPld

XYOTHPXYCODPldyx

Page 77: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 77

Übersicht:

RNA falten

RNA finden Motivation und Ansätze Modelle

Prinzip Parameterschätzung Piktogramme

Algorithmus Tests und Ergebnisse Verbesserungen

Page 78: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 78

Tests und Ergebnisse

Tests mit simulierten Daten: Sinn: Daten im Voraus eindeutig klassifiziert, Leistungsfähigkeit beurteilbar Jedes der 3 Modelle (OTH, RNA, COD) generiert 1000 200nt lange Alignments Alle 300 Alignments durch Algorithmus bewertet und klassifiziert

Klassifizierung soll auf Mutationsmuster beruhen, nicht auf Sequenzidentität oder Gap-Häufigkeit

Spalten der Alignments zufällig neu zusammengesetzt Sequenzidentität und Anzahl der Gaps beibehalten

Mutationsmuster, das Veränderung erklärt hat, zerstört

Darstellung in „Phase-Diagrams“

Page 79: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 79

Tests und Ergebnisse

Phase-Diagram der durch COD-erzeugten Alignments:

blau = Klassifizierung der original Alignmentsrot = Klassifizierung nach Shuffling

RNA

OTH COD

Page 80: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 80

Tests und Ergebnisse

Phase-Diagramm der durch RNA erzeugten Alignments

blau = Klassifizierung der original Alignmentsrot = Klassifizierung nach Shuffling

RNA

OTH COD

Page 81: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 81

Tests und Ergebnisse

Phase-Diagramm der durch OTH erzeugten Alignments:

blau = Klassifizierung der original Alignmentsrot = Klassifizierung nach Shuffling

RNA

OTH COD

Page 82: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 82

Tests und Ergebnisse

Tests an simulierten Genomen: Sinn: Untersuchen der Tendenz zu „false Positives“, wenn COD und OTH dominieren Erzeugen von 2 Pseudobakteriengenomen ohne funktionelle RNA:

Länge: 2 Megabasen Länge kodierender Regionen: normalverteilt um 900nt Länge nichtkodierender Regionen: normalverteilt um 100nt ~ 90% kodierend GC-Gehalt: 1) 38,90%

2) 47,25% 3) 57,70%

Anzahl der false Positives: 1) 8 2) 14 3) 21

Erneute Analyse von Genomsatz 3 mit neuem Parametersatz: 1 false Positive Sensitivität sinkt mit steigendem GC-Gehalt, kann angepasst werden

Page 83: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 83

Tests und Ergebnisse

Tests an realen Genomen Sinn: Test unter realistischen Bedingungen Analyse der Genome von Escherichia coli und Salmonella typhi (eng verwandt) Bekannt: 115 RNA-Gene (22 rRNAs, 86 tRNAs, 7 andere)

4290 kodierende Gene

Genom aufgeteilt in 3 Bereiche: 115 RNA-Features (1% des Genoms)4290 ORF-Features (88% des Genoms)2367 intergene Sequenzen (11% des

Genoms)

Jede der 3 „Sammlungen“ gegen Salmonella typhi aligniert, bewertet

Page 84: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 84

Tests und Ergebnisse

ncRNAs ORFsvorhanden 115 4290

In Alignments (>50nt, E < 0,01) 33 3181

erkannt als RNA 33 20

erkannt als COD - 2876

erkannt von alignierten 100% 90,4%

erkannt von gesamt 28,6% 67%

Problem: Blast lieferte nicht ausreichend viele signifikante Alignments Von alignierten Sequenzen Großteil erkannt

Page 85: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 85

Übersicht:

RNA falten

RNA finden Motivation und Ansätze Modelle

Prinzip Parameterschätzung Piktogramme

Algorithmus Tests und Ergebnisse Einsatz und Verbesserung

Page 86: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 86

Einsatz & Verbesserung

Anwendungsgebiete: Erkennen von Kandidaten für ncRNA; positiv identifizierte Regionen weiter untersuchen Erkennen von für Proteine kodierende Regionen

Fehlerquellen und Verbesserungen: Modelle für fixe evolutionäre Distanz (BLOSUM 62) passt nicht auf alle eingegebenen Daten

BLASTN zum Alignieren von positionsunabhängig evolvierten SequenzenAlignment mit Sankoff-Algorithmus sehr teuer: Zeit O(L6), Speicher O(L4)

Training mit zufällig erzeugten Daten nicht optimaltrainiertes System scheint RNA-Modell zu favorisieren

Verfahren sucht nach konservierter Sekundärstrukturkann keine ncRNA erkennen, die nur sehr wenige Sekundärstrukturen ausbildet

Fehlklassifizierung von mRNA mit stark ausgebildeter Sekundärstrukturz.B. zur Translationskontrolle

Page 87: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 87

Übersicht:

RNA falten

RNA finden

Quellen

Page 88: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 88

Quellen

A statistical sampling algorithm for RNA secondary structure prediction; Nucleic Acids Research 31(24) S.7280-7301; Ding, Ye,Lawrence, Charles E.; 2003

Noncoding RNA gene detection using comparative sequence analysis; BMC Bioinformatics 2(8) Eddy, Sean R.,Rivas, Elena; 2001

Page 89: R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Volker Hähnke: RNA - Falten & Finden 89

?