Post on 26-Jan-2016
description
R N AFalten & Finden
Volker Hähnke: RNA - Falten & Finden 2
Übersicht:
RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2
Beispiele Leptomonas collosoma Bakteriophage Auswertung
Probability Profiling Accessibility Plots Samplegröße Sfold
RNA finden
Volker Hähnke: RNA - Falten & Finden 3
Übersicht:
RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2
Beispiele Leptomonas collosoma Bakteriophage Auswertung
Probability Profiling Accessibility Plots Samplegröße Sfold
RNA finden
Volker Hähnke: RNA - Falten & Finden 4
Sekundärstrukturen und deren Funktion
Ständig wiederkehrende Motive in RNA-Struktur erkennbar
RNA besteht hauptsächlich aus Kombinationen dieser Motive
Achtung: keine Pseudoknoten berücksichtigt
Volker Hähnke: RNA - Falten & Finden 5
Sekundärstrukturen und deren Funktion
RNA-Sekundärstrukturen wichtig für: Katalyse (Ribozyme) RNA-Splicing Regulation der Translation Interaktionen zwischen Nucleinsäuren
Sekundärstrukturen bestimmen auch die Tertiärstruktur
korrekte Sekundärstruktur wichtig für korrekte Tertiärstruktur
korrekte Sekundärstruktur wichtig für korrekte Funktion
Strukturbestimmung experimentell schwierig Besonders für langkettige Nucleinsäuren
rechnergestützte Strukturvorhersage extrem wichtig
Volker Hähnke: RNA - Falten & Finden 6
Übersicht:
RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2
Beispiele Leptomonas collosoma Bakteriophage Auswertung
Probability Profiling Accessibility Plots Samplegröße Sfold
RNA finden
Volker Hähnke: RNA - Falten & Finden 7
Algorithmus - Grundidee
Annahme: Faltung nur in bestimmte Sekundärstrukturelemente
Ansatz verfolgt Minimierung der freien Energie
Energie (U): Nimmt ab, wenn z.B. Bindungen ausgebildet werden
Entropie (S): Maß für die „Unordnung“ eines Systems Nimmt nach 2. Hauptsatz der Thermodynamik zu
Freie Energie (Helmholtz Energie, F): F = U – T*S Setzt Entropie und Energie in Beziehung
Volker Hähnke: RNA - Falten & Finden 8
Algorithmus - Grundidee
Algorithmus arbeitet in 2 Schritten:
Schritt 1: Untersucht bildbare Sekundärstrukturen der Sequenz (und ihre freie Energie) Errechnet „Zustandssummen“ für Teilsequenzen
Schritt 2: Errechnet mit Zustandssummen Gibbs-Boltzmann-Verteilung (Ws) der Strukturen Wählt zufällige Kombination von Sekundärstrukturen aus
********************************* --______------_----_--_-_----
„Teilergebnisse“ Sammlung von Basenpaaren
Sekundärstruktur
1) 2)
Volker Hähnke: RNA - Falten & Finden 9
Algorithmus - Grundidee - Probleme
freien Energie für Sekundärstrukturen nur approximiert
durch Änderungen andere Faltungen wahrscheinlicher
Tertiärstruktur (und Effekte) unberücksichtigt
Struktur mit minimaler freier Energie (MFE) muss nicht die reale sein
Realität suboptimal
Aber: Algorithmus sucht nicht unbedingt die wahrscheinlichsten Teilstrukturen aus
Volker Hähnke: RNA - Falten & Finden 10
Übersicht:
RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2
Beispiele Leptomonas collosoma Bakteriophage Auswertung
Probability Profiling Accessibility Plots Samplegröße Sfold
RNA finden
Volker Hähnke: RNA - Falten & Finden 11
Algorithmus – Vorgehen (I)
Berechnen der „Boltzmann-Statistik“ („Gibbs-Boltzmann-Verteilung“) einerSekundärstruktur Ifür eine gegebene Sequenz S
nach
E(S, I): freie Energie der Sekundärstruktur für diese Sequenz R: Gaskonstante U: Zustandssumme aller zulässigen Sekundärstrukturen für S
Bedeutung: Wahrscheinlichkeit einer bestimmten Sekundärstruktur für eine gegebene Sequenz unter Berücksichtigung aller möglichen Sekundärstrukturen
URT
ISE
IP
),(exp
)(
I RT
ISEU
),(exp
Volker Hähnke: RNA - Falten & Finden 12
Algorithmus – Vorgehen (I) – Defs.
n: Anzahl an Ribonukleotiden
Rij: Teilsequenz von Nukleotid i bis Nukleotid j 1 ≤ i,j ≤ n
rk: Nukleotid an Position k, rk {A, C, G, U} i ≤ k ≤ j
Iij: Sekundärstruktur für Rij, ri und rj paaren eventuell
IPij: Sekundärstruktur für Rij, ri und rj paaren miteinander
5‘ 3‘
1… i ….. j… n
Rij
…..…..
Volker Hähnke: RNA - Falten & Finden 13
Algorithmus – Vorgehen (I)
Zustandssummen für Rij:
mit Sekundärstruktur Iij:
mit Sekundärstruktur IPij:
(i und j gepaart)
E(Rij, x): freie Energie der Sekundärstruktur x für Rij
R: Gaskonstante T: 310,15 K
Rekursive Berechnung durch Algo vom McCaskill
Iij
ijij
RT
IREjiu
),(exp),(
IPij
jij
RT
IPiREjiup
),(exp),(
Teilsequenz
Sek.-Strt.
Sek.-Strt.
I RT
ISEU
),(exp
Erinnerung: Benötigt in:
URT
ISE
IP
),(exp
)(
Volker Hähnke: RNA - Falten & Finden 14
Algorithmus – Vorgehen (I)
Berechnung der u(i, j) bzw. up(i, j)…..
Mit u(1, n) kann Boltzmann-Verteilung (Ws) einer I1n für R1n berechnet werden
URT
ISE
IP
),(exp
)(
I RT
ISEU
),(exp
Iij
ijij
RT
IREjiu
),(exp),(
),1(
),(exp
)|(
11
11 nuRT
IRE
RIP
nn
nn
Sek.-Strt. = S (Gesamtsequenz)
Genutzt in Schritt 2
Volker Hähnke: RNA - Falten & Finden 15
Übersicht:
RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2
Beispiele Leptomonas collosoma Bakteriophage Auswertung
Probability Profiling Accessibility Plots Samplegröße Sfold
RNA finden
Volker Hähnke: RNA - Falten & Finden 16
Algorithmus – Vorgehen (II)
Rij kann 5 verschiedene Zustände annehmen:
5‘ 3‘
1… i ….. j… n
Rij
…..…..
Volker Hähnke: RNA - Falten & Finden 17
Algorithmus – Vorgehen (II) – nötige Variablen(1)
Ws, eine dieser 5 Möglichkeiten zu wählen (unbekannt, ob ri und rj paaren):
Strafe für Paarung AC bzw. GU
freie Energie für dangling 5‘
freie Energie für dangling 3‘
Array mit zuvor berechneten Variablen
Zuerst h variieren, dann zu den Positionen von h l verändern
URT
ISE
IP
),(exp
)(
Volker Hähnke: RNA - Falten & Finden 18
Algorithmus – Vorgehen (II) – nötige Variablen(2)
Bekannt, dass ri und rj paaren Ws für die 5 möglichen Strukturen:
freie Energie eines Hairpin geschlossen von r i und rj
freie Energie des Stacking-Bp ri und rj
freie Energie eines Bulge bzw. Interior Loop
Möglichkeiten, zwischen h und l einen Bulge bzw. Interior Loop zu sampeln
URT
ISE
IP
),(exp
)(
Volker Hähnke: RNA - Falten & Finden 19
Algorithmus – Vorgehen (II)
Sampeln: berechne die Struktur-Ws für Rij (mit den u(i,j) aus Schritt 1) wähle über eine Zufallsvariable gemäß den berechneten Wahrscheinlichkeiten eine
Möglichkeit
Benutzt zwei Stacks A: verwaltet Tupel (i, j, I) (noch zu faltendes Teilstück)
Sequenz von Nukleotid i bis j I = 1: Nukeotid i und j bilden eine Bindung aus; I = 0: unbekannt, ob i und j paaren
B: Wird durch Algorithmus gefüllt sammelt Basenpaare und ungepaarte Basen
enthält nötige Informationen für Sekundärstruktur
Startzustand: A enthält (1, n, 0)
0 1
Volker Hähnke: RNA - Falten & Finden 20
Algorithmus – Vorgehen (II)
1) Start mit R1n (also (1, n, 0) auf Stack A), Paarung nicht bekannt bilde die P0, Pij, {Phi}, {Pil}, {Ps1h} für i = 1, j = n; wähle eine Möglichkeit
Mögliche Ergebnisse:
A: ungefaltete Bereiche B: Bindungsbeziehungen
Erinnerung:
I = 0
Keine Paarung, füge ungepaarte Basen von 1 bis n in Stack B ein
(1, n, 1) in Stack A einfügen
(h, n, 1) in Stack A einfügenungepaarte Basen 1 bis (h-1) in Stack B einfügen
(1, l, 1) & (l+1, n, 0) in Stack A einfügen
(h, l, 1) & (l+1, n, 0) in Stack A einfügenUngepaarte Basen von 1 bis (h-1) in Stack B einfügen
Volker Hähnke: RNA - Falten & Finden 21
Algorithmus – Vorgehen (II)
Füge die ungepaarten Basen in Stack B ein
Füge das schließende Basenpaar in Stack B ein
Nimm neues Tupel von Stack A
Füge das Basenpaar ij in Stack B ein
Füge (i+1, j-1, 1) in Stack A ein
Nimm neues Tupel von Stack A
Berechne die QhlBI, i < h,l, < j
Füge Basenpaar ij und ungepaarte Basen des Loops in Stack B ein
Füge (h, l, 1) in Stack A ein
Nimm neues Tupel von Stack A
2) Nimm nächstes Tupel (i, j, I) für Rij von Stack Aa) I = 0: verfahre wie im letzten Schritt: berechne die P--
b) I = 1: i und j paaren, betrachte die QijH, QijS, QijBI, QijM
A: ungefaltete Bereiche B: Bindungsbeziehungen
Erinnerung:
Volker Hähnke: RNA - Falten & Finden 22
Algorithmus – Vorgehen (II)
…..
…..
…..
…..
1) Sampel das erste innere Basenpaar (bilde die P--, wähle Möglichkeit, verfahre entsprechend)
2) Sampel das nächste Basenpaar
3) Wiederhole 2, bis alle abgearbeitetNimm neues Tupel von Stack A
Volker Hähnke: RNA - Falten & Finden 23
Algorithmus – Vorgehen(II)
Sampling im Überblick:
Schritt 1nimm (i, j, I) von A
SampelBasenpaar
I = 0
SampelLoop
I = 1Möglichkeiten der Paarbildung bestimmt
Für jedes Basenpaarinnerhalb des MB-Loop
Struktur bestimmt, zu der Basenpaar zugehörig ist
Stack A Stack B
Stack A leer?
Volker Hähnke: RNA - Falten & Finden 24
Algorithmus – Vorgehen(II)
Samling-Schritt arbeitet, bis Stack A leer ist Stack B enthält Angaben über Paarungen der n Basen in R1n
1 Sekundärstruktur
Wahrscheinlichkeit eines Struktur nimmt exponentiell mit wachsender freier Energie ab (bedingt durch Boltzmann-Verteilung):
Mit hoher Wahrscheinlichkeit: optimale MFE Mit relativ hoher Wahrscheinlichkeit: gute (suboptimale) MFE Mit geringer Wahrscheinlichkeit: schlechte MFE
Sinnvoll: Sampling-Schritt mehrfach ablaufen lassen
statistisch repräsentatives Ergebnis
„Konsensus“-Struktur
Volker Hähnke: RNA - Falten & Finden 25
Übersicht:
RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2
Beispiele Leptomonas collosoma Bakteriophage Auswertung
Probability Profiling Accessibility Plots Samplegröße Sfold
RNA finden
Volker Hähnke: RNA - Falten & Finden 26
Beispiele – Leptomonas collosoma
Faltung der „spliced leader“ RNA (SL RNA) von L. collosoma 56 nt lang 2 Sekundärstrukturen identifiziert (Funktion unbekannt)
Vorgehen: Mit Schritt 1 die Ws der Substrukturen berechnet 1000 mal gesampelt Entstandene Sekundärstrukturen verglichen
Ergebnis: 2 generelle Klassen Klasse 1 mit 3 Unterklassen (A, B, C) Klasse 2 mit 2 Unterklassen (A, B)
Volker Hähnke: RNA - Falten & Finden 27
Beispiele – Leptomonas collosoma
Klasse 1: Alle Unterklassen mit 2 identischen Helices 1: 2:
34203519361837173816 ,,,, CGUAAUCGAU
3025302431233222 ,,, CGUAGCAU
2925302431233222 ,,, CGUAGCAU
Quadratgröße = Häufigkeit der Basenpaare in Samples
mfold(3.1)-Struktur
MFE-Struktur
Weitere 2 Helices gemeinsam
Unterschied in Hairpin
Volker Hähnke: RNA - Falten & Finden 28
Beispiele – Leptomonas collosoma
Klasse 2: Unterklassen erneut mit 2 identischen Helices Unterklasse B mit zusätzlichem Stem am 5‘-Ende
Quadratgröße = Häufigkeit der Basenpaare in Samples
Volker Hähnke: RNA - Falten & Finden 29
Beispiele – Leptomonas collosoma
Repräsentanten der Klasse 1:
mfold(3.1)-Struktur
MFE-Struktur
Bis auf Fehlen der kurzen Helix mit mfold-Struktur identisch
identisch
Experimentell bestimmte Faltungsart 1
Volker Hähnke: RNA - Falten & Finden 30
Beispiele – Leptomonas collosoma
Repräsentanten der Klasse 2:
Experimentell bestimmte Faltungsart 2
identisch
Volker Hähnke: RNA - Falten & Finden 31
Beispiele – Leptomonas collosoma
Gesamtübersicht Häufigkeiten der Klassen und deren Repräsentanten
• Tatsächliche Faltungsart 1
Tatsächliche Strukturen mit geringer Ws
• mfold-Struktur (MFE)
• Leicht veränderte mfold-Struktur (suboptimale MFE)
• Tatsächliche Faltungsart 2
Volker Hähnke: RNA - Falten & Finden 32
Übersicht:
RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2
Beispiele Leptomonas collosoma Bakteriophage Auswertung
Probability Profiling Accessibility Plots Samplegröße Sfold
RNA finden
Volker Hähnke: RNA - Falten & Finden 33
Beispiele – Bakteriophage
Zwischen-Ergebnis aus Tests mit L. collosoma:Algo erzeugt viele alternative Strukturen
Weitere Untersuchung mit Vorhersage von mRNA-Strukturen
Charakteristische Bereiche der cIII-mRNA des Bakteriophagen : das Startcodon (AUG) (0 bis 3) die Shine-Dalgarno-Sequenz (-13 bis -7) nötig zur Translationsinitiierung
Kommt in 2 Konformationen vor
Vorgehen: Sampling-Schritt 100 mal wiederholt Die 100 erzeugten Strukturen von Hand betrachtet und charakterisiert
Volker Hähnke: RNA - Falten & Finden 34
Beispiele – Bakteriophage
Struktur A: Shine-Dalgarno-Sequenz und Startcodon in Sekundärstrukturen keine Translation Struktur B: Shine-Dalgarno-Sequenz und Startcodon zugänglich Translation möglich
rightmoststem
leftmoststem
middlestem
Volker Hähnke: RNA - Falten & Finden 35
Beispiele – Bakteriophage
Ergebnis des Samplings: 89/100 Strukturen leichte Variationen von
Struktur A leftmost-Stem in 67/89 exakt
vorhergesagt rightmost-Stem in 72/89 nahezu exakt
vorhergesagt (gelegentlich 2 zusätzliche Paare)
3/100 Strukturen Variationen von Struktur B
zusätzliche Helix in SD-Sequenz enthalten
8 Strukturen, die weder an A noch an B erinnern
rightmoststem
leftmoststem
middlestem
Volker Hähnke: RNA - Falten & Finden 36
Übersicht:
RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2
Beispiele Leptomonas collosoma Bakteriophage Auswertung
Probability Profiling Accessibility Plots Samplegröße Sfold
RNA finden
Volker Hähnke: RNA - Falten & Finden 37
Beispiele - Auswertung
Algorithmus erzeugt leicht suboptimale Faltungen, die nahe der MFE liegen
ABER: suboptimale Faltung ist nicht gleich tatsächlicher (suboptimaler) Faltung
Erklärung der Autoren: unbekannte Einflüsse der Tertiärstruktur für verantwortlich für Stabilität
Besser geeignet zur Faltung von mRNA als für funktionelle RNA (z.B. spliced leader)
Volker Hähnke: RNA - Falten & Finden 38
Übersicht:
RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2
Beispiele Leptomonas collosoma Bakteriophage Auswertung
Probability Profiling Accessibility Plots Samplegröße Sfold
RNA finden
Volker Hähnke: RNA - Falten & Finden 39
Probability Profiling
Einzelsträngige (ungepaarte) RNA-Regionen interagieren potentiell mit DNA RNA Proteinen (z.B. in Translation)
Vorhersage dieser „accessible sites“ mit dem Sampling-Teil des Algorithmus Erstellen von „Probability Profiles“ (Diagramme) der Weite W (in Nukleotiden)
An Position i wird die Ws aufgetragen, dass die Nukleotide i bis i+(W-1) ungepaart sind(ergibt sich aus Multiplikation der Einzelwahrscheinlichkeiten (aus Statistik))
Zum Vergleich: ss-count; Statistik, in wieviel Prozent aller erzeugten Faltungen Base i ungepaart war
Volker Hähnke: RNA - Falten & Finden 40
Probability Profiling - Beispiel
mRNA Homo sapiens -Glutamyl-Hydrolase Nukleotide 0 – 60
Volker Hähnke: RNA - Falten & Finden 41
Probability Profiling - Beispiel
mRNA Homo sapiens -Glutamyl-Hydrolase Nukleotide 1261 – 1322
Volker Hähnke: RNA - Falten & Finden 42
Probability Profiling - Ergebnis
MFE-Struktur gibt für Vorhersage von „accessible sites“ keine Hinweise Da nur 1 Struktur die MFE-Struktur ist Binäre Entscheidung: in 1 Struktur ist Base in Basenpaar oder nicht
ss-count: betrachtet nur Statistik eines Nukleotids, keine Aussage über nachfolgende
Probability Profile: verlässlichste Aussage der 3 Möglichkeiten da Ws der nachfolgenden Paarungen berücksichtigt
Volker Hähnke: RNA - Falten & Finden 43
Probability Profiling für Loops
Bisher nur berücksichtig ob gepaart oder ungepaart
Sampling-Schritt gibt aber mit zurück, in welchem Loop-Typ sie enthalten sind
Probability Profiling für bestimmte Loops möglich
Volker Hähnke: RNA - Falten & Finden 44
Probability Profiling für Loops
Loop-Probability-Profiles für Escherichia coli Alanin-tRNA
Hairpin Bulge
Internal MultiKleeblattstruktur der tRNA
Multi
External
Enthält keine Bulges oder Internal Loops dort keine Peaks
„dangling“-3‘-Ende aus Nukleotiden
16% der gesampelten Strukturen haben einen einzelsträngigen Bereich,der zwei gefaltete Domänen vebrindet
Volker Hähnke: RNA - Falten & Finden 45
Probability Profiling für Loops
Weitere Bedeutung des Hairpin-Loop-Profiles:
Höchster Peak konserviertester Loop
HPlot-Ws der Basen des Anticodon-Loops: G34: 0,968 G35: 0,961 C36: 0,962
Selbst wenn sich die restliches Strukturnicht zum Kleeblatt faltet, bleibt diese„accessible site“ erhalten
Untersuchung weiterer tRNAs interessant, aber schwierig, da modifizierte Basen vorhanden
Volker Hähnke: RNA - Falten & Finden 46
Übersicht:
RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2
Beispiele Leptomonas collosoma Bakteriophage Auswertung
Probability Profiling Accessibility Plots Samplegröße Sfold
RNA finden
Volker Hähnke: RNA - Falten & Finden 47
Probability Profiling für Accessibility Plots
Probability Profiles geben Differenzierung zwischen gebunden / einzelsträngig Nucleinsäuren müssen einzelsträngig sein, um zu interagieren Probability Profiles überlagern, um Interaktion vorherzusagen
Target: Homo sapiens -Glutamyl-Hydrolase mRNA
Antisense: insgesamt 1233 nt
Gute Zugänglichkeit zwischen 730 und 750 (target)
Zugängliche Bereiche müssen nicht an gleichen Stellen liegen
Sollten aber gleich lang sein
Volker Hähnke: RNA - Falten & Finden 48
Übersicht:
RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2
Beispiele Leptomonas collosoma Bakteriophage Auswertung
Probability Profiling Accessibility Plots Samplegröße Sfold
RNA finden
Volker Hähnke: RNA - Falten & Finden 49
Sampelgröße
Standardgröße: 1000 – repräsentativ!
Beispiel: Homo sapiens -Glutamyl-Hydrolase mRNA 1187 nt ~10303 Sekundärstrukturen (Vergleich: ~1080 Atome im Universum) 2 Sammlungen von 1000 Samples erstellt
Für jede Sammlung ein Histogramm erstelltHistogramme sind identisch
Probability Profiles erstellt:nahezu deckungsgleich
Aber: keine einzige Struktur kommt doppelt vor
Volker Hähnke: RNA - Falten & Finden 50
Samplegröße - Histogramme
Volker Hähnke: RNA - Falten & Finden 51
Samplegröße - Probability Profiles
Volker Hähnke: RNA - Falten & Finden 52
Übersicht:
RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2
Beispiele Leptomonas collosoma Bakteriophage Auswertung
Probability Profiling Accessibility Plots Samplegröße Sfold
RNA finden
Volker Hähnke: RNA - Falten & Finden 53
Sfold
Algorithmus integriert in Paket Sfold Erhältlich z.B. über sfold.wadsworth.org
Laufzeit des Algo: O(n³) Vergleich: Eddy/Rivas: O(n6)
Reeder/Giegerich:O(n4)
Aber dafür mit Pseudoknoten
Sequenz Länge (nt) Zeit (sek) Speicher (MB)
E. coli tRNAAla 76 1,48 14,6
H. sapiens BCRP mRNA 2418 3.505,86 149,2
H. sapiens ESR mRNA 6450 92.995,25 969,1
Vergleich von Rechenzeit und Speicherverbrauch beim Berechnen der Zustandssummen und anschließendem Sampeln von 1000 Strukturen
Volker Hähnke: RNA - Falten & Finden 54
Übersicht:
RNA falten
RNA finden Motivation und Ansätze Modelle
Prinzip Parameterschätzung Piktogramme
Algorithmus Tests und Ergebnisse Verbesserungen
Volker Hähnke: RNA - Falten & Finden 55
Übersicht:
RNA falten
RNA finden Motivation und Ansätze Modelle
Prinzip Parameterschätzung Piktogramme
Algorithmus Tests und Ergebnisse Verbesserungen
Volker Hähnke: RNA - Falten & Finden 56
Motivation & Ansätze
Gefaltete RNA funktionell bedeutsam Steuerung der eigenen Translation Funktion als tRNA Ribozyme
Nicht alle RNA wird wie mRNA translatiert Nicht alle Gene auf DNA codieren für Proteine Einige kodieren auch für funktionelle nicht kodierende RNA (ncRNA)
Ziel: Gene auf DNA erkennen, die für ncRNA kodieren
Problem: entsprechende Gene bisher nicht einheitlich charakterisierbar
Volker Hähnke: RNA - Falten & Finden 57
Motivation & Ansätze
Maizel 1988: Sekundärstruktur bestimmt Funktion Funktionelle RNA muss also stabile Sekundärstruktur haben Stabil = Minimum der freien Energie Ergebnis Faltungsvorhersage weniger divers Ergebnisse enttäuschend
Badger & Olsen 1999: Anderes Gebiet: Identifizierung von codierenden Regionen in Bakterien Arbeitet mit Alignments von Sequenzen Nutzen BLASTN um Sequenzidentität zwischen 2 Species zu bestimmen Programm CRITICA untersucht Mutationsmuster der gaplosen Bereiche
Mutationen, die AS nicht verändern (synonym): + Score Mutationen, die AS verändern: - Score
Volker Hähnke: RNA - Falten & Finden 58
Motivation & Ansätze
Rivas & Eddy 2001: Aufbauend auf Idee von Badger & Olsen Erweiterungen: Probabilistisches Modell (Aussage mit Ws)
dritter zusätzlicher Zustand (funktionelle RNA)Alignments mit Gaps zugelassenAlignment nur teilweise relevant (irrelevante Flanken
möglich) Ziel: gegebene Sequenz klassifizieren in
Kodierend für Proteine kodierend für ncRNA Andere Bereiche
Ansatz findet ncRNA mit konservierter Struktur – Probleme: Manche bekannte ncRNA-Gene nicht konserviert Manche konservierte Bereiche nicht ncRNA-Gene
„ncRNA-Gen“ beschreibt Bereich mit konservierter Struktur, Funktionalität muss untersucht werden
Volker Hähnke: RNA - Falten & Finden 59
Motivation & Ansätze
Eingabe eines Alignments zweier verwandter Genome (DNA-Sequenzen)
Analyse der beobachteten Mutationen Kodierend: Synonyme Mutationen (gleiche AS kodiert) Funktionell: kompensierend, Struktur erhalten Keins: zufällige Mutation
Analyse: Jeder Fall 1 Modell, das entsprechende Sequenzen baut „Nachbau“ des Alignments mit den 3 Modellen Ausgabe der Ws, dass Alignment einem Modell enstpringt Modell mit höchster Ws gewinnt
AGTGCTAGCT
GATGCTAGCT
ncRNA?
Volker Hähnke: RNA - Falten & Finden 60
Übersicht:
RNA falten
RNA finden Motivation und Ansätze Modelle
Prinzip Parameterschätzung Piktogramme
Algorithmus Tests und Ergebnisse Verbesserungen
Volker Hähnke: RNA - Falten & Finden 61
Modelle - Prinzip
OTH (weder kodierend noch funktionell) pair-HMM
16 verschiedene Parameter: pOTH(a,b) = Ws(a in Seq X, b in Seq Y)
Wahrscheinlichkeit des Alignments: Produkt der Ws der alignierten Positionen
GTTAACTGAGTAACG
GCAAGCTGAGTTACG
| x x | x | | | | | | x | | | GTTAACTGAGTAACG
HMMpair-HMM
Volker Hähnke: RNA - Falten & Finden 62
Modelle - Prinzip
COD (Gen kodierend für Proteine) pair-HMM Alignierte Sequenzen sollten für gleiches Protein kodieren Synonyme Mutationen, AS-Sequenz unverändert
64 * 64 Parameter: pCOD(a1a2a3, b1b2b3) Emission erfolgt Codon für Codon Gleichzeitig: a1a2a3 in Sequenz X
b1b2b3 in Sequenz Y
Ws des Alignments für einen Reading-Frame: Produkt der Doppel-Codon-Ws Richtiger Reading-Frame nicht bekannt Ws des Alignments:
f
CODfPCODfXYPCODXYP )|(*),|()|(
f = Frame; P(f|COD) = 1/6
GGT……
GGA……
Sequenz X
Sequenz Y
1 Ereignis
G
Volker Hähnke: RNA - Falten & Finden 63
Modelle - Prinzip
RNA (Gen kodierend für ncRNA) pair Stochastic Context Free Grammar (pSCFG) Mutation ändert Sekundärstruktur nicht Von gleichen Positionen zu gleichen Positionen Watson-Crick-Paarung möglich
Abschnitte in Sek-Struktur: 16 * 16 Parameter pRNA(aLaR, bLbR) Ws (Emission eines Basenpaars in X, homologes Basenpaar in Y)
Ungepaarte Abschnitte: 4 * 4 Parameter pRNA(a, b) Analog zu OTH-Modell
Ws für ein Alignment mit Struktur s: Produkt aus pRNA(xixj, yiyj) für gepaarten Positionen i,j
pRNA(xk, yk) für einzelsträngige Positionen k
Richtige Struktur nicht bekannt Ws des Alignments:
TTGTTCGAAAGAACG
TTGACCGAAAGGTCG
s
RNAsPRNAsXYPRNAXYP )|(*),|()|(
s = Sekundärstruktur
u vp
Volker Hähnke: RNA - Falten & Finden 64
Modelle - Prinzip
Problem bei RNA-Modell In COD-Modell alle Frames gleich wahrscheinlich Gilt nicht für Sek-Strukturen in RNA-Modell P(s|RNA) muss für jedes s berechnet werden Gelöst durch früheren Algorithmus von Rivas und Eddy
Viertes Modell (IID) : Erzeugt unabhängige Sequenzen 8 Parameter: pX(a) pY(b)
Klassifikation durch Likelihoods: Wahrscheinlichkeit des Modells gegeben die Daten Bayes‘sche-Posteriori-Ws berechnet: a priori alle 3 Modelle gleich wahrscheinlich Hohe RNA-posteriori-Ws: Alignment Kandidat für ncRNA-Gene
Beurteilung der Güte der Aussage durch log-odds-Score
Volker Hähnke: RNA - Falten & Finden 65
Übersicht:
RNA falten
RNA finden Motivation und Ansätze Modelle
Prinzip Parameterschätzung Piktogramme
Algorithmus Tests und Ergebnisse Verbesserungen
Volker Hähnke: RNA - Falten & Finden 66
Modelle - Parameterschätzung
4392 Emission-Ws zu bestimmen Ideal: Trainings-Sets aus Alignments von
Real existierenden RNAs Kodierende Genomregionen Konservierte nicht kodierende Regionen
Keine genügend großen Trainings-Sets verfügbar Mit zufällig erzeugten Sequenzen:
Sequenzen erzeugen Mit Werten aus AS-Substitutionsmatrizen (BLOSUM62) Codon-Ws errechnen (pCOD) Daraus Nucleotid-Substitutions-Ws des OTH-Modells errechnen OTH-Ws mit Basenpaarhäufigkeiten kombinieren RNA-Ws
48 Transitions-Ws „von Hand“ erzeugt: Modelle generieren Sequenzen, mit realen verglichen Suboptimale Methode, bisher aber keine Alternative
Volker Hähnke: RNA - Falten & Finden 67
Übersicht:
RNA falten
RNA finden Motivation und Ansätze Modelle
Prinzip Parameterschätzung Piktogramme
Algorithmus Tests und Ergebnisse Verbesserungen
Volker Hähnke: RNA - Falten & Finden 68
Modelle - Piktogramme
IID-Modell: erzeugt 2 unabhängige Sequenzen
S K T
X
Y
F
Emittiert in Seq. X
Emittiert in Seq. Y
Volker Hähnke: RNA - Falten & Finden 69
Modelle - Piktogramme
OTH-Modell: erlaubt lokale Alignments zwischen 2 Sequenzen
FL
B XY
FJ
FR
E
X
Y
X: emittiert in X, Gap in Y
XY: emittiert in X und Y
Y: emittiert in Y, Gap in X
F: „Flanking States“
O
Volker Hähnke: RNA - Falten & Finden 70
Modelle - Piktogramme
COD-Modell: Alignment kodierender Bereiche eingebettet in unabhängige Bereiche Neuer Typ von Zuständen: COD
Ermöglichen „indels“ (Insertionen oder Deletionen) Kompensieren Verlust durch Shotgun-Sequenzierung & BLASTN (positions-unabhängig) Emission von ungleichen (und überzähligen) AS-Anzahlen Exemplarische Angabe der entsprechenden Ws:
C(3,3)
C(3,2) 3 verschiedene Zustände
C(3,4) 4 verschiedene Zustände
C(3,0)
3
),(_),( 321321213212,3
b
COD bbbaaapbbaaap
)(*),(),( 432132143213214,3 bpbbbaaapbbbbaaap YCOD
321 ,,
3213213210,3 ),(___),(bbb
COD bbbaaapaaap
)(),( 321,3213213213,3 bbbaaapbbbaaap COD
Alle Möglichkeiten: p,(a1…a,b1…b)
, {0,2,3,4}; a,b {A,C,G,U}
Volker Hähnke: RNA - Falten & Finden 71
Modelle - Piktogramme
OB B E OE
COD-Modell: Alignment kodierender Bereiche eingebettet in unabhängige Bereiche
C(3,0)
C(0,3)
OJ
Volker Hähnke: RNA - Falten & Finden 72
Modelle - Piktogramme
RNA-Modell: erzeugt ncRNA-Gene eingebettet in unabhängige Bereiche
Grammatik hat 3 verschiedene Zustände (nicht-Terminale): V: Sequenzfragment, dessen Enden sicher gepaart sind W : Sequenzfragment, dessen Enden eventuell gepaart sind WB: wie W, wird nur benutzt, um Multi-Loops zu starten
1
1,
0
1,
1
0
e
e
e
e
e
e
y
x
'y
x
'y
x
i
i
i
i
y
x
y
xWB: identisch
NukleotidY*ustandEmissionsz
NukleotidX*ustandEmissionsz
2 Arten von Emissionswahrscheinlichkeiten:
))b,(as),b,(as(p RRLL jiRNA
b))(a,s(pRNA
aL………………….aR
bL………………….bR
Emission von gepaarten Nukleotiden in beide Sequenzen
Emission von ungepaarten Nukleotiden
Nukleotid-VektorEmission ja/nein
Erzeugen Gaps im Alignment
Volker Hähnke: RNA - Falten & Finden 73
Modelle - Piktogramme
RNA-Modell: erzeugt ncRNA-Gene eingebettet in unabhängige Bereiche
OB
OJ
OERNA
Volker Hähnke: RNA - Falten & Finden 74
Übersicht:
RNA falten
RNA finden Motivation und Ansätze Modelle
Prinzip Parameterschätzung Piktogramme
Algorithmus Tests und Ergebnisse Verbesserungen
Volker Hähnke: RNA - Falten & Finden 75
Algorithmus - Vorgehen
Eingabe: paarweises Sequenz-Alignment von L alignierten Paaren Scoring des Alignments:
OTH, COD (HMM): Viterbi/Forward Speicher: O(L) Zeit: O(L) RNA (SCFG): CYK/Inside Speicher: O(L²) Zeit O(L³) Für jedes Modell: Ws, dass Alignment von Modell generiert wurde
Alignment Klassifizieren (Bayes‘sche-Posteriori-Ws): Annahme: P(Modeli) sind gleich
)(
)(*)|()|(
XYP
ModelPModelXYPXYModelP
iii
},,{
)(*)|()(OTHCODRNAi
jj ModelPModelXYPXYP
Ws der Klasse bei gegebenem Alignment
Ws des Alignments bei verwendetem Modell
Ws des Modells
Ws des Alignments
Volker Hähnke: RNA - Falten & Finden 76
Algorithmus - Ergebnis
Bilden von log-odds-Score zur Gütebeurteilung: ld ( beobachtet / erwartet ) Aussage darüber, wie nahe Erwartung an beobachtetem Ereignis ist
Annahme: weder für Proteine noch ncRNA kodierend Log-odds-Score von COD und RNA zu OTH bilden
2 Werte, als Koordinaten in Diagramm Diagramm-Repräsentation der Information
(„Phase Diagram“)
3 verschiedene Fälle: y > x y > 0 RNA x > y x > 0 COD x < 0 y < 0 OTH
)|(
)|(,
)|(
)|(),(
XYOTHP
XYRNAPld
XYOTHP
XYCODPldyx
Volker Hähnke: RNA - Falten & Finden 77
Übersicht:
RNA falten
RNA finden Motivation und Ansätze Modelle
Prinzip Parameterschätzung Piktogramme
Algorithmus Tests und Ergebnisse Verbesserungen
Volker Hähnke: RNA - Falten & Finden 78
Tests und Ergebnisse
Tests mit simulierten Daten: Sinn: Daten im Voraus eindeutig klassifiziert, Leistungsfähigkeit beurteilbar Jedes der 3 Modelle (OTH, RNA, COD) generiert 1000 200nt lange Alignments Alle 300 Alignments durch Algorithmus bewertet und klassifiziert
Klassifizierung soll auf Mutationsmuster beruhen, nicht auf Sequenzidentität oder Gap-Häufigkeit
Spalten der Alignments zufällig neu zusammengesetzt Sequenzidentität und Anzahl der Gaps beibehalten
Mutationsmuster, das Veränderung erklärt hat, zerstört
Darstellung in „Phase-Diagrams“
Volker Hähnke: RNA - Falten & Finden 79
Tests und Ergebnisse
Phase-Diagram der durch COD-erzeugten Alignments:
blau = Klassifizierung der original Alignmentsrot = Klassifizierung nach Shuffling
RNA
OTH COD
Volker Hähnke: RNA - Falten & Finden 80
Tests und Ergebnisse
Phase-Diagramm der durch RNA erzeugten Alignments
blau = Klassifizierung der original Alignmentsrot = Klassifizierung nach Shuffling
RNA
OTH COD
Volker Hähnke: RNA - Falten & Finden 81
Tests und Ergebnisse
Phase-Diagramm der durch OTH erzeugten Alignments:
blau = Klassifizierung der original Alignmentsrot = Klassifizierung nach Shuffling
RNA
OTH COD
Volker Hähnke: RNA - Falten & Finden 82
Tests und Ergebnisse
Tests an simulierten Genomen: Sinn: Untersuchen der Tendenz zu „false Positives“, wenn COD und OTH dominieren Erzeugen von 2 Pseudobakteriengenomen ohne funktionelle RNA:
Länge: 2 Megabasen Länge kodierender Regionen: normalverteilt um 900nt Länge nichtkodierender Regionen: normalverteilt um 100nt ~ 90% kodierend GC-Gehalt: 1) 38,90%
2) 47,25%
3) 57,70%
Anzahl der false Positives: 1) 8 2) 14 3) 21
Erneute Analyse von Genomsatz 3 mit neuem Parametersatz: 1 false Positive Sensitivität sinkt mit steigendem GC-Gehalt, kann angepasst werden
Volker Hähnke: RNA - Falten & Finden 83
Tests und Ergebnisse
Tests an realen Genomen Sinn: Test unter realistischen Bedingungen Analyse der Genome von Escherichia coli und Salmonella typhi (eng verwandt) Bekannt: 115 RNA-Gene (22 rRNAs, 86 tRNAs, 7 andere)
4290 kodierende Gene
Genom aufgeteilt in 3 Bereiche: 115 RNA-Features (1% des Genoms)4290 ORF-Features (88% des Genoms)2367 intergene Sequenzen (11% des
Genoms)
Jede der 3 „Sammlungen“ gegen Salmonella typhi aligniert, bewertet
Volker Hähnke: RNA - Falten & Finden 84
Tests und Ergebnisse
ncRNAs ORFs
vorhanden 115 4290
In Alignments (>50nt, E < 0,01) 33 3181
erkannt als RNA 33 20
erkannt als COD - 2876
erkannt von alignierten 100% 90,4%
erkannt von gesamt 28,6% 67%
Problem: Blast lieferte nicht ausreichend viele signifikante Alignments Von alignierten Sequenzen Großteil erkannt
Volker Hähnke: RNA - Falten & Finden 85
Übersicht:
RNA falten
RNA finden Motivation und Ansätze Modelle
Prinzip Parameterschätzung Piktogramme
Algorithmus Tests und Ergebnisse Einsatz und Verbesserung
Volker Hähnke: RNA - Falten & Finden 86
Einsatz & Verbesserung
Anwendungsgebiete: Erkennen von Kandidaten für ncRNA; positiv identifizierte Regionen weiter untersuchen Erkennen von für Proteine kodierende Regionen
Fehlerquellen und Verbesserungen: Modelle für fixe evolutionäre Distanz (BLOSUM 62) passt nicht auf alle eingegebenen Daten
BLASTN zum Alignieren von positionsunabhängig evolvierten SequenzenAlignment mit Sankoff-Algorithmus sehr teuer: Zeit O(L6), Speicher O(L4)
Training mit zufällig erzeugten Daten nicht optimaltrainiertes System scheint RNA-Modell zu favorisieren
Verfahren sucht nach konservierter Sekundärstrukturkann keine ncRNA erkennen, die nur sehr wenige Sekundärstrukturen ausbildet
Fehlklassifizierung von mRNA mit stark ausgebildeter Sekundärstrukturz.B. zur Translationskontrolle
Volker Hähnke: RNA - Falten & Finden 87
Übersicht:
RNA falten
RNA finden
Quellen
Volker Hähnke: RNA - Falten & Finden 88
Quellen
A statistical sampling algorithm for RNA secondary structure prediction; Nucleic Acids Research 31(24) S.7280-7301; Ding, Ye,Lawrence, Charles E.; 2003
Noncoding RNA gene detection using comparative sequence analysis; BMC Bioinformatics 2(8) Eddy, Sean R.,Rivas, Elena; 2001
Volker Hähnke: RNA - Falten & Finden 89
?