Konservierte und Konsensus RNA Strukturen · Konservierte und Konsensus RNA Strukturen Caroline...

21
Konservierte und Konsensus RNA Strukturen Caroline Thurner Institut f¨ ur Theoretische Chemie und Molekulare Strukturbiologie Universit¨ at Wien Wien, 2004

Transcript of Konservierte und Konsensus RNA Strukturen · Konservierte und Konsensus RNA Strukturen Caroline...

Konservierte und Konsensus RNA

Strukturen

Caroline Thurner

Institut fur Theoretische Chemie und Molekulare Strukturbiologie

Universitat Wien

Wien, 2004

Uberblick

• Sekundarstrukturen von RNA

• Vorhersage von Sekundarstrukturen

• Anwendung auf Genome der Virenfamilie Flaviviridae

• Pseudoknoten

• Erweiterung des Algorithmus um Pseudoknoten vorherzusagen

• Anwendung auf RNA Beispiele die Pseudoknoten enthalten

RNA Sekundarstrukturen

GCGGGAAUAGCUCAGUUGGUAGAGCACGACCUUGCCAAGGUCGGGGUCGCGAGUUCGAGUCUCGUUUCCCGCUCCA

G C G G A U UUA GCUC

AGDD G

GGA

GAGC G

C C A G ACU G

AA

YAUCUGGAG

GUCCU

GU

GTPCG

AUC C

ACAGAAUUCGC

ACCA

primarystructure

secondary structure

tertiary structure

Sekundarstrukturen formen sich vor Tertiarstrukturen.

Eine Sekundarstruktur ist eine Liste von Basenpaaren, die folgende Bedin-

gungen erfullen:

• Eine Base darf hochstens an einem Basenpaar teilnehmen.

• Basenpaare durfen sich nicht uberkreuzen, das heißt, keine zwei Paare (i.j) und (k.l)

durfen folgendermaßen angeordnet sein: i < k < j < l (keine Pseudoknoten)

Darstellung von Sekundarstrukturen

GCGGAUUU

AGCUC

AGUUG

G G AG A G C

GC

CA

GAC

UG

A AGA

UCUGG A G

GUC

CU

GU

G UUC

GAUCC

AC

AGA

AUUCGC

AC

CA

..............................................................................

( ( ( ( ( ( ( ( . ( ( ( ( . . . . . . . . ) ) ) ) . ( ( ( ( ( . . . . . . . ) ) ) ) ) . . . . . . ( ( ( ( . . . . . . . ) ) ) ) ) ) ) ) ) ) ) ) . . . .

0 10 20 30 40 50 60 70

G C G G A U U U A G C U C A G U U G G G A G A G C G C C A G A C U G A A G A U C U G G A G G U C C U G U G U U C G A U C C A C A G A A U U C G C A C C A

G C G G A U U U A G C U C A G U U G G G A G A G C G C C A G A C U G A A G A U C U G G A G G U C C U G U G U U C G A U C C A C A G A A U U C G C A C C A

AC

CA

CG

CU

UA

AG

AC

AC

CU

AG

CU

UG

UG

UC

CU

GG

AG

GU

CU

AG

AA

GU

CA

GA

CC

GC

GA

GA

GG

GU

UG

AC

UC

GA

UU

UA

GG

CG

GC

GG

AU

UU

AG

CU

CA

GU

UG

GG

AG

AG

CG

CC

AG

AC

UG

AA

GA

UC

UG

GA

GG

UC

CU

GU

GU

UC

GA

UC

CA

CA

GA

AU

UC

GC

AC

CA

(((((((..((((........)))).(((((.......)))))......((((.......))))))))))))....

Der Effekt von Mutationen

GCGGGAAU

AGCUC

AGUUGG U A

G A G CA

CGA

CC

UU

GC C

AAGGUCGGGGU

CG C G A G

U U CGA

GUCUCGU

UUCCCGC

UC

CA

original Struktur

GCGGGUAUA

GCUCAGU

UGG U A

G A G CA C G

A C CUU G CC A A

G GU

C G G G GU CG C G A G

U U CGA

GUCUCGU

UUCCCGCUCC

A

Einzelmutation- grosser Effekt in Struktur

GUGGUAAU

AGCUC

AGUUGG U A

G A G CA

CGA

UC

UU

GC C

AAGGUCGGGGU

CG C C A G

U U CGA

GUCUGGU

UUACCGC

UC

CA

Einige kompensatorische Mutationen

- gleiche Struktur

Was sagt uns das uber konservierte Strukturen?

• 10% Zufallsmutationen in der Sequenz fuhren mit großer Sicherheit zu

verschiedenen Strukturen.

• Gemeinsame Sekundarstrukturen in einer Gruppe von Sequenzen mit

weniger als 95 % durchschnittlicher paarweiser Identitat sind sehr wahr-

scheinlich das Ergebnis einer stabilisierten Selektion.

• Wenn Selektion Strukturelemente aufrechterhalt, dann mussen diese

eine Funktion haben.

Suche nach konservierten Sekundarstrukturen

• Multiples Sequenzalignment (ClustalW)

• Ermittlung von Basenpaar-Wahrscheinlichkeits Matrix

• Verknupfung von Strukturvorhersage und Sequenzalignment zur Erstel-

lung einer Liste moglicher Kandidaten konservierter Strukturen

• Kompensatorische und inkonsistente Mutationen geben Auskunft, ob ei-

ne Struktur angenommen oder verworfen wird.

Free Software, C source code and fold servers available at

http://www.tbi.univie.ac.at/~ivo/RNA/

Thermodynamisches Falten: RNAfold

Vorhersage der Basenpaar Wahrscheinlichkeits Matrix basierend

auf McCaskills Algorithmus zur Bestimmung von Zustandsfunktionen

AGCAUGA

CCACGC

CAC

C GCUC

GG U G

UGAGC

CAG

UCGUGA

UUGUGCU Thermodynamisches Gleichgewicht:

alternative niedrige Energiezustande

sind besetzt

Verbindung von Strukturvorhersage und Sequenz Alignment

SEQ1 GCCAGCAUGA-CCACGCCAACCGCUCGGUGUGAGCCCCAGUCGUGAUUGUGCU-- SEQ2 ---AGUACGACCCACGCCA-CCGAUCGUUGUGGUCC-AAGUUGUGCUUCUGCUAA

SEQ1

G C C A G C A U G A C C A C G C C A A C C G C U C G G U G U G A G C C C C A G U C G U G A U U G U G C U

G C C A G C A U G A C C A C G C C A A C C G C U C G G U G U G A G C C C C A G U C G U G A U U G U G C U

GC

CA

GC

AU

GA

CC

AC

GC

CA

AC

CG

CU

CG

GU

GU

GA

GC

CC

CA

GU

CG

UG

AU

UG

UG

CU

GC

CA

GC

AU

GA

CC

AC

GC

CA

AC

CG

CU

CG

GU

GU

GA

GC

CC

CA

GU

CG

UG

AU

UG

UG

CU

SEQ2

A G U A C G A C C C A C G C C A C C G A U C G U U G U G G U C C A A G U U G U G C U U C U G C U A A

A G U A C G A C C C A C G C C A C C G A U C G U U G U G G U C C A A G U U G U G C U U C U G C U A A

AG

UA

CG

AC

CC

AC

GC

CA

CC

GA

UC

GU

UG

UG

GU

CC

AA

GU

UG

UG

CU

UC

UG

CU

AA

AG

UA

CG

AC

CC

AC

GC

CA

CC

GA

UC

GU

UG

UG

GU

CC

AA

GU

UG

UG

CU

UC

UG

CU

AA

SEQ1 GCCAGCAUGACCACGCCAACCGCUCGGUGUGAGCCCCAGUCGUGAUUGUGCU

SEQ2 AGUACGACCCACGCCACCGAUCGUUGUGGUCCAAGUUGUGCUUCUGCUAA

. . . ( ( ( ( ( ( ( . . . . . . ( ( ( . . . . . . . . . . . ) ) ) . . . . . . . ) ) ) ) ) ) ) . . . . . . . .

. . . ( ( ( ( ( ( ( . . . . . . ( ( ( . . . . . . . . . . . ) ) ) . . . . . . . ) ) ) ) ) ) ) . . . . . . . .

..

..

..

..

))

))

))

).

..

..

..

))

).

..

..

..

..

..

((

(.

..

..

.(

((

((

((

..

.

..

.(

((

((

((

..

..

..

((

(.

..

..

..

..

..

))

).

..

..

..

))

))

))

).

..

..

..

.

6, 44: CG7, 43: AU8, 42: UG9, 41: GC

10, 40: AU

3, 40: UG4, 39: AU5, 38: CG6, 37: GU7, 36: AU

Alignment

McCaskills Algorithmus

Dot Plots

ClustalW

kombinierte Paartafel

6, 45: CG, UG7, 44: AU, AU8, 43: CG, UG9, 42: GC, GU

10, 41: AU, AU

Alidot

UG

UG

GU

CG

AU

AU 0.99

0.01

0.45

0.00

0.77

0.34

* inkonsistenten Mutationen* mittlerer Wahrscheinlichkeit

Credibility Ranking

* kompensatorischen Mutationen

reiht Basenpaare nach:

ermittelt Sekund

ä

rstruktur

. . .. . .. . .. . .

. . .

. . .. . .. . .

.

..

.. .. ..

... . .

. . .. . .

. . .

. . ... .. ... . .. . ..

.

....

...

. .

.... .

....

.

..

.. . .

......

.. . . ..

...

......

.

. . ... .. ... . ... .. ..

Dot Plots

Multiples Sequenzalignment

RNA Sequenzen kombinierte Paartafel

und PaarwahrscheinlichkeitenSequenz

konservierte Substrukturen

ClustalW

McCaskills Algorithmus

Familie Flaviviridae

Genus Species homol. Transl.

Hepatitis G Virus 89.8 IRESHepatitis C Virus 87.1 IRESPestivirus 74.9 IRESFlavivirus Dengue Virus 85.4 CAP

Jap. Enceph. Virus 95.6 CAPYellow Fever Virus 91.7 CAPTick-borne Enceph. Virus 69.8 CAP

Flavivirus: Genomorganisation

NS5NS3E1 NS1 NS2A NS2BC

AP

SID NS4A NS4BprM

NS5NS3NS1 NS2A NS2BEprM

CA

PS

ID

NS4BNS4A

NS5NS3NS2BNS2AE

CA

PS

ID

prM NS4BNS4ANS1

NS5NS3E1 NS1prM

CA

PS

ID

NS2A NS2B NS4A NS4B

JAPANESE ENCEPHALITIS VIRUS

YELLOW FEVER VIRUS

TICK−BORNE ENCEPHALITIS VIRUS

DENGUE VIRUS

Genomkarte von Flaviviren mit konservierten Strukturelementen

Konservierte Strukturen im Genus Flavivirus

5’ 3’

DV1

DV2

DV6

CS

P2

P1DV7

AUG.

genomeVirus-

5’ 3’

YF1

YF2

YF3

CS

P2

P1

YF27

YF28

.AUG

Virus-genome

Dengue Virus Yellow Fever Virus

5’ 3’

JE1

JE2 CS

P2

P1

P1’

JE7

JE8.

AUG

Virus-genome

5’ 3’

TB1TB2 P2

CS"A"

P1’

TB18

TB19

TB20

TB21

.AUG

Virus-genome

Japanese Encephalitis Virus Tick-borne Encep. Virus

Hepatitis G Virus, Hepatitis C Virus und Pestivirus

NS2E2E1 NS5BNS5ANS4BNS4ANS3p7CORE

NS5B

CO

RE E1 E2 NS5ANS4BNS2 NS4ANS3

C

Np

ro NS3E1E0 E2 NS5BNS5ANS4BNS4ANS2p7

HEPATITIS C VIRUS

HEPATITIS G VIRUS

PESTIVIRUS: non−cytopathic

GUA

UA

CGA

GG

-UU

AGCUC

A--U U C

UCGUAUACA

UGAUU

GG

ACAA

AU

CAAAAU

UCCAA

UU U G G U U

UAGGGC

A-- - - - CCCCUCC

AG

CG

ACGGCCG

AA

CUG-GGC

UAG

CC A U

G C C C AUAG

UAGG A C U A GC

A-AACG G A G G G A

CU

AG

CCG U

AG

UG

G

CGA

GCUCCC

U

GGGUGGUCUA

A

GU

CC

UG

AG U

ACAGGACA GU

CGUC

AGUAGUUCGA

CGUG

AGC

A G AAGC

CCACC

UCGAGAUG

CUACG

UGG

ACGA G

GGC A

UGC

CC

AAGACACACCUU AA C C C U A G C G G

G GGUCGCUAGGGUG

AAA U C A - -

C A CAA

CG---UGAU

GG

GA

GUA

CGA

C C U GAUA

GGGU

G C U GCA

GAGGCC

CA

CU

AUUAG

GC

UA

GU A U A A

AA

AU C U C U G C U G U A C A

UG

GC

ACAUGGAGU

UG

AA

UC

AUUUUGAACUUUU

AU

ACAA

UAC

G

U A

UA

GC

AU

AU

--

AU

UA

GU

IIIa

IIIb

IIIc

IIId

IIIe

IIIf

Ia

Ib

II

III3

III2

III1

II1 II2<- start codon

5’ 3’

IRES

P1(I)

P2(II)P3(III)

(IIIa)

(IIIc)

(IIIb)(IIIb)(IIIb)

Pseudoknoten in tmRNA von E. coli

AG

GC U

C

G

UCG

AUU

U

AGC

AG

C

GCAG

UC

UC

AG

C G

UGCAA

GUU

GAU

CUG

G U

GC

UG

GCGC

CG

AU

CU

A G

A

A

U

G

U

A

A

G250

270

280

290pk4

CGGGG

UCCACC

A

CAG

GUC

C

C G

A

G

CC

G

CG A

CΨm5U

360

tmRNA (Escherichia coli)

G

C

340

UGGGC

UCG

AAU

UUA

CA

G

U G

330

AUUC

UGGAU

U AGC

10

20

UGC

GA

G

AUG

AA

CGC

C G

UGUGG

ACC

A

AU

G

AG

AA

GC

CG

A

GU

U

GC C

G

GUAC

U

GG

U

CCAUG

GA

GAGC

GCUCG

C AA

AA

G

C

G A

GG

G

UC G

G

GG

C

U

C A

U

C

CG

U

G

G G

U

G

GA

A G

A

AU

C C U

U CC U A

AA

U U C A A AA

U

200210

220230

240

UAGAG

CUC

UA C

CGGA

CU

CGGGG

CCU

A

C

AA

AA

A

A

U C G C A A A C G A C G A A A A C U A C

U

A

G

30

40

50

60

70

80

90 100

U

UU A A U

AA

C

120

GA

GCG

A

CUC

CU

GA

U

140

A

CU

CA

AG 150

CG

160

170

180

A

A

C

C

C

A

A

A

C

U

190

300

310

320

350

pk1

pk2

130

A

12

1

2a

2c

2b

2d

3

4

5a

5b

6a

6b

6c

7

8a8b9

10a

10b

10c

11a

11b

pk3

A N D E N Y A L A A

110

5'

3'

Ψ

Zwieb, C. et al., NAR (1999)27(10):2063

pk1 pk4pk2 pk3

.....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

1 2

3 5 6 8 10

12114 7 9abcd

ababa bb acab

Was sind Pseudoknoten?

C

G

G

C

C

U

G

C G

G

G

A

AG

G

C

G

C

C

AC

A

C

A

A

CL1

S1

S2

L2

L3

G5’

3’...........................

+...........................

...........................

aliknot

[[[.......]]]..........

....(((((......)))))...

...........{{........}}

[[[.(((((.]]]..)))))...

UG

UG

GU

CG

AU

AU 0.99

0.01

0.45

0.00

0.77

0.34

Sequenz und Paar−

wahrscheinlichkeit

ermittelt

Sekundär−

struktur

Strukturen

ermittelt einige

Schichten mit

* inkonsistenten Mutationen

* mittlerer Wahrscheinlichkeit

Credibility Ranking

* kompensatorischen Mutationen

reiht Basenpaare nach

kombinierte Paartafel

konservierte Substrukturen

Zwei Wege:

1. Zuerst ursprungliche Se-

kundarstruktur in erste Zeile

schreiben, dann andere Paare

nach ihrem Ranking in hohere

Zeilen fullen (LD).

2. Zuerst alle moglichen Stacks

finden und bewerten, dann

ganze Stacks in Zeilen fullen,

wobei die erste Schicht wie-

der die wahrscheinlichste Se-

kundarstruktur enthalt (SD).

Ergebnisse von aliknot

LD............................................................................................................................................................................................................................................................................................................................................................................

SD............................................................................................................................................................................................................................................................................................................................................................................

tmRNA verglichen zu tmRNA aus E. coli

N korrekte korrekte falsch positive korrekteBasenpaare Stems Helices Pseudoknoten

SRP RNA 7 90.1% 6/6 0 1/1RNase P RNA 8 74.2% 16/18 3 1/2tmRNA 8 78% 12/12 2 4/4

Vergleich mit anderen Algorithmen

Am Beispiel SRP RNA berechnet mit SDkorrekte korrekte falsch positive korrekte

Basenpaare Helices Helices Pseudoknotenaliknot 86 % 8/8 0 1/1hxmach 91.9% 8/8 0 1/1ilm 86% 7/8 1 0/1

Danke:

• Peter F. Stadler

• Ivo L. Hofacker

• Christina Witwer, Christoph Flamm

• und allen meinen Freunden am TBI

Acknowledgements an Andrea Tanzer

Mutationen zur Uberprufung der vorhergesagten Struktur

Virus-genomTeil II

Virus-genomTeil I

UAUGAGUGUCGUGCAGAUGCUCGUAGCACGUCC G C U U

G C G A A

HC1(I)HC2(II)

HC3(III)

HC4(IV).

IIIa

IIIb

IIIc

AUG

3’Ende 5’Ende

Pos orig m1 m2 m395 U G G98 G C C

104 C G G107 G A A110 G A A

8528 C U U8531 C U U8534 G C C8540 C G G8543 A C C

Energie 23.9 8.1 19.9 8.8

Strang Neudoerfl,

ein Tick-borne

Encephalitis Virus

M2 M3 M8M4+5 M6+7

NS3 NS5NS2A/2B NS4A/4BNS1EC

M2

NS3 NS5

M3 M8M4+5 M6+7

NS2A/2B NS4A/4BNS1E

EprM NS3 NS5

M1 M2 M3 M8M4+5 M6+7

NS2A/2B NS4A/4BC NS1

M1

prMC

Neudoerfl: U27495

dCME

NS3 NS5

M2 M3 M8M4+5 M6+7

NS2A/2B NS4A/4BNS1EC

C17

NS3 NS5

M2 M3 M8M4+5 M6+7

NS2A/2B NS4A/4BNS1EC

C15

NS3 NS5

M2 M3 M8M4+5 M6+7

NS2A/2B NS4A/4BNS1EC

C15

cDNA clone