1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik...

64
1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik 1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für I Sequenzanalyse II Analyse von Proteinstruktur und Ligandenbindung III Zell- bzw. Netzwerksimulationen www.cellzome.com www.accelrys.com

Transcript of 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik...

Page 1: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

1

Softwarewerkzeuge der Bioinformatik

Inhalt dieser Veranstaltung: Softwarewerkzeuge für

I Sequenzanalyse

II Analyse von Proteinstruktur und Ligandenbindung

III Zell- bzw. Netzwerksimulationen

www.cellzome.com

www.accelrys.com

Page 2: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

2

„Lernziele“

Lerne aktuelle und bewährte Programme und Datenbanken der Bioinformatik

kennen und erfolgreich einzusetzen um

- Tools kennenzulernen, mit denen man bioinformatische Fragen

bearbeiten kann

- zu wissen, was auf dem Markt ist („das Rad nicht zweimal erfinden“)

- ein Gefühl dafür zu bekommen, wie erfolgreiche Softwareprodukte

aussehen (sollen)

- 3 Mini-Forschungsprojekte zu bearbeiten

Wir werden in der Vorlesung anhand von „Case-studies“ typische Fragestellungen

in Pharma- oder Biotech-Unternehmen behandeln.

Wie stellen Sie sich den Arbeitsalltag als Bioinformatiker in einer Pharma-Firma

vor?

Page 3: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

3

Organisatorisches

Jede Woche zweistündige Vorlesung Freitag 9-11, Hörsaal 1, Geb. 45

Dozent: Prof. Helms

Übungen „hands-on“ im CIP-Pool Bioinformatik Raum R 104 im Geb. 45

Freitag 11-13 Uhr.

Betreuer der Übungen

Sequenz-Analyse Sam Ansari

Proteinstruktur Dr. Michael Hutter

Zellsimulationen Dr. Tihamer Geyer

Page 4: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

4

Welche Bioinformatik-Software gibt es?

Page 5: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

5

Page 6: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

6

Page 7: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

7

Page 8: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

8

Page 9: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

9

Page 10: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

10

Page 11: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

11

http://www.stratagene.com/softwaresolutions/

Ein paar Produkte ...

Page 12: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

12

http://www.lionbioscience.com/solutions

Kommerzielle Software-Pakete sind bereits sehr mächtig

Kommerzielle Software ist sehr teuer,

aber sehr mächtig, da integriert.

Es ist fraglich, ob man in einer universitären

Umgebung (mit kostenloser Software)

bei Anwendungen im Bereich Drug

Development mit Firmen konkurrieren

kann, die solch mächtige Tools einsetzen.

Page 13: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

13

http://www.curagen.com/pipeline/approach.asp

Einsatz von Bioinformatik in der Produkt-Pipeline

Page 14: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

14

Organisatorisches

Jeder Teilnehmer an den Übungen benötigt einen Rechneraccount für den CIP-

Pool. Diese Accounts werden von der Rechnerbetriebsgruppe des FB Informatik

eingerichtet.

- Haben Sie bereits einen Account auf Uni-Rechnern? Dann muss dieser lediglich

für den CIP-Pool freigeschaltet werden.

Zugang zum CIP-Pool: Für Bioinformatik-Studenten 24/7,

für alle anderen während der Übungsstunden.

Bitte melden Sie sich nach dieser Stunde im Sekretariat

des Zentrums für Bioinformatik bei Frau Alexandra Klasen an.

Der Beginn der Übungen ist diese Woche.

Page 15: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

15

Organisatorisches: ScheinvergabeDie Vorlesung zählt 2V + 2P = 9 Leistungspunkte.

Sie kann nach der neuen Prüfungsordnung für den Bachelor-Studiengang in der

Vertiefung „Bioinformatics“ eingebracht werden.

Die Scheine werden benotet.

50% der Benotung ergibt sich aus der mittleren Benotung von drei praktischen

Aufgaben, die während des Semesters von jedem Studenten einzeln zu bearbeiten

sind. Die Aufgaben werden etwa alle 4 Wochen ausgegeben und sind innerhalb

von 2 Wochen zu bearbeiten und durch ein mindestens 5-seitiges Protokoll zu

dokumentieren. Jeder Student muss mindestens zwei der drei praktischen

Aufgaben mit einer Note von 4 und besser bestehen.

Am Ende des Semesters wird eine 2-stündige Klausur über die Inhalte der

Vorlesung und der Übungen geschrieben. Die Klausurnote geht ebenfalls mit 50%

in die Scheinnote mit ein. Die Klausur muss mit einer Note von 4 und besser

bestanden werden.

Page 16: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

16

Übersicht über Vorlesungsinhalt

I Sequenz

1 Einführung

2 Paarweises Sequenzalignment

3 Multiples Sequenzalignment

4 Datenbanken

5 Genomweite Sequenzanalyse

II Struktur

6 Proteinstruktur

7 Proteinstrukturvorhersage

8 Liganden-Docking

9 Protein-Protein-Docking

III Zellsimulationen

10 E-Cell

11 Virtual Cell

12 Microarrays

13 Protein-Netzwerke

Page 17: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

17

Was fange ich mit diesen Daten an?Sequenz des menschlichen Genoms wurde 2001 entschlüsselt.

Page 18: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

18

1 2 Analyse einer unbekannten Sequenz

Suche in Sequenzdatenbankennach identischer Sequenz bzw. ähnlichen Sequenzen

Gibt es ähnliche Sequenz mit bekannter 3D-Struktur?

Vorhersage der Sekundärstruktur

Kann man Funktionzuordnen?

Modellierung der Proteinstruktur durch Homologiemodellierung

Ab inito Vorhersage der Tertiärstruktur

Zuordnung eines Protein-Folds

Multiples Sequenzalignment

Input: neue Proteinsequenz

Alignment der Sekundärstrukturen.

Erkenne Domänen

Analyse dieses Folds, Nachbarn?

ExperimentelleDaten vorhanden?

3D-Proteinstruktur

Alignment der Sequenzmit einer Target-Struktur

Fold erkannt?

Nein

Ja

Nein

Ja

Nach Rob Russell,http://speedy.embl-heidelberg.de/gtsp/flowchart2.html

Page 19: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

19

Sequenzanalyse

Page 20: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

20

Ziele

(0) Identifiziere alle menschlichen Proteine (ORFs) und ihre Funktion

Sind dies alle Proteine?

Nein: post-translationelle Modifikationen möglich wie Methylierung,

Phosphorylierung, Glykosilierung …

(1) Identifiziere Gen-Netzwerke. Welche Proteine wechselwirken miteinander?

(2) Identifiziere Module: abgeschlossene Einheiten

(3) Identifiziere Sequenz-Abschnitte, in denen Mutationen für Krankheiten codieren

Page 21: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

21

Sequenzen sind verwandt• Evolution findet auf vielen verschiedenen Ebenen statt :

Mutationen einzelner Aminosäuren, Domänen-Shuffling, Genduplikation,

Genom-Rearrangement

• verwandte Moleküle besitzen in verschiedenen Organismen ähnliche Funktionen

(“Homologe”)

Phylogenetischer Baum für

ribosomale RNA:

Drei Bereiche des Lebens

Page 22: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

22

Sequenzen sind verwandt, II

Phylogenetischer

Baum für

Globin-Proteine des

Menschen

Page 23: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

23

gewinne transferierbare Information aus Sequenzvergleich

• Bestimme

evolutionäre

Beziehungen

• Vorhersage von

Proteinfunktion und -

struktur

(Datenbanksuche).

Protein 1: bindet Sauerstoff

Sequenzähnlichkeit

Protein 2: bindet Sauerstoff ?

Page 24: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

J.LeunissenSoftware-Werkzeuge der Bioinformatik

J.Leunissen24

Sequenzalignment

Der Zweck eines Sequenzalignments ist, all die Residuen einer

beliebigen Anzahl von Sequenzen untereinander anzuordnen, die

von der gleichen Residuenposition in einem Gen- oder Protein-

Vorfahren abstammen.

gap = Insertion oder Deletion

Page 25: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

25

Needleman-Wunsch Algorithmus

- allgemeiner Algorithmus für Sequenzvergleiche

- maximiert einen Ähnlichkeitsscore

- bester Match = grösste Anzahl an Residuen einer Sequenz, die zu denen

einer anderen Sequenz passen, wobei Deletionen erlaubt sind.

- Der Algorithmus findet durch dynamische Programmierung das bestmögliche

GLOBALE Alignment zweier beliebiger Sequenzen

- NW beinhaltet eine iterative Matrizendarstellung

alle möglichen Residuenpaare (Basen oder Aminosäuren) – je eine

von jeder Sequenz – werden in einem zwei-dimensionalen Gitter dargestellt.

alle möglichen Alignments werden durch Pfade durch dieses Gitter

dargestellt.

Der Algorithmus hat 3 Schritte: 1 Initialisierung 2 Auffüllen 3 Trace-back

Page 26: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

26

Needleman-Wunsch Algorithm: Initialisierung

Aufgabe: aligniere die Wörter “COELACANTH” und “PELICAN” der Länge m =10 und n

=7. Konstruiere (m+1) (n+1) Matrix.

Ordne den Elementen der ersten Zeile und Reihe die Werte – m gap und – n gap zu.

Die Pointer dieser Felder zeigen zurück zum Ursprung.

C O E L A C A N T H

0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10

P -1

E -2

L -3

I -4

C -5

A -6

N -7

Page 27: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

27

Needleman-Wunsch Algorithm: Auffüllen

Fülle alle Matrizenfelder mit Werten und Zeigern gemäss von simplen Operationen, die

die Werte der diagonalen, vertikal, und horizontalen Nachbarzellen einschliessen.

Berechne

- match score: Wert der Diagonalzelle links oben + Wert des Alignments (+1 oder -1)

- horizontal gap score: Wert der linken Zelle + gap score (-1)

- vertical gap score: Wert der oberen Zelle + gap score (-1)

ordne der Zelle das Maximum dieser 3 Werte zu. Der Pointer zeigt in Richtung des

maximalen Scores.

max(-1, -2, -2) = -1

max(-2, -2, -3) = -2

(Pointer soll bei gleichen Werte immer in eine bestimmte Richtung zeigen, z.B.

entlang der Diagonalen.

C O E L A C A N T H

0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10

P -1 -1 -2

Page 28: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

28

Needleman-Wunsch Algorithmus: Trace-back

Trace-back ergibt das Alignment aus der Matrix.

Starte in Ecke rechts unten und folge den Pfeilen bis in die Ecke links oben.

COELACANTH

-PELICAN--

C O E L A C A N T H

0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10

P -1 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10

E -2 -2 -2 -1 -2 -3 -4 -5 -6 -7 -8

L -3 -3 -3 -2 0 -1 -2 -3 -4 -5 -6

I -4 -4 -4 -3 -1 -1 -2 -3 -4 -5 -6

C -5 -3 -4 -4 -2 -2 0 -1 -2 -3 -4

A -6 -4 -4 -5 -3 -1 -1 1 0 -1 -2

N -7 -5 -5 -5 -4 -2 -2 0 2 1 0

Page 29: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

29

Smith-Waterman-AlgorithmusSmith-Waterman ist ein lokaler Alignment-Algorithmus. SW ist eine sehr

einfache Modifikation von Needleman-Wunsch. Lediglich 3 Änderungen:

- die Matrixränder werden auf 0 statt auf ansteigende Gap-Penalties gesetzt.

- der maximale Wert sinkt nie unter 0. Pointer werden nur für Werte grösser als

0 eingezeichnet.

- Trace-back beginnt am grösseten Wert der Matrix und endet bei dem Wert 0.

ELACAN

ELICANC O E L A C A N T H

0 0 0 0 0 0 0 0 0 0 0

P 0 0 0 0 0 0 0 0 0 0 0

E 0 0 0 1 0 0 0 0 0 0 0

L 0 0 0 0 2 1 0 0 0 0 0

I 0 0 0 0 1 1 0 0 0 0 0

C 0 1 0 0 0 0 2 0 0 0 0

A 0 0 0 0 0 1 0 3 2 1 0

N 0 0 0 0 0 0 0 1 4 3 2

Page 30: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

30

Sequenzvergleiche: PAM250 Matrix

Für Sequenzvergleiche werden

Scoring-Matrizen für den

Austausch von Aminosäuren

verwendet.

Page 31: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

31

Was hat nun Sequenz-Konservierung mit Proteinstrukturen zu tun?

sehr viel!

Die Twilight zone kennzeichnet das Mass an Sequenzidentität, bis zu der zwei

Proteinstrukturen mit hoher Wkt. die gleiche Struktur besitzen.

Richtlinien von Doolittle:

• Sequenzen mit > 150 Residuen und 25% Sequenzidentität sind wahrscheinlich verwandt

• mit 15-20% Sequenzidentität können sie verwandt sein

• bei <15% Sequenzidentität ist es schwierig zu sagen ob sie verwandt sind oder nicht ohne weitere strukturelle oder funktionelle Hinweise

Proteinstruktur Sequenz

TWILIGHT ZONE

Page 32: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

32

Proteinstruktur,Wechselwirkung mit Liganden

Page 33: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

33

Einleitung: Aminosäuren

Aminosäuren sind die Bausteine von Proteinen:

R

NH

H

O

OH

H

Carboxylsäure

Aminogruppe

Page 34: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

34

• Ein- und Drei-Buchstaben-Codes der Aminosäuren

G Glycin Gly P Prolin ProA Alanin Ala V Valin ValL Leucin Leu I Isoleucin IleM Methionin Met C Cystein CysF Phenylalanin Phe Y Tyrosin TyrW Tryptophan Trp H Histidin HisK Lysin Lys R Arginin ArgQ Glutamin Gln N Asparagin AsnE Glutaminsäure Glu D Asparaginsäure AspS Serin Ser T Threonin Thr

Zusätzliche CodesB Asn/Asp Z Gln/Glu X Irgendeine Aminosäure

Buchstaben-Code der Aminosäuren

Page 35: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

35

In Peptiden und Proteinen sind die Aminosäuren miteinander als lange

Ketten verknüpft.

Ein Paar ist jeweils über eine „Peptidbindung“ verknüpft.

Die Aminosäuresequenz eines

Proteins bestimmt seinen

„genetischen code“.

Die Kenntnis der Sequenz eines

Proteins allein verrät noch nicht

viel über seine Funktion.

Entscheidend ist seine

drei-dimensionale Struktur.

O

OR

H

H N

O

OR

H

H N

O

O

O

R

H

H N N

H

H

R

O

O

O

R

H

H N N

H

H

R

+

-3

+

-3+

+3

-+ H O2

2

2

1

1

+3

21

peptide bond

G>0

Einleitung: Peptidbindung

Page 36: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

36

• Primärstruktur– Die lineare Sequenz der Aminosäuren eines Proteins

• Sekundärstruktur– Regionen lokaler Regelmässigkeit

• Z.B. -Helices, -Stränge, -Faltblätter & -Schleifen

Grundlegende Definitionen

Page 37: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

37

Die Anordnung (packing) von Sekundärstrukturelemente zu stabilen Einheiten

wie -barrels, Einheiten, Greek keys, usw.

Definition: Super-Sekundärstruktur

Page 38: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

38

• Die gesamte Faltung einer Kette, die sich aus der Packung der

Sekundärstrukturelemente ergibt.

Definition: Tertiärstruktur

Grün Fluoreszierendes

Protein. Seine

zylindrische Architektur

wird durch 11 -Stränge

gebildet. (1emb.pdb Brejc

et al. 1997)

Page 39: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

39

cAMP-abhängige Proteinkinase Ca2+ Pumpe

(katalytische Untereinheit) (TM Protein)

Einleitung: Proteinstruktur

Page 40: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

40

Die Anordnung mehrerer Ketten eines Proteins, das mehrere Untereinheiten

besitzt. Beispiel Hämoglobin

Definition: Quartäre Struktur

Page 41: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

41

• >900,000 Sequenzen in öffentlichen Datenbanken zugänglich

– Millionen mehr in proprietären dbs

– Anstieg wird mit Sequenzierung von weiteren Genomen weitergehen

– Was tun?

• In den Sequenzen steckt eine grosse Menge an strukturellen,

funktionellen und evolutionären Informationen

– Sie sind eine sehr wichtige Datenquelle

• Im Gegensatz dazu gibt es nur etwa 2000 unabhängige Proteinstrukturen

Bedeutung von Sequenzanalyse

Page 42: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

42

Anzahl an nicht-redundanten Sequenzen 1988-2002 ( ) Entsprechende Zunahme der Zahl an Proteinstrukturen ( ).

800

700

600

500

400

300

200

100

1988 2002

Sequenz-Struktur Missverhältnis

Page 43: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

43

Der “holy grail” der strukturellen Bioinformatik

Page 44: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

44

Eigenschaften der Aminosäuren

Aminosäuren unterscheiden sich in ihren physikochemischen Eigenschaften.

Page 45: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

45

Proteine sind aus 20 verschiedenen natürlichenAminosäuren aufgebaut

5 sind hydrophob.Sie sind vor allemIm Proteininneren. H

NH

H

O

OH

H

CH

NH

H

O

OH

H

CH

NH

H

O

OH

CH

H

CH

NH

H

O

OH

CHCH

H

CH

NH

H

O

OH

CH

CH

H

CH

H C

Glycine

3

3

2 3

Alanine3

Valine

33

Leucine3

2

Isoleucine

Einleitung: hydrophobe Aminosäuren

Page 46: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

46

Es gibt drei voluminöse aromatische Aminosäuren. Tyrosin und Tryptophan

liegen bei Membranproteinen vor allem in der Interface-region.

H

CH

NH

H

O

OH

H

CH

NH

H

O

OH

OH

H

CHN

CH

NH

H

O

OH

H

Phenylalanin

2

Tyrosin

2

Tryptophan

2

Einleitung: aromatische Aminosäuren

Page 47: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

47

Es gibt 2 Schwefel enthaltende Aminosäuren und das ungewöhnliche Prolin.

Cysteine können Disulfidbrücken bilden. Prolin ist ein “Helixbrecher”.

H

S

CH

NH

H

O

OH

H

H

CH

CH

NH

H

O

OH

S

CH

HNH

H

O

OH

CH

CHCH

Cystein

2 2

2

3

Methionin

2

Prolin

2

2

Einleitung: Aminosäuren

Page 48: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

48

Es gibt zwei Aminosäuren mit terminalen polaren Hydroxlgruppen:

H

CH2

CH

NH

H

O

OH

OH

H

CH

CH

NH

H

O

OH

CH O H

Serin

2 2

3

Threonin

Einleitung: Aminosäuren

Page 49: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

49

Es gibt 3 positiv geladene Aminosäuren. Sie liegen vor allem auf der

Proteinoberflächen und in aktiven Zentren.

Thermophile Organismen besitzen besonders viele Ionenpaare auf den Protein-

oberflächen.H

CH

NH

H

O

OH

CH

CH

CH

NH

H

CH

NH

H

O

OH

CH

CH

N H

NH NH

H

CH

NH

H

O

OH

N N

H

H

H

H

Lysin

2

2

2

2

3

+

2

2

2

2 2

+

Arginin

2

+

Histidin

Einleitung: Aminosäuren

Page 50: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

50

Es gibt 2 negativ geladene Aminosäuren und ihre zwei neutralen Analoga.

Asp und Glu haben pKa Werte von 2.8. Das heisst, erst unterhalb von pH=2.8

werden ihre Carboxylgruppe protoniert.

H

CH

NH

H

O

OH

O O

H

O O

CH

NH

H

O

OH

CH

H

CH

NH

H

O

OH

O NH

H

O NH

CH

NH

H

O

OH

CH

Asparaginsäure

2 2

Glutaminsäure

2

Asparagin

2 2

Glutamin

2

2

2-

-

Einleitung: Aminosäuren

Page 51: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

51

Transmembrandomänen: Hydrophobizitätsskalen

http://blanco.biomol.uci.edu/mpex/Stephen White group, UC Irvine

Page 52: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

52

Helikale Räder

http://cti.itc.Virginia.EDU/~cmg/Demo/wheel/wheelApp.html.

Helikale Räder dienen zur Darstellung von Helices.

Page 53: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

53

Analyse einer unbekannten Sequenz

Suche in Sequenzdatenbankennach identischer Sequenz bzw. ähnlichen Sequenzen

Gibt es ähnliche Sequenz mit bekannter 3D-Struktur?

Vorhersage der Sekundärstruktur

Kann man Funktiontransferieren?

Modellierung der Proteinstruktur durch Homologiemodellierung

Vorhersage der Tertiärstruktur

Zuordnung eines Protein-Folds

Multiples Sequenzalignment

Input: neue Proteinsequenz

Alignment der Sekundärstrukturen.

Erkenne Domänen

Analyse dieses Folds, Nachbarn?

ExperimentelleDaten vorhanden?

3D-Proteinstruktur

Alignment der Sequenzmit einer Struktur.

Fold erkannt?

Nein

Ja

Nein

Ja

Nach Rob Russell,http://speedy.embl-heidelberg.de/gtsp/flowchart2.html

Page 54: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

54

- Konservierung von Residuen sind Indizien für den Verwandtschaftsgrad von

Proteinen, für die Evolution und für die Verwandtschaft von Organismen

- Konservierung von Residuen im aktiven Zentrum

- Konservierung von Residuen, die die Architektur der Proteinstruktur stabilisieren

- Konservierung von Residuen, die während Faltung des Proteins wichtig sind

- Konservierung von Residuen an Bindungsschnittstellen für Liganden und

andere Proteine

Proteinstruktur Sequenz

Page 55: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

55

Netzwerke

Page 56: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

56

metabolische NetzwerkeFormulierung von Biochemie mit Linearer Algebra

Page 57: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

57

Zellsimulationen

http://ecell.sourceforge.net/index.html

Ziel: verstehe metabolische Abläufe in Zellen

Page 58: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

58

E-cell

Anwendungen bisher:

- Energie-Metabolismus von E.coli

- e-Rice

- Modell eines menschlichen Erythrozyten

- Zirkadiane Rhythmen

- e-Neuron

- Signalübertragung in der bakteriellen Chemotaxis

Page 59: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

59

Virtual Cell

http://www.nrcam.uchc.edu/

Page 60: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

60

Virtual Cell

Left: overall mechanism of Ran-mediated nucleocytoplasmic transport. The image Right: membrane transport components within the Virtual Cell software.GTP-bound Ran shuttles between the nuclear and cytoplasmic compartments and is predominately nuclear at steady-state. The RanGTP nuclear membrane gradient is essential and required for RanGTP-dependent assembly and dissociation of transport complexes within the nucleus.

http://www.nrcam.uchc.edu/

Page 61: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

61

Virtual Cell

Parameter …

Page 62: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

62

Virtual Cell

This set of images shows the spatiotemporal pattern of nuclear accumulation of

fluorescently labeled Ran after microinjection into the cytosol in a confocal

experiment (grayscale panels) and a Virtual Cell simulation (color scale panels).

http://www.nrcam.uchc.edu/

Page 63: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

63

Virtual Cell

Calculated 3D distribution of 2 species in the pathway that are not directly visible by

labeling. Injecting fluorescently labeled Ran allows you to experimentally visualize

all the forms of Ran but not the individual bound and free states. Simulations help

dissect what is happening to all the species.

http://www.nrcam.uchc.edu/

Page 64: 1. Vorlesung WS 2004/05 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

1. Vorlesung WS 2004/05

Software-Werkzeuge der Bioinformatik

64

Software

In den Tutorials vorgestellte Software:

0 Datenbankennavigation SRS

I Sequenzanalyse: (FASTA) BLAST, PSI-BLAST, CLUSTALW

II Proteinstruktur: VMD

Ligandenbindung: FlexX mit Andreas Kämper

III Zellsimulationen: Virtual Cell

Datenbanken:SequenzdatenbankenProteinstrukturbankenMetabolische Datenbanken