1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
1
Softwarewerkzeuge der Bioinformatik
Inhalt dieser Veranstaltung: Softwarewerkzeuge kennenlernen für
I Sequenzanalyse
II Analyse von Proteinstruktur und Ligandenbindung
III Zell- bzw. Netzwerksimulationen
www.cellzome.com
www.accelrys.com
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
2
„Lernziele“
Lerne aktuelle und bewährte Programme und Datenbanken der Bioinformatik
kennen und erfolgreich einzusetzen um
- Tools kennenzulernen, mit denen man bioinformatische Fragen
bearbeiten kann
- zu wissen, was auf dem Markt ist („das Rad nicht zweimal erfinden“)
- ein Gefühl dafür zu bekommen, wie erfolgreiche Softwareprodukte
aussehen (sollen)
- 3 Mini-Forschungsprojekte zu bearbeiten
Wir werden in der Vorlesung anhand von „Case-studies“ typische Fragestellungen
in Pharma- oder Biotech-Unternehmen behandeln.
Q: Wie stellen Sie sich den Arbeitsalltag als
Bioinformatiker in einer Pharma-Firma vor?
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
3
Organisatorisches
Jede Woche zweistündige Vorlesung Freitag 9-11, Hörsaal 1, Geb. 45
Dozent: Prof. Helms
Übungen „hands-on“ im CIP-Pool Bioinformatik Raum R 104 im Geb. 45
Freitag 11-13 Uhr. Die Teilnahme an der Vorlesung ist nicht obligatorisch,
jedoch die Teilnahme an den Übungen.
Betreuer der Übungen
Sequenz-Analyse Barbara Hutter, Peter Walter
Proteinstruktur Dr. Michael Hutter
Zellsimulationen Dr. Tihamer Geyer
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
4
Historische Entwicklung der Bioinformatik
1960‘er Jahre: Entwicklung phylogenetischer Methoden
1960‘er Jahre: Methoden zum Vergleich von DNA- und Proteinsequenzen
1976: erste MD-Simulation eines Proteins
1981: Smith-Waterman Algorithmus
1992: Sekundärstrukturvorhersage mit Neuronalen Netzwerken, PHD
1996: Vergleich von Proteinstrukturen mit DALI
2000: Durchbruch bei Sequenz-Assemblierung aus Shotgun-Daten (E. Myers)
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
5
Organisatorisches
Jeder Teilnehmer an den Übungen benötigt einen Rechneraccount für den CIP-
Pool. Diese Accounts werden von der Rechnerbetriebsgruppe des FB Informatik
eingerichtet.
- Haben Sie bereits einen Account auf Uni-Rechnern? Dann muss dieser lediglich
für den CIP-Pool freigeschaltet werden.
Zugang zum CIP-Pool: Für Bioinformatik-Studenten 24/7,
für alle anderen während der Übungsstunden.
Bitte melden Sie sich nach dieser Stunde im Sekretariat
des Zentrums für Bioinformatik bei Frau Karin Jostock an.
Der Beginn der Übungen ist diese Woche im Anschluss an die Vorlesung.
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
6
Organisatorisches: Scheinvergabe- Bewertung: Vorlesung zählt 2V + 2P = 9 Leistungspunkte- Curriculum: Pflichtvorlesung für die Vertiefung „Bioinformatics“- kann natürlich auch für CMB-Bachelor eingebracht werden- Wahlfach Pharmazie/Diplom, M.Sc. Biotechnologie
- Benotung der Scheine:
50% der Benotung ergibt sich aus der mittleren Benotung von drei praktischen Aufgaben, die während des
Semesters von jedem Studenten einzeln zu bearbeiten sind.
Die Aufgaben werden etwa alle 4 Wochen ausgegeben und sind innerhalb von 2 Wochen zu bearbeiten
und durch ein mindestens 5-seitiges Protokoll zu dokumentieren. Jeder Student muss mindestens zwei
der drei praktischen Aufgaben mit einer Note von 4 und besser bestehen.
Am 9.2.2007 wird eine 2-stündige Klausur über die Inhalte der Vorlesung und der Übungen geschrieben.
Die Klausurnote geht ebenfalls mit 50% in die Scheinnote mit ein. Die Klausur muss mit einer Note von 4
und besser bestanden werden.
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
7
Übersicht über Vorlesungsinhalt
I Sequenz
1 Einführung
2 Paarweises Sequenzalignment
3 Multiples Sequenzalignment
4 Phylogenie
5 Techniken der SequenzanalyseGenvorhersage, Transkriptionsfaktorbindungsstellen,
Identifizierung von Repeats, CpG-Inseln, Assemblierung
und Alignment von Genomen
II Proteinstruktur
6 Proteinstruktur
7 Proteinstrukturvorhersage
8 Proteinstruktur II
9 Protein-Liganden-Wechselwirkung
10 Protein-Protein-Docking
III Zellsimulationen/Netzwerke
11 E-Cell
12 Virtual Cell
13 Systembiologie eines
photosynthetischen Vesikels
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
8
Was fange ich mit diesen Daten an?Sequenz des menschlichen Genoms wurde 2001 entschlüsselt.
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
9
Sequenzanalyse
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
10
Ziele
(0) Identifiziere alle menschlichen Gene/Proteine (ORFs) und ihre Funktion
Sind dies alle Proteine?
Nein: post-translationelle Modifikationen möglich wie Methylierung,
Phosphorylierung, Glykosilierung …
(1) Identifiziere Gen-Netzwerke. Welche Proteine wechselwirken miteinander?
(2) Identifiziere Module: abgeschlossene Einheiten
(3) Identifiziere Sequenz-Abschnitte, in denen Mutationen für Krankheiten codieren
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
11
Sequenzen sind verwandt• Evolution findet auf vielen verschiedenen Ebenen statt :
Mutationen einzelner Aminosäuren, Domänen-Shuffling, Genduplikation,
Genom-Rearrangement …
• verwandte Moleküle besitzen in verschiedenen Organismen ähnliche Funktionen
(“Homologe”)
Phylogenetischer Baum für
ribosomale RNA:
Drei Bereiche des Lebens
1. Vorlesung WS 2006/07
J.LeunissenSoftware-Werkzeuge der Bioinformatik
J.Leunissen12
SequenzalignmentDer Zweck eines Sequenzalignments ist, all die Residuen einer beliebigen
Anzahl von Sequenzen untereinander anzuordnen, die von der gleichen
Residuenposition in einem Gen- oder Protein-Vorfahren abstammen.
gap = Insertion oder Deletion
Wie soll dies ein Computerprogramm entscheiden?
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
13
Für Sequenzvergleiche werden
Bewertungsmatrizen für den
Austausch von Aminosäuren
verwendet.
Sequenzvergleiche: PAM250 Matrix
Q: Warum sind manche Werte positiv, manche negativ?
Q: Macht es Sinn, separate Austauschmatrizen für Membranproteine zu
konstruieren?
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
14
Was hat nun Sequenz-Konservierung mit Proteinstrukturen zu tun?
sehr viel!
Die Twilight zone kennzeichnet das Mass an Sequenzidentität, bis zu der zwei
Proteinstrukturen mit hoher Wkt. die gleiche Struktur besitzen.
Richtlinien von Doolittle:
• Sequenzen mit > 150 Residuen und 25% Sequenzidentität sind wahrscheinlich verwandt
• mit 15-20% Sequenzidentität können sie verwandt sein
• bei <15% Sequenzidentität ist es schwierig zu sagen ob sie verwandt sind oder nicht ohne weitere strukturelle oder funktionelle Hinweise
Proteinstruktur Sequenz
TWILIGHT ZONE
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
15
1 2 Analyse einer unbekannten Sequenz
Suche in Sequenzdatenbankennach identischer Sequenz bzw. ähnlichen Sequenzen
Gibt es ähnliche Sequenz mit bekannter 3D-Struktur?
Vorhersage der Sekundärstruktur
Kann man Funktionzuordnen?
Modellierung der Proteinstruktur durch Homologiemodellierung
Ab inito Vorhersage der Tertiärstruktur
Zuordnung eines Protein-Folds
Multiples Sequenzalignment
Input: neue Proteinsequenz
Alignment der Sekundärstrukturen.
Erkenne Domänen
Analyse dieses Folds, Nachbarn?
ExperimentelleDaten vorhanden?
3D-Proteinstruktur
Alignment der Sequenzmit einer Target-Struktur
Fold erkannt?
Nein
Ja
Nein
Ja
Nach Rob Russell,http://speedy.embl-heidelberg.de/gtsp/flowchart2.html
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
16
Die Anordnung (packing) von Sekundärstrukturelemente zu stabilen Einheiten
wie -barrels, Einheiten, Greek keys, usw.
Definition: Super-Sekundärstruktur
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
17
• Die gesamte Faltung einer Kette, die sich aus der Packung der
Sekundärstrukturelemente ergibt.
Definition: Tertiärstruktur
Grün Fluoreszierendes
Protein. Seine
zylindrische Architektur
wird durch 11 -Stränge
gebildet. (1emb.pdb Brejc
et al. 1997)
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
18
cAMP-abhängige Proteinkinase Ca2+ Pumpe
(katalytische Untereinheit) (TM Protein)
Einleitung: Proteinstruktur
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
19
Die Anordnung mehrerer Ketten eines Proteins, das mehrere Untereinheiten
besitzt. Beispiel Hämoglobin
Definition: Quartäre Struktur
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
20
- Konservierung von Residuen sind Indizien für den Verwandtschaftsgrad von
Proteinen, für die Evolution und für die Verwandtschaft von Organismen
Q: aus welchen Gründen können bestimmte Bereiche der Proteinsequenz
konserviert sein?
- Konservierung von Residuen im aktiven Zentrum
- Konservierung von Residuen, die die Architektur der Proteinstruktur stabilisieren
- Konservierung von Residuen, die während Faltung des Proteins wichtig sind
- Konservierung von Residuen an Bindungsschnittstellen für Liganden und
andere Proteine
Proteinstruktur Sequenz
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
21
• >900,000 Sequenzen in öffentlichen Datenbanken zugänglich
– Millionen mehr in proprietären dbs
– Anstieg wird mit Sequenzierung von weiteren Genomen weitergehen
– Was kann man diesen Informationen anfangen?
• In den Sequenzen steckt eine grosse Menge an strukturellen,
funktionellen und evolutionären Informationen
– Sie sind eine sehr wichtige Datenquelle
• Im Gegensatz dazu gibt es nur etwa 2000 unabhängige Proteinstrukturen
Bedeutung von Sequenzanalyse
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
22
Anzahl an nicht-redundanten Sequenzen 1988-2002 ( ) Entsprechende Zunahme der Zahl an Proteinstrukturen ( ).
800
700
600
500
400
300
200
100
1988 2002
Sequenz-Struktur Missverhältnis
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
23
Der “holy grail” der strukturellen Bioinformatik
Q: Wo stehen wir im Bereich der Strukturvorhersage?- Homologiemodellierung- Threading- Ab initio Strukturvorhersage
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
24
Eigenschaften der Aminosäuren
Aminosäuren unterscheiden sich in ihren physikochemischen Eigenschaften.
Q: müssen Bioinformatiker die Eigenschaften von Aminosäuren kennen?
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
25
Einleitung: Aminosäuren
Aminosäuren sind die Bausteine von Proteinen:
R
NH
H
O
OH
H
Carboxylsäure
Aminogruppe
Aminosäuren unterscheiden sich hinsichtlich ihrer- Größe- elektrischen Ladung- Polarität- Form und Steifigkeit
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
26
Proteine sind aus 20 verschiedenen natürlichenAminosäuren aufgebaut
5 sind hydrophob.Sie sind vor allemIm Proteininneren. H
NH
H
O
OH
H
CH
NH
H
O
OH
H
CH
NH
H
O
OH
CH
H
CH
NH
H
O
OH
CHCH
H
CH
NH
H
O
OH
CH
CH
H
CH
H C
Glycine
3
3
2 3
Alanine3
Valine
33
Leucine3
2
Isoleucine
Einleitung: hydrophobe Aminosäuren
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
27
Es gibt drei voluminöse aromatische Aminosäuren. Tyrosin und Tryptophan
liegen bei Membranproteinen vor allem in der Interface-region.
H
CH
NH
H
O
OH
H
CH
NH
H
O
OH
OH
H
CHN
CH
NH
H
O
OH
H
Phenylalanin
2
Tyrosin
2
Tryptophan
2
Einleitung: aromatische Aminosäuren
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
28
Es gibt 2 Schwefel enthaltende Aminosäuren und das ungewöhnliche Prolin.
Cysteine können Disulfidbrücken bilden.
Prolin ist ein “Helixbrecher”.
H
S
CH
NH
H
O
OH
H
H
CH
CH
NH
H
O
OH
S
CH
HNH
H
O
OH
CH
CHCH
Cystein
2 2
2
3
Methionin
2
Prolin
2
2
Einleitung: Aminosäuren
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
29
Es gibt zwei Aminosäuren mit terminalen polaren Hydroxlgruppen:
H
CH2
CH
NH
H
O
OH
OH
H
CH
CH
NH
H
O
OH
CH O H
Serin
2 2
3
Threonin
Einleitung: Aminosäuren
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
30
Es gibt 3 positiv geladene Aminosäuren. Sie liegen vor allem auf der
Proteinoberflächen und in aktiven Zentren.
Thermophile Organismen besitzen besonders viele Ionenpaare auf den Protein-
oberflächen.H
CH
NH
H
O
OH
CH
CH
CH
NH
H
CH
NH
H
O
OH
CH
CH
N H
NH NH
H
CH
NH
H
O
OH
N N
H
H
H
H
Lysin
2
2
2
2
3
+
2
2
2
2 2
+
Arginin
2
+
Histidin
Einleitung: Aminosäuren
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
31
Es gibt 2 negativ geladene Aminosäuren und ihre zwei neutralen Analoga.
Asp und Glu haben pKa Werte von 2.8. Das heisst, erst unterhalb von pH=2.8
werden ihre Carboxylgruppe protoniert.
H
CH
NH
H
O
OH
O O
H
O O
CH
NH
H
O
OH
CH
H
CH
NH
H
O
OH
O NH
H
O NH
CH
NH
H
O
OH
CH
Asparaginsäure
2 2
Glutaminsäure
2
Asparagin
2 2
Glutamin
2
2
2-
-
Einleitung: Aminosäuren
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
32
• Ein- und Drei-Buchstaben-Codes der Aminosäuren
G Glycin Gly P Prolin ProA Alanin Ala V Valin ValL Leucin Leu I Isoleucin IleM Methionin Met C Cystein CysF Phenylalanin Phe Y Tyrosin TyrW Tryptophan Trp H Histidin HisK Lysin Lys R Arginin ArgQ Glutamin Gln N Asparagin AsnE Glutaminsäure Glu D Asparaginsäure AspS Serin Ser T Threonin Thr
Zusätzliche CodesB Asn/Asp Z Gln/Glu X Irgendeine Aminosäure
Kenntnis dieser Abkürzungen ist essentiell für Sequenzalignments und für Proteinstrukturanalyse!
Buchstaben-Code der Aminosäuren
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
33
Transmembrandomänen: Hydrophobizitätsskalen
http://blanco.biomol.uci.edu/mpex/Stephen White group, UC Irvine
TM Helices sind 20 Residuen lange
Abschnitte aus vorwiegend hydrophoben
Resiuden.
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
34
Faltung von TM Proteinen wird durch Translokon unterstützt
White, FEBS Lett. 555, 116 (2003)
Modell:
Die neu synthesierte Polypeptidkette
eines Membranproteins gelangt vom
Ribosom durch den Translokon-
komplex in die Membran
(EM Abbildung).
Erster Eindruck:
Die Faltung eines Membranproteins ist ein
hochkomplizierter Prozess.
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
35
Detektion der Membraninsertion via Glykosylierung
Hessa et al., Nature 433, 377 (2005)
Integration of H-segments into the microsomal membrane
a, Wild-type Lep has two N-terminal TM segments (TM1 and TM2) and a large luminal domain
(P2). H-segments were inserted between residues 226 and 253 in the P2-domain.
Glycosylation acceptor sites (G1 and G2) were placed in positions 96–98 and 258–260,
flanking the H-segment. For H-segments that integrate into the membrane, only the G1 site is
glycosylated (left), whereas both the G1 and G2 sites are glycosylated for H-segments that do
not integrate in the membrane (right).
b, Membrane integration of H-segments with the Leu/Ala composition 2L/17A, 3L/16A and
4L/15A. Bands of unglycosylated protein are indicated by a white dot; singly and doubly
glycosylated proteins are indicated by one and two black dots, respectively.
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
36
Translocon-assisted folding of TM proteins?
Hessa et al., Nature 433, 377 (2005)
c, Gapp values for H-segments with 2–4 Leu residues.
Fragmente mit mehr als 4 Leucinen werden in Membran eingefügt.
d, Mean probability of insertion (p) for H-segments with n = 0–7 Leu residues.
For n = 0, 1, 5–7, only single H-segments with the following compositions were used
(flanked by GGPG…GPGG in all cases): (A)19, (A)9L(A)9, (A)4LALAALAALAL(A)4,
(A)4(LA)5L(A)4, ALAALALAALAALALAALA.
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
37
Vergleich von biologischen und Peptid G-Skalen
Hessa et al., Nature 433, 377 (2005)
a, Gapp aa scale derived from H-segments with the indicated amino acid placed in
the middle of the 19-residue hydrophobic stretch.
c, Correlation between the Gapp aa scale and the Wimley–White water/octanol
free energy scale.
Fazit: Insertion in Membran hängt nur von Hydrophobizität derAminosäuresequenz ab!
Bioinformatiker sollten die Eigenschaften der Aminosäuren kennen
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
38
Helikale Räder
http://cti.itc.Virginia.EDU/~cmg/Demo/wheel/wheelApp.html.
Helikale Räder dienen
zur Darstellung von
Helices.
Man kann so leicht
erkennen, welche Seite
der Helix dem Solvens
zugewandt ist und
welche ins Proteininnere
zeigt.
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
39
Analyse einer unbekannten Sequenz
Suche in Sequenzdatenbankennach identischer Sequenz bzw. ähnlichen Sequenzen
Gibt es ähnliche Sequenz mit bekannter 3D-Struktur?
Vorhersage der Sekundärstruktur
Kann man Funktiontransferieren?
Modellierung der Proteinstruktur durch Homologiemodellierung
Vorhersage der Tertiärstruktur
Zuordnung eines Protein-Folds
Multiples Sequenzalignment
Input: neue Proteinsequenz
Alignment der Sekundärstrukturen.
Erkenne Domänen
Analyse dieses Folds, Nachbarn?
ExperimentelleDaten vorhanden?
3D-Proteinstruktur
Alignment der Sequenzmit einer Struktur.
Fold erkannt?
Nein
Ja
Nein
Ja
Nach Rob Russell,http://speedy.embl-heidelberg.de/gtsp/flowchart2.html
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
40
Software
In den Tutorials vorgestellte Software:
0 Datenbankennavigation SRS
I Sequenzanalyse: BLAST, PSI-BLAST, CLUSTALW
II Proteinstruktur: VMD, Swissmodel
III Zellsimulationen: Virtual Cell, FluxAnalyzer, Cytoscape
Datenbanken:SequenzdatenbankenProteinstrukturbankenMetabolische Datenbanken
Top Related