Download - 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge kennenlernen.

Transcript

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Softwarewerkzeuge der Bioinformatik

Inhalt dieser Veranstaltung: Softwarewerkzeuge kennenlernen für

I Sequenzanalyse

II Analyse von Proteinstruktur und Ligandenbindung

III Zell- bzw. Netzwerksimulationen

www.cellzome.com

www.accelrys.com

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

„Lernziele“

Lerne aktuelle und bewährte Programme und Datenbanken der Bioinformatik

kennen und erfolgreich einzusetzen um

- Tools kennenzulernen, mit denen man bioinformatische Fragen

bearbeiten kann

- zu wissen, was auf dem Markt ist („das Rad nicht zweimal erfinden“)

- ein Gefühl dafür zu bekommen, wie erfolgreiche Softwareprodukte

aussehen (sollen)

- 3 Mini-Forschungsprojekte zu bearbeiten

Wir werden in der Vorlesung anhand von „Case-studies“ typische Fragestellungen

in Pharma- oder Biotech-Unternehmen behandeln.

Q: Wie stellen Sie sich den Arbeitsalltag als

Bioinformatiker in einer Pharma-Firma vor?

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Organisatorisches

Jede Woche zweistündige Vorlesung Freitag 9-11, Hörsaal 1, Geb. 45

Dozent: Prof. Helms

Übungen „hands-on“ im CIP-Pool Bioinformatik Raum R 104 im Geb. 45

Freitag 11-13 Uhr. Die Teilnahme an der Vorlesung ist nicht obligatorisch,

jedoch die Teilnahme an den Übungen.

Betreuer der Übungen

Sequenz-Analyse Barbara Hutter, Peter Walter

Proteinstruktur Dr. Michael Hutter

Zellsimulationen Dr. Tihamer Geyer

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Historische Entwicklung der Bioinformatik

1960‘er Jahre: Entwicklung phylogenetischer Methoden

1960‘er Jahre: Methoden zum Vergleich von DNA- und Proteinsequenzen

1976: erste MD-Simulation eines Proteins

1981: Smith-Waterman Algorithmus

1992: Sekundärstrukturvorhersage mit Neuronalen Netzwerken, PHD

1996: Vergleich von Proteinstrukturen mit DALI

2000: Durchbruch bei Sequenz-Assemblierung aus Shotgun-Daten (E. Myers)

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Organisatorisches

Jeder Teilnehmer an den Übungen benötigt einen Rechneraccount für den CIP-

Pool. Diese Accounts werden von der Rechnerbetriebsgruppe des FB Informatik

eingerichtet.

- Haben Sie bereits einen Account auf Uni-Rechnern? Dann muss dieser lediglich

für den CIP-Pool freigeschaltet werden.

Zugang zum CIP-Pool: Für Bioinformatik-Studenten 24/7,

für alle anderen während der Übungsstunden.

Bitte melden Sie sich nach dieser Stunde im Sekretariat

des Zentrums für Bioinformatik bei Frau Karin Jostock an.

Der Beginn der Übungen ist diese Woche im Anschluss an die Vorlesung.

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Organisatorisches: Scheinvergabe- Bewertung: Vorlesung zählt 2V + 2P = 9 Leistungspunkte- Curriculum: Pflichtvorlesung für die Vertiefung „Bioinformatics“- kann natürlich auch für CMB-Bachelor eingebracht werden- Wahlfach Pharmazie/Diplom, M.Sc. Biotechnologie

- Benotung der Scheine:

50% der Benotung ergibt sich aus der mittleren Benotung von drei praktischen Aufgaben, die während des

Semesters von jedem Studenten einzeln zu bearbeiten sind.

Die Aufgaben werden etwa alle 4 Wochen ausgegeben und sind innerhalb von 2 Wochen zu bearbeiten

und durch ein mindestens 5-seitiges Protokoll zu dokumentieren. Jeder Student muss mindestens zwei

der drei praktischen Aufgaben mit einer Note von 4 und besser bestehen.

Am 9.2.2007 wird eine 2-stündige Klausur über die Inhalte der Vorlesung und der Übungen geschrieben.

Die Klausurnote geht ebenfalls mit 50% in die Scheinnote mit ein. Die Klausur muss mit einer Note von 4

und besser bestanden werden.

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Übersicht über Vorlesungsinhalt

I Sequenz

1 Einführung

2 Paarweises Sequenzalignment

3 Multiples Sequenzalignment

4 Phylogenie

5 Techniken der SequenzanalyseGenvorhersage, Transkriptionsfaktorbindungsstellen,

Identifizierung von Repeats, CpG-Inseln, Assemblierung

und Alignment von Genomen

II Proteinstruktur

6 Proteinstruktur

7 Proteinstrukturvorhersage

8 Proteinstruktur II

9 Protein-Liganden-Wechselwirkung

10 Protein-Protein-Docking

III Zellsimulationen/Netzwerke

11 E-Cell

12 Virtual Cell

13 Systembiologie eines

photosynthetischen Vesikels

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Was fange ich mit diesen Daten an?Sequenz des menschlichen Genoms wurde 2001 entschlüsselt.

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Sequenzanalyse

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Ziele

(0) Identifiziere alle menschlichen Gene/Proteine (ORFs) und ihre Funktion

Sind dies alle Proteine?

Nein: post-translationelle Modifikationen möglich wie Methylierung,

Phosphorylierung, Glykosilierung …

(1) Identifiziere Gen-Netzwerke. Welche Proteine wechselwirken miteinander?

(2) Identifiziere Module: abgeschlossene Einheiten

(3) Identifiziere Sequenz-Abschnitte, in denen Mutationen für Krankheiten codieren

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Sequenzen sind verwandt• Evolution findet auf vielen verschiedenen Ebenen statt :

Mutationen einzelner Aminosäuren, Domänen-Shuffling, Genduplikation,

Genom-Rearrangement …

• verwandte Moleküle besitzen in verschiedenen Organismen ähnliche Funktionen

(“Homologe”)

Phylogenetischer Baum für

ribosomale RNA:

Drei Bereiche des Lebens

1. Vorlesung WS 2006/07

J.LeunissenSoftware-Werkzeuge der Bioinformatik

J.Leunissen12

SequenzalignmentDer Zweck eines Sequenzalignments ist, all die Residuen einer beliebigen

Anzahl von Sequenzen untereinander anzuordnen, die von der gleichen

Residuenposition in einem Gen- oder Protein-Vorfahren abstammen.

gap = Insertion oder Deletion

Wie soll dies ein Computerprogramm entscheiden?

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Für Sequenzvergleiche werden

Bewertungsmatrizen für den

Austausch von Aminosäuren

verwendet.

Sequenzvergleiche: PAM250 Matrix

Q: Warum sind manche Werte positiv, manche negativ?

Q: Macht es Sinn, separate Austauschmatrizen für Membranproteine zu

konstruieren?

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Was hat nun Sequenz-Konservierung mit Proteinstrukturen zu tun?

sehr viel!

Die Twilight zone kennzeichnet das Mass an Sequenzidentität, bis zu der zwei

Proteinstrukturen mit hoher Wkt. die gleiche Struktur besitzen.

Richtlinien von Doolittle:

• Sequenzen mit > 150 Residuen und 25% Sequenzidentität sind wahrscheinlich verwandt

• mit 15-20% Sequenzidentität können sie verwandt sein

• bei <15% Sequenzidentität ist es schwierig zu sagen ob sie verwandt sind oder nicht ohne weitere strukturelle oder funktionelle Hinweise

Proteinstruktur Sequenz

TWILIGHT ZONE

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

1 2 Analyse einer unbekannten Sequenz

Suche in Sequenzdatenbankennach identischer Sequenz bzw. ähnlichen Sequenzen

Gibt es ähnliche Sequenz mit bekannter 3D-Struktur?

Vorhersage der Sekundärstruktur

Kann man Funktionzuordnen?

Modellierung der Proteinstruktur durch Homologiemodellierung

Ab inito Vorhersage der Tertiärstruktur

Zuordnung eines Protein-Folds

Multiples Sequenzalignment

Input: neue Proteinsequenz

Alignment der Sekundärstrukturen.

Erkenne Domänen

Analyse dieses Folds, Nachbarn?

ExperimentelleDaten vorhanden?

3D-Proteinstruktur

Alignment der Sequenzmit einer Target-Struktur

Fold erkannt?

Nein

Nach Rob Russell,http://speedy.embl-heidelberg.de/gtsp/flowchart2.html

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Die Anordnung (packing) von Sekundärstrukturelemente zu stabilen Einheiten

wie -barrels, Einheiten, Greek keys, usw.

Definition: Super-Sekundärstruktur

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

• Die gesamte Faltung einer Kette, die sich aus der Packung der

Sekundärstrukturelemente ergibt.

Definition: Tertiärstruktur

Grün Fluoreszierendes

Protein. Seine

zylindrische Architektur

wird durch 11 -Stränge

gebildet. (1emb.pdb Brejc

et al. 1997)

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

cAMP-abhängige Proteinkinase Ca2+ Pumpe

(katalytische Untereinheit) (TM Protein)

Einleitung: Proteinstruktur

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Die Anordnung mehrerer Ketten eines Proteins, das mehrere Untereinheiten

besitzt. Beispiel Hämoglobin

Definition: Quartäre Struktur

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

- Konservierung von Residuen sind Indizien für den Verwandtschaftsgrad von

Proteinen, für die Evolution und für die Verwandtschaft von Organismen

Q: aus welchen Gründen können bestimmte Bereiche der Proteinsequenz

konserviert sein?

- Konservierung von Residuen im aktiven Zentrum

- Konservierung von Residuen, die die Architektur der Proteinstruktur stabilisieren

- Konservierung von Residuen, die während Faltung des Proteins wichtig sind

- Konservierung von Residuen an Bindungsschnittstellen für Liganden und

andere Proteine

Proteinstruktur Sequenz

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

• >900,000 Sequenzen in öffentlichen Datenbanken zugänglich

– Millionen mehr in proprietären dbs

– Anstieg wird mit Sequenzierung von weiteren Genomen weitergehen

– Was kann man diesen Informationen anfangen?

• In den Sequenzen steckt eine grosse Menge an strukturellen,

funktionellen und evolutionären Informationen

– Sie sind eine sehr wichtige Datenquelle

• Im Gegensatz dazu gibt es nur etwa 2000 unabhängige Proteinstrukturen

Bedeutung von Sequenzanalyse

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Anzahl an nicht-redundanten Sequenzen 1988-2002 ( ) Entsprechende Zunahme der Zahl an Proteinstrukturen ( ).

800

700

600

500

400

300

200

100

1988 2002

Sequenz-Struktur Missverhältnis

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Der “holy grail” der strukturellen Bioinformatik

Q: Wo stehen wir im Bereich der Strukturvorhersage?- Homologiemodellierung- Threading- Ab initio Strukturvorhersage

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Eigenschaften der Aminosäuren

Aminosäuren unterscheiden sich in ihren physikochemischen Eigenschaften.

Q: müssen Bioinformatiker die Eigenschaften von Aminosäuren kennen?

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Einleitung: Aminosäuren

Aminosäuren sind die Bausteine von Proteinen:

Carboxylsäure

Aminogruppe

Aminosäuren unterscheiden sich hinsichtlich ihrer- Größe- elektrischen Ladung- Polarität- Form und Steifigkeit

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Proteine sind aus 20 verschiedenen natürlichenAminosäuren aufgebaut

5 sind hydrophob.Sie sind vor allemIm Proteininneren. H

CHCH

H C

Glycine

2 3

Alanine3

Valine

Leucine3

Isoleucine

Einleitung: hydrophobe Aminosäuren

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Es gibt drei voluminöse aromatische Aminosäuren. Tyrosin und Tryptophan

liegen bei Membranproteinen vor allem in der Interface-region.

CHN

Phenylalanin

Tyrosin

Tryptophan

Einleitung: aromatische Aminosäuren

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Es gibt 2 Schwefel enthaltende Aminosäuren und das ungewöhnliche Prolin.

Cysteine können Disulfidbrücken bilden.

Prolin ist ein “Helixbrecher”.

HNH

CHCH

Cystein

2 2

Methionin

Prolin

Einleitung: Aminosäuren

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Es gibt zwei Aminosäuren mit terminalen polaren Hydroxlgruppen:

CH2

CH O H

Serin

2 2

Threonin

Einleitung: Aminosäuren

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Es gibt 3 positiv geladene Aminosäuren. Sie liegen vor allem auf der

Proteinoberflächen und in aktiven Zentren.

Thermophile Organismen besitzen besonders viele Ionenpaare auf den Protein-

oberflächen.H

N H

NH NH

N N

Lysin

2 2

Arginin

Histidin

Einleitung: Aminosäuren

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Es gibt 2 negativ geladene Aminosäuren und ihre zwei neutralen Analoga.

Asp und Glu haben pKa Werte von 2.8. Das heisst, erst unterhalb von pH=2.8

werden ihre Carboxylgruppe protoniert.

O O

O NH

Asparaginsäure

2 2

Glutaminsäure

Asparagin

2 2

Glutamin

Einleitung: Aminosäuren

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

• Ein- und Drei-Buchstaben-Codes der Aminosäuren

G Glycin Gly P Prolin ProA Alanin Ala V Valin ValL Leucin Leu I Isoleucin IleM Methionin Met C Cystein CysF Phenylalanin Phe Y Tyrosin TyrW Tryptophan Trp H Histidin HisK Lysin Lys R Arginin ArgQ Glutamin Gln N Asparagin AsnE Glutaminsäure Glu D Asparaginsäure AspS Serin Ser T Threonin Thr

Zusätzliche CodesB Asn/Asp Z Gln/Glu X Irgendeine Aminosäure

Kenntnis dieser Abkürzungen ist essentiell für Sequenzalignments und für Proteinstrukturanalyse!

Buchstaben-Code der Aminosäuren

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Transmembrandomänen: Hydrophobizitätsskalen

http://blanco.biomol.uci.edu/mpex/Stephen White group, UC Irvine

TM Helices sind 20 Residuen lange

Abschnitte aus vorwiegend hydrophoben

Resiuden.

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Faltung von TM Proteinen wird durch Translokon unterstützt

White, FEBS Lett. 555, 116 (2003)

Modell:

Die neu synthesierte Polypeptidkette

eines Membranproteins gelangt vom

Ribosom durch den Translokon-

komplex in die Membran

(EM Abbildung).

Erster Eindruck:

Die Faltung eines Membranproteins ist ein

hochkomplizierter Prozess.

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Detektion der Membraninsertion via Glykosylierung

Hessa et al., Nature 433, 377 (2005)

Integration of H-segments into the microsomal membrane

a, Wild-type Lep has two N-terminal TM segments (TM1 and TM2) and a large luminal domain

(P2). H-segments were inserted between residues 226 and 253 in the P2-domain.

Glycosylation acceptor sites (G1 and G2) were placed in positions 96–98 and 258–260,

flanking the H-segment. For H-segments that integrate into the membrane, only the G1 site is

glycosylated (left), whereas both the G1 and G2 sites are glycosylated for H-segments that do

not integrate in the membrane (right).

b, Membrane integration of H-segments with the Leu/Ala composition 2L/17A, 3L/16A and

4L/15A. Bands of unglycosylated protein are indicated by a white dot; singly and doubly

glycosylated proteins are indicated by one and two black dots, respectively.

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Translocon-assisted folding of TM proteins?

Hessa et al., Nature 433, 377 (2005)

c, Gapp values for H-segments with 2–4 Leu residues.

Fragmente mit mehr als 4 Leucinen werden in Membran eingefügt.

d, Mean probability of insertion (p) for H-segments with n = 0–7 Leu residues.

For n = 0, 1, 5–7, only single H-segments with the following compositions were used

(flanked by GGPG…GPGG in all cases): (A)19, (A)9L(A)9, (A)4LALAALAALAL(A)4,

(A)4(LA)5L(A)4, ALAALALAALAALALAALA.

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Vergleich von biologischen und Peptid G-Skalen

Hessa et al., Nature 433, 377 (2005)

a, Gapp aa scale derived from H-segments with the indicated amino acid placed in

the middle of the 19-residue hydrophobic stretch.

c, Correlation between the Gapp aa scale and the Wimley–White water/octanol

free energy scale.

Fazit: Insertion in Membran hängt nur von Hydrophobizität derAminosäuresequenz ab!

Bioinformatiker sollten die Eigenschaften der Aminosäuren kennen

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Helikale Räder

http://cti.itc.Virginia.EDU/~cmg/Demo/wheel/wheelApp.html.

Helikale Räder dienen

zur Darstellung von

Helices.

Man kann so leicht

erkennen, welche Seite

der Helix dem Solvens

zugewandt ist und

welche ins Proteininnere

zeigt.

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Analyse einer unbekannten Sequenz

Suche in Sequenzdatenbankennach identischer Sequenz bzw. ähnlichen Sequenzen

Gibt es ähnliche Sequenz mit bekannter 3D-Struktur?

Vorhersage der Sekundärstruktur

Kann man Funktiontransferieren?

Modellierung der Proteinstruktur durch Homologiemodellierung

Vorhersage der Tertiärstruktur

Zuordnung eines Protein-Folds

Multiples Sequenzalignment

Input: neue Proteinsequenz

Alignment der Sekundärstrukturen.

Erkenne Domänen

Analyse dieses Folds, Nachbarn?

ExperimentelleDaten vorhanden?

3D-Proteinstruktur

Alignment der Sequenzmit einer Struktur.

Fold erkannt?

Nein

Nach Rob Russell,http://speedy.embl-heidelberg.de/gtsp/flowchart2.html

1. Vorlesung WS 2006/07

Software-Werkzeuge der Bioinformatik

Software

In den Tutorials vorgestellte Software:

0 Datenbankennavigation SRS

I Sequenzanalyse: BLAST, PSI-BLAST, CLUSTALW

II Proteinstruktur: VMD, Swissmodel

III Zellsimulationen: Virtual Cell, FluxAnalyzer, Cytoscape

Datenbanken:SequenzdatenbankenProteinstrukturbankenMetabolische Datenbanken

Top Related

Seminar Fortgeschrittene algorithmische Bioinformatik, SS05 Shift-And und Karp-Rabin Seminar Fortgeschrittene algorithmische Bioinformatik SS 2005 Wadim.

Online Datenbanken für Bioinformatiker Einführung Bioinformatik Einführung Bioinformatik Oktober 2003.

12. Vorlesung WS 2005/06Softwarewerkzeuge der Bioinformatik1 V12 Bioinformatik-Tools für HT Proteinanalyse traditionelle Ansätze: reduktionistisch; finde.

Algorithmische Bioinformatik I/II · 2003-05-14 · Vorwort Dieses Skript entstand parallel zu den Vorlesungen Algorithmische Bioinformatik I und Algorithmische Bioinformatik II,

1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge kennenlernen.

Softwarewerkzeuge zur Gestaltung und Unterstützung von Lernszenarien

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische.

1. Vorlesung WS 2014/15 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge kennenlernen.