Lehrveranstaltung Sommersemester 2006

74
Lehrveranstaltung Sommersemester 2006 nalyse und Visualisierung in der Bioinf W. Kurth, G. H. Buck-Sorlin, O. Kniemeyer Praktikum, ca. 1 SWS Präsenzveranstaltung + ca. 4 SWS praktische Tätigkeit (betreutes Arbeiten)

description

Lehrveranstaltung Sommersemester 2006. W. Kurth, G. H. Buck-Sorlin, O. Kniemeyer. Datenanalyse und Visualisierung in der Bioinformatik. Praktikum, ca. 1 SWS Präsenzveranstaltung + ca. 4 SWS praktische Tätigkeit (betreutes Arbeiten). Was ist Bioinformatik?. - PowerPoint PPT Presentation

Transcript of Lehrveranstaltung Sommersemester 2006

Page 1: Lehrveranstaltung Sommersemester 2006

Lehrveranstaltung Sommersemester 2006

Datenanalyse und Visualisierung in der Bioinformatik

W. Kurth, G. H. Buck-Sorlin, O. Kniemeyer

Praktikum, ca. 1 SWS Präsenzveranstaltung + ca. 4 SWS praktische Tätigkeit (betreutes Arbeiten)

Page 2: Lehrveranstaltung Sommersemester 2006

Was ist Bioinformatik?

Page 3: Lehrveranstaltung Sommersemester 2006

Was ist Bioinformatik?

aus Hofestädt & Schnee (2002)

“Bioinformatik ist die Entwicklung und Anwendung vonComputeranwendungen für die Analyse, Interpretation,

Simulation und Vorhersage von biologischenSystemen und korrespondierenden experimentellen

Methoden in den Naturwissenschaften”.Steffen Schulze-Kremer (RZPD Dt. Ressourcenzentrum für Genomforschung GmbH)

"Bioinformatik ist die computerunterstützte Analyse biologischer Systeme."

Thomas Dandekar (EMBL Heidelberg)

"Bioinformatik besteht darin, biologische Gesetzmäßigkeiten der Entwicklung neuer Algorithmen zugrunde zu legen und auf diese Weise zu synergistischen Effekten zu kommen, die weder in der Biologie noch in der Informatik alleine

möglich wären."Thomas Werner (CEO Genomatix Software GmbH München)

Page 4: Lehrveranstaltung Sommersemester 2006

Was ist Bioinformatik?

1. Bio-Informatik = Probleme aus der Biologie + Methoden aus der Informatik;2. Bio-Informatik = Probleme aus der Informatik + Methoden aus der Biologie.

Rolf Backofen (Institut für Informatik, LMU München)

aus Hofestädt & Schnee (2002)

a. Schwerpunkt auf biologischer Fragestellung, Informatikwerkzeuge nach Bedarf eingesetztb. Schwerpunkt auf Informatikmethoden, Biologie nur entfernte Motivation für untersuchte Problemec. wirklich interdisziplinärer Ansatz: untersuchte Fragestellung und verwendete Informatikmethoden werden in ständigem Prozess adaptiert. Notwendig, da die Problemformalisierung nur eine Abstraktion des ursprünglichen Problems sein kann.

Feinunterscheidung (nach Michael Waterman):

Page 5: Lehrveranstaltung Sommersemester 2006

aus Hofestädt & Schnee (2002)

Page 6: Lehrveranstaltung Sommersemester 2006
Page 7: Lehrveranstaltung Sommersemester 2006
Page 8: Lehrveranstaltung Sommersemester 2006

Quelle: DKFZ Abteilung Bioinformatik und Funktionelle Genomik

Page 9: Lehrveranstaltung Sommersemester 2006

nach McCULLOCH & HUBER (2002), verändertGen

Protein

MakromolekularerKomplex

Organelle

Zelle

Netzwerk

Gewebe

Organ

System

Organismus

Empirische Daten

Ontologien

Statistische Modellierung

System-analyse

VorhersagendeModellierung

Physiko-chemischeerste Prinzipien

MathematischeTheorie

Drei Integrationsachsenin der Computerbiologie

funktional

zwischen Datenund Theorie

strukturell

regulatorisch Wachs-tum

Metabolik elektrisch mechanisch Transport

Page 10: Lehrveranstaltung Sommersemester 2006

nach McCULLOCH & HUBER (2002), verändert

Herausforderungen:

funktional

Systembiologie

Page 11: Lehrveranstaltung Sommersemester 2006

nach McCULLOCH & HUBER (2002), verändert

Herausforderungen:

Zentrales Ziel der Systembiologie:Funktional integrierte biologische Modellierung- datenbezogen datenintensiv

funktional

Page 12: Lehrveranstaltung Sommersemester 2006

nach McCULLOCH & HUBER (2002), verändert

Herausforderungen:

funktional

strukturell

Systembiologie

ComputationalBiology

Page 13: Lehrveranstaltung Sommersemester 2006

nach McCULLOCH & HUBER (2002), verändert

Herausforderungen:

funktional

strukturell

Systembiologie

Computational Biology: strukturell integriert (z.B. Molekulare Dynamik,Vorhersage der Proteinstruktur)

- gesteuert durch physiko- chemische 1. Prinzipien berechnungsintensiv- Ziel: Skalenintegration

Page 14: Lehrveranstaltung Sommersemester 2006

nach McCULLOCH & HUBER (2002), verändert

Physiko-chemische Erste Prinzipien:

z.B. Massenerhaltung, Minimierung mechanischer Spannungen

- Problem der Proteinfaltung - Massengleichgewicht bei Analysen metabolischer Flüsse (auch bei sink-source-Modellen)

Page 15: Lehrveranstaltung Sommersemester 2006

nach McCULLOCH & HUBER (2002), verändert

Beispiele für Schnittstellen zwischen strukturell und funktionellintegrierter Computational Biology:

• Kopplung zwischen biochemischen Netzwerken und räumlich gekoppelten Netzwerken • Nutzung physiko-chemischer Beschränkungen zur Optimierung genomischer Systemmodelle des Zellmetabolismus• Entwicklung kinetischer Modelle der Zellsignalübertragung in Verbindung mit physiologischen Targets wie z.B. Energiestoff- wechsel, Ionenflüsse oder Zellmotilität• Nutzung empirischer Beschränkungen zur Optimierung von Vorhersagen der Proteinfaltung• Integration von Systemmodellen der Zelldynamik in Kontinuum- modelle der Gewebe- und Organphysiologie

Page 16: Lehrveranstaltung Sommersemester 2006

Hintergrund:

Page 17: Lehrveranstaltung Sommersemester 2006

Grundvorstellung: Bauplan und Funktionsmöglichkeiten des Organismus gespeichert in DNA-Molekülen, diese werden repliziert

DNA als Träger der genetischen Information (Erbinformation; Genom)

(DNA = desoxyribonucleic acid = Desoxyribonukleinsäure = DNS)

Page 18: Lehrveranstaltung Sommersemester 2006
Page 19: Lehrveranstaltung Sommersemester 2006
Page 20: Lehrveranstaltung Sommersemester 2006
Page 21: Lehrveranstaltung Sommersemester 2006
Page 22: Lehrveranstaltung Sommersemester 2006
Page 23: Lehrveranstaltung Sommersemester 2006
Page 24: Lehrveranstaltung Sommersemester 2006
Page 25: Lehrveranstaltung Sommersemester 2006

Zum Begriff des Gens:

Unterscheidung zwischen Funktionsgen und Mendel-Gen

Page 26: Lehrveranstaltung Sommersemester 2006
Page 27: Lehrveranstaltung Sommersemester 2006

Das Zentrale Dogma

aus Waterman (1995)

„The central dogma states that once 'information' has passed into a protein it cannot get out again. The transfer of information from nucleic acid to nucleic acid, or from nucleic acid to protein, may be possible, but transfer from protein to protein, or from protein to nucleic acid,is impossible. Information here means the precise determination of sequence, either of bases in the nucleic acid or of amino acid residues in the protein"

Francis Crick (1958).

Page 28: Lehrveranstaltung Sommersemester 2006
Page 29: Lehrveranstaltung Sommersemester 2006
Page 30: Lehrveranstaltung Sommersemester 2006
Page 31: Lehrveranstaltung Sommersemester 2006
Page 32: Lehrveranstaltung Sommersemester 2006
Page 33: Lehrveranstaltung Sommersemester 2006
Page 34: Lehrveranstaltung Sommersemester 2006
Page 35: Lehrveranstaltung Sommersemester 2006
Page 36: Lehrveranstaltung Sommersemester 2006
Page 37: Lehrveranstaltung Sommersemester 2006
Page 38: Lehrveranstaltung Sommersemester 2006
Page 39: Lehrveranstaltung Sommersemester 2006
Page 40: Lehrveranstaltung Sommersemester 2006
Page 41: Lehrveranstaltung Sommersemester 2006
Page 42: Lehrveranstaltung Sommersemester 2006
Page 43: Lehrveranstaltung Sommersemester 2006
Page 44: Lehrveranstaltung Sommersemester 2006

Bioinformatik-Probleme

Probleme, die mit dem zentralen Dogma assoziiert sind: Alle Probleme, die direkt mit einem spezifischen Level von Information (Sequenz, Struktur, Funktion) assoziiert sind oder aber mehrere Levels umfassen.

Beispiele: Alignierungsverfahren (sequence alignment, structural alignment); Proteinstrukturvorhersage

Probleme der Datenhaltung: Fragestellungen der Speicherung, Wiedergewinnung und Analyse der Daten.

Beispiele: Aufbau von biologischen Datenbanken; data mining (Gewinnung neuen Wissens aus der Ansammlung der Daten)

Simulation biologischer Systeme: Vorhersage des dynamischen Verhaltens eines biologischen Systems auf der Basis seiner Komponenten.

Beispiel: Untersuchung metabolischer Netzwerke.

Rolf Backofen (Institut für Informatik, LMU München)

aus Hofestädt & Schnee (2002)

Page 45: Lehrveranstaltung Sommersemester 2006
Page 46: Lehrveranstaltung Sommersemester 2006
Page 47: Lehrveranstaltung Sommersemester 2006
Page 48: Lehrveranstaltung Sommersemester 2006
Page 49: Lehrveranstaltung Sommersemester 2006

Die nächsthöhere Ebene: "Metabolomik"

Metabolische Netzwerke

Leben:

beruht auf sehr vielen Stoffwechselprozessen, vernetzt (menschl. Zelle: ca. 100 000 Molekülarten)

"autokatalytisch": das Netzwerk produziert seine eigenen Katalysatoren

Datenbanken (Selkov et al.; Karp et al. ...) zu den Netzwerken

Page 50: Lehrveranstaltung Sommersemester 2006

Ausschnitt aus den "metabolic pathways":

Page 51: Lehrveranstaltung Sommersemester 2006

Formalisierung:

bipartite Graphen

Stoffknoten und Reaktionsknoten

(qualitatives Modell – liefert Rahmen und Restriktionen für quantitative Modelle)

Erweiterung:

Petri-Netze

ggf. Petri-Netze mit Farben (Marken) = "high-level Petri nets"

Arbeiten von Reddy et al. 1993, M. Heiner ...

Page 52: Lehrveranstaltung Sommersemester 2006

Beispiel: Petrinetz-Modell des Glykolyse/Pentosephosphat-Stoffwechsels (aus Heiner et al. 2001):

Probleme:

- Bestimmung solcher Netzwerke aus empirischen Daten

- topologische Analyse

- insbes. Pfadlängen

- dynamische Simulation der Konzentrationen

Page 53: Lehrveranstaltung Sommersemester 2006

Die "makroskopische Ebene":

Morphologie, Wachstum und Funktion von (bzw. in) Organen, Organismen und Biota (Lebensgemeinschaften)

- bisher in der Bioinformatik noch wenig im Fokus

- aber: zukünftige Notwendigkeit, zu dieser Skalenebene vorzustoßen

Beispiel: Struktur und Funktion von Pflanzen

Struktur: Stamm, Wurzel, Äste, Blätter, Blüten...

Funktionen: Photosynthese, Atmung, Stofftransport, Speicherung von Assimilaten, Reproduktion der Pflanze...

Zusammenhang von Struktur und Funktion: z.B. Optimierung der Lichtaufnahme über die Anordnung der Blätter

Page 54: Lehrveranstaltung Sommersemester 2006

Formalismus der L-Systeme (Lindenmayer-Systeme):

aus der Theorie formaler Grammatiken

analog zu Chomsky-Grammatiken (regulär, kontextfrei, kontextsensitiv etc.)

aber: in jedem Ableitungsschritt parallele Ersetzung aller Zeichen, auf die eine Regel anwendbar ist

von Aristid Lindenmayer (Botaniker) 1968 zur Modellierung des Wachstums von fadenförmigen Algen eingeführt

Page 55: Lehrveranstaltung Sommersemester 2006

L-Systeme arbeiten stringbasiert.

Erweiterungen: Wörter aus parametrisierten Zeichen (Modulen); Graph-Grammatiken; map-L-Systeme und cellwork-L-Systeme.

Grundversion gut für alle Strukturen mit lokal 1-dimensionalem Grundgerüst (Verzweigungssysteme).

Definition:

Ein (kontextfreies, nichtparametrisches) L-System ist ein Tripel

(, , R), darin ist

- eine nichtleere Menge von Zeichen (das Alphabet),

- ein Element von *, das Startwort oder Axiom,

- R eine nichtleere Teilmenge von *, die Menge der Produktionsregeln (generative Regeln).

Page 56: Lehrveranstaltung Sommersemester 2006

Ein Ableitungsschritt eines Wortes * besteht aus der Ersetzung aller Zeichen in , die in linken Regelseiten von R vorkommen, durch die entsprechenden rechten Regelseiten.

Man vereinbart: Zeichen, auf die keine Regeln anwenbar sind, werden unverändert übernommen.

Ergebnis zunächst nur:

Ableitungskette von Wörtern, die sich durch iterierte Anwendung des rewriting-Vorgangs aus dem Startwort ergeben.

1 2 3 ....

was für die Morphologie-Modellierung noch fehlt:

- eine Semantik (= geometrische Interpretation)

Page 57: Lehrveranstaltung Sommersemester 2006

füge zu obiger Def. hinzu:

eine Abbildung, die jedem Wort aus * eine Teilmenge des R3 zuordnet

dann: "interpretierte" L-System-Abarbeitung

1 2 3 ....

S1 S2 S3 ....

S1, S2, S3, ... können als Generationen oder als Entwicklungsstufen eines

belebten Objekts (Pflanze, Biotop...) interpretiert werden.

Als Interpretationsabbildung wird meistens gewählt:

Turtle geometry ("Schildkrötengeometrie")

befehlsgesteuertes, lokales Navigieren im 2D- oder 3D-Raum

- Abelson & diSessa 1982

- vgl. Sprache "LOGO"

Page 58: Lehrveranstaltung Sommersemester 2006

"Turtle": Zeichen- oder Konstruktionsgerät (virtuell)

- speichert (grafische und nicht-grafische) Informationen

- mit Stack assoziiert

aktueller Zustand enthält z.B. Information über aktuelle Liniendicke, Schrittweite, Farbe, weitere Eigenschaften des als nächstes zu konstruierenden Objekts

Befehle (Auswahl):

F "Forward", mit Konstruktion eines Elements (Linienstück, Segment, Internodium einer Pflanze...), benutzt wird die aktuelle Schrittweite für die Länge

f forward ohne Konstruktion (move-Befehl)

L(x) ändere die aktuelle Schrittweite (Länge) zu x

L+(x) inkrementiere die aktuelle Schrittweite um x

L*(x) multipliziere die aktuelle Schrittweite mit x

D(x), D+(x), D*(x) analog für die aktuelle Dicke

RU(45) Drehung der turtle um die "up"-Achse um 45°

RL(...), RH(...) analog um "left" und "head"-Achse

up-, left- und head-Achse bilden ein orthonormales Rechtssystem, das von der turtle mitgeführt wird

Page 59: Lehrveranstaltung Sommersemester 2006

Strings aus diesen Symbolen werden sequenziell abgearbeitet.

Verzweigungen: Realisierung mit Stack-Befehlen

[ lege aktuellen Zustand auf Stack

] nimm Zustand vom Stack und mache diesen zum aktuellen Zustand (Ende der Verzweigung)

Page 60: Lehrveranstaltung Sommersemester 2006

Beispiel:

Regeln a F [ RU45 b ] a,

b F b

Startwort a

Page 61: Lehrveranstaltung Sommersemester 2006

Verzweigung, alternierende Zweigstellung und Verkürzung:

* F a,

a L*0.5 [ RU90 F ] F RH180 a

Page 62: Lehrveranstaltung Sommersemester 2006

Beispiel Fichte (L-System basierend auf Messungen an realen Bäumen)

Page 63: Lehrveranstaltung Sommersemester 2006

Nachteile von L-Systemen:• in L-Systemen mit Verzweigungen (über Turtle-Kommandos) nur 2 mögliche Relationen zwischen Objekten: "direkter Nachfolger" und "Verzweigung"     

Erweiterungen:

• Zulassen weiterer Relationstypen (beliebig wählbar)• Zulassen von Zyklen ( Graph-Grammatik)

 

Page 64: Lehrveranstaltung Sommersemester 2006

• Grammatik modifiziert direkt den Graphen, Umweg über String-Codierung entfällt (bzw. wird nur noch für Regel-Input gebraucht)

"relationale Wachstumsgrammatik"

außerdem Nachteil der Turtle-Interpretation von L-Systemen: Segmente sind nur Zylinder, keine Objekte im Sinne der OOP

Erweiterungen:

• Knoten des Graphen können beliebige Objekte sein (auch Grafikobjekte)

• Einbettung von Code einer höheren, imperativen oder objektorientierten Programmiersprache in die Regeln (für uns: Java)

Page 65: Lehrveranstaltung Sommersemester 2006

Relationale Wachstumsgrammatiken (RGG)

Aufbau einer Regel einer RGG:

Page 66: Lehrveranstaltung Sommersemester 2006

eine RGG-Regel und ihre Anwendung in grafischer Form:

Regel:

Anwendung:

Regel in Textform: i -b-> j -a-> k -a-> i = => j

Page 67: Lehrveranstaltung Sommersemester 2006

Realisierung dieser Konstrukte in einer Programmiersprache:

Sprache XL (eXtended L-system language)

• RGG-Regeln in Blöcken organisiert Kontrolle der Reihenfolge der Regelanwendungen

• Turtle-Kommandos als Knoten erlaubt

• Knoten sind Java-Objekte

• Sprache Java als Rahmen für die gesamte RGG Benutzer kann Konstanten, Variablen, Klassen... definieren

Page 68: Lehrveranstaltung Sommersemester 2006

XL wird interpretiert von der interaktiven 3D-Plattform GroIMP (Growth-grammar related Interactive Modelling Platform)

• GroIMP stellt Objekte für die 3D-Visualisierung bereit. Diese können in XL verwendet werden (analog zur Turtle-Grafik in klassischen L-Systemen).

• GroIMP ist ein open source-Projekt; siehe

http://www.grogra.de.

Page 69: Lehrveranstaltung Sommersemester 2006

Beispiel für RGG-Anwendung:

• Signalausbreitung in einem Netzwerk

Zellen mit zwei Zuständen (0 oder 1) – codiert als Attribut (Knoten-Markierung) "state"

nur eine RGG-Regel:

(* c1: Cell *) c2: Cell, (c1.state == 1) ==> c2(1)

grafische Darstellung der Regel:

(schattiert: Kontext)

Page 70: Lehrveranstaltung Sommersemester 2006

Anwendung auf ein gegebenes Netzwerk:

1 2 3

Verfeinerung:Verwendung reellwertiger Zustände (für Konzentrationen...)und von Regeln, die typische Reaktionskinetiken darstellen Simulation von Reaktions- und Transportnetzwerken

Page 71: Lehrveranstaltung Sommersemester 2006

Allgemeine Literatur:

Page 72: Lehrveranstaltung Sommersemester 2006

Allgemeine Literatur:1) Hofestädt, R., Schnee, R. (2002): Studien- und Forschungsführer

Bioinformatik. Spektrum-Verlag. 234 S.2) Rashidi, H., Bühler, L.K. (2001): Grundriss der Bioinformatik.

Spektrum-Verlag. 215 S.3) Hansen, A. (2001): Bioinformatik. Ein Leitfaden für

Naturwissenschaftler. Birkhäuser-Verlag. 112 S.4) Waterman, M.S. (1995): Introduction to Computational Biology.

Maps, sequences and genomes. Chapman & Hall, London. 431 S.5) Mount, D.W. (2001): Bioinformatics. Sequence and Genome

Analysis. Cold Spring Harbor Laboratory Press. 564 S.

6) Prusinkiewicz, P.; Lindenmayer, A. (1990): The Algorithmic Beauty of Plants. Springer, Berlin.http://www.algorithmicbotany.org/papers/abop/abop.pdf

Page 73: Lehrveranstaltung Sommersemester 2006

Themenliste:

T1: Modellierung der Morphologie von Arabidopsis thaliana mit relationalen Wachstumsgrammatiken unter GroIMP

T2: Zellbiologisches Modell von Blumeria graminis (Mehltau)

T3: Topologische Analyse von biochemischen Reaktions-netzwerken

T4: Dreidimensionale "Biomorphe" mit Insektenformen, unter Verwendung von XL und von NURBS-Flächen in GroIMP

T5: Konstruktion und Visualisierung taxonomischer Bäume auf Basis von Sequenzdaten

T6: Ontologische Visualisierung von Genexpressionsdaten aus Makroarray-Experimenten

Page 74: Lehrveranstaltung Sommersemester 2006

Zeitplan:

03.04. Einführung

10.04. Detaillierte Vorstellung der Themen, verbindliche Anmeldung

24.04. Einführung in die Sprache XL und Vorstellung der Software GroIMP

22.05. Zwischenpräsentation der Ergebnisse

10.07. Abschlusspräsentation der Ergebnisse