PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität...

23
PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main

Transcript of PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität...

Page 1: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

PTGL LigandenintegrationProtein Topology Graph Library

Tim Schäfer MolBI Goethe Universität Frankfurt am Main

Page 2: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

Übersicht

Proteine

Struktur und Funktion

Modellierung

Protein Topology Graph Library (PTGL)

Motivation und Ziele

Proteinmodell und Methoden

Aufbau und Funktionsweise

Integration von Protein-Liganden-Interaktionen

Ligandendarstellung

Änderungen an der PTGL

Page 3: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

Proteinaufbau und Beschreibungsebenen

Proteine

Komplexe Makromoleküle

20 AS als Bausteine

Strukturebenen

Primärstruktur

Sekundärstruktur, SSE α-Helix, β-Sheet

Tertiärstruktur

Quartärstruktur

Page 4: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

Proteinaufbau und Beschreibungsebenen (FS)

Strukturmotive und Folds

Konservierung oft höher als auf AS-Niveau

Proteinfunktion ist abhängig von 3D-Struktur

Strukturaufklärung => Datenbanken

Analyse erfordert Methoden zum Proteinvergleich auf unterschiedlichen Strukturebenen

TIM-barrel in Triosephosphat-Isomerase (7TIM)

Page 5: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

Vergleich von Proteinstrukturen

Primärstruktur: Stringvergleiche

DP: Needleman-Wunsch, Smith-Waterman

Entfernte Ähnlichkeiten und untersch. Seq. Anordnung

Unterschiedliche evolutionäre Konservierung auf Strukturebenen

Tertiärstrukuturvergleich auf Ebene von Atomen/AS aufwändig

Abstraktion: Strukturmuster können auf SSE-Ebene beschrieben werden

=> Nutzung der Sekundärstrukturebene

Gleicher Fold => gleicher Kern von SSEs

Datenmenge (80.000 Atome => 800 Reste => 70 SSEs)

Page 6: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

PTGL - Protein Topology Graph Library

Funktionen

Webinterface zur Suche nach Proteintopologien

Graphische Darstellung von Proteintopologien (2D)

Proteinmodellierung

Ungericheteter, beschrifteter Graph für jede Chain eines Proteins

Ähnlichkeitsmodell: gleiche Substrukturen (max. gem. Teilgraphen)

Datenquellen und Vorverarbeitung

Atomkoordinaten : RCSB Protein Data Bank (PDB)

SSE-Zuordnung : DSSP-Algorithmus, mod.

Page 7: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

PTGL – Technischer Aufbau

Frontend: Webinterface (Browser)

Backend: PostgreSQL Datenbank, Apache Webserver

Implementierung: Perl, C

Page 8: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

PTGL – Modellierung von Proteinen als Graphen

Knoten: SSEs des Proteins mit Typ

Kanten: räumliche Beziehung zwischen SSEs

Kontaktberechnung zwischen SSEs nötig: Überlappung der vdW-Radien (2Å), Typen: Rückgrat/Rückgrat (RG) Rückgrat/Seitenkette (SK) Seitenkette/Seitenkette

Kante erfordert mindestens 2RG.RG | 2RG.SK | 3 SK.SK

Page 9: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

PTGL – Räumliche Ausrichtung von SSEs

S := Menge der Summen aller Paare von AS-Nummern, die Kontakt bilden

D := Menge der Differenzen aller dieser Paare

Doppelte Differenz DD := (Smax

- Smin

) - (Dmax

– Dmin

)

DD > 0: parallel, DD < 0: antiparallel, DD = 0: mixed

Page 10: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

PTGL – Räumliche Ausrichtung von SSEs (FS)

S = { 100, 100, 100 } S = { 80, 100, 120 }

D = { 80, 60, 40 } D = { 60, 60, 60 }

DD = -40 DD = 40

=> antiparallel => parallel

Page 11: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

PTGL – Graphtypen

Berücksichtigung aller oder nur bestimmer SSE-Typen

Alpha-, Beta- oder Alpha-Beta-Graph (=Proteingraph)

Diese Graphen sind nicht zwangsläufig zusammenhängend! Zusammenhangskomponenten (ZHK) entsprechen oft Domänen Eine ZHK des Graphen wird als Faltungsgraph (FG) bezeichnet Proteingraph: ein oder mehrere FGs Finden aller ZHKs mit Breitensuche

Darstellung: Reihenfolge der SSEs

Sequentiell: Differenz in AS-Nummer (Primärsequenz)

Räumlich: Länge des kürzesten Weges zwischen den Knoten im Proteingraphen

Page 12: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

PTGL – Notationen von Faltungsgraphen (FG)

KEY: Schlüsselnotation

Geordnet nach räumlicher Nähe (Start am N-Terminus)

Differenzen der SSE-Nummern bei sequentieller Nummerierung (N=>C), 'x' bei parallelen SSEs; z.B. [5x, 1x, -2x, -1x, -1x, -1]

ADJ: adjazente Notation

Geordnet nach sequentiellem Auftreten der SSEs in Sequenz

Differenzen der SSE-Nummern bei räumlicher Nummerierung, 'p': parallel, 'a': antiparallel, 'm': mixed

RED: reduzierte Notation

Wie ADJ, enthält aber nur SSEs des eigenen Faltungsgraphen

SEQ: Sequenznotation

Wie ADJ, aber sequentielle Nummerierung

Page 13: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

FS: PTGL – Notation von Faltungsgraphen (FG)

Page 14: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

PTGL - Substruktursuche

Unverzweigte Faltungsgraphen (Grad aller Knoten <= 2)

Die dargestellten eindeutigen linearen Notationen ermöglichen eine Suche nach Substrukturen über Stringvergleich

Verzweigte Faltungsgraphen

Besitzen SSEs, die Kontakte mit > 2 räumlichen Nachbarn haben

Anpassungen der Notation für ADJ, RED, SEQ

KEY-Notation ist hier nicht möglich, da es keine eindeutige räumliche Folge der SSEs gibt

Finden von Teilstrukturen nicht mehr durch Stringsuche möglich, daher müssen graphtheoretische Methoden genutzt werden

=> Finden von maximalen gemeinsamen Teilgraphen

Page 15: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

PTGL – Finden maximaler Teilgraphen (MTG)

MTG ist NP-hart

Transformation des MTG-Problem in Alle-Cliquen-Problem

Cliquen im Kompatibilitätsgraphen entsprechen MTGs in den Faltungsgraphen

Erstellen des Kantenkompatibilitätsgraphen der beiden Faltungsgraphen

Page 16: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

Erstellen des Kompatibilitätsgraphen (1/2)

Kanten sind kompatibel wenn

Ihre Kantenmarkierungen übereinstimmen und

Die Markierungen ihrer Endknoten überstimmen

Page 17: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

Erstellen des Kompatibilitätsgraphen (2/2)

Kante setzen wenn

u adjazent zu u' und v adjazent zu v' oder

u nicht adjazent zu u' und v nicht adjazent zu v'

Page 18: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

PTGL – Finden maximaler Teilgraphen (MTG)

MTG ist NP-hart

Transformation des MTG-Problem in Alle-Cliquen-Problem

Erstellen des Kantenkompatibilitätsgraphen der beiden Faltungsgraphen

Cliquen im Kompatibilitätsgraphen entsprechen MTGs in den Faltungsgraphen

Lösung mit bekannten Algorithmen (Bron-Kerbosch): Laufzeit für große Proteingraphen zu hoch

Anpassung des Bron-Kerbosch-Algorithmus an Problem

Suche statt aller MTG nur zusammenhängende MTG, denn von Interesse sind zusammenhängende Strukturen im Inneren des Proteins

Page 19: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

Protein-Liganden-Interaktionen (PLI)

Viele Proteine benötigen Liganden oder Co-Faktoren (ATP, NAD+, …) für ihre Funktion

besondere Bedeutung bei vielen Anwendungen bei der Suche nach Inhibitoren / Medikamentendesign

> 4000 unterschiedliche Liganden sind in der PDB

Hohe Konservierung der PLI in Evolution

Page 20: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

Ligandenintegration - Aufgaben

Berechnen der Liganden-SSE-Interaktionen

Aus 3D-Koordinaten in PDB-Dateien

Anpassen des Graphmodells

Ligandenknoten und Kanten

Klassifizierung der Liganden nach Typen

Abstraktionsniveau

Anpassen der Dateiformate und Datenbank

Dateien wie albe.dat, neue Tabellen für Liganden und Interaktionen

Anpassen der Weboberfläche

Eingabe-/Suchformulare, Ausgabe (Postscript)

Page 21: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

Zusammenfassung

Proteine können auf unterschiedlichen Ebenen verglichen werden, das Finden entfernter Ähnlichkeiten erfordert eine Abstraktion von der Ebene der AS-Sequenz

Die PTGL benutzt 3D-Daten der PDB um unterschiedliche Proteingraphen zu erstellen, bei denen Knoten SSEs darstellen und Kanten die räumliche Beziehung zwischen diesen modellieren

Das Ähnlichkeitsmodell basiert auf dem Finden maximaler gemeinsamer Teilgraphen mit Varianten des Bron-Kerbosch-Algorithmus

Die Integration von Ligandeninformationen soll die Suchfähigkeiten der PTGL verbessern und erfordert Eingriffe auf unterschiedlichen Ebenen der PTGL

Page 22: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

PTGL - Ligandenintegration

Vielen Dank für Ihre Aufmerksamkeit!

Page 23: PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main.

Anhang - Quellen

W. Kabsch& C. Sander J.Mol.Biol. 114:181 (1977)

F.Kaden, I.Koch, J. Selbig J.Theor.Biol. 147:85 (1992)

I.Koch, F.Kaden, J.Selbig PSFG 12:314 (1992)

C.Bron & J. KerboschCommun.ACM 16:575 (1973)