Evolution der Proteinstruktur - uni-frankfurt.de
Transcript of Evolution der Proteinstruktur - uni-frankfurt.de
Evolution der Proteinstruktur
Strukturelle Bioinformatik WS15/16
Dr. Stefan Simm, 09.12.2015 [email protected]
Motive • auch als 'supersecondary'
structure bezeichnet • kleine Substrukturen, die nicht
unbedingt strukturell unabhängig sind vom Rest des Proteins
• umfassen generell nur wenige Sekundärstrukturelemente
• Motive können wiederholt in verschiedenen Proteinen auftreten
• oftmals funktionale Bedeutung – minimal functional unit
• mehrere Motive können kombiniert werden, um eine bestimmte Domäne zu bilden
Domäne • kompakte Sektion eines
Proteins • strukturell und in der Regel
funktional unabhängige Region
• Untereinheit eines Proteins, die ihre charakteristische Struktur im allgemeinen auch dann beibehält, wenn sie vom Rest des Proteins separiert wird
Fold
• die finale 3D Tertiärstruktur eines Proteins • ein Fold kann verschiedene Domänen und
Motive enthalten
Fold
• umreißt 3 Hauptaspekte der 3D Struktur von Proteinen – Sekundärstrukturen – relative Anordnung der Sekundärstrukturen – Pfad der Polypeptidkette durch die Struktur
• definiert durch – Komposition – Architektur – Topologie
Fold
• homologe Proteine mit ähnlicher Sequenz besitzen denselben Fold
• derselbe Fold kann auch von Proteinen mit unähnlicher Sequenz ausgebildet werden
• Frage: Bedeutet strukturelle Ähnlichkeit zweier unterschiedlicher Proteine entfernte Homologie oder ist sie das Resultat der grundlegenden Eigenschaften von Physik und Chemie?
SCOP
• Structural Classification of Proteins database (1994)
• SCOP umgeht diese Frage mit der Einführung einer neuen Kategorie – Superfamilie
• diese Kategorie gruppiert Proteine, die vielleicht von einem gemeinsamen Vorfahren abstammen, deren Sequenzen aber dergestalt evolviert sind, daß sie nicht mehr als ähnlich zu erkennen sind (Murzin et al. 1995)
Fold
• Idee möglicher entfernter Homologie lockerte die Definition eines Folds – ‘consensus’ fold, der einer Menge von evolutionär
verwandten Proteinen gemein ist • ein Fold kann sich im Laufe der Evolution
verändern • Veränderungen können nicht nur periphere
sondern auch zentrale Elemente der Struktur betreffen
Einleitung • Homologie Grundlage der vergleichenden
Biologie • Richard Owens (1843):
– “the same organ in different animals under every variety of form and function”
Human Dog Whale Bird
Evolution von 4 Gliedmaßen
Krokodile Vögel Maus Fledermaus
vorderes Gliedmaßenpaar entwickelt sich zu Flügeln
Homologie vs. Analogie Analogie der Flügel
Sequenzhomologie • definitiert im Sinne gemeinsamer Abstammung
– Artenbildung (Orthologe) – Duplikationsereignis (Paraloge) – Verlust von Genen – horizontaler Gentransfer (HGT) – Fusion, Spaltung und andere Neuanordnungen
• Homologie von Proteinen oder DNA oftmals inkorrekt anhand einer
Sequenzähnlichkeit hergeleitet: – konvergente Evolution (lange Sequenzen) – Zufall (kurze Sequenzen)
• Datenbanken zur Homologie:
– Vertebraten (HOVERGEN, HOMOLENS, HOGENOM) – Bakterien (HOBACGEN)
Historie von Begriffen zur Homologie • 1970 wurden Orthologe und Paraloge eingeführt • 1995 die ersten beiden Genome waren verfügbar
– Haemophilus influenza und Saccharomyces cerevisiae
Paralogy
• genes related via duplication • Requirements:
– first duplication in same organism – major functional connotation
• Not necessary: – resided in same genome – fixed timepoint – equal function
Inparalogs
• Paralogous genes
resulting from a lineage-specific duplication subsequent to a given speciation event (dark green).
Outparalogs
• Paralogous genes resulting from a duplication preceding a given speciation event (light green).
Orthology
• genes derived from single ancestral gene in last common ancestor
• Requirements: – single ancestral gene – presence in last common ancestor
• Not necessary: – one-to-one relationship – equal function
Orthologs
• Genes originating from a single ancestral gene in the last common ancestor of the compared genomes (orange).
Co-Orthologs • Two or more genes in
one lineage that are, collectively, orthologous to one or more genes in another lineage due to a lineage-specific duplication. Members of a co-orthologous gene set are inparalogs relative to the respective speciation event (yellow).
Neutrale Theorie der Molekularen Evolution
• große Mehrheit der evolutionären Veränderungen auf molekularer Ebene erfolgt durch zufällige Drifts selektiv neutraler Mutanten (Fitneß nicht beeinflußt; Kimura 1983)
• kompatibel mit Darwins Theorie von Evolution durch natürliche Auslese: – adaptive Veränderungen werden anerkannt und sind
wichtig, aber es wird hypothetisiert, daß sie nur eine Minderheit aller Änderungen wären, die in der DNA Sequenz fixiert werden (Kimura 1986)
Neutrale Theorie der Molekularen Evolution
• eine Aminosäure wird von mehreren Basentripletts kodiert
• stille (silent, neutral) Mutationen verändern das Triplet aber nicht die kodierte Aminosäure
http://www.nature.com/scitable/topicpage/the-information-in-dna-determines-cellular-function-6523228
Pál et al. Nature Reviews Genetics 7, 337–348 (May 2006) | doi:10.1038/nri1838
Interaktionen und Konservierung
• ist eine Residue in Interaktionen eingebunden, so ist die Akzeptanz eines Aminosäureaustausches (Mutation) im Verlauf der Evolution herabgesetzt im Vergleich zu einer nur mit dem Lösungsmittel wechselwirkenden Aminosäure
• eine Mutation wird nur akzeptiert, wenn dabei die Interaktion nicht (wesentlich) beeinflußt wird
Darstellung der molekularen Coevolution als Fitneßlandschaft
Lovell S C , Robertson D L Mol Biol Evol 2010;27:2567-2575
© The Author 2010. Published by Oxford University Press on behalf of the Society for Molecular Biology and Evolution. All rights reserved. For permissions, please e-mail: [email protected]
Ein Beispiel für Residuen, die intermolekulare Co-Evolution zeigen
Lovell S C , Robertson D L Mol Biol Evol 2010;27:2567-2575
© The Author 2010. Published by Oxford University Press on behalf of the Society for Molecular Biology and Evolution. All rights reserved. For permissions, please e-mail: [email protected]
Protein-Evolution • die “Fitneß” (viability) Y eines
Proteins (z.B. ob es falten kann oder einen stabilen gefalteten Zustand annimmt) ist eine Funktion seiner Sequenz
• Sequenzen aus unterschiedlichen Bereichen des Sequenzraums bilden unterschiedliche Strukturen aus
• eine Proteinsequenz kann nicht auf maximale Fitneß optimiert werden aufgrund von – stochastische Effekte – endliche Mutationsraten – konkurrierende
Selektionskriterien Goldstein 2008, Curr Opinion Struct Biol 18:170–177
Neutrales Netzwerk
• Proteinevolution wird oft als Bewegung in einem Sequenzraum modelliert
• die möglichen Sequenzen können als Knoten eines Graphen dargestellt werden
• Nachbarn unterscheiden sich durch eine Mutation und sind über eine Kante verbunden
• “neutral” bedeutet, daß alle Mutationen in diesem Netzwerk die Struktur nicht verändern
Bridge Sequences in Protein Structure Evolution
• rote und blaue Region entsprechen unterschiedlichen Strukturen
• Sequenzänderungen erfolgen in einem neutralen Netzwerk zufällig
• durch Zufall kann nun eine Sequenz entstehen, die nur einen Mutationsschritt von dem neutralen Netzwerk einer anderen Struktur entfernt ist
• führt die nächste Mutation zu dieser neuen, womöglich fitteren Struktur, kann die evolutionäre Trajektorie (gelb) zum neutralen Netzwerk der neuen Struktur überspringen
• somit kann neutrale Evolution vorteilhafte “Sprünge” ermöglichen
Bridge Sequences in Protein Structure Evolution
• aber in Wirklichkeit bildet jede Sequenz eine Verteilung von Strukturen bei physiologischer Temperatur aus
• es gibt zunehmend Hinweise, daß ein einzelnes Protein unterschiedliche Funktionen in unterschiedlicher Struktur ausüben könnte (James und Tawfik 2003)
• dadurch verwischen die Grenzen zwischen neutralen Netzwerken und der Prozeß der strukturellen Evolution wird beschleunigt (Wroe et al. 2007)
Shape Space • innerhalb dieser neutralen Netzwerke ist die
Struktur gegenüber Mutationen in der Sequenz stabil
• Verteilung der Sequenzen, die in dieselbe Struktur (Form/Shape) falten, ist ungefähr zufällig – ‘shape space covering’ – d.h. alle Strukturen sind über relativ wenige
Veränderungen im Sequenzraum zugänglich
shape space
sequence space
Jin et al. 2008 Journal of Theoretical Biology 250:484–497 Goldstein 2008, Curr Opinion Struct Biol 18:170–177
RNA vs. Protein • so wie auch Proteine bilden viele RNA Sequenzen dieselbe
Struktur aus • interessanter Weise ist die Beziehung zwischen Sequenz
und Struktur sehr unterschiedlich • der RNA Sequenzraum gleicht einer “Schüssel mit
Spaghettie” – sehr unterschiedliche Sequenzen können die gleiche Struktur
ausbilden – die Veränderung einer einzelnen Base wandelt die Struktur in
nahezu jede andere Struktur – unterschiedliche Sequenzen mit der gleichen Struktur besitzen
extrem unterschiedliche “benachbarte Strukturen” • also Strukturen, die mittels der Mutation einer einzelnen Base
zugänglich sind
RNA vs. Protein
• umgekehrt verhalten sich Proteine eher wie ein “Pflaumenkuchen” – die Größe einer jeden Pflaume ist begrenzt und bildet
womöglich nur wenige Kontakte mit anderen Pflaumen aus
• RNA: die große Mehrheit der Sequenzen bildet gefaltete Strukturen aus
• Proteine: die große Mehrheit der Sequenzen entspricht ungefalteten Proteinen
• in dieser Hinsicht stellen Proteine und RNA womöglich zwei unterschiedliche Extreme dar
Conformational Diversity • Antikörper SPE7 • zwei unterschiedliche
Konformationen erlauben SPE7 die Bindung von völlig unterschiedlichen Substraten – Hapten – Protein
• unterschiedlich gestaltete Bindungsseite
• pre-steady-state kinetics zeigt zwei unterschiedliche Isomere
• jeder Ligand wählt einen anderen komplementären Isomer und verschiebt somit das Gleichgewicht in dessen Richtung
James and Tawfik 2003
Metamorphe Proteine
• können unterschiedliche gefaltete Konformationen unter nativen Bedingungen einnehmen (Murzin 2008)
• im Gegensatz zu den Prionen handelt es sich um reversible Konformationsänderungen
• Beispiel: Lymphotactin – Equilibrium zwischen α+β
Monomer und all-β Dimer
Tuinstra et al. 2008
Proteinevolution auf Domänenebene
• Veränderungen in der Domänenarchitektur vorzugsweise an den Proteintermini (Bjorklund et al. 2005, Weiner et al. 2006)
• Termini sind normalerweise – geladen – flexibel – an der Proteinoberfläche
• Addition oder Deletion an Termini mit geringstem Einfluß auf Proteinstruktur
• Frequenz der Deletion oder Addition von Domänen ist nach einer Genduplikation doppelt so hoch – d.h. liegen zwei oder mehr Kopien eines Gens vor, so kann
mehr damit “experimentiert” werden
Proteinevolution auf Domänenebene
PDB:3MC8
90°
• Verbindungsregionen zwischen Domänen vermitteln den Kontakt und die Interaktion der Domänen
• selbst wenn diese Verbindungsregionen unstrukturiert sind und keine Funktion besitzen, so würde eine Insertion an dieser Stelle wahrscheinlich den Rest der Struktur bzw. deren Funktion stören
Proteinevolution auf Domänenebene • Verbindungsregionen
zwischen Domänen vermitteln den Kontakt und die Interaktion der Domänen
• selbst wenn diese Verbindungsregionen unstrukturiert sind und keine Funktion besitzen, so würde eine Insertion an dieser Stelle wahrscheinlich den Rest der Struktur bzw. deren Funktion stören
PDB:1WXR
Introns/Exons
• Exon = codierender Abschnitt eines Gens • Intron = nichtcodierender Abschnitt zwischen
den Exons eines Gens
http://de.academic.ru/pictures/dewiki/68/DNA_exons_introns.gif
eine kleine Statistik • 103 bis 105 Proteinsequenzen pro Genom • 107 bis 108 Arten existieren auf der Erde • nur 1010 bis 1013 Varianten im Permutationsraum der
Aminosäuresequenz mit 10321-10469 möglichen Anordnungen im Sequenzraum abgedeckt
• Annahme: keine intraspezifische Sequenzvariation • (4-6)*1030 bakterielle Zellen auf unserem Planeten mit einem
Umsatz von 8x1029 Zellen pro Jahr und Mutationsraten von ~4*10-7 pro Zelle und Generation obere Grenze von ~2*1032 mutationsbedingten
Aminosäureaustauschen in bakteriellen Proteinen in ~4 Mrd Jahren der Evolution
• somit werden global gesehen neue Genotypen in Bruchteilen von Mikrosekunden erzeugt
Caetano-Anollés et al. 2009
Ebenen der molekularen Organisation der Proteinwelt
• Beispiel: Sekundärstruktur • durschnittliche Länge
– Helix: 10±2 Residuen – β -Strang: 5±1 Residuen
• durchschnittliche Anzahl pro Protein – Helix: 6±2 – β-Strang: 7±3
• maximale Anzahl möglicher Permutationen von Elementen unterschiedlicher Länge (~7 Residuen) in Gruppen von 5 bis 10 beträgt 2,8*108 (d.h. 710)
• sind alle Permutationen zugänglich, so werden pro Jahr 0,1 strukturelle Anordnungen „entdeckt”
Caetano-Anollés et al. 2009
Ebenen der molekularen Organisation der Proteinwelt
• auf höheren Organisationsebenen kann man frequentistisch argumentieren
• z.B. Anzahl der beobachteten Domänen auf die bisherigen 4 Mrd Jahre Evolution beziehen – ~4x104 Domänen (SCOP Datenbank) in ~4 Mrd Jahren alle 100.000 Jahre wird 1 Domäne „entdeckt“
Toc64 – TPR domain
conserved, binding groove, Hsp90-binding
conserved
amino acid composition differs between mitos and plastids, backface of binding groove only
amino acid composition differs between mitos and plastids, but residue involved in Hsp90-binding
Mirus et al. (2009)