Datenbanken in der Bioinformatik - dbs.uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-01.pdf · 2...

13
1 Sommersemester 2010 Dr. Kirsten http://dbs.uni-leipzig.de Universität Leipzig Institut für Informatik Datenbanken in der Bioinformatik Kapitel 1 Grundlagen Sommersemester 2010 Dr. Kirsten Vorlesung Biodatenbanken Universität Leipzig Vorläufiges Inhaltsverzeichnis 1. Grundlagen 2. Klassifizierung von BioDB, Überblick 3. Spezialanwendungen 4. Datenmodelle und Anfragesprachen 5. Modellierungsalternativen 6. Versionierung von Datenbeständen 7. Annotationskonzept 8. Datenintegration: Ansätze und Systeme 9. Matching: Ontologien, Schema, Objekte 10. Scientific Computing

Transcript of Datenbanken in der Bioinformatik - dbs.uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-01.pdf · 2...

1

Sommersemester 2010

Dr. Kirstenhttp://dbs.uni-leipzig.de

Universität LeipzigInstitut für Informatik

Datenbanken in der Bioinformatik

Kapitel 1Grundlagen

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Vorläufiges Inhaltsverzeichnis

1. Grundlagen2. Klassifizierung von BioDB, Überblick3. Spezialanwendungen4. Datenmodelle und Anfragesprachen5. Modellierungsalternativen6. Versionierung von Datenbeständen7. Annotationskonzept8. Datenintegration: Ansätze und Systeme9. Matching: Ontologien, Schema, Objekte10. Scientific Computing

2

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Lernziele

Überblick zu den wichtigsten biomedizinischen Begriffen und deren Zusammenhang

Entitäten: Spezies, Gen, DNA, RNA, ProteinProzesse: Transkription und Translation

Entstehende Daten und deren Verwendung in der Bioinformatik

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Gliederung

Spezies und OrganismusGenom und molekular-biologiche GrundlagenProteineTranskription und TranslationStoffwechsel

3

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Taxonomie der Spezies

Verschiedene DefinitionenSpezies: Klasse von Organismen, die einen einheitlichen "Genpool" besitzenFuzzy: "einheitlich"!Exakte Abgrenzung unter kontroverser Diskussion

Hierarchische Ordnung von SpeziesEbenen der Ordnung, spezifischen BegriffenEntdeckung und Einordnung

Erst Beschreibung, dann NamenszuordnungHeute: Überprüfung anhand genetischer Merk-male Neuordnung

Übergroße Anzahl an Spezies7 – 100 Mio (identifiziert+unindentifiziert)

Bildquelle: Wikipedia

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Tree of Life

Systematische Ordnung anhand von Pfade im BaumInnere Knoten = zeitliche Auftrennung einer Spezies in UnterartenLänge der Äste = evolutio-nären Distanzen

Bildquelle: http://lgimages.s3.amazonaws.com

4

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Zellen als kleinste funktionelle Einheit

Organismus besteht aus Zelle(n)Unterteilung in Prokaryoten & Eukaryoten

Bildquelle: http://cdn-write.demandstudios.com

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Von der Zelle zur DNA

G

TC

A

G

TC

A

ATGC||||TACG

ATGC||||TAC

ATGC||||TA

ATGC||||T

ATGC||||

5

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Genom: Chromosome

Humanes Genom46 Chromosome (23 Paare)Ca. drei Milliarden Basenpaare

Verteilung von Genen und Basenanzahl pro Chromosom(aktuelle Datenlage)

Bildquelle: http://en.wikipedia.org/wiki/Genome

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Genome verschiedener Spezies

100%

100%

> 95%

100%

100%

100%

> 80%

Anzahlder Gene

~ 6.000

~ 25.000

~ 20.000

~ 25.000

~ 50.000

~ 50.000

100% = vollständig?

6

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Genom: Nukleinsäuren (DNA, RNA)

DNA (DNS): Desoxyribonucleinacid ( ... säure)RNA (RNS): Ribonucleinacid ( ... säure)Endgültige Strukturaufschlüsselung der DNA durch Watson & Crick 1953 (nach Vorarbeiten von Chargaff und Wilkins & Franklin), 1962 NobelpreisFeste Basenpaare

DNA: A-T, G-CRNA: A-U, G-C

Universaler Codierungs-Mechanismus in allen Spezies

A T C G

U

Nucleobasen(Purine, Pyrimidine)

Zucker(Desoxyribose)

Phosphat

Zucker(Ribose)

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Genom: Gen

Keine abschließend geklärte Definition für "Gen"Allgemein: Gene sind Einheiten in der DNA, die Vererbungsinformation tragen"locatable region of genomic sequence, corresponding to a unit ofinheritance, which is associated with regulatory regions, transcribed regions, and or other functional sequence regions" [Pearson, 2006, Nature]Typische Charakteristik

ca. 2.000 - 100.000 Basenpaare langca. 50.000 Gene im humanen Genomnur ca. 28% des Genoms beinhalten Gene (also sogenannte Coding Sequence(s) - CDS)

7

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Proteine

Zentrale Elemente des Stoffwechsels (als Enzyme)Produkt eines oder mehrerer Gene nach Transkription und TranslationLineare Abfolge von Aminosäuren

Sequenzierung eines Proteins am Stück schwierig (bereits Länge von 20 Aminosäuren nicht-trivial), daher oft Sequenzierung des zugehörigen Gens

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Proteine: Aminosäuren

Grundlegende Strukturein-heiten von Proteinen20 AminosäurenBildung aus RNA in TranslationCodon: Abfolge von 3 NucleotidenStart und Stop-CodonsAnzahl Kombinationen: 43=64Stärkere Gewichtung der ersten beiden Nucleotide im CodonUnterschiedliche Häufigkeit von Codons pro Aminosäure

Bildquelle: http://de.wikipedia.org/wiki/Genetischer_Code

8

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Proteine: Struktur

Verschiedene Strukturebenen: Primär-... Quartärstruktur

Primärstruktur: Aminosäuresequenz (1D)Sekundärstruktur: Faltung und Helixbildung in 2DTertiärstruktur: räumliche Anordnung der Sek.-stru.Quartärstruktur: Bindung zwischen Proteinen Proteinkomplexen

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Goldene Regel der Molekulargenetik

Umsetzung der genetischen Informationen

Transkription

Translation

Gen

9

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Transkription

Übertragung eines DNA Abschnitts in RNAAufspaltung der Doppelhelix unter Nutzung der "Polymerase Chain Reaction" (PCR)Erstellung der cDNA und gleichzeitige Paarung mit DNA AbschnittNutzung der cDNA zur Erstellung eines komple-mentären Abschnittes Kopie zur Ausgangs-DNAErstellung pre-mRNA und mRNA

Nucleotide A, C, G werden unverändert überschriebenNutzung des Nucleotids U (Uracil) statt T (Thymin)Zucker: Ribose statt Desoxyribose

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Splicing

Splicing: Entfernen (Spleißen) von Stücken, die keine Erbinformation tragen (Introns), aus der Boten-RNS (mRNS) Zusammensetzung der codierenden Teile (Exons) zu sogenannter reifer Boten-RNS (mature messenger RNA)

10

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Translation

mRNA enthält genetische Information über den Aufbau eines Proteins und wird vom Zellkern zum Ribosom transportiertProteinsynthese in den Ribosomen

Verwendung der mRNA sowie weiterer RNA-Arten, z.B. tRNA und weitere UnterartenCondon-weise Umsetzung in Aminosäuren

Proteom/Proteomik

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Mutation

Unterschiedlichkeit der Organismen innerhalb einer Spezies, z.B. Hauttyp, HaarfarbeEinfluss auf die Transkription & Translation und damit auf die Proteinbildung erblich bedingte KrankheitsmerkmaleUnterschiedliche Typen: Substitution, Deletion, Insertion

Veränderung des Leserahmens bei I & DPunktmutation vs. Intervallmutation

Single Nucleotide Polymorphism (SNP)Mutation ganzer Bereiche, z.B. Trisonomie 21

11

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Phänotyp vs. Genotyp

Stammbaumanalyse: Analyse der auf Verwandtschaft beruhende genetischen Beziehungen zwischen Individuen Phänotyp: beobachtetes Merkmal für einen Organismus (Haarfarbe, Blutgruppe, …)Genotyp: einem Phänotyp zugrunde liegende genetische InformationAllele: unterschiedliche Formen der genetischen Info

Diploide Organismen: bei 2 Allelen 3 FormenHeterozygoter Zustand: dominantNur homozygoter Zustand: rezessiv

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Stoffwechsel

Gesamtheit aller für einen Organismus notwendigen biochemischen UmwandlungsprozesseHauptsteuerung durch als Enzyme (Katalysatoren) agierende ProteinePathway: Folge von biochemischen Reaktionen (meist einer oder mehreren Funktion(en) im Organismus zugeordnet)Grobeinteilung der Pathways in

Stoffwechselwege (metabolic pathways)Regulatorische Pfade (regulatory pathways)

12

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Stoffwechsel: Metabolische Netzwerke

Metabolismus: Gesamtheit aller lebensnotwendigen biochemischen Vorgänge beim Aufbau, Abbau und Umbau eines Organismus sowie seinem Austausch mit der Umwelt2 grundlegende Stoffwechselvorgänge

Assimilation/Anabolismus (z.B. Photosynthese)Dissimilation/Katabolismus (z.B. Atmung, Gärung)

Beispiel Glykolyse

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Stoffwechsel: Regulatorische Netzwerke

Regulation der Genexpres-sion (genetic networks, ge-netic-regulatory pathways)Signalwege (signalling pathways, signal-transduction cascades)Beispiel: p53-Signalweg

Funktion: Terminieren des Zellzyklus im Falle von beschädigter DNAp53 mutiert in fast allen Tumoren vorhanden

13

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Zusammenfassung

Spezies und OrganismusGenom, ProteineDNA, RNATranskription und TranslationStoffwechsel

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Noch Fragen?