Datenbanken in der Bioinformatik - dbs.uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-01.pdf · 2...
Transcript of Datenbanken in der Bioinformatik - dbs.uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-01.pdf · 2...
1
Sommersemester 2010
Dr. Kirstenhttp://dbs.uni-leipzig.de
Universität LeipzigInstitut für Informatik
Datenbanken in der Bioinformatik
Kapitel 1Grundlagen
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Vorläufiges Inhaltsverzeichnis
1. Grundlagen2. Klassifizierung von BioDB, Überblick3. Spezialanwendungen4. Datenmodelle und Anfragesprachen5. Modellierungsalternativen6. Versionierung von Datenbeständen7. Annotationskonzept8. Datenintegration: Ansätze und Systeme9. Matching: Ontologien, Schema, Objekte10. Scientific Computing
2
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Lernziele
Überblick zu den wichtigsten biomedizinischen Begriffen und deren Zusammenhang
Entitäten: Spezies, Gen, DNA, RNA, ProteinProzesse: Transkription und Translation
Entstehende Daten und deren Verwendung in der Bioinformatik
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Gliederung
Spezies und OrganismusGenom und molekular-biologiche GrundlagenProteineTranskription und TranslationStoffwechsel
3
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Taxonomie der Spezies
Verschiedene DefinitionenSpezies: Klasse von Organismen, die einen einheitlichen "Genpool" besitzenFuzzy: "einheitlich"!Exakte Abgrenzung unter kontroverser Diskussion
Hierarchische Ordnung von SpeziesEbenen der Ordnung, spezifischen BegriffenEntdeckung und Einordnung
Erst Beschreibung, dann NamenszuordnungHeute: Überprüfung anhand genetischer Merk-male Neuordnung
Übergroße Anzahl an Spezies7 – 100 Mio (identifiziert+unindentifiziert)
Bildquelle: Wikipedia
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Tree of Life
Systematische Ordnung anhand von Pfade im BaumInnere Knoten = zeitliche Auftrennung einer Spezies in UnterartenLänge der Äste = evolutio-nären Distanzen
Bildquelle: http://lgimages.s3.amazonaws.com
4
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Zellen als kleinste funktionelle Einheit
Organismus besteht aus Zelle(n)Unterteilung in Prokaryoten & Eukaryoten
Bildquelle: http://cdn-write.demandstudios.com
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Von der Zelle zur DNA
G
TC
A
G
TC
A
ATGC||||TACG
ATGC||||TAC
ATGC||||TA
ATGC||||T
ATGC||||
5
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Genom: Chromosome
Humanes Genom46 Chromosome (23 Paare)Ca. drei Milliarden Basenpaare
Verteilung von Genen und Basenanzahl pro Chromosom(aktuelle Datenlage)
Bildquelle: http://en.wikipedia.org/wiki/Genome
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Genome verschiedener Spezies
100%
100%
> 95%
100%
100%
100%
> 80%
Anzahlder Gene
~ 6.000
~ 25.000
~ 20.000
~ 25.000
~ 50.000
~ 50.000
100% = vollständig?
6
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Genom: Nukleinsäuren (DNA, RNA)
DNA (DNS): Desoxyribonucleinacid ( ... säure)RNA (RNS): Ribonucleinacid ( ... säure)Endgültige Strukturaufschlüsselung der DNA durch Watson & Crick 1953 (nach Vorarbeiten von Chargaff und Wilkins & Franklin), 1962 NobelpreisFeste Basenpaare
DNA: A-T, G-CRNA: A-U, G-C
Universaler Codierungs-Mechanismus in allen Spezies
A T C G
U
Nucleobasen(Purine, Pyrimidine)
Zucker(Desoxyribose)
Phosphat
Zucker(Ribose)
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Genom: Gen
Keine abschließend geklärte Definition für "Gen"Allgemein: Gene sind Einheiten in der DNA, die Vererbungsinformation tragen"locatable region of genomic sequence, corresponding to a unit ofinheritance, which is associated with regulatory regions, transcribed regions, and or other functional sequence regions" [Pearson, 2006, Nature]Typische Charakteristik
ca. 2.000 - 100.000 Basenpaare langca. 50.000 Gene im humanen Genomnur ca. 28% des Genoms beinhalten Gene (also sogenannte Coding Sequence(s) - CDS)
7
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Proteine
Zentrale Elemente des Stoffwechsels (als Enzyme)Produkt eines oder mehrerer Gene nach Transkription und TranslationLineare Abfolge von Aminosäuren
Sequenzierung eines Proteins am Stück schwierig (bereits Länge von 20 Aminosäuren nicht-trivial), daher oft Sequenzierung des zugehörigen Gens
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Proteine: Aminosäuren
Grundlegende Strukturein-heiten von Proteinen20 AminosäurenBildung aus RNA in TranslationCodon: Abfolge von 3 NucleotidenStart und Stop-CodonsAnzahl Kombinationen: 43=64Stärkere Gewichtung der ersten beiden Nucleotide im CodonUnterschiedliche Häufigkeit von Codons pro Aminosäure
Bildquelle: http://de.wikipedia.org/wiki/Genetischer_Code
8
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Proteine: Struktur
Verschiedene Strukturebenen: Primär-... Quartärstruktur
Primärstruktur: Aminosäuresequenz (1D)Sekundärstruktur: Faltung und Helixbildung in 2DTertiärstruktur: räumliche Anordnung der Sek.-stru.Quartärstruktur: Bindung zwischen Proteinen Proteinkomplexen
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Goldene Regel der Molekulargenetik
Umsetzung der genetischen Informationen
Transkription
Translation
Gen
9
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Transkription
Übertragung eines DNA Abschnitts in RNAAufspaltung der Doppelhelix unter Nutzung der "Polymerase Chain Reaction" (PCR)Erstellung der cDNA und gleichzeitige Paarung mit DNA AbschnittNutzung der cDNA zur Erstellung eines komple-mentären Abschnittes Kopie zur Ausgangs-DNAErstellung pre-mRNA und mRNA
Nucleotide A, C, G werden unverändert überschriebenNutzung des Nucleotids U (Uracil) statt T (Thymin)Zucker: Ribose statt Desoxyribose
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Splicing
Splicing: Entfernen (Spleißen) von Stücken, die keine Erbinformation tragen (Introns), aus der Boten-RNS (mRNS) Zusammensetzung der codierenden Teile (Exons) zu sogenannter reifer Boten-RNS (mature messenger RNA)
10
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Translation
mRNA enthält genetische Information über den Aufbau eines Proteins und wird vom Zellkern zum Ribosom transportiertProteinsynthese in den Ribosomen
Verwendung der mRNA sowie weiterer RNA-Arten, z.B. tRNA und weitere UnterartenCondon-weise Umsetzung in Aminosäuren
Proteom/Proteomik
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Mutation
Unterschiedlichkeit der Organismen innerhalb einer Spezies, z.B. Hauttyp, HaarfarbeEinfluss auf die Transkription & Translation und damit auf die Proteinbildung erblich bedingte KrankheitsmerkmaleUnterschiedliche Typen: Substitution, Deletion, Insertion
Veränderung des Leserahmens bei I & DPunktmutation vs. Intervallmutation
Single Nucleotide Polymorphism (SNP)Mutation ganzer Bereiche, z.B. Trisonomie 21
11
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Phänotyp vs. Genotyp
Stammbaumanalyse: Analyse der auf Verwandtschaft beruhende genetischen Beziehungen zwischen Individuen Phänotyp: beobachtetes Merkmal für einen Organismus (Haarfarbe, Blutgruppe, …)Genotyp: einem Phänotyp zugrunde liegende genetische InformationAllele: unterschiedliche Formen der genetischen Info
Diploide Organismen: bei 2 Allelen 3 FormenHeterozygoter Zustand: dominantNur homozygoter Zustand: rezessiv
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Stoffwechsel
Gesamtheit aller für einen Organismus notwendigen biochemischen UmwandlungsprozesseHauptsteuerung durch als Enzyme (Katalysatoren) agierende ProteinePathway: Folge von biochemischen Reaktionen (meist einer oder mehreren Funktion(en) im Organismus zugeordnet)Grobeinteilung der Pathways in
Stoffwechselwege (metabolic pathways)Regulatorische Pfade (regulatory pathways)
12
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Stoffwechsel: Metabolische Netzwerke
Metabolismus: Gesamtheit aller lebensnotwendigen biochemischen Vorgänge beim Aufbau, Abbau und Umbau eines Organismus sowie seinem Austausch mit der Umwelt2 grundlegende Stoffwechselvorgänge
Assimilation/Anabolismus (z.B. Photosynthese)Dissimilation/Katabolismus (z.B. Atmung, Gärung)
Beispiel Glykolyse
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Stoffwechsel: Regulatorische Netzwerke
Regulation der Genexpres-sion (genetic networks, ge-netic-regulatory pathways)Signalwege (signalling pathways, signal-transduction cascades)Beispiel: p53-Signalweg
Funktion: Terminieren des Zellzyklus im Falle von beschädigter DNAp53 mutiert in fast allen Tumoren vorhanden