Datenbanken in der Bioinformatik Thorsten Denhard

23
TWA-Seminar Thorsten Denh ard, SS2003 1 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement, Prof. Dr. Kneisel Datenbanken in der Bioinformatik Thorsten Denhard FH Giessen-Friedberg, Fachbereich MNI

description

Datenbanken in der Bioinformatik Thorsten Denhard. Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement, Prof. Dr. Kneisel. FH Giessen-Friedberg, Fachbereich MNI. Einführung Bioinformatik Genetischer Code Proteine - PowerPoint PPT Presentation

Transcript of Datenbanken in der Bioinformatik Thorsten Denhard

Page 1: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

1

Seminarvortrag im Studienschwerpunkt

technisch-wissenschaftliche Anwendungen

Sommersemester 2003Prof. Dr. Klement, Prof. Dr. Kneisel

Datenbanken in der BioinformatikThorsten Denhard

FH Giessen-Friedberg, Fachbereich MNI

Page 2: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

2

Inhalt Einführung Bioinformatik

Genetischer CodeProteine

Einsatzgebiete für Datenbanken in der BISequenzdatenbankenDynamische Prozesse, etc.

Datenmodellierung und ManagementKonventionelle DBMSSpezielle Systeme für biologische DBn

Datenbank-RetrievalWWW-SchnittstellenMeta-Suchen

DB-Pflege und QualitätssicherungDatenintegrationAnnotationen

Page 3: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

3

Einführung Bioinformatik Fachgebiet im Wandel:

von der „klassischen“hin zur Molekularbiologie

Heute erhobene Daten:Gensequenzen, Proteinstrukturen

Scharfe, quantifizierbare Größen

Große Datenmenge Algorithmen zur Analyse Methoden aus der Informatik

immer stärker gefordert

Page 4: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

4

Genetischer Code DNS: linearer Doppelstrang Nucleotide:

Träger der Information, eine von vier Basen (A,T,C,G)Verbinden sich paarweise

Anzahl Basenpaare von ca.0,172 * 106 (Virus) bis3200 * 106 (Mensch)

„Gen“: ein Sequenzabschnitt, der ein Protein codiert

Page 5: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

5

ProteineAufbau Bestehen aus Aminosäuren (20 verschiedene) Lineare unverzweigte Kette Länge: 50-3000 Elemente, im Mittel etwa 200

Gene codieren Proteine Codierungsschema:

3 Nucleotide (Codon) codieren eine AminosäureGenetischer Standardcode gleich über Artgrenzen

Benennung der Aminosäuren: drei oder ein Buchstabe (Glycin: Gly / G)

Page 6: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

6

ProteineHierarchische Struktur Primärstruktur: Abfolge der Aminosäuren, linear Sekundärstruktur: -Helix, -Faltblatt Tertiärstruktur: Faltung d. Sekundärstruktur-

elemente im Raum

Maßgebend für die

Funktionalität des Proteins!

Page 7: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

7

Einsatzfelder für Datenbanken

Sequenzdatenbanken Protein-Raumstrukturen Evolutionäre Entwicklungen (Phylogenetik) Genexpression (Aktivität von Genen) Stoffwechsel-Vorgänge (Metabolische Pfade) Literaturdatenbanken

Page 8: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

8

Sequenzdatenbanken Gene: Nucleotidsequenzen

z.B. GenBank, Human Genome DB Proteine: Aminosäuresequenzen

z.B. SWISS-PROT Sequenzierung:

Codierende Sequenzen identifizieren

Analyse: Sequenz-Alignment Ähnlichkeit zw. Sequenzen

bestimmen In DB integriert oder separate Prog.

ExponentiellesWachstum

Page 9: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

9

Proteinstrukturen Strukturdatenbanken

z.B. Protein Data Bank (PDB) 3D-Koordinaten aller Atome Zuordnung v. Sekundärstrukturen Rel. wenige Moleküle untersucht

Einordnung neuer Sequenzen Homologieansatz:

ähnliche Sequenzen ähnliche Struktur

Vorhersage der Proteinfaltung wichtiges Forschungsthema!

Page 10: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

10

Phylogenetische DBn Verwandtschaftsbeziehungen zwischen Arten Heute auf genetischer Basis Erstellung phylogenetischer Bäume auf

dieser Basis Algorithmen, Zugriff auf genetische Daten

Archivieren erstellter Bäume in Datenbanken Bsp.: Tree Of Life - DB:

WWW-Projekt, ca. 350 teilnehmende Wissenschaftler

Page 11: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

11

Bsp.: Tree Of Life - DB

Page 12: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

12

Metabolische Pfade

Stoffwechsel-Vorgängein Zellen

Codiert als XML-Dokument

Über Java-Applet zugänglich

Verknüpungen mit z.B. chemischer Datenbank(per Mausklick)

Beispiel: KEGG PATHWAY-DB

Page 13: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

13

Sonstige EinsatzgebieteGenexpression Genom: statischer „Bauplan“ Aber: Gene sind unterschiedlich aktiv DNA-Chips erlauben Messungen d. Aktivität Große Datenmengen, Analyse z.B. für neue

diagnostische u. therapeutische Verfahren

Literaturdatenbanken Bsp.: MEDLINE-DB für Medizin und

Lebenswissenschaften

Page 14: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

14

Modellierung u. Datenmanagement

Implementierungsalternativen ASCII-Dateien (Flat Files)

40 % Relationales DBMS

38% Objektorientiertes / objektrelationales DBMS

9 % ACEDB

5 % OPM (Object Protocol Model)

2 %

( Daten von 2001 aus einer Studie von Bry & Kröger )

Page 15: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

15

Implementierung: Flat Files ASCII-Dateien noch immer weit verbreitet Zum Datenaustausch u. Analyse de facto

Standard Explizite Strukturierung:

Tags, erlauben komplexe Strukturen und unvollständige Daten

Bsp.: Auszug aus der SWISS-PROT-DB (Proteine)ID PILI_PSEAE STANDARD; PRT; 178 AA.AC P43502;DT 01-NOV-1995 (Rel. 32, Created)DT 01-NOV-1995 (Rel. 32, Last sequence update)DE Protein pilI.GN PILI OR PA0410.OS Pseudomonas aeruginosa.SQ SEQUENCE 178 AA; 19934 MW; 634A1A4B135A7E77 CRC64; MSDVQTPFQL LVDIDQRCRR LAAGLPAQQE AVQSWSGIGF [...]

Page 16: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

16

Implementierung: relationale DBMS

Relationale DBMS in anderen Feldern lange erprobt

Für wissenschaftliche Daten nicht optimal Komplexe Struktur führt zu uneinsichtigem

Tabellenverbund Administration und Abfragen daher unnötig

kompliziert Effiziente Speicherung u. Suche von

Sequenzdaten nicht hinreichend untersucht Trotzdem rund 38 % der DBn

mit relationalem DBMS

Page 17: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

17

Implementierung: ACEDB A C. elegans DataBase Speziell für wissenschaftliches Umfeld

entworfen Objektorientiertes Datenmodell, aber:

Keine Vererbung möglich Baumstruktur von Objekten u. Attributen Semistrukturierter Ansatz

Erlaubt Ausnahmen i.d. Datenstruktur Query-Sprache AQL:

SQL-ähnlich, Pfad-Ausdrücke

Page 18: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

18

Implementierung: ACEDB

Klassendefinition Tags, Objekte, Basistypen,

Modifizierer 1:N-Beziehungen

problemlos modellierbar

Bsp. Abfrage:Alle Co-Autoren in allen Aufsätzen von Hr. Lesk finden

?Author Name UNIQUE Text Paper ?Paper

?Paper Title UNIQUE Text Author ?Author Abstract ?LongText

select a->Paper->Author from a in class Author where a->Name like "*lesk*"

Page 19: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

19

Implementierung: OPMObject Protocol Model Objektorientiertes Modell mit spezieller

Unterstützung für wissenschaftliche Daten/Prozesse

Kein DBMS, nur Datenmodell Protokoll-Klassen

modellieren Experimente mit Input und Output Tool-Suite zur Modellierung/Benutzung

Schema Editor: Erlaubt Transformation in relationale Schemata

Browse & Query: Anfragen u. Transaktionen in z.B. SQL umwandeln

Page 20: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

20

Datenbank-RetrievalHeterogenität Vielzahl existierender DBn

welche enthält relevante Daten? unterschiedliche Abfragearten

Ansatz: „Meta-Suchen“z.B. SRS (Sequence Retrieval System) Zugriff auf ca. 500 DBn Folgt Hypertext-Links in Einträgen

Abfrage über WWW-Standardformular oderQuery-Language

[swissprot-id:acha-human] > prosite > swissprot

Page 21: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

21

DatenintegrationAkquisition neuer Daten aus anderen DBn Voll- oder semiautomatisch

Konflikte möglich, Einteilung insemantische, deskriptive, strukturelle

Forschergruppen dürfen Daten einbringen

Qualität d. Daten, Validierungsprozess?

Übernahme aus der Literatur Meist manuell, arbeitsintensiv

Page 22: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

22

QualitätssicherungAnnotationen Meta-Daten, z.B.

Literaturreferenzen Verknüpfungen zu anderen Datensätzen Herkunft der Daten, experimentelle Methoden Feature-Tables: biol. Bedeutung v. Sequenzen

Neuannotation von Einträgen Macht Datenbestand „dynamisch“ Qualität d. Einträge, Bsp. EMBL-DB

ohne Annotation vorläufig ungeprüft Standard

Annotationen geben den Daten Bedeutung

Page 23: Datenbanken in der Bioinformatik Thorsten Denhard

TWA-Seminar Thorsten Denhard, SS2003

23

Zusammenfassung Molekularbiologische Daten

enorme Schärfe und Quantität oft komplexe Strukturen

Datenbanken bewährte DBMS bereits in Verwendung spezielle Ansätze verfügbar, aber noch nicht verbreitet

Heterogenität von Datenbeständen Verteiltheit und unterschiedliche Datenhaltung Integration notwendig

Informatik-Expertise bei Biologen erforderlich