TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt...

23
TWA-Seminar Thorsten Denh ard, SS2003 1 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement, Prof. Dr. Kneisel Datenbanken in der Bioinformatik Thorsten Denhard FH Giessen-Friedberg, Fachbereich MNI

Transcript of TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt...

Page 1: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

1

Seminarvortrag im Studienschwerpunkt

technisch-wissenschaftliche Anwendungen

Sommersemester 2003Prof. Dr. Klement, Prof. Dr. Kneisel

Datenbanken in der BioinformatikThorsten Denhard

FH Giessen-Friedberg, Fachbereich MNI

Page 2: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

2

Inhalt Einführung Bioinformatik

Genetischer CodeProteine

Einsatzgebiete für Datenbanken in der BISequenzdatenbankenDynamische Prozesse, etc.

Datenmodellierung und ManagementKonventionelle DBMSSpezielle Systeme für biologische DBn

Datenbank-RetrievalWWW-SchnittstellenMeta-Suchen

DB-Pflege und QualitätssicherungDatenintegrationAnnotationen

Page 3: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

3

Einführung Bioinformatik

Fachgebiet im Wandel:von der „klassischen“hin zur Molekularbiologie

Heute erhobene Daten:Gensequenzen, Proteinstrukturen

Scharfe, quantifizierbare Größen

Große Datenmenge

Algorithmen zur Analyse

Methoden aus der Informatik immer stärker gefordert

Page 4: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

4

Genetischer Code

DNS: linearer Doppelstrang

Nucleotide: Träger der Information, eine von vier Basen (A,T,C,G)Verbinden sich paarweise

Anzahl Basenpaare von ca.0,172 * 106 (Virus) bis3200 * 106 (Mensch)

„Gen“: ein Sequenzabschnitt, der ein Protein codiert

Page 5: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

5

Proteine

Aufbau

Bestehen aus Aminosäuren (20 verschiedene)

Lineare unverzweigte Kette

Länge: 50-3000 Elemente, im Mittel etwa 200

Gene codieren Proteine

Codierungsschema: 3 Nucleotide (Codon) codieren eine AminosäureGenetischer Standardcode gleich über Artgrenzen

Benennung der Aminosäuren: drei oder ein Buchstabe (Glycin: Gly / G)

Page 6: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

6

ProteineHierarchische Struktur

Primärstruktur: Abfolge der Aminosäuren, linear

Sekundärstruktur: -Helix, -Faltblatt

Tertiärstruktur: Faltung d. Sekundärstruktur- elemente im Raum

Maßgebend für die

Funktionalität des Proteins!

Page 7: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

7

Einsatzfelder für Datenbanken

Sequenzdatenbanken

Protein-Raumstrukturen

Evolutionäre Entwicklungen (Phylogenetik)

Genexpression (Aktivität von Genen)

Stoffwechsel-Vorgänge (Metabolische Pfade)

Literaturdatenbanken

Page 8: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

8

Sequenzdatenbanken

Gene: Nucleotidsequenzen z.B. GenBank, Human Genome DB

Proteine: Aminosäuresequenzen z.B. SWISS-PROT

Sequenzierung: Codierende Sequenzen

identifizieren

Analyse: Sequenz-Alignment Ähnlichkeit zw. Sequenzen

bestimmen

In DB integriert oder separate Prog.

ExponentiellesWachstum

Page 9: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

9

Proteinstrukturen

Strukturdatenbanken z.B. Protein Data Bank (PDB)

3D-Koordinaten aller Atome

Zuordnung v. Sekundärstrukturen

Rel. wenige Moleküle untersucht

Einordnung neuer Sequenzen Homologieansatz:

ähnliche Sequenzen ähnliche Struktur

Vorhersage der Proteinfaltung wichtiges Forschungsthema!

Page 10: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

10

Phylogenetische DBn

Verwandtschaftsbeziehungen zwischen Arten

Heute auf genetischer Basis

Erstellung phylogenetischer Bäume auf dieser Basis

Algorithmen, Zugriff auf genetische Daten

Archivieren erstellter Bäume in Datenbanken

Bsp.: Tree Of Life - DB:WWW-Projekt, ca. 350 teilnehmende Wissenschaftler

Page 11: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

11

Bsp.: Tree Of Life - DB

Page 12: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

12

Metabolische Pfade

Stoffwechsel-Vorgängein Zellen

Codiert als XML-Dokument

Über Java-Applet zugänglich

Verknüpungen mit z.B. chemischer Datenbank(per Mausklick)

Beispiel: KEGG PATHWAY-DB

Page 13: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

13

Sonstige Einsatzgebiete

Genexpression

Genom: statischer „Bauplan“

Aber: Gene sind unterschiedlich aktiv

DNA-Chips erlauben Messungen d. Aktivität

Große Datenmengen, Analyse z.B. für neue diagnostische u. therapeutische Verfahren

Literaturdatenbanken

Bsp.: MEDLINE-DB für Medizin und Lebenswissenschaften

Page 14: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

14

Modellierung u. Datenmanagement

Implementierungsalternativen ASCII-Dateien (Flat Files)

40 %

Relationales DBMS 38%

Objektorientiertes / objektrelationales DBMS 9 %

ACEDB 5 %

OPM (Object Protocol Model) 2 %

( Daten von 2001 aus einer Studie von Bry & Kröger )

Page 15: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

15

Implementierung: Flat Files ASCII-Dateien noch immer weit verbreitet

Zum Datenaustausch u. Analyse de facto Standard

Explizite Strukturierung: Tags, erlauben komplexe Strukturen und unvollständige Daten

Bsp.: Auszug aus der SWISS-PROT-DB (Proteine)

ID PILI_PSEAE STANDARD; PRT; 178 AA.AC P43502;DT 01-NOV-1995 (Rel. 32, Created)DT 01-NOV-1995 (Rel. 32, Last sequence update)DE Protein pilI.GN PILI OR PA0410.OS Pseudomonas aeruginosa.SQ SEQUENCE 178 AA; 19934 MW; 634A1A4B135A7E77 CRC64; MSDVQTPFQL LVDIDQRCRR LAAGLPAQQE AVQSWSGIGF [...]

Page 16: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

16

Implementierung: relationale DBMS

Relationale DBMS in anderen Feldern lange erprobt

Für wissenschaftliche Daten nicht optimal

Komplexe Struktur führt zu uneinsichtigem Tabellenverbund

Administration und Abfragen daher unnötig kompliziert

Effiziente Speicherung u. Suche von Sequenzdaten nicht hinreichend untersucht

Trotzdem rund 38 % der DBn mit relationalem DBMS

Page 17: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

17

Implementierung: ACEDB

A C. elegans DataBase

Speziell für wissenschaftliches Umfeld entworfen

Objektorientiertes Datenmodell, aber: Keine Vererbung möglich

Baumstruktur von Objekten u. Attributen

Semistrukturierter Ansatz Erlaubt Ausnahmen i.d. Datenstruktur

Query-Sprache AQL: SQL-ähnlich, Pfad-Ausdrücke

Page 18: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

18

Implementierung: ACEDB

Klassendefinition Tags, Objekte, Basistypen,

Modifizierer

1:N-Beziehungen problemlos modellierbar

Bsp. Abfrage:Alle Co-Autoren in allen Aufsätzen von Hr. Lesk finden

?Author Name UNIQUE Text Paper ?Paper

?Paper Title UNIQUE Text Author ?Author Abstract ?LongText

select a->Paper->Author from a in class Author where a->Name like "*lesk*"

Page 19: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

19

Implementierung: OPM

Object Protocol Model

Objektorientiertes Modell mit spezieller Unterstützung für wissenschaftliche Daten/Prozesse

Kein DBMS, nur Datenmodell

Protokoll-Klassen modellieren Experimente mit Input und Output

Tool-Suite zur Modellierung/Benutzung Schema Editor:

Erlaubt Transformation in relationale Schemata

Browse & Query: Anfragen u. Transaktionen in z.B. SQL umwandeln

Page 20: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

20

Datenbank-Retrieval

Heterogenität

Vielzahl existierender DBn welche enthält relevante Daten? unterschiedliche Abfragearten

Ansatz: „Meta-Suchen“z.B. SRS (Sequence Retrieval System) Zugriff auf ca. 500 DBn Folgt Hypertext-Links in Einträgen

Abfrage über WWW-Standardformular oderQuery-Language

[swissprot-id:acha-human] > prosite > swissprot

Page 21: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

21

Datenintegration

Akquisition neuer Daten aus anderen DBn

Voll- oder semiautomatischKonflikte möglich, Einteilung insemantische, deskriptive, strukturelle

Forschergruppen dürfen Daten einbringen

Qualität d. Daten, Validierungsprozess?

Übernahme aus der Literatur

Meist manuell, arbeitsintensiv

Page 22: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

22

Qualitätssicherung

Annotationen

Meta-Daten, z.B. Literaturreferenzen

Verknüpfungen zu anderen Datensätzen

Herkunft der Daten, experimentelle Methoden

Feature-Tables: biol. Bedeutung v. Sequenzen

Neuannotation von Einträgen Macht Datenbestand „dynamisch“ Qualität d. Einträge, Bsp. EMBL-DB

ohne Annotation vorläufig ungeprüft Standard

Annotationen geben den Daten Bedeutung

Page 23: TWA-Seminar Thorsten Denhard, SS20031 Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement,

TWA-Seminar Thorsten Denhard, SS2003

23

Zusammenfassung

Molekularbiologische Daten enorme Schärfe und Quantität

oft komplexe Strukturen

Datenbanken bewährte DBMS bereits in Verwendung

spezielle Ansätze verfügbar, aber noch nicht verbreitet

Heterogenität von Datenbeständen Verteiltheit und unterschiedliche Datenhaltung

Integration notwendig

Informatik-Expertise bei Biologen erforderlich