Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische...

97
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken Molekularbiologische Molekularbiologische Datenbanken Datenbanken QUELLEN: http://nar.oxfordjournals.org/content/vol35/suppl_1/index.dtl Thoralf Töpel: Web-basierte Informationssysteme in der molekularen Bioinformatik, Vorlesung, SoSe 05

Transcript of Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische...

Page 1: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1Molekularbiologische Datenbanken

Molekularbiologische Molekularbiologische DatenbankenDatenbanken

QUELLEN:http://nar.oxfordjournals.org/content/vol35/suppl_1/index.dtl

Thoralf Töpel: Web-basierte Informationssysteme in der molekularen Bioinformatik, Vorlesung, SoSe 05

Page 2: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-2Molekularbiologische Datenbanken

Überblick IÜberblick I

Problem: Datenbank <-> DATENBANK Warum gibt es öffentlich zugängliche

molekularbiologische Datenbanken? Data Submission = Veröffentlichung Veröffentlichung:

- Austausch von Informationen und Daten- Erlangung von Reputation

Molekularbiologische Datenbanken (MDB): Veröffentlichungen, nicht Tupel

Definitionen erforderlich!!! -> Verweis auf Vorlesung

Page 3: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-3Molekularbiologische Datenbanken

Überblick IIÜberblick II

Paper, Bücher, Reports 1907 / 1927: Chemical/Biological Abstracts

- Sekundärliteratur: Abstracts, bibliographische Daten

1972 Medline- Publication Index (einer von vielen)- PubMed: http://www.ncbi.nlm.nih.gov/entrez- Aktuell:

• > 15.000.000 Artikel: http://www.ncbi.nlm.nih.gov/Literature/ • > 19.000 Journals: ftp://ftp.ncbi.nih.gov/pubmed/J_Medline.txt

- Online Links zu Volltextartikeln

Page 4: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-4Molekularbiologische Datenbanken

Überblick IIIÜberblick III Erste Sequenzen: Proteine

- Länger bekannt und untersucht, einfacher zugänglich- DNA: Zellkern, kompakte Packung, große Länge,

Instabilität Erste Proteinsequenz 1951 (Sanger & Tuppy):

Seitenkette von Insulin Sammlung ab Anfang der 1960er (Dayhoff et al.

1965)- Protein Sequence Atlas: Buchform, 1968-1978- Motivation: Evolutionäre Untersuchungen- 1980: Protein Information Resource (seit 1988: PIR-

Int.)- 1986: SWISS-PROT: Genf (Amos Bairoch) plus EBI

Page 5: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-5Molekularbiologische Datenbanken

Überblick IVÜberblick IV

Wachstum von

Uni-ProtKB/SWISS-PROT:Quelle:http://www.expasy.org

Page 6: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-6Molekularbiologische Datenbanken

Überblick VÜberblick V

• Proteine falten sich in komplexe Strukturen, die entscheidend für die Funktion ist

• Strukturaufklärung- Röntgenkristallographie (seit

50‘er Jahren:- Nuclear Magnetic Resonance

(NMR)• Protein Data Bank (PDB):

- Seit 1971 in Brookhaven- Seit 1999: Rutger University

• Cambridge Structural Database: 1965

Page 7: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-7Molekularbiologische Datenbanken

Überblick Überblick VIVI

Wachstum von

PDB

Quelle:http://www.rcsb.org

Page 8: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-8Molekularbiologische Datenbanken

Überblick VII:Überblick VII:DNA-SequenzierungDNA-Sequenzierung

Doppelhelix der DNA: 1953 (Watson, Crick) Entwicklung DNA Sequenzierung Beginn der 1970er

(Sanger, 1972 ): „radioactive dideoxy sequencing“ Sammlungen von DNA Sequenzen

- Los Alamos National Laboratory seit 1979GenBank am NCBI (National Center f Biotech. Information)

- European Molecular Biology Laboratory 1980EMBL am EBI (European Bioinformatics Institute)

- DNA DataBank of Japan: 1986DDBJ am NIG (National Inst. of Genetics)

Int. Nuc. Sequence DB Collaboration seit ca. 1986- Täglicher Austausch- Jeweils verantwortlich für submittete Sequenzen

Page 9: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-9Molekularbiologische Datenbanken

Überblick VIIIÜberblick VIII

Wachstum von

EMBL

Quelle:http://www.ebi.ac.uk

Page 10: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-10Molekularbiologische Datenbanken

Überblick IXÜberblick IX „Vernetzung“

Quelle:http://www.genome.ad.jp/dbget/dbget.links.html

Page 11: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-11Molekularbiologische Datenbanken

Probleme I Probleme I (Quelle: U. Leser)

Text -> Daten Alle (großen) öffentlichen Datenbanken

entstanden aus Büchern- Sammlungen bekannter Daten einer Art:

DNA, Proteinsequenz, Proteinstruktur- Jährliche / Quartalsweises Erscheinen- Buch – Band – CD – FTP – WWW

Flaches, textorientiertes Datenmodell- Aufbau nach „Entries“- Viele Beschreibungen in freier Textform- Für Menschen, nicht Computer

Page 12: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-12Molekularbiologische Datenbanken

Probleme II Probleme II (Quelle: U. Leser) Schwierigkeiten

- Hohe Redundanz (Literatur, ...)- Keine Vergleichbarkeit freier Beschreibungen- Keine Standardparser einsetzbar (Grammatiken)- Controlled Vocabularies schwierig (keine FK)- Schlechte „Skalierbarkeit“

Vorteil- Lesbarkeit: Übersichtlich - Einfach editierbar, keine Einschränkungen

Entwicklung: Trennung von Speicherformat, Austauschformat, Benutzerinterface

Page 13: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-13Molekularbiologische Datenbanken

Probleme III Probleme III (Quelle: U. Leser)

Kontinuierliche Entwicklung !!!

Sukzessive Übernahme von DB Techniken

Page 14: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-14Molekularbiologische Datenbanken

Eigenschaften I Eigenschaften I (Quelle: U. Leser)

Passiv oder aktiv- Model 1:

• Alle Daten werden submittet• Sinn: Archivierung, ID Vergabe und „roher“ Zugriff• Verpflichtung durch Journals, Geldgeber, Gewissen• Beispiele: Genbank/EMBL..., PDB, ...

- Model 2:• Aktiv sammeln: Journals, andere Datenquellen, ...• Sinn: Integration, Veredlung, Vollständigkeit• Ermöglicht zentralen Zugriff ohne Verpflichtung• Beispiele: SWISS-PROT, PIR, ...

- Mischformen:• GDB - Human Genome Database:

The Official World-Wide Database for the Annotation of the Human Genome

Page 15: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-15Molekularbiologische Datenbanken

Eigenschaften I Eigenschaften I (Quelle: U. Leser)

Passiv oder aktiv ??

Page 16: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-16Molekularbiologische Datenbanken

Eigenschaften II Eigenschaften II (Quelle: U. Leser)

Database Curation- Curation: Verbesserung, „Heilung“- Modell 1:

• Submitter/Quelle ist Datenherr• Keine (inhaltlichen) Veränderungen• Beispiele: Genbank, ArrayExpress, ...

- Modell 2:• Daten werden laufend verbessert• Hoher (manueller) Aufwand• Beispiele: SWISS-PROT, MGD - Mouse Genome

DB, MIPS, ...

Page 17: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-17Molekularbiologische Datenbanken

Eigenschaften II - Beispiel Eigenschaften II - Beispiel (Quelle: U. Leser)

Page 18: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-18Molekularbiologische Datenbanken

Eigenschaften III Eigenschaften III (Quelle: U. Leser)

Redundanz- Model 1:

• Alles aufnehmen- Modell 2:

• Entfernen gleicher oder sehr ähnlicher Einträge- Was ist sehr ähnlich ?

• Homologes Protein in anderer Spezies ?• Homologes Gen an anderer Position ?

- Muss festgelegt werden !• Beispiel SP: Redundanzminimierung durch Editoren• Beispiel UniGene: Redundanzminimierung durch

Algorithmen

Page 19: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-19Molekularbiologische Datenbanken

Eigenschaften IV Eigenschaften IV (Quelle: U. Leser)

Integration- Modell 1

• DB als Archiv unverbundener Objekte• Problemloses Löschen / Hinzufügen von Objekten

- Modell 2• Objekte als Knoten in einem komplexen Geflecht• Neue „Knoten“ können Änderungskaskaden auslösen

- Verschiedene Integrationstiefen• Links zu anderen Quellen

DBGET Integr8 (web portal provides easy access to integrated information about

deciphered genomes and their corresponding proteomes) • automatische Integration anhand definierter Kriterien

(ENSEMBL: a software system which produces and maintains automatic annotation on selected eukaryotic genomes )

• Manuelle Integration anhand Wissen des Editors (SP)- DBGET / DBLINK: Datenbank aus Links

Page 20: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-20Molekularbiologische Datenbanken

Eigenschaften IV - Beispiel zu Eigenschaften IV - Beispiel zu Modell 2 Modell 2 (Quelle: U. Leser)

Page 21: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-21Molekularbiologische Datenbanken

Eigenschaften IV - Beispiel zu Eigenschaften IV - Beispiel zu Modell 2 Modell 2 (Quelle: U. Leser)

Datenherkunft unklar!

IntegratedX-ChromosomeDatabase

Page 22: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-22Molekularbiologische Datenbanken

Eigenschaften IV - Beispiel zu Eigenschaften IV - Beispiel zu Modell 2 Modell 2 (Quelle: U. Leser)

Page 23: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-23Molekularbiologische Datenbanken

Eigenschaften V Eigenschaften V (Quelle: U. Leser)

Fokus- Organismus, Gewebe, Chromosome, ...- Datentyp: Sequenzen, Strukturen, Motive, ...- „Tiefe Datenbanken“

• Wenig Klassen, viele Objekte• EMBL, ArrayExpress, GDB, 2D Page (SWISS-2DPAGE

Two-dimensional polyacrylamide gel electrophoresis database) ...- „Breite Datenbanken“

• „Viele Klassen, wenig Objekte“• Chromosom-/ Spezies-/ Krankheitsspezifisch• MGD, MIPS, Genecards, ...

Page 24: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-24Molekularbiologische Datenbanken

Eigenschaften V - Beispiel Eigenschaften V - Beispiel (Quelle: U. Leser)

Genomics Unified Schema (GUS) is an extensive relational database schema and associated application framework designed to store, integrate, analyze and present functional genomics data. The GUS schema supports a wide range of data types including genomics, gene expression, transcript assemblies, proteomics and others. It emphasizes standards-based ontologies and strong-typing.

Page 25: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-25Molekularbiologische Datenbanken

Eigenschaften VI Eigenschaften VI (Quelle: U. Leser) Position in „Wissensschöpfungskette“

- Primärdatenbanken• Nahe am Experiment• Wenig Verarbeitung (kurze Annotationspipelines)• Keine „Konsensdaten“• Genbank/EMBL, PDB, UniGene

- Sekundärdatenbanken• Intensive Arbeit zur Datenverbesserung• Reichhaltige Annotation und Verlinkung• Intensive Integration und Curationüber Datentypen hinweg• SWISS-PROT, MGD, OMIM, ...

- Tertiärdatenbanken• Datenbanken von „Annotationstypen“ oder „Featuretypen“• GeneOntology, PFAM, PRINTs, InterPro, CATH, ....

Page 26: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-26Molekularbiologische Datenbanken

Eigenschaften VI - Beispiel Eigenschaften VI - Beispiel (Quelle: U.

Leser)

Page 27: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-27Molekularbiologische Datenbanken

Eigenschaften VII Eigenschaften VII (Quelle: U. Leser)

Zweck- Lange bestehend, international organisiert

• Referenzdatenbanken, öffentliches Archiv• Genbank, SWISS-PROT, PIR, PDB, ...

- Projektbezogen, One-Shot• Existieren ca. bis zur Veröffentlichung• Ergebnis einer Datenanalyse • Hochaktuell für kurze Zeit

- Labor-Datenbanken• Verzahnung mit LIMS (Laboratory Info. Mang. S.)• Grundlage der Datenanalyse• Speichert Rohdaten (Traces, Bilder, MS-Spektren)

Page 28: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-28Molekularbiologische Datenbanken

Eigenschaften VII - Eigenschaften VII - Beispiel Genexpressionsdaten Beispiel Genexpressionsdaten (Quelle: U. Leser)

Page 29: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-29Molekularbiologische Datenbanken

Eigenschaften VIII Eigenschaften VIII (Quelle: U. Leser)

Technik- Verwendete Technologie

• Relationale DBMS (Oracle, Sybase, Informix)• Objektorientierte DBMS (Versant, Objectstore)• XML Datenbanken (Tamino, XIS)• Proprietäre Techniken (ACeDB, Icarus/SRS)• Flatfiles

- Zugriffsmechanismen• Anfragesprachen: SQL, XQuery, OQL, • Canned Queries, Webforms• Indexmechanismen, Keywordsuche• Navigation

Page 30: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-30Molekularbiologische Datenbanken

Anforderungen

• Datenmenge• GenBank-Flatfiles 110 GB (2/2003)• SWISS-PROT, TrEMBL Oracle-Export 1 GB (2/2003)

• Flexibilität • Forschungsfragen ändern sich• Design muß Wartbarkeit und Flexibilität ermöglichen• Schemaänderungen, neue Datentypen, Optimierungen, Integration

• Offenheit• Zugriff durch unterschiedliche Clients, geeignete Export-Formate

• Datenqualität• Unscharfe, widersprüchliche Daten durch Experimente

Page 31: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-31Molekularbiologische Datenbanken

Klassifikation• Jährliche Sonderausgabe der „Nucleic Acids Research“ (seit

1996)• seit 2004 „Database Issue“

• Molecular Biology Database • Collection• http://nar.oupjournals.org• 2005 : 719 DBs• 2006 : 858 DBs

Page 32: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-32Molekularbiologische Datenbanken

Klassifikation (2)

Page 33: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-33Molekularbiologische Datenbanken

Nukleotidsequenzdatenquellen

• Labors, Sequenzierkonsortien, Patentanmeldungen hinterlegen ihre Sequenzen

• GenBank (National Center for Biotechnology Information, NIH)• EMBL-Bank (European Molecular Biology Laboratory, EMBL-EBI)• DDBJ: DNA Database of Japan

• International Nucleotide Sequence Database Collaboration

• Täglicher Abgleich der Sequenzen• Inhaltlich deckungsgleich• Separate Eingabepunkte für neue Sequenzen• Unterschiede im Speicherformat und Annotation• Abstimmung der Datenformate

Page 34: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-34Molekularbiologische Datenbanken

Nukleotidsequenzdatenquellen (2)• Bedingung für Veröffentlichung eines Artikels in Fachzeitschrift• = Einbringung der neuen Nukleotidsequenz in DB

• Inhalt• Daten und Annotation für eine einzige, zusammenhängende Sequenz• Auch Sammlung mehrerer veröffentlichter Artikel als überlappende

Fragmente• Lebensgeschichte: ohne Annotation – vorläufig – ungeprüft – Standard • Selten „stirbt“ ein Eintrag• Eigenschaftstabelle (feature table) verweist auf Abschnitte, die

• bestimmte Funktionen ausführen oder beeinflussen• mit anderen Molekülen in Wechselwirkung treten• sich auf die Replikation auswirken• an der Rekombination beteiligt sind• Wiederholungseinheiten darstellen• eine Sekundär- oder Tertiärstruktur besitzen• überarbeitet oder korrigiert wurden

Page 35: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-35Molekularbiologische Datenbanken

EMBL - Database

• = EMBL Nucleotide Sequence Database• Inhalt stieg in einem Jahr von 27,2 auf 42,3 Mill. Einträge (Sept. 2004)• Verfügbare Daten: vierteljährlich komplette DB, tägliche Updates• Bevorzugte Dateneingabe über WebIn• Zugriff über

• SRS, FTP• Dbfetch, EMBL Sequence Version Archive (SVA)

• Strukturierte Wertepaare AC X64011; S78972;

• Feature Table: Key Location/QualifiersCDS 23..400

/product="alcohol dehydrogenase" /gene="adhI"

• The feature CDS is a coding sequence beginning at base 23 and ending at base 400, has a product called 'alcohol dehydrogenase' and is coded for by a gene called "adhI".

Page 36: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-36Molekularbiologische Datenbanken

EMBL: FormatID LISOD standard; genomic DNA; PRO; 756 BP.XX AC X64011; S78972;XXSV X64011.1XXDT 28-APR-1992 (Rel. 31, Created)DT 30-JUN-1993 (Rel. 36, Last updated, Version 6)XXDE Listeria ivanovii sod gene for superoxide dismutaseXXKW sod gene; superoxide dismutase.XXOS Listeria ivanoviiOC Bacteria; Firmicutes; Bacillus/Clostridium group;OC Bacillus/Staphylococcus group; Listeria.XXRN [1]RX MEDLINE; 92140371.RA Haas A., Goebel W.;RT "Cloning of a superoxide dismutase gene from Listeria ivanovii byRT functional complementation in Escherichia coli and characterization of theRT gene product.";RL Mol. Gen. Genet. 231:313-322(1992).XXDR SWISS-PROT; P28763; SODM_LISIV.XXFH Key Location/QualifiersFHFT source 1..756FT /db_xref="taxon:1638"FT /organism="Listeria ivanovii"FT /strain="ATCC 19119"FT /mol_type="genomic DNA"FT RBS 95..100…

Page 37: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-37Molekularbiologische Datenbanken

EMBL: WebIn1. Submitter Information 2. Release Date Information 3. Sequence Data, Description and Source Information 4. Reference Citation Information 5. Feature Information (e.g. coding regions, regulatory signals

etc.)

Page 38: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-38Molekularbiologische Datenbanken

EMBL: Dbfetch

Page 39: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-39Molekularbiologische Datenbanken

EMBL: SRS

4.3 | Nukleotidsequenzdatenquellen

Page 40: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-40Molekularbiologische Datenbanken

EMBL: XML-Unterstützung

4.3 | Nukleotidsequenzdatenquellen

• EMBL + XML = XEMBL• CORBA-basierter WWW-Dienst• Erzeugung von XML-Files aus EMBL-Flat-Files• Zur Zeit Unterstützung von DTD‘S von BSML und AGAVE

( Architecture for Genomic Annotation, Visualization and Exchange)

• Zugriff über SOAP ( Simple Object Access Protocol vom W3-Konsortium) bzw. CGI-Aufrufe

Page 41: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-41Molekularbiologische Datenbanken

EMBL: Überblick

4.3 | Nukleotidsequenzdatenquellen

Domäne Nukleotid-Sequenzen

Zugriffmöglichkeit Lokale Flat-Files, WWW, XEMBLAnfrageschnittstelle WWW, SRS, XEMBL

Datenformat ASCII, HTML, XMLSchemainformation Externe DokumentationIdentifikationsmechanismus Eindeutig über Accession

Numbers(Quasi-Standard)

Datenaktualität Tägliche UpdateZugriffskosten keine

Page 42: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-42Molekularbiologische Datenbanken

Die GenbankDie Genbank –– SequenzdatenbankSequenzdatenbank Anbieter: National Institutes of Health (NIH) erzeugt

vom National Center for Biotechnology Information (NCBI) http://www.ncbi.nlm.nih.gov/

Inhalt: alle öffentlich verfügbaren RNA, DNA und Protein-Sequenzen mit Annotationen

täglicher Abgleich mit EMBL und DDBJ Untergliederung in Divisionen:

- phylogentisch (Verwandschaft, Abstammung)- technologisch: Wie wird Sequenz generiert?

Releases: 2x monatlich mit täglichen Updates Nicht entwickelt für Zugriff mittels Computer!!!

Page 43: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-43Molekularbiologische Datenbanken

GenBank: Format

• Informationseinheit: GBFF (GenBank Flatfile)

• Header• LOCUS eind. Name, Sequenzlänge, Molekültyp, Datum• DEFINITION biologische Zusammenfassung• ACCESSION Schlüssel• VERSION Angabe der letztgültigen Version• KEYWORDS nicht-standardisierte Beschreibung der Sequenz• SOURCE/ORGANISM Trivialname/wiss. Name des Organismus• REFERENCE Block mit mind. einer Referenz

• Features• Source Quelle des verwendeten biol. Materials• CDS Sequenzabschnitt für Aminosäuresequenz• …

• Nukleotidsequenz

Page 44: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-44Molekularbiologische Datenbanken

GenBank: Format (2)

4.3 | Nukleotidsequenzdatenquellen

LOCUS LISOD 756 bp DNA linear BCT 30-JUN-1993DEFINITION Listeria ivanovii sod gene for superoxide dismutase.ACCESSION X64011 S78972VERSION X64011.1 GI:44010KEYWORDS sod gene; superoxide dismutase.SOURCE Listeria ivanovii ORGANISM Listeria ivanovii

Bacteria; Firmicutes; Bacillales; Listeriaceae; Listeria. REFERENCE 1 (bases 1 to 756) AUTHORS Haas,A. and Goebel,W. TITLE Cloning of a superoxide dismutase gene from Listeria ivanovii by

functional complementation in Escherichia coli and characterizationof the gene product

JOURNAL Mol. Gen. Genet. 231 (2), 313-322 (1992) MEDLINE 92140371REFERENCE 2 (bases 1 to 756) AUTHORS Kreft,J. TITLE Direct Submission JOURNAL Submitted (21-APR-1992) J. Kreft, Institut f. Mikrobiologie,

Universitaet Wuerzburg, Biozentrum Am Hubland, 8700 Wuerzburg, FRGFEATURES Location/Qualifiers source 1..756 /organism="Listeria ivanovii" /strain="ATCC 19119" /db_xref="taxon:1638" /mol_type="genomic DNA" RBS 95..100 /gene="sod" gene 95..746 /gene="sod" CDS 109..717 /gene="sod" /EC_number="1.15.1.1" /codon_start=1 /transl_table=11 /product="superoxide dismutase" …

Page 45: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-45Molekularbiologische Datenbanken

GenBank: Suche

Page 46: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-46Molekularbiologische Datenbanken

Proteinsequenzdatenquellen

• Meistens aus Nukleinsäuresequenzen abgeleitet• Typische Vertreter:

• Swiss-Prot (Schweizer Institut für Bioinformatik, EMBL)• PIR (Georgetown University Washington, MIPS München,

Japan)• TrEMBL (EMBL) • UniProt (Swiss-Prot + TrEMBL+ PIR)

Page 47: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-47Molekularbiologische Datenbanken

Swiss-Prot• Kommentierte Proteinsequenzdatenbank • Umfangreiche Bemerkungen (Annotationen), geringe Redundanz, Links zu

anderen Datenquellen• Entwicklung seit 1986 an der Universität Genf, Schweiz• Partnerschaftlich vom EMBL-EBI und dem SIB (Swiss Institute of

Bioinformatics) betrieben• Aminosäurensequenz, Annotationen, Verweise, Synonyme,

Literaturreferenzen, Schlüsselworte• Format der Daten orientiert sich an der EMBL–Nukleotidsequenzdatenbank• Umfang: Proteinsequenz, Version, Vorgänger, Autor, Datum, Länge, Methode,

letzte Änderung, Organismus, Sequenzfeatures, Links, Ref.• Engpässe und somit zeitliche Verzögerungen während des

Annotationsverfahres• 1996 Entwicklung von TrEMBL, Rechner–annotierte Einträge

(Translation of EMBL nucleotide sequence database)

Page 48: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-48Molekularbiologische Datenbanken

Swiss-Prot: Format

4.4 | Proteinsequenzdatenquellen

Page 49: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-49Molekularbiologische Datenbanken

Swiss-Prot: Format (2)

Page 50: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-50Molekularbiologische Datenbanken

Swiss-Prot: DiensteBildquelle: http://www.expasy.org/sitem

ap.html

Page 51: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-51Molekularbiologische Datenbanken

Swiss-Prot: LinksBildquelle: http://www.expasy.org/sprot/userm

an.html

Page 52: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-52Molekularbiologische Datenbanken

Swiss-Prot: ÜberblickDomäne Proteine, Aminosäuresequenz

Zugriffmöglichkeit Lokale Flat-Files, WWWAnfrageschnittstelle WWW, SRS, Nice-Prot

Datenformat ASCII, HTMLSchemainformation Externe DokumentationIdentifikationsmechanismus Eindeutig über Accession

Numbers(Quasi-Standard)

Datenaktualität Tägliche UpdateZugriffskosten keine

Page 53: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-53Molekularbiologische Datenbanken

TrEMBL• Rechner-annotierte Übersetzungen aller kodierender Regionen

in DDBJ/EMBL/GenBank• + Proteinsequenzen aus Literatur und Submission, die

nicht in Swiss-Prot• Schnelle Publikation ohne Verzögerung durch aufwendige

manuelle Annotation• Vorgehen

• Vergabe eines TrEMBL-Eintrages• Automatische Annotation: Informationstransfer von bekannten Einträgen aus Swiss-

Prot zu nicht annotierten TrEMBL-Einträgen über InterPro-Gruppen• Redundanzbeseitigung: Sequenzen mit gleichem Organismus, voller Länge und

Identität werden zu einem Eintrag verschmolzen• Herkunftsnachweis: TrEMBL enthält Daten aus unterschiedlichen Quellen, Herkunft

eines Eintrages wird dokumentiert – ermöglicht Qualitätsbewertung und Aktualisierung

Page 54: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-54Molekularbiologische Datenbanken

UniProt• Universal Protein Knowledgebase

• Seit 2002 Vereinigung kommentierter Proteinsequenzdatenbanken • Sammlung der einzelnen Sequenzinformationen und funktionalen Daten• das UniProt Archive (UniParc): nicht–redundante Sammlung von

Proteinsequenzen aus verschiedenen Quellen (Swiss–Prot, TrEMBL, PIR–PSD, EMBL, Ensembl, IPI, PDB, RefSeq, FlyBase, WormBase und Patentämter

• zentrale UniProt Knowledgebase (UniProt): Proteinsequenzen, Annotation und funktionale Informationen aus SWISS–PROT, TrEMBL und PIR–PSD; wechselseitige Referenzen; Unterscheidung der Informationen in manuell annotierte Sequenzen, die durch eine Literaturrecherche und evaluierte Computeranalysen entstanden sind, und rechnerannotierte Sequenzen

• die UniProt NREF Datenbank (UniRef): nicht–redundante Verknüpfungen verfügbarer Sequenzen mit Links zu den beteiligten Sequenzen, Taxonomie, Literaturreferenzen und der resultierenden Sequenz

Page 55: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-55Molekularbiologische Datenbanken

UniProt: Format

Page 56: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-56Molekularbiologische Datenbanken

UniProt: Format (2)Bildquelle: http://www.expasy.org/sprot/userm

an.html

Page 57: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-57Molekularbiologische Datenbanken

MDB: Klassifikation (1)

Nukleotidsequenzdatenquellen Daten und Annotation für eine einzige, zusammenhängende

Sequenz GenBank, EMBL-Bank, JJDB

Proteinsequenzdatenquellen Meistens aus Nukleinsäuresequenzen abgeleitet Swiss-Prot, PIR, TrEMBL, UniProt

Page 58: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-58Molekularbiologische Datenbanken

MDB: Klassifikation (2)

Page 59: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-59Molekularbiologische Datenbanken

Strukturdatenquellen

Archivierung von Gruppen aus Atomkoordinaten und Annotationen für biochemische Strukturen

Struktur PDB MSD (EBI), MMDB (NCBI)

Klassifikation der Proteinfaltungsmuster SCOP DALI

Page 60: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-60Molekularbiologische Datenbanken

Proteinstruktur

Von eindimensionaler (Nukleotid-/Aminosäuresequenz) zur räumlichen Welt Proteine in vielfältigen Funktionen: Strukturproteine, Enzyme, Transport-

und Speicherproteine, Hormone, Rezeptoren, Transkriptionsregulation, Immunsystem

Lokalisierung der Funktion in kleinem Teil des Proteins = aktives Zentrum Evolution der Proteine: Strukturveränderung durch Mutationen Dreidimensionale Struktur von ca. 15000 Proteinen bekannt Unterscheidung in

- Primärstruktur Aminosäuresequenz- Sekundärstruktur Wasserstoff-stabilisierte Krümmung der Hauptkette- Tertiärstruktur …- Quartärstruktur

+ Supersekundärstruktur, Domänen

Page 61: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-61Molekularbiologische Datenbanken

PDB Protein Data Bank Datensammlung zur Struktur biologischer Makromoleküle Proteine, Nukleinsäuren, Kohlenhydrate 1971 gegründet an Brookhaven National Laboratories, Pflege durch Research Collaboration for Structural Bioinformatics Prüfungsprozeß vor Aufnahme einer neuen Struktur Hohe Redundanz, geringer Umfang

Inhalt Allgemeine Angaben (Protein, Publikation) Aminosäuresequenz Experimentelle Einzelheiten der Strukturaufklärung, ähnliche Strukturen Koordinaten der Atome

Page 62: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-62Molekularbiologische Datenbanken

PDB: Dateiformat Anordnung der 3D-Struktur des Proteins in Raumgitter Atome, die über Bindungen in Wechselwirkung stehen Jedes Atom besitzt bestimmte Position relativ zum Nullpunkt Zuordnung weiterer Daten (Atomcharakter, Bindungen, Wechselwirkungen) Verschiedene Werkzeuge zur Visualisierung (RasMol, Swiss PDB Viewer,

Cn3D)

PDB-Koordinatendatei Schlüssel-Wert-Paare

Kooperation als Worldwide Protein Data Bank (wwPDB) PDB, EBI-MSD, PDBj Vereinheitlichung, Transparenz

Page 63: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-63Molekularbiologische Datenbanken

PDB: Beispieldatei

Page 64: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-64Molekularbiologische Datenbanken

PDB: Beispieldatei (2)

Bild

quel

le: h

ttp://

www.

rcsb

.org

/pdb

/

Page 65: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-65Molekularbiologische Datenbanken

PDB: Überblick

Domäne ProteinstrukturenZugriffmöglichkeit WWW, Lokale Flat-Files

Anfrageschnittstelle WWW, SRS

Datenformat HTML, ASCII, PDB-Format, Spezialformate

Schemainformation Externe DokumentationIdentifikationsmechanismus

Eindeutig über PDB-Nummer(Quasi-Standard)

Datenaktualität Regelmäßige Updates

Zugriffskosten Keine

Page 66: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-66Molekularbiologische Datenbanken

SCOP

Structural Classification of Proteins Erkennung von Ordnungskriterien in der Vielfalt der Proteinstrukturen Hierarchische Ordnung auf der Basis der PDB-Einträge in Bezug auf

evolutionäre und strukturelle Ähnlichkeiten Auch Proteine mit geringer Sequenzähnlichkeit können sehr ähnliche 3D-

Strukturen besitzen Unterteilung des Proteinmoleküls in Domänen (rel. unabhängige

Faltungseinheiten) Strukturierung aufsteigend nach Ähnlichkeit Sequenz/Struktur

- Class Klasse- Fold Faltung Major structural similarity- Superfamily Superfamilie Probable common evolutionary origin- Family Familie Clear evolutionarily relationship- + Protein, Spezies

Page 67: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-67Molekularbiologische Datenbanken

SCOP: Beispieleintrag

Page 68: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-68Molekularbiologische Datenbanken

SCOP: Überblick

Domäne Klassifikation von ProteinstrukturenZugriffmöglichkeit WWW, Lokale Flat-Files

Anfrageschnittstelle WWW

Datenformat HTML, ASCII

Schemainformation Externe Dokumentation

Identifikationsmechanismus Klassifikation

Datenaktualität Regelmäßige Updates

Zugriffskosten Keine

Page 69: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-69Molekularbiologische Datenbanken

Metabolische und Signalwege Stoffwechsel (Metabolismus) = Chemische Prozesse in einem

Biosystem (Proteinsynthese, Biosynthese, Zellkommunikation) Vorgänge prinzipiell bei allen Lebewesen gleich Metabolic Pathway (Stoffwechselweg) = in Wechselwirkung stehende biochemische Reaktionen durch Enzyme reguliert

Produktion und Konsumption von Zwischenprodukten Reaktion durch Enzyme gehemmt oder gefördert

Bild

quel

le: h

ttp://

biop

ath.

fmi.u

ni-p

assa

u.de

/

a

b c

d

a' b' c' d'

Gene

Enzyme

Einfluß a Einfluß b Einfluß c Einfluß d

A B C D E Biochemische Reaktionen

Page 70: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-70Molekularbiologische Datenbanken

Metabolische und Signalwege (2)

Signaling Pathway (Signalweg) = Signalübermittlung von Zelle zu Zelle bzw. Organ zu Organ

Signalvermittlung durch chemische Verbindungen (Signalmoleküle)

Typischer Ablauf Extrazelluläre Signalmoleküle binden an Rezeptor (Membranproteine) Hormon-Rezeptor-Komplex löst intrazelluläres Signalmolekül aus

(Signaltransduktion, mehrstufige Signaltransduktion = Signalkaskade)

Page 71: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-71Molekularbiologische Datenbanken

BRENDA

Braunschweig Enzyme Database 1987 an GBF Braunschweig entwickelt Heute Pflege an Universität zu Köln Inhalt

Enzyme und metabolische Zusammenhänge Biochemische und molekulare Informationen, Klassifikation und Nomenklatur,

Reaktion und Spezifität, kinetische Parameter, …, Links, Referenzen

Umfang 83000 Enzyme in 9800 Organismen Klassifiziert durch 4200 unterschiedliche EC-Nummern Extrahiert aus 46000 Publikationen

Page 72: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-72Molekularbiologische Datenbanken

BRENDA: GUI

Page 73: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-73Molekularbiologische Datenbanken

BRENDA: Überblick

Domäne Metabolische und SignalwegeZugriffmöglichkeit WWW

Anfrageschnittstelle WWW, SRS

Datenformat HTML

Schemainformation Externe DokumentationIdentifikationsmechanismus

Eindeutig über entsprechende Schlüssel

Datenaktualität Regelmäßige Updates

Zugriffskosten Keine

Page 74: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-74Molekularbiologische Datenbanken

KEGG

Kyoto Encyclopedia of Genes and Genomes Sammlung einzelner Genome, Genprodukte und ihre Funktion,

Zusammenführung von biochemischen und genetischen Daten 1995 im Rahmen des HGP gegründet Organisation in Graphenstruktur

Graph Knoten Kanten Gene universe Gen beschreiben BeziehungenChemical universe Chemische Substanz zwischen den KnotenProtein network Protein

Gruppen besitzen verschiedene Teildatenbanken, die miteinander verknüpft sind

Page 75: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-75Molekularbiologische Datenbanken

KEGG: Vernetzung

4.6 | Metabolische und Signalwege

Bild

quel

le: h

ttp://

www.

geno

me.

ad.jp

/dbg

et/

Page 76: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-76Molekularbiologische Datenbanken

KEGG: Pathway

Bild

quel

le: h

ttp://

www.

geno

me.

ad.jp

/keg

g/

Page 77: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-77Molekularbiologische Datenbanken

KEGG: Genes, Enzyme

Page 78: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-78Molekularbiologische Datenbanken

KEGG: Überblick

Domäne Metabolische und SignalwegeZugriffmöglichkeit WWW, Lokale Flat-Files, SOAP

Anfrageschnittstelle WWW, SRS, DBGET

Datenformat HTML, XML

Schemainformation Externe DokumentationIdentifikationsmechanismus

Eindeutig über entsprechende Schlüssel

Datenaktualität Regelmäßige Updates

Zugriffskosten Keine

Page 79: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-79Molekularbiologische Datenbanken

OMIM

Online Mendelian Inheritance in Man Datenbank für Gene und genetisch bedingte Erkrankungen des

Menschen Auswertung biomedizinischer Literatur Ursprünglich von Medizinern seit 1966 in Papierform veröffentlicht Seit 1987 auch online verfügbar Teil des Entrez-Systems am NCBI Pflege durch Johns-Hopkins-Universität, Baltimore Durchschnittlich 8500 Nutzer mit 100000 Anfragen pro Tag Ca. 16000 Einträge

Page 80: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-80Molekularbiologische Datenbanken

OMIM: +261600.0001 Erste Ziffer bezeichnet die Art der Vererbung

1----- (100000- ) Autosomale Loci oder Phänotypen (vor 15. Mai 1994)2----- (200000- ) Autosomale Loci oder Phänotypen (nach 15. Mai 1994)3----- (300000- ) X-chromosomale Loci oder Phänotypen 4----- (400000- ) Y-chromosomale Loci oder Phänotypen 5----- (500000- ) Mitochondriale Loci oder Phänotypen 6----- (600000- ) Autosomale Loci oder Phänotypen (nach 15. Mai 1994)

Identifikation verschiedener Mutationen über nachfolgende vierstellige Nummer 261600.0001 PHENYLKETONURIA [PAH, IVS12DS, G-A, +1] 261600.0002 PHENYLKETONURIA [PAH, ARG408TRP] Zusätzlich Präfix * Gen einer bekannten Sequenz # Beschreibender Eintrag (typ. Phänotyp), kein bestimmter Locus + Gen einer bekannten Sequenz und Phänotyp % Bestätigter vererbter Phänotyp oder Locus mit unbekannter mol. Basis ^ Gelöschter Eintrag

Page 81: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-81Molekularbiologische Datenbanken

OMIM: GUI

Page 82: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-82Molekularbiologische Datenbanken

OMIM: Überblick

Domäne Gene und genetisch bedingte Erkrankungen

Zugriffmöglichkeit WWW, Lokale Flat-FilesAnfrageschnittstelle WWW, SRSDatenformat HTML, ASCIISchemainformation Externe DokumentationIdentifikationsmechanismus

Eindeutig über MIM-Nummer(Quasi-Standard)

Datenaktualität Regelmäßige UpdatesZugriffskosten Keine

Page 83: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-83Molekularbiologische Datenbanken

PubMed

4.8 | Weitere Quellen

Sammlung von Referenzen biomedizinischer Literatur Teil des Entrez-Systems am NCBI Zugriff auf

Medline (4800 Journals, 12 Mill. Referenzen, seit 1966 indexiert) OldMedline (2 Mill. Referenzen, 1950-1966 indexiert, kein MeSH, kein Abstract) Weitere Beiträge (z.B. außerhalb des thematischen Schwerpunktes,

elektronische Übermittlung der Referenzen durch Verlag) Suche anhand von Stichwörtern, Verknüpfung durch Boolesche Operatoren,

Eingrenzung des Suchbereiches auf bestimmte Datenfelder (Title, Author, …)

MeSH (Medical Subject Headings): Annotation der Artikel mit kontrolliertem Vokabular

Page 84: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-84Molekularbiologische Datenbanken

PubMed (2)

Teilweise Zugriff auf Volltext-Artikel No abstract Abstract Free full text Free in PMC

Page 85: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-85Molekularbiologische Datenbanken

PubMed: GUI

4.8 | Weitere Quellen

Page 86: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-86Molekularbiologische Datenbanken

PubMed: Überblick

Domäne LiteraturreferenzenZugriffmöglichkeit WWW, Lokale Flat-Files

Anfrageschnittstelle WWW, SRS

Datenformat HTML, ASCII, XML, ASN.1

Schemainformation Externe DokumentationIdentifikationsmechanismus

Eindeutig über PubMed-ID (PMID)(Quasi-Standard)

Datenaktualität Regelmäßige Updates

Zugriffskosten Keine

Page 87: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-87Molekularbiologische Datenbanken

Gene Ontology

„The Gene Ontology project provides a controlled vocabulary to describe gene and gene product attributes in any organism!“

What does the Gene Ontology Consortium do?„Biologists currently waste a lot of time and effort in searching for all of the available information about each small area of research. This is hampered further by the wide variations in terminology that may be common usage at any given time, and that inhibit effective searching by computers as well as people.…The use of GO terms by several collaborating databases facilitates uniform queries across them. The controlled vocabularies are structured so that you can query them at different levels: for example, you can use GO to find all the gene products in the mouse genome that are involved in signal transduction, or you can zoom in on all the receptor tyrosine kinases. This structure also allows annotators to assign properties to gene products at different levels, depending on how much is known about a gene product.“

Page 88: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-88Molekularbiologische Datenbanken

Gene Ontology (2)

3 Ontologien: Molecular function: Molecular function describes activities, such as catalytic or binding activities,

at the molecular level. Bsp: pyrimidine metabolism, alpha-glucoside transportBiological process: A biological process is series of events accomplished by one or more

ordered assemblies of molecular functions Bsp: hexose biosynthesis, hexose metabolism, monosaccharide biosynthesisCellular component: A cellular component is just that, a component of a cell but with the proviso

that it is part of some larger object, which may be an anatomical structure or a gene product group.

Bsp: nucleus, ribosome, proteasome

Page 89: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-89Molekularbiologische Datenbanken

Gene Ontology - AmiGo

4.8 | Weitere Quellen

Page 90: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-90Molekularbiologische Datenbanken

Gene Ontology und Pflanzen-ESTs

4.8 | Weitere Quellen

Page 91: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-91Molekularbiologische Datenbanken

Plant Ontology Plant Ontology Consortium (POC) aims to develop, curate and

share controlled vocabularies (ontologies) that describe plant structures and growth/developmental stages providing a semantic framework for meaningful cross-species queries across database

Plant Structure:A controlled vocabulary of botanical terms describing morphological and anatomical structures representing organ, tissue and cell types and their relationships. Examples are stamen, gynoecium, petal, parenchyma, guard cell, etc.

Growth and developmental stages:A controlled vocabulary of terms describing growth and developmental stages in model plant species and their relationships. Examples are embryo development stage, seedling stage, flowering stage, etc.

Page 92: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-92Molekularbiologische Datenbanken

Plant Ontology - AmiGo

4.8 | Weitere Quellen

Page 93: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-93Molekularbiologische Datenbanken

Plant Ontology und Pflanzen cDNA-Arrays

4.8 | Weitere Quellen

Page 94: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-94Molekularbiologische Datenbanken

TIGR Gene Indicies

TIGR - The Institute for Genomic Research is a not-for-profit center dedicated to deciphering and analyzing genomes – the complex molecular chains that constitute each organism’s unique genetic heritage.

TIGR Gene Indices: - megablast- CAP3- Paracel TranscriptAssembler- DNA-Protein Search program (dps)- Weitere Analysen:

ORF annotation Genome mappingexpression profiles of the EST Domain annotation of TCs

Page 95: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-95Molekularbiologische Datenbanken

TIGR Gene Indicies – 4 Kategorien

Page 96: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-96Molekularbiologische Datenbanken

TIGR Gene Indicies – Beispiel

Page 97: Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: .

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-97Molekularbiologische Datenbanken

Molekularbiologische DatenquellenMolekularbiologische Datenquellen

Es könnte noch beliebig weitergehen!!!