Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2....

35
1 Sommersemester 2010 Dr. Kirsten http://dbs.uni-leipzig.de Universität Leipzig Institut für Informatik Datenbanken in der Bioinformatik Kapitel 8 Datenintegration - Ansätze und Systeme - Sommersemester 2010 Dr. Kirsten Vorlesung Biodatenbanken Universität Leipzig Inhaltsverzeichnis 1. Grundlagen 2. Klassifizierung von BioDB, Überblick 3. Spezialanwendungen 4. Datenmodelle und Anfragesprachen 5. Modellierungsalternativen 6. Versionierung von Datenbeständen 7. Annotationskonzept 8. Datenintegration: Ansätze und Systeme 9. Matching: Ontologien, Schema, Objekte 10. Scientific Computing

Transcript of Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2....

Page 1: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

1

Sommersemester 2010

Dr. Kirstenhttp://dbs.uni-leipzig.de

Universität LeipzigInstitut für Informatik

Datenbanken in der Bioinformatik

Kapitel 8Datenintegration- Ansätze und Systeme -

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Inhaltsverzeichnis

1. Grundlagen2. Klassifizierung von BioDB, Überblick3. Spezialanwendungen4. Datenmodelle und Anfragesprachen5. Modellierungsalternativen6. Versionierung von Datenbeständen7. Annotationskonzept8. Datenintegration: Ansätze und Systeme9. Matching: Ontologien, Schema, Objekte10. Scientific Computing

Page 2: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

2

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Gliederung: KontextBeschreibung des Unter-suchungsgegenstandes

Beschreibung des experimentellen Designs und Prozesses

experimentelleMetadaten

experimentelle Daten

Experiment

Analyse

Analysergebnisse

Interpretation und Ergebnispräsentation

Datenintegration

private und öffentlich zugängliche Datenzur Beschreibungen von Genen

Gewebeprobe / selektierte Zelle Hypothese

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Lernziele

Verstehen und Begreifen von generellen Ansätzen zur Datenintegration

Anwendung in Abhängigkeit von Kontext und DatenBeurteilung der Ansätze

Kennen von speziellen Datenintegration-lösungen sowie deren Verwendung

Page 3: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

3

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Gliederung

1. Motivation2. Datencharakteristik3. Probleme und Anforderungen4. Ausgewählte Lösungskonzepte

a) Link-Factoriesb) Data-Warehouse-basierte Integrationc) Integration basierend auf der genomischen

Sequenzd) Integration durch Indexierung von Web-Quellene) Mapping-basierte Integration

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Problembereich: Datenintegration

Aufgabenspektrum:Klinische Daten

z.B. Patientendaten

Daten über biol. Objekte,z.B. Gene, Proteine

• Selektion von interessanten Daten,• übergreifenden Datenanalyse und • Interpretation von Analyseergebnissen

Experimentelle Datenz.B. Microarray-Daten

...

Differentiell exprimierte STAT3 Gene beimalignen Lymphomen von Patienten,

die älter als 50 Jahre sind?

Page 4: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

4

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Verschiedene Arten von AnalysenAnalyse von Sequenzdaten (z.B. multiple alignments)Identifikation von TranskriptionsfaktorbindungsstellenGenexpressionsanalyseTranskriptionsanalyse, z.B. ENCODE Projekt (http://www.genome.gov/ENCODE)Functional profilingPathway Analyse und Rekonstruktion

Viele heterogene DatenquellenExperimentdaten, z.B. von Chip-basierten TechnikenExperimentbeschreibung (Metadaten eines Experiments)Klinische DatenViele miteinander verbundene Webdatenquellen und OntologienPrivate vs. öffentliche Daten

Motivation

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Datenintegration

Datenintegration = InformationsintegrationKorrekte, vollständige und effizienteZusammenführung von Daten und Inhalt verschiedener, heterogener Quellen zu einer einheitlichen und strukturierten Infomenge zur effektiven Interpretation durch Nutzer und Anwendungen*= Zusammenfügung von Metadaten und Instanzdaten

*Leser, Naumann: Informationsintegration, dpunkt.verlag, 2007.

Page 5: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

5

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Datenintegration

Ziel: Mehrwert, der sich mit der Kombination von Daten ergibt

bessere Ergebnisse = umfassender, qualitativ hochwertiger, abgesicherterAnfragen, die nur von Daten mehrerer Datenquellen beantwortet werden können

Anfrage

RDBMS XML-DBMS

Integrationssystem

Dateien Web-Daten Anwendungen

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Probleme bei einer Datenintegration

Komplexe Fragestellungen Nutzung vieler verschiedener DatenquellenWeite Verteilung der DatenHohe RedundanzHeterogenität der Datenquellen bzgl.

SyntaxSchema/StrukturSemantikSchnittstellen

Evolution von Daten und Schemata

Page 6: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

6

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Verteilung, Autonomie, Heterogenität*

Architekturraum durch drei orthogonale AspekteVerteilung: physisch, logischAutonomie, zB bzgl. Design, Schnittstellen, Evolution, Zugriff, ...Heterogenität

*Leser/Naumann: Informationsintegration, dpunkt.verlag, 2007, S. 49ff

homogene, zentrale DBverteilte DBverteilte heterogene DBverteilte autonome DBverteilt, heterogen, autonomAutonomie

Verteilung

Heterogenität

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Architekturvarianten im Überblick

Monolithische DatenbankenFörderierte DatenbankenMediator-basierte SystemePeer-Daten-Management-Systeme

SuchmaschinenPortale

...

Page 7: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

7

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Bio-Datenquellen

OMIM

GO

Gen-Bank

Locus-Link

SMD

Molecular-biological objects

SequenceGenePhenotype Gene Expression

Peptide NucleotideDisease Function

Protein Pathway

SCOPGene-Cards

Publication

PubMedUni-Gene

Swiss-Prot

InterPro

KEGGHUGO

Enzyme

LegendsObject classificationObject classification Source classificationSource classification Source cross-referenceSource cross-reference

WWW: >500 public data sources

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Verschiedener Arten von Webdatenquellen

Genomdatenquellen: Ensembl, NCBI Entrez, UCSC Genome Browser, ...

Objekte: Gene, Transkripte, Proteine etc. verschiedener Spezies

Objektspezifische DatequellenProteine: UniProt (SwissProt, Trembl), Protein Data Bank (PDB), ...Proteininteraktionen: BIND, MINT, DIP, ...Gene: HUGO (standardisierte Gensymbole für humanes Genom), MGD, ...Pathways: KEGG (metabolische & regulatorische Pathways), GenMAPP, ......

Page 8: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

8

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Verschiedener Arten von Webdatenquellen II

Publikationsquellen: Medline / Pubmed (>16 MioEinträge)Ontologien

Verwendung zur einheitlichen und semantischen Beschreibung von Eigenschaften biol. ObjekteKontrollierte Vokabulare zur Reduzierung terminologischer VariationenPopuläre Bespiele : Molekulare Funktionen, Biologische Prozesse, Zelluläre Komponenten (Gene Ontology)Ontologie-Sammlung: Open Biomedical Ontologies (OBO)

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Enzyme

GeneOntology

OMIMUniGeneKEGG

} Referenzenzu anderenDatenquellen

Quellenspezifische ID (accession)

Annotation:Namen, Symbole,Synonyme, etc.

}

Problem: Oftmals keine explizite Mapping-SemantikGen Gen: Orthologe Gene vs. Paraloge GeneGen GO Annotation: MF vs. BP vs. CC

Annotationsdaten vs. Mapping-Daten

Beispiel: Webdaten mit Referenzen

Page 9: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

9

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

HeterogenitätSchemaSyntax (Format)Semantik

Viele, hochverbundeneDatenquellen und Ontol.

Häufige ÄnderungenDatenSchema und FormateSchnittstellen

Unvollständige QuellenForschung #TupelZielstellung der Quelle: Spezifische Attribute

Überlappende Quellen

Verteilte molekularbiologische Daten

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Dateibasierte Datenformate

Populäre DateiformateFlat files (Genexpressionsmatrix) Entry-basiertes FormatFASTA: SequenzdatenGenBankASN.1 (Abstract Syntax Notation One)Verschiedene XML-basierte Formate

ProblemeImplizites Wissen über Attribute (Semantik)Mehrfache Werte eines Attributs in einem Eintrag ohne einheitliches TrennzeichenVerwendung des 'comment' Attributs für weitere AttributwerteVerschiedene Separatoren innerhalb einer Datei

>3198; HOXA1actgattacattggtacatgata ...>696226; HOXB3gtagctagcgatccatgatcag ...>...

FASTA

ID 3198DE homeobox A1SB HOXA1SQ actgattacattggtacatgata ......

Entry-based

Page 10: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

10

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Zusammenfassung: Datencharakteristik

Viele verschiedene Datenquellen mit unterschiedlichem FokusHohe Konnektivität: Instanz-Mappings zwischen quellenspezifischen ObjektenMapping vs. AnnotationsdatenHauptsächlich Heterogenität als Integrationsbarriere

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Datenintegration

Zwei orthogonale Aspekte:SchemaintegrationInstanzdatenintegration

Anfrage

RDBMS XML-DBMS

Integrationssystem

Dateien Web-Daten

Page 11: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

11

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Schemaintegration

Schemaintegration = MetadatenintegrationZiel: Erstellung einer 'homogenisierten Sicht' (globales Schema) auf die zu integrierenden DatenquellenGlobales Schema:

Enthält alle relevanten Schemaelemente der zu integrierenden DatenquellenSchema-Mappings zwischen globalem und Quellenschemata

Globales Schema SG

Quellenschema S1 Quellenschema S2 Quellenschema Sn...

M1: S1 x SG M2: S2 x SG Mn: Sn x SG

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Schema-Mapping

Entstehung durch Schema-Matching (Prozess)Eingabe: Schemata Source, Target ∈ S1,...,n, AlgorithmusAusgabe: Schema-Mapping M: S x T

Eigenschaften des Mapping:bidirektional Semantik: oftmals ÄquivalenzrelationSuche nach 1:1 Beziehung zwischen den Elementen (aber nicht immer möglich: Name ↔ Vorname, Nachname)vielfach weder injektiv noch surjektiv (und damit auch nicht bijektiv)Problem: Transformationen, zB Aggregation von Daten

Page 12: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

12

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Top-Down vs. Bottom-Up

Globales Schema

Schemata der Quellen

Bottom-Up-IntegrationTop-Down-Integration

T

S1 S2 Sn…

T

S1 S2 Sn…

Schemaintegration

Match(S1,S2) Match(S2,Sn)Bildung des

globalen SchemaZuordnung zum

globalen SchemaMatch(S1,T) Match(S2,T) Match(Sn,T)

SchemaintegrationSchemaintegration durch

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Schema Matching: Beispiel

Spezialfall: Mapping zwischen zwei Versionen eines Schema (KEGG Markup Language)

Wenige aber bedeutende ÄnderungenGesucht: Abbildung zwischen denbeiden Schema-Versionen

Grundlage einer Trans-formation der Instanz-daten

KGML 0.1

KGML 0.6.1

Informationsreduktion

Informationserweiterung

Page 13: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

13

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Schema Matching: Beispiel cont.

Ergebnis: Mapping zwischen den zwei KGML Schemaversionen

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Schema-Matching: Forschungsprototypen

Viele Prototypen verfügbar, zB Cupid (Univ. of Washington), Clio (IBM Almaden + Univ. of Toronto), COMA/COMA++ (Univ. Leipzig, Rahm)

Repository

Graphical User Interface

Matching Engine (Fragment-based)

Model PoolExternal Schemas,Ontologies

Mapping Pool Exported Mappings

Resolution Library

Matcher Library

Combination Library

Model Manipulation

Mapping Manipulation

Source IdNameStructureContent

SOURCESource IdNameStructureContent

SOURCE

Object Rel IdSource Rel IdObject1 IdObject2 IdEvidence

OBJECT_ RELObject Rel IdSource Rel IdObject1 IdObject2 IdEvidence

OBJECT_ REL

n1

n1

11

n n n n1 1

Object IdSource IdAccessionTextNumber

OBJECTObject IdSource IdAccessionTextNumber

OBJECT

Source Rel IdSource1 IdSource2 IdType

SOURCE_ RELSource Rel IdSource1 IdSource2 IdType

SOURCE_ REL

Quelle: Aumüller, Do, Maßmann, Rahm: Schema and Ontology matching with COMA++. Proc. 24th SIGMOD Conf. 2005

SystemarchitekturCOMA++

Page 14: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

14

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Schema-Matching-Prozess

Iterativer Prozess bestehend aus verschiedenen Aktionen, Match, Kombination

Match Iteration

Matcher 1

Matcher 2

Matcher 3S2

S1

Matcher execution

Similarity combination

Similarity cubeMapping

{s11, s12, ...}

{s21, s22, ...}

Constituent resolution

Name, Leaves, NamePath, …

Aggregation, Direction, Selection, CombinedSim

Nodes, ...Paths, ...Fragments,...

Resolution Library

Matcher Library

Combination Library

Model Pool

s11↔s21s12↔s22s13↔s23

Mapping Manipulation

Edit, Diff, Intersect, Merge, MatchCompose, Compare, ...

Mapping Pool

Import, Load, Preprocess, ...

Model Manipulation

Quelle: Aumüller, Do, Maßmann, Rahm: Schema and Ontology matching with COMA++. Proc. 24th SIGMOD Conf. 2005

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Schemaintegration: Zusammenfassung

Schemaintegration: Erstellung eines globalen Schema mit Mappings zu den zu integrierenden Datenquellen

Teilprozess einer DatenintegrationVoraussetzung einer Instanzdatenintegration

Typen: Top-Down vs. Bottom-UpGroßes Spektrum an Forschungsprototypen für semi-automatisches Schema-Matching

Page 15: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

15

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Instanzdatenintegration

Instanzdatenintegration: Zusammenfügen der Daten aus den verschiedenen Datenquellen

Virtuell: zur Beantwortung einer AnfrageMaterialisiert: Prozess der Vorverarbeitung (ETL)

Basis: Schema-MappingsFormen

enge DB-Kopplung: Datenbank-Links, förderierteDBMSlose Kopplung: gesonderte Import-Routinen, ETL-Tools, ...

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Virtuelle Integration

Globales Schema mit Mappings zu den Quel-lenschemata (Metadaten)Transparenter Zugriff auf originale DatenquellenWrapper = quellenspe-zifische APIFormen

förderierte DBMSMediatoren

Vorteile / Nachteile

Anfrage q1 Anfrage qm

Applikationen

Anfrage q2

Meta-daten

Quelle 1 mit Schema S1

Quelle n mitSchema Sn

…Quelle 2 mit Schema S2

- komplexes Query-Mana-gement (Split der Query +Mischen / Transformationder Ergebnisdaten)

- Zugriff auf originale Daten-quellen zur Laufzeit

- oftmals Einsatz eines globalen Schemas

WrapperWrapperWrapper

Page 16: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

16

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Physische Integration

Globales Schema mit zen-traler DatenhaltungSeparate Extraktion, Transformation und Laden der DatenFormen

Data Warehouse mit mögl. zusätzl. Data-Mart-Schicht

Vorteile / Nachteile

Globales Schema?

Anfrage q1 Anfrage qm

Applikationen

Meta-daten

- redundante Speicherung der Instanzdaten (vorab)

- oftmals auf Basis eines globalen Schemas

Quelle 1 mit Schema S1

Quelle n mitSchema Sn

…Quelle 2 mit Schema S2

Zentrale Quelle mit Schema T

- Extraktion der Daten aus den originalen Quellen- Transformation in das Schema T- Laden (Import) der Daten in die zentrale Quelle

Anfrage q2

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

P2P-like Integration: Ein typisches Szenario

Gene Ontology

Protein-Annotationen für Gen X?

Local dataBiologische Prozesse für

mich interessierende Gene

SwissProt Ensembl

NetAffx

Bidirektionale Instanz-Mappings zwischen DatenquellenAnfragen an eine Datenquellen und deren Propagierung an relevante PeersEinfachere Hinzufügnug neuer Datenquellen

Unterstützung lokaler Datenquellen

Page 17: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

17

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Übergreifende Bewertung

Virtuelle Integration

-

+

+

o

-

o

Zur Laufzeit der Anfrage

A prioriMediatoren

o-(HW) Resourcen-anforderungen

+oAutonomie der Datenquellen

+oDatenaktualität

o+Unterstützung der Datenqualität

-+Analyse großer Datenmangen

o-Skalierbarkeit (#Datenquellen)

Zur Laufzeit der Anfrage

A prioriInstanzdatenintegration

Nicht zwingendA prioriSchemaintegrationPeer Data Mgmt

Physische I.(Warehouse)

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Instanzdatenintegration: Zusammenfassung

Unterteilung in virtuelle und physische Integration

Virtuell: Mediator-Systeme, förderierte DBMSPhysisch: Data Warehouse

Oftmals Nutzung eines globalen SchemasNeuere Ansätze: PDMS und P2P-like Integration

Ausnutzung vorhandener Instanzdaten-Mappings(bidirektionale Mappings)

Page 18: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

18

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Gliederung

1. Motivation2. Datencharakteristik3. Probleme und Anforderungen4. Ausgewählte Lösungskonzepte

a) Link-Factoriesb) Data-Warehouse-basierte Integrationc) Integration basierend auf der genomischen

Sequenzd) Integration durch Indexierung von Web-Quellene) Mapping-basierte Integration

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Web-Link = URL einer Datenquelle + ID (accessionnumber) des bio. ObjektsEinfacher Integrationsansatz

Wenig IntegrationsaufwandAber: Analysis eines Objekts zu einer Zeit

LinkDB: Sammlung von Web-Links zwischen verschie-denen Quellen

Verwaltung von quellenspezi-fischen Objektreferenzen (ID) und Instanz-MappingsKeine expliziten Mapping-Typen

Integration mit verfügbaren Web-Links

Page 19: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

19

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Distributed Annotation System (DAS)

Datenintergation auf Basis von GenomsequenzenIntegration verteilter Datenquellen

Client-/Server SystemarchitekturGenomserver: Primäre Quelle, die Zugriff auf die Sequenz eines Referenzgenoms hatAnnotation-Server: Kapselung von Quellen, die von speziellen Forschungsgruppen zur Verfügung gestellt werden

Annotation Viewer

Genome Server

Annotation Server 1

Genome DB

Annotation Server 2 Annotation Server n...

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Distributed Annotation System (DAS) II

Ausrichtung der Beschreibungen (Annotationen) an der Sequenz eines Referenzgenoms

Einfaches Hinzufügen neuer Quellen, aber dann meist für alle Benutzer sichtbarSequenzkoordinaten für Zugriff auf Annotationennotwendig: Spezies, Chromosom, Start-, Stoppposition, Richtung (strand)Skalierbarkeit (?)Problem: Neuberechnung aller Annotationen im Falle die zugrunde liegende Referenzsequenz ändert sich

Page 20: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

20

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

DAS: Anfrageformulierung + -ausführung

Anwendung: Integration von Annotationen in EnsemblAnfrageformulierung

Auswahl eines OrganismusIntervallanfragen: Welche Objekte gibt es auf einem Chromosom zwischen Position x und y

AnfrageausführungSenden der Intervallanfrage an zentralen Genom-Server und verteilte Annotation-ServerMischen der erhaltenen Ergebnisse

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

DAS: Anfrageformulierung + -ausführung II

ErgebnispräsentationSicht auf Genomsequenz mit zugeordneten Objekten und AnnotationenVerschiedene Detaillierungs-stufenDurchgriff aufverteilte Da-tenquellen

Page 21: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

21

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

EnsMart

Data-Warehouse-basierte DatenintegrationData Mart auf Basis von EnsemblGezielte Suche und Wiedergabe von

Ensembl-eigenen bio. Objekten: Gene, Transkripte und PolypetideAssoziierten AnnotationenReferenzierte biol. Objekte

Multidimensionales SchemaEnsembl-eigene bio. Objekte als "Fakten"Instanz-Mappings zu referenzierten Objekten als beschreibende Dimensionen

Spezies-spezifische Data Marts, die über Homologie-Mappings verbunden sind

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

EnsMart: Systemarchitektur*

*A. Kasprzyk et al.: EnsMart: A generic system for fast and flexible access to biological data.Genome Research, 14(1): 160-169, 2004.

Page 22: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

22

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

EnsMart – Schemaausschnitt*

*A. Kasprzyk et al.: EnsMart: A generic system for fast and flexible access to biological data.Genome Research, 14(1): 160-169, 2004.

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

EnsMart: Anfrageformulierung + -ausführung

Page 23: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

23

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

GenMapper*

Data-Warehouse-basierte DatenintegrationGenerisches Schema: GAM

Einheitliche Repräsentation von AnnotationsdatenFlexibilität bzgl. Heterogenität und Integration

Nutzung existierender Instanz-Mappings zwischen Objekten/QuellenHigh-level Operatoren zur Datenintegration und Anfrageformulierung / -verarbeitungSichtenkonzept: Annotation Views für spezifische Analyseanforderungen

*Do, H.H.; Rahm, E.: Flexible integration of molecular-biological annotation data: The GenMapper approach. Proc. 9th EDBT Conf., 2004

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

GenMapper: Systemarchitektur

NetAffx

GAMData Model

GAM-BasedAnnotation ManagementData Sources

LocusLink

Annotation Views

Application Integration

•Map•Compose•GenerateView•…

Map(Unigene, GO)

Dat

a In

tegr

atio

n

Dat

a A

cess

Unigene

Map(Affx, Unigene)

•Parse•Import

GO

Source IdNameTypeContent

SOURCESource IdNameTypeContent

SOURCE

Obj Rel IdSrc Rel IdObject1 IdObject2 IdEvidence

OBJECT_ RELObj Rel IdSrc Rel IdObject1 IdObject2 IdEvidence

OBJECT_ REL

n1

n1

11

n n n n1 1

Object IdSource IdAccessionTextNumber

OBJECTObject IdSource IdAccessionTextNumber

OBJECT

Src Rel IdSource1 IdSource2 IdType

SOURCE_ RELSrc Rel IdSource1 IdSource2 IdType

SOURCE_ REL

Page 24: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

24

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Generic Annotation Model (GAM)

Keine Unterscheidung zwischen Klassen und AttributenSources als Gruppierung von objects:

Repräsentation von Metadaten und InstanzdatenRepräsentation von Werten verschiedener Datentypen

Beziehungen auf Objekt und Quellenebene für verschiedene Semantik und Kardinalitäten

Source IdNameTypeContent

SOURCE

Obj Rel IdSrc Rel IdObject1 IdObject2 IdEvidence

OBJECT_ REL

n1

n1

11

n n n n1 1

Object IdSource IdAccessionTextNumber

OBJECT

Src Rel IdSource1 IdSource2 IdType

SOURCE_ REL

Underlined Primary keyLegends:

Italic Foreign key

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Annotationverwaltung mit GAM

Source: Öffentliche Quellen und VokabulareObject: Einträge einer Quelle oder Terme von VokabularenIntra-source Beziehungen

Beziehungen zwischen den Objekten einer Quelle: Hierarchie / NetzwerkBeziehungstypen: Is-a, Part-Of, …

Inter-source BeziehungenInstanz-Mappings zwischenöfentl. Quellen / OntologienBeziehungstypen: Fact, Similarity, Derived, ...

GO

Molecular Function

Biological Process

Cellular Component

LocusLink

GO OMIM

LocationSTS

Hugo

Page 25: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

25

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Source-Datenquelle

Eingabe der Objekte

Auswahl der Zieldatenquellen

(Visual) Annotation View

Anfrageformulierung und - verarbeitung

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Sequence Retrieval System (SRS)

Integration mittels Indexierung von DatenquellenEntwickelt am EMBL für den Zugriff auf biol. Objekte / SequenzdatenKommerziell erweiterte Version von BioWisdom (zuvor: Lion Bioscience)Datenintegration primär für dateibasierte Quellen, aber Erweiterungen für Zugriff auf RDBMS und Analysetools

Mapping-basierte Integration, kein globales SchemaLokale Installation der Quellen notwendig (Download!)Indexierung bzgl. Anfrageattribute von dateibasiertenQuellenDefinition von Hub-Tabellen und Anfrageattributen für Integration von relationalen Datenquellen

Page 26: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

26

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Sequence Retrieval System (SRS) II

Umfangreiche Wrapper-Bibliothek verfügbar für öffentliche Datenquellen

Proprietäre Wrapper-Sprache: IcarusKeine generischen Wrapper, z.B. zur Integration privater Datenquellen

Source: Lion BioScience

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

SRS: Anfrageformulierung + -verarbeitung

AnfrageformulierungSelektion der QuelleFilterspezifikation für Anfrageattribute

AnfragetypenSuchanfragenSelektionsanfragen fürnumerische und datums-basierte AttributeReguläre Ausdrücke

Automatische Übersetzung in SQL Anfragen für relatio-nale QuellenZusammensetzung der Teilergebnisse

Page 27: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

27

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

SRS: Anfrageformulierung + -verarbeitung

Explorative AnalyseTraversierung für ausgewählte Objekte entlang von Navigationspfaden (Instanz-Mappings)

Automatisch generierte Pfade zwischen den DatenquellenKürzeste Pfade (Dijkstra)Keine Beachtung von Pfad- und Mapping-SemantikKeine Joins, nur Graphtraversierung

ErgebnisseErgebnis = Menge von ObjektenKein explizites Mapping (Objektkorrespondenzen)

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

SRS: Anfrageformulierung + -verarbeitung

Page 28: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

28

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Hybride Integration von öffentl. Quellen*

Annotation AnalysisExpression AnalysisIdentification of relevant genes using annotation data

Identification of relevant genesusing experimental data

Expression (signal) valueP-Value…

Molecular functionGene locationProtein (product)Disease…

DWH+

Analysis Tools

gene /clone

groupsSRS

Gene annotation

Mapping-DB

Query-Mediator

*Kirsten, T; Do, H.-H.; Körner, C.; Rahm, E: Hybrid integration of molecular-biological annotation data.Proc. 2nd Intl. Workshop DILS, July 2005

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Mapping-Datenbank

Zentrale Idee: Sternartige Mapping-VerwaltungAusgewählte Datenquelle im ZentrumMapping als Verbindung zur zentralen QuelleExtraktion von direkten Mappings Vorberechnung von ausgewählten Mapping-Kompositionen

Unterstützung alternativer Mapping-Pfade

Mapping DB

LocusLink

NetAffxUniGene

GO

Ensembl

SwissProt …

Center_NetAffxCenter_IdNetAffx _AccessionPath_Id

Center_GeneOntologyCenter_IdGO_AccessionPath_Id

Center_SwissProtCenter_IdSwissProt _AccessionPath_Id

Center_EnsemblCenter_IdEnsembl_AccessionPath_Id

Center (LocusLink)Center_IdLocusLink_Accession

1

N

1N 1 N

Center_UniGeneCenter_IdUniGene _AccessionPath_Id

N1

Center_...Center_IdAccessionPath_Id

N1N

1

Page 29: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

29

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Systemarchitektur und Anfrageverarbeitung

Query Mediator

SRS Server

GeneOntology Ensembl LocusLink

Web Client

GeWare PlatformRead Metadata: DB, Attributes, Mappings

1

GUI-Generation 2

Query Spec.:Filter, Joins

3

Creation of SRS-Queries4

SRS-Query Processing6

SRS Call 5 Result Stream (XML)7

Transformation of the Result Stream8

Result Visualization9

Mapping-DB

ADM-DB

DWH

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Motivation für P2P-artige Datenintegration

"Einfache" Integration von neuen Datenquellen (neue Integrationsszenarios)

Vermeidung eines globalen SchemaWiederverwendung von verfügbaren Objekt-korrespondenzen (Mappings)Aber: Nutzung der Semantik von Objekten und Mappings

Beispiel: Klassifizierung DNA-Sequenzen

>S1CATTCTAAGAGACAAAGATAACTAAGA>S2CCCTATCAAAGTATCATTCAAGACTTA>S3CACTCACCTAAGTTAGTACAAATAACA>S4GAAAAGAAGGCGTGCCAACCTCCTCC…

My Sequences NCBIEnsembl UCSCGenomeBrowserDNA

Exon

Protein

DNA

Gen DNA

GenProtein

Lokale Datenquelle Öffentlich verfügbare Quelle

Page 30: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

30

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

BioFuice*: P2P-artige Datenintegration

Bioinformatics information fusion utilizing instancecorrespondences and peer mappingsBottom-up IntegrationHigh-level OperatorenP2P-artige Infrastruktur

Mappings zwischen autonomen Datenquellen (Peers)Mapping: Menge von Korrespondenzen zwischen ObjektenEinfach Integration neuer Datenquellen

MediatorSteuerung der Mapping- und OperatorausführungNutzung eines anwendungsspezifischen semantischenDomänenmodells

*Kirsten, T; Rahm, E: BioFuice: Mapping-based data integration in bioinformatics. Proc. 3rd Intl. Workshop DILS, July 2006

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Definitionen

Physische Datenquelle (PDS)Öffentliche, private und lokaleDaten (Genliste, …), OntologienBeinhalten ein oder mehrere logischeDatenquellen

Ensembl

Accession: ENSG00000121380Descr.: Apoptosis facilitator Bcl-2-like …Sequence region start position: 12115145Sequence region stop position: 12255214Biotype: protein codingConfidence: KNOWN

Gen@Ensembl

ObjektinstanzenMenge von relevanten AttributenEin ID-Attribut

Gen

Sequenz-regionExon

Logische Datenquelle (LDS)Bezieht sich auf einen Objekttypund eine physische Datenquelle,z.B. Gene@EnsemblBeinhaltet Objekte(-instanzen)

Page 31: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

31

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Metadatenmodelle

Verwendung durch Mediator zur Mapping- und OperatorausführungDomänenmodell stellt relevante Objekttypen undBeziehungen (=Mappingtypen) zwischen ihnen bereit

Source mapping model

LDS PDSmapping(same: )

Legend

Ensembl SwissProt

MySequences

NetAffx

EstD

naBl

ast.h

sa

Ensembl.SRegionExons

Ensembl.ExonGene

Ensembl.GeneProteins

Ensembl.sameNetAffxGenes

Domain model

Extraction

OrthologousGenes

SequenceRegion

Gene

Protein

RegionTouchedExons

codedProteins

SequenceSequenceCoordinates

ExonGeneOfExon

Sequence

SequenceRegion

Exon

Gene Gene

Protein

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Operatoren

Mengenorientierte OperatorenEingabe: Menge von Objekten/Mappings+ Parameter / BedingungenAusgabe: Menge resultierender Objekte

⇒ Kombination von Operatoren in SkriptenWorkflow-artige AusführungAusgewählte Operatoren:

Single source: queryInstances, searchInstances, …Navigation: traverse, map, compose, …Navigation + Aggregation: aggregate, aggregateTraverse, …Universell: diff, union, intersect, …

Page 32: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

32

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Beispielskript

SzenarioGegeben: Menge von Sequenzen in lokaler Datenquelle MySequencesGesucht: Drei Klassen: unaligned s., non-coding s., protein coding sequences

$alignedSeqMR := map( MySequences, { SeqDnaBlast } );$codingSeqMR := compose( $alignedSeqMR, { Ensembl.SRegionExons } );

$unalignedSeqOI := diff ( MySequences, domain ( $alignedSeqMR ));$protCodingSeqOI := domain ( $codingSeqMR );$nonCodingSeqOI := diff ( domain ( $alignedSeqMR ) , $protCodingSeqOI );

Ensembl

MySequences

Ensembl.SRegionExons

SeqDnaBlast

Sequenzregion

SequenzExon

LDS PDSmapping(same: )

Legend

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Aggregation

Assoziation und Fusionierung von Genbeschreibungen aus verschiedenen Datenquellen z.B. Ensembl undNetAffx

$GeneOI := traverse ( range ($codingSeqMR ), { Ensembl.ExonGenes });$fusedGeneAO := aggregateSame ( $GeneOI, NetAffx );

Ensembl

Ensembl.SRegionExons

Sequence Region

Exon

GeneEnsembl.ExonGenes

MySequences

Sequence

SeqDnaBlast

NetAffx

GeneEnsembl.sameNetAffxGenes

LDS PDSmapping(same: )

Legend

Page 33: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

33

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Aggregation II

Details – Attribute

Überblick – aggregierte Objekte (z.B. Gene)

Objektfusion

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

BioFuice Systemarchitektur

B i

o F

u i c

e

Generic MappingExecution Services

RelationalDatabase

XMLDatabase

XMLFile

XMLStream

Appli-cationi F

u i

c e

C o

r e

Web-Service

Fusion Control Unitand Repository

Mediator Interface

Mapping HandlerRepository Cache

responserequest

mapping callmapping call mapping result

Duplicate Detection

i F u i c e c o r e A P I

Mapping Layer Mappings retrieving data of a single LDS but also interconnecting different LDS

UserInterface

Script Editor

Model-basedQueries

Query ManagerQueryTransformation

Queryspecification

Queryresult

Pre-definedQueries

B i

o F

u i c

e

Q u

e r

y

R i

F u

i c e

KeywordSearch

C o

m m

a n

d l

i n e

I n t

e r f

a c

eFunction library for• Setting and retrieval of

iFuice objects• Execution of iFuice

Scripts• Metadata settings and

retrieval

CSV ExportB i o F u i c e b a s e FASTA ExportiFuice Connector

iFuice-Script MetadataScript result / Data transfer

XML Export

Page 34: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

34

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Zusammenfassung

Web-link Integration: Einfach und fokussiert auf explorative Analyse

keine gesonderte Anfrageformulierung und -verarbei-tungDAS: Integration unter Bezugnahme auf die Sequenz eines Referenzgenoms

Einfaches Hinzufügen neuer QuellenAnfragen unter Nutzung von Genomlokationen anstatt von Annotationsattributen

SRS: Indizierung von WebquellenGroße Bibliothek von Wrappern; proprietäre Sprache (ICARUS)Erstellung von lokalen Indizes von Datenquellen und anfragbaren Attributen

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Zusammenfassung II

Hybride IntegrationPhysische Speicherung von Mappings zwischen den Datenquellen in einer zentralen DatenbankVirtuelle Integration von Annotationsquellen

P2P-artige Integration: BioFuiceEinfache Integration von neuen Datenquellen durch Wiederverwendung von Instanz-MappingsSemantik von Objekten und Mappings in zwei getrennten Metadaten ModellenHigh-level Operatoren zur Anfrage- und Mapping-Ausfüh-rung

Page 35: Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2. Datencharakteristik 3. Probleme und Anforderungen 4. Ausgewählte Lösungskonzepte

35

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Noch Fragen?