Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2....

1

Sommersemester 2010

Dr. Kirstenhttp://dbs.uni-leipzig.de

Universität LeipzigInstitut für Informatik

Datenbanken in der Bioinformatik

Kapitel 8Datenintegration- Ansätze und Systeme -

Sommersemester 2010Dr. Kirsten

Vorlesung BiodatenbankenUniversität Leipzig

Inhaltsverzeichnis

1. Grundlagen2. Klassifizierung von BioDB, Überblick3. Spezialanwendungen4. Datenmodelle und Anfragesprachen5. Modellierungsalternativen6. Versionierung von Datenbeständen7. Annotationskonzept8. Datenintegration: Ansätze und Systeme9. Matching: Ontologien, Schema, Objekte10. Scientific Computing

2



Gliederung: KontextBeschreibung des Unter-suchungsgegenstandes

Beschreibung des experimentellen Designs und Prozesses

experimentelleMetadaten

experimentelle Daten

Experiment

Analyse

Analysergebnisse

Interpretation und Ergebnispräsentation

Datenintegration

private und öffentlich zugängliche Datenzur Beschreibungen von Genen

Gewebeprobe / selektierte Zelle Hypothese



Lernziele

Verstehen und Begreifen von generellen Ansätzen zur Datenintegration

Anwendung in Abhängigkeit von Kontext und DatenBeurteilung der Ansätze

Kennen von speziellen Datenintegration-lösungen sowie deren Verwendung

3



Gliederung

1. Motivation2. Datencharakteristik3. Probleme und Anforderungen4. Ausgewählte Lösungskonzepte

a) Link-Factoriesb) Data-Warehouse-basierte Integrationc) Integration basierend auf der genomischen

Sequenzd) Integration durch Indexierung von Web-Quellene) Mapping-basierte Integration



Problembereich: Datenintegration

Aufgabenspektrum:Klinische Daten

z.B. Patientendaten

Daten über biol. Objekte,z.B. Gene, Proteine

• Selektion von interessanten Daten,• übergreifenden Datenanalyse und • Interpretation von Analyseergebnissen

Experimentelle Datenz.B. Microarray-Daten

...

Differentiell exprimierte STAT3 Gene beimalignen Lymphomen von Patienten,

die älter als 50 Jahre sind?

4



Verschiedene Arten von AnalysenAnalyse von Sequenzdaten (z.B. multiple alignments)Identifikation von TranskriptionsfaktorbindungsstellenGenexpressionsanalyseTranskriptionsanalyse, z.B. ENCODE Projekt (http://www.genome.gov/ENCODE)Functional profilingPathway Analyse und Rekonstruktion

Viele heterogene DatenquellenExperimentdaten, z.B. von Chip-basierten TechnikenExperimentbeschreibung (Metadaten eines Experiments)Klinische DatenViele miteinander verbundene Webdatenquellen und OntologienPrivate vs. öffentliche Daten

Motivation



Datenintegration

Datenintegration = InformationsintegrationKorrekte, vollständige und effizienteZusammenführung von Daten und Inhalt verschiedener, heterogener Quellen zu einer einheitlichen und strukturierten Infomenge zur effektiven Interpretation durch Nutzer und Anwendungen*= Zusammenfügung von Metadaten und Instanzdaten

*Leser, Naumann: Informationsintegration, dpunkt.verlag, 2007.

5



Datenintegration

Ziel: Mehrwert, der sich mit der Kombination von Daten ergibt

bessere Ergebnisse = umfassender, qualitativ hochwertiger, abgesicherterAnfragen, die nur von Daten mehrerer Datenquellen beantwortet werden können

Anfrage

RDBMS XML-DBMS

Integrationssystem

Dateien Web-Daten Anwendungen



Probleme bei einer Datenintegration

Komplexe Fragestellungen Nutzung vieler verschiedener DatenquellenWeite Verteilung der DatenHohe RedundanzHeterogenität der Datenquellen bzgl.

SyntaxSchema/StrukturSemantikSchnittstellen

Evolution von Daten und Schemata

6



Verteilung, Autonomie, Heterogenität*

Architekturraum durch drei orthogonale AspekteVerteilung: physisch, logischAutonomie, zB bzgl. Design, Schnittstellen, Evolution, Zugriff, ...Heterogenität

*Leser/Naumann: Informationsintegration, dpunkt.verlag, 2007, S. 49ff

homogene, zentrale DBverteilte DBverteilte heterogene DBverteilte autonome DBverteilt, heterogen, autonomAutonomie

Verteilung

Heterogenität



Architekturvarianten im Überblick

Monolithische DatenbankenFörderierte DatenbankenMediator-basierte SystemePeer-Daten-Management-Systeme

SuchmaschinenPortale

...

7



Bio-Datenquellen

OMIM

GO

Gen-Bank

Locus-Link

SMD

Molecular-biological objects

SequenceGenePhenotype Gene Expression

Peptide NucleotideDisease Function

Protein Pathway

SCOPGene-Cards

Publication

PubMedUni-Gene

Swiss-Prot

InterPro

KEGGHUGO

Enzyme

LegendsObject classificationObject classification Source classificationSource classification Source cross-referenceSource cross-reference

WWW: >500 public data sources



Verschiedener Arten von Webdatenquellen

Genomdatenquellen: Ensembl, NCBI Entrez, UCSC Genome Browser, ...

Objekte: Gene, Transkripte, Proteine etc. verschiedener Spezies

Objektspezifische DatequellenProteine: UniProt (SwissProt, Trembl), Protein Data Bank (PDB), ...Proteininteraktionen: BIND, MINT, DIP, ...Gene: HUGO (standardisierte Gensymbole für humanes Genom), MGD, ...Pathways: KEGG (metabolische & regulatorische Pathways), GenMAPP, ......

8



Verschiedener Arten von Webdatenquellen II

Publikationsquellen: Medline / Pubmed (>16 MioEinträge)Ontologien

Verwendung zur einheitlichen und semantischen Beschreibung von Eigenschaften biol. ObjekteKontrollierte Vokabulare zur Reduzierung terminologischer VariationenPopuläre Bespiele : Molekulare Funktionen, Biologische Prozesse, Zelluläre Komponenten (Gene Ontology)Ontologie-Sammlung: Open Biomedical Ontologies (OBO)



Enzyme

GeneOntology

OMIMUniGeneKEGG

} Referenzenzu anderenDatenquellen

Quellenspezifische ID (accession)

Annotation:Namen, Symbole,Synonyme, etc.

}

Problem: Oftmals keine explizite Mapping-SemantikGen Gen: Orthologe Gene vs. Paraloge GeneGen GO Annotation: MF vs. BP vs. CC

Annotationsdaten vs. Mapping-Daten

Beispiel: Webdaten mit Referenzen

9



HeterogenitätSchemaSyntax (Format)Semantik

Viele, hochverbundeneDatenquellen und Ontol.

Häufige ÄnderungenDatenSchema und FormateSchnittstellen

Unvollständige QuellenForschung #TupelZielstellung der Quelle: Spezifische Attribute

Überlappende Quellen

Verteilte molekularbiologische Daten



Dateibasierte Datenformate

Populäre DateiformateFlat files (Genexpressionsmatrix) Entry-basiertes FormatFASTA: SequenzdatenGenBankASN.1 (Abstract Syntax Notation One)Verschiedene XML-basierte Formate

ProblemeImplizites Wissen über Attribute (Semantik)Mehrfache Werte eines Attributs in einem Eintrag ohne einheitliches TrennzeichenVerwendung des 'comment' Attributs für weitere AttributwerteVerschiedene Separatoren innerhalb einer Datei

>3198; HOXA1actgattacattggtacatgata ...>696226; HOXB3gtagctagcgatccatgatcag ...>...

FASTA

ID 3198DE homeobox A1SB HOXA1SQ actgattacattggtacatgata ......

Entry-based

10



Zusammenfassung: Datencharakteristik

Viele verschiedene Datenquellen mit unterschiedlichem FokusHohe Konnektivität: Instanz-Mappings zwischen quellenspezifischen ObjektenMapping vs. AnnotationsdatenHauptsächlich Heterogenität als Integrationsbarriere



Datenintegration

Zwei orthogonale Aspekte:SchemaintegrationInstanzdatenintegration

Anfrage

RDBMS XML-DBMS

Integrationssystem

Dateien Web-Daten

11



Schemaintegration

Schemaintegration = MetadatenintegrationZiel: Erstellung einer 'homogenisierten Sicht' (globales Schema) auf die zu integrierenden DatenquellenGlobales Schema:

Enthält alle relevanten Schemaelemente der zu integrierenden DatenquellenSchema-Mappings zwischen globalem und Quellenschemata

Globales Schema SG

Quellenschema S1 Quellenschema S2 Quellenschema Sn...

M1: S1 x SG M2: S2 x SG Mn: Sn x SG



Schema-Mapping

Entstehung durch Schema-Matching (Prozess)Eingabe: Schemata Source, Target ∈ S1,...,n, AlgorithmusAusgabe: Schema-Mapping M: S x T

Eigenschaften des Mapping:bidirektional Semantik: oftmals ÄquivalenzrelationSuche nach 1:1 Beziehung zwischen den Elementen (aber nicht immer möglich: Name ↔ Vorname, Nachname)vielfach weder injektiv noch surjektiv (und damit auch nicht bijektiv)Problem: Transformationen, zB Aggregation von Daten

12



Top-Down vs. Bottom-Up

Globales Schema

Schemata der Quellen

Bottom-Up-IntegrationTop-Down-Integration

T

S1 S2 Sn…

T

S1 S2 Sn…

Schemaintegration

Match(S1,S2) Match(S2,Sn)Bildung des

globalen SchemaZuordnung zum

globalen SchemaMatch(S1,T) Match(S2,T) Match(Sn,T)

SchemaintegrationSchemaintegration durch



Schema Matching: Beispiel

Spezialfall: Mapping zwischen zwei Versionen eines Schema (KEGG Markup Language)

Wenige aber bedeutende ÄnderungenGesucht: Abbildung zwischen denbeiden Schema-Versionen

Grundlage einer Trans-formation der Instanz-daten

KGML 0.1

KGML 0.6.1

Informationsreduktion

Informationserweiterung

13



Schema Matching: Beispiel cont.

Ergebnis: Mapping zwischen den zwei KGML Schemaversionen



Schema-Matching: Forschungsprototypen

Viele Prototypen verfügbar, zB Cupid (Univ. of Washington), Clio (IBM Almaden + Univ. of Toronto), COMA/COMA++ (Univ. Leipzig, Rahm)

Repository

Graphical User Interface

Matching Engine (Fragment-based)

Model PoolExternal Schemas,Ontologies

Mapping Pool Exported Mappings

Resolution Library

Matcher Library

Combination Library

Model Manipulation

Mapping Manipulation

Source IdNameStructureContent

SOURCESource IdNameStructureContent

SOURCE

Object Rel IdSource Rel IdObject1 IdObject2 IdEvidence

OBJECT_ RELObject Rel IdSource Rel IdObject1 IdObject2 IdEvidence

OBJECT_ REL

n1

n1

11

n n n n1 1

Object IdSource IdAccessionTextNumber

OBJECTObject IdSource IdAccessionTextNumber

OBJECT

Source Rel IdSource1 IdSource2 IdType

SOURCE_ RELSource Rel IdSource1 IdSource2 IdType

SOURCE_ REL

Quelle: Aumüller, Do, Maßmann, Rahm: Schema and Ontology matching with COMA++. Proc. 24th SIGMOD Conf. 2005

SystemarchitekturCOMA++

14



Schema-Matching-Prozess

Iterativer Prozess bestehend aus verschiedenen Aktionen, Match, Kombination

Match Iteration

Matcher 1

Matcher 2

Matcher 3S2

S1

Matcher execution

Similarity combination

Similarity cubeMapping

{s11, s12, ...}

{s21, s22, ...}

Constituent resolution

Name, Leaves, NamePath, …

Aggregation, Direction, Selection, CombinedSim

Nodes, ...Paths, ...Fragments,...

Resolution Library

Matcher Library

Combination Library

Model Pool

s11↔s21s12↔s22s13↔s23

Mapping Manipulation

Edit, Diff, Intersect, Merge, MatchCompose, Compare, ...

Mapping Pool

Import, Load, Preprocess, ...

Model Manipulation

Quelle: Aumüller, Do, Maßmann, Rahm: Schema and Ontology matching with COMA++. Proc. 24th SIGMOD Conf. 2005



Schemaintegration: Zusammenfassung

Schemaintegration: Erstellung eines globalen Schema mit Mappings zu den zu integrierenden Datenquellen

Teilprozess einer DatenintegrationVoraussetzung einer Instanzdatenintegration

Typen: Top-Down vs. Bottom-UpGroßes Spektrum an Forschungsprototypen für semi-automatisches Schema-Matching

15



Instanzdatenintegration

Instanzdatenintegration: Zusammenfügen der Daten aus den verschiedenen Datenquellen

Virtuell: zur Beantwortung einer AnfrageMaterialisiert: Prozess der Vorverarbeitung (ETL)

Basis: Schema-MappingsFormen

enge DB-Kopplung: Datenbank-Links, förderierteDBMSlose Kopplung: gesonderte Import-Routinen, ETL-Tools, ...



Virtuelle Integration

Globales Schema mit Mappings zu den Quel-lenschemata (Metadaten)Transparenter Zugriff auf originale DatenquellenWrapper = quellenspe-zifische APIFormen

förderierte DBMSMediatoren

Vorteile / Nachteile

Anfrage q1 Anfrage qm

Applikationen

Anfrage q2

Meta-daten

Quelle 1 mit Schema S1

Quelle n mitSchema Sn

…Quelle 2 mit Schema S2

- komplexes Query-Mana-gement (Split der Query +Mischen / Transformationder Ergebnisdaten)

- Zugriff auf originale Daten-quellen zur Laufzeit

- oftmals Einsatz eines globalen Schemas

WrapperWrapperWrapper

16



Physische Integration

Globales Schema mit zen-traler DatenhaltungSeparate Extraktion, Transformation und Laden der DatenFormen

Data Warehouse mit mögl. zusätzl. Data-Mart-Schicht

Vorteile / Nachteile

Globales Schema?

Anfrage q1 Anfrage qm

Applikationen

Meta-daten

- redundante Speicherung der Instanzdaten (vorab)

- oftmals auf Basis eines globalen Schemas

Quelle 1 mit Schema S1

Quelle n mitSchema Sn

…Quelle 2 mit Schema S2

Zentrale Quelle mit Schema T

- Extraktion der Daten aus den originalen Quellen- Transformation in das Schema T- Laden (Import) der Daten in die zentrale Quelle

Anfrage q2



P2P-like Integration: Ein typisches Szenario

Gene Ontology

Protein-Annotationen für Gen X?

Local dataBiologische Prozesse für

mich interessierende Gene

SwissProt Ensembl

NetAffx

Bidirektionale Instanz-Mappings zwischen DatenquellenAnfragen an eine Datenquellen und deren Propagierung an relevante PeersEinfachere Hinzufügnug neuer Datenquellen

Unterstützung lokaler Datenquellen

17



Übergreifende Bewertung

Virtuelle Integration

-

+

+

o

-

o

Zur Laufzeit der Anfrage

A prioriMediatoren

o-(HW) Resourcen-anforderungen

+oAutonomie der Datenquellen

+oDatenaktualität

o+Unterstützung der Datenqualität

-+Analyse großer Datenmangen

o-Skalierbarkeit (#Datenquellen)

Zur Laufzeit der Anfrage

A prioriInstanzdatenintegration

Nicht zwingendA prioriSchemaintegrationPeer Data Mgmt

Physische I.(Warehouse)



Instanzdatenintegration: Zusammenfassung

Unterteilung in virtuelle und physische Integration

Virtuell: Mediator-Systeme, förderierte DBMSPhysisch: Data Warehouse

Oftmals Nutzung eines globalen SchemasNeuere Ansätze: PDMS und P2P-like Integration

Ausnutzung vorhandener Instanzdaten-Mappings(bidirektionale Mappings)

18



Gliederung

1. Motivation2. Datencharakteristik3. Probleme und Anforderungen4. Ausgewählte Lösungskonzepte

a) Link-Factoriesb) Data-Warehouse-basierte Integrationc) Integration basierend auf der genomischen

Sequenzd) Integration durch Indexierung von Web-Quellene) Mapping-basierte Integration



Web-Link = URL einer Datenquelle + ID (accessionnumber) des bio. ObjektsEinfacher Integrationsansatz

Wenig IntegrationsaufwandAber: Analysis eines Objekts zu einer Zeit

LinkDB: Sammlung von Web-Links zwischen verschie-denen Quellen

Verwaltung von quellenspezi-fischen Objektreferenzen (ID) und Instanz-MappingsKeine expliziten Mapping-Typen

Integration mit verfügbaren Web-Links

19



Distributed Annotation System (DAS)

Datenintergation auf Basis von GenomsequenzenIntegration verteilter Datenquellen

Client-/Server SystemarchitekturGenomserver: Primäre Quelle, die Zugriff auf die Sequenz eines Referenzgenoms hatAnnotation-Server: Kapselung von Quellen, die von speziellen Forschungsgruppen zur Verfügung gestellt werden

Annotation Viewer

Genome Server

Annotation Server 1

Genome DB

Annotation Server 2 Annotation Server n...



Distributed Annotation System (DAS) II

Ausrichtung der Beschreibungen (Annotationen) an der Sequenz eines Referenzgenoms

Einfaches Hinzufügen neuer Quellen, aber dann meist für alle Benutzer sichtbarSequenzkoordinaten für Zugriff auf Annotationennotwendig: Spezies, Chromosom, Start-, Stoppposition, Richtung (strand)Skalierbarkeit (?)Problem: Neuberechnung aller Annotationen im Falle die zugrunde liegende Referenzsequenz ändert sich

20



DAS: Anfrageformulierung + -ausführung

Anwendung: Integration von Annotationen in EnsemblAnfrageformulierung

Auswahl eines OrganismusIntervallanfragen: Welche Objekte gibt es auf einem Chromosom zwischen Position x und y

AnfrageausführungSenden der Intervallanfrage an zentralen Genom-Server und verteilte Annotation-ServerMischen der erhaltenen Ergebnisse



DAS: Anfrageformulierung + -ausführung II

ErgebnispräsentationSicht auf Genomsequenz mit zugeordneten Objekten und AnnotationenVerschiedene Detaillierungs-stufenDurchgriff aufverteilte Da-tenquellen

21



EnsMart

Data-Warehouse-basierte DatenintegrationData Mart auf Basis von EnsemblGezielte Suche und Wiedergabe von

Ensembl-eigenen bio. Objekten: Gene, Transkripte und PolypetideAssoziierten AnnotationenReferenzierte biol. Objekte

Multidimensionales SchemaEnsembl-eigene bio. Objekte als "Fakten"Instanz-Mappings zu referenzierten Objekten als beschreibende Dimensionen

Spezies-spezifische Data Marts, die über Homologie-Mappings verbunden sind



EnsMart: Systemarchitektur*

*A. Kasprzyk et al.: EnsMart: A generic system for fast and flexible access to biological data.Genome Research, 14(1): 160-169, 2004.

22



EnsMart – Schemaausschnitt*

*A. Kasprzyk et al.: EnsMart: A generic system for fast and flexible access to biological data.Genome Research, 14(1): 160-169, 2004.



EnsMart: Anfrageformulierung + -ausführung

23



GenMapper*

Data-Warehouse-basierte DatenintegrationGenerisches Schema: GAM

Einheitliche Repräsentation von AnnotationsdatenFlexibilität bzgl. Heterogenität und Integration

Nutzung existierender Instanz-Mappings zwischen Objekten/QuellenHigh-level Operatoren zur Datenintegration und Anfrageformulierung / -verarbeitungSichtenkonzept: Annotation Views für spezifische Analyseanforderungen

*Do, H.H.; Rahm, E.: Flexible integration of molecular-biological annotation data: The GenMapper approach. Proc. 9th EDBT Conf., 2004



GenMapper: Systemarchitektur

NetAffx

GAMData Model

GAM-BasedAnnotation ManagementData Sources

LocusLink

Annotation Views

Application Integration

•Map•Compose•GenerateView•…

Map(Unigene, GO)

Dat

a In

tegr

atio

n

Dat

a A

cess

Unigene

Map(Affx, Unigene)

•Parse•Import

GO

Source IdNameTypeContent

SOURCESource IdNameTypeContent

SOURCE

Obj Rel IdSrc Rel IdObject1 IdObject2 IdEvidence

OBJECT_ RELObj Rel IdSrc Rel IdObject1 IdObject2 IdEvidence

OBJECT_ REL

n1

n1

11

n n n n1 1


OBJECTObject IdSource IdAccessionTextNumber

OBJECT

Src Rel IdSource1 IdSource2 IdType

SOURCE_ RELSrc Rel IdSource1 IdSource2 IdType

SOURCE_ REL

24



Generic Annotation Model (GAM)

Keine Unterscheidung zwischen Klassen und AttributenSources als Gruppierung von objects:

Repräsentation von Metadaten und InstanzdatenRepräsentation von Werten verschiedener Datentypen

Beziehungen auf Objekt und Quellenebene für verschiedene Semantik und Kardinalitäten

Source IdNameTypeContent

SOURCE

Obj Rel IdSrc Rel IdObject1 IdObject2 IdEvidence

OBJECT_ REL

n1

n1

11

n n n n1 1


OBJECT

Src Rel IdSource1 IdSource2 IdType

SOURCE_ REL

Underlined Primary keyLegends:

Italic Foreign key



Annotationverwaltung mit GAM

Source: Öffentliche Quellen und VokabulareObject: Einträge einer Quelle oder Terme von VokabularenIntra-source Beziehungen

Beziehungen zwischen den Objekten einer Quelle: Hierarchie / NetzwerkBeziehungstypen: Is-a, Part-Of, …

Inter-source BeziehungenInstanz-Mappings zwischenöfentl. Quellen / OntologienBeziehungstypen: Fact, Similarity, Derived, ...

GO

Molecular Function

Biological Process

Cellular Component

LocusLink

GO OMIM

LocationSTS

Hugo

25



Source-Datenquelle

Eingabe der Objekte

Auswahl der Zieldatenquellen

(Visual) Annotation View

Anfrageformulierung und - verarbeitung



Sequence Retrieval System (SRS)

Integration mittels Indexierung von DatenquellenEntwickelt am EMBL für den Zugriff auf biol. Objekte / SequenzdatenKommerziell erweiterte Version von BioWisdom (zuvor: Lion Bioscience)Datenintegration primär für dateibasierte Quellen, aber Erweiterungen für Zugriff auf RDBMS und Analysetools

Mapping-basierte Integration, kein globales SchemaLokale Installation der Quellen notwendig (Download!)Indexierung bzgl. Anfrageattribute von dateibasiertenQuellenDefinition von Hub-Tabellen und Anfrageattributen für Integration von relationalen Datenquellen

26



Sequence Retrieval System (SRS) II

Umfangreiche Wrapper-Bibliothek verfügbar für öffentliche Datenquellen

Proprietäre Wrapper-Sprache: IcarusKeine generischen Wrapper, z.B. zur Integration privater Datenquellen

Source: Lion BioScience



SRS: Anfrageformulierung + -verarbeitung

AnfrageformulierungSelektion der QuelleFilterspezifikation für Anfrageattribute

AnfragetypenSuchanfragenSelektionsanfragen fürnumerische und datums-basierte AttributeReguläre Ausdrücke

Automatische Übersetzung in SQL Anfragen für relatio-nale QuellenZusammensetzung der Teilergebnisse

27




Explorative AnalyseTraversierung für ausgewählte Objekte entlang von Navigationspfaden (Instanz-Mappings)

Automatisch generierte Pfade zwischen den DatenquellenKürzeste Pfade (Dijkstra)Keine Beachtung von Pfad- und Mapping-SemantikKeine Joins, nur Graphtraversierung

ErgebnisseErgebnis = Menge von ObjektenKein explizites Mapping (Objektkorrespondenzen)




28



Hybride Integration von öffentl. Quellen*

Annotation AnalysisExpression AnalysisIdentification of relevant genes using annotation data

Identification of relevant genesusing experimental data

Expression (signal) valueP-Value…

Molecular functionGene locationProtein (product)Disease…

DWH+

Analysis Tools

gene /clone

groupsSRS

Gene annotation

Mapping-DB

Query-Mediator

*Kirsten, T; Do, H.-H.; Körner, C.; Rahm, E: Hybrid integration of molecular-biological annotation data.Proc. 2nd Intl. Workshop DILS, July 2005



Mapping-Datenbank

Zentrale Idee: Sternartige Mapping-VerwaltungAusgewählte Datenquelle im ZentrumMapping als Verbindung zur zentralen QuelleExtraktion von direkten Mappings Vorberechnung von ausgewählten Mapping-Kompositionen

Unterstützung alternativer Mapping-Pfade

Mapping DB

LocusLink

NetAffxUniGene

GO

Ensembl

SwissProt …

Center_NetAffxCenter_IdNetAffx _AccessionPath_Id

Center_GeneOntologyCenter_IdGO_AccessionPath_Id

Center_SwissProtCenter_IdSwissProt _AccessionPath_Id

Center_EnsemblCenter_IdEnsembl_AccessionPath_Id

Center (LocusLink)Center_IdLocusLink_Accession

1

N

1N 1 N

Center_UniGeneCenter_IdUniGene _AccessionPath_Id

N1

Center_...Center_IdAccessionPath_Id

N1N

1

29



Systemarchitektur und Anfrageverarbeitung

Query Mediator

SRS Server

GeneOntology Ensembl LocusLink

Web Client

GeWare PlatformRead Metadata: DB, Attributes, Mappings

1

GUI-Generation 2

Query Spec.:Filter, Joins

3

Creation of SRS-Queries4

SRS-Query Processing6

SRS Call 5 Result Stream (XML)7

Transformation of the Result Stream8

Result Visualization9

Mapping-DB

ADM-DB

DWH



Motivation für P2P-artige Datenintegration

"Einfache" Integration von neuen Datenquellen (neue Integrationsszenarios)

Vermeidung eines globalen SchemaWiederverwendung von verfügbaren Objekt-korrespondenzen (Mappings)Aber: Nutzung der Semantik von Objekten und Mappings

Beispiel: Klassifizierung DNA-Sequenzen

>S1CATTCTAAGAGACAAAGATAACTAAGA>S2CCCTATCAAAGTATCATTCAAGACTTA>S3CACTCACCTAAGTTAGTACAAATAACA>S4GAAAAGAAGGCGTGCCAACCTCCTCC…

My Sequences NCBIEnsembl UCSCGenomeBrowserDNA

Exon

Protein

DNA

Gen DNA

GenProtein

Lokale Datenquelle Öffentlich verfügbare Quelle

30



BioFuice*: P2P-artige Datenintegration

Bioinformatics information fusion utilizing instancecorrespondences and peer mappingsBottom-up IntegrationHigh-level OperatorenP2P-artige Infrastruktur

Mappings zwischen autonomen Datenquellen (Peers)Mapping: Menge von Korrespondenzen zwischen ObjektenEinfach Integration neuer Datenquellen

MediatorSteuerung der Mapping- und OperatorausführungNutzung eines anwendungsspezifischen semantischenDomänenmodells

*Kirsten, T; Rahm, E: BioFuice: Mapping-based data integration in bioinformatics. Proc. 3rd Intl. Workshop DILS, July 2006



Definitionen

Physische Datenquelle (PDS)Öffentliche, private und lokaleDaten (Genliste, …), OntologienBeinhalten ein oder mehrere logischeDatenquellen

Ensembl

Accession: ENSG00000121380Descr.: Apoptosis facilitator Bcl-2-like …Sequence region start position: 12115145Sequence region stop position: 12255214Biotype: protein codingConfidence: KNOWN

Gen@Ensembl

ObjektinstanzenMenge von relevanten AttributenEin ID-Attribut

Gen

Sequenz-regionExon

Logische Datenquelle (LDS)Bezieht sich auf einen Objekttypund eine physische Datenquelle,z.B. Gene@EnsemblBeinhaltet Objekte(-instanzen)

31



Metadatenmodelle

Verwendung durch Mediator zur Mapping- und OperatorausführungDomänenmodell stellt relevante Objekttypen undBeziehungen (=Mappingtypen) zwischen ihnen bereit

Source mapping model

LDS PDSmapping(same: )

Legend

Ensembl SwissProt

MySequences

NetAffx

EstD

naBl

ast.h

sa

Ensembl.SRegionExons

Ensembl.ExonGene

Ensembl.GeneProteins

Ensembl.sameNetAffxGenes

Domain model

Extraction

OrthologousGenes

SequenceRegion

Gene

Protein

RegionTouchedExons

codedProteins

SequenceSequenceCoordinates

ExonGeneOfExon

Sequence

SequenceRegion

Exon

Gene Gene

Protein



Operatoren

Mengenorientierte OperatorenEingabe: Menge von Objekten/Mappings+ Parameter / BedingungenAusgabe: Menge resultierender Objekte

⇒ Kombination von Operatoren in SkriptenWorkflow-artige AusführungAusgewählte Operatoren:

Single source: queryInstances, searchInstances, …Navigation: traverse, map, compose, …Navigation + Aggregation: aggregate, aggregateTraverse, …Universell: diff, union, intersect, …

32



Beispielskript

SzenarioGegeben: Menge von Sequenzen in lokaler Datenquelle MySequencesGesucht: Drei Klassen: unaligned s., non-coding s., protein coding sequences

$alignedSeqMR := map( MySequences, { SeqDnaBlast } );$codingSeqMR := compose( $alignedSeqMR, { Ensembl.SRegionExons } );

$unalignedSeqOI := diff ( MySequences, domain ( $alignedSeqMR ));$protCodingSeqOI := domain ( $codingSeqMR );$nonCodingSeqOI := diff ( domain ( $alignedSeqMR ) , $protCodingSeqOI );

Ensembl

MySequences


SeqDnaBlast

Sequenzregion

SequenzExon


Legend



Aggregation

Assoziation und Fusionierung von Genbeschreibungen aus verschiedenen Datenquellen z.B. Ensembl undNetAffx

$GeneOI := traverse ( range ($codingSeqMR ), { Ensembl.ExonGenes });$fusedGeneAO := aggregateSame ( $GeneOI, NetAffx );

Ensembl


Sequence Region

Exon

GeneEnsembl.ExonGenes

MySequences

Sequence

SeqDnaBlast

NetAffx

GeneEnsembl.sameNetAffxGenes


Legend

33



Aggregation II

Details – Attribute

Überblick – aggregierte Objekte (z.B. Gene)

Objektfusion



BioFuice Systemarchitektur

B i

o F

u i c

e

Generic MappingExecution Services

RelationalDatabase

XMLDatabase

XMLFile

XMLStream

Appli-cationi F

u i

c e

C o

r e

Web-Service

Fusion Control Unitand Repository

Mediator Interface

Mapping HandlerRepository Cache

responserequest

mapping callmapping call mapping result

Duplicate Detection

i F u i c e c o r e A P I

Mapping Layer Mappings retrieving data of a single LDS but also interconnecting different LDS

UserInterface

Script Editor

Model-basedQueries

Query ManagerQueryTransformation

Queryspecification

Queryresult

Pre-definedQueries

B i

o F

u i c

e

Q u

e r

y

R i

F u

i c e

KeywordSearch

C o

m m

a n

d l

i n e

I n t

e r f

a c

eFunction library for• Setting and retrieval of

iFuice objects• Execution of iFuice

Scripts• Metadata settings and

retrieval

CSV ExportB i o F u i c e b a s e FASTA ExportiFuice Connector

iFuice-Script MetadataScript result / Data transfer

XML Export

34



Zusammenfassung

Web-link Integration: Einfach und fokussiert auf explorative Analyse

keine gesonderte Anfrageformulierung und -verarbei-tungDAS: Integration unter Bezugnahme auf die Sequenz eines Referenzgenoms

Einfaches Hinzufügen neuer QuellenAnfragen unter Nutzung von Genomlokationen anstatt von Annotationsattributen

SRS: Indizierung von WebquellenGroße Bibliothek von Wrappern; proprietäre Sprache (ICARUS)Erstellung von lokalen Indizes von Datenquellen und anfragbaren Attributen



Zusammenfassung II

Hybride IntegrationPhysische Speicherung von Mappings zwischen den Datenquellen in einer zentralen DatenbankVirtuelle Integration von Annotationsquellen

P2P-artige Integration: BioFuiceEinfache Integration von neuen Datenquellen durch Wiederverwendung von Instanz-MappingsSemantik von Objekten und Mappings in zwei getrennten Metadaten ModellenHigh-level Operatoren zur Anfrage- und Mapping-Ausfüh-rung

35



Noch Fragen?

Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2....

Documents

Transcript of Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2....