Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2....
Transcript of Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-08.pdf · 2....
1
Sommersemester 2010
Dr. Kirstenhttp://dbs.uni-leipzig.de
Universität LeipzigInstitut für Informatik
Datenbanken in der Bioinformatik
Kapitel 8Datenintegration- Ansätze und Systeme -
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Inhaltsverzeichnis
1. Grundlagen2. Klassifizierung von BioDB, Überblick3. Spezialanwendungen4. Datenmodelle und Anfragesprachen5. Modellierungsalternativen6. Versionierung von Datenbeständen7. Annotationskonzept8. Datenintegration: Ansätze und Systeme9. Matching: Ontologien, Schema, Objekte10. Scientific Computing
2
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Gliederung: KontextBeschreibung des Unter-suchungsgegenstandes
Beschreibung des experimentellen Designs und Prozesses
experimentelleMetadaten
experimentelle Daten
Experiment
Analyse
Analysergebnisse
Interpretation und Ergebnispräsentation
Datenintegration
private und öffentlich zugängliche Datenzur Beschreibungen von Genen
Gewebeprobe / selektierte Zelle Hypothese
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Lernziele
Verstehen und Begreifen von generellen Ansätzen zur Datenintegration
Anwendung in Abhängigkeit von Kontext und DatenBeurteilung der Ansätze
Kennen von speziellen Datenintegration-lösungen sowie deren Verwendung
3
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Gliederung
1. Motivation2. Datencharakteristik3. Probleme und Anforderungen4. Ausgewählte Lösungskonzepte
a) Link-Factoriesb) Data-Warehouse-basierte Integrationc) Integration basierend auf der genomischen
Sequenzd) Integration durch Indexierung von Web-Quellene) Mapping-basierte Integration
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Problembereich: Datenintegration
Aufgabenspektrum:Klinische Daten
z.B. Patientendaten
Daten über biol. Objekte,z.B. Gene, Proteine
• Selektion von interessanten Daten,• übergreifenden Datenanalyse und • Interpretation von Analyseergebnissen
Experimentelle Datenz.B. Microarray-Daten
...
Differentiell exprimierte STAT3 Gene beimalignen Lymphomen von Patienten,
die älter als 50 Jahre sind?
4
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Verschiedene Arten von AnalysenAnalyse von Sequenzdaten (z.B. multiple alignments)Identifikation von TranskriptionsfaktorbindungsstellenGenexpressionsanalyseTranskriptionsanalyse, z.B. ENCODE Projekt (http://www.genome.gov/ENCODE)Functional profilingPathway Analyse und Rekonstruktion
Viele heterogene DatenquellenExperimentdaten, z.B. von Chip-basierten TechnikenExperimentbeschreibung (Metadaten eines Experiments)Klinische DatenViele miteinander verbundene Webdatenquellen und OntologienPrivate vs. öffentliche Daten
Motivation
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Datenintegration
Datenintegration = InformationsintegrationKorrekte, vollständige und effizienteZusammenführung von Daten und Inhalt verschiedener, heterogener Quellen zu einer einheitlichen und strukturierten Infomenge zur effektiven Interpretation durch Nutzer und Anwendungen*= Zusammenfügung von Metadaten und Instanzdaten
*Leser, Naumann: Informationsintegration, dpunkt.verlag, 2007.
5
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Datenintegration
Ziel: Mehrwert, der sich mit der Kombination von Daten ergibt
bessere Ergebnisse = umfassender, qualitativ hochwertiger, abgesicherterAnfragen, die nur von Daten mehrerer Datenquellen beantwortet werden können
Anfrage
RDBMS XML-DBMS
Integrationssystem
Dateien Web-Daten Anwendungen
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Probleme bei einer Datenintegration
Komplexe Fragestellungen Nutzung vieler verschiedener DatenquellenWeite Verteilung der DatenHohe RedundanzHeterogenität der Datenquellen bzgl.
SyntaxSchema/StrukturSemantikSchnittstellen
Evolution von Daten und Schemata
6
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Verteilung, Autonomie, Heterogenität*
Architekturraum durch drei orthogonale AspekteVerteilung: physisch, logischAutonomie, zB bzgl. Design, Schnittstellen, Evolution, Zugriff, ...Heterogenität
*Leser/Naumann: Informationsintegration, dpunkt.verlag, 2007, S. 49ff
homogene, zentrale DBverteilte DBverteilte heterogene DBverteilte autonome DBverteilt, heterogen, autonomAutonomie
Verteilung
Heterogenität
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Architekturvarianten im Überblick
Monolithische DatenbankenFörderierte DatenbankenMediator-basierte SystemePeer-Daten-Management-Systeme
SuchmaschinenPortale
...
7
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Bio-Datenquellen
OMIM
GO
Gen-Bank
Locus-Link
SMD
Molecular-biological objects
SequenceGenePhenotype Gene Expression
Peptide NucleotideDisease Function
Protein Pathway
SCOPGene-Cards
Publication
PubMedUni-Gene
Swiss-Prot
InterPro
KEGGHUGO
Enzyme
LegendsObject classificationObject classification Source classificationSource classification Source cross-referenceSource cross-reference
WWW: >500 public data sources
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Verschiedener Arten von Webdatenquellen
Genomdatenquellen: Ensembl, NCBI Entrez, UCSC Genome Browser, ...
Objekte: Gene, Transkripte, Proteine etc. verschiedener Spezies
Objektspezifische DatequellenProteine: UniProt (SwissProt, Trembl), Protein Data Bank (PDB), ...Proteininteraktionen: BIND, MINT, DIP, ...Gene: HUGO (standardisierte Gensymbole für humanes Genom), MGD, ...Pathways: KEGG (metabolische & regulatorische Pathways), GenMAPP, ......
8
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Verschiedener Arten von Webdatenquellen II
Publikationsquellen: Medline / Pubmed (>16 MioEinträge)Ontologien
Verwendung zur einheitlichen und semantischen Beschreibung von Eigenschaften biol. ObjekteKontrollierte Vokabulare zur Reduzierung terminologischer VariationenPopuläre Bespiele : Molekulare Funktionen, Biologische Prozesse, Zelluläre Komponenten (Gene Ontology)Ontologie-Sammlung: Open Biomedical Ontologies (OBO)
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Enzyme
GeneOntology
OMIMUniGeneKEGG
} Referenzenzu anderenDatenquellen
Quellenspezifische ID (accession)
Annotation:Namen, Symbole,Synonyme, etc.
}
Problem: Oftmals keine explizite Mapping-SemantikGen Gen: Orthologe Gene vs. Paraloge GeneGen GO Annotation: MF vs. BP vs. CC
Annotationsdaten vs. Mapping-Daten
Beispiel: Webdaten mit Referenzen
9
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
HeterogenitätSchemaSyntax (Format)Semantik
Viele, hochverbundeneDatenquellen und Ontol.
Häufige ÄnderungenDatenSchema und FormateSchnittstellen
Unvollständige QuellenForschung #TupelZielstellung der Quelle: Spezifische Attribute
Überlappende Quellen
Verteilte molekularbiologische Daten
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Dateibasierte Datenformate
Populäre DateiformateFlat files (Genexpressionsmatrix) Entry-basiertes FormatFASTA: SequenzdatenGenBankASN.1 (Abstract Syntax Notation One)Verschiedene XML-basierte Formate
ProblemeImplizites Wissen über Attribute (Semantik)Mehrfache Werte eines Attributs in einem Eintrag ohne einheitliches TrennzeichenVerwendung des 'comment' Attributs für weitere AttributwerteVerschiedene Separatoren innerhalb einer Datei
>3198; HOXA1actgattacattggtacatgata ...>696226; HOXB3gtagctagcgatccatgatcag ...>...
FASTA
ID 3198DE homeobox A1SB HOXA1SQ actgattacattggtacatgata ......
Entry-based
10
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Zusammenfassung: Datencharakteristik
Viele verschiedene Datenquellen mit unterschiedlichem FokusHohe Konnektivität: Instanz-Mappings zwischen quellenspezifischen ObjektenMapping vs. AnnotationsdatenHauptsächlich Heterogenität als Integrationsbarriere
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Datenintegration
Zwei orthogonale Aspekte:SchemaintegrationInstanzdatenintegration
Anfrage
RDBMS XML-DBMS
Integrationssystem
Dateien Web-Daten
11
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Schemaintegration
Schemaintegration = MetadatenintegrationZiel: Erstellung einer 'homogenisierten Sicht' (globales Schema) auf die zu integrierenden DatenquellenGlobales Schema:
Enthält alle relevanten Schemaelemente der zu integrierenden DatenquellenSchema-Mappings zwischen globalem und Quellenschemata
Globales Schema SG
Quellenschema S1 Quellenschema S2 Quellenschema Sn...
M1: S1 x SG M2: S2 x SG Mn: Sn x SG
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Schema-Mapping
Entstehung durch Schema-Matching (Prozess)Eingabe: Schemata Source, Target ∈ S1,...,n, AlgorithmusAusgabe: Schema-Mapping M: S x T
Eigenschaften des Mapping:bidirektional Semantik: oftmals ÄquivalenzrelationSuche nach 1:1 Beziehung zwischen den Elementen (aber nicht immer möglich: Name ↔ Vorname, Nachname)vielfach weder injektiv noch surjektiv (und damit auch nicht bijektiv)Problem: Transformationen, zB Aggregation von Daten
12
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Top-Down vs. Bottom-Up
Globales Schema
Schemata der Quellen
Bottom-Up-IntegrationTop-Down-Integration
T
S1 S2 Sn…
T
S1 S2 Sn…
Schemaintegration
Match(S1,S2) Match(S2,Sn)Bildung des
globalen SchemaZuordnung zum
globalen SchemaMatch(S1,T) Match(S2,T) Match(Sn,T)
SchemaintegrationSchemaintegration durch
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Schema Matching: Beispiel
Spezialfall: Mapping zwischen zwei Versionen eines Schema (KEGG Markup Language)
Wenige aber bedeutende ÄnderungenGesucht: Abbildung zwischen denbeiden Schema-Versionen
Grundlage einer Trans-formation der Instanz-daten
KGML 0.1
KGML 0.6.1
Informationsreduktion
Informationserweiterung
13
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Schema Matching: Beispiel cont.
Ergebnis: Mapping zwischen den zwei KGML Schemaversionen
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Schema-Matching: Forschungsprototypen
Viele Prototypen verfügbar, zB Cupid (Univ. of Washington), Clio (IBM Almaden + Univ. of Toronto), COMA/COMA++ (Univ. Leipzig, Rahm)
Repository
Graphical User Interface
Matching Engine (Fragment-based)
Model PoolExternal Schemas,Ontologies
Mapping Pool Exported Mappings
Resolution Library
Matcher Library
Combination Library
Model Manipulation
Mapping Manipulation
Source IdNameStructureContent
SOURCESource IdNameStructureContent
SOURCE
Object Rel IdSource Rel IdObject1 IdObject2 IdEvidence
OBJECT_ RELObject Rel IdSource Rel IdObject1 IdObject2 IdEvidence
OBJECT_ REL
n1
n1
11
n n n n1 1
Object IdSource IdAccessionTextNumber
OBJECTObject IdSource IdAccessionTextNumber
OBJECT
Source Rel IdSource1 IdSource2 IdType
SOURCE_ RELSource Rel IdSource1 IdSource2 IdType
SOURCE_ REL
Quelle: Aumüller, Do, Maßmann, Rahm: Schema and Ontology matching with COMA++. Proc. 24th SIGMOD Conf. 2005
SystemarchitekturCOMA++
14
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Schema-Matching-Prozess
Iterativer Prozess bestehend aus verschiedenen Aktionen, Match, Kombination
Match Iteration
Matcher 1
Matcher 2
Matcher 3S2
S1
Matcher execution
Similarity combination
Similarity cubeMapping
{s11, s12, ...}
{s21, s22, ...}
Constituent resolution
Name, Leaves, NamePath, …
Aggregation, Direction, Selection, CombinedSim
Nodes, ...Paths, ...Fragments,...
Resolution Library
Matcher Library
Combination Library
Model Pool
s11↔s21s12↔s22s13↔s23
Mapping Manipulation
Edit, Diff, Intersect, Merge, MatchCompose, Compare, ...
Mapping Pool
Import, Load, Preprocess, ...
Model Manipulation
Quelle: Aumüller, Do, Maßmann, Rahm: Schema and Ontology matching with COMA++. Proc. 24th SIGMOD Conf. 2005
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Schemaintegration: Zusammenfassung
Schemaintegration: Erstellung eines globalen Schema mit Mappings zu den zu integrierenden Datenquellen
Teilprozess einer DatenintegrationVoraussetzung einer Instanzdatenintegration
Typen: Top-Down vs. Bottom-UpGroßes Spektrum an Forschungsprototypen für semi-automatisches Schema-Matching
15
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Instanzdatenintegration
Instanzdatenintegration: Zusammenfügen der Daten aus den verschiedenen Datenquellen
Virtuell: zur Beantwortung einer AnfrageMaterialisiert: Prozess der Vorverarbeitung (ETL)
Basis: Schema-MappingsFormen
enge DB-Kopplung: Datenbank-Links, förderierteDBMSlose Kopplung: gesonderte Import-Routinen, ETL-Tools, ...
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Virtuelle Integration
Globales Schema mit Mappings zu den Quel-lenschemata (Metadaten)Transparenter Zugriff auf originale DatenquellenWrapper = quellenspe-zifische APIFormen
förderierte DBMSMediatoren
Vorteile / Nachteile
Anfrage q1 Anfrage qm
Applikationen
Anfrage q2
Meta-daten
Quelle 1 mit Schema S1
Quelle n mitSchema Sn
…Quelle 2 mit Schema S2
- komplexes Query-Mana-gement (Split der Query +Mischen / Transformationder Ergebnisdaten)
- Zugriff auf originale Daten-quellen zur Laufzeit
- oftmals Einsatz eines globalen Schemas
WrapperWrapperWrapper
16
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Physische Integration
Globales Schema mit zen-traler DatenhaltungSeparate Extraktion, Transformation und Laden der DatenFormen
Data Warehouse mit mögl. zusätzl. Data-Mart-Schicht
Vorteile / Nachteile
Globales Schema?
Anfrage q1 Anfrage qm
Applikationen
Meta-daten
- redundante Speicherung der Instanzdaten (vorab)
- oftmals auf Basis eines globalen Schemas
Quelle 1 mit Schema S1
Quelle n mitSchema Sn
…Quelle 2 mit Schema S2
Zentrale Quelle mit Schema T
- Extraktion der Daten aus den originalen Quellen- Transformation in das Schema T- Laden (Import) der Daten in die zentrale Quelle
Anfrage q2
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
P2P-like Integration: Ein typisches Szenario
Gene Ontology
Protein-Annotationen für Gen X?
Local dataBiologische Prozesse für
mich interessierende Gene
SwissProt Ensembl
NetAffx
Bidirektionale Instanz-Mappings zwischen DatenquellenAnfragen an eine Datenquellen und deren Propagierung an relevante PeersEinfachere Hinzufügnug neuer Datenquellen
Unterstützung lokaler Datenquellen
17
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Übergreifende Bewertung
Virtuelle Integration
-
+
+
o
-
o
Zur Laufzeit der Anfrage
A prioriMediatoren
o-(HW) Resourcen-anforderungen
+oAutonomie der Datenquellen
+oDatenaktualität
o+Unterstützung der Datenqualität
-+Analyse großer Datenmangen
o-Skalierbarkeit (#Datenquellen)
Zur Laufzeit der Anfrage
A prioriInstanzdatenintegration
Nicht zwingendA prioriSchemaintegrationPeer Data Mgmt
Physische I.(Warehouse)
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Instanzdatenintegration: Zusammenfassung
Unterteilung in virtuelle und physische Integration
Virtuell: Mediator-Systeme, förderierte DBMSPhysisch: Data Warehouse
Oftmals Nutzung eines globalen SchemasNeuere Ansätze: PDMS und P2P-like Integration
Ausnutzung vorhandener Instanzdaten-Mappings(bidirektionale Mappings)
18
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Gliederung
1. Motivation2. Datencharakteristik3. Probleme und Anforderungen4. Ausgewählte Lösungskonzepte
a) Link-Factoriesb) Data-Warehouse-basierte Integrationc) Integration basierend auf der genomischen
Sequenzd) Integration durch Indexierung von Web-Quellene) Mapping-basierte Integration
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Web-Link = URL einer Datenquelle + ID (accessionnumber) des bio. ObjektsEinfacher Integrationsansatz
Wenig IntegrationsaufwandAber: Analysis eines Objekts zu einer Zeit
LinkDB: Sammlung von Web-Links zwischen verschie-denen Quellen
Verwaltung von quellenspezi-fischen Objektreferenzen (ID) und Instanz-MappingsKeine expliziten Mapping-Typen
Integration mit verfügbaren Web-Links
19
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Distributed Annotation System (DAS)
Datenintergation auf Basis von GenomsequenzenIntegration verteilter Datenquellen
Client-/Server SystemarchitekturGenomserver: Primäre Quelle, die Zugriff auf die Sequenz eines Referenzgenoms hatAnnotation-Server: Kapselung von Quellen, die von speziellen Forschungsgruppen zur Verfügung gestellt werden
Annotation Viewer
Genome Server
Annotation Server 1
Genome DB
Annotation Server 2 Annotation Server n...
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Distributed Annotation System (DAS) II
Ausrichtung der Beschreibungen (Annotationen) an der Sequenz eines Referenzgenoms
Einfaches Hinzufügen neuer Quellen, aber dann meist für alle Benutzer sichtbarSequenzkoordinaten für Zugriff auf Annotationennotwendig: Spezies, Chromosom, Start-, Stoppposition, Richtung (strand)Skalierbarkeit (?)Problem: Neuberechnung aller Annotationen im Falle die zugrunde liegende Referenzsequenz ändert sich
20
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
DAS: Anfrageformulierung + -ausführung
Anwendung: Integration von Annotationen in EnsemblAnfrageformulierung
Auswahl eines OrganismusIntervallanfragen: Welche Objekte gibt es auf einem Chromosom zwischen Position x und y
AnfrageausführungSenden der Intervallanfrage an zentralen Genom-Server und verteilte Annotation-ServerMischen der erhaltenen Ergebnisse
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
DAS: Anfrageformulierung + -ausführung II
ErgebnispräsentationSicht auf Genomsequenz mit zugeordneten Objekten und AnnotationenVerschiedene Detaillierungs-stufenDurchgriff aufverteilte Da-tenquellen
21
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
EnsMart
Data-Warehouse-basierte DatenintegrationData Mart auf Basis von EnsemblGezielte Suche und Wiedergabe von
Ensembl-eigenen bio. Objekten: Gene, Transkripte und PolypetideAssoziierten AnnotationenReferenzierte biol. Objekte
Multidimensionales SchemaEnsembl-eigene bio. Objekte als "Fakten"Instanz-Mappings zu referenzierten Objekten als beschreibende Dimensionen
Spezies-spezifische Data Marts, die über Homologie-Mappings verbunden sind
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
EnsMart: Systemarchitektur*
*A. Kasprzyk et al.: EnsMart: A generic system for fast and flexible access to biological data.Genome Research, 14(1): 160-169, 2004.
22
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
EnsMart – Schemaausschnitt*
*A. Kasprzyk et al.: EnsMart: A generic system for fast and flexible access to biological data.Genome Research, 14(1): 160-169, 2004.
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
EnsMart: Anfrageformulierung + -ausführung
23
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
GenMapper*
Data-Warehouse-basierte DatenintegrationGenerisches Schema: GAM
Einheitliche Repräsentation von AnnotationsdatenFlexibilität bzgl. Heterogenität und Integration
Nutzung existierender Instanz-Mappings zwischen Objekten/QuellenHigh-level Operatoren zur Datenintegration und Anfrageformulierung / -verarbeitungSichtenkonzept: Annotation Views für spezifische Analyseanforderungen
*Do, H.H.; Rahm, E.: Flexible integration of molecular-biological annotation data: The GenMapper approach. Proc. 9th EDBT Conf., 2004
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
GenMapper: Systemarchitektur
NetAffx
GAMData Model
GAM-BasedAnnotation ManagementData Sources
LocusLink
Annotation Views
Application Integration
•Map•Compose•GenerateView•…
Map(Unigene, GO)
Dat
a In
tegr
atio
n
Dat
a A
cess
Unigene
Map(Affx, Unigene)
•Parse•Import
GO
Source IdNameTypeContent
SOURCESource IdNameTypeContent
SOURCE
Obj Rel IdSrc Rel IdObject1 IdObject2 IdEvidence
OBJECT_ RELObj Rel IdSrc Rel IdObject1 IdObject2 IdEvidence
OBJECT_ REL
n1
n1
11
n n n n1 1
Object IdSource IdAccessionTextNumber
OBJECTObject IdSource IdAccessionTextNumber
OBJECT
Src Rel IdSource1 IdSource2 IdType
SOURCE_ RELSrc Rel IdSource1 IdSource2 IdType
SOURCE_ REL
24
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Generic Annotation Model (GAM)
Keine Unterscheidung zwischen Klassen und AttributenSources als Gruppierung von objects:
Repräsentation von Metadaten und InstanzdatenRepräsentation von Werten verschiedener Datentypen
Beziehungen auf Objekt und Quellenebene für verschiedene Semantik und Kardinalitäten
Source IdNameTypeContent
SOURCE
Obj Rel IdSrc Rel IdObject1 IdObject2 IdEvidence
OBJECT_ REL
n1
n1
11
n n n n1 1
Object IdSource IdAccessionTextNumber
OBJECT
Src Rel IdSource1 IdSource2 IdType
SOURCE_ REL
Underlined Primary keyLegends:
Italic Foreign key
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Annotationverwaltung mit GAM
Source: Öffentliche Quellen und VokabulareObject: Einträge einer Quelle oder Terme von VokabularenIntra-source Beziehungen
Beziehungen zwischen den Objekten einer Quelle: Hierarchie / NetzwerkBeziehungstypen: Is-a, Part-Of, …
Inter-source BeziehungenInstanz-Mappings zwischenöfentl. Quellen / OntologienBeziehungstypen: Fact, Similarity, Derived, ...
GO
Molecular Function
Biological Process
Cellular Component
LocusLink
GO OMIM
LocationSTS
Hugo
25
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Source-Datenquelle
Eingabe der Objekte
Auswahl der Zieldatenquellen
(Visual) Annotation View
Anfrageformulierung und - verarbeitung
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Sequence Retrieval System (SRS)
Integration mittels Indexierung von DatenquellenEntwickelt am EMBL für den Zugriff auf biol. Objekte / SequenzdatenKommerziell erweiterte Version von BioWisdom (zuvor: Lion Bioscience)Datenintegration primär für dateibasierte Quellen, aber Erweiterungen für Zugriff auf RDBMS und Analysetools
Mapping-basierte Integration, kein globales SchemaLokale Installation der Quellen notwendig (Download!)Indexierung bzgl. Anfrageattribute von dateibasiertenQuellenDefinition von Hub-Tabellen und Anfrageattributen für Integration von relationalen Datenquellen
26
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Sequence Retrieval System (SRS) II
Umfangreiche Wrapper-Bibliothek verfügbar für öffentliche Datenquellen
Proprietäre Wrapper-Sprache: IcarusKeine generischen Wrapper, z.B. zur Integration privater Datenquellen
Source: Lion BioScience
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
SRS: Anfrageformulierung + -verarbeitung
AnfrageformulierungSelektion der QuelleFilterspezifikation für Anfrageattribute
AnfragetypenSuchanfragenSelektionsanfragen fürnumerische und datums-basierte AttributeReguläre Ausdrücke
Automatische Übersetzung in SQL Anfragen für relatio-nale QuellenZusammensetzung der Teilergebnisse
27
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
SRS: Anfrageformulierung + -verarbeitung
Explorative AnalyseTraversierung für ausgewählte Objekte entlang von Navigationspfaden (Instanz-Mappings)
Automatisch generierte Pfade zwischen den DatenquellenKürzeste Pfade (Dijkstra)Keine Beachtung von Pfad- und Mapping-SemantikKeine Joins, nur Graphtraversierung
ErgebnisseErgebnis = Menge von ObjektenKein explizites Mapping (Objektkorrespondenzen)
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
SRS: Anfrageformulierung + -verarbeitung
28
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Hybride Integration von öffentl. Quellen*
Annotation AnalysisExpression AnalysisIdentification of relevant genes using annotation data
Identification of relevant genesusing experimental data
Expression (signal) valueP-Value…
Molecular functionGene locationProtein (product)Disease…
DWH+
Analysis Tools
gene /clone
groupsSRS
Gene annotation
Mapping-DB
Query-Mediator
*Kirsten, T; Do, H.-H.; Körner, C.; Rahm, E: Hybrid integration of molecular-biological annotation data.Proc. 2nd Intl. Workshop DILS, July 2005
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Mapping-Datenbank
Zentrale Idee: Sternartige Mapping-VerwaltungAusgewählte Datenquelle im ZentrumMapping als Verbindung zur zentralen QuelleExtraktion von direkten Mappings Vorberechnung von ausgewählten Mapping-Kompositionen
Unterstützung alternativer Mapping-Pfade
Mapping DB
LocusLink
NetAffxUniGene
GO
Ensembl
SwissProt …
Center_NetAffxCenter_IdNetAffx _AccessionPath_Id
Center_GeneOntologyCenter_IdGO_AccessionPath_Id
Center_SwissProtCenter_IdSwissProt _AccessionPath_Id
Center_EnsemblCenter_IdEnsembl_AccessionPath_Id
Center (LocusLink)Center_IdLocusLink_Accession
1
N
1N 1 N
Center_UniGeneCenter_IdUniGene _AccessionPath_Id
N1
Center_...Center_IdAccessionPath_Id
N1N
1
29
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Systemarchitektur und Anfrageverarbeitung
Query Mediator
SRS Server
GeneOntology Ensembl LocusLink
Web Client
GeWare PlatformRead Metadata: DB, Attributes, Mappings
1
GUI-Generation 2
Query Spec.:Filter, Joins
3
Creation of SRS-Queries4
SRS-Query Processing6
SRS Call 5 Result Stream (XML)7
Transformation of the Result Stream8
Result Visualization9
Mapping-DB
ADM-DB
DWH
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Motivation für P2P-artige Datenintegration
"Einfache" Integration von neuen Datenquellen (neue Integrationsszenarios)
Vermeidung eines globalen SchemaWiederverwendung von verfügbaren Objekt-korrespondenzen (Mappings)Aber: Nutzung der Semantik von Objekten und Mappings
Beispiel: Klassifizierung DNA-Sequenzen
>S1CATTCTAAGAGACAAAGATAACTAAGA>S2CCCTATCAAAGTATCATTCAAGACTTA>S3CACTCACCTAAGTTAGTACAAATAACA>S4GAAAAGAAGGCGTGCCAACCTCCTCC…
My Sequences NCBIEnsembl UCSCGenomeBrowserDNA
Exon
Protein
DNA
Gen DNA
GenProtein
Lokale Datenquelle Öffentlich verfügbare Quelle
30
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
BioFuice*: P2P-artige Datenintegration
Bioinformatics information fusion utilizing instancecorrespondences and peer mappingsBottom-up IntegrationHigh-level OperatorenP2P-artige Infrastruktur
Mappings zwischen autonomen Datenquellen (Peers)Mapping: Menge von Korrespondenzen zwischen ObjektenEinfach Integration neuer Datenquellen
MediatorSteuerung der Mapping- und OperatorausführungNutzung eines anwendungsspezifischen semantischenDomänenmodells
*Kirsten, T; Rahm, E: BioFuice: Mapping-based data integration in bioinformatics. Proc. 3rd Intl. Workshop DILS, July 2006
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Definitionen
Physische Datenquelle (PDS)Öffentliche, private und lokaleDaten (Genliste, …), OntologienBeinhalten ein oder mehrere logischeDatenquellen
Ensembl
Accession: ENSG00000121380Descr.: Apoptosis facilitator Bcl-2-like …Sequence region start position: 12115145Sequence region stop position: 12255214Biotype: protein codingConfidence: KNOWN
Gen@Ensembl
ObjektinstanzenMenge von relevanten AttributenEin ID-Attribut
Gen
Sequenz-regionExon
Logische Datenquelle (LDS)Bezieht sich auf einen Objekttypund eine physische Datenquelle,z.B. Gene@EnsemblBeinhaltet Objekte(-instanzen)
31
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Metadatenmodelle
Verwendung durch Mediator zur Mapping- und OperatorausführungDomänenmodell stellt relevante Objekttypen undBeziehungen (=Mappingtypen) zwischen ihnen bereit
Source mapping model
LDS PDSmapping(same: )
Legend
Ensembl SwissProt
MySequences
NetAffx
EstD
naBl
ast.h
sa
Ensembl.SRegionExons
Ensembl.ExonGene
Ensembl.GeneProteins
Ensembl.sameNetAffxGenes
Domain model
Extraction
OrthologousGenes
SequenceRegion
Gene
Protein
RegionTouchedExons
codedProteins
SequenceSequenceCoordinates
ExonGeneOfExon
Sequence
SequenceRegion
Exon
Gene Gene
Protein
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Operatoren
Mengenorientierte OperatorenEingabe: Menge von Objekten/Mappings+ Parameter / BedingungenAusgabe: Menge resultierender Objekte
⇒ Kombination von Operatoren in SkriptenWorkflow-artige AusführungAusgewählte Operatoren:
Single source: queryInstances, searchInstances, …Navigation: traverse, map, compose, …Navigation + Aggregation: aggregate, aggregateTraverse, …Universell: diff, union, intersect, …
32
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Beispielskript
SzenarioGegeben: Menge von Sequenzen in lokaler Datenquelle MySequencesGesucht: Drei Klassen: unaligned s., non-coding s., protein coding sequences
$alignedSeqMR := map( MySequences, { SeqDnaBlast } );$codingSeqMR := compose( $alignedSeqMR, { Ensembl.SRegionExons } );
$unalignedSeqOI := diff ( MySequences, domain ( $alignedSeqMR ));$protCodingSeqOI := domain ( $codingSeqMR );$nonCodingSeqOI := diff ( domain ( $alignedSeqMR ) , $protCodingSeqOI );
Ensembl
MySequences
Ensembl.SRegionExons
SeqDnaBlast
Sequenzregion
SequenzExon
LDS PDSmapping(same: )
Legend
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Aggregation
Assoziation und Fusionierung von Genbeschreibungen aus verschiedenen Datenquellen z.B. Ensembl undNetAffx
$GeneOI := traverse ( range ($codingSeqMR ), { Ensembl.ExonGenes });$fusedGeneAO := aggregateSame ( $GeneOI, NetAffx );
Ensembl
Ensembl.SRegionExons
Sequence Region
Exon
GeneEnsembl.ExonGenes
MySequences
Sequence
SeqDnaBlast
NetAffx
GeneEnsembl.sameNetAffxGenes
LDS PDSmapping(same: )
Legend
33
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Aggregation II
Details – Attribute
Überblick – aggregierte Objekte (z.B. Gene)
Objektfusion
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
BioFuice Systemarchitektur
B i
o F
u i c
e
Generic MappingExecution Services
RelationalDatabase
XMLDatabase
XMLFile
XMLStream
Appli-cationi F
u i
c e
C o
r e
Web-Service
Fusion Control Unitand Repository
Mediator Interface
Mapping HandlerRepository Cache
responserequest
mapping callmapping call mapping result
Duplicate Detection
i F u i c e c o r e A P I
Mapping Layer Mappings retrieving data of a single LDS but also interconnecting different LDS
UserInterface
Script Editor
Model-basedQueries
Query ManagerQueryTransformation
Queryspecification
Queryresult
Pre-definedQueries
B i
o F
u i c
e
Q u
e r
y
R i
F u
i c e
KeywordSearch
C o
m m
a n
d l
i n e
I n t
e r f
a c
eFunction library for• Setting and retrieval of
iFuice objects• Execution of iFuice
Scripts• Metadata settings and
retrieval
CSV ExportB i o F u i c e b a s e FASTA ExportiFuice Connector
iFuice-Script MetadataScript result / Data transfer
XML Export
34
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Zusammenfassung
Web-link Integration: Einfach und fokussiert auf explorative Analyse
keine gesonderte Anfrageformulierung und -verarbei-tungDAS: Integration unter Bezugnahme auf die Sequenz eines Referenzgenoms
Einfaches Hinzufügen neuer QuellenAnfragen unter Nutzung von Genomlokationen anstatt von Annotationsattributen
SRS: Indizierung von WebquellenGroße Bibliothek von Wrappern; proprietäre Sprache (ICARUS)Erstellung von lokalen Indizes von Datenquellen und anfragbaren Attributen
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Zusammenfassung II
Hybride IntegrationPhysische Speicherung von Mappings zwischen den Datenquellen in einer zentralen DatenbankVirtuelle Integration von Annotationsquellen
P2P-artige Integration: BioFuiceEinfache Integration von neuen Datenquellen durch Wiederverwendung von Instanz-MappingsSemantik von Objekten und Mappings in zwei getrennten Metadaten ModellenHigh-level Operatoren zur Anfrage- und Mapping-Ausfüh-rung
35
Sommersemester 2010Dr. Kirsten
Vorlesung BiodatenbankenUniversität Leipzig
Noch Fragen?