Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project...

Post on 27-Oct-2019

5 views 0 download

Transcript of Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project...

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 1

Servicebasierte DatenintegrationPräsentation zur Seminararbeit

Christoph Aßmann

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 2

Inhalt

● Begriffe● Motivation● Abgrenzung Grid – Cloud● OGSA: Architektur servicebasierter Grids

– Standardisierung– Evolution / Erweiterungen

● Informatica Cloud Data Integration Solutions● Zusammenfassung

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 3

MSSQL

Begriffsbestimmung: Datenintegration

● Ziel: einheitlicher Zugriff auf mehrere DBs– Verteilte Datenbanken– Dezentral verwaltete Datenbanken

 → Problem:Heterogene Datenbanken

eXist

ObjectStore

DB2

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 4

Begriffsbestimmung: Datenintegration

● Heterogenität: Ausprägungen– Zugriff– Syntax– Datenmodell– Schema– …

● Data Cleaning● Erstellung einheitlicher Sicht

eXist

ObjectStore MSSQL

DB2

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 5

Begriffsbestimmung: Dienstbasierte Architekturen

● Ziel: technologieunabhängige Integration heterogener Systeme

– Transportprotokoll– Programmiersprache– Plattform

?

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 6

Begriffsbestimmung: Dienstbasierte Architekturen

● Beschreibung, Veröffentlichung, Suche, Nutzung von Diensten

Dienstverzeichnis

Dienstkonsument Dienstanbieter

!

SOAPXMLHTTPTCP/IP

Ethernet

WSDLWSDL

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 7

Motivation

● ISPIDER Project– Erfassung biochemischer Daten– Identifizierung von Proteomen an verschiedenen 

Standorten– Zusammenführung der Informationen

PEDRo

PepSeeker

gpmDB

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 8

Abgrenzung Grid - Cloud

● Gemeinsamkeit: Dynamische Bereitstellung von Speicher und Rechenkapazität über Netzwerk

● Unterschiede:– Cloud

● Zentraler Anbieter● Ökonomischer Ansatz

– Grid● Virtuelle Organisation (VO) / dezentrale Admin.● Wissenschaftlicher Kontext

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 9

Abgrenzung Grid - Cloud

VO

O1

O2

O3Grid

Cloud

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 10

OGSA: Architektur servicebasierter Grids

● Hoher Grad an Heterogenität● Autonome Datenquellen● Dezentrale Administration

 Standardisierung→O1

O2

O3

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 11

OGSA: Architektur servicebasierter Grids

● Standardisierungsgremium:Open Grid Forum (OGF)

● Diverse Arbeitsgruppen, u.a.:Database Access and Integration Services (DAIS­WG)

● Architektur:Open Grid Services Architecture (OGSA)

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 12

OGSA: Architektur servicebasierter Grids

● Repräsentation von Ressourcen durch Dienste Grid Services→

● Standardisierung von Schnittstellen– Auffinden von Grid Services– Erzeugen / Beenden von Grid­Dienstinstanzen– Nachrichtenaustausch

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 13

● OGSA­DAI:dienstbasierter Zugriff auf Datenbanken

● OGSA­DQP:Koordinierung des Zugriffs auf mehrereOGSA­DAI­Ressourcen

OGSA-DAI / OGSA-DQP: Übersicht

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 14

OGSA-DAI

● Data Access and Integration (OGSA­DAI)● Java­basierte Middleware zur Integration 

heterogener Datenquellen auf Basis der OGSA

XML

Rel. DB

FS

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 15

OGSA-DAI

● Ablauf einer Anfrage gegen das Grid(a) Container­Start

Factory(GDSF)

Registry(GDSR)

(1 je Container)

(1 je DBMS)

RegisterS

ervice

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 16

OGSA-DAI

● Ablauf einer Anfrage gegen das Grid(b) Dienstlokalisierung

Factory(GDSF)

Registry(GDSR)

Service Instance(GDS) Rel. DB

Grid ServiceHandle (GSH)

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 17

OGSA-DAI

● Ablauf einer Anfrage gegen das Grid(c) Durchführen einer Anfrage

Factory(GDSF)

Registry(GDSR)

Service Instance(GDS) Rel. DB

Grid ServiceHandle (GSH)

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 18

OGSA-DQP

● Ablauf einer Anfrage gegen das Grid(c) Durchführen einer verteilten Anfrage via DQP

Factory(GDSF)

Registry(GDSR)

Service Instance(GDS) Rel. DB

Grid ServiceHandle (GSH) Coordinator

(GDQS) Evaluator(GQES)

Service Instance(GDS)

Evaluator(GQES) XML

Factory(GDSF)

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 19

Einschub: Schemaintegration

● Dezentrale Administration Schemaevolution→ einmalige Schemaintegration unzureichend→

● Grid Data Integration System (GDIS)– Mapping­Katalog– Änderung / Hinzufügen einer Ressource: Update

● Ausführliche Beschreibung s. Ausarbeitung

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 20

ISPIDER: virtuelle Datenintegration

PEDRoPepSeeker gpmDB

ENSP00000339074

ENSP00000339074

ENSP00000339074

...

...

...

URN:LSID:ispider.man.ac.uk:pepseeker.protein:1 ENSP00000339074 ...

2

1

1

1

URN:LSID:ispider.man.ac.uk:pepseeker.protein:2

URN:LSID:ispider.man.ac.uk:pedro.protein:1

URN:LSID:ispider.man.ac.uk:gpmdb.protein:1

LSID acc_nr col_xysrc_id

SPEDRoSPepSeeker SgpmDB

Sintegr

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 21

ISPIDER

● Nutzung von OGSA­DAI und OGSA­DQP● Manuelles Erstellen des globalen Schemas

– Basis: SPEDRo

– Beschreibung der Korrespondenzen Slocal    S→ global

 IQL, Transformation Pathways→

● Speicherung in Schemas & Transformations Repository

 Schemaevolution möglich→

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 22

Informatica Cloud Data Integration Solutions

● SaaS Anwendung: Salesforce CRM● Cloud Plattform: Force.com● Problematik: Migration lokaler Datenbestände 

aus Legacy Software nach Salesforce CRM

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 23

Informatica Cloud Data Integration Solutions

● Informatica On Demand (IOD):Webbasierte Konfiguration von Verbindungen

– Source Connection, Target Connection– Filter Definition– Field Mappings, Transformation– Schedule

IOD

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 24

Zusammenfassung

● Integrationsproblematik in Grids und Clouds vorhanden

● Lösung in Grids: Standardisierung

– Virtuelle Integration

– Dienstbasierte Ansätze

– OGF● Lösung in Clouds: Eigenentwicklungen

– Physische Integration

– Migration in die Cloud

– Proprietäre Ansätze

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 25

ISPIDER Architecture

[ZFB+ 06]

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 26

● [ZFB+ 06] Lucas Zamboulis, Hao Fan, Khalid Belhajjame, Jennifer A. Siepen, Andrew Jones, Nigel J. Martin, Alexandra Poulovassilis, Simon J. Hubbard, Suzanne M. Embury und Norman W. Paton. Data Access and Integration in the ISPIDER Proteomics Grid. In Ulf Leser, Felix Naumann und Barbara A. Eckman, Hrsg., DILS, Jgg. 4075 of Lecture Notes in Computer Science, Seiten 3–18. Springer, 2006.