Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project...

26
Abteilung Datenbanken am Institut für Informatik Seminar Cloud Data Management Servicebasierte Datenintegration Aßmann, Christoph Leipzig, 26.01.2010 Folie 1 Servicebasierte Datenintegration Präsentation zur Seminararbeit Christoph Aßmann

Transcript of Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project...

Page 1: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 1

Servicebasierte DatenintegrationPräsentation zur Seminararbeit

Christoph Aßmann

Page 2: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 2

Inhalt

● Begriffe● Motivation● Abgrenzung Grid – Cloud● OGSA: Architektur servicebasierter Grids

– Standardisierung– Evolution / Erweiterungen

● Informatica Cloud Data Integration Solutions● Zusammenfassung

Page 3: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 3

MSSQL

Begriffsbestimmung: Datenintegration

● Ziel: einheitlicher Zugriff auf mehrere DBs– Verteilte Datenbanken– Dezentral verwaltete Datenbanken

 → Problem:Heterogene Datenbanken

eXist

ObjectStore

DB2

Page 4: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 4

Begriffsbestimmung: Datenintegration

● Heterogenität: Ausprägungen– Zugriff– Syntax– Datenmodell– Schema– …

● Data Cleaning● Erstellung einheitlicher Sicht

eXist

ObjectStore MSSQL

DB2

Page 5: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 5

Begriffsbestimmung: Dienstbasierte Architekturen

● Ziel: technologieunabhängige Integration heterogener Systeme

– Transportprotokoll– Programmiersprache– Plattform

?

Page 6: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 6

Begriffsbestimmung: Dienstbasierte Architekturen

● Beschreibung, Veröffentlichung, Suche, Nutzung von Diensten

Dienstverzeichnis

Dienstkonsument Dienstanbieter

!

SOAPXMLHTTPTCP/IP

Ethernet

WSDLWSDL

Page 7: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 7

Motivation

● ISPIDER Project– Erfassung biochemischer Daten– Identifizierung von Proteomen an verschiedenen 

Standorten– Zusammenführung der Informationen

PEDRo

PepSeeker

gpmDB

Page 8: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 8

Abgrenzung Grid - Cloud

● Gemeinsamkeit: Dynamische Bereitstellung von Speicher und Rechenkapazität über Netzwerk

● Unterschiede:– Cloud

● Zentraler Anbieter● Ökonomischer Ansatz

– Grid● Virtuelle Organisation (VO) / dezentrale Admin.● Wissenschaftlicher Kontext

Page 9: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 9

Abgrenzung Grid - Cloud

VO

O1

O2

O3Grid

Cloud

Page 10: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 10

OGSA: Architektur servicebasierter Grids

● Hoher Grad an Heterogenität● Autonome Datenquellen● Dezentrale Administration

 Standardisierung→O1

O2

O3

Page 11: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 11

OGSA: Architektur servicebasierter Grids

● Standardisierungsgremium:Open Grid Forum (OGF)

● Diverse Arbeitsgruppen, u.a.:Database Access and Integration Services (DAIS­WG)

● Architektur:Open Grid Services Architecture (OGSA)

Page 12: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 12

OGSA: Architektur servicebasierter Grids

● Repräsentation von Ressourcen durch Dienste Grid Services→

● Standardisierung von Schnittstellen– Auffinden von Grid Services– Erzeugen / Beenden von Grid­Dienstinstanzen– Nachrichtenaustausch

Page 13: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 13

● OGSA­DAI:dienstbasierter Zugriff auf Datenbanken

● OGSA­DQP:Koordinierung des Zugriffs auf mehrereOGSA­DAI­Ressourcen

OGSA-DAI / OGSA-DQP: Übersicht

Page 14: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 14

OGSA-DAI

● Data Access and Integration (OGSA­DAI)● Java­basierte Middleware zur Integration 

heterogener Datenquellen auf Basis der OGSA

XML

Rel. DB

FS

Page 15: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 15

OGSA-DAI

● Ablauf einer Anfrage gegen das Grid(a) Container­Start

Factory(GDSF)

Registry(GDSR)

(1 je Container)

(1 je DBMS)

RegisterS

ervice

Page 16: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 16

OGSA-DAI

● Ablauf einer Anfrage gegen das Grid(b) Dienstlokalisierung

Factory(GDSF)

Registry(GDSR)

Service Instance(GDS) Rel. DB

Grid ServiceHandle (GSH)

Page 17: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 17

OGSA-DAI

● Ablauf einer Anfrage gegen das Grid(c) Durchführen einer Anfrage

Factory(GDSF)

Registry(GDSR)

Service Instance(GDS) Rel. DB

Grid ServiceHandle (GSH)

Page 18: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 18

OGSA-DQP

● Ablauf einer Anfrage gegen das Grid(c) Durchführen einer verteilten Anfrage via DQP

Factory(GDSF)

Registry(GDSR)

Service Instance(GDS) Rel. DB

Grid ServiceHandle (GSH) Coordinator

(GDQS) Evaluator(GQES)

Service Instance(GDS)

Evaluator(GQES) XML

Factory(GDSF)

Page 19: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 19

Einschub: Schemaintegration

● Dezentrale Administration Schemaevolution→ einmalige Schemaintegration unzureichend→

● Grid Data Integration System (GDIS)– Mapping­Katalog– Änderung / Hinzufügen einer Ressource: Update

● Ausführliche Beschreibung s. Ausarbeitung

Page 20: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 20

ISPIDER: virtuelle Datenintegration

PEDRoPepSeeker gpmDB

ENSP00000339074

ENSP00000339074

ENSP00000339074

...

...

...

URN:LSID:ispider.man.ac.uk:pepseeker.protein:1 ENSP00000339074 ...

2

1

1

1

URN:LSID:ispider.man.ac.uk:pepseeker.protein:2

URN:LSID:ispider.man.ac.uk:pedro.protein:1

URN:LSID:ispider.man.ac.uk:gpmdb.protein:1

LSID acc_nr col_xysrc_id

SPEDRoSPepSeeker SgpmDB

Sintegr

Page 21: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 21

ISPIDER

● Nutzung von OGSA­DAI und OGSA­DQP● Manuelles Erstellen des globalen Schemas

– Basis: SPEDRo

– Beschreibung der Korrespondenzen Slocal    S→ global

 IQL, Transformation Pathways→

● Speicherung in Schemas & Transformations Repository

 Schemaevolution möglich→

Page 22: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 22

Informatica Cloud Data Integration Solutions

● SaaS Anwendung: Salesforce CRM● Cloud Plattform: Force.com● Problematik: Migration lokaler Datenbestände 

aus Legacy Software nach Salesforce CRM

Page 23: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 23

Informatica Cloud Data Integration Solutions

● Informatica On Demand (IOD):Webbasierte Konfiguration von Verbindungen

– Source Connection, Target Connection– Filter Definition– Field Mappings, Transformation– Schedule

IOD

Page 24: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 24

Zusammenfassung

● Integrationsproblematik in Grids und Clouds vorhanden

● Lösung in Grids: Standardisierung

– Virtuelle Integration

– Dienstbasierte Ansätze

– OGF● Lösung in Clouds: Eigenentwicklungen

– Physische Integration

– Migration in die Cloud

– Proprietäre Ansätze

Page 25: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 25

ISPIDER Architecture

[ZFB+ 06]

Page 26: Servicebasierte Datenintegration - dbs.uni-leipzig.de · heterogener Systeme ... ISPIDER Project – Erfassung biochemischer Daten – Identifizierung von Proteomen an verschiedenen

Abteilung Datenbanken

am Institut für Informatik

Seminar Cloud Data ManagementServicebasierte Datenintegration

Aßmann, Christoph Leipzig, 26.01.2010 Folie 26

● [ZFB+ 06] Lucas Zamboulis, Hao Fan, Khalid Belhajjame, Jennifer A. Siepen, Andrew Jones, Nigel J. Martin, Alexandra Poulovassilis, Simon J. Hubbard, Suzanne M. Embury und Norman W. Paton. Data Access and Integration in the ISPIDER Proteomics Grid. In Ulf Leser, Felix Naumann und Barbara A. Eckman, Hrsg., DILS, Jgg. 4075 of Lecture Notes in Computer Science, Seiten 3–18. Springer, 2006.