Seminar WS 2010/11 - uni-leipzig.de · Data Spaces 4 Einführung und Systeme D. Aumüller 5...

17
Seminar WS 2010/11 2 Informationsfusion

Transcript of Seminar WS 2010/11 - uni-leipzig.de · Data Spaces 4 Einführung und Systeme D. Aumüller 5...

Page 1: Seminar WS 2010/11 - uni-leipzig.de · Data Spaces 4 Einführung und Systeme D. Aumüller 5 Probabilistic Mappings K. Wurdinger Mashups 6 Neue Mashup-Ansätze S. Endrullis Aktuelle

Seminar WS 2010/11

2

Informationsfusion

Page 2: Seminar WS 2010/11 - uni-leipzig.de · Data Spaces 4 Einführung und Systeme D. Aumüller 5 Probabilistic Mappings K. Wurdinger Mashups 6 Neue Mashup-Ansätze S. Endrullis Aktuelle

3

Source 1 Source m Source n

Wrapper 1 Wrapper m Wrapper n

Mediator

Client 1 Client k

Meta data

Operational Systems

Import (ETL)

Data Warehouse

Data Marts

Analysis Tools

Meta data

4

Unzureichende Integration von Webdaten Hoher Vorbereitungsaufwand: Globales Schema, Schemaintegration, … Datenqualität für heterogene/unsaubere WebdatenDynamische Integration von Webdaten zur

LaufzeitUnzureichende Unterstützung komplexerer Integrationsaufgaben◦ Welches zentral gelegene Hotel in Leipzig (ab 4 Sterne)

unter 100 Euro/Nacht hat die besten Gastbewertungen

Page 3: Seminar WS 2010/11 - uni-leipzig.de · Data Spaces 4 Einführung und Systeme D. Aumüller 5 Probabilistic Mappings K. Wurdinger Mashups 6 Neue Mashup-Ansätze S. Endrullis Aktuelle

5

Peer-to-Peer-AnsätzeDataspacesMashup-Ansätze Linked Data

6

Karstadt.deYahoo Otto.de

Amazon

Bidirektionale Verknüpfung von Datenquellen anstelle einem globalem Schema Propagieren von Anfragen zu NachbarknotenEinfachere Erweiterung um neue QuellenÄhnlichkeiten zu Linked-Data-Ansätzen

EBay

Page 4: Seminar WS 2010/11 - uni-leipzig.de · Data Spaces 4 Einführung und Systeme D. Aumüller 5 Probabilistic Mappings K. Wurdinger Mashups 6 Neue Mashup-Ansätze S. Endrullis Aktuelle

7• H. Do , E. Rahm: Flexible Integration of Molecular-biological

Annotation Data: The GenMapper Approach. Proc. EDBT Conf., 2004

8

Information Fusion utilizing Instance Correspondences and Peer Mappings◦ Generischer P2P-Ansatz zur Informationsfusion Mappings◦ Referenzen auf Instanzebene ◦ dynamische Berechnung über Queries, Web-Servicesmengenorientierte Operatoren auf Daten und Mappingsontologisches) Domänenmodell zur Kategorisierung von Quellen und Mappings Mapping Mediator: verwaltet Mappings und führt Operatoren aus

*Rahm, E., et al.: iFuice - Information Fusion utilizing Instance Correspondences and Peer Mappings, Proc. 8th WebDB, Baltimore, June 2005

Page 5: Seminar WS 2010/11 - uni-leipzig.de · Data Spaces 4 Einführung und Systeme D. Aumüller 5 Probabilistic Mappings K. Wurdinger Mashups 6 Neue Mashup-Ansätze S. Endrullis Aktuelle

9

Kompromiß zwischen Datenintegration („schemafirst“) und Suchmaschine („no schema“) Koexistenzansatz für unabhängige DatenquellenDataspace = Menge von Participants+ Mappings◦ Participants: heterogene und unabhängige datenquellen

(DB, XML, Dateien, Web services, ...)◦ Schema Mappings + Instance MappingsPay-as-you-go: inkrementeller Integrationsaufwand Heterogene Services◦ Catalog & Browse◦ Search & Query, ...

10

Page 6: Seminar WS 2010/11 - uni-leipzig.de · Data Spaces 4 Einführung und Systeme D. Aumüller 5 Probabilistic Mappings K. Wurdinger Mashups 6 Neue Mashup-Ansätze S. Endrullis Aktuelle

11

12

Queries

• Web-scale• Multiple domains • Exploit structures & mappings for query answering

• Clustering • Approximated Mappings

Page 7: Seminar WS 2010/11 - uni-leipzig.de · Data Spaces 4 Einführung und Systeme D. Aumüller 5 Probabilistic Mappings K. Wurdinger Mashups 6 Neue Mashup-Ansätze S. Endrullis Aktuelle

13

"A web mashup is a web page or applicationthat combines data from two or more external online sources." (ProgrammableWeb)

"A mashup is a web application that combines data from more than one sourceinto an integrated experience." (Wikipedia)

Leichtgewichtiger Ansatz zur Datenintegration

14

hotelMapSearch.com

Page 8: Seminar WS 2010/11 - uni-leipzig.de · Data Spaces 4 Einführung und Systeme D. Aumüller 5 Probabilistic Mappings K. Wurdinger Mashups 6 Neue Mashup-Ansätze S. Endrullis Aktuelle

15

Mashup Editor

Mashup Builders

Data Transformation/Data Aggregation

Source Wrappers

Managing mashup compo-nents, e.g., maps, feeds

Data transformationworkflows

InformationExtraction

16

Einfache Formen der Datenintegration ◦ Map-Visualisierung über Koordinaten/Adressen◦ einfache Workflows, zB zum Mischen von

Feeds/Suchmaschinenergebnissen◦ zum Teil GUI-basierte Definition (z.B. Yahoo Pipes)

Einschränkungen ◦ Einfache Ergebnis-Verarbeitung (Merge statt Match) ◦ Unzureichende Datenqualität ◦ Keine Anpassung von Anfragen für unterschiedliche Quellen

Enterprise-Mashups◦ IBM Mashup Center, JackBe Presto, Serena ◦ Fokus auf Unternehmensdaten, weniger Webdaten

Page 9: Seminar WS 2010/11 - uni-leipzig.de · Data Spaces 4 Einführung und Systeme D. Aumüller 5 Probabilistic Mappings K. Wurdinger Mashups 6 Neue Mashup-Ansätze S. Endrullis Aktuelle

17

B C

RDF

RDFlink

A D E

RDFlinks

RDFlinks

RDFlinks

RDF

RDF

RDF

RDF

RDF RDF

RDF

RDF

RDF

Semantic Web-Initiative zur Vernetzung strukturierter Webdaten◦ Nutzung von URI, RDF-Tripeln und RDF-LinksDaten/Link-Extraktion aus Webseiten (Übergang vom Dokumenten-Web zum Daten-Web)

18

Page 10: Seminar WS 2010/11 - uni-leipzig.de · Data Spaces 4 Einführung und Systeme D. Aumüller 5 Probabilistic Mappings K. Wurdinger Mashups 6 Neue Mashup-Ansätze S. Endrullis Aktuelle

19

ca. 90% aller Links im Life Science-Bereich (2009)

20

Schema/Ontologie-Matching

Schema/Ontologie-Merging

Objekt-Matching (und -Fusion)

Page 11: Seminar WS 2010/11 - uni-leipzig.de · Data Spaces 4 Einführung und Systeme D. Aumüller 5 Probabilistic Mappings K. Wurdinger Mashups 6 Neue Mashup-Ansätze S. Endrullis Aktuelle

21

22

Electronics

DVD Recorder

Digital CamerasDigital Photography

Electronics & Photo

TV & Video

DVD Recorder

Projectors

Camera & Photo

Digital Cameras

Shopping.Yahoo.com Amazon.com

Camcorders

Beamer

Page 12: Seminar WS 2010/11 - uni-leipzig.de · Data Spaces 4 Einführung und Systeme D. Aumüller 5 Probabilistic Mappings K. Wurdinger Mashups 6 Neue Mashup-Ansätze S. Endrullis Aktuelle

23 23airtravel.com delta.com hotwire.com

24

N-Wege Matching (Holistic Schema Matching)

Clustering ähnlicher Attribute zum Mischen

Page 13: Seminar WS 2010/11 - uni-leipzig.de · Data Spaces 4 Einführung und Systeme D. Aumüller 5 Probabilistic Mappings K. Wurdinger Mashups 6 Neue Mashup-Ansätze S. Endrullis Aktuelle

25 25

26

Page 14: Seminar WS 2010/11 - uni-leipzig.de · Data Spaces 4 Einführung und Systeme D. Aumüller 5 Probabilistic Mappings K. Wurdinger Mashups 6 Neue Mashup-Ansätze S. Endrullis Aktuelle

27

28

Data Partitioning for Distributed Entity Matching

Großer Suchraum, v.a. zur Evaluierung des Kartesischen Produkts der EingabeobjekteEffizienz durch◦ Blocking und/oder◦ Parallelität

ObjectSource

Blocking MT2

MT1

Match Tasks M1

M2

Mt

...

MatchResult

Parallel Matching

Page 15: Seminar WS 2010/11 - uni-leipzig.de · Data Spaces 4 Einführung und Systeme D. Aumüller 5 Probabilistic Mappings K. Wurdinger Mashups 6 Neue Mashup-Ansätze S. Endrullis Aktuelle

29

SEMINAR

30

Beschäftigung mit einem praxis- und wissenschaftlich relevanten Thema◦ kann Grundlage für Abschlussarbeit oder SHK-

Tätigkeit seinErarbeitung + Durchführung eines Vortragsunter Verwendung wissenschaftlicher (englischer) LiteraturDiskussionSchriftliche Ausarbeitung zum ThemaHilfe und Feedback durch zugeteilten Betreuer

Page 16: Seminar WS 2010/11 - uni-leipzig.de · Data Spaces 4 Einführung und Systeme D. Aumüller 5 Probabilistic Mappings K. Wurdinger Mashups 6 Neue Mashup-Ansätze S. Endrullis Aktuelle

31

Masterstudium ◦ Teil der Module Moderne Datenbanktechnologien

(bzw. Anwendungsspezifische Datenbankkonzepte)◦ Seminarmodul (oder Masterseminar) Bachelorstudium ◦ Seminarmodul (oder Bachelorseminar) ◦ (Vertiefungsmodul in Kombination mit Real. v. IS)

Alte Studiengänge (Diplom, etc.) ◦ Problemseminar

32

selbständiger Vortrag mit Diskussion (ca. 45 Minuten)◦ Abnahme der Folien durch Betreuer

schriftliche Ausarbeitung (ca. 15 Seiten)◦ Abnahme der Ausarbeitung durch Betreuer◦ Ausarbeitung soll zum Vortragstermin vorliegen

(Vorträge ab 3. Januar 2011)

aktive Teilnahme an allen VortragsterminenModul-Workload: 30h Präzenszeit,

120 h Selbststudium

Page 17: Seminar WS 2010/11 - uni-leipzig.de · Data Spaces 4 Einführung und Systeme D. Aumüller 5 Probabilistic Mappings K. Wurdinger Mashups 6 Neue Mashup-Ansätze S. Endrullis Aktuelle

33

max. 20 Teilnehmer Vortragstermine ◦ Montags, 9 –10:45 Uhr◦ Montags 11 - 12:45 Uhr, JG 1-22, ab 3. 1. 2011Themenzuordnung◦ Koordinierungstreffen mit Betreuer bis spätestens

5.11.2010◦ ansonsten verfällt Seminaranmeldung ◦ freiwilliger Rücktritt auch bis max. 5.11.2010

34

Nr. Thema Termin Betreuer Studenten

Linked Data1 Einführung, DBPedia und Dynamik M. Hartung2 Anfrageverarbeitung T. Kirsten3 Entity Resolution und Cleaning H. Köpcke

Data Spaces4 Einführung und Systeme D. Aumüller5 Probabilistic Mappings K. Wurdinger

Mashups6 Neue Mashup-Ansätze S. Endrullis

Aktuelle Match- und Merge-Techniken

7 Holistic Schema Matching A. Groß8 Schema- und Ontology-Merging S. Raunich9 Community-based Matching S. Maßmann10 Entity Resolution in der Cloud L. Kolb