Computervermittelte Informationsintegration und Entscheidungsverhalten
Informationsintegration Einführung 18.10.2005 Felix Naumann.
-
Upload
erdmann-gerbracht -
Category
Documents
-
view
118 -
download
2
Transcript of Informationsintegration Einführung 18.10.2005 Felix Naumann.
InformationsintegrationEinführung
18.10.2005
Felix Naumann
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 2
Integrierte Informationssysteme
Oracle,DB2…
Web Service
Anwen-dung
HTML Form
IntegriertesInfo.-system
Datei-system
Anfrage
Integriertes Informations-system
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 3
Einige Untertitel
Content Merging Objekt Fusion Datenintegration Data Amalgamation Data Cleansing Intelligent Information Integration: I³ Data Consolidation
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 4
Überblick
Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am
Beispiel Ausblick auf das Semester
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 5
Forschungsgruppe Informationsintegration
Juniorprofessor: Felix Naumann Wissenschaftliche Mitarbeiter / Doktoranden
Jens Bleiholder Melanie Weis Armin Roth Alexander Bilke
Studentische Hilfskräfte Karsten Draba (HumMer Projekt) Veronique Tietz (Aladin Projekt) Erik Witzmann (DB2 Metasearch Projekt)
http://www.informatik.hu-berlin.de/mac/
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 6
DBMS DBMS XML XML... ...
Schema conversion
RDB2XML
RDB2XML
XML2RDB
XML2RDB
QueryOptimization
SQL XQuery
DataFusion
Que
ry E
xecu
tion
DuplicateDetection
Graphical Query Builder
SQL XQuery
Data Visualization
Tables XML
Metadata Services
MetadataRepository
SchemaMapping
SchemaMatching
DataLineage
DataStatistics
Samples
RDB XML
RDB XML
Data transformation
Hum
Mer
–
Hum
bol
dt M
erge
rD
ata
Im
port
U
ser
Inte
rfac
e
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 7
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 8
Laufende Studien- und Diplomarbeiten
Diplomarbeiten Entwicklung einer Testumgebung für ein Peer Data
Management System Entwurf eines Peer Data Management Systems mit
Steuerungs- und Simulationskomponente Datentransformation mittels Schema Mapping Tree-Edit Distance für XML Duplikaterkennung
Studienarbeiten Transformation von DB2 Datenbanken in XML Dokumente
mittels SQL/XML Similar Pattern Search in History Data Minimum Union als DB2 table function
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 9
Freie Stellen
Studentische Hilfskraft HumMerDB: Testdaten für den Humboldt Merger 80h / Monat Demnächst ausgeschrieben
Studien- und Diplomarbeiten Zurzeit keine frei Themenvorschläge sind aber willkommen Mehr gegen Ende des Semesters
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 10
Überblick
Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am
Beispiel Ausblick auf das Semester
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 11
Voraussetzungen
Vordiplom VL Datenbanken I (DBS I) oder äquivalente
Grundkenntnisse in Datenbanken Falls Sie Fragen haben in Bezug auf die äquivalenten
Grundkenntnisse, schreiben Sie mir bitte eine Email. Es genügt nicht, DBS I parallel zu dieser VL zu hören.
Einordnung in den Fahrplan zum Datenbankstudium Voraussetzung zur Zulassung zur mündlichen Prüfung
ist die erfolgreiche Teilnahme am Praktikum.
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 12
Termine Vorlesung
Dienstags 13:15 – 14:45 Donnerstags 13:15 – 14:45
Praktikum Dienstags 15:15 – 16:45 Erstes Praktikum: 25.10.
Letzte Vorlesung: 16.2.2005 Weihnachten: 19.12. – 29.12. Insgesamt 32 Veranstaltungen Prüfungstermine
i.d.R. 2 Wochen nach Wintersemester i.d.R. 2 Wochen vor Sommersemester
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 13
Andere Veranstaltungen
Fahrplan durch das DB Studium http://www.informatik.hu-berlin.de/mac/fahrplandatenbanke
n.html
Forschungsseminar Neue Entwicklungen in der Bioinformatik und
Informationsintegration Termin: Mittwochs 11 Uhr in 4.113
Weitere: Blockseminar: Graphmanagement in Datenbanken
Dozent: Prof. Ulf Leser
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 14
Feedback Schon Evaluation angesehen?
http://www.informatik.hu-berlin.de/~koessler/evalu/Fragebogen_auswertung.html
Evaluation am Ende des Semesters Fragen bitte jederzeit!
In der VL Sprechstunde: Donnerstags, nach der Vorlesung (15 Uhr) Email: [email protected]
Anregungen zur Verbesserung: Z.B. zu
Gebrauch der Folien Infos im WWW
Jeweils nach der VL oder in der Sprechstunde Oder per Email: [email protected]
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 15
Literatur Leider kein geeignetes Lehrbuch Themen u.a. aus
Föderierte Datenbanksysteme. Konzepte der Datenintegration, Stefan Conrad, ISBN: 3540631763
Principles of Distributed Database SystemsM. Tamer Özsu, Patrick ValduriezISBN: 0136597076
Jeweils Hinweise in den Vorlesungen Alle genannten Artikel können von mir per Email angefragt
werden. Oder: Google Scholar: http://scholar.google.com/ DBLP: http://www.informatik.uni-trier.de/~ley/db/index.html CiteSeer: http://citeseer.ist.psu.edu/ Homepages der Autoren
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 16
Fotos
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 17
Praktikum Metasuchmaschine Web Services Phase I
Wrapper Web Service für eine Suchmaschine Phase II
Spezielle Web Services für die Metasuchmaschine, z.B. WrapperService: Automatische Erstellung eines neuen Suchmaschinen
Wrappers DirectoryService: Liste aller verfügbaren Suchmaschinen mit Metadaten SamplingService: Metadaten Sammlung OptimierungsService: Auswahl relevanter Suchmaschinen DuplikaterkennungsService: Erkennung doppelter HTML Seiten DatenfusionsService: Konfliktlösung verschiedener Suchergebnisse RankmergingService: Erstellung eines globalen Ergebnisrankings AnfrageerweiterungsService: Automatisches Umschreiben einer Anfrage
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 18
Praktikum
Scheinvoraussetzungen Besuch der Vorlesung Informationsintegration Aktive Teilnahme an den Praktikumsterminen Erfolgreiche Erstellung eines Wrapper-Services für eine
Suchmaschine in Einzelarbeit Kurze Vorstellung Ihres Wrapper-Services vor dem Plenum Erfolgreiche Erstellung eines weiteren Web Services für die
Metasuchmaschine in Gruppenarbeit Vorstellung Ihres Integrations-Services vor dem Plenum Erstellung eines Abschlußberichts in Gruppenarbeit
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 19
Überblick
Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am
Beispiel Ausblick auf das Semester
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 20
Integrierte Informationssysteme
Integriertes Informations-system
Oracle,DB2…
Web Service
Anwen-dung
HTML Form
IntegriertesInfo.-system
Datei-system
Anfrage
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 21
Was ist Informationsintegration?
Informationsintegration ist die Zusammenführung von Daten und Inhalt verschiedener Quellen zu einer einheitlichen Informationsmenge.
Informationsintegration ist die korrekte, vollständige und effiziente Zusammenführung von Daten und Inhalt verschiedener, heterogener Quellen zu einer einheitlichen und strukturierten Informationsmenge zur effektiven Interpretation durch Nutzer und Anwendungen.
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 22
Wo herrscht Informationsintegration?
Im weiteren Sinne Business-Integration Application-Integration Prozess-Integration (Workflow-Integration)
Im engeren Sinne Datenbanken und Informationssysteme
Verteilt Autonom Heterogen
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 23
Beispiele für Informationssysteme
Dateisystem Informationseinheit:
Flat file Anfrage:
File search, RegEx
Struktur: Flach oder
hierarchisch
Beispiele NTFS NIS FTP Zugriff
Einsatzgebiete WWW (HTML Dateien) Desktop-Anwendungen
(Textverarbeitung, etc.)
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 24
Beispiele für Informationssysteme
Datei Informationseinheit:
Zeile /Token Anfrage:
Parser Struktur:
Flach
Beispiele Komma-delimited files Annotated files
Einsatzgebiete SwissProt
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 25
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 26
Beispiele für Informationssysteme
Markup Datei Informationseinheit:
Tagged text Anfrage:
Parser, Anfragesprache Struktur:
Flach, hierarchisch oder graph-basiert
Beispiele XML HTML
Einsatzgebiete Web Services Messages Interoperationale
Anwendungen
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 27
Beispiele für Informationssysteme
Datenbank Anfrage:
Komplexe Sprache, z.B. SQL
Informationseinheit: Tupel / Attribut, Objekt
Struktur:Relational, OO, Hierarchisch
Beispiele Relationale DBMS OO DBMS Auch: XML DBMS
Einsatzgebiete Data Warehouses OLTP Banken/Versicherungen
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 28
Beispiele für Informationssysteme
HTML Formular Informationseinheit:
HTML Seite, Text Anfrage:
Suchworte, Formular (inkl. Radiobutton, dropdown-list, etc.)
Struktur:wie Markup Datei: Flach, hierarchisch oder graph-basiert I.d.R. flach
Beispiele Einfache Suchformulare Komplexe
Anfrageformulare Einsatzgebiete
Suchmaschinen Reisedienste Kataloge
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 29
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 30
Beispiele für Informationssysteme Web Service
Informationseinheit:XML Dokument
AnfrageXML Dokument
Struktur:Wie XML: Flach, hierarchisch,
graph- basiert
Beispiele Einfach:
Temperaturdienst, etc Komplex:
Reservierungen (Schachtelung und Verknüpfung von Web Services)
Einsatzgebiete Intra-organisatorische
Workflows E-Marketplaces Datenaustausch
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 31
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 32
Beispiele für Informationssysteme
Anwendung Informationseinheit:
Java Objekt, Text Anfrage:
via Anwendungs-schnittstelle oder
GUI Struktur:
Objekt (Interface)Display (GUI)
Beispiele Java, C++, etc Legacy
Informationssysteme
Einsatzgebiete Komplexe Analysen
(Data Mining, Statistik)
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 33
Beispiele für Informationssysteme
Integriertes Informationssystem Verhält sich in Anfrage,
Struktur und Informationseinheit je nach Design: DBMS HTML Formular Web Service ...
Beispiele Data Warehouses Föderierte Datenbanken Portale
Einsatzgebiete: Meta Search Life Sciences Int. Unternehmen Intranets
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 34
Integrierte Informationssysteme
Integriertes Informations-system
Oracle,DB2…
Web Service
Anwen-dung
HTML Form
IntegriertesInfo.-system
Datei-system
Anfrage
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 35
Integrierte Suchmaschinen
Meta-Suchmaschine
IntranetIndex
Thesaurus
Anfrage
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 36
Integration = Abstraktion
1. Logisches DB-Design abstrahiert von physischem DB-Design
Datenunabhängigkeit Anfragen: Prozedural vs. deklarativ
2. Informationsintegration abstrahiert von logischen DB Design
Quellenunabhängigkeit (Speicherort) Datenmodell- und Syntaxunabhängigkeit Unabhängigkeit von semantischen
Unterschieden (hoffentlich!)
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 37
Anwendungsgebiet 1: Business[Halevy04]
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 38
Anwendungsgebiet 2: Wissenschaft [Halevy04]
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 39
Anwendungsgebiet 3: Das Web[Halevy04]
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 40
Informationsintegration: Ein altes Problem Seit 50 Jahren auf der Forschungsagenda Frühe Systeme in den 70ern Integration per Hand natürlich noch früher Neue Probleme
Viele, viele Quellen Heterogenität Neue Arten von Daten (XML, GIS, OO,...) Neue Arten von Anfragen (Search, UDFs,...) Neue Arten von Ergebnissen (Ranking, Visualisierung, ...) Neue Arten von Nutzern (Laien, Manager, Admins, ...)
Alon Halevy: „It‘s plain hard!“ [Halevy04]
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 41
Warum ist es so schwer? [Halevy04]
System-bedingte Gründe Verschiedene Plattformen Anfragebearbeitung über mehrere Systeme
Soziale Gründe Finden relevanter Daten in Unternehmen Beschaffen relevanter Daten in Unternehmen Menschen zur Zusammenarbeit überreden
Logik-bedingte Gründe Schema- und Datenheterogenität Dies ist unabhängig von der jeweiligen
Integrationsarchitektur.
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 42
Überblick
Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am
Beispiel Ausblick auf das Semester
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 43
Informationsintegration
Fusion Optimierung VisualisierungIdentifikationIntegration
Web Service
B
Web Service
A
<pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren></pub>
<publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year></publication>
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 44
Beispiel – Web Service A
Web Service A Standort: Trier Operation:
getPubByAuthor(firstName, lastName) getPubByTitle(title)
Output-Struktur:
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 45
Beispiel – Web Service A Output
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 46
Beispiel – Web Service B
Web Service B Standort: Humboldt-Universität Operation: myPubs(Autor, Jahr) Struktur:
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 47
Beispiel – Web Service B Output
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 48
Integration von Web Services A & B
1. Nutzerschnittstelle2. Schema Integration / Schema Mapping3. Anfrage-Umwandlung4. Zeit abschätzen (Optimierung)5. Requests an beide Services abschicken6. Antworten einholen7. Objektidentifikation8. Integrationsschritte
1. Konfliktlösung etc.2. Entscheidung kleinster gemeinsamer Nenner?3. Durchführung (deklarativ, prozedural)
9. Anzeige beim Nutzer
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 49
Nutzerschnittstellen
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 50
<pub> <Titel> </Titel> <Autoren> <Autor> </Autor> <Autor> </Autor> </Autoren> <year> </year></pub>
Informationsintegration
Web Service
B
Web Service
A
<pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren></pub>
<publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year></publication>
Schemaintegration
Schema Mapping
Modellierung durch eine Menge von Anfragen (Views)
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 51
Anfrage Umwandlung
Integration der Anfrage durch Mediator: Integrierte Schnittstelle Z.B.
Concat(First Name, Last Name) = Autor
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 52
Anfrageoptimierung
Was ist besser: Eine schnelle Antwort oder vollständige Antwort? Web Service A in Trier (remote) Web Service B in Adlershof (local) Web Service A hat mehr Attribute und mehr Objekte. Web Service B hat weniger Attribute.
Außerdem: Eine Suche nach „year“ kann nur durch Web Service B
beantwortet werden. Transformationen können teuer sein.
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 53
Zwei Resultate
Web Service A
Web Service B
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 54
Schema Matching
?
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 55
Objektidentifikation
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 56
Objektidentifikation
Edit-distance: 5
Edit-distance: 6Zusammen?
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 57
Stand der Dinge
Wir haben die heterogenen Informationen. Wir wissen, was wir integrieren wollen. Aber noch nicht wie:
Integriertes Schema Integrierte Daten
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 58
Angestrebtes Integrationsergebnis
Integriertes Schema:
=
+
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 59
Angestrebtes Integrationsergebnis
Integrierte Daten:
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 60
Integrierte Daten – was ist passiert?
Konflikt-lösung
Neu-Strukturierung
Vorher: „Naumann“
Neu
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 61
Implementierung
Auf Folien ist alles klar, aber wie implementieren? Deklarativ?
SQL, XQuery, XSLT Oft nicht alles möglich Langsam
Prozedural? Java, C++ Schlecht wartbar Schnell
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 62
Anzeige beim Nutzer
Visualisierung der Datenherkunft Qualität veränderten Daten Operationen
Konflikt-lösung
Vorher: „Naumann“
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 63
Überblick
Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am
Beispiel Ausblick auf das Semester
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 64
Integrierte Informationssysteme
Integriertes Informations-system
Oracle,DB2…
Design time
Web Service
Anwen-dung
HTML Form
IntegriertesInfo.-system
Datei-system
Anfrage
Architekturen
Anfragesprache
Schemamanagement
Wrapper
Run time
Anfrageausführung
Optimierung
Anfrageplanung
Datenfusion / ETL
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 65
Erste Hälfte
1. Einführung in die Informationsintegration2. Szenarien der Informationsintegration3. Verteilung und Autonomie4. Heterogenität5. Materialisierte und virtuelle Integration6. Klassifikation integrierter Informationssysteme und 5-Schichten
Architektur 7. Mediator/Wrapper-Architektur8. Global-as-View und Lokal-as-View Modellierung9. Global-as-View Anfragebearbeitung 10. SchemaSQL11. Verteilte Anfragebearbeitung12. Dynamische Programmierung in verteilten Datenbanken13. Top-N Anfragen
ProblemstellungArchitekturenModellierungOptimierung
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 66
Zweite Hälfte
1. Informationsqualität2. Duplikaterkennung3. ETL & Data Lineage 4. Datenfusion - Union & Co.5. Containment & Local-as-View Anfragebearbeitung6. Bucket Algorithmus 7. Peer-Data-Management Systeme (PDMS) 8. Schema Mapping9. Schema Matching 10. Hidden Web11. Semantic Web12. Forschungsprojekte - TSIMMIS, Garlic, Revere, etc13. Data Streams
KonflikteAnfragen
SystemeMapping
18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 67
Fragen, Wünsche und Vorstellungen
Jetzt, oder...
Raum: IV.122 Sprechstunden: Donnerstags 15 Uhr
oder n.V. Email: naumann@informatik Telefon: (030) 2093 3905