Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt THESEUS MEDICO

14
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt THESEUS MEDICO Florian Stegmaier, Kai Schlegel, Mario Döller und Harald Kosch Lehrstuhl für Verteilte Informationssysteme, Universität Passau Sascha Seifert, Martin Kramer, Thomas Riegel und Andreas Hutter Siemens Corporate Technology Marisa Thoma und Hans-Peter Kriegel Lehr- und Forschungseinheit für Datenbanksysteme, LMU München Matthias Hammon und Alexander Cavallaro Universitätsklinikum Erlangen Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011

description

Derzeitig basiert der diagnostische Prozess eines Krankheitsverlaufes in Krankenhäusern auf einer manuellen Beurteilung von Patientendaten zu unterschiedlichen Zeiten und unterschiedlichen Modalitäten (z. B. CT-Aufnahmen vs. MRT). Diese Aufnahmen werden in sehr großen Datenarchiven (Picture Archiving and Communication System, PACS) gespeichert, wohingegen einzelne Datensätze aufgrund von fehlenden aussagekräftigen semantischen Annotationen nur bedingt effizient angefragt werden können.In dieser Präsentation wird ein generischer Ansatz vorgestellt, um die heterogenen Kliniksysteme durch moderne, semantisch aussagekräftige Technologien zu verbinden und uniform anfragbar zu machen. Durch einen uniformen Zugriff bezüglich Speicherungsform und Anfrageparadigma wird auf diese heterogene Datenlandschaft eine hochwertige semantische Diagnoseunterstützung ermöglicht.

Transcript of Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt THESEUS MEDICO

Page 1: Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt THESEUS MEDICO

Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt THESEUS MEDICO

Florian Stegmaier, Kai Schlegel, Mario Döller und Harald Kosch Lehrstuhl für Verteilte Informationssysteme, Universität Passau

Sascha Seifert, Martin Kramer, Thomas Riegel und Andreas Hutter Siemens Corporate Technology

Marisa Thoma und Hans-Peter Kriegel Lehr- und Forschungseinheit für Datenbanksysteme, LMU München

Matthias Hammon und Alexander Cavallaro Universitätsklinikum Erlangen

Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011

Page 2: Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt THESEUS MEDICO

Agenda »  Gegenwärtige Situation

»  Allgemeine Informationen zu THESEUS MEDICO

»  Systemarchitektur

»  Generische Datenintegration mittels Mediatorsystem AIR

»  Top 10 Features von THESEUS MEDICO

»  Resümee

Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011

Page 3: Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt THESEUS MEDICO

Gegenwärtige Situation »  Derzeitiger Zustand der informatischen Systemlandschaft im medizinischen Sektor:

»  In sich geschlossene Systeme »  Fehlende Schnittstellen bzw. Austauschmöglichkeiten von Daten aufgrund von strengen

Sicherheitsbestimmungen »  Modellierung der Daten mit verschiedensten proprietären bzw. standardisierten Formaten

»  Fehlende Interoperabilität belastet den diagnostischen Prozess: »  Manuelle Beurteilung von Daten verschiedener Modalitäten (z.B. Begutachtung von CT-

Aufnahmen und Laborwerte) »  Umständliche bzw. offline Kombination von mehreren Datenquellen (z.B. Recherche auf

PubMed oder Wikipedia)

»  Ziel dieses Vortrages: Vorstellung eines generischen Ansatzes, um die heterogenen Kliniksysteme durch moderne,

semantisch aussagekräftige Technologien zu verbinden und uniform anfragbar zu machen.

Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011

Page 4: Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt THESEUS MEDICO

Allgemeine Informationen zu THESEUS MEDICO »  THESEUS ist ein vom Bundesministerium für Wirtschaft und Technologie (BMWi) gefördertes

Forschungsprogramm mit dem Ziel, den Zugang zu Informationen zu vereinfachen.

»  Fokus liegt dabei auf dem Einsatz von Semantic Web Technologien.

»  Aufgeteilt in mehrere Anwendungszenarien (z.B. Contentus – Mediathek der Zukunft)

»  MEDICO ist ein 5-jährig gefördertes Teilprojekt, mit dem Ziel die Radiologie und die Krebsdiagnostik im Bezug auf semi-automatische Befundung und Suche zu verbessern.

»  MEDICO Konsortium: »  Siemens AG (Use-Case Lead) »  Fraunhofer IGD »  Universitätsklinikum Erlangen »  Deutsches Forschungszentrum für künstliche Intelligenz (DFKI) »  Ludwig-Maximilians-Universität München

Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011

Page 5: Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt THESEUS MEDICO

Systemarchitektur

Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011

»  Globaler Datenbestand umfasst ca. 630 Patientendatensätze (Ganz-Körper CT-Aufnahmen) zur Kontrolle der Lymphknoten und der Läsionssuche:

»  Annotation von ca. 100 CT-Aufnahmen mit semantischen Konzepten aus FMA und RadLex »  Manuelle Annotation von 574 CT-Aufnahmen durch medizinische Experten des

Klinikpartners

Page 6: Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt THESEUS MEDICO

Überblick über die Wissensbasen »  PACS:

»  Umsetzung mittels DCM4CHEE (sowohl Server als auch Protokollkomponenten) »  Implementiert vollständig den DICOM Standard »  Anonymisierte Patientendatensätze des Universitätsklinikum Erlangen

»  Semantische Datenbank: »  Umsetzung mittels Jena TDB, Anfragesprache SPARQL »  Integriert FMA, RadLex und MEDICO Ontologie »  Besonderheiten der MEDICO Ontologie: Bild- und Befundannotation in einem Modell,

Unterstützung von zeitlichen Anfragen, Multimodalität (z.B. MRT und CT), erweiterbare Menge an Vokabularien bzw. Ontologien

»  Bildmerkmalsdatenbank: »  Umsetzung mittels MySQL, verwendbar via API »  Benutzte Bildmerkmale zur Ähnlichkeitsbestimmung: Grauwerthistogramme, Haralick

Textur-Features und dimensionsweise Größenangaben

Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011

Page 7: Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt THESEUS MEDICO

Betrachtete Dimensionen der Interoperabilität »  Datenzugriff: Unterschiedliche Anfragesprachen bzw. APIs (u.a. SPARQL vs. SQL vs. DICOM

Protokoll)

»  Informationsgehalt: Jede Datenbank bzw. Schnittstelle bietet spezielle Anfragefunktionalitäten (z.B. Ähnlichkeitsanfrage vs. Metadaten-basierte Anfrage)

»  Modellierung: Verschiedenen Aufgaben im Projekt MEDICO erfordern auch verschiedene Arten der Datenmodellierung (u.a. RadLex vs. FMA vs. DICOM)

»  Durch Verbesserung der Interoperabilität und einer vereinheitlichten Anfragefunktionalität könnte der Suchprozess wesentlich verbessert werden. Beispiel:

»  „Finde Läsionen, die zu einer Region einer bestimmten CT-Aufnahme ähnlich sind, sich zudem innerhalb der Leber befinden und der betroffene Patient sowohl weiblich als auch älter als 60 Jahre ist!''

Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011

Page 8: Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt THESEUS MEDICO

Umsetzung der uniformen Anfragefunktionalität »  Einsatz der Metasearchengine AIR:

»  Vereinheitlichte Suchschnittstelle (Mediator) in einem heterogenen, verteilten Multi-mediasuchsystem.

»  Implementiert die standardisierte Anfragesprache MPEG Query Format als Abstraktionsschicht.

»  „Minimal invasive“ Integration in Gesamtkonzept durch Interpreter.

»  Definition eines globalen Schemas ermöglicht... »  Addressierung: Inhalte der Wissensbasen werden in XML serialisiert und können so in

einer globalen Ergebnismenge konsolidiert werden. »  Aggregation: Wissensbasen geben ihren semantischen Link zu anderen bekannt um

Konsolidierung ausführen zu können.

Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011

Page 9: Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt THESEUS MEDICO

Exkurs: MPEG Query Format (MPQF) »  Internationaler Standard seit 2008 (ISO/IEC IS 15938-12).

»  XML basiertes Anfrageformat spezialisiert auf Multimediaanfragen.

»  Features: »  Kombination von Information und Data Retrieval (sowohl fuzzy als auch exaktes Retrieval). »  Unterstützung von multimedia-spezifischen Operationen (z.B. Query-By-Example oder zeitliche Suche). »  Synchroner bzw. asynchroner Bearbeitungs- modus verfügbar. »  Neben Anfragesprache standardisiert MPQF den Anmeldeprozess der Datenbanken mit ihren Fähigkeiten.

»  Details siehe http://www.mpegqueryformat.org/

Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011

Page 10: Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt THESEUS MEDICO

Exemplarische Anfrageverarbeitung innerhalb AIR »  „Finde Läsionen, die zu einer Region einer bestimmten CT-Aufnahme ähnlich sind, sich zudem

innerhalb der Leber befinden und der betroffene Patient sowohl weiblich als auch älter als 60 Jahre ist!'‘

Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011

Page 11: Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt THESEUS MEDICO

Arbeitsschritte zur Anbindung neuer Datenbasen »  In 3 Schritten ist eine neue Wissensbasis angebunden:

»  Funktionale Beschreibung der Wissensbasis mittels MPQF: Abbildung der Suchfunktionalität auf MPQF Operation(en), Beschreibung der Ein- bzw.

Ausgangsdaten, etwaiges Metadatenformat (Namespace), Erreichbarkeit (URL bzw. Klasse).

»  Definition der semantischen Verknüpfung: Verbindung zum bisherigen globalen Schema muss dem Mediator mitgeteilt werden um

von der föderierten Abarbeitung erfasst zu werden.

»  Implementierung des MPQF Aufsatz: MPQF Aufsatz transformiert die erhaltenen MPQF Daten in das unterliegende

Anfrageparadigma bzw. API Aufrufe.

Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011

Page 12: Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt THESEUS MEDICO

»  Please visit http://www.youtube.com/user/TheseusMedico to watch the video.

Page 13: Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt THESEUS MEDICO

Resümee

»  Durch Einsatz einer Middleware und im speziellen einer standardisierten Anfragesprache als Abstraktionsschicht für Anfrage- bzw. Registrierungsfunktionalität ist eine generische Datenintegration ermöglicht worden.

»  Anfragesprache erlaubt das schnelle Anpassen von gewünschten Ergebnissen (Sortierung bzw. Gruppierung)

»  Derzeitig werden die ersten Prototypen in einer Klinikstudie auf ihre Leistungsfähigkeit bzw. Benutzerfreundlichkeit eingesetzt.

»  Zukünftige Arbeiten: »  Integration von Cloud Diensten zur Errechnung von Features »  Integration von Linked Open Data Datenquellen (z.B. PubMed oder DrugBank)

Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011

Page 14: Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt THESEUS MEDICO

Vielen Dank für die Aufmerksamkeit!

Fragen?

Kontakt: [email protected] fstegmai (Twitter) florian.stegmaier (Skype)

Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011