Download - Folien CARESS Workshop - krebsregister … · Datentransformation, Datenqualitätsmanagement Fälle, Melder, Soziodemografische und Umweltdaten Integration verschiedener Datenanalysetechniken

Transcript

1 CARESS WorkshopAnalytische Informationssysteme für epidemiologische Krebsregister

Agenda

Yvette Teiken, Martin Rohde

2

25.11.2010

Pause (15 Minuten)

� CARESS Überblick (30 Minuten)

� Architektur, Historie, Konzepte

� CARESS Demo - Die alte Version (15 Minuten)

� Beispiele für die Definition von Untersuchungsregionen, Räumliche Auswertungen

� Beispiele für die Gesundheitsberichterstattung

� CARESS Demo - Die neuen Version (20 Minuten)

� Ad-Hoc-Datenanalysen

� Überlebenszeitanalyse als Beispiel für R Anbindung

� CARESS Neue Version - Stand und Planung (5 Minuten)

� Forschung & Entwicklung und Raum für Diskussionen (60 Minuten)

� Aktuelle CARESS Entwicklungen: Statistik, Facettenklassifikation, Verzerrte Karten, …

� Aktuelle CARESS Forschungsthemen: AutoMais, Visuelle Analyse

CARESS - CARLOS Epidemiological and Statistical Data Analysis Engine

3

25.11.2010

CARESS Ziele

� Ziel: Umfangreiche Analyseunterstützung

� Ad-Hoc-Anfragen

� Explorativen Datenanalysen

� Qualitätssicherung

� Monitoring

� Gesundheitsberichterstattung

� Bsp. Entdeckung von Einflussfaktoren auf Erkrankungen

� Ziel: Analytisches Informationssystem für Krebsepidemiologie

� Integrierter Datenbestände

� Flexible Aggregation der Daten

� Analyse mit Hilfe komplexer statistischer Verfahren

� Analyse unter Berücksichtigung des Raumbezugs

Analyseszenarien in Epidemiologischen Krebsregistern

Yvette Teiken, Martin Rohde

Analytische Anwendungen und Verfahren

Organisato-risches und Rechtliches

Infrastruktur für Daten und Informations-logistik

Wissen

Information

Daten

4

25.11.2010

CARESS Lösungsansatz

� Integration verschiedener Daten

� Datentransformation, Datenqualitätsmanagement

� Fälle, Melder, Soziodemografische und Umweltdaten

� Integration verschiedener Datenanalysetechniken

� OLAP (Online Analytical Processing)

� Fast Analysis of Shared Multidimensional Information

� Statistik

� Epidemiologische & räumlich-statistische Verfahren

� Explorative Datenanalyse

� Annahmen (Hypothesen) bildend, Visualisierungen

� Integration Geografische Daten

� Konzepte für die Berichterstellung

� Konfiguration von Berichten

� Cross Media Publishing

Datenanalysetechniken

Yvette Teiken, Martin Rohde

5

25.11.2010

CARESS Multidimensionales Datenmodell

12440-59

60-69

70+ 8/989/98

Data Cube

... Nds. HH HB

Flächenstaat Stadtstaat

Gesamt Dimensionen

(Klassifikationshierarchien)

60+

<60

Gesamt

Patientenanzahl

1998 Gesamt

Alter

Zeit

Gebiet

� Dimensionen

� Fakten/Kennzahlen

Yvette Teiken, Martin Rohde

6

25.11.2010

CARESS Historie

� Historie

� Ab 1993 CARESS (1. Generation)

� Eigener Geoserver InterGIS

� UNIX, EKN-Schema, feste Analyseschemata

� Ab 1999 CARESS (2. Generation)

� Multidimensionales Datenmodell MADEIRA

� NT/Windows 2000 Portierung

� Ab 2003 CARESS (3. Generation)

� Neue „Windows-Oberfläche“

� Excel-Anbindung, flexible konfigurierbare Auswertungen

� Datenmodell für Statistik auf Data Cubes

� Ab 2008 Neuentwicklung CARESS (4. Generation)

� Standardkomponenten, Standardschnittstellen

� Serviceorientierte Architektur

Von 1994 bis Heute

Yvette Teiken, Martin Rohde

� Einer der zentralen Gründe für die Neuentwicklung

� Bessere Integration von statistischen Verfahren

� Unabhängige Entwicklung der statistischen Verfahren vom analytischen Informationssystem

� Verwendung vorhandener R-Packages, z.B. periodR

� R-Package „Cancer“ Krebsepidemiologie (Eigenentwicklung)

� SDR, SMR/SIR, Kumulative Rate, rohes relatives Risiko,

� CMF/CIF, Erwartete Fallzahlen bzw. Raten

� Indirekt standardisierte Raten,…

� Simulation der Konstanzmethode (nach Schüler und Bopp)

25.11.2010

7 CARESS HistorieAktueller Stand

Yvette Teiken, Martin Rohde

0 1 2 3 4

01

000

02

000

03

00

004

00

005

00

00

600

00

700

00

0

0.71

1.41

2.12

2.83

3.53

4.24

4.95

5.65

1 1.5 2 2.5 3 3.5

0 10 20 30 40 50

-10

12

3

8

25.11.2010

CARESS Analyseverfahren

� R Package „ClusterGeo“ (auf Basis des Packages „spdep“)

� Moran‘s I und Geary‘s c

� R Package „SurvivalAnalysis“ (auf Basis des Packages „periodR“)

� Verwendung der Methoden der Periodenanalyse basierend auf dem Ansatz zur Berechnung der Sterbetafeln

� Kohortenbasierte Analyse möglich

� Ederer II- oder Hakulinen-Methode für relatives Überleben

� absolute und relative Überlebensraten (beides bedingt oder kumulativ) und Standardfehler

� Graphische und tabellarische Darstellung der Ergebnisse

� R Package „Diagram“ für spezielle Diagramme (Eigenentwicklung)

� Z.B. Zeitverlauf von Infektionskrankheiten

Beispiele

0 1 2 3 4 5

020

40

6080

100

Survival estimation

year of follow-up

cum

ulat

ive

rela

tive

sur

viva

l at e

nd

of fo

llow

-up

year

0 1 2 3 4 5

cumulative relativerelative follow-up-year specific

cumulative absoluteabsolute follow-up-year specific

Yvette Teiken, Martin Rohde

Technische Realisierung

� Data Warehouse: Einheitliche, auswertungsorientierte, qualitätsgesicherte und historisierte Datenbank als Datenbasis („Single Point of Truth“)

� On-line Analytical Processing (OLAP): Performance durch Anbindung eines OLAP-Serversüber standardisierte XML/A- bzw. MDX-Schnittstelle

� Statistik: Umfassende und erweiterbare Statistik-Funktionalität durch Anbindung der Statistik-Software R Project

� Raumbezug: Anbindung eines geografischen Informationssystems zur engen Verknüpfung statistischer und raumbezogener Daten

� Usability: Windows Presentation Foundation (WPF) zur Realisierung von Benutzungsoberflächen

� Integrationsfähigkeit: Schnittstellen zu MS-Office-Produkten und Web-Service-Programmierschnittstellen

� Internetfähigkeit: Zugriff über Internet durch Smart-Client-Technologie

� Mandantenfähigkeit: Nutzung einer Software-Instanz durch mehrere Mandanten durch flexibles, konfigurierbares Datenmodell

25.11.2010

9Aktuelle Entwicklungsschwerpunkte

Yvette Teiken, Martin Rohde

� Unterstützung von Standardschnittstellen

� Multidimensional Expressions (MDX)

� XML for Analysis (XMLA)

� Open GIS Simple Feature Access (OGC Standards)

� R als Lingua Franca der Statistik

� Systeme, welche die Schnittstellen unterstützen:

� PostgreSQL, MS SQL Server als RDBMS

� Pentaho Mondrian oder SQL Server Analysis Services als OLAP-Server

� PostgreSQL (später SQL Server 8) als Geodatenbank

� R Project als Statistiksoftware

25.11.2010

10 CARESS Technologien

Yvette Teiken, Martin Rohde

Standardschnittstellen und -anfragesprachen

11

25.11.2010

CARESSArchitektur der neuen Version

OLAP-ServerPentaho/MondrianMS SQL-Server

CARESS-Services.NET 3.5 WCF

StatistikR Project

CARESS.NET 3.5 WPF

Data Warehouseinkl. Star-/Snowflake

Server

Client

GeodatenbankPostGIS

Yvette Teiken, Martin Rohde

12 MUSTANG/CARESS Innovationsmodell

Anwendungsorientierte ForschungProjekte und Plattformentwicklung

MUSTANG

- Agile Softwareentwicklung - Testgetriebene Entwicklung- Continuous Integration- Modellgetriebene Entwicklung- Interne .NET-Schulungen

Diss.-Thema „Intelligente

Datenanalyse“

IP „Karten mit Virtual Earth“

Diss.-Thema „Software

Produktlinien“

Diss.-Thema „Analytisches PM“

DA „Überwachung Annotierter

Strategy Maps“

OFFIS e.V., Bereich „Gesundheit“, Themenfeld „Datenmanagement und -analyse“

InfoAnalytics AG (Spin-off)

CARESS (Krebsregister)

INITIAL (LIGA)

Gesundheit NRW

(LIGA)

DA „Metamodell für Reporting“

PG „Visual Analytics“

Diss.-Thema „Modellgetriebene

Bereitstellung“

Yvette Teiken, Martin Rohde

13

25.11.2010

CARESS Raumbezug bei der DatenanalyseDrei Ebenen

� Auswahl zu betrachtender Regionen

� Dynamische Klassifizierung (Ad-Hoc-Kategorien)

� Auswahl von Regionen anhand geografischer Merkmale

�Z.B. Abstand von Emissionsquellen

� Auswahl von Regionen in einer Karte

� Prädikatbasierte Auswahl (Versorgungsstrukturen, …)

� Statistische Verfahren

� Clusterindizes – Nachbarschaft für Berechnung

� Räumliche Regression

�Interpolationsverfahren

� Ergebnisdarstellung

� Thematisch eingefärbte Karten

� Punktdarstellungen

� Diagramme in Karten

Auswahl von Regionen und Ergebnisdarstellung

Yvette Teiken, Martin Rohde

14

25.11.2010

CARESS Berichtswesen

� Zusammenfassung von Ergebnissen zu Berichtsmappen

� Konfigurationsmöglichkeiten

� Visualisierungen (und Layouteinstellungen)

� Auswertungsreihen für gleichartige Ergebnisse

� Zusatzinformationen für die Berichtsgenerierung

� Cross Media Publishing

� MUSTANG XML-Export

� Formatierung der Berichte (XSLT)

� für Veröffentlichungen im Internet (HTML)

� für Veröffentlichungen als PDF-Dateien

� für ein Portal (mit Ad-Hoc-Anfragen)

� Management-Cockpits / Management-Mappen

Yvette Teiken, Martin Rohde

CARESS und SurvA DEMO15

25.11.2010

Zeitplan Neuentwicklung

� 6.12.2010: Testinstallation einer „kleinen“ Version im EKN

� Diagramm, Karte, evtl. Tabelle

� Teilautomatisierte Übernahme der Altdaten

� Q1 2011:

� Installation in den (anderen) epidemiologischen Krebsregstern

� Erweiterung um Tabellen-Komponenten

� Q2 2011: Speicherung

� Persistierung von Analyseergebnissen

� Q3 2011: Berichtswesen

� Q4 2011: Räumlich-statistische Analysen

16

25.11.2010Yvette Teiken, Martin Rohde

Zugang zur Demo Version

� Kleine Demo zum Ausprobieren

� Diagramm

� Karte

� Überlebenszeit Analyse

� Zugang mittels Remotedesktop

� Fünf Zugänge

� Mehrfachverteilung � Zwangsabmeldung

� Begrenzter Zeitraum

� Verfügbarkeit: Ende nächster Woche

� Bei Interesse in Liste eintragen

� Benachrichtigung per Mail

17

25.11.2010Yvette Teiken, Martin Rohde

Aktuelle Weiterentwicklungen

� Themenschwerpunkt „ Versorgungsforschung“ im OFFIS-Bereich Gesundheit

� Professur für Angewandte Statistik (Prof. Dr. Kneib)

� Räumlich/kartographische Verfahren:

� räumliche (nicht kategorielle) Glättungsverfahren

� Geglättete kleinräumige Karten

� Einbindung von Interpolationsverfahren (z.B. Kriging)

� Verbindung mit den Krebsdaten

� Einbindung räumlicher Regressionsverfahren

� Beantragte Projekte

� Vorlaufforschung: „Methoden für die Versorgungsplanung“

� Abschätzung der Fallzahl kommende Jahre, …

� Weitere Drittmittelprojekte (EFRE, EU, BMBF) beantragt

18

25.11.2010

Versorgungsforschung, Statistische Verfahren

Yvette Teiken, Martin Rohde

Aktuelle Weiterentwicklungen

� Punktdaten

� Kennzahlen

� Punktgröße

� Farbe

� Zusatzinformationen

� Statistik

� Einzugsgebiete

� Interpolation

19

25.11.2010

Melder-/Patienten-/Umweltbezogene Daten

Yvette Teiken, Martin Rohde

Aktuelle Weiterentwicklungen20

25.11.2010

Facettenklassifikation

� Facettenklassifikation

� Einfacher Zugang zu Kennzahl (im EKN etwa 300 Kennzahlen)

� Klassifizierung von Kennzahlen über verschiedene Facetten

� Facetten: Dimensionskategorien (Granularitästebenen und einzelne Ausprägungen)

� Facetten: Z.B. „Moratlität“, „Inzidenz“, „Allgemein“ und weitere Beschreibungen (z.B. „Qualitätskennzahl“, „Risikokennzahl“, …)

Yvette Teiken, Martin Rohde

Aktuelle Weiterentwicklungen

Vortragender

21

25.11.2010

� Kartenanamorphosen

� Algorithmus, der die Länder im Verhältnis zum Kennzahlwert vergrößert oder verkleinert .

� Relative Bedeutung von Objekten besser wahrnehmbar als bei Choropletenkarten

� Mehrere Kennzahlen auf thematischen Karten darstellbar

Visual Analytics

Visuelle Analyse

� Multitouch Video

22

25.11.2010Yvette Teiken, Martin Rohde

AutoMais

� Ziel: Automatisierte Erzeugung von CARESSSchema

� Beschreibung von Aspekten mittels Modellierungssprachen

� Erzeugung von Software und Schemas mittels modellgetriebener Software Entwicklung

� Beispiele:

� Beschreibung von Würfeln

� Konsistenzbedinungen

� Integrationsaspekte

� Integration Endanwender

� Erste Ansätze: Altendatenübernahme

23

25.11.2010Yvette Teiken, Martin Rohde

CARESS Team