Post on 08-Feb-2017
Qualitätsmanagement von (offenen) Verwaltungsdaten
Jürgen Umbrich Vienna University of Economics and Business juergen.umbrich@wu.ac.at
Johann Höchtl Donau-Universität Krems johann.hoechtl@donau-uni.ac.at
InhaltWarum ist die Datenqualiät von Bedeutung für Open Data?
Wer kann sich an der Qualitäts-Verbesserung beteiligen?
Das Projekt ADEQUATe - Zielsetzungen
Metriken zur Datenqualitätsmessung auf offenen Datenportalen
Funktionen eines Qualitäts-Community-Portals
Fragestellungen und Ausblick
2
Datenqualität im Life Cycle - Perspektivenwandel
Anforderung / Wunsch
Datenmonitoring
Priorisierung
Veröffentlichung
Kommunikation
Nutzung
3Krabina, Bernhard, Thomas Prorok, und Brigitte Lutz. 2012. „Open Government Vorgehensmodell“. Vorgehensmodell V2.0. Wien: KDZ. http://www.kdz.eu/de/webfm_send/1206.
Campi, Alessandro, Matteo Aletti, Yao Cheng, Piero Franceschini, Mariangela Rizzo, und Davide Sanapo. 2016. „Empowering the E-government data life cycle“. Zugegriffen Juni 6. https://www.w3.org/2013/04/odw/odw13_submission_16.pdf
Wünsche der DatenbenutzerInnen
4
Dateninhalte und Formate○ I would really prefer to have the data themselves consistent. [...]
metadata does not match; standards regarding the representation of their content
○ It would be really great if we could shift somehow to UTF-8
○ meta data for CSV files were incomplete [...] header for CSV was missing
○ no static identifiers for objects in data sets. This in turn leads to problems if you want to track changes related to these objects over time
Wünsche und Berichte der DatenbenutzerInnen
5
Kommunikation○ central communication point for exchanging experiences and
issues
○ Meta data should be written in English language
Zuverlässigkeit○ Servers are restarted every day [...] hosted data becomes
unavailable
Wünsche und Berichte der DatenbenutzerInnen
6
Verfügbarkeit von Daten?
7
Wer kann sich an der Qualitäts-Verbesserung beteiligen?
Publishers Algorithms Community
8
Beteiligung an der Qualitäts-Verbesserung (1/2)
DatenbereitstellerKorrektheit und Vollständigkeit der Metadaten und Daten
Verfügbarkeitsgarantie
Kontaktadresse und Bereitschaft für Feedback/Diskussionen
AlgorithmenAutomatische Verbesserung
Qualitätskontrolle (Verfügbarkeitsüberprüfung, Fehlende oder falsche Informationen)
Verbesserung der Metadaten ( z.b. Korrektes Format, Grösse, Encoding)
Verbesserung der Daten (encoding, umwandeln von “;” auf “,”)
Semi-automatische Verbesserung
Empfehlungen für änhliche Daten
...
9
Beteiligung an der Qualitäts-Verbesserung (2/2)
CommunityFeedback an den Datenbereitsteller (z.b. Wenn daten nicht verügbar sind, oder für
Verbesserungsvorschläge)
“Forken” von Daten
Einen bestehenden Datensatz kopieren und die verbesserte Version bereitstellen
….
Mehr Informationen dazu später in der Präsentation
10
Was ist ?
12
Was ist ? ✓ 3 Partners:
1.Semantic Web Company
2.Donau Universität Krems
3.WU Wien
✓ 30 Monate Projektlaufzeit von Okt. 2015 - Mai 2018
✓ 2 Usecase Partner: data.gv.at & opendataportal.at
✓ Ziel: Verbesserung der Datenqualität durch Qualitätsmonitoring & Kontrolle
Automatische Algorithmen
Verbesserung der Daten durch die Anwender ( Community)
13
Metriken zur Datenqualitätsmessung auf offenen Datenportalen
14
Verschiedene Dimensionen und Details (1/2)Wie ausführlich sind die Daten beschrieben?
Gibt es Informationen zur Lizenz, Format, Grösse, Beschreibung, zeitliche und räumliche Ausdehnung, Kontaktstellen, unterschiedliche Sprachen
Wie komplett sind die Daten?Fehlende Werte, Fehlende Headers bei CSV
Verfügbarkeit von Daten?
Sind die Daten ein einer offenen Lizenz und Format verfügbar?CC-BY, CSV vs. XLS
15
Konformanz mit existierenden Standards?Dateiformat
Lizenz ID
Datumsangaben (ISO standard?)
Wie akkurate sind die Daten beschrieben?Richtiges Dateiformat, Grösse, Encoding, Updatezyklus, zeitliche & räumliche Ausdehnung
Wie einheitlich sind die Daten veröffentlicht?Gleiches Schema für unterschiedliche Versionen ( e.g. gleiche Headers und anzahl Spalten)
Gibt es unregelmässigkeit in den Werten ( Ausreisser)?
Verschiedene Dimensionen und Details (2/2)
16
In ADEQUATe: 11 Dimensionen & 46 Metriken
17
Open Data Portal Watch261 Open Data
portals
Weekly snapshots & Quality assessment
6 QUality dimensions
19 quality metrics
Focused on metadata
http://data.wu.ac.at/portalwatch/ 18
Funktionen eines Community-Portals
19https://open.wien.gv.at/site/riesenbaum-in-wien-entdeckt/#more-87184
Identifizieren - Beheben - Zurückgeben
20
1 47 11
2 48 15
1 47 11
2 48 151
1 47 11
2 47 15
2
Identifizieren - Beheben - Zurückgeben
21
Identifizieren - Beheben - Zurückgeben
22
Kontrolle von automatisierten Datenverbesserungen: Formate, Encodings, Identifikation von Konzepten
Behebung von Datenfehlern
Anreicherungen und Transformationen von Daten
https://github.com/antontarasenko/gpq/blob/master/notebooks/contracts_intro.ipynb
Kontakt und Team
23
Jürgen Umbrich Vienna University of Economics and Business Juergen.umbrich @ wu.ac.at
Johann Höchtl Donau-Universität Krems Johann.hoechtl @ donau-uni.ac.at
http://adequate.at/
http://vienna.theodi.org