Fachprojekt 3 Spatial Data Mining unter Schutz der ... · Ausgewählte Projekte & Tools am LS8...

Post on 17-Aug-2019

215 views 0 download

Transcript of Fachprojekt 3 Spatial Data Mining unter Schutz der ... · Ausgewählte Projekte & Tools am LS8...

Fachprojekt 3 Spatial Data Mining unter Schutz der Privatsphäre Dr. Thomas Liebig - TU Dortmund @t_liebig www.thomas-liebig.eu thomas.liebig@tu-dortmund.de

TU Dortmund, LS8: Künstliche Intelligenz

• Anwendungsnahe Modellierung, Vorhersage, Klassifikation, Clusterung und Merkmalsextraktion von Daten und Prozessen ▫ unter Ressourcenbeschränkungen

▫ in Echtzeit

▫ mit heterogenen Datenquellen

▫ mit unstrukturierten Daten

▫ auf verschiedenen Architekturen (eingebettete Systeme, PC, Cluster, GPU)

Thomas Liebig @t_liebig TU Dortmund

2

Ausgewählte Projekte & Tools am LS8

Thomas Liebig @t_liebig TU Dortmund

• Korpus-basierte linguistische Recherche und Analyse mit Hilfe von Data-Mining (KobRA)

• Verfügbarkeit von Information durch Analyse unter Ressourcenbeschränkung (SFB 876)

• Intelligent Synthesis and Real-time Response using Massive Streaming of Heterogeneous Data INSIGHT

3

www.rapid-i.com http://www-ai.cs.uni-dortmund.de/SOFTWARE/streams/

Geo Referenzsysteme

• WGS84 ▫ wird benutzt von GPS

• Mercator System UTM

http://www.cs.hs-rm.de/~linn/fachsem0809/GeoCoord/Geodaetische_Koordinatensysteme.pdf

Thomas Liebig @t_liebig TU Dortmund

4

Spatial Data

• Raster/Vektor Repräsentation

• Attribute: ▫ Batch,

▫ Streams,

▫ Distributed

• Speicher: ▫ Spatial RDBMS (PostGIS, Oracle Spatial, …),

▫ Moving Object Databases [Güting 2005]

Thomas Liebig @t_liebig TU Dortmund

5

Spatial Data Protokolle/Schnittstellen

• Definiert von Open Geographic Consortium (OGC) • Kartendienste ▫ Web Map Service (WMS) ▫ Web Feature Service (WFS)

• Sensordaten ▫ Sensor Observation Service (SOS)

• Austausch ▫ KML, GML ▫ CSV, Geo JSON, Geo PDF … ▫ Bild- und Videodateiformate

Thomas Liebig @t_liebig TU Dortmund

6

Mobility, Data Mining and Privacy

Kurzfassung:

Mobility, Data Mining and Privacy: The GeoPKDD Paradigm

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.190.3

672&rep=rep1&type=pdf

Thomas Liebig @t_liebig TU Dortmund

7

Beispielhafte Aufgaben des Spatio-Temporal Data Minings

• Tesselierung

• Usage Pattern

• Profiling, Muster Erkennung (Pattern Recognition)

• Trajektorien Simplifikation

• Raum-Zeitliche Vorhersage

• Self Localization and Mapping

• Map Matching

• Routing

Thomas Liebig @t_liebig TU Dortmund

8

Beispielhafte Aufgaben des Spatio-Temporal Data Minings • Tesselierung

zB mit

[Voronoi 1908] “Nouvelles applications des paramètres continus à la théorie des formes quadratiques. Deuxième mémoire. Recherches sur les parallélloèdres primitifs.,” Journal für die reine und angewandte Mathematik (Crelle's Journal), no. 134 (December 1908): 198–287, http ://dx.doi.org/10.1515/crll.1908.134.198.

Thomas Liebig @t_liebig TU Dortmund

9

Beispielhafte Aufgaben des Spatio-Temporal Data Minings • Pattern Mining

zB mit

Trajectory Pattern Mining [Giannotti et al. 07] https://dl.acm.org/citation.cfm?id=1281230

Thomas Liebig @t_liebig TU Dortmund

10

Beispielhafte Aufgaben des Spatio-Temporal Data Minings • Profiling, Muster Erkennung

(Pattern Matching)

zB mit

Efficient Mobility Pattern Stream Matching on Mobile Devices [Florescu et al. 12] http://ceur-ws.org/Vol-960/paper5.pdf

Thomas Liebig @t_liebig TU Dortmund

11

Beispielhafte Aufgaben des Spatio-Temporal Data Minings • Trajektorien Simplifikation

zB mit

SimpliFly: A Methodology for Simplification and Thematic Enhancement of Trajectories [Vrotsou et al. 2014] http://www.computer.org/csdl/trans/tg/preprint/06851202.pdf

Thomas Liebig @t_liebig TU Dortmund

12

Beispielhafte Aufgaben des Spatio-Temporal Data Minings • Raum-Zeitliche Vorhersage: Kriging

A Statistical Approach to Some Mine Valuation and Allied Problems on the Witwatersrand [Krige 51]

Spatio-temporal random fields: compressible representation and distributed estimation [Piatkowski et al. 13] http://link.springer.com/article/10.1007%2Fs10994-013-5399-7

Thomas Liebig @t_liebig TU Dortmund

13

Beispielhafte Aufgaben des Spatio-Temporal Data Minings • Self Localization and Mapping zB mit Hector Open Source Modules

for Autonomous Mapping and Navigation with Rescue Robots [Kohlbrecher et al. 2014] http://link.springer.com/chapter/10.1007/978-3-662-44468-9_58

Thomas Liebig @t_liebig TU Dortmund

14

Beispielhafte Aufgaben des Spatio-Temporal Data Minings • Map Matching

zB mit

Map-Matching for Low-Sampling-Rate GPS Trajectories [Lou et al. 09] http://research.microsoft.com/pubs/105051/Map-Matching%20for%20Low-Sampling-Rate%20GPS%20Trajectories-cameraReady.pdf

Thomas Liebig @t_liebig TU Dortmund

15

Beispielhafte Aufgaben des Spatio-Temporal Data Minings • Routing

zB mit Contraction Hierarchies, Transfer Patterns

Route Planning in Transportation Networks [Bast et al. 15]

http://arxiv.org/pdf/1504.05140v1.pdf

Thomas Liebig @t_liebig TU Dortmund

16

Methoden des Data Minings

• Unüberwachtes Lernen ▫ Clustering,

▫ Frequent Pattern

• Überwachtes Lernen ▫ Regression, Klassifikation

Thomas Liebig @t_liebig TU Dortmund

17

Clustering

• K-Means (Lloyd Algorithmus)

Thomas Liebig @t_liebig TU Dortmund

18

Clustering

• DBSCAN Martin Ester, Hans-Peter Kriegel, Jörg Sander, Xiaowei Xu: A density-based algorithm for discovering clusters in large spatial databases with noise. In: Evangelos Simoudis, Jiawei Han, Usama M. Fayyad (Hrsg.): Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96). AAAI Press, 1996,

Thomas Liebig @t_liebig TU Dortmund

19

Frequent Pattern • Goethals, B. (2003). Survey on frequent pattern mining. Univ. of Helsinki.

http://adrem.ua.ac.be/~goethals/software/survey.pdf

Thomas Liebig @t_liebig TU Dortmund

20

Regression

• Tobler's first law of geography “Everything is related to everything else, but near things are more related than distant things.“ W. Tobler, “A Computer Movie Simulating Urban Growth in the Detroit Region,” Economic Geography 46, no. 2 (1970): 234–240.

• K-NN Altman, N. S. (1992). An introduction to kernel and nearest-neighbor nonparametric regression. The American Statistician, 46(3), 175-185. http://www.stat.washington.edu/courses/stat527/s13/readings/Altman_AmStat_1992.pdf

Thomas Liebig @t_liebig TU Dortmund

21

Precision, Recall, F-Score

Thomas Liebig @t_liebig TU Dortmund

22

Beispielhafte Aufgaben des Spatio-Temporal Data Minings

• Tesselierung - Clustering

• Usage Pattern - Frequent pattern

• Profiling, Muster Erkennung (Pattern Recognition) - Klassifikation

• Trajektorien Simplifikation - Clustering

• Raum-Zeitliche Vorhersage - Regression/Klassifikation

• Self Localization and Mapping - Regression

• Map Matching - Klassifikation

• Routing - Optimierung

Thomas Liebig @t_liebig TU Dortmund

23

Privacy Preserving Data Mining

• Adversary Model: Corrupted Server Re-Identifizierung der Individuen

Lösungsansätze:

Dezentralisierung der Berechnung

Anonyme Kommunikation (bei Mobilitätsdaten nicht ausreichend)

Verrauschte Daten (Differential Privacy)

Verschlüsselte Daten (Homomorphe Verschlüsselung)

Thomas Liebig @t_liebig TU Dortmund

24

Beispiel: Zentrales Zählen

Thomas Liebig @t_liebig TU Dortmund

25

Mittels Homomorpher Verschlüsselung • T. Liebig, Privacy Preserving Centralized Counting of Moving

Objects, in AGILE 2015, F. Bacao, M. Y. Santos, and M. Painho, Eds., Springer International Publishing, 2015, pp. 91-103.

Thomas Liebig @t_liebig TU Dortmund

26

Modulo (mod)

a=b*c+r

a mod c = r

Thomas Liebig @t_liebig TU Dortmund

27

Rechnen auf Ringen

(Zn,+,*) a+b mod n

a*b mod n

Es existiert Inverses b zu a in Ring m mit a*b = 1 mod m, wenn a und m co-prime ( ggT(a,m)=1 )

a ist Generator des Rings modulo m, wenn

a^x mod m alle Zahlen des Rings generiert Bsp: 3^x mod 17

Thomas Liebig @t_liebig TU Dortmund

28

Rechnen auf Ringen

Komplizierte Operationen:

• Logarithmus

x^a=b mod m, für welches x?

• Wurzel

a^x=b mod m, für welches x?

Thomas Liebig @t_liebig TU Dortmund

29

Rechnen auf Ringen

Aber, Euler‘s Theorem:

a^phi(m) =1 mod m, wenn a und m co-prime

Und phi(p*q)=phi(p)*phi(q) phi(prime)=prime-1

Thomas Liebig @t_liebig TU Dortmund

30

RSA

KeyGen: 1. suche zwei Primzahlen p und q 2. n=p*q 3. Phi(n)=(p-1)(q-1) // Eulersche Phi Funktion 4. Suche a co-prime to n ggT(a,n)=1 es existiert

b=a-1 in Ring modulo n Öffentlich: (a,n); Privat: b

Enc(x): c=x^a mod n Dec(c): x=c^b mod n

Thomas Liebig @t_liebig TU Dortmund

31

https://www.youtube.com/watch?v=wXB-V_Keiu8

Erweiterter Euklidischer Algorithmus

ggT(48,5)

48=9*5+3

5=1*3+2

3=1*2+1

2=2*1+0

ggT(48,5)=1

gcd

1=3-1*2

1=3-1*(5-1*3) = 2*3 – 1*5

1=2*(48-9*5)-1*5 = 2*48-19*5

-19*5 mod 48 =1

29*5 mod 48 =1

29 = 5-1 (48)

Thomas Liebig @t_liebig TU Dortmund

32

Homomorphic Verschlüsselung

• Pailliers Cryptosystem

P. Paillier, (1999, January). Public-key cryptosystems based on composite degree residuosity classes. In Advances in

cryptology—EUROCRYPT’99 (pp. 223-238). Springer Berlin Heidelberg. http://link.springer.com/chapter/10.1007%2F3-540-48910-X_16

Generiert Schlüsselpaar so, dass:

Dec(Enc(x1)*Enc(x2))=x1+x2

Thomas Liebig @t_liebig TU Dortmund

33

Implementation

• Nützliche R Pakete require("combinat") # binomial coefficient

require("pracma") # provides gcd()

require("numbers") # provides isPrime()

Sourcecode auf Fachprojekt Website

• Java Libraries https://code.google.com/p/thep/

• Python … viele Implementierungen bei Google Suche

Thomas Liebig @t_liebig TU Dortmund

34

Zusammenfassung

• Grundlagen Spatio-Temporal Data Mining ▫ Referenzsysteme, Datenrepräsentationen

▫ Praktische Aufgaben der Raum-Zeitlichen Analyse

▫ Lernverfahren Überwachte

Unüberwachte

▫ Schutz der Privatsphäre Adversary Model

Methoden insb. Homomorphe Cryptographie

Thomas Liebig @t_liebig TU Dortmund

35

Nächste Schritte

• (Paper von Paillier lesen)

• Für Methode des eigenen Papers nicht-kryptographischen Algorithmus lesen

• Für Programmiersprache entscheiden (Java, R, Python oder C++)

• Algorithmus aus Paper Implementieren

• Daten vorverarbeiten und Algorithmus anwenden

Thomas Liebig @t_liebig TU Dortmund

36

Report/Präsentation 15‘

Motivation:

• Anwendungsfrage

Lernaufgabe

• Adversary Model

Erklärung der Lern Methode

• Ohne Verschlüsselung

• Mit Verschlüsselung

Datensatz

• Vorstellung ausgewählter Datensatz

Analyse

• Vergleich der Ergebnisse (Laufzeit, Accuracy, …)

Diskussion der Analyse

• Nachteile/Vorteile

• … Ideen, Probleme, Lösungen

Thomas Liebig @t_liebig TU Dortmund

37

Aufschrieb/Skript • T. Liebig, Analysis Methods and Privacy Aspects in Spatio-Temporal Data Mining, in

AI: Philosophy, Geoinformatics and Law, M. Jankowska, M. Pawelczyk, S. Allouche, and M. Kulawiak, Eds., Warsaw: IUS PUBLICUM, 2015, p. (to appear). Direktlink

• T. Liebig, Privacy Preserving Centralized Counting of Moving Objects, in AGILE 2015, F. Bacao, M. Y. Santos, and M. Painho, Eds., Springer International Publishing, 2015, pp. 91-103. Direktlink Cran R Implementation

• I. Damgård, M Jurik, amd J. B. Nielsen, 2010. A generalization of Paillier’s public-key system with applications to electronic voting. International Journal of Information Security, 9(6), 371-385. Direktlink

• P. Paillier, (1999, January). Public-key cryptosystems based on composite degree residuosity classes. In Advances in cryptology—EUROCRYPT’99 (pp. 223-238). Springer Berlin Heidelberg. Direktlink

Thomas Liebig @t_liebig TU Dortmund

38

Ausgewählte Paper 1. C. B. Yildizli, T. Pedersen, Y. Saygin, E. Savas, and A. Levi. 2011. Distributed Privacy Preserving Clustering via

Homomorphic Secret Sharing and Its Application to Vertically Partitioned Spatio-Temporal Data. Int. J. Data Warehous. Min. 7, 1 (January 2011), 46-66. Julian Meise

2. S. V. Kaya, T. Pedersen, E. Savas, and Y. Saygin, 2007. Efficient privacy preserving distributed clustering based on secret sharing. In Emerging Technologies in Knowledge Discovery and Data Mining (pp. 280-291). Springer Berlin Heidelberg. Matthias Smoor

3. M. C. Doganay, T. Pedersen, Y. Saygin, E. Savas, and A. Levi. 2008, March. Distributed privacy preserving k-means clustering with additive secret sharing. In Proceedings of the 2008 international workshop on Privacy and anonymity in information society (pp. 3-11). ACM. Lucas Weiße

4. J. Liu, J. Li, S. Xu, and B. C. Fung, 2015. Secure Outsourced Frequent Pattern Mining by Fully Homomorphic Encryption. In Big Data Analytics and Knowledge Discovery (pp. 70-81). Springer International Publishing. Raphael Krusenbaum

5. Z. Zhou, L. Huang, Y. Wei, and Y. Yun. 2009, May. Privacy preserving outlier detection over vertically partitioned data. In E-Business and Information System Security, 2009. EBISS'09. International Conference on (pp. 1-5). IEEE. Kathrin Henkenherm

6. D. Wu, and J. Haven, 2012. Using Homomorphic Encryption for Large Scale Statistical Analysis. Timo Diederich

7. R. Bost, R. A. Popa, S. Tu, and S. Goldwasser, 2014. Machine learning classification over encrypted data. Crypto ePrint Archive. Sebastian Schröder

Thomas Liebig @t_liebig TU Dortmund

39

Fachprojekt 3 Spatial Data Mining unter Schutz der Privatsphäre Dr. Thomas Liebig - TU Dortmund @t_liebig www.thomas-liebig.eu thomas.liebig@tu-dortmund.de