Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der...

21
k-Anonymity Überblick und Diskussion von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der Informationsgesellschaft"

Transcript of Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der...

Page 1: Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der Informationsgesellschaft"

k-Anonymity Überblick und Diskussion

 

von Sebastian Sebald

15. Juli 2010

Vortrag im Rahmen des Seminars"Sicherheitstechnologien der Informationsgesellschaft"

Page 2: Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der Informationsgesellschaft"

k-Anonymity - Überblick und Diskussion 2

Übersicht

Veröffentlichen von anonymisierten Daten

Angriff auf anonyme Daten

Das k-Anonymity Modell

Identifikation von Personen

15.07.2010

Page 3: Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der Informationsgesellschaft"

k-Anonymity - Überblick und Diskussion 3

Veröffentlichen von anonymisierten Daten

Name Geburtsdatum Geschlecht PLZ Krankheit

Hans Hauck 17. Apr 65 M 79098 Impotenz

Peter Petersen 31. Juli 65 M 79096 Adipositas

Karl Kleber 17. Jan 65 M 79098 Bluthochdruck

Till Thomas 5. Juli 83 M 79331 Schizophrenie

Frank Faber 31. Dez 81 M 79336 Diabetes

Sandra Schmid 5. Juli 83 W 79338 Bronchitis

Lieschen Lauer 31. Okt 83 W 79331 Magersucht

15.07.2010

Entfernen von eindeutigen Identifikatoren

Können die Personen nicht mehr identifiziert werden?

Page 4: Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der Informationsgesellschaft"

k-Anonymity - Überblick und Diskussion 4

Bekannt, dass Lieschen in den Daten enthalten ist

Wissen über die anonymisierten Daten

15.07.2010

Page 5: Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der Informationsgesellschaft"

5

Re-Identification by Linking

15.07.2010 k-Anonymity - Überblick und Diskussion

Geburtsdatum Geschlecht PLZ Krankheit

17. Apr 65 M 79098 Impotenz

31. Juli 65 M 79096 Adipositas

17. Jan 65 M 79098 Bluthochdruck

5. Juli 83 M 79331 Schizophrenie

31. Dez 81 M 79336 Diabetes

5. Juli 83 W 79338 Bronchitis

31. Okt 83 W 79331 Magersucht

Verknüpfen der Datensätze miteinander

Page 6: Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der Informationsgesellschaft"

k-Anonymity - Überblick und Diskussion 6

Quasi-Identifier

Menge von Attributen, die kombiniert mit externen Daten Personen eindeutig identifizieren

15.07.2010

Name Geburtsdatum Geschlecht PLZ Krankheit

Hans Hauck 17. Apr 65 M 79098 Impotenz

Peter Petersen 31. Juli 65 M 79096 Adipositas

Karl Kleber 17. Jan 65 M 79098 Bluthochdruck

Till Thomas 5. Juli 83 M 79331 Schizophrenie

Frank Faber 31. Dez 81 M 79336 Diabetes

Sandra Schmid 5. Juli 83 W 79338 Bronchitis

Lieschen Lauer 31. Okt 83 W 79331 Magersucht

Quasi-IdentifierEindeutige Identifikatoren

Page 7: Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der Informationsgesellschaft"

k-Anonymity - Überblick und Diskussion 7

k-Anonymity Modell

k-Anonymity ist erfüllt, wenn: k Personen mit derselben

Wertekombination der Quasi-Identifier existieren

15.07.2010

Page 8: Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der Informationsgesellschaft"

k-Anonymity - Überblick und Diskussion 8

Beispiel: k-Anonymity

15.07.2010

Name Geburtsdatum Geschlecht PLZ Krankheit

Hans Hauck 17. Apr 65 M 79098 Impotenz

Peter Petersen 31. Juli 65 M 79096 Adipositas

Karl Kleber 17. Jan 65 M 79098 Bluthochdruck

Till Thomas 5. Juli 83 M 79331 Schizophrenie

Frank Faber 31. Dez 81 M 79336 Diabetes

Sandra Schmid 5. Juli 83 W 79338 Bronchitis

Lieschen Lauer 31. Okt 83 W 79331 Magersucht

Entfernen der eindeutigen Identifikatoren durch Supression

Quasi-IdentifierEindeutige Identifikatoren

Page 9: Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der Informationsgesellschaft"

k-Anonymity - Überblick und Diskussion 9

Beispiel: k-Anonymity

15.07.2010

Name Geburtsdatum Geschlecht PLZ Krankheit

* 17. Apr 65 M 79098 Impotenz

* 31. Juli 65 M 79096 Adipositas

* 17. Jan 65 M 79098 Bluthochdruck

* 5. Juli 83 M 79331 Schizophrenie

* 31. Dez 81 M 79336 Diabetes

* 5. Juli 83 W 79338 Bronchitis

* 31. Okt 83 W 79331 Magersucht

Quasi-IdentifierEindeutige Identifikatoren

Page 10: Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der Informationsgesellschaft"

k-Anonymity - Überblick und Diskussion 10

Beispiel: k-Anonymity

15.07.2010

Geburtsdatum Geschlecht PLZ Krankheit

17. Apr 65 M 79098 Impotenz

31. Juli 65 M 79096 Adipositas

17. Jan 65 M 79098 Bluthochdruck

5. Juli 83 M 79331 Schizophrenie

31. Dez 81 M 79336 Diabetes

5. Juli 83 W 79338 Bronchitis

31. Okt 83 W 79331 Magersucht

Quasi-Identifier

Page 11: Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der Informationsgesellschaft"

k-Anonymity - Überblick und Diskussion 11

Beispiel: k-Anonymity

15.07.2010

Geburtsdatum Geschlecht PLZ Krankheit

17. Apr 65 M 79098 Impotenz

31. Juli 65 M 79096 Adipositas

17. Jan 65 M 79098 Bluthochdruck

5. Juli 83 M 79331 Schizophrenie

31. Dez 81 M 79336 Diabetes

5. Juli 83 W 79338 Bronchitis

31. Okt 83 W 79331 Magersucht

Quasi-Identifier

Generalisieren von Geburtsdatum

Page 12: Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der Informationsgesellschaft"

k-Anonymity - Überblick und Diskussion 12

Beispiel: k-Anonymity

15.07.2010

Geburtsdatum Geschlecht PLZ Krankheit

'65 M 79098 Impotenz

'65 M 79096 Adipositas

'65 M 79098 Bluthochdruck

5. Juli 83 M 79331 Schizophrenie

31. Dez 81 M 79336 Diabetes

5. Juli 83 W 79338 Bronchitis

31. Okt 83 W 79331 Magersucht

Quasi-Identifier

Generalisieren von PLZ

Page 13: Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der Informationsgesellschaft"

k-Anonymity - Überblick und Diskussion 13

Beispiel: k-Anonymity

15.07.2010

Geburtsdatum Geschlecht PLZ Krankheit

'65 M 7909* Impotenz

'65 M 7909* Adipositas

'65 M 7909* Bluthochdruck

5. Juli 83 M 79331 Schizophrenie

31. Dez 81 M 79336 Diabetes

5. Juli 83 W 79338 Bronchitis

31. Okt 83 W 79331 Magersucht

Quasi-Identifier

Page 14: Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der Informationsgesellschaft"

k-Anonymity - Überblick und Diskussion 14

Beispiel: k-Anonymity

15.07.2010

Geburtsdatum Geschlecht PLZ Krankheit

'65 M 7909* Impotenz

'65 M 7909* Adipositas

'65 M 7909* Bluthochdruck

5. Juli 83 M 79331 Schizophrenie

31. Dez 81 M 79336 Diabetes

5. Juli 83 W 79338 Bronchitis

31. Okt 83 W 79331 Magersucht

Quasi-Identifier

Generalisieren von Geburtsdatum

Page 15: Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der Informationsgesellschaft"

k-Anonymity - Überblick und Diskussion 15

Beispiel: k-Anonymity

15.07.2010

Geburtsdatum Geschlecht PLZ Krankheit

'65 M 7909* Impotenz

'65 M 7909* Adipositas

'65 M 7909* Bluthochdruck

'81-'83 M 79331 Schizophrenie

'81-'83 M 79336 Diabetes

'81-'83 W 79338 Bronchitis

'81-'83 W 79331 Magersucht

Quasi-Identifier

Generalisieren von PLZ

Page 16: Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der Informationsgesellschaft"

k-Anonymity - Überblick und Diskussion 16

Beispiel: k-Anonymity

15.07.2010

Geburtsdatum Geschlecht PLZ Krankheit

'65 M 7909* Impotenz

'65 M 7909* Adipositas

'65 M 7909* Bluthochdruck

'81-'83 M 7933* Schizophrenie

'81-'83 M 7933* Diabetes

'81-'83 W 7933* Bronchitis

'81-'83 W 7933* Magersucht

Quasi-Identifier

Page 17: Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der Informationsgesellschaft"

k-Anonymity - Überblick und Diskussion 17

Beispiel: k-Anonymity

15.07.2010

Geburtsdatum Geschlecht PLZ Krankheit

'65 M 7909* Impotenz

'65 M 7909* Adipositas

'65 M 7909* Bluthochdruck

'81-'83 M 7933* Schizophrenie

'81-'83 M 7933* Diabetes

'81-'83 W 7933* Bronchitis

'81-'83 W 7933* Magersucht

2-anonyme Tabelle

Page 18: Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der Informationsgesellschaft"

k-Anonymity - Überblick und Diskussion 18

Zusammenfassung: k-Anonymity

Keine Verknüpfung über die Quasi-Identifier möglich um weniger als k Personen zu erhalten

Grad von Anonymität

15.07.2010

Page 19: Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der Informationsgesellschaft"

k-Anonymity - Überblick und Diskussion 19

Identifikation von Personen

Vor k-Anonymity Eindeutige Identifikatoren (Name,

Sozialversicherungsnummer)

Durch k-Anonymity Quasi-Identifier (Postleitzahl, Geschlecht)

15.07.2010

Page 20: Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der Informationsgesellschaft"

k-Anonymity - Überblick und Diskussion 20

Identifikation von Personen

15.07.2010

Können Personen nicht mehr identifiziert werden?

Page 21: Von Sebastian Sebald 15. Juli 2010 Vortrag im Rahmen des Seminars "Sicherheitstechnologien der Informationsgesellschaft"

k-Anonymity - Überblick und Diskussion 21

Identifikation von Personen

15.07.2010

The versatility and power of re-identification algorithms imply that terms such as

"personally identifiable" and "quasi-identifier" simply have no technical

meaning. While some attributes may be uniquely identifying on their own, any

attribute can be identifying in combination with others.- Arvind Narayanan and Vitaly Shmatikov, Myths and Fallacies of "Personally Identifiable Information"

"