Big Data – Das Potential großer Datenmengen für die Wirtschaft · Big Data – Das Potential...
-
Upload
vuongkhuong -
Category
Documents
-
view
221 -
download
0
Transcript of Big Data – Das Potential großer Datenmengen für die Wirtschaft · Big Data – Das Potential...
Big Data –Das Potential großer Datenmengen für die Wirtschaft
Univ.-Prof. Dr. Claudia PlantForschungsgruppe Data MiningFakultät für Informatik
Data Science @ Uni Vienna
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Was ist Big Data?
Variety
Velocity
Volume
VeracityIn vielen Anwendungen haben wir mindestens eines dieser Probleme.Oft alle gemeinsam!
60 – 75% der Daten, die in Unternehmen gesammelt werden, werden nie analysiert.(Forrester [1])
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Volume, e.g. the Internet of Things (IoT)
Eine Vielfalt von Dingen, die über Sensoren Daten gewinnen und über das Internet Datenaustauschen.
Image source:http://tinyurl.com/prtfqxf
• Seit 2008: mehr Dinge als Menschen im Internet
• Prognose für 2020: 200 Billionen vs. 7.3. Billionen (according to Cisco, Intel) [2,3]
Smartphones, Tablets, Kühlschränke, Sensoren in Tieren, z.B. Rinder [4].
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Velocity, z.B. Smartphone Sensor Data
Sensoren in einem iPhone 8
Accelerometermisst Beschleunigung,Etwa 400 Werte proSekunde
GPS Update der Position 1 Mal pro Sekunde
GyroskopMisst die Orientierung, Auch ca. 400 Werte/s.
Magnetometer (Kompass)Ca. 100 Werte/s
Barometer
Proximitäts-Sensor
Lichtmessungs-Sensor
Bild: iFixit
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Variety, z.B. in medizinischen Daten
Brain imaging10 GB
clinical data< 1 GB
Whole Genome Sequencing180 GB
VerschiedeneDatentypen vontausenden von Patientenund Gesunden.
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Veracity, z.B. Teilchenphysik
Teilchen werden mitSehr viel EnergieBeschleunigt und kollidieren.
Dabei entstehen seltenunbekannte neue Elementarteilchen, z.B. Higgs Boson (2012)
Erweiterung der Theorienüber die Materie
Auf jeden Fall entstehensehr viel Daten!
ca. 1 Petabyte/s [5]
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Veracity: Viel Rauschen in den Daten des LHC
Aufgabe: Rekonstruktion der Flugbahn zur Identifizierung von Elementarteilchen
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Big Data – Wir brauchen Data Mining!
Was genau ist das Ziel von Data Mining?
identifying valid, novel, potentially useful, and ultimately understandable patterns in data.
[Fayyad, Piatetsky-Shapiro & Smyth 1996]
Wie können wir Daten verstehen?
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Outline
• Teil 1: Data Mining durch Entropiereduktion• Teil 2: Anwendung: Gehirnnetzwerke• Teil 3: Anwendung: Mobilitätserkennung
Zusammenfassung und Kontaktmöglichkeiten
Order is a necessary condition for anything the human mind is to understand.
Rudolf Arnheim, Entropy and Art 1971, artwork by John Schier, http://john-art.com
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Entropie ist ein Maß für Struktur
geringe Entropieregelmäßiges Musterleicht zu verstehen
große Entropiezufällig, chaotisch
unmöglich zu verstehen
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Mathematische Definition von Entropie
𝐻𝐻 𝐷𝐷 = − �𝑎𝑎 𝜖𝜖 𝐷𝐷
𝑃𝑃 𝑎𝑎 � 𝑙𝑙𝑙𝑙𝑙𝑙2𝑃𝑃(𝑎𝑎)
Summe über allemöglichen Ausprägungen
Logarithmusder Wahrscheinlichkeit
Wahrscheinlichkeitder Ausprägung
2 Ausprägungen1 Bit
8 Ausprägungen3 Bit
1 000 000 Ausprägungen~20 Bit
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Die Entropiefunktion
𝐻𝐻 𝐷𝐷 = − �𝑎𝑎 𝜖𝜖 𝐷𝐷
𝑃𝑃 𝑎𝑎 � 𝑙𝑙𝑙𝑙𝑙𝑙2𝑃𝑃(𝑎𝑎)
Bei 2 Ausprägungen
Maximum bei 50%/50% Wahrscheinlichkeit
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Diskrete Daten mit 2 Ausprägungen: Soziale Netzwerke
Twitter Netzwerk [7]
Knoten: Personen, Kanten: Freundschaft
High-school Freudschaftsnetzwerk [6]
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Struktur in Netzwerken
Es gibt häufig eine Gruppenstuktur,d.h. eine Aufteilung in verschiedene Communities (Cluster genannt)
Hift beim Visualisieren und Verstehen vonGroßen Netzwerken
Wie können wir diese Struktur finden?
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Netzwerkstrukturierte Daten
1 2 3 4 51 ja ja ja2 ja ja3 ja4 ja ja5 2
13 4
5
Darstellung als Tabelle Darstellung als Graph
• Zeilen/Spalten: Sportvereine• Zellen: gegeneinander gespielt?
• Knoten: Sportvereine• Kanten: gegeneinander gespielt
5 Vereine, 4 Spiele, ok
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Netzwerkstrukturierte Daten
115 Vereine, 613 Spiele
Darstellung als Tabelle
• Zeilen/Spalten: Sportvereine• Zellen: gegeneinander gespielt?
Darstellung als Graph
• Knoten: Sportvereine• Kanten: gegeneinander gespielt
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Netzwerkstrukturierte Daten
Darstellung als Tabelle Darstellung als Graph
• Sehr unübersichtlich, unverständlich.• Große Entropie!
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Entropie der Tabelle (Adjazenzmatrix)
𝐻𝐻 𝐷𝐷 = − �𝑎𝑎 𝜖𝜖 𝐷𝐷
𝑃𝑃 𝑎𝑎 � 𝑙𝑙𝑙𝑙𝑙𝑙2𝑃𝑃(𝑎𝑎)
Wenn wir nichts über die Daten wissen:Kante ja/nein gleichwahrscheinlich• Entropie: 1 Bit• Insgesamt: 6 440 Bits
Aber wir wissen bereits:Es gibt 613 SpieleP(Spiel) = 613/6440 = 0.0952, P(kein Spiel) = 1 – 613/6440 = 0.9048• Entropie: 0.1923 Bits• Insgesamt: 1 238 Bits
Das ist einfache Statistik.• Etwa jedes 10. aller prinzipiell
möglichen Spiele findet statt.• Mit diesem Wissen reduzieren wir
bereits die Entropie!
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Entropie der Tabelle (Adjazenzmatrix)
𝐻𝐻 𝐷𝐷 = − �𝑎𝑎 𝜖𝜖 𝐷𝐷
𝑃𝑃 𝑎𝑎 � 𝑙𝑙𝑙𝑙𝑙𝑙2𝑃𝑃(𝑎𝑎)
Wenn wir nichts über die Daten wissen:Kante ja/nein gleichwahrscheinlich• Entropie: 1 Bit• Insgesamt: 6 440 Bits
Aber wir wissen bereits:Es gibt 613 SpieleP(Spiel) = 613/6440 = 0.0952, P(kein Spiel) = 1 – 613/6440 = 0.9048• Entropie: 0.1923 Bits• Insgesamt: 1 238 Bits
Das ist einfache Statistik.• Etwa jedes 10. aller prinzipiell
möglichen Spiele findet statt.• Mit diesem Wissen reduzieren wir
bereits die Entropie!
Geht noch mehr?
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Entropie- Reduktion in Netzwerken
Durch Clustering, d.h. Umsortieren der Tabelle
Salt-and-Pepper
???
Regelmäßiges Muster
Es gibt Gruppen von Teams, Die häufig gegeneinander spielen!
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Entropiereduktion durch Clustering
H(A|P) =27+14+15+28+30 = 114 Bit
H(P) = 56 Bit
Sortierung nach ClusternUrsprüngliche Anordnung
H(A) = 218 Bit
Ohne Wissen über Cluster:Berechne die Entropie der gesamten Tabelle.
Mit Clustering:Berechne die Entropie pro Cluster.
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Wir können herausfinden wie viele Cluster es gibt!
218 Bits 27+14+15+28+30 = 114 Bit(+56 Bits für Clustering)
27+14+3+15+10+68 = 137 Bit(+63 Bits für Clustering)
218 Bit 200 Bit170 Bit
Underfitting Beste Balance Overfitting
Qualitätskriterium: Datenkompression, d.h. Entropie plus Modellkosten
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Entropie- Reduktion in Netzwerken
Zum besseren Verständis der Tabelle
Salt-and-Pepper
???
Regelmäßiges Muster
Hier gibt es 10 Cluster, also Gruppen vonVereinen die häufig gegeneinander spielen
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Entropie- Reduktion in Netzwerken
Zum Zeichnen des Netzwerks
Hier gibt es 10 Cluster, also Gruppen vonVereinen die häufig gegeneinander spielen
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Anwendung: Finden von Zielgruppen für Marketing
advertiser
quer
y
Bi-partiter graph mit 2 Arten von Knoten:• Wörter in Suchanfragen von Benutzern• Werbeunternehmen
Kanten: Unternehmen möchte Ad schaltenBei Suche nach Keyword
Teilgraph von Yahoos sponsored search [8]
Ähnlich: GoogleAdWords
GEHIRNNETZWERKE VERSTEHENTeil 2
C. Plant, A. Zherdin, C. Sorg, A. Meyer-Bäse, A. M. Wohlschläger: Mining Interaction Patterns among Brain Regions by Clustering. IEEE Trans. Knowl. Data Eng. 26(9): 2237-2249 (2014)
Neurowissenschaftliche Bildgebung
Functional Magnetic ResonanceImaging (fMRI):Zeitreihe von 3-d Bildern des menschlichen Gehirns
Ziel: Interaktionsmuster zwischen Gehirnregionen verstehen.
x
t
Kooperation mit Klinikum Rechts der Isar, München, Deutschland
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Zeitaufgelöste gewichtete Netzwerke
Aufteilung in90 anatomischeRegionen.
fMRI Daten:Zeitreihen von3d Volumenbildern
x
t
Für jede Person ein zeitaufgelöstesNetzwerk mit 90 Knoten.Kanten: Ko-aktivierung zum Zeitpunkt t
t
d
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Clustering von Zeitaufgelösten Netzwerken
Big Data – Das Potential großer Datenmengen für die Wirtschaft
…durch Finden von Interaktionsmustern
orange = blue + 3* green
orange = blue - green
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Algorithmus Interaction-K-means [TKDE14]
Cluster:
Menge von linearen Modellen für die AbhängigkeitJeder Region Y von den anderen Regionen X
orange = blue + 3* green + εblue = …
green = …
Menge vonPersonen.
ε+= XßY
orange = blue – green + εblue = …
green = …
Welche Regionen sind wirklich relevant?
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Entropiereduktion!
Bestimme zu jedem Zeitpunkt das Interaktionsmuster, das die Daten im Cluster am besten komprimiert
x
t
Knoten: GehirnregionenKanten: gemeinsame Aktivierung
x
t
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Algorithmus Interaction K-means
Clustering
Interaktion
Kompression?
Solange sich die Kompression verbessert:1) Neuzuordnung von Personen zu Clustern2) Neubestimmung der Interaktionsmuster
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Experimentelles Design
Kooperation mit den Abteilungen für Neurologie und Psychiatrie, Klinikum rechts der Isar
fMRI Studie zur Erforschung der somatoformen Schmerzstörung, d.h. chronische Schmerzen ohne organische Ursache.
Mit Laserthermode auf der Hand:Abwechselnd • Wärme• Und leicht schmerzhafte Hitze.
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Ergebnisse
control somatoform
Amygdala (grün) ist kommuniziert mit:• gesunde: sensorische Areale (temporal, auditiv)• patienten: frontale Areale der Emotionskontrolle.
Interaction K-means findet automatisch die zwei Gruppen von Personen (gesund, krank)basierend auf unterschiedlichen Interaktionsmustern ihrer Gehirnregionen.
Big Data – Das Potential großer Datenmengen für die Wirtschaft
VERKEHRSMUSTER FINDENTeil 3
M. Leodolter, N. Brändle, C. Plant: Automatic Detection of Warped Patterns in Time Series: The Caterpillar Algorithm (2018), to appear in proceedings of ICBK conference.
Motivation: Transport Mode Identification
• Mobilitätsverhalten verstehen:• Infrastruktur verbessern• Wechsel zwischen
Mobiltätsarten erleichtern• etc.
• Reisetagebuch:Papier vs. Smartphone
39
Motivation: Transport Mode Identification
Sensor Data fromAIT-Smart Survey App(GPS, Accelerometer, …)
𝑃𝑃(Transportmode | Data)
Data Mining
40
Dynamic Time Warping als Ähnlichkeitsmaß
𝐷𝐷𝐷𝐷𝐷𝐷(𝑥𝑥, 𝑦𝑦)𝐷𝐷𝐷𝐷𝐷𝐷(𝑥𝑥, 0) ≈
726
𝐸𝐸𝐸𝐸𝐸𝐸𝑙𝑙𝐸𝐸𝐸𝐸(𝑥𝑥,𝑦𝑦)𝐸𝐸𝐸𝐸𝐸𝐸𝑙𝑙𝐸𝐸𝐸𝐸(𝑥𝑥, 0)
≈2122
42Seconds
• Kombiniert DTW und Datenkompression• Eingabe: ein Muster, eine lange Zeitreihe• Ausgabe: der beste Fit des Musters in der
langen Zeitreihe
• Findet gewarpte Muster wie eine Raupe
• Bewegungen:• Forward: incremental DTW• Back-up: decremental DTW• Catch-up: reverse decremental DTW• Backward: reverse incremental DTW
Der Caterpillar Algorithmus
43
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Zusammenfassung
• Wir brauchen effiziente Data Mining Techniken um große Daten zu verstehen
• Entropiereduktion/Datenkompression ist ein Qualitätsmaß für Muster in Daten
• Wir können es auf Netzwerke, Zeitreihen, zeitaufgelöste Netzwerke und viele andere Datentypen anwenden
• Beispielhafte Anwendungen: Gehirnnetzwerke verstehen, und Mobilitätsverhalten erforschen
46
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Wichtige derzeitige Kooperationspartner
Und vielleicht Sie?
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Kooperationsmöglichkeiten
Mit meiner Gruppe:• Studentische Abschlussarbeiten• Projektschienen der FFG
Außerdem: • Fakultät für Informatik • Forschungsplattform Data Science
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Forschungsgruppe Data Miningan der Fakultät für Informatikder Universität Wienhttp://dm.cs.univie.ac.at/[email protected] siehe Internet
Währinger Straße 291090 Wien
Big Data – Das Potential großer Datenmengen für die Wirtschaft
Referenzen
[1] https://go.forrester.com/blogs/hadoop-is-datas-darling-for-a-reason/ (15.11.18)[2] https://blogs.cisco.com/diversity/the-internet-of-things-infographic (19.11.18)[3] https://www.intel.com/content/dam/www/public/us/en/images/iot/guide-to-iot-infographic.png(19.11.18)[4] https://www.ft.com/content/2db7e742-7204-11e7-93ff-99f383b09ff9 (15.11.18)[5] https://home.cern/news/news/computing/cern-data-centre-passes-200-petabyte-milestone(20.11.18)[6] http://www-personal.umich.edu/~mejn/networks/ (20.11.18)[7] http://allthingsgraphed.com/2014/11/02/twitter-friends-network/ (20.11.18)[8] Anderson, Lang: Communities from Seeds. WWW 2006