Big Data ist hier um zu bleiben

Post on 22-Jan-2018

582 views 3 download

Transcript of Big Data ist hier um zu bleiben

Big Data ist hier um zu bleiben (auch wenn es noch oft den Namen wechseln wird)

André Csillaghy Institut für 4D-Technologien

Hochschule für Technik Fachhochschule Nordwestschweiz

BIG DATA: VERBLASSENDER HYPE?

Die Blogosphäre:

Zeigt Zusammenhänge zwischen kommunizierdende Menschen

Offensichtlich ist die Information nicht zufällig verteilt.

Solar Dynamics Observatory, ein NASA Satellit

Nimmt soviele Daten wie 3 Fernsehkanäle, die 24 / 7 laufen.

Die Beobachtungen können nicht mehr von Hand ausgewertet werden.

Quelle: (via) Wikipedia

NSA --

Ebay: 7.5PB in Teradata Enterprise Data Warehouse 40 PB Hadoop Cluster 40PB auf ein Custom-System für deep-dive Analysis 100 TB / Tag neue Daten 500 Milliarden aktuellen Angebote

Facebook: 50 Milliarden Fotos, automatische Gesichtserkennung

Kreditkartenschutz: 2.1 Milliarden Karten werden geschützt

Soure: OECD Digital Economy Outlook 2015

Internet of Things Anzahl am Internet angeschlossenen Geräte pro 100 Einwohnen

BUSINESS NUTZEN

BIG DATA ANALYTICS

Daten-Aufwertungskette

Original Data

Target Data

Preprocessed Data

Patterns

Knowledge

Data Integration and Selection

Preprocessing

Model Construction

Interpretation

Quelle: Ramakrishnan & Gehrke

Institute of 4D Technologies: Management, Processing, and Visualization of Data

www.fhnw.ch/i4ds, facebook.com/fhnw.i4ds

Data Science am Institut für 4D-Technologien

Trans_id Kunde_id Datum Objekt Menge

111 201 2.2.2006 Kugelschreiber 2

111 201 2.2.2006 Tinte 1

111 201 2.2.2006 Milch 3

111 201 2.2.2006 Saft 6

112 105 6.3.2006 Kugelschreiber 1

112 105 6.3.2006 Tinte 1

112 105 6.3.2006 Milch 1

113 106 5.5.2006 Kaffee 1

113 106 5.5.2006 Milch 1

114 201 25.5.2006 Kugelschreiber 2

114 201 25.5.2006 Tinte 2

114 201 25.5.2006 Saft 4

114 201 25.5.2006 Wasser 1

http://gravitationallensing.pbworks.com/w/page/15553245/Cosmic%20Lensing

https://s3.amazonaws.com/datarobotblog/images/deepLearningIntro/013.png

TECHNOLOGIEN

•  Datenbanken: – Teradata, Cloudera – SQL / NOSQL

•  Data analysis – Weka toolkit (data mining) – OpenCV (feature extraction)

•  HPC – Pydron (HBC) – Hadoop / Spark

•  Resource management – Mesos

•  Usw., usw., usw….

Open Data Analysis Stack

Application

Storage

Data Processing

Infrastructure

Aus: ganges.usc.edu/pgroupW/.../Berkley_Data_Analysis_Stack_(BDAS).pptx

CHANCEN UND RISIKEN LEBEN ZUSAMMEN

•  Verlust der Kontrolle: auch wenn ich nichts zu verstecken habe, habe ich keine Möglichkeit zu kontrollieren, für was meine Daten benutzt werden

•  Mein Gefühl sagt mir, dass es mehr den Unternehmen profitiert als mich selbst

•  Ich kann das Datensammeln nicht mehr ausweichen

Que

lle: T

he G

uard

ian

24.6

.201

4

Storage Model: the Data Warehouse

Quelle: http://www.hammer.net/images/data_storage_diagram2.jpg

Computing infrastructure

•  Scalability = data + computing power – Parallelization

•  Google: Map / Reduce •  Pydron

Astronomische Datenmengen

In Betrieb

2 TB / Tag

Start 2019 100 PB

Im Bau 13 TB/ Nacht

Design Mehr als das gesamte Internet

Is Big Data too big for SMEs?

•  Wir geben eher mehr Daten an Grossunternehmen, als wir von denen zurückbekommen (Beispiel: Google Mail)

•  Tatsache #1: jede Firma – jede Person – baut sich ein kleines Daten-Imperium – kann aber dieses nicht verarbeiten….

•  Tatsache #2: Es ist immer besser wenn man bescheid über die eigenen Daten weiss

Es geht um Leute

•  Wie kreiert man Wert aus Daten? •  Data Analysts Data Scientists

– Neues Profil, ein mix von Hacker, Analyst, Communicator, trusted Advisor

•  Wie können KMUs die notwendigen Skills bekommnen?

Aus dem Wild West zur Zivilisation

•  Big Data is here to stay •  Big Data kennt keine Grenzen •  Im Moment mischen sich riesige Chancen mit

noch undenkbaren Risiken •  Der Technologie sind die Chancen und Risiken

egal. Sie wird sich weiter entwickeln •  Chancen können nur überwiegen, wenn wir

eine Ethik der Datennutzung einführen, wo die Risken unter Kontrolle gebracht werden

Es geht aber auch um Infrastruktur

•  Zu viel für KMUs? •  Clouds •  Schon wenig kann mehr sein •  Macht der Job attraktiv

Vielen Dank!