Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data...

35
Data Analytics Wie sich Daten sinnvoll nutzen lassen Prof. Dr. Stefan Selle Netzwerk ikt.saarland bei saar.is BVL, Regionalgruppe Saar/Rheinpfalz 22.02.2016

Transcript of Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data...

Page 1: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Data Analytics Wie sich Daten sinnvoll nutzen lassen

Prof. Dr. Stefan Selle

Netzwerk ikt.saarland bei saar.is BVL, Regionalgruppe Saar/Rheinpfalz

22.02.2016

Page 2: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Agenda

≡ DIGITALISIERUNG

≡ BUSINESS INTELLIGENCE / BIG DATA

≡ DATA MINING & PREDICTIVE ANALYTICS

Page 3: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

I

DIGITALISIERUNG

Page 4: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

20.01.2016 Deutsche-Bank-Chef John Cryan:

» Bargeld wird in 10 Jahren verschwinden. « 4

Foto

: Deu

tsch

e Ba

nk

Page 5: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

htw saar Forschungsprojekt 2015:

Mobile Payment 5

Foto: Mobile Marketing Magazine

Page 6: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

htw saar Forschungsprojekt 2015: Globus-Kundenumfrage (n = 6.536)

Was meint der Kunde?

Empfehlung für den stationären Handel Abwarten: GAFA oder PayPal werden „übernehmen“ Auf anderen Gebieten zu punkten (z.B. Digitale Belege)

6

Quelle: Hälsig (2015)

67%

84%

88%

89%

94%

98%

99%

0% 20% 40% 60% 80% 100%

Mobilität

Schnelligkeit

Nützlichkeit

Bedienkomfort

Kosten

Zuverlässigkeit

Sicherheit

Wichtige Kriterien bei einem Bezahlverfahren Nutzung der Zahlungsmöglichkeiten im stationären Handel

5%

7%

7%

16%

44%

81%

86%

0% 20% 40% 60% 80% 100%

Geldkarte (aufgeladene EC-Karte)

Kontaktloses oder mobiles bezahlen…

Sonstiges (Gutscheine, Rechnung,…

Handelskarte mit Bezahlfunktion…

Kreditkarte

Barzahlung

EC- und Maestro Karte

5% 6% 5%

79%

26% 26% 34%

86%

SMS In App-Payment Smartphone mobile Webseiten

+ 29% In 3 Jahren

Aktuell

Vergleich mobiler Zahlungsarten

30%

38%

45%

46%

46%

0% 10% 20% 30% 40% 50%

M-Recommendations

M-Tickets

M-Treuekarte

M-Coupons

M-Receipt

Attraktive Mehrwertdienste

Page 7: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

GAFA

Zum Vergleich:

DAX-30-Unternehmen: 924 Mrd. Euro = 1.040 Mrd. USD (*)

Bruttoinlandsprodukt von Österreich (8,7 Mio. Einwohner) im Jahr 2014: 437,12 Mrd. USD (Nr. 27 weltweit)

(*) Stand: 12.02.2016

7

442 Mrd. USD + 542 Mrd. USD + 234 Mrd. USD + 239 Mrd. USD

= 1.439 Mrd. USD Marktkapitalisierung (*)

Umsatz 2015: 434 Mrd. USD

Quellen: comdirect (2016), statista (2016)

+38 %

17 Jahre 39 Jahre 12 Jahre 21 Jahre

Page 8: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Google weiß, wo man sich befindet 8

Z

Knowledge Graph

Page 9: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Apple weiß, wie man Kunden / Konsumenten begeistert 9

iTunes

Musik

Filme

Serien

App Store

Software

eBooks

Spiele

iCloud

Medien

Docs

Fotos

Geschlossenes Ökosystem

Page 10: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Facebook kennt uns besser als Freunde und Familie

2015: Studie mit 86.220 Freiwilligen Kooperation der Universität Cambridge mit der Stanford-Universität

Fragebogen mit 100 Elementen zum Fünf-Faktoren-Modell (FFM) der Persönlichkeitspsychologie / „Big Five“ Neurotizismus, Extraversion, Offenheit für Erfahrungen,

Gewissenhaftigkeit und Verträglichkeit

Computer-Algorithmus (Lineare Regression) vs. Einschätzung von Personen ab 10 Likes: Computer ist besser als Arbeitskollegen ab 70 Likes: Computer ist besser als Freunde ab 150 Likes: Computer ist besser als Familie ab 300 Likes: Computer ist besser als Ehepartner

Ein durchschnittlicher Facebook-Nutzer teilt 227 Likes Zum Selbst-Testen: http://applymagicsauce.com/you.html

10

Quelle: Youyou, W., Kosinski, M., Stillwell, D.: Computer-based personality judgments are more accurate than those made by humans, Proceedings of the National Academy of Sciences of the United States of America 112 (2015) 1036 – 1040.

Page 11: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Amazon weiß schon vorher, was man gleich kaufen wird 11

Ihnen könnten diese Artikel gefallen

Sie haben angesehen

Ähnliche Artikel wie die, die Sie sich angesehen haben

Inspiriert von Ihren Stöber-Trends

Kunden, die diesen Artikel gekauft haben, kauften auch

Wird oft zusammen gekauft

Foto: desktopwallpapers.co

Page 12: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Daten werden zur strategischen Ressource 12

Daten als Prozess-ergebnis

Daten als Befähiger von Prozessen

Daten als Befähiger von Produkten

Daten als Produkt

Wertbeitrag

Zeit

Quelle: Otto (2015)

Page 13: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

II

BUSINESS INTELLIGENCE /

BIG DATA

Page 14: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Wo kommen die Daten her? 14

Internet, XaaS, Cloud Computing

Embedded Systems, Sensoren, M2M

Mobile Apps & Location Bases Services

Web 2.0, Social Media Streaming Dienste

PPS, WaWi, ERP, CRM, SCM, …

Page 15: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Wie werden die Daten gespeichert? 15

NoSQL

Traditionelle DBMS OLTP

DW OLAP

Page 16: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Traditionelle Datenbank

* seit den 1970er Jahren; Edgar F. Cobb (IBM) (Mathematisch fundiertes) relationales Modell als Grundlage Daten in zweidimensionalen Tabellen (Spalten, Zeilen)

Normalisierung: Redundanzfreie Speicherung

ACID-Prinzip: Atomicity, Consistency, Isolation, Durability Standardisierte Schnittstelle SQL: Structured Query Language Physikalisch: Zeilenweises Speichern auf Festplatte (Datensatzorientiert)

Optimiert für viele schreibende Operationen / Transaktionen

OLTP: Online Transactional Processing

Aber: Nicht konzipiert und optimiert für Analysezwecke

16

Traditionelle DBMS OLTP

Page 17: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Data Warehouse

Physische Datenbank zur Integration von Daten aus beliebigen, heterogenen Quellen zu Analysezwecken Daten ändern sich nicht mehr, d.h. nur lesende Zugriffe Optimierung auf Performance, Redundanzen sind sinnvoll

„Single point of truth“ (als Basis eines BI-Systems) Multidimensionale Schemata

Fakten und Dimensionen Stern, Schneeflocke, Galaxie

OLAP: Online Analytical Processing Multidimensionale, konzeptionelle

Sicht auf Daten (in Form eines Cubes)

Aufwendiger ETL-Prozess Extrahieren, Transformieren, Laden Daten bereinigen, harmonisieren, …

17

DW OLAP

Page 18: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

In Memory Datenbank

Daten liegen vollständig und permanent im Arbeitsspeicher Höhere Hardwareanforderungen als bei konventionellen Datenbanken Abgestimmtes Sicherungskonzept, da es sich beim RAM um einen

flüchtigen und nicht einen persistenten Arbeitsspeicher handelt

Sehr schnelle Zugriffzeiten Ca. 100 ns statt 1.000.000 ns bei einer traditionellen DB

Daten liegen in komprimierter Form vor Zeilen- und Spaltenorientiertes Arbeiten

OLTP (Online Transaction Processing) OLAP (Online Analytical Processing)

Beispiel: SAP HANA

18

Quelle: Oracle (2016)

Page 19: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

NoSQL-Datenbank

Not only SQL „Strukturierte Datenspeicher“, aber kein relationales DBMS Flexible Speichermöglichkeiten statt starre Schema-Definitionen Performance ist wichtiger als Konsistenz (kein ACID-Prinzip) Skalierbarkeit: Verteilung der Daten auf Cluster (z.B. Hadoop)

19

NoSQL

Kategorie

Dokumentenorientiert

Spaltenorientiert

Key-Value Store

Graph

Anwendung

Unstrukturierte Daten

Analysen

Listen, Sets

Knoten & Beziehungen

Beispiele

MongoDB, CouchDB

Cassandra, HBase

Redis, Memcache, Riak

Neo4j, Giraph

Page 20: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Big Data: Die 4 Vs 20

Volume

data at rest Terabytes Petabytes Exabytes

Velocity

data in motion Echtzeit Neartime Streams

Variety

data in many forms Strukturierte Daten Semistrukturierte Daten Unstrukturierte Daten

Veracity

data in doubt Fehlende Daten Ungenaue Daten Fehlerhafte Daten

Quelle: Walker (2012)

Page 21: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

BI / Big Data in einer integrierten Anwendungslandschaft 21

Quelle: BITKOM (2012)

Komplexität

Page 22: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Komplexes BI-System vs. Tabellenkalkulation / Excel

» 90 % der untersuchten Mappen mit mehr als 150 Zeilen enthalten mindestens einen Formel-Fehler. « Quelle: Freeman, D. : How to Make Spreadsheets Error-Proof, Journal of Accountancy 181 (1996) 75 – 77.

» In 20 von 22 analysierten Mappen waren signifikante Fehler (91 %). Das Erstaunliche daran ist jedoch, dass 81 % der Anwender trotzdem davon ausgehen, sie würden auf dieser Grundlage einen wesentlichen Vorteil gegenüber Wettbewerbern erlangen. «

Quelle: KPMG Management Consulting: Supporting the Decision Maker: A Guide to the Value of Business Modeling, 30.07.1998.

» In 7 unabhängigen Studien wurden insgesamt 113 Mappen untersucht und dabei in 88 % der Fälle größere Fehler gefunden. «

Quelle: Panko, R.R.: What We Know About Spreadsheet Errors, Journal of End User Computing's 10 (1998) 15 – 21.

Ein prominentes Beispiel Kenneth Saul Rogoff, US-amerik. Ökonom und Professor an der Harvard University Mai 2010: Growth in a time of debt (zusammen mit Carmen Reinhart):

Das Wirtschaftswachstum einer Volkswirtschaft verringert sich dann stark, wenn die Verschuldung auf mehr als 90 Prozent des Bruttoinlandsproduktes steigt. Empfehlung: Radikale Sparpolitik!

April 2013: Studienarbeit des VWL-Studenten Thomas Herndon: Die Excel-Tabelle zur Berechnung enthielt Fehler. Einige Daten wurden nicht berücksichtigt, andere falsch gewichtet.

22

Foto: Jason Grow

Page 23: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Datenvirtualisierung: Reduzierung von Komplexität

Abstrahieren und Integrieren über Schnittstellen (statt Duplizieren per ETL-Prozess)

23

Quelle: Denodo (2016)

Page 24: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

III

DATA MINING &

PREDICTIVE ANALYTICS

Page 25: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

25

Foto: Elsevier Inc.

Page 26: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics
Page 27: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Cross Industry Standard Process for Data Mining (CRISP-DM) 27

Geschäfts-verständnis

Daten-verständnis

Daten-aufbereitung

Modell-bildung

Modell-bewertung

Einsatz der Ergebnisse

Quelle: Chapman (2000)

Page 28: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Kategorien im Data Mining 28

Prognosen Assoziation Segmentierung Klassifikation Vi

sual

isie

rung

Besc

hrei

bung

Identifikation von Trends im

Datenzeitbezug

Suche nach Abhängigkeiten zwischen den

Objekten

Erschaffen einheitlicher, homogener

Objektteilmengen

Aufteilung der Objekte in

vordefinierte Klassen

Beis

piel

Vorhersage in Verkauf und Umsatz

(→ Absatz-/ Produktionsplanung)

Analyse von Shopping-

Warenkörben (→ Produkt-

empfehlungen)

Erstellen eines Kunden-Portfolios (→ Differenziertes

Marketing)

Churn-Analyse (→ Kunden-bindungs-

maßnahmen)

Quelle: in Anlehnung an Strohmeier (2009)

Page 29: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Methoden und Algorithmen: Eine Auswahl 29

Kategorie

Klassifikation

Segmentierung

Prognose

Assoziation

Methode

Naive Bayes

Entscheidungsbaum

Neuronale Netze

Clusteranalyse

Regressionsanalyse

Stochastische Meth.

Assoziationsregeln

Algorithmus

Max a posteriori

ID3 bzw. C4.5

CART

MLP / Backpropagation

SOM / Kohonen

Hierarchisches Clustering

k-Means

Autoregressive Prozesse

Apriori-Algorithmus

Parameter

Information Gain

Gini-Index

Single Linkage

Complete Linkage

Average Linkage

Zentroid

Ward

AR(p)

ARMA(p,q)

ARIMA(p,d,q)

Confidence, Support

Page 30: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Data Analytics

» Die Lehre oder Kunst des Analysierens, also der Durchführung von Datenanalysen «

30

Quelle: Dorschel (2015)

und

Data Mining Methoden werden angewendet

Page 31: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Beispiel: Predictive Maintenance – Vorausschauende Wartung

Wann wird eine Maschine ausfallen?

Prognose / Ausreißeranalyse Überwachtes Lernen, d.h. Lernen aus Erfahrungen mit Störungen, Ausfällen, kritischem Verhalten usw. Daten: Wartungs-Logs, Konfigurationen, Sensor- und Telemetrie-Daten usw. [kontinuierliches Messen]

Unterschiedliche Ansätze White Box [Strukturmodell]: Kausale Zusammenhänge des Systems werden über physikalische Gesetze

modelliert, z.B. Schwingungs-/Vibrationsgleichungen => Simulationen zu kritischem Systemverhalten Black Box [Verhaltensmodell]: Ein-Ausgangsverhalten (Input: Sensordaten, Output: Maschinenzustand)

wird gelernt, ohne die genaue innere Struktur zu kennen; z.B. durch Künstliche Neuronale Netze (KNN)

Methoden Kombination etablierter Verfahren: Clusteranalyse, Klassifikation, Regression, …

Herausforderungen Kein Patentrezept für unterschiedliche Maschinen (Produktionsanlagen, Windräder, Flugzeuge, LKWs, …)

31

Page 32: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Master-Kurs „Data Science“ an der htw saar

Vorlesung mit integrierten praktischen Übungen

SAP Business Warehouse Data Warehousing Workbench: Modellierung, ETL-Prozess, InfoCube-Analysen

KNIME Analytics Data Mining Workflows

zukünftig: Raspberry-Pi-Cluster mit Hadoop bzw. Spark für BIG DATA

32

Page 33: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Vielen Dank für Ihre Aufmerksamkeit! 33

Prof. Dr. Stefan Selle HTW des Saarlandes Waldhausweg 14 66123 Saarbrücken 0681 / 58 67 - 515 [email protected]

Page 34: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Quellenverzeichnis (1/2)

BITKOM (2012) BITKOM: Big Data im Praxiseinsatz – Szenarien, Beispiele, Effekte, 18.09.2012, URL: https://www.bitkom.org/Bitkom/Publikationen/Leitfaden-Big-Data-im-Praxiseinsatz- Szenarien-Beispiele-Effekte.html

Chapman (2000) Chapman, P. et al.: CRISP-DM 1.0, Step-by-step data mining guide, August 2000, URL: http://www.the-modeling-agency.com/crisp-dm.pdf

comdirect (2016) comdirect: Informer, aufgerufen: 12.02.2016, URL: https://www.comdirect.de Denodo (2016) Denodo: Data Virtualization, aufgerufen: 12.02.2016, URL: http://www.denodo.com

/en/data-virtualization/overview Dorschel (2015) Dorschel, J.: Praxishandbuch Big Data, Springer Gabler, Wiesbaden, 2015. Freeman (1996) Freeman, D. : How to Make Spreadsheets Error-Proof, Journal of Accountancy 181

(1996) 75 – 77. Hälsig (2015) Hälsig, F., Schwarz, N., Selle, S.: Untersuchung und Entwicklung von integrativen

Lo ̈sungen im Mobile Commerce in Deutschland: Eine Studie im Rahmen des Research Pool 2014, Hochschule für Technik und Wirtschaft des Saarlandes, Saarbrücken, 2015.

KPMG (1998) KPMG Management Consulting: Supporting the Decision Maker: A Guide to the Value of Business Modeling, 30.07.1998.

34

Page 35: Data Analytics - ikt.saarland · agenda ≡ digitalisierung ≡ business intelligence / big data ≡ data mining & predictive analytics

Quellenverzeichnis (2/2)

Oracle (2016) Oracle: Database In-Memory, aufgerufen: 12.02.2016, URL: http://www.oracle.com/ technetwork/database/in-memory/overview/index.html

Otto (2015) Otto, B.: Industrial Data Space im Überblick, Fraunhofer Institut für Materialfluss und Logistik, Dortmund, 30.10.2015, URL: http://de.slideshare.net/borisotto/berblick- zum-industrial-data-space

Panko (1998) Panko, R.R.: What We Know About Spreadsheet Errors, Journal of End User Computing's 10 (1998) 15 – 21.

statista (2016) statista: Bruttoinlandsprodukt (BIP) in Österreich bis 2015, aufgerufen: 12.02.2016, URL: http://de.statista.com/statistik/daten/studie/14390/umfrage/ bruttoinlandsprodukt-in-oesterreich/

Strohmeier (2009) Strohmeier, S.: Informationssysteme im Management, Vorlesungsunterlagen Sommersemester 2009, Universität des Saarlandes.

Walker (2012) Walker, M.: Data Veracity, 28.12.2012, URL: http://www.datasciencecentral.com/ profiles/blogs/data-veracity

Youyou (2015) Youyou, W., Kosinski, M., Stillwell, D.: Computer-based personality judgments are more accurate than those made by humans, Proceedings of the National Academy of Sciences of the United States of America 112 (2015) 1036 – 1040.

35