ADVANCED ANALYTICS DIE WELT ÄNDERT SICH - Dell … · EINSTIEG BIG DATAARCHITEKTUR ... Er lädt...

Post on 18-Apr-2018

215 views 0 download

Transcript of ADVANCED ANALYTICS DIE WELT ÄNDERT SICH - Dell … · EINSTIEG BIG DATAARCHITEKTUR ... Er lädt...

ADVANCED ANALYTICS

DIE WELT ÄNDERT SICH

Martin Clement

Senior Solution Architect, Analytics & Data

AGENDA

1. Die Welt ändert sich

2. Advanced Analytics. Praxis.

3. Und morgen?

4. Das F&M Data Science Vorgehensmodell

ÜBERGANGSFOLIEDIE WELT ÄNDERT SICH

EINSTIEG BIG DATA ARCHITEKTUR

Data Lake

Hadoop

Predictive /

Cognitive

Analytics

Meta

date

n / G

ov

ern

an

ce

Integration / Replikation / TransportStr

eam

ing

/ R

ealt

ime A

naly

tics

Data Warehouse /

Appliance

Business

Analytics & Perf.

Management

Business

Intelligence

Sandbox

AnyCloud Bild / Audio / Video Social Media Kollaboration Industrie 4.0 ERP

BA Design Reporting Analyse Dashboards Metrik Planung

ARCHITEKTUR INDUSTRIE 4.0

IBV

HMI

Antriebe

SPS

Aktorik

Robotik

Sensorik

FIELD NETWORK IT NETWORK

Maschinen

Anlagen

SERVICE BUS

OPC UA

ISO on TCP

Profibus

Profinet

Ethercat

CAN

Modbus

KO

NN

EK

TO

RE

N

DATEN

NUTZEN

Reporting

Analytics

Dashboards Scorecards

Planning Data Mining

Process

Automation

Exploration &

Search

Data Lake

Remote & Centralized

Visualisation

Streams

Data

Integration

Physical & human

intelligence

DATEN

ENTFESSELN

DATEN

BEWEGEN

DATEN

BEHEIMATEN

ANY OTHER

DATA

Automatisch - ERP

Self

Service

Time to

market

Standard-

isierung

Skalier-

barkeit

DER KUNDE IM FOKUS

• 70 Prozent der Kauferfahrungen basieren darauf, wie die

Menschen sich fühlen, loyale Kunden sind normalerweise das

zehnfache ihres ersten Einkaufs wert.

• Die Kosten der Kundenakquise sind sieben Mal so hoch wie die

Kosten der Kundenbindung. Man braucht zwölf positive

Erfahrungen, um eine nicht bereinigte negative Erfahrung

auszugleichen.

VORHER

NACHHER

WIE MENSCHEN DINGE SEHEN

DER CONTROLLER

• Sitzt vor so einer Tabelle (100 Zeilen á 8 Werte):

• Aufgabe der Geschäftsführung: Finden Sie heraus, warum 15

Mitarbeiter gekündigt haben.

DER CONTROLLER

• Die Antwort des Controller basiert auf Erfahrungswerten sowie

filtern und aggregieren:

• So beweist er, dass die Kündigungen durch einen zu niedrigen

Bonus verursacht wurden.

Spalte1 Bonus

nicht-Kündiger 19026,09639

Kündiger 16872,94118

Differnenz Bonus 11%

DER DATA SCIENTIST

• Bekommt die gleiche Fragestellung. Hat keine Ahnung von BWL

und noch weniger von HR. Macht aber folgendes in RStudio (Open

Source, btw.):

HR_DATA <- READ.CSV('/HOME/STUDENT/HR_KIDS.CSV', HEADER = TRUE, SEP = ";",

QUOTE = "\"", DEC = ".", FILL = TRUE, COMMENT.CHAR = "")

FIT <- RPART(KUENDIGER ~ FIX + BONUS + URLAUB + RESTURLAUBVJ + KINDER,

METHOD="CLASS", DATA=HR_DATA)

FANCYRPARTPLOT(FIT)

Anders ausgedrückt: Er lädt die Daten & rechnet einen Decision Tree.

DER DATA SCIENTIST

IM ERGEBNIS

• Es gibt zwei völlig unterschiedliche Aussagen.

• Der Controller würde vorschlagen, den Bonus zu erhöhen.

• Der Data Scientist würde vorschlagen, auf die Work Life Balance

zu achten.

AUF WELCHER BASIS WÜRDEN SIE

ENTSCHEIDEN WOLLEN, WENN SIE

GESCHÄFTSFÜHRER WÄREN?

ÜBERGANGSFOLIEADVANCED ANALYTICS.

PRAXIS.

BUSINESSPROBLEM CHURN PREVENTION

• Kunde im Telekommunikationsbereich

• Transparenter Markt

• 12 Millionen Kunden

• Omnichannel

100.000 KÜNDIGUNGEN PRO QUARTAL

DIE TASK

• Analyse aller Daten über/von Kunden

DWH-Daten

Emails

Audiofiles

• Können Kündigungen verhindert werden?

• Gibt es durch Big Data einen Business Impact, der noch nicht

erkannt wurde?

EIN TEIL DES PROJEKTES

• Am Freitag, dem 06. Februar, hat Vanessa eine Frage zu ihrer letzten Rechnung.

• Die genutzte Kategorisierungslösung erkennt den Inhalt der Email nicht.

• Als „unklassifiziert“ landet die Email mit über 600 Emails in einem Postsammler.

• Die Email wird vor dem Wochenende nicht mehr bearbeitet.

• Die nächste Nachricht von Vanessa kommt am Sonntag, dem 08. Februar.

• Es ist die Kündigung. Diese Nachricht wird richtig kategorisiert.

ANHAND DER VORHANDENEN DATEN WÄRE

VANESSA ALS KUNDIN MIT HOHEM

CLV ZU IDENTIFIZIEREN GEWESEN.

CALL CENTER - SENTIMENT ANALYSE AUDIO

ÜBERGANGSFOLIEUND MORGEN?

IOT (Internet of Things)

IOT ADVANCED ANALYTICS & CLOUD

CLOUD

{

"STATUS": "OK",

"IMAGEFACES": [{

"AGE": {

"AGERANGE": "30-35",

"SCORE": "0.506266"

},

"GENDER": {

"GENDER": "MALE",

"SCORE": "0.967705"

},

"HEIGHT": "192",

"POSITIONX": "31",

"POSITIONY": "31",

"WIDTH": "192"

}]

}

IOT ADVANCED ANALYTICS & CLOUD

CLOUD

ÜBERGANGSFOLIE

DAS F&M DATA SCIENCE

VORGEHENSMODELL

VORGEHENSMODELL CRISP-DM

• Durch Iterationen im Vorgehensmodell sind Aufwände schwer zu

schätzen.

• Es gibt nicht definierbare Projektergebnisse (bisher unerkannte

Korrelationen) auf die flexibel reagiert werden muss.

DIES STELLT BESONDERE

HERAUSFORDERUNGEN AN DAS

PROJEKTMANAGEMENT.

VORGEHENSMODELL CRISP-DM

Business

UnderstandingData

Understanding

Data

Preparation

Evaluation

Modeling

Deployment

Data

BEISPIEL: DATA SCIENCE WORKSHOP

Variante 1 - Vorbereitung 1 PT und Workshop 10 PT

Teilnehmer F&M / Extern 2-3 Personen

Variante 2 - Vorbereitung 2 PT und Workshop 15 PT

Teilnehmer F&M / Extern 2-3 Personen

Variante 3 - Vorbereitung 2 PT und Workshop 20 PT

Nachbereitung inkl. Ergebnispräsentation 3 PT

Teilnehmer F&M / Extern 2-3 Personen

Vorort Präsentation

Ergebnispräsentation

und Ausarbeitung

möglicher Projekte und

Mehrwerte.

Übergabe „Deliverables“

(z.B. entwickelter Code)

Optional

Ausarbeitung

Implementierungs-

empfehlung

„Big Data“

Plattform- und

Betriebsempfehlung

Dokumentation

Themen / Agenda

Vorstellung / Allgemeines Vorgehen

Evaluierung der gesammelten Use Cases

Analyse der vorhanden Datenquellen, –mengen

und -qualität

Auswahl:

darzustellende Use Cases

zu nutzende analytische Plattform

weitere Analysetools

Definition der erwarteten Ergebnisse

Data Preparation

Load der Daten

Test der Datenqualität und

Dokumentation

Anwendung statistischer Methoden zur Analyse

der Daten (Data Science) im Sinne der definierten

Use Cases

Ergebnis

Gemeinsam definierte Use Cases

Analyse der Machbarkeit (PoT)

Abgeleitete UseCases

Coaching der Mitarbeiter in Big Data -

Technologien

Vorbereitung gemeinsam mit dem Kunden

Identifikation der Stakeholder

Meeting mit allen Stakeholdern zur

Definition:

der Erwartungshaltung

von Use Cases

Vorbereitung der Use Cases

Welche Daten sind vorhanden?

Fehlen Daten, wenn ja, wo

können diese beschafft werden?

Welche Analysen wurden bisher

gemacht?

Wie waren die Ergebnisse?

Notwendige und mögliche Datentöpfe für

die Use Cases identifizieren

POTENZIALE

• Optimistisch geschätzt, werden aktuell 20% der Daten analysiert

bzw. „reported“.

• Mit Advanced Analytics wird eine neue Sicht auf strukturierte Daten

möglich.

• Mit dem Einsatz von Big Data Technologien werden unstrukturierte

Daten nutzbar.

SIE HABEN DIE DATEN. DIE NEUEN PLAYER

(NOCH) NICHT.

CHANCEN

• Ein besseres Verständnis von Geschäftsprozessen & Kundenverhalten.

• Bisher verborgene Zusammenhänge werden deutlich.

• Verbesserung von Services.

• Senkung von Kosten.

• Hebung von Umsatzpotenzialen.

• Entwicklung neuer Produkte.

EINE GEWINNBRINGENDE

PARTNERSCHAFT

• FRITZ & MACZIOL bringt analytisches Know How in verschiedenen Industrien mit.

• Dell EMCs dedizierter Storage für Big Data Szenarien (z.B. Data Lake) bietet zahlreiche

Möglichkeiten, kostengünstige und skalierbare Big Data-Architekturen zu entwerfen.

• Die Architekten bei FRITZ & MACZIOL greifen auf das Portfolio von EMC und interne

Spezialisten zu, um optimale Lösungsszenarien für unsere Kunden zu entwerfen.

• Dell EMCs DSSD bietet neue Möglichkeiten z.B. im Umfeld von Oracle.

FÜR UNSERE KUNDEN:

DATA LAKE MIT DELL EMC ISILION

• Volle Flexibilität bei Wachstum

• Scale out (Compute)

• Scale out (Datenmenge)

• Multi Hadoop Vendor Support

• File Application (SMB, NFS, HTTP, FTP, HDFS)

HABEN SIE NOCH FRAGEN?

Ansprechpartner

Martin Clement

mclement@fum.de

+49 151 18207504