Maschinelles Lernen für Laien - Datahouse · Workflow Maschinelles Lernen Datensatz wählen und...

Post on 28-May-2020

1 views 0 download

Transcript of Maschinelles Lernen für Laien - Datahouse · Workflow Maschinelles Lernen Datensatz wählen und...

Maschinelles Lernen für LaienScientifica 2019

Aus Daten werden Informationen

Unsere KernkompetenzenServices

3

Von der anfänglichen Anforderungsanalyse, bis zur technischen Umsetzung – wir begleiten Sie durch sämtliche Schritte des Daten pro zesses und helfen Ihnen, die optimale Lösung zu finden.

Datenerhebung Datenverarbeitung Datenanalyse Datenvisualisierung

Über uns

2005 2010 2014 2019

KünstlicheIntelligenz

6

Einleitung

7

Einleitung

8

Einleitung

9

Einleitung

Maschinelles Lernenim Alltag

Erwarten Sie Nachwuchs?

Supermarktkette aus den USA

Wichtiges Kundensegment: werdende Eltern

Errechneten, ob eine Kundin schwanger ist

Verschickten Gutscheine für Babyprodukte

Eklat, weil Vater von der Schwangerschaft seiner Tochter erfuhr

11

Aus dem Alltag

Wieso wollen Sie kündigen? HP berechnete für jeden Mitarbeiter eine

“Flight Risk” Score (Kündigungsrisiko)

Basierend auf Lohn, Beförderungen, Befragungen usw.

Bei hohem Risiko wird Gespräch gesucht

Sensible, spekulative HR-Daten

12

Aus dem Alltag

Haben Sie per Kreditkarte bezahlt?

Korrekte Transaktionen von Missbrauch unterscheiden

Missbräuchliche Transaktionen verhindern

Kontakt mit Kartenbesitzer aufnehmen

13

Aus dem Alltag

Wie entsteht einVorhersagemodell?

Workflow Maschinelles Lernen Datensatz wählen und prüfen

Zielvariable definieren

Feature Engineering

Modell auswählen und tunen

Modellgüte überprüfen

Vorhersagen machen

15

Vorhersagemodelle

Datensatz: Variablen und Fälle

16

Vorhersagemodelle

Spalte = Variable Zeile = Fall

Zielvariable definieren

17

Vorhersagemodelle

FeatureEngineering

Den Datensatz umbauen ...

Variablen bereinigen / aufsplitten / kombinieren / aggregieren

19

Feature Engineering

Modell-Auswahl

Regression – Klassifikation

Regression: Vorhersage eines Zahlenwertes

21

Vorhersagemodelle

Klassifikation: Vorhersage einer Klasse / Gruppe oder einer Klassenwahrscheinlichkeit

A

C

B

Y = f(X) + e Zielvariable Y

Funktion f der erklärenden Variablen X

Zufälliger Fehler e

f soll aus den Beispielen approximiert werden

22

Vorhersagemodelle

Beispiel BMI: Körpergewicht = Körpergrösse2 • 23 kg/m2 + e

Parametrische Modelle

Modell basiert auf wenigen definierten Parametern

z.B. Y = B0 + B1X1 + B2X2

Die Parameter werden aus den Trainingsfällen berechnet

23

Lineare Modelle

Beispiel BMI: Körpergewicht = Körpergrösse2 • 23 kg/m2

Nicht parametrische Modelle Dank gestiegener Rechenleistung in den 80ern

Keine Annahmen über f(X)

Diverse Modellfamilien (Entscheidungsbäume, SVM, neuronale Netzwerke)

Zudem neue Methoden wie Kreuzvalidierung

24

Maschinelles Lernen

Entscheidungsbäume Sequentielle Entscheidungen

Pro Entscheidung: eine Variable, ein Trennwert

Endknoten enthalten Vorhersagen

Sehr flexibel

Einfach interpretierbar

25

Maschinelles Lernen

Geschlecht männlich?

Körpergrösse> 1.80 m?

Körpergrösse > 1.70 m?

Gewicht: 80 kg Gewicht: 70 kg Gewicht: 60 kg Gewicht: 70 kg

Random Forest

Parallele Entscheidungsbäume

Neues Datensample für jeden Baum

Leicht zufällige Variablen-Auswahl

Flexibel, robust

26

Maschinelles Lernen

Künstliche neuronale Netzwerke Basierend auf biologischen Neuronen und Synapsen

Signalfluss durch ein Netzwerk

Existieren seit den 1970er Jahren

Einfache Architektur mit wenigen Ebenen

Vereinzelte Anwendungen

27

Deep Learning

Deep Learning Dank Rechenpower und Datenmengen

Unglaublich komplexe Netzwerk-Architekturen

Millionen von Parametern

Effiziente Methoden gegen Over-Fitting

Riesiger Trainingsaufwand (Zeit und GPU)

28

Deep Learning

Modellgüteprüfen

“All models are wrong, but some are useful.”

George E. P. Box

30

Modellgüte

Bias / Variance Trade-Off

31

Modellgüte

Modell so einfach wie möglich und so kompliziert wie nötig

Modellvalidierung

32

Modellgüte

Simuliert den Einsatz des Modells auf neuen Daten

Kompletter Datensatz

Trainingsdaten Testdaten

Die Bedeutung der Variablen Wie stark eine Variable die Vorhersage beeinflusst

Modellabhängige Berechnung

Skaliert auf einen Maximalwert von 100

Nicht direkt interpretierbar

33

Modellgüte

AutoML

Workflow Maschinelles Lernen Datensatz wählen und prüfen

Zielvariable definieren

Feature Engineering

Modell auswählen und tunen

Modellgüte überprüfen

Vorhersagen machen

35

Auto ML

Ziele Auto ML

Workflow automatisieren

Modellbildung auch Laien ermöglichen

Nötige Inputs: Datensatz, Zielvariable, (Budget)

36

Auto ML

Auto ML Software

37

Auto ML

Auto WEKA

TPOT

Auto-sklearn

H2O AutoML

Auto Keras

Google AutoML Tables (Beta)

Sammelt Datensätze, Tasks und Resultate

“Einfache Modelle” bereits sehr gut

Datensatz ist entscheidend

Feature Engineering extrem wichtig

38

Auto ML

https://demo.predictoor.com

39

Auto ML

Herausforderungen undEthische Aspekte

Datenkontext

41

Herausforderungen

Filter-Bubbles

42

Herausforderungen

Akzeptanz / Privatsphäre

43

Herausforderungen

Vorurteilsfreie Modelle?

44

Herausforderungen

https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing

Was denkenSie?

Herzlichen Dank fürIhr Interesse!

Thomas Maier+41 44 289 92 63thomas.maier@datahouse.ch

Datahouse AGBleicherweg 58001 Zürich

www.datahouse.ch

1. September 2019

Daniel Meister+41 44 289 92 30daniel.meister@datahouse.ch

Datahouse AGBleicherweg 58001 Zürich

www.datahouse.ch