Problemstellungen

45
Techniken des Maschinellen Lernens für “Data Mining” Ian Witten, Eibe Frank (übersetzt von Norbert Fuhr)

description

Techniken des Maschinellen Lernens für “Data Mining” Ian Witten, Eibe Frank (übersetzt von Norbert Fuhr). 1. Problemstellungen. Data vs. Information Data Mining und Maschinelles Lernen Strukturelle Beschreibungen Regeln: Klassifikation und Assoziation Entscheidungsbäume Datensätze - PowerPoint PPT Presentation

Transcript of Problemstellungen

Page 1: Problemstellungen

Techniken des Maschinellen Lernens für “Data Mining”

Ian Witten, Eibe Frank(übersetzt von Norbert Fuhr)

Page 2: Problemstellungen

2

Problemstellungen

Data vs. Information Data Mining und Maschinelles Lernen Strukturelle Beschreibungen

Regeln: Klassifikation und Assoziation Entscheidungsbäume

Datensätze Wetter, Kontaktlinsen, CPU-Performance, Tarifverhandlungen,

Klassifikation von Sojabohnen

Feldstudien Kreditanträge, Bildanalyse, Lastvorhersage, Diagnose von

Maschinenfehlern, Warenkorbanalyse

Generalisierung als Suche Data Mining und Ethik

1

Page 3: Problemstellungen

3

Daten vs. Information

Unsere Gesellschaft produziert riesige Datenmengen Quellen: Naturwissenschaften, Medizin,

Wirtschaft, Geografie, Umwelt, Sport, … Potenziell wertvolle Ressourcen Rohdaten sind nutzlos: Techniken zur

automatischen Extraktion von Information benötigt: Daten: aufgezeichnete Fakten Information: den Daten zugrundeliegende

Muster

1

Page 4: Problemstellungen

4

Information ist entscheidend Beispiel 1: künstliche Befruchtung

Gegeben: Embryonen, beschrieben durch 60 Merkmale Problem: Auswahl der Embryonen, die überleben

werden Daten: gesammelte Fakten über bisherig Embryonen

und deren Schicksal Beispiel 2: Haltung von Milchkühen

Gegeben: Kühe, beschrieben durch 700 Merkmale Probleme: Auswahl der Kühe, die geschlachtet werden

sollten Daten: Aufzeichnungen über Kühe in den

zurückliegenden Jahren und die Entscheidungen der Bauern

Page 5: Problemstellungen

5

Data Mining Extraktion von

impliziter, bislang unbekannter, potenziell nützlicher

Information aus Daten Gesucht: Programme, die Muster und Regularitäten in

den Daten entdecken Ausgeprägte Muster können für Vorhersagen genutzt

werden: Problem 1: Die meisten Muster sind uninteressant Problem 2: Muster können unscharf sein (oder extrem

fragwürdig), falls die Daten unvollständig oder fehlerhaft sind

Page 6: Problemstellungen

6

Techniken des Maschinellen Lernens

Technische Basis für Data Mining: Algorithmen zum Lernen von strukturellen Beschreibungen aus Beispielen

Strukturelle Beschreibungen repräsentieren implizit Muster: Nutzung zur Vorhersage in neuen Situationen Nutzung, um die Vorhersage zu verstehen und zur

Erklärung des Zustandekommens der Vorhersage (evtl. sogar wichtiger)

Methoden stammen aus der künstlichen Intelligenz, Statistik und der Datenbank-forschung

Page 7: Problemstellungen

7

Strukturelle Beschreibungen

Beispiel: Wenn-Dann-Regeln

Age Spectacle prescription

Astigmatism Tear production

rate

Recommended lenses

Young Myope No Reduced None

Young Hypermetrope

No Normal Soft

Pre-presbyopic

Hypermetrope

No Reduced None

Presbyopic Myope Yes Normal Hard

… … … … …

If tear production rate = reducedthen recommendation = none

Otherwise, if age = young and astigmatic = no then recommendation = soft

Page 8: Problemstellungen

8

Können Maschinen lernen? Lexikon-Definition von “Lernen”:

Wissen sammeln durch Studium, Erfahrung, oder durch einen LehrerBewusst werden durch Informieren oder durch BeobachtungIm Gedächtnis abspeichernInformiert werden, sich vergewissern, Anleitung erhalten

Schwierig zu messen

Trivial für Computer

Wesen lernen, wenn sie ihr Verhalten in einer Weise so ändern, dass sie in Zukunft erfolgreicher agieren

Operationale Definition:

Lernt ein Schuh?

Muss Lernen bewusst erfolgen?

Page 9: Problemstellungen

9

Das Wetterproblem

Bedingungen, um ein unspezifiziertes Spiel zu spielen:

Outlook Temperature Humidity Windy Play

Sunny Hot High False No

Sunny Hot High True No

Overcast Hot High False Yes

Rainy Mild Normal False Yes

… … … … …

If outlook = sunny and humidity = high then play = no

If outlook = rainy and windy = true then play = no

If outlook = overcast then play = yes

If humidity = normal then play = yes

If none of the above then play = yes

Page 10: Problemstellungen

10

Ross Quinlan

Machine learning researcher from 1970’s University of Sydney, Australia 1986 “Induction of decision trees” ML

Journal1993 C4.5: Programs for machine learning.

Morgan Kaufmann199? Started

Page 11: Problemstellungen

11

Klassifikations- vs. Assoziationsregeln

Klassifikationsregeln:Vorhersage des Wertes einer spezifischen Attributs (die Klassifikation des Beispiels)

Assoziationsregeln:Vorhersage des Wertes eines beliebigen Attributs, oder einer Attributkombination

If outlook = sunny and humidity = highthen play = no

If temperature = cool then humidity = normal

If humidity = normal and windy = falsethen play = yes

If outlook = sunny and play = no then humidity = high

If windy = false and play = no then outlook = sunny and humidity = high

Page 12: Problemstellungen

12

Wetterdaten mit gemischten Attributen

Zwei Attribute mit numerischen WertenOutlook Temperature Humidity Windy Play

Sunny 85 85 False No

Sunny 80 90 True No

Overcast 83 86 False Yes

Rainy 75 80 False Yes

… … … … …

If outlook = sunny and humidity > 83 then play = no

If outlook = rainy and windy = true then play = no

If outlook = overcast then play = yes

If humidity < 85 then play = yes

If none of the above then play = yes

Page 13: Problemstellungen

13

Die Kontaktlinsen-DatenAge Spectacle

prescriptionAstigmatism Tear production

rateRecommended

lensesYoung Myope No Reduced NoneYoung Myope No Normal SoftYoung Myope Yes Reduced NoneYoung Myope Yes Normal HardYoung Hypermetrope No Reduced NoneYoung Hypermetrope No Normal SoftYoung Hypermetrope Yes Reduced NoneYoung Hypermetrope Yes Normal hardPre-

presbyopicMyope No Reduced None

Pre-presbyopic

Myope No Normal Soft

Pre-presbyopic

Myope Yes Reduced None

Pre-presbyopic

Myope Yes Normal Hard

Pre-presbyopic

Hypermetrope No Reduced None

Pre-presbyopic

Hypermetrope No Normal Soft

Pre-presbyopic

Hypermetrope Yes Reduced None

Pre-presbyopic

Hypermetrope Yes Normal None

Presbyopic Myope No Reduced NonePresbyopic Myope No Normal NonePresbyopic Myope Yes Reduced NonePresbyopic Myope Yes Normal HardPresbyopic Hypermetrope No Reduced NonePresbyopic Hypermetrope No Normal SoftPresbyopic Hypermetrope Yes Reduced NonePresbyopic Hypermetrope Yes Normal None

Page 14: Problemstellungen

14

Eine vollständige und korrekte Regelmenge

If tear production rate = reduced then recommendation = none

If age = young and astigmatic = noand tear production rate = normal then recommendation = soft

If age = pre-presbyopic and astigmatic = noand tear production rate = normal then recommendation = soft

If age = presbyopic and spectacle prescription = myopeand astigmatic = no then recommendation = none

If spectacle prescription = hypermetrope and astigmatic = noand tear production rate = normal then recommendation = soft

If spectacle prescription = myope and astigmatic = yesand tear production rate = normal then recommendation = hard

If age young and astigmatic = yes and tear production rate = normal then recommendation = hard

If age = pre-presbyopicand spectacle prescription = hypermetropeand astigmatic = yes then recommendation = none

If age = presbyopic and spectacle prescription = hypermetropeand astigmatic = yes then recommendation = none

Page 15: Problemstellungen

15

Ein Entscheidungsbaum für dasselbe Problem

Page 16: Problemstellungen

16

Klassifikation von Irisblumen

Sepal length

Sepal width

Petal length

Petal width

Type

1 5.1 3.5 1.4 0.2 Iris setosa

2 4.9 3.0 1.4 0.2 Iris setosa

51 7.0 3.2 4.7 1.4 Iris versicolor

52 6.4 3.2 4.5 1.5 Iris versicolor

101 6.3 3.3 6.0 2.5 Iris virginica

102 5.8 2.7 5.1 1.9 Iris virginica

… If petal length < 2.45 then Iris setosa

If sepal width < 2.10 then Iris versicolor

...

Page 17: Problemstellungen

17

Beispiele: 209 verschiedene Computer-Konfigurationen

Lineare Regressionsfunktion

Vorhersage der CPU-Performanz

Cycle time (ns)

Main memory (Kb)

Cache (Kb)

Channels Performance

MYCT MMIN MMAX CACH CHMIN CHMAX PRP

1 125 256 6000 256 16 128 198

2 29 8000 32000 32 8 32 269

208 480 512 8000 32 0 0 67

209 480 1000 4000 0 0 0 45

PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX+ 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX

Page 18: Problemstellungen

18

Daten aus Tarifverhandlungen

Attribute Type 1 2 3 … 40Duration (Number of years) 1 2 3 2Wage increase first year Percentage 2% 4% 4.3

%4.5

Wage increase second year Percentage ? 5% 4.4%

4.0

Wage increase third year Percentage ? ? ? ?Cost of living adjustment {none,tcf,tc} non

etcf ? non

eWorking hours per week (Number of hours) 28 35 38 40Pension {none,ret-allw, empl-

cntr}none

? ? ?

Standby pay Percentage ? 13% ? ?Shift-work supplement Percentage ? 5% 4% 4Education allowance {yes,no} yes ? ? ?Statutory holidays (Number of days) 11 15 12 12Vacation {below-avg,avg,gen} avg gen gen avgLong-term disability assistance

{yes,no} no ? ? yes

Dental plan contribution {none,half,full} none

? full full

Bereavement assistance {yes,no} no ? ? yesHealth plan contribution {none,half,full} non

e? full half

Acceptability of contract {good,bad} bad good

good

good

Page 19: Problemstellungen

19

Entscheidungs-bäume für die

Tarifdaten

Page 20: Problemstellungen

20

Klassifikation von Sojabohnen

Attribute Number of

values

Sample value

Environment

Time of occurrence 7 July

Precipitation 3 Above normal…

Seed Condition 2 NormalMold growth 2 Absent

…Fruit Condition of fruit

pods4 Normal

Fruit spots 5 ?Leaves Condition 2 Abnormal

Leaf spot size 3 ?…

Stem Condition 2 AbnormalStem lodging 2 Yes

…Roots Condition 3 Normal

Diagnosis 19 Diaporthe stem canker

Page 21: Problemstellungen

21

Die Rolle von Domänenwissen

If leaf condition is normaland stem condition is abnormaland stem cankers is below soil lineand canker lesion color is brown

thendiagnosis is rhizoctonia root rot

If leaf malformation is absentand stem condition is abnormaland stem cankers is below soil lineand canker lesion color is brown

thendiagnosis is rhizoctonia root rot

Aber (bei dieser Anwendung): “leaf condition is normal” impliziert “leaf malformation is absent”!

Page 22: Problemstellungen

22

Feld-Anwendungen Das Lernergebnis oder die Lernmethode

selbst wird in praktischen Anwendungen eingesetzt Reduzierung der Verzögerungen beim

Rotationsdruck Formgebung von Flugzeugteilen Automatische Klassifikation von Flugobjekten Automatische Vervollständigung von sich

wiederholenden Formularen Text-Retrieval …

Page 23: Problemstellungen

23

Entscheidung von Kreditanträgen

Gegeben: Fragebogen mit Angaben zur Person und deren finanzielle Situation Problem: soll der Kredit gewährt werden? Einfache statistische Methode deckt 90%

aller Fälle ab Aber: 50% aller Grenzfälle führen zu

Kreditausfällen Lösung(?): alle Grenzfälle zurückweisen

Nein! Grenzfälle gehören zu den umsatzstärksten Kunden

Page 24: Problemstellungen

24

Anwendung von maschinellem Lernen

1000 Trainingsbeispiele für Grenzfälle 20 Attribute:

Alter, Beschäftigungsdauer beim aktuellen Arbeitgeber, Wohndauer an der gegenwärtigen Adresse, Dauer der Kundenbeziehung zur Bank, andere gewährte Kredite, …

Gelernte Regelmenge sagt 2/3 der Grenzfälle korrekt voraus!

Außerdem: Firma mag die Regeln, da sie benutzt werden können, um den Kunden gegenüber die Kreditentscheidung zu erläutern

Page 25: Problemstellungen

25

Analyse von Luftbildern Gegeben: Satellitenbilder von

Küstengewässern Problem: Auffinden von Ölflecken in

diesen Bildern Ölflecken erscheinen als dunkle

Regionen unterschiedlicher Größe und Gestalt

Schwierigkeit: ähnliche dunkle Flecken können durch bestimmte Wetterbedingungen verursacht werden (z.B. starke Winde)

Aufwändige Analyse, erfordert lange geschultes Personal

Page 26: Problemstellungen

26

Anwendung von maschinellem Lernen Dunkle Regionen werden aus normalisierten Bildern

extrahiert Attribute:

Größe der Region, Gestalt, Fläche, Intensität, Schärfe und Zackung der Grenzen, Nähe zu anderen Regionen, Informationen über den Hintergrund

Randbedingungen: Wenige Trainingsbeispiele (Ölflecken treten selten auf) Unbalancierte Daten: die meisten dunklen Regionen sind

keine Ölflecken Regionen aus einem Bild werden gemeinsam prozessiert Anforderung: einstellbare Quote für Fehlalarme

Page 27: Problemstellungen

27

Last-Vorhersage Elektrizitätswerke benötigen Vorhersagen über den zukünftigen Energiebedarf zu bestimmten Zeitpunkten Präzise Vorhersagen über die minimale und die maximale Last innerhalb jeder Stunde führen zu beachtlichen Einsparungen Gegeben: manuell konstruiertes statisches Modell, das

“normale” Wetterbedingungen voraussetzt Problem: Anpassung an konkrete Wetterbedingungen Parameter des statischen Modells:

Grundlast im laufenden Jahr, Jahreszeitliche Lastschwankungen, Einfluss von Feiertagen

Page 28: Problemstellungen

28

Anwendung von maschinellem Lernen verbesserte Vorhersage durch Suche nach den

“ähnlichsten Tagen” Attribute:

Temperatur, Luftfeuchtigkeit, Windgeschwindigkeit, Bewölkungsgrad, zusätzlich Differenz zwischen tatsächlicher und vorhergesagter Last

Zum statischen Modell wird mittlere Differenz der drei ähnlichsten Tage addiert

Koeffizienten der linearen Regressions-funktion stellen Attributgewichtungen in der Ähnlichkeitsfunktion dar

Page 29: Problemstellungen

29

Diagnose von Maschinenausfällen Diagnose: klassisches Anwendungsgebiet der Expertensysteme Gegeben: Fourier-Analyse von Vibrationen an

verschiedenen Stellen des Gehäuses Problem: Welcher Fehler liegt vor? Vorbeugende Wartung der elektromechanischen

Motoren und Generatoren Daten sind stark verrauscht Bisher: Diagnose durch Experten/manuell erstellte

Regeln

Page 30: Problemstellungen

30

Anwendung von maschinellem Lernen

Ausgangsdaten: 600 Fehler mit Expertendiagnosen~300 ungeeignet, restliche Fälle als

Trainingsmenge genutztAttribute angereichert um höhere Konzepte, die

kausales Domänenwissen repräsentierenExperte unzufrieden mit den initialen Regeln, da sie

sich nicht auf sein Anwendungswissen bezogenWeiteres Hintergrundwissen führte zu komplexeren

Regeln, die zufriedenstellend warenGelernte Regeln besser als die manuell erstellten

Page 31: Problemstellungen

31

Marketing und Verkauf I

Firmen sammeln große Mengen an Verkaufs- und Marketingdaten

Mögliche Anwendungen: Kundentreue: Identifikation von Kunden, die

potenziell bald “abspringen”, durch Erkennen von Änderungen in deren Verhalten

(z.B. Banken, Telefongesellschaften) Spezielle Angebote: Identifikation von

profitablen Kunden (z.B. zuverlässige Kunden von Kreditkartenunternehmen, die ein höheres Limit in der Urlaubszeit benötigen)

Page 32: Problemstellungen

32

Marketing und Verkauf II

Warenkorb-Analyse Assoziationstechniken, um Gruppen von Waren zu finden, die häufig zusammen gekauft werden

Analyse von Einkaufsmustern in der Vergangenheit

Identifikation von guten Kunden Fokussierung von Werbesendungen

(gezielte Kampagnen sind billiger als Massen-Werbesendungen)

Page 33: Problemstellungen

33

Maschinelles Lernen und Statistik

Historische Unterschiede (vereinfacht): Statistik: Hypothesen-Tests Maschinelles Lernen: Suche nach den

richtigen Hypothesen Aber: große Überlappungen

Entscheidungsbäume (C4.5 und CART) Nächster-Nachbar-Methoden

Heute: ähnliche Ziele Die meisten ML-Algorithmen benutzen

statistische Techniken

Page 34: Problemstellungen

34

Statisticians Sir Ronald Aylmer Fisher Born: 17 Feb 1890 London, England

Died: 29 July 1962 Adelaide, Australia Numerous distinguished contributions to

developing the theory and application of statistics for making quantitative a vast field of biology

Leo Breiman Developed decision trees 1984 Classification and

Regression Trees. Wadsworth.

Page 35: Problemstellungen

35

Generalisierung als Suche

Induktives Lernen: Suche nach einer Konzeptbeschreibung, die zu den Daten passt

Beispiel: Regelmenge als Beschreibungssprache Riesiger, aber endlicher Suchraum

Einfache Lösung: Aufzählen der Elemente des Konzeptraums Eliminieren aller Beschreibungen, die nicht zu den

Beispielen passen Verbleibende Beschreibung stellt das gesuchte

Konzept dar

Page 36: Problemstellungen

36

Aufzählen der Elemente des Konzeptraums

Suchraum für das Wetterproblem: 4 x 4 x 3 x 3 x 2 = 288 mögliche Regeln Beschränkung auf maximal 14 Regeln in der

Beschreibung 2.7x1034 mögliche Regelmengen Möglicher Ausweg: Algorithmus zur

Eliminierung von Kandidaten Weitere praktische Probleme:

Mehr als eine Beschreibung kann übrig bleiben Keine Beschreibung bleibt übrig

Beschreibungssprache ist ungeeignet, um das Zielkonzept zu beschreiben

Daten können verrauscht sein

Page 37: Problemstellungen

37

Der Versionsraum

Raum von konsistenten Konzeptbeschreibungen

Komplett bestimmt durch 2 Mengen: L: spezifischste Beschreibungen, die alle positiven

und keine negativen Beispiele abdecken G: generellste Beschreibungen, die keine

negativen und alle positiven Beispiele abdecken Nur L und G müssen verwaltet und aktualisiert

werden Aber: immer noch hoher Berechnungsaufwand Und: löst die anderen praktischen Problem

nicht

Page 38: Problemstellungen

38

Versionsraum: Beispiel

Gegeben: Rote oder grüne Kühe oder Hühner

L={} G={<*, *>}<green,cow>: positive

L={<green, cow>} G={<*, *>}<red,chicken>: negative

L={<green, cow>}G={<green,*>,<*,cow>}<green, chicken>: positive L={<green, *>} G={<green, *>}

Page 39: Problemstellungen

39

Algorithmus zur Kandidaten-Eliminierung

Initialize L and G

For each example e:

If e is positive:

Delete all elements from G that do not cover e

For each element r in L that does not cover e:

Replace r by all of its most specific generalizationsthat 1. cover e and

2. are more specific than some element in G

Remove elements from L thatare more general than some other element in L

If e is negative:

Delete all elements from L that cover e

For each element r in G that covers e:

Replace r by all of its most general specializations that 1. do not cover e and

2. are more general than some element in L

Remove elements from G thatare more specific than some other element in G

Page 40: Problemstellungen

40

Bias (systematische Fehler)

Die wichtigsten Entscheidungen in Lernsystemen: Konzept-Beschreibungssprache Reihenfolge, in der der Raum durchsucht wird Vermeidung der Überadaption an die

Trainingsdaten Diese Eigenschaften bestimmen den

“Bias” der Suche Beschreibungssprachen-Bias Such-Bias Überadaptions-Vermeidungs-Bias

Page 41: Problemstellungen

41

Beschreibungssprachen-Bias

Wichtigste Frage: Ist die Sprache universell oder beschränkt sie

das zu Lernende? Universelle Sprache kann beliebige

Teilmengen der Beispiele beschreiben Wenn die Sprache die Oder-Verknüpfung von

Aussagen zulässt, ist sie universell Domänenwissen kann benutzt werden, um

einige Konzeptbeschreibungen von vornherein von der Suche auszuschließen

Page 42: Problemstellungen

42

Such-Bias

Such-Heuristik “Greedy”-Suche: wähle jeweils den besten

Einzelschritt aus “Beam”-Suche: Behalte mehrere Alternativen im

Auge …

Richtung der Suche Vom Allgemeinen zum Speziellen

Z.B. Spezialisieren einer Regel durch Hinzufügen von Bedingungen

Vom Speziellen zum Allgemeinen Z.B. Generalisierung einer einzelnen Instanz zu einer

Regel

Page 43: Problemstellungen

43

Überadaptions-Vermeidungs-Bias

Kann als Teil des Such-Bias gesehen werden

Modifiziertes Bewertungskriterium Z.B. Balance zwischen Einfachheit und

Fehleranzahl Modifizierte Suchstrategie

Z.B. Pruning (Vereinfachen einer Beschreibung) Pre-Pruning: Stoppt bei einer einfachen Beschreibung,

bevor übermäßig komplexe Beschreibungen generiert werden

Post-Pruning: Generiert zunächst eine komplexe Beschreibung, die anschließend vereinfacht wird

Page 44: Problemstellungen

44

Data Mining und Ethik I

Viele ethische Fragen werden bei praktischen Anwendungen aufgeworfen Data Mining wird oft zur Diskriminierung benutzt

Z.B. Kreditanträge: Berücksichtigung bestimmter Attribute (z.B. Geschlecht, Rasse, Religion) ist unethisch

Die Frage der Ethik ist anwendungsabhängig z.B. ist die Verwendung obiger Attribute in

medizinischen Anwendungen ok Attribute können problematische Informationen

beinhalten Z.B. kann die Postleitzahl mit der Rasse korrelieren

Page 45: Problemstellungen

45

Data Mining und Ethik II

Wichtige Fragen in praktischen Anwendungen: Wer hat Zugriff auf die Daten? Für welchen Zweck wurden die Daten gesammelt Welche Schlüsse können legitimerweise daraus

gezogen werden? Ergebnisse müssen unter Vorbehalt

betrachtet werden Rein statistische Argumente sind nie

ausreichend! Werden Ressourcen sinnvoll verwendet?