Problemstellungen
description
Transcript of Problemstellungen
Techniken des Maschinellen Lernens für “Data Mining”
Ian Witten, Eibe Frank(übersetzt von Norbert Fuhr)
2
Problemstellungen
Data vs. Information Data Mining und Maschinelles Lernen Strukturelle Beschreibungen
Regeln: Klassifikation und Assoziation Entscheidungsbäume
Datensätze Wetter, Kontaktlinsen, CPU-Performance, Tarifverhandlungen,
Klassifikation von Sojabohnen
Feldstudien Kreditanträge, Bildanalyse, Lastvorhersage, Diagnose von
Maschinenfehlern, Warenkorbanalyse
Generalisierung als Suche Data Mining und Ethik
1
3
Daten vs. Information
Unsere Gesellschaft produziert riesige Datenmengen Quellen: Naturwissenschaften, Medizin,
Wirtschaft, Geografie, Umwelt, Sport, … Potenziell wertvolle Ressourcen Rohdaten sind nutzlos: Techniken zur
automatischen Extraktion von Information benötigt: Daten: aufgezeichnete Fakten Information: den Daten zugrundeliegende
Muster
1
4
Information ist entscheidend Beispiel 1: künstliche Befruchtung
Gegeben: Embryonen, beschrieben durch 60 Merkmale Problem: Auswahl der Embryonen, die überleben
werden Daten: gesammelte Fakten über bisherig Embryonen
und deren Schicksal Beispiel 2: Haltung von Milchkühen
Gegeben: Kühe, beschrieben durch 700 Merkmale Probleme: Auswahl der Kühe, die geschlachtet werden
sollten Daten: Aufzeichnungen über Kühe in den
zurückliegenden Jahren und die Entscheidungen der Bauern
5
Data Mining Extraktion von
impliziter, bislang unbekannter, potenziell nützlicher
Information aus Daten Gesucht: Programme, die Muster und Regularitäten in
den Daten entdecken Ausgeprägte Muster können für Vorhersagen genutzt
werden: Problem 1: Die meisten Muster sind uninteressant Problem 2: Muster können unscharf sein (oder extrem
fragwürdig), falls die Daten unvollständig oder fehlerhaft sind
6
Techniken des Maschinellen Lernens
Technische Basis für Data Mining: Algorithmen zum Lernen von strukturellen Beschreibungen aus Beispielen
Strukturelle Beschreibungen repräsentieren implizit Muster: Nutzung zur Vorhersage in neuen Situationen Nutzung, um die Vorhersage zu verstehen und zur
Erklärung des Zustandekommens der Vorhersage (evtl. sogar wichtiger)
Methoden stammen aus der künstlichen Intelligenz, Statistik und der Datenbank-forschung
7
Strukturelle Beschreibungen
Beispiel: Wenn-Dann-Regeln
Age Spectacle prescription
Astigmatism Tear production
rate
Recommended lenses
Young Myope No Reduced None
Young Hypermetrope
No Normal Soft
Pre-presbyopic
Hypermetrope
No Reduced None
Presbyopic Myope Yes Normal Hard
… … … … …
If tear production rate = reducedthen recommendation = none
Otherwise, if age = young and astigmatic = no then recommendation = soft
8
Können Maschinen lernen? Lexikon-Definition von “Lernen”:
Wissen sammeln durch Studium, Erfahrung, oder durch einen LehrerBewusst werden durch Informieren oder durch BeobachtungIm Gedächtnis abspeichernInformiert werden, sich vergewissern, Anleitung erhalten
Schwierig zu messen
Trivial für Computer
Wesen lernen, wenn sie ihr Verhalten in einer Weise so ändern, dass sie in Zukunft erfolgreicher agieren
Operationale Definition:
Lernt ein Schuh?
Muss Lernen bewusst erfolgen?
9
Das Wetterproblem
Bedingungen, um ein unspezifiziertes Spiel zu spielen:
Outlook Temperature Humidity Windy Play
Sunny Hot High False No
Sunny Hot High True No
Overcast Hot High False Yes
Rainy Mild Normal False Yes
… … … … …
If outlook = sunny and humidity = high then play = no
If outlook = rainy and windy = true then play = no
If outlook = overcast then play = yes
If humidity = normal then play = yes
If none of the above then play = yes
10
Ross Quinlan
Machine learning researcher from 1970’s University of Sydney, Australia 1986 “Induction of decision trees” ML
Journal1993 C4.5: Programs for machine learning.
Morgan Kaufmann199? Started
11
Klassifikations- vs. Assoziationsregeln
Klassifikationsregeln:Vorhersage des Wertes einer spezifischen Attributs (die Klassifikation des Beispiels)
Assoziationsregeln:Vorhersage des Wertes eines beliebigen Attributs, oder einer Attributkombination
If outlook = sunny and humidity = highthen play = no
If temperature = cool then humidity = normal
If humidity = normal and windy = falsethen play = yes
If outlook = sunny and play = no then humidity = high
If windy = false and play = no then outlook = sunny and humidity = high
12
Wetterdaten mit gemischten Attributen
Zwei Attribute mit numerischen WertenOutlook Temperature Humidity Windy Play
Sunny 85 85 False No
Sunny 80 90 True No
Overcast 83 86 False Yes
Rainy 75 80 False Yes
… … … … …
If outlook = sunny and humidity > 83 then play = no
If outlook = rainy and windy = true then play = no
If outlook = overcast then play = yes
If humidity < 85 then play = yes
If none of the above then play = yes
13
Die Kontaktlinsen-DatenAge Spectacle
prescriptionAstigmatism Tear production
rateRecommended
lensesYoung Myope No Reduced NoneYoung Myope No Normal SoftYoung Myope Yes Reduced NoneYoung Myope Yes Normal HardYoung Hypermetrope No Reduced NoneYoung Hypermetrope No Normal SoftYoung Hypermetrope Yes Reduced NoneYoung Hypermetrope Yes Normal hardPre-
presbyopicMyope No Reduced None
Pre-presbyopic
Myope No Normal Soft
Pre-presbyopic
Myope Yes Reduced None
Pre-presbyopic
Myope Yes Normal Hard
Pre-presbyopic
Hypermetrope No Reduced None
Pre-presbyopic
Hypermetrope No Normal Soft
Pre-presbyopic
Hypermetrope Yes Reduced None
Pre-presbyopic
Hypermetrope Yes Normal None
Presbyopic Myope No Reduced NonePresbyopic Myope No Normal NonePresbyopic Myope Yes Reduced NonePresbyopic Myope Yes Normal HardPresbyopic Hypermetrope No Reduced NonePresbyopic Hypermetrope No Normal SoftPresbyopic Hypermetrope Yes Reduced NonePresbyopic Hypermetrope Yes Normal None
14
Eine vollständige und korrekte Regelmenge
If tear production rate = reduced then recommendation = none
If age = young and astigmatic = noand tear production rate = normal then recommendation = soft
If age = pre-presbyopic and astigmatic = noand tear production rate = normal then recommendation = soft
If age = presbyopic and spectacle prescription = myopeand astigmatic = no then recommendation = none
If spectacle prescription = hypermetrope and astigmatic = noand tear production rate = normal then recommendation = soft
If spectacle prescription = myope and astigmatic = yesand tear production rate = normal then recommendation = hard
If age young and astigmatic = yes and tear production rate = normal then recommendation = hard
If age = pre-presbyopicand spectacle prescription = hypermetropeand astigmatic = yes then recommendation = none
If age = presbyopic and spectacle prescription = hypermetropeand astigmatic = yes then recommendation = none
15
Ein Entscheidungsbaum für dasselbe Problem
16
Klassifikation von Irisblumen
Sepal length
Sepal width
Petal length
Petal width
Type
1 5.1 3.5 1.4 0.2 Iris setosa
2 4.9 3.0 1.4 0.2 Iris setosa
…
51 7.0 3.2 4.7 1.4 Iris versicolor
52 6.4 3.2 4.5 1.5 Iris versicolor
…
101 6.3 3.3 6.0 2.5 Iris virginica
102 5.8 2.7 5.1 1.9 Iris virginica
… If petal length < 2.45 then Iris setosa
If sepal width < 2.10 then Iris versicolor
...
17
Beispiele: 209 verschiedene Computer-Konfigurationen
Lineare Regressionsfunktion
Vorhersage der CPU-Performanz
Cycle time (ns)
Main memory (Kb)
Cache (Kb)
Channels Performance
MYCT MMIN MMAX CACH CHMIN CHMAX PRP
1 125 256 6000 256 16 128 198
2 29 8000 32000 32 8 32 269
…
208 480 512 8000 32 0 0 67
209 480 1000 4000 0 0 0 45
PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX+ 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX
18
Daten aus Tarifverhandlungen
Attribute Type 1 2 3 … 40Duration (Number of years) 1 2 3 2Wage increase first year Percentage 2% 4% 4.3
%4.5
Wage increase second year Percentage ? 5% 4.4%
4.0
Wage increase third year Percentage ? ? ? ?Cost of living adjustment {none,tcf,tc} non
etcf ? non
eWorking hours per week (Number of hours) 28 35 38 40Pension {none,ret-allw, empl-
cntr}none
? ? ?
Standby pay Percentage ? 13% ? ?Shift-work supplement Percentage ? 5% 4% 4Education allowance {yes,no} yes ? ? ?Statutory holidays (Number of days) 11 15 12 12Vacation {below-avg,avg,gen} avg gen gen avgLong-term disability assistance
{yes,no} no ? ? yes
Dental plan contribution {none,half,full} none
? full full
Bereavement assistance {yes,no} no ? ? yesHealth plan contribution {none,half,full} non
e? full half
Acceptability of contract {good,bad} bad good
good
good
19
Entscheidungs-bäume für die
Tarifdaten
20
Klassifikation von Sojabohnen
Attribute Number of
values
Sample value
Environment
Time of occurrence 7 July
Precipitation 3 Above normal…
Seed Condition 2 NormalMold growth 2 Absent
…Fruit Condition of fruit
pods4 Normal
Fruit spots 5 ?Leaves Condition 2 Abnormal
Leaf spot size 3 ?…
Stem Condition 2 AbnormalStem lodging 2 Yes
…Roots Condition 3 Normal
Diagnosis 19 Diaporthe stem canker
21
Die Rolle von Domänenwissen
If leaf condition is normaland stem condition is abnormaland stem cankers is below soil lineand canker lesion color is brown
thendiagnosis is rhizoctonia root rot
If leaf malformation is absentand stem condition is abnormaland stem cankers is below soil lineand canker lesion color is brown
thendiagnosis is rhizoctonia root rot
Aber (bei dieser Anwendung): “leaf condition is normal” impliziert “leaf malformation is absent”!
22
Feld-Anwendungen Das Lernergebnis oder die Lernmethode
selbst wird in praktischen Anwendungen eingesetzt Reduzierung der Verzögerungen beim
Rotationsdruck Formgebung von Flugzeugteilen Automatische Klassifikation von Flugobjekten Automatische Vervollständigung von sich
wiederholenden Formularen Text-Retrieval …
23
Entscheidung von Kreditanträgen
Gegeben: Fragebogen mit Angaben zur Person und deren finanzielle Situation Problem: soll der Kredit gewährt werden? Einfache statistische Methode deckt 90%
aller Fälle ab Aber: 50% aller Grenzfälle führen zu
Kreditausfällen Lösung(?): alle Grenzfälle zurückweisen
Nein! Grenzfälle gehören zu den umsatzstärksten Kunden
24
Anwendung von maschinellem Lernen
1000 Trainingsbeispiele für Grenzfälle 20 Attribute:
Alter, Beschäftigungsdauer beim aktuellen Arbeitgeber, Wohndauer an der gegenwärtigen Adresse, Dauer der Kundenbeziehung zur Bank, andere gewährte Kredite, …
Gelernte Regelmenge sagt 2/3 der Grenzfälle korrekt voraus!
Außerdem: Firma mag die Regeln, da sie benutzt werden können, um den Kunden gegenüber die Kreditentscheidung zu erläutern
25
Analyse von Luftbildern Gegeben: Satellitenbilder von
Küstengewässern Problem: Auffinden von Ölflecken in
diesen Bildern Ölflecken erscheinen als dunkle
Regionen unterschiedlicher Größe und Gestalt
Schwierigkeit: ähnliche dunkle Flecken können durch bestimmte Wetterbedingungen verursacht werden (z.B. starke Winde)
Aufwändige Analyse, erfordert lange geschultes Personal
26
Anwendung von maschinellem Lernen Dunkle Regionen werden aus normalisierten Bildern
extrahiert Attribute:
Größe der Region, Gestalt, Fläche, Intensität, Schärfe und Zackung der Grenzen, Nähe zu anderen Regionen, Informationen über den Hintergrund
Randbedingungen: Wenige Trainingsbeispiele (Ölflecken treten selten auf) Unbalancierte Daten: die meisten dunklen Regionen sind
keine Ölflecken Regionen aus einem Bild werden gemeinsam prozessiert Anforderung: einstellbare Quote für Fehlalarme
27
Last-Vorhersage Elektrizitätswerke benötigen Vorhersagen über den zukünftigen Energiebedarf zu bestimmten Zeitpunkten Präzise Vorhersagen über die minimale und die maximale Last innerhalb jeder Stunde führen zu beachtlichen Einsparungen Gegeben: manuell konstruiertes statisches Modell, das
“normale” Wetterbedingungen voraussetzt Problem: Anpassung an konkrete Wetterbedingungen Parameter des statischen Modells:
Grundlast im laufenden Jahr, Jahreszeitliche Lastschwankungen, Einfluss von Feiertagen
28
Anwendung von maschinellem Lernen verbesserte Vorhersage durch Suche nach den
“ähnlichsten Tagen” Attribute:
Temperatur, Luftfeuchtigkeit, Windgeschwindigkeit, Bewölkungsgrad, zusätzlich Differenz zwischen tatsächlicher und vorhergesagter Last
Zum statischen Modell wird mittlere Differenz der drei ähnlichsten Tage addiert
Koeffizienten der linearen Regressions-funktion stellen Attributgewichtungen in der Ähnlichkeitsfunktion dar
29
Diagnose von Maschinenausfällen Diagnose: klassisches Anwendungsgebiet der Expertensysteme Gegeben: Fourier-Analyse von Vibrationen an
verschiedenen Stellen des Gehäuses Problem: Welcher Fehler liegt vor? Vorbeugende Wartung der elektromechanischen
Motoren und Generatoren Daten sind stark verrauscht Bisher: Diagnose durch Experten/manuell erstellte
Regeln
30
Anwendung von maschinellem Lernen
Ausgangsdaten: 600 Fehler mit Expertendiagnosen~300 ungeeignet, restliche Fälle als
Trainingsmenge genutztAttribute angereichert um höhere Konzepte, die
kausales Domänenwissen repräsentierenExperte unzufrieden mit den initialen Regeln, da sie
sich nicht auf sein Anwendungswissen bezogenWeiteres Hintergrundwissen führte zu komplexeren
Regeln, die zufriedenstellend warenGelernte Regeln besser als die manuell erstellten
31
Marketing und Verkauf I
Firmen sammeln große Mengen an Verkaufs- und Marketingdaten
Mögliche Anwendungen: Kundentreue: Identifikation von Kunden, die
potenziell bald “abspringen”, durch Erkennen von Änderungen in deren Verhalten
(z.B. Banken, Telefongesellschaften) Spezielle Angebote: Identifikation von
profitablen Kunden (z.B. zuverlässige Kunden von Kreditkartenunternehmen, die ein höheres Limit in der Urlaubszeit benötigen)
32
Marketing und Verkauf II
Warenkorb-Analyse Assoziationstechniken, um Gruppen von Waren zu finden, die häufig zusammen gekauft werden
Analyse von Einkaufsmustern in der Vergangenheit
Identifikation von guten Kunden Fokussierung von Werbesendungen
(gezielte Kampagnen sind billiger als Massen-Werbesendungen)
33
Maschinelles Lernen und Statistik
Historische Unterschiede (vereinfacht): Statistik: Hypothesen-Tests Maschinelles Lernen: Suche nach den
richtigen Hypothesen Aber: große Überlappungen
Entscheidungsbäume (C4.5 und CART) Nächster-Nachbar-Methoden
Heute: ähnliche Ziele Die meisten ML-Algorithmen benutzen
statistische Techniken
34
Statisticians Sir Ronald Aylmer Fisher Born: 17 Feb 1890 London, England
Died: 29 July 1962 Adelaide, Australia Numerous distinguished contributions to
developing the theory and application of statistics for making quantitative a vast field of biology
Leo Breiman Developed decision trees 1984 Classification and
Regression Trees. Wadsworth.
35
Generalisierung als Suche
Induktives Lernen: Suche nach einer Konzeptbeschreibung, die zu den Daten passt
Beispiel: Regelmenge als Beschreibungssprache Riesiger, aber endlicher Suchraum
Einfache Lösung: Aufzählen der Elemente des Konzeptraums Eliminieren aller Beschreibungen, die nicht zu den
Beispielen passen Verbleibende Beschreibung stellt das gesuchte
Konzept dar
36
Aufzählen der Elemente des Konzeptraums
Suchraum für das Wetterproblem: 4 x 4 x 3 x 3 x 2 = 288 mögliche Regeln Beschränkung auf maximal 14 Regeln in der
Beschreibung 2.7x1034 mögliche Regelmengen Möglicher Ausweg: Algorithmus zur
Eliminierung von Kandidaten Weitere praktische Probleme:
Mehr als eine Beschreibung kann übrig bleiben Keine Beschreibung bleibt übrig
Beschreibungssprache ist ungeeignet, um das Zielkonzept zu beschreiben
Daten können verrauscht sein
37
Der Versionsraum
Raum von konsistenten Konzeptbeschreibungen
Komplett bestimmt durch 2 Mengen: L: spezifischste Beschreibungen, die alle positiven
und keine negativen Beispiele abdecken G: generellste Beschreibungen, die keine
negativen und alle positiven Beispiele abdecken Nur L und G müssen verwaltet und aktualisiert
werden Aber: immer noch hoher Berechnungsaufwand Und: löst die anderen praktischen Problem
nicht
38
Versionsraum: Beispiel
Gegeben: Rote oder grüne Kühe oder Hühner
L={} G={<*, *>}<green,cow>: positive
L={<green, cow>} G={<*, *>}<red,chicken>: negative
L={<green, cow>}G={<green,*>,<*,cow>}<green, chicken>: positive L={<green, *>} G={<green, *>}
39
Algorithmus zur Kandidaten-Eliminierung
Initialize L and G
For each example e:
If e is positive:
Delete all elements from G that do not cover e
For each element r in L that does not cover e:
Replace r by all of its most specific generalizationsthat 1. cover e and
2. are more specific than some element in G
Remove elements from L thatare more general than some other element in L
If e is negative:
Delete all elements from L that cover e
For each element r in G that covers e:
Replace r by all of its most general specializations that 1. do not cover e and
2. are more general than some element in L
Remove elements from G thatare more specific than some other element in G
40
Bias (systematische Fehler)
Die wichtigsten Entscheidungen in Lernsystemen: Konzept-Beschreibungssprache Reihenfolge, in der der Raum durchsucht wird Vermeidung der Überadaption an die
Trainingsdaten Diese Eigenschaften bestimmen den
“Bias” der Suche Beschreibungssprachen-Bias Such-Bias Überadaptions-Vermeidungs-Bias
41
Beschreibungssprachen-Bias
Wichtigste Frage: Ist die Sprache universell oder beschränkt sie
das zu Lernende? Universelle Sprache kann beliebige
Teilmengen der Beispiele beschreiben Wenn die Sprache die Oder-Verknüpfung von
Aussagen zulässt, ist sie universell Domänenwissen kann benutzt werden, um
einige Konzeptbeschreibungen von vornherein von der Suche auszuschließen
42
Such-Bias
Such-Heuristik “Greedy”-Suche: wähle jeweils den besten
Einzelschritt aus “Beam”-Suche: Behalte mehrere Alternativen im
Auge …
Richtung der Suche Vom Allgemeinen zum Speziellen
Z.B. Spezialisieren einer Regel durch Hinzufügen von Bedingungen
Vom Speziellen zum Allgemeinen Z.B. Generalisierung einer einzelnen Instanz zu einer
Regel
43
Überadaptions-Vermeidungs-Bias
Kann als Teil des Such-Bias gesehen werden
Modifiziertes Bewertungskriterium Z.B. Balance zwischen Einfachheit und
Fehleranzahl Modifizierte Suchstrategie
Z.B. Pruning (Vereinfachen einer Beschreibung) Pre-Pruning: Stoppt bei einer einfachen Beschreibung,
bevor übermäßig komplexe Beschreibungen generiert werden
Post-Pruning: Generiert zunächst eine komplexe Beschreibung, die anschließend vereinfacht wird
44
Data Mining und Ethik I
Viele ethische Fragen werden bei praktischen Anwendungen aufgeworfen Data Mining wird oft zur Diskriminierung benutzt
Z.B. Kreditanträge: Berücksichtigung bestimmter Attribute (z.B. Geschlecht, Rasse, Religion) ist unethisch
Die Frage der Ethik ist anwendungsabhängig z.B. ist die Verwendung obiger Attribute in
medizinischen Anwendungen ok Attribute können problematische Informationen
beinhalten Z.B. kann die Postleitzahl mit der Rasse korrelieren
45
Data Mining und Ethik II
Wichtige Fragen in praktischen Anwendungen: Wer hat Zugriff auf die Daten? Für welchen Zweck wurden die Daten gesammelt Welche Schlüsse können legitimerweise daraus
gezogen werden? Ergebnisse müssen unter Vorbehalt
betrachtet werden Rein statistische Argumente sind nie
ausreichend! Werden Ressourcen sinnvoll verwendet?