Maschinelles Lernen Jun. Prof. Dr. Achim Tresch [email protected] Schachroboter, 1769.

32
Maschinelles Lernen Jun. Prof. Dr. Achim Tresch http://www.staff.uni- mainz.de/tresch/ [email protected] „Schachroboter“, 1769

Transcript of Maschinelles Lernen Jun. Prof. Dr. Achim Tresch [email protected] Schachroboter, 1769.

Page 1: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Maschinelles Lernen

 

Jun. Prof. Dr. Achim Tresch

http://www.staff.uni-mainz.de/tresch/

[email protected]„Schachroboter“, 1769

Page 2: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 204/11/23|

Einführung: Was ist maschinelles Lernen?

SpracherkennungModellbasierte Aktienmarktanalysen

Biometrische Personenidentifikation

Page 3: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 304/11/23|

Computerunterstützte Krebsdiagnostik

Automatisierte Hochdurchsatz- Bildanalyse

Protein-Funktionsvorhersage

Einführung: Was ist maschinelles Lernen?

Page 4: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 404/11/23|

„Intelligente“ Autonome Systeme

Was ist maschinelles Lernen?

Einführung: Was ist maschinelles Lernen?

Genvorhersage

Kreditrisikobewertung

Page 5: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 504/11/23|

Daten Entscheidungen

bekannte Daten bekannte („richtige“) Entscheidungen

unbekannte Daten möglichst „richtige“ Entscheidungen?

Einführung: Was ist maschinelles Lernen?

Page 6: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 604/11/23|

Beispiel: Unterscheidung von Lachs und Seebarsch

Aufgabe: Sortiere zwei Arten von Fisch, die über ein Fließband laufen Spezies

Page 7: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 704/11/23|

Beispiel: Unterscheidung von Lachs und Seebarsch

Digitalisiertes Kamerabild

Merkmalsextraktion (Feature Selection)

Ermittele ein Klassifikationskriterium

Klassifiziere

> 40cm

menschliches Vorgehen maschinelles Vorgehen

Page 8: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 804/11/23|

Beispiel: Unterscheidung von Lachs und Seebarsch

Klassifiziere nach der Länge des Fisches:

Wähle einen Schwellwert x*, oberhalb dessen der Fisch als Seebarsch, und unterhalb dessen der Fisch als Lachs klassifiziert wird.

Egal, wie man x* auch wählt, es kommt immer zu Fehlklassifikationen.

Page 9: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 904/11/23|

Beispiel: Unterscheidung von Lachs und Seebarsch

Klassifiziere nach der Farbe (Helligkeit) des Fisches:

Page 10: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 1004/11/23|

Beispiel: Unterscheidung von Lachs und Seebarsch

Kombiniere die Merkmale Länge und Helligkeit: Fisch (Länge, Helligkeit)

Eine geeignet gewählte Entscheidungsgrenze kann Lachs und

Seebarsch fast fehlerfrei trennen.

Page 11: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 1104/11/23|

Beispiel: Unterscheidung von Lachs und Seebarsch

Geht es noch besser? Jain!

Das Hinzufügen weiterer Merkmale könnte helfen, MUSS ABER NICHT: z.B. wäre die Länge des Rumpfes wahrscheinlich eine redundante Größe, die einfach eine lineare Funktion der Gesamtlänge ist.

Die Entscheidungsgrenze könnte flexibler gewählt und besser an die Daten angepasst werden:

Page 12: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 1204/11/23|

Beispiel: Unterscheidung von Lachs und Seebarsch

Geht es noch besser? Jain!

Das Hinzufügen weiterer Merkmale könnte helfen, MUSS ABER NICHT: z.B. wäre die Länge des Rumpfes wahrscheinlich eine redundante Größe, die einfach eine lineare Funktion der Gesamtlänge ist.

Die Entscheidungsgrenze könnte flexibler gewählt und besser an die Daten angepasst werden:

Problem: Ist ein neuer, noch nicht gesehener Fisch mit diesen Kennzahlen

vermutlich eher ein Lachs oder ein Barsch? Generalisierbarkeit

Page 13: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 1304/11/23|

Beispiel: Unterscheidung von Lachs und Seebarsch

Möglicherweise haben hyperbelförmige Entscheidungsgrenzen die besten Trennungs- und Verallgemeinerungseigenschaften.

Wie schätzt man die Klassifikationsgüte des gelernten Klassifikators auf unbekannten Daten ab? Validierung

Page 14: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 1404/11/23|

Der Design-Zyklus der Mustererkennung

Hauptthemen der Vorlesung

Page 15: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 1504/11/23|

Vorlesung Maschinelles Lernen:6 Credit Points, benoteter Schein, zweisemestrig  

Scheinkriterien: • Klausur am Ende des Semesters• Erfolgreiche Teilnahme an den Übungen ist Voraussetzung zur Klausurteilnahme.

Jedes Übungsblatt wird mit A,B oder C bewertet, es darf nur ein Mal C erzielt werden.Die Übungen sind teils praktisch (in R), teils theoretisch.

Literatur: [1] Duda, Hart, Stork: Pattern Classification, 2nd Editon, Wiley Interscience, 2000. [2] Baldi, Brunak: Bioinformatics - the machine learning approach. 2nd Edition, MIT Press, 2001.

Weitere Bücher/Artikel werden im Verlauf der Vorlesung genannt.

Arbeiten: Über das Gebiet werden Arbeiten vergeben.

Skripten: Auf der Homepage oder in ILIAS

Vorlesungs-/Übungszeiten: ?

Organisatorisches . . .

Page 16: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 1604/11/23|

Bayessche Entscheidungstheorie

Unterscheidung von Lachs und Seebarsch:

Angenommen, wir fangen ausschließlich Lachs oder Barsch. Greifen wir blindlings

einen Fisch ω heraus, so gibt es eine a priori Wahrscheinlichkeit (kurz Prior),

dass dieser Fisch ein Lachs bzw. ein Barsch ist:

P(ω=Lachs), P(ω=Barsch)

D.h., wir betrachten ω als eine binäre Zufallsvariable. Notwendig gilt dann

P(ω=Lachs) + P(ω=Barsch) = 1 (Exklusivität, Exhaustivität)

Der Bequemlichkeit schreibt man oft einfach P(Lachs) bzw. P(Barsch), wenn klar

ist, welche Zufallsvariable gemeint ist. Andere Schreibweisen sind Pω(Lachs) bzw.

Pω(Barsch).

Bem.: Falls wir gar kein Vorwissen darüber haben, welcher Fisch häufiger gefangen

wird, ist es vernünftig, beide Ereignisse als gleich wahrscheinlich

anzunehmen:

P(ω=Lachs) = P(ω=Barsch) (uniformer Prior)

Page 17: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 1704/11/23|

Bayessche Entscheidungstheorie

Ohne jegliche Zusatzinformation lautet die optimale Entscheidungsregel:

• Falls P(ω=Lachs) > P(ω=Barsch) : Klassifiziere jeden gefangenen Fisch als Lachs

• Falls P(ω=Lachs) ≤ P(ω=Barsch) : Klassifiziere jeden gefangenen Fisch als Barsch

Daten helfen bei der Konstruktion besserer Entscheidungsregeln:

Sei für Lachs und Barsch die Verteilung ihrer Helligkeitswerte x gegeben.

Wie würde Ihre Entscheidung lauten, wenn bei einem gefangenen Fisch der Helligkeitswert 11.5 beobachtet wurde?

P(x | ω=Lachs)

P(x | ω=Barsch)

Page 18: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 1804/11/23|

Bayessche Entscheidungstheorie

Erinnerung bedingte Wahrscheinlichkeiten (Definition):

P( x , ω ) = P( x | ω ) P(ω) = P( ω | x) P(x)

Bei gegebenem Helligkeitswert x wollen wir entscheiden, ob

P( ω=Lachs | x) > P( ω=Barsch | x) (dann Entscheidung für „Lachs“)

Hierzu verwenden wir den Satz von Bayes:

)(

)()|( )|(

xP

PxPxP

Thomas Bayes, * ~1702, † 1761Englischer Mathematiker und

presbyterianischer Pfarrer.

Bayes‘ Essay Towards Solving a Problem in the Doctrine of Chances, welcher die obige Formel enthält, wurde erst zwei Jahre nach seinem Tode veröffentlicht.

Page 19: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 1904/11/23|

Bayessche Entscheidungstheorie

Satz von Bayes

)(

)()|( )|(

xP

PxPxP

Posterior

Likelihood Prior

EvidenceNutze aus, dass

P( ω=Lachs | x) > P( ω=Barsch | x) ↔ P( ω=Lachs | x) / P( ω=Barsch | x) > 1

(setze a/0 = ∞ für a>0)

1)(

)()|()(

)()|( xP

BarschPBarschxPxP

LachsPLachsxP

1)()|(

)()|(

BarschPBarschxP

LachsPLachsxP

)()|()()|( BarschPBarschxPLachsPLachsxP

Page 20: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 2004/11/23|

Bayessche Entscheidungstheorie

P(ω=Barsch | x)

P(ω=Lachs | x)

Page 21: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 2104/11/23|

Bayessche Entscheidungstheorie

Beachte: In der Entscheidungsregel kommt die Evidenz nicht vor, lediglich das Produkt aus Likelihood und Prior spielen eine Rolle.

)()|( )|( PxPxP Posterior

Likelihood Prior

Entscheidungsregel (Bayes Klassifikator):

„Lachs“, falls P( ω=Lachs | x) P(ω=Lachs) > P( ω=Barsch | x) P(ω=Barsch)

„Barsch“, falls P( ω=Lachs | x) P(ω=Lachs) ≤ P( ω=Barsch | x) P(ω=Barsch)

Wie „gut“ ist diese Regel? Wie hoch ist die Fehlklassifikationswahrscheinlichkeit?Für gegebenes x ist der bedingte Fehler

)|( ),|( min )|( xLachsPxBarschPxerrorP

Page 22: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 2204/11/23|

Beispiel: The O.J. Simpson Trial

O.J. Simpson,1994 angeklagt wegen Mordes an seiner Ex-Frau Nicole Brown Simpson und ihrem Liebhaber Ronald Goldman

Rechtsexperten sind sich einig, dass die Indizienlage (DNA-Analysen) keinen Raum für vernünftige Zweifel an der Täterschaft Simpsons lässt. Unstreitig ist, dass jedenfalls in der Praxis ein weniger prominenter Täter in den USA mit großer Sicherheit verurteilt worden wäre. Man fand auf dem Grundstück der Ermordeten Blutspuren, die mit einer „Wahrscheinlichkeit von 170 Millionen zu 1“ O. J.Simpson zuzuordnen sind.

)()|(

)()|(

)postitivTest DNA|(

)positivTest DNA|(1

unschuldigPunschuldigpositivP

schuldigPschuldigpositivP

unschuldigP

schuldigP

)(

)(10170 6

unschuldigP

schuldigP

„Voreingenommenheit der Jury“ aufgrund anderer Indizien

Page 23: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 2304/11/23|

Bayessche Entscheidungstheorie, Verallgemeinerungen

Page 24: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 2404/11/23|

Bayessche Entscheidungstheorie, Verallgemeinerungen

Mehrere Klassen: Seien C = {ω1, ω2,…ωc} c verschiedene Klassen (Kategorien, Merkmale, Labels)

Mehrere Aktionen: Seien A = {a1, a2,…an,} n verschiedene Aktionen.

Im Beispiel galt A = C = {Lachs,Barsch}. Denkbar wäre z.B. auchC = {Alter > 60, Alter ≤ 60} , A = {Behandlung mit Virostatika, Grippeimpfung, keine Grippeimpfung}

Lossfunktion: λ: A x C |R . λ(ai,ωj) sind hierbei die Kosten oder der Loss der Aktion ai, wenn Klasse ωj vorliegt.

Aufgabe: Finde eine Entscheidungsfunktion a: Daten A, welche die erwarteten Kosten (expected Loss) minimiert.

Für gegebene Daten x und die Entscheidung ai wird der bedingte Fehler P(error | x) ersetzt durch das bedingte Risiko

)|()|( )|(

Cc

ii xcPcaxaR

Page 25: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 2504/11/23|

Bayessche Entscheidungstheorie, Verallgemeinerungen

dx )|)(()( p(x)xxaRaRx

Minimiert man R(a(x)| x) punktweise, minimiert man auch den erwarteten Verlust.

Für eine gegebene Entscheidungsregel a: Daten A lautet der erwartete Verlust

Entscheidungsregel (Bayes Entscheidung):

Bei gegebenen Daten x wähle die Aktion a(x)=ai, für die R(ai,x) minimal wird.

Diese Regel minimiert den erwarteten Verlust, ist also (gemessen an diesem Kriterium) die bestmögliche Entscheidungsregel!

Page 26: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 2604/11/23|

Bayessche Entscheidungstheorie, Verallgemeinerungen

Die 0-1 Lossfunktion

In dem Fall der Klassifikation von Objekten gilt Klassen = Aktionen, und Fehlklassifikationen werden oft als gleich schwerwiegend betrachtet.Dies führt zu der Lossfunktion

tion)Klassifika (korrekte wenn 0

ifikation)(Fehlklass wenn 1),(

ca

caca

i

ii

Das bedingte Risiko beträgt dann

Cc i

i

Ccii xcP

ca

caxcPcaxaR )|(

wenn 0

wenn 1 )|()|( )|(

)|(1 )|(}{

xaPxcP iaCj i

Die Bayes-Entscheidungsregel minimiert R(ai|x), maximiert also P(ai|x). Sie entscheidet sich daher immer für die Klasse mit dem höchsten Posterior. Diese Regel entspricht genau der Bayes-Klassifikator im Lachs-Barsch-Beispiel.Der Bayes-Klassifikator ist daher im Sinne der 0-1 Lossfunktion optimal.

Page 27: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 2704/11/23|

Bayes-Entscheidungn bei normalverteiltem PosteriorExkurs: Die Normalverteilung

Page 28: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 2804/11/23|

Bayes-Entscheidungn bei normalverteiltem Posterior

Page 29: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 2904/11/23|

Bayes-Entscheidungn bei normalverteiltem Posterior

Page 30: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 3004/11/23|

Bayes-Entscheidungn bei normalverteiltem Posterior

Page 31: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 3104/11/23|

Bayes-Entscheidungn bei normalverteiltem Posterior

Page 32: Maschinelles Lernen Jun. Prof. Dr. Achim Tresch  tresch@imbei.uni-mainz.de Schachroboter, 1769.

Seite 3204/11/23|

Bayes-Entscheidungn bei normalverteiltem Posterior