Maschinelles Lernen Jun. Prof. Dr. Achim Tresch [email protected] Schachroboter, 1769.

Maschinelles Lernen

Jun. Prof. Dr. Achim Tresch

http://www.staff.uni-mainz.de/tresch/

[email protected]„Schachroboter“, 1769

Seite 204/11/23|

Einführung: Was ist maschinelles Lernen?

SpracherkennungModellbasierte Aktienmarktanalysen

Biometrische Personenidentifikation

Seite 304/11/23|

Computerunterstützte Krebsdiagnostik

Automatisierte Hochdurchsatz- Bildanalyse

Protein-Funktionsvorhersage


Seite 404/11/23|

„Intelligente“ Autonome Systeme

Was ist maschinelles Lernen?


Genvorhersage

Kreditrisikobewertung

Seite 504/11/23|

Daten Entscheidungen

bekannte Daten bekannte („richtige“) Entscheidungen

unbekannte Daten möglichst „richtige“ Entscheidungen?


Seite 604/11/23|

Beispiel: Unterscheidung von Lachs und Seebarsch

Aufgabe: Sortiere zwei Arten von Fisch, die über ein Fließband laufen Spezies

Seite 704/11/23|


Digitalisiertes Kamerabild

Merkmalsextraktion (Feature Selection)

Ermittele ein Klassifikationskriterium

Klassifiziere

> 40cm

menschliches Vorgehen maschinelles Vorgehen

Seite 804/11/23|


Klassifiziere nach der Länge des Fisches:

Wähle einen Schwellwert x*, oberhalb dessen der Fisch als Seebarsch, und unterhalb dessen der Fisch als Lachs klassifiziert wird.

Egal, wie man x* auch wählt, es kommt immer zu Fehlklassifikationen.

Seite 904/11/23|


Klassifiziere nach der Farbe (Helligkeit) des Fisches:

Seite 1004/11/23|


Kombiniere die Merkmale Länge und Helligkeit: Fisch (Länge, Helligkeit)

Eine geeignet gewählte Entscheidungsgrenze kann Lachs und

Seebarsch fast fehlerfrei trennen.

Seite 1104/11/23|


Geht es noch besser? Jain!

Das Hinzufügen weiterer Merkmale könnte helfen, MUSS ABER NICHT: z.B. wäre die Länge des Rumpfes wahrscheinlich eine redundante Größe, die einfach eine lineare Funktion der Gesamtlänge ist.

Die Entscheidungsgrenze könnte flexibler gewählt und besser an die Daten angepasst werden:

Seite 1204/11/23|


Geht es noch besser? Jain!

Das Hinzufügen weiterer Merkmale könnte helfen, MUSS ABER NICHT: z.B. wäre die Länge des Rumpfes wahrscheinlich eine redundante Größe, die einfach eine lineare Funktion der Gesamtlänge ist.

Die Entscheidungsgrenze könnte flexibler gewählt und besser an die Daten angepasst werden:

Problem: Ist ein neuer, noch nicht gesehener Fisch mit diesen Kennzahlen

vermutlich eher ein Lachs oder ein Barsch? Generalisierbarkeit

Seite 1304/11/23|


Möglicherweise haben hyperbelförmige Entscheidungsgrenzen die besten Trennungs- und Verallgemeinerungseigenschaften.

Wie schätzt man die Klassifikationsgüte des gelernten Klassifikators auf unbekannten Daten ab? Validierung

Seite 1404/11/23|

Der Design-Zyklus der Mustererkennung

Hauptthemen der Vorlesung

Seite 1504/11/23|

Vorlesung Maschinelles Lernen:6 Credit Points, benoteter Schein, zweisemestrig

Scheinkriterien: • Klausur am Ende des Semesters• Erfolgreiche Teilnahme an den Übungen ist Voraussetzung zur Klausurteilnahme.

Jedes Übungsblatt wird mit A,B oder C bewertet, es darf nur ein Mal C erzielt werden.Die Übungen sind teils praktisch (in R), teils theoretisch.

Literatur: [1] Duda, Hart, Stork: Pattern Classification, 2nd Editon, Wiley Interscience, 2000. [2] Baldi, Brunak: Bioinformatics - the machine learning approach. 2nd Edition, MIT Press, 2001.

Weitere Bücher/Artikel werden im Verlauf der Vorlesung genannt.

Arbeiten: Über das Gebiet werden Arbeiten vergeben.

Skripten: Auf der Homepage oder in ILIAS

Vorlesungs-/Übungszeiten: ?

Organisatorisches . . .

Seite 1604/11/23|

Bayessche Entscheidungstheorie

Unterscheidung von Lachs und Seebarsch:

Angenommen, wir fangen ausschließlich Lachs oder Barsch. Greifen wir blindlings

einen Fisch ω heraus, so gibt es eine a priori Wahrscheinlichkeit (kurz Prior),

dass dieser Fisch ein Lachs bzw. ein Barsch ist:

P(ω=Lachs), P(ω=Barsch)

D.h., wir betrachten ω als eine binäre Zufallsvariable. Notwendig gilt dann

P(ω=Lachs) + P(ω=Barsch) = 1 (Exklusivität, Exhaustivität)

Der Bequemlichkeit schreibt man oft einfach P(Lachs) bzw. P(Barsch), wenn klar

ist, welche Zufallsvariable gemeint ist. Andere Schreibweisen sind Pω(Lachs) bzw.

Pω(Barsch).

Bem.: Falls wir gar kein Vorwissen darüber haben, welcher Fisch häufiger gefangen

wird, ist es vernünftig, beide Ereignisse als gleich wahrscheinlich

anzunehmen:

P(ω=Lachs) = P(ω=Barsch) (uniformer Prior)

Seite 1704/11/23|


Ohne jegliche Zusatzinformation lautet die optimale Entscheidungsregel:

• Falls P(ω=Lachs) > P(ω=Barsch) : Klassifiziere jeden gefangenen Fisch als Lachs

• Falls P(ω=Lachs) ≤ P(ω=Barsch) : Klassifiziere jeden gefangenen Fisch als Barsch

Daten helfen bei der Konstruktion besserer Entscheidungsregeln:

Sei für Lachs und Barsch die Verteilung ihrer Helligkeitswerte x gegeben.

Wie würde Ihre Entscheidung lauten, wenn bei einem gefangenen Fisch der Helligkeitswert 11.5 beobachtet wurde?

P(x | ω=Lachs)

P(x | ω=Barsch)

Seite 1804/11/23|


Erinnerung bedingte Wahrscheinlichkeiten (Definition):

P( x , ω ) = P( x | ω ) P(ω) = P( ω | x) P(x)

Bei gegebenem Helligkeitswert x wollen wir entscheiden, ob

P( ω=Lachs | x) > P( ω=Barsch | x) (dann Entscheidung für „Lachs“)

Hierzu verwenden wir den Satz von Bayes:

)(

)()|( )|(

xP

PxPxP

Thomas Bayes, * ~1702, † 1761Englischer Mathematiker und

presbyterianischer Pfarrer.

Bayes‘ Essay Towards Solving a Problem in the Doctrine of Chances, welcher die obige Formel enthält, wurde erst zwei Jahre nach seinem Tode veröffentlicht.

Seite 2004/11/23|


P(ω=Barsch | x)

P(ω=Lachs | x)

Seite 2104/11/23|


Beachte: In der Entscheidungsregel kommt die Evidenz nicht vor, lediglich das Produkt aus Likelihood und Prior spielen eine Rolle.

)()|( )|( PxPxP Posterior

Likelihood Prior

Entscheidungsregel (Bayes Klassifikator):

„Lachs“, falls P( ω=Lachs | x) P(ω=Lachs) > P( ω=Barsch | x) P(ω=Barsch)

„Barsch“, falls P( ω=Lachs | x) P(ω=Lachs) ≤ P( ω=Barsch | x) P(ω=Barsch)

Wie „gut“ ist diese Regel? Wie hoch ist die Fehlklassifikationswahrscheinlichkeit?Für gegebenes x ist der bedingte Fehler

)|( ),|( min )|( xLachsPxBarschPxerrorP

Seite 2204/11/23|

Beispiel: The O.J. Simpson Trial

O.J. Simpson,1994 angeklagt wegen Mordes an seiner Ex-Frau Nicole Brown Simpson und ihrem Liebhaber Ronald Goldman

Rechtsexperten sind sich einig, dass die Indizienlage (DNA-Analysen) keinen Raum für vernünftige Zweifel an der Täterschaft Simpsons lässt. Unstreitig ist, dass jedenfalls in der Praxis ein weniger prominenter Täter in den USA mit großer Sicherheit verurteilt worden wäre. Man fand auf dem Grundstück der Ermordeten Blutspuren, die mit einer „Wahrscheinlichkeit von 170 Millionen zu 1“ O. J.Simpson zuzuordnen sind.

)()|(

)()|(

)postitivTest DNA|(

)positivTest DNA|(1

unschuldigPunschuldigpositivP

schuldigPschuldigpositivP

unschuldigP

schuldigP

)(

)(10170 6

unschuldigP

schuldigP

„Voreingenommenheit der Jury“ aufgrund anderer Indizien

Seite 2304/11/23|

Bayessche Entscheidungstheorie, Verallgemeinerungen

Seite 2404/11/23|


Mehrere Klassen: Seien C = {ω1, ω2,…ωc} c verschiedene Klassen (Kategorien, Merkmale, Labels)

Mehrere Aktionen: Seien A = {a1, a2,…an,} n verschiedene Aktionen.

Im Beispiel galt A = C = {Lachs,Barsch}. Denkbar wäre z.B. auchC = {Alter > 60, Alter ≤ 60} , A = {Behandlung mit Virostatika, Grippeimpfung, keine Grippeimpfung}

Lossfunktion: λ: A x C |R . λ(ai,ωj) sind hierbei die Kosten oder der Loss der Aktion ai, wenn Klasse ωj vorliegt.

Aufgabe: Finde eine Entscheidungsfunktion a: Daten A, welche die erwarteten Kosten (expected Loss) minimiert.

Für gegebene Daten x und die Entscheidung ai wird der bedingte Fehler P(error | x) ersetzt durch das bedingte Risiko

)|()|( )|(

Cc

ii xcPcaxaR

Seite 2504/11/23|


dx )|)(()( p(x)xxaRaRx

Minimiert man R(a(x)| x) punktweise, minimiert man auch den erwarteten Verlust.

Für eine gegebene Entscheidungsregel a: Daten A lautet der erwartete Verlust

Entscheidungsregel (Bayes Entscheidung):

Bei gegebenen Daten x wähle die Aktion a(x)=ai, für die R(ai,x) minimal wird.

Diese Regel minimiert den erwarteten Verlust, ist also (gemessen an diesem Kriterium) die bestmögliche Entscheidungsregel!

Seite 2604/11/23|


Die 0-1 Lossfunktion

In dem Fall der Klassifikation von Objekten gilt Klassen = Aktionen, und Fehlklassifikationen werden oft als gleich schwerwiegend betrachtet.Dies führt zu der Lossfunktion

tion)Klassifika (korrekte wenn 0

ifikation)(Fehlklass wenn 1),(

ca

caca

i

ii

Das bedingte Risiko beträgt dann

Cc i

i

Ccii xcP

ca

caxcPcaxaR )|(

wenn 0

wenn 1 )|()|( )|(

)|(1 )|(}{

xaPxcP iaCj i

Die Bayes-Entscheidungsregel minimiert R(ai|x), maximiert also P(ai|x). Sie entscheidet sich daher immer für die Klasse mit dem höchsten Posterior. Diese Regel entspricht genau der Bayes-Klassifikator im Lachs-Barsch-Beispiel.Der Bayes-Klassifikator ist daher im Sinne der 0-1 Lossfunktion optimal.

Seite 2704/11/23|

Bayes-Entscheidungn bei normalverteiltem PosteriorExkurs: Die Normalverteilung

Seite 2804/11/23|

Bayes-Entscheidungn bei normalverteiltem Posterior

Seite 2904/11/23|


Seite 3004/11/23|


Seite 3104/11/23|


Seite 3204/11/23|


Maschinelles Lernen Jun. Prof. Dr. Achim Tresch [email protected] Schachroboter, 1769.

Documents

Transcript of Maschinelles Lernen Jun. Prof. Dr. Achim Tresch [email protected] Schachroboter, 1769.