Einführung in das Maschinelle Lernen I

Vorlesung “Computerlinguistische Techniken”

Alexander Koller

26. Januar 2015

Maschinelles Lernen

• Maschinelles Lernen (Machine Learning): äußerst aktiver und für CL nützlicher Zweig der Künstlichen Intelligenz.

• Grundaufgabe: ‣ aus Beobachtungen ein Modell lernen

‣ für neue, ungesehene Daten Vorhersagen treffen

Grundaufgaben

• Klassifikation: Zu jeder Instanz gehört eine Klasse aus einer endlichen Menge; finde für neue Instanzen die richtige Klasse.

• Regression: Zu jeder Instanz gehört eine Zahl; finde für neue Instanzen die (ungefähr) richtige Zahl.

• Jede Instanz wird durch die Werte definiert, die vorgegebene Features annehmen.

Klassifikation

Objekt Werte der Features Klasse

Klassifikation

1 0 1 1 0 A

0 1 0 1 1

1 1 0 1 0

Klassifikation

1 0 1 1 0 A

0 1 0 1 1

1 1 0 1 0

Klassifikation

1 0 1 1 0 A

0 1 0 1 1

1 1 0 1 0

Modell

Klassifikation

1 0 1 1 0 A

0 1 0 1 1

1 1 0 1 0

Modell

Klassifikation

1 0 1 1 0 A

0 1 0 1 1

1 1 0 1 0

Modell

1 1 0 1 0

Klassifikation

1 0 1 1 0 A

0 1 0 1 1

1 1 0 1 0

Modell

1 1 0 1 0 A

Regression

1 0 1 1 0 3

0 1 0 1 1

1 1 0 1 0

Modell

1 1 0 1 0 5

Grundansätze

• Überwachtes (supervised) Lernen: In den Trainingsdaten ist zu jeder Instanz die richtige Klasse angegeben.

• Unüberwachtes (unsupervised) Lernen: Trainingsdaten sind nicht mit Klassen annotiert. ‣ Wahrscheinlichste Klassen raten, z.B. EM-Algorithmus

‣ Instanzen zu “natürlichen” Klassen zusammenfassen = Clustering

Beispiel

Hutfarbe Hutform Geruch essbar?

r b s nein

w b n ja

y c s ja

w f f nein

Features Klasse

Instanzen

Wir betrachten zunächst überwachte Klassifikation. Beispiel: Pilze.

Beispiel

• Angenommen, wir haben folgendes Modell gelernt (≈ Entscheidungsbaum): ‣ Hutfarbe = rot (r) ⇒ nicht essbar

‣ Geruch = faulig (f) ⇒ nicht essbar

‣ sonst essbar

• Dann können wir neue Instanzen klassifizieren:

Hutfarbe Hutform Geruch essbar?

r c a nein

w b l ja

Evaluation von Klassifikatoren

• Um Klassifikationsalgorithmus zu evaluieren, bekannter Ansatz:

• Accuracy (= Anteil der korrekt klassifizierten Testinstanzen) wird auch hier verwendet.

• Für binäre Klassifikationsprobleme (= genau 2 Klassen) auch Precision, Recall, f-Score.

SystemTrain Test Eval

Memory-Based Learning

• Ein sehr einfacher Algorithmus für Klassifikation ist Memory-Based Learning(= k-nearest-neighbor learning).

• Idee von 1-nearest-neighbor: ‣ angenommen, wir haben eine Ähnlichkeitsfunktion auf

Instanzen

‣ Training = wir speichern alle Instanzen

‣ Klasse von neuer Instanz a = Klasse derjenigen Trainingsinstanz, die zu a am ähnlichsten ist.

Beispiel

essbar? = nein

Beispiel

essbar? = nein

essbar? = ja

Beispiel

essbar? = nein

essbar? = ja

Beispiel

essbar? = nein

essbar? = ja essbar? = nein

essbar? = ja

Beispiel

essbar? = nein

essbar? = ja

Beispiel

essbar? = nein

essbar? = ja

Beispiel

essbar? = nein

ähnlichsteInstanz zu a

essbar? = ja

Beispiel

essbar? = nein

⇒ essbar? = nein

ähnlichsteInstanz zu a

essbar? = ja

k-nearest-neighbors

• Verallgemeinerung von 1-nearest-neighbor: ‣ betrachte statt dem einen nächsten Nachbarn die

k nächsten Nachbarn für ein festes k ≥ 1

‣ Klasse der neuen Instanz = Mehrheitsklasse der k nächsten Nachbarn

• Konzeptuell sehr einfach, effiziente Implementierung nicht ganz einfach.

Ähnlichkeitsfunktion

• Wahl der Ähnlichkeitsfunktion ist entscheidend.

• Eine Möglichkeit (“overlap metric”):f(x) Wert des Features f auf Instanz xδ ist Kronecker-Symbol, d.h.δ(a,b) = 1 gdw a = b, sonst δ(a,b) = 0.

sim(x, y) =X

�(f(x), f(y))

Probabilistische Klassifikation

• Klassifikation: Lerne aus Trainingsinstanzen (x, c) ein Modell, um neuen Instanzen x die richtige Klasse c zuzuweisen.

• Probleme mit k-NN: ‣ bekomme nur Klasse, keine Konfidenz

‣ Ansatz ad-hoc, nicht auf Prinzipien von W. erklärt

Probabilistische Klassifikation

• Wir betrachten hier zwei wichtige Ansätze auf Grundlage von W.modellen: ‣ Naive Bayes (heute)

‣ Maximum Entropy (nächstes Mal)

• Illustriere an konkreten Beispielen, aber anwendbar auf beliebige Klassifikationsprobleme.

Naive Bayes: Motivation

• Betrachte Textklassifikation, z.B. für Spam:

• Formal: Klassifiziere String w = w1 ... wn binär, mit den Klassen “Spam” oder “kein Spam”.

• Allgemein: endliche Menge von Klassen; hier binäres Klassifikationsproblem.

... Nigeria ... bank ... Spam

... Viagra ... Tabletten ... Spam

... Vorlesung ... fällt aus ... kein Spam

Naive Bayes: Grundidee

• Angenommen, wir hätten W.verteilung P(c|w). Dann Klassifikation:

• Wir hätten auch ein Maß für Konfidenz, die odds ratio O(c):

• Problem: Wie soll man P(c|w) schätzen?

argmax

cP (c|w)

O(Spam) =P (c = Spam|w)

P (c = keinSpam|w)

Bayes’sche Regel

• Mit der Bayes’schen Regel kann man zwischen P(c|w) und P(w|c) umrechnen:

• A-posteriori-W. P(c|w) entsteht durch Update der a-priori-W. P(c) durch Likelihood P(w|c).

• Da w beobachtet wurde, ist P(w) irrelevant, also

P (c|w) = P (w|c) · P (c)

argmax

cP (c|w) = argmax

cP (w|c) · P (c)

Naive Bayes

• P(c) leicht zu schätzen als rel. Häufigkeit der Klassen.

• P(w|c) viel unklarer:

• Grundannahme von Naive Bayes: Alle P(wi | c, ...) statistisch unabhängig. Damit viel einfacher:

• Einzelne P(wi|c) als rel. Häufigkeit schätzbar(als C(wi, c) / C(c)).

P (w|c) = P (wn|c, w1, . . . , wn�1) · . . . · P (w1|c)

P (w|c) = P (wn|c) · . . . · P (w1|c)

Beispiel

P(Spam) = 0.75P(kein Spam) = 0.25

P(Nigeria|Spam) = 0.66P(bank|Spam) = 0.66

P(Viagra|Spam) = 0.33P(Vorlesung|Spam) = 0

Daher: Dokument als “Spam” klassifizieren.

Nigeria ... prince ... bank Spam

... Viagra ... Tabletten ... Spam

Nigeria ... president ... bank Spam

... Vorlesung ... fällt aus ... kein Spam

Vor- und Nachteile

• Unabhängigkeitsannahme in der Praxis normalerweise verletzt.

• Trotzdem funktioniert NB oft gut, weil korrekte Klassifikation nur odds ratio > 1 vs. < 1 erfordert.

• Naive Bayes funktioniert oft schon für kleine Menge an Trainingsdaten.

Zusammenfassung

• Maschinelles Lernen: ‣ Klassifikation vs. Regression

‣ überwacht vs. unüberwacht

• Memory-Based Learning: k-nearest-neighbor

• Probabilistischer Ansatz: Naive Bayes

Einführung in das Maschinelle Lernen I · 2015. 1. 29. · Grundaufgaben • Klassi!kation: Zu...

Transcript of Einführung in das Maschinelle Lernen I · 2015. 1. 29. · Grundaufgaben • Klassi!kation: Zu...

Einführung in das Maschinelle Lernen I · 2015. 1. 29. · Grundaufgaben • Klassi!kation: Zu...

Documents

Transcript of Einführung in das Maschinelle Lernen I · 2015. 1. 29. · Grundaufgaben • Klassi!kation: Zu...

Grundaufgaben der Bildverarbeitung 3.1 Filtermethoden und ...

1 Formale Grundlagen der Faktenextraktion mit endlichen Automaten Karin Haenelt 27.11.2011.

Schrauben - peterknoedel.depeterknoedel.de/lehre/FHA-Stahl/Skript/GrA/Ansch/Schr.pdf · HSA Anschlüsse Stahlbau Schrauben Grundaufgaben Seite 2/27 HS Augsburg – Studiengang Bauingenieur

III Alogos ¥ Die transfiniten Zahlen stehen oder fallen mit den endlichen Irrationalzahlen. Georg Cantor (1845 - 1918)

Partielles Parsing mit kaskadierten endlichen Automatenkontext.fraunhofer.de/haenelt/kurs/Referate/Dolata_Regner_PartiellesParsingAbney.pdf · Einführung Partielles Parsing mit Kaskaden

Die Entwicklung von Lösungsstrategien zu den additiven … · 2012-01-03 · Die Entwicklung von Lösungsstrategien zu den additiven Grundaufgaben im Laufe des ersten Schuljahres

Die psychoanalytischen Konzepte. Gliederung Psychoanalyse Das klassische psychoanalytische Konzept / 3-Instanzen-Modell Beratungskonzept Anforderung an.

1 Vorlesung 20.11.2006 Kombinatorische Grundaufgaben (2)

FIS MaPro Schulung 2015 Daniel Engers, ahu AG. Instanzen von FIS MaPro Produktivsystem () HLUG (Produktivdaten) wird z.

Dynamik – Grundlagenpeterknoedel.de/lehre/FHA-Stahl/Skript/GrA/Dyn/Dyn_10-12-12.pdf · FHA Dynamik Stahlbau Grundlagen Grundaufgaben Seite 1/26 HS Augsburg – Studiengang Bauingenieur

Doktoratsstudium Rechtswissenschaften (Dr. iur.) · 2016. 2. 27. · Vorbemerkung zum Begriff der VGB funktionaler Begriff: Verfassungsgerichtsbarkeit als Aufgabe ... (i.d.R. 2 Instanzen)

Menschenrechte und Digitalisierung - IMGE · wird, wird diese Selbstverständlichkeit ignoriert. Die Instanzen der Persönlichkeit26 Der Psychologie als empirischer, experimenteller

Verteilte Systeme 2. Kommunikation€¦ · Dienstzugangspunkte ( service access point, SAP ) bezeichnet. Die Dienste werden von sogenannten Instanzen (entities ) erbracht. Die Regeln,

Kompakte Lie-Gruppen und ihre Darstellungenhome.mathematik.uni-freiburg.de/soergel/Skripten/AKLIE.pdf · 1 Darstellungstheorie von endlichen Gruppen 3 ... 4.1 Maximale Tori ... Modul

Grundaufgaben Mathematik automatisieren 1x1 & 1÷1 · Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Das komplette Material finden Sie hier: Grundaufgaben

Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Konzeption des Kindergartens Arche Noah · Konzeption des Kindergarten Arche Noah 1 Vorwort Zu den Grundaufgaben der Evangelischen Kirchengemeinde Wangen im Allgäu gehört die Kindergartenarbeit.

Diplomarbeit Backdoors in Sat -Instanzen · 2009. 2. 17. · Diplomarbeit Backdoors in Sat -Instanzen vorgelegt von Stephan Kottler August 2007 Betreuer: Prof. Dr. M. Kaufmann Arbeitsbereich

Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002.

Streuung an endlichen Kristallen