Post on 05-Apr-2015
1
3. Klassifikation
Inhalt dieses Kapitels3.1 Einleitung
Das Klassifikationsproblem, Bewertung von Klassifikatoren
3.2 Bayes-Klassifikatoren
Optimaler Bayes-Klassifikator, Naiver Bayes-Klassifikator, Anwendungen
3.3 Nächste-Nachbarn-KlassifikatorenGrundbegriffe, Parameterwahl, Anwendungen
3.4 Entscheidungsbaum-Klassifikatoren
Grundbegriffe, Splitstrategien, Overfitting, Pruning von Entscheidungsbäumen
3.5 Support Vector Machinesmaximal trennende Hyperebenen, strukturelle Risiko Minierung,
Kernel Maschienen
2
3.1 Einleitung
Das Klassifikationsproblem
• Gegeben: eine Menge O von Objekten des Formats (o1, . . ., od)
mit Attributen Ai, 1 i d, und Klassenzugehörigkeit ciciC = c1 ck}
• Gesucht: die Klassenzugehörigkeit für Objekte aus D \ O
ein Klassifikator K : D C
• Abgrenzung zum Clustering
Klassifikation: Klassen apriori bekannt Clustering: Klassen werden erst gesucht
• Verwandtes Problem: Vorhersage (Prediction)
gesucht ist der Wert für ein numerisches Attribut
Methode z.B. Regression
3
Einleitung
Beispiel
Einfacher Klassifikator
if Alter > 50 then Risikoklasse = Niedrig;if Alter 50 and Autotyp=LKW then Risikoklasse=Niedrig;if Alter 50 and Autotyp LKW
then Risikoklasse = Hoch.
ID Alter Autotyp Risiko1 23 Familie hoch2 17 Sport hoch3 43 Sport hoch4 68 Familie niedrig5 32 LKW niedrig
4
Der Prozess der Klassifikation
Konstruktion des Modells
Trainings-daten
NAME RANK YEARS TENURED
Mike Assistant Prof 3 noMary Assistant Prof 7 yesBill Professor 2 yesJim Associate Prof 7 yesDave Assistant Prof 6 noAnne Associate Prof 3 no
Klassifikations-Algorithmus
if rank = ‘professor’ or years > 6
then tenured = ‘yes’
Klassifikator
5
Der Prozess der Klassifikation
Anwendung des Modells
manchmal: keine Klassifikation unbekannter Daten sondern „nur“ besseres Verständnis der Daten
KlassifikatorUnbekannte Daten
(Jeff, Professor, 4)
Tenured?
yes
6
Bewertung von Klassifikatoren
GrundbegriffeSei K ein Klassifikator und sei TR O die Trainingsmenge. O D ist die Menge der Objekte, bei denen die Klassenzugehörigkeit bereits bekannt ist .
Problem der Bewertung:
• gewünscht ist gute Performanz auf ganz D.
• Klassifikator ist für TR optimiert.
• Test auf TR erzeugt in der Regel viel bessere Ergebnisse, als auf D\TR.
Daher kein realistisches Bild der Performanz auf D.
Overfitting
7
Bewertung von Klassifikatoren
Train-and-Test
Bewertung ohne Overfitting durch Aufteilen von O in :
• Trainingsmenge TR
zum Lernen des Klassifikators (Konstruktion des Modells)
• Testmenge TE
zum Bewerten des Klassifikators
8
Bewertung von Klassifikatoren
Grundbegriffe
• Train-and-Test nicht anwendbar, wenn nur wenige Objekte mit bekannter
Klassenzugehörigkeit
• Stattdessen: m-fache Überkreuz-Validierung (m-fold Cross-Validation)
• m-fache Überkreuz-Validierung
- teile die Menge O in m gleich große Teilmengen
- verwende jeweils m1 Teilmengen zum Training
und die verbleibende Teilmenge zur Bewertung
- kombiniere die erhaltenen m Klassifikationsfehler
(und die m gefundenen Modelle!)
9
1 fold:1 a2 b
3 cTestmenge
Klassifikator
Trainingsmenge
Modell und Klassifikationsfehler
1 a2 3 b cSei n = 3 : Menge aller Daten mit Klasseniformation die zur Verfügung stehen
2 fold:1 a3 c
2 bTestmenge
Klassifikator
Trainingsmenge
Modell und Klassifikationsfehler
3 fold:2 b3 c
1 aTestmenge
Klassifikator
Trainingsmenge
Modell und Klassifikationsfehler
Gesamtklassifikations-fehler
Bewertung von Klassifikatoren
10
Bewertung von Klassifikatoren
Ergebnis des Tests : Konfusionsmatrix (confusion matrix)
Klasse1 Klasse 2 Klasse 3 Klasse 4 other
Klasse 1
Klasse 2
Klasse 3
Klasse 4
other
35 1 1
0
3
1
3
31
1
1
50
10
1 9
1 4
1
1
5
2
210
15 13
klassifiziert als ...
tats
ächl
iche
Kla
sse
...
Aus der Konfusionsmatrix lassen sich folgende Kennzahlen berechnen :Accuracy, Classification Error, Precision und Recall.
korrekt klassifizierte Objekte
11
Bewertung von Klassifikatoren
Gütemaße für Klassifikatoren• Sei K ein Klassifikator, TR O die Trainingsmenge, TE O die Testmenge. Bezeichne C(o) die tatsächliche Klasse eines Objekts o.
• Klassifikationsgenauigkeit (classification accuracy) von K auf TE:
• Tatsächlicher Klassifikationsfehler (true classification error)
• Beobachteter Klassifikationsfehler (apparent classification error)
G Ko TE K o C o
TETE ( )|{ | ( ) ( )}|
| |
F Ko TE K o C o
TETE ( )|{ | ( ) ( )}|
| |
F Ko TR K o C o
TRTR ( )|{ | ( ) ( )}|
| |
12
Bewertung von Klassifikatoren
Gütemaße für Klassifikatoren• Precision : Anzahl der Objekte aus einer Klasse, die richtig erkannt wurden. Sei Ti= {o TE| C(o) = i}, dann ist
||
|)}()(|{|),(Re
i
iTE C
oCoKCoiKcall
||
|)}()(|{|),(Pr
i
iTE T
oCoKToiKecision
• Recall : Anzahl der zu einer Klasse zugeordneten Objekte, die richtig erkannt wurden. Sei Ci= {o TE| K(o) = i}, dann ist
13
Bewertung von Klassifikatoren
weitere Gütemaße für Klassifikatoren
•Kompaktheit des Modells
z.B. Größe eines Entscheidungsbaums
• Interpretierbarkeit des Modells
wieviel Einsichten vermittelt das Modell dem Benutzer?
• Effizienz
der Konstruktion des Modells
der Anwendung des Modells
• Skalierbarkeit für große Datenmengenfür sekundärspeicherresidente Daten
• Robustheit
gegenüber Rauschen und fehlenden Werten
14
3.2 Bayes-Klassifikatoren
Was sind Bayes-Klassifikatoren?
• Statistische Klassifikatoren• Vorhersage der Class-Membership-Probability für verschiedene Klassen
• Beruht auf dem Satz von Bayes
• Verschiedene Verfahren:• Naiver Bayes-Klassifikator:
Relativ einfach zu implementierendes Verfahren, beruhend auf Annahme der Unabhängigkeit zwischen den einzelnen Merkmalen (deshalb naiv)
• Bayes-Netzwerk (Bayesian Belief Network):Mögliche Abhängigkeiten zwischen Merkmalen werden in Form eines Graphen modelliert, der entweder durch den Benutzer vorgegeben wird oder durch das System selbst „gelernt“ wird.
15
Bayes-Klassifikatoren
Grundlagen• Regeln und Fakten zur Klassifikation werden mit Hilfe des Satzes
von Bayes als bedingte Wahrscheinlichkeiten formuliert
• A-Priori-Wahrscheinlichkeiten modellieren Faktenwissen über die Häufigkeit einer Klasse und das Auftreten von Merkmalen, z.B.
• 20% der Objekte sind Äpfel
• 30% sind Orangen
• 50% der Objekte sind rund
• 40% haben Farbe orange
• Bedingte Wahrscheinlichkeiten („A-Posteriori“) modellieren Zusammenhänge zwischen Klassen und Merkmalen:
• 100% der Orangen sind rund: P (rund | Orange) = 100%
• 100% der Äpfel sind rund: P (rund | Apfel) = 100%
• 90% der Orangen sind orange: P (orange | Orange) = 90%
A-Priori Wahrsch. f. Klassenzugehörigk.
A-Priori Merkmalshäufigkeit
16
Bayes-Klassifikatoren
• Bei einem gegebenen Merkmals-Vektor M lässt sich die Wahrscheinlichkeit der Klassenzugehörigkeit zu Klasse C mit dem Satz von Bayes ermitteln:
• Im Beispiel: Wahrscheinlichkeit, dass ein oranges Objekt eine Orange ist:
Die entsprechenden Wahrscheinlichkeiten werden aus den Trainingsdaten geschätzt
)(
)()|()|(
MP
CPCMPMCP
675.04.0
3.09.0
)orange(
)Orange()Orange|orange()orange|Orange(
P
PPP
17
Bayes-Klassifikatoren
• Kontinuierliche metrische Merkmale können……diskret approximiert werden:
P ( 9.0 < Durchmesser 9.5 | Orange) = 10% P ( 9.5 < Durchmesser 10.0 | Orange) = 30% P (10.0 < Durchmesser 10.5 | Orange) = 30% P (10.5 < Durchmesser 11.0 | Orange) = 10% P (11.0 < Durchmesser 11.5 | Orange) = 5%
…oder als Wahrscheinlichkeits-Dichtefunktion definiert werden: Orangen haben einen Durchmesser von 10±1 cm: p (Durchmesser | Orange) = N (10, 1)
(meist unter Annahme der Normalverteilung)
12
34
5
R1
0
5
10
15
20
25
30
18
Bayes-Klassifikation
• Der Bayes-Klassifikator schätzt die Wahrscheinlichkeit der Klassenzugehörigkeit eines Merkmalsvektors
• Zur eindeutigen Zuordnung eines Klassen-Labels geht man meist nach dem Prinzip „Maximum Likelihood“ vor:
• Da P(M) bei allen Ci gleich ist, ist nur das Produkt zu optimieren
• Beispiel:• P(Apfel | M) = 32%
• P(Orange | M) = 32% C = Kiwi
• P(Kiwi | M) = 36%
)()|(argmax)(
)()|(argmax)|( argmax ii
C
ii
Ci
CCPCMP
MP
CPCMPMCPC
iii
19
Naive Bayes-Klassifikation
MotivationBei hochdimensionalen Merkmalsvektoren schwierige Schätzung der bedingten Wahrscheinlichkeiten P(M | C) und damit P(C | M):
• M besteht aus vielen einzelnen Komponenten, die UND-verknüpft sind:
• Bei d verschiedenen Merkmalen und jeweils r verschiedenen Werten ergeben sich rd verschiedene Merkmalskombinationen
Probleme:• Die Wahrscheinlichkeiten lassen sich nicht mehr abspeichern
• Man bräuchte >> rd Trainingsdatensätze, um die Wahrscheinlichkeit der einzelnen Merkmalskombinationen überhaupt ermitteln zu können
...)(
)()|...(...)|(
21
2121
MMP
CPCMMPMMCP
20
Naive Bayes-Klassifikation
Lösung dieses Problems beim naiven Bayes-Klassifikator:
Annahme der Bedingten Unabhängigkeitd.h. bei jeder einzelnen Klasse werden die Merkmale so behandelt als wären sie voneinander statistisch unabhängig:
P (M1 M2 | C) = P (M1 | C) P (M2 | C)
Was bedeutet dies?
Klasse=Orange:
M1 = Durchmesser
M2 =
Gew
icht
• Annahme kann falsch sein• Dies führt nicht unbedingt dazu,
dass die Klassifikation versagt• Aber schlechte Leistung, wenn…
• alle Merkmale bei mehrerenKlassen etwa gleich verteilt sind
• Unterschiede nur in „Relationen“der Merkmale zueinander
21
Naive Bayes-Klassifikation
Damit ist die Wahrscheinlichkeit der Zugehörigkeit zu Klasse Ci:
Auch hier ist der Nenner für alle Klassen gleich, so dass nur der Zähler zu maximieren ist:
...)(
)|...()(...)|(
21
2121
MMP
CMMPCPMMCP ii
i
k jkj
jiji
CMP
CMPCP
)|(
)|()(
j
ijiC
CMPCPCi
)}|()({argmax
22
Bayes-Netzwerke
Grundbegriffe
• Graph mit Knoten = Zufallsvariable und Kante = bedingte Abhängigkeit
• Jede Zufallsvariable ist bei gegebenen Werten für die Vorgänger-Variablen
bedingt unabhängig von allen Zufallsvariablen, die keine Nachfolger sind.
• Für jeden Knoten (Zufallsvariable): Tabelle der bedingten Wahrscheinlichkeiten
• Trainieren eines Bayes-Netzwerkes
– bei gegebener Netzwerk-Struktur und allen bekannten Zufallsvariablen
– bei gegebener Netzwerk-Struktur und teilweise unbekannten
Zufallsvariablen
– bei apriori unbekannter Netzwerk-Struktur
23
Bayes-Netzwerke
Beispiel
bei gegebenen Werten für FamilyHistory und Smoker liefert der Wert für Emhysema keine zusätzliche Information über LungCancer
FamilyHistory
LungCancer
PositiveXRay
Smoker
Emphysema
Dyspnea
FH
,S
FH
, S
F
H,S
F
H,
S
LC
~LC
0.8
0.2
0.5
0.5
0.7
0.3
0.1
0.9
bedingte Wahrscheinlichkeiten für LungCancer
24
Klassifikation von Texten
Grundlagen
• Anwendungen (z.B. [Craven et al. 1999], [Chakrabarti, Dom & Indyk 1998]) Filterung von Emails Klassifikation von Webseiten
• Vokabular T = {t1, . . ., td} von relevanten Termen
• Repräsentation eines Textdokuments o = (o1, . . ., od)
• oi: Häufigkeit des Auftretens von ti in o
• Methode
– Auswahl der relevanten Terme– Berechnung der Termhäufigkeiten– Konstruktion des Modells– Anwendung des Modells zur Klassifikation neuer Dokumente
25
Klassifikation von Texten
Auswahl der Terme
• Reduktion der auftretenden Worte auf Grundformen
Stemming
Abhängigkeit von der Sprache der Texte
• Einwort- oder Mehrwort-Terme?
• Elimination von Stoppwörtern
• weitere Reduktion der Anzahl der Terme
bis zu 100 000 Terme
26
Klassifikation von Texten
Reduktion der Anzahl der Terme
• optimaler Ansatz
O(2AnzahlTerme) Teilmengen
optimale Teilmenge läßt sich nicht effizient bestimmen
• Greedy-Ansatz
bewerte jeden Terms einzeln
welchen „Informationsgewinn“ liefert er in Bezug auf die Separation
der gegebenen Klassen?
sortiere die Terme nach dieser Maßzahl absteigend
wähle die ersten d Terme als Attribute aus
27
Klassifikation von Texten
Konstruktion des Modells
• Anwendung des naiven Bayes-Klassifikators
aber: Häufigkeiten der verschiedenen Terme typischerweise korreliert
• wichtigste Aufgabe: Schätzung der P(oi| c) aus den Trainingsdokumenten
• Generierung eines Dokuments o der Klasse c mit n Termen
Bernoulli-Experiment:
n mal eine Münze werfen,
die für jeden Term ti eine Seite besitzt
• Wahrscheinlichkeit, daß ti nach oben kommt
f(ti, c): relative Häufigkeit des Terms ti in der Klasse c
28
Klassifikation von Texten
Konstruktion des Modells
• Dokument als „Bag of Words“
Reihenfolge der Terme spielt keine Rolle
• Bestimmung der P(oi| c) mit Hilfe der Bimonialverteilung
• Problem
– Term ti tritt in keinem Trainingsdokument der Klasse c auf
– ti tritt in einem zu klassifizierenden Dokument o auf
– in o treten aber auch „wichtige“ Terme der Klasse c auf
vermeide P(oi| c) = 0
Glättung der beobachteten Häufigkeiten
29
Klassifikation von Texten
Experimentelle Untersuchung [Craven et al. 1999]
• Trainingsmenge: 4127 Webseiten von Informatik-Instituten
• Klassen: department, faculty, staff, student, research project, course, other
• 4-fache Überkreuz-Validierung
drei der Universitäten zum Training, vierte Universität zum Test
• Zusammenfassung der Ergebnisse
- Klassifikationsgenauigkeit 70% bis 80 % für die meisten Klassen
- Klassifikationsgenauigkeit 9% für Klasse staff
aber 80% korrekt in Oberklasse person
- schlechte Klassifikationsgenauigkeit für Klasse other
große Varianz der Dokumente dieser Klasse
30
Interpretation von Rasterbildern
Motivation
• automatische Interpretation von d Rasterbildern eines bestimmten Gebiets
für jedes Pixel ein d-dimensionaler Grauwertvektor (o1, . . ., od)
• verschiedene Oberflächenbeschaffenheiten der Erde besitzen jeweils ein
charakteristisches Reflexions- und Emissionsverhalten
• • • •• • • •• • • •• • • •
• • • •• • • •• • • •• • • •
Erdoberfläche Feature-Raum
Band 1
Band 216.5 22.020.018.0
8
12
10
•
(12),(17.5)
(8.5),(18.7)
•• •
•
••• •
••
••••1 1 1 21 1 2 23 2 3 23 3 3 3
Cluster 1 Cluster 2
Cluster 3
Ackerland
Wasser
Stadt
31
Interpretation von Rasterbildern
Grundlagen
• Anwendung des optimalen Bayes-Klassifikators
• Schätzung der P(o | c) ohne Annahme der bedingten Unabhängigkeit
• Annahme einer d-dimensionalen Normalverteilung für die Grauwertvektoren
einer Klasse
Entscheidungsflächen
Wasser
Stadt
Ackerland
Wahrscheinlichkeitder Klassen-zugehörigkeit
32
Interpretation von Rasterbildern
Methode
• Zu schätzen aus den Trainingsdaten
i: d-dimensionaler Mittelwertvektor aller Feature-Vektoren der Klasse ci
i: Kovarianzmatrix der Klasse ci
• Probleme der Entscheidungsregel
- Likelihood für die gewählte
Klasse sehr klein
- Likelihood für mehrere
Klassen ähnlich
d d
unklassifizierte Regionen
Grenzwert
33
Bayes-Klassifikatoren
Diskussion
+ hohe Klassifikationsgenauigkeit in vielen Anwendungen
+ Inkrementalität Klassifikator kann einfach an neue Trainingsobjekte adaptiert werden
+ Einbezug von Anwendungswissen
- Anwendbarkeit
die erforderlichen bedingten Wahrscheinlichkeiten sind oft unbekannt
- Ineffizienz bei sehr vielen Attributen insbesondere Bayes-Netzwerke