METHODEN DES DATA MINING FABIAN GREUEL - Foswiki · Inhalt Grundlagen aus der...

M E T H O D E N D E S D A T A M I N I N G

F A B I A N G R E U E L

Bayes Klassifikatoren

Inhalt

Grundlagen aus der Wahrscheinlichkeitsrechnung

Hypothesenwahl

Optimale Bayes Klassifikator

Naiver Bayes Klassifikator

Beispiel Textmining

Ansatzder Bayes-Netzte

Grundlagen

P(A) : Wahrscheinlichkeit für ein Ereignis

P(A,B) : Wahrscheinlichkeit für ein Ereignis A und B

Bedingte Wahrscheinlichkeit:

Satz der totalen Wahrscheinlichkeit:

Das Theorem von Bayes

Da P(A,B) = P(A|B)P(B) = P(B|A)P(A) gilt…

Likelihood

A-Priori-WahrscheinlichkeitThomas Bayes *1702 †1761Quelle: http://www.wikipedia.de

A-Posterior-Wahrscheinlichkeit

Von Wahrscheinlichkeiten zu Hypothesen

Beim Bayesschen Lernen wird eine Hypothese mit maximaler A-Posterior-Wahrscheinlichkeit ( kurz eine MAP – Hypothese ) gesucht.

Der Term P(B) kann hierbei vernachlässigt werden

Normalisierung

Ein fiktives Beispiel (I)

0.6 % der Bevölkerung hat Krebs, notiert durch P(K)=0.006 und P(¬K)=0.994

Ein Test erkennt Krebs mit 98% Genauigkeit, also…P(+|K)=0.98 und P(-|K) = 0.02

Ein negatives Ergebnis ist nur in 96% richtig, also… P(-|¬K)=0.96 und P(+|¬K) = 0.04

Ein fiktives Beispiel (II)

Fragestellung: Welche Hypothese ist bei einem positiven Test wahrscheinlicher? Der Patient hat Krebs:

Ein fiktives Beispiel (II)

Fragestellung: Welche Hypothese ist bei einem positiven Test wahrscheinlicher? Der Patient hat Krebs:

Der Patient hat keinen Krebs

MAP-Hypothese!

Maximum A Posteriori

Ein fiktives Beispiel (III)

Die Bayes-Umkehrformel

Normalisierung

Ein Brute-Force-Algorithmus

Berechne für jede mögliche Hypothese die A-Posteriori-Wahrscheinlichkeit

Wähle die Hypothese mit der größten Wahrscheinlichkeit

Optimaler Bayes Klassifikator (I)

Fragestellung: Beste Klassifizierung

Idee: Gewichtung der Vorhersagen vJ von Hypothese hJ mit der Posterior-Wahrscheinlichkeit auf Basis der Daten D.

Beispiel:

Die Hypothesen klassifizieren wie folgt:

MAP-Hypothese

Optimaler Bayes Klassifikator (II)

Fragestellung: Optimale Klassifizierung

Für das Beispiel:

Optimaler Bayes Klassifikator (III)

Der BOC liefert im Durchschnitt das optimalste Ergebnis, aber…

… ist sehr rechenaufwendig

Variante: Der Gibbs-Algorithmus

Wähle zufällig eine Hypothese h, unter Beachtung der Posterior-Wahrscheinlichkeitsverteilung über H

Benutze h um eine Klassifizierung eines Exemplars x.

FehlerrateGibbs < = 2 * FehlerrateBOC

Naiver Bayes Klassifikator (I)

Fragestellung: Optimale Klassifizierung

Attribute:

Klassifizierungen: V

Naiver Bayes Klassifikator(II)

Attribute:

Klassifizierungen: V

Annahme: Alle Attribute sich stoch. unabhängig:

Komplexität

Naiver Bayes Klassifikator:

Beispiel(I)

Tag TemperaturLuft-Feuchte

Wind Aussicht Tennis spielen?

1 Warm Hoch Schwach Sonnig Nein

2 Warm Hoch Stark Sonnig Nein

3 Warm Hoch Schwach Bewölkt Ja

4 Milde Hoch Schwach Regen Ja

5 Kalt Normal Schwach Regen Ja

6 Kalt Normal Stark Regen Nein

7 Kalt Normal Stark Bewölkt Ja

8 Milde Hoch Schwach Sonnig Nein

9 Kalt Normal Schwach Sonnig Ja

10 Milde Normal Schwach Regen Ja

11 Milde Normal Stark Sonnig Ja

12 Milde Hoch Stark Bewölkt Ja

13 Warm Normal Schwach Bewölkt Ja

14 Milde Hoch Stark Regen Nein

Beispiel(II)

Das neue Exemplar (Kalt, Hoch, Stark, Sonnig) soll klassifiziert werden.

Beispiel(III)

Tag Tennis spielen?

1 Nein

2 Nein

6 Nein

8 Nein

14 Nein

P(ja) = 9 / 15

P(nein) = 6 / 15

Beispiel(IV)

Tag TemperaturLuft-Feuchte

Abschätzung bedingter WahrscheinlichkeitenTag TemperaturLuft-Feuchte

3 Warm Hoch Schwach Bewölkt Ja

4 Milde Hoch Schwach Regen Ja

5 Kalt Normal Schwach Regen Ja

7 Kalt Normal Stark Bewölkt Ja

9 Kalt Normal Schwach Sonnig Ja

10 Milde Normal Schwach Regen Ja

11 Milde Normal Stark Sonnig Ja

12 Milde Hoch Stark Bewölkt Ja

13 Warm Normal Schwach Bewölkt Ja

Beispiel(V)

Abschätzung bedingter Wahrscheinlichkeiten

P(ja)P(sonnig|ja)P(kalt|ja)P(hoch|ja)P(stark|ja) = 0.0053

P(nein)P(sonnig|nein)P(kalt|nein)P(hoch|nein) * P(stark|nein) = 0.0206

Beispiel(VI)

P(ja)P(sonnig|ja)P(kalt|ja)P(hoch|ja)P(stark|ja) = 0.0053

P(nein)P(sonnig|nein)P(kalt|nein)P(hoch|nein) * P(stark|nein) = 0.0206

Normalisiert:

Probleme

Bei einer geringe bedingten Wahrscheinlichkeit…

… und einer geringe Anzahl von Datensätzen

z. B. n=5 dann folgt nc = 0.4

…produziert tendenziell einen zu niedrigen Schätzwert.

(1) Dominiert die anderen Terme bei der Berechnung

m-Schätzer

Idee: Gewichtung des Schätzwertes mit einer angenommenen Verteilung p

m lässt sich als die Anzahl zusätzlicher Datensätze interpretieren

m-Schätzer

Idee: Gewichtung des Schätzwertes mit einer angenommenen Verteilung p

m lässt sich als die Anzahl zusätzlicher Datensätze interpretieren

Standard-Methode:

p ist eine Gleichverteilung über die Anzahl der möglichen Werte m

Anwendungsgebiet Text-Mining

Identifizierung von relevanten Inhalten

Klassifikation von Texten (z.B. Web-Seiten)

Repräsentierung

Dokument als Vektor mit einem Attribut je Wortposition ai

Vorgegebenes Vokabular mit Wörtern wi

Auch in dieser Anwendung gilt die stochastische Unabhängigkeitsannahme! …

… und

Algorithmus - Lernphase

Vokabular besteht aus allen Wörtern, die in Beispieltexten vorkommen.

Für jeden Klassifikation vJ

TextJ = Konkatenation aller dokJ

n = gesamte Anzahl der Worte in TextJ

für jedes Wort in wk im Vokabular

nk = Anzahl des Auftretens von Wort wk

Algorithmus - Klassifikation

Ein Dokument wird auf Basis des Vokabulars klassifiziert, andere Wörter werden ignoriert.

Pos sei die Menge aller Wortposition mit einem Wert aus dem Vokabular

Der Algorithmus liefert:

Algorithmus - Betrachtungen

Komplexität |V={comp.graphics, … sci.med}|= 20

|Vokabular| ≈ 38500

Experiment Jeweils 1000 Dokumente aus einer Newsgroups

2/3 als Trainingsdaten, 1/3 als zu klassifizierende Daten

Die 100 häufigsten Wörter wurden aus dem Vokabular entfernt.

Resultate Die erreichte Genauigkeit lag bei 89%.

Die Performe leidet nicht unter den Unabhängigkeitsannahmen

Bemerkungen zum naiven Bayes Klassifikator

Beste Resultate bei stoch. Unabhängigkeit der Attribute Diagnosen

Spam-Filterung

Kann problemlos mit fehlenden Attributwerten umgehen

Einfach zu programmieren.

Repräsentieren eine Verbundwahrscheinlichkeit

Modelliert Knoten repräsentieren Zufallsvariablen

Gerichte Kanten modellieren Abhängigkeiten

Bayessche Netzwerke

Professor kommt zu spät

Fabian kommt zu spät

Zug verspätet sich

Jeder Knoten enthält eine Wahrscheinlichkeitstabelle

Bayessche Netzwerke

Professor kommt zu

Fabian kommt zu

Zug verspätet

Zug verspätet sich

Fabian spät True False

True 0.8 0.1

False 0.2 0.9

Zug verspätet sich

Prof spät True False

True 0.8 0.1

False 0.2 0.9

Zug verspätet sich

True False

0.1 0.9

Die Wahrscheinlichkeit, dass Fabian zu spät kommt:

Bayessche Netzwerke

Ausbreitung

Fakten verändern Wahrscheinlicheiten

Beispiel: Fabian kommt zu spät.

Dieser Wert wird in den Knoten „Zug verspätet sich eingetragen und beinflusst dadurch P(Professor spät|Zug spät)

Bayessche Netzwerke

P(A,B,C,D)=P(A|B,C,D)P(B|C,D)P(C|D)P(D)

benötigt man nur

P(A,B,C,D)=P(A|B)P(B|C,D)P(C)P(D)

Aber …. das Lernen liegt in der Klasse NP

Näherungsverfahren

Gradientenabstiegsverfahren

Quellenangaben

Tom Mitchel – Machine Learning (1997)

Richard O. Duda – Pattern Classification (2001)

METHODEN DES DATA MINING FABIAN GREUEL - Foswiki · Inhalt Grundlagen aus der...

Documents

Transcript of METHODEN DES DATA MINING FABIAN GREUEL - Foswiki · Inhalt Grundlagen aus der...

Geowissenschaften I (Geographie) Neuerwerbungsliste 4 ... · Meidow, Jochen Gemeinsame Segmentierung und Interpretation digitaler Luftbilder mit Hilfe der Bayes-Statistik / Jochen

Kapitel 3: KlassifikationKapitel 3: Klassifikation · Bayes als bedingte Wahrscheinlichkeiten formuliert A-Priori-Wahrscheinlichkeiten modellieren Faktenwissen über dieWahrscheinlichkeiten

Proseminar Algorithmen auf Graphen Zufälliges Erzeugen von Graphen und Bayes-Netzen Björn Schapitz, CV04, 20.06.2006.

40+ Art Format rot grau 4 - jazzclub-ilmenau.de€¦ · Jazzclub? Die neuerdings notwendigen juristischen Strukturen als Verein waren dem Jazzer ein Greuel. Formulare, Anträge, Kniefälle

Die Regel von Bayes und der subjektive ...thaeter/stochastik08/... · Die Regel von Bayes und der subjektive Wahrscheinlichkeitsbegri Anna Garrecht Boris Trupka Ausarbeitung zum Vortrag

7.11. Naïve Bayes, Entscheidungsbäumeusers.informatik.uni-halle.de/~hinnebur/Lehre/KDD_WS0506_web/dm_0… · Naïve Bayes, Entscheidungsbäume • 14.11. Entscheidungsregeln, Assoziationsregeln

„Wahrscheinlichkeiten, Bayes-Theorem und statistische ... · FA 738 Veröffentlicht in Controller Magazin 2 / 2014 „Wahrscheinlichkeiten, Bayes-Theorem und statistische Analysen“

FUNKERFASSUNG | Monitoring-Systeme PC-basierte ... · FUNKERFASSUNG | Monitoring-Systeme BILD 8 Neben der Verarbeitung mit Klassifikator oder Demodulator / Decoder hat der Anwender

kuzstu.ru12. Luk'yanov A. V. Klassifikator vibrodiag- nosticheskikh priznakov defektov rotornykh mashin [The classifier of vibrodiagnostic symptoms of defects rotary machines.]. Irkutsk,

Die DT-GBI-Methode als Klassifikator für graphstrukturierte Daten und Ihre Anwendungen KADAR CRISTINA cristina.kadar {at} gmail {dot} com Stand:1. Juli.

5. Klassifikation · 5.2 Optimaler Bayes-Klassifikator Grundbegriffe • Sei H = {h 1, . . ., h l} eine Menge unabhängiger Hypothesen. •Sei o ein zu klassifizierendes Objekt. •Der

Parametersch atzung und Messunsicherheit mit der Bayes ...iprom.tu-bs.de/_media/lehre/vorlesungen/mda_munsicherheit/mdavorl_2017... · Parametersch atzung und Messunsicherheit mit

e g n n n Modellen - uni-magdeburg.de · 2 Bayes-Methode bei vollständiger a-priori-Information Dadie hiervorgestellteMethodezur empirischenBayes-Schätzungaufder Bayes—Schätzungbei

6. Bayes-Klassifikation - uni-forst.gwdg.dewkurth/cb/html/gdm_v06.pdf · Der "naive Bayes-Klassifikator" (Böhm 2003) formale Def.: (Schukat-Talamazzini 2002) ... naiven Bayes-Klassifikator

94 3. Klassifikation Inhalt dieses Kapitels 3.1 Einleitung Das Klassifikationsproblem, Bewertung von Klassifikatoren 3.2 Bayes-Klassifikatoren Optimaler.

Support Vector Machines in a Nutshell - esp.phonetik.uni ... · „Echte“ Mehrklassen-SVM… Support-Vektor-Maschinen Björn Schuller 26 • Prinzip Grundsätzlich jeder Klassifikator

Gert-Martin Greuel Universitat Kaiserslautern¨ … · Dies ist aber nicht Gegenstand der linearen Algebra, diese beschaftigt sich mit der Struktur der L¨ osungsmenge linearer Gleichungssy-

Inhaltsverzeichnis - Abonnierte Substanzen · HiperScan GmbH Klassifikator: Arzneistoffe Fest 2.0-2019-02 Arzneistoffe Fest Substanzname Lateinischer Name Klassifikation Seite 4 von

Kapitel 1: Bayes-Netze - Uni Bremen || Startseite · Bayes-Netze 2 Ausgangspunkt: • Wahrscheinlichkeitsverteilungen über Welten sind geeignet, um unsicheres Wissen zu repräsentieren

Das Bayes-Theorem - chneukirchenchneukirchen.org/talks/bayes/bayes-theorem.pdf · Heute im Angebot: • Ein praktisches Beispiel zur Einleitung • Überblick über Reverend Thomas