Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich...

Vorlesung Neuronale Netze- Maschinelles Lernen: Grundlagen und –ideen -

SS 2004

Holger Fröhlich

Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell

Neuronale Netze, SS 2004 2Univ. Tübingen, Informatik, Abt. Prof. Zell,

Gliederung

Allgemeiner ÜberblickDas Problem Generalisierungsfähigkeit beim

überwachten LernenDesign und Evaluation von Klassifikatoren

Menschliches Gehirn

Eigenschaften des Gehirns

FrequenzcodierungHochgradige VernetzungMassiv parallele Verarbeitung

große SpeicherfähigkeitLern- und Assoziationsfähigkeit

Kann man das mit einer Maschine auch???

Maschinelles Lernen

Was genau soll eine Maschine eigentlich lernen?

Wie kann man den Lernerfolg messen?

Wie kann man das effizient auf einem herkömmlichen Computer implementieren?

=> Notwendigkeit der Konkretisierung und Formalisierung

Arten des Maschinellen Lernens

Überwachtes Lernen: Lerne “Regel” (Modell, Hypothese) aus Menge von Beispielen

Verstärkendes Lernen: Lernen mit Hilfe von Kritik (“Dein letzter Versuch war gut / schlecht”)

Unüberwachtes Lernen: Lerne etwas durch Vergleich von Objektenz.B.: Objekt A sieht so ähnlich aus wie Objekt B. Also

müssen sie beide zur selben “Kategorie” gehören.

Überwachtes Lernen - Klassifikation

Source: Duda, Hart, Stork, Pattern Classification, Wiley Interscience, 2000

Mögliche Klassifikationen?

Probleme

Wie können wir entscheiden, welche Klassifikation korrekt ist?

Wir wollen einen Klassifikator, der auch möglichst richtig auf ungesehenen Daten arbeitet, d.h. generalisiert!

Wie können wir solch einen Klassifikator konstruieren?

Überwachtes Lernen - Regression

Source: Schölkopf, Smola, Learning with Kernels, MIT Press, 2002

Dieselben Probleme

Wie können wir entscheiden, welche Regressions-Funktion korrekt ist?

Wir wollen eine Regressions-Funktion, die auch möglichst richtig auf ungesehenen Daten arbeitet, d.h. generalisiert!

Wie können wir solch eine Regressions-Funktion konstruieren?

Unüberwachtes Lernen – Bsp. Clustering

Problem

Wie kann man die Objekte sinnvoll in gleichartige Kategorien/Cluster einteilen?

Wie kann man die Güte einer solchen Einteilung beurteilen?

Wie viele Cluster sollen gefunden werden?

Überwachtes Lernen formal

Geg.: ges.:

Klassifikation: Y endlich Regression: Y = d

Annahme: Daten wurden statistisch unabhängig (i.i.d.) einer unbekannten Zufallsverteilung P(x,y) entnommen

YXyxyxD nn ),(),...,,( 11

Empirisches Risiko

Vereinfachung:Empirisches Risiko (=Trainingsfehler)

Funktion heißt FehlerfunktionHier:

1[ ] ( , ( ))

R f y f xn

:Y Y 1 '

( , ')0

y yy y

Kernproblem

Wahres Risiko

Ein guter Klassifikator sollte R[f] minimieren

ABER: R[f] kann man nicht berechnen!!! (da P(x,y) nicht bekannt ist)

Reicht die Minimierung des emp. Risikos statt dessen aus???

[ ] ( , ( )) ( , )X Y

R f y f x dP x y

Statistische Perspektive (Vapnik, Chervonenkis, 1979)

Begreife Remp[f] als statist. Schätzer für R[f].

Gewünscht: Konsistenz von Remp[f], d.h.

Frage: Ist dies möglich?

optemp

Proptemp

lim Pr(| [ ] [ ] | ) 0 0

kurz: [ ] [ ] 0

R f R f

Beobachtung 1:Beobachtung 2: Insbesondere gilt dann

Summe der Ungleichungen:

opt[ ] [ ] 0 R f R f f F

emp emp[ ] [ ] 0 nR f R f f F

optemp emp

[ ] [ ] 0

und [ ] [ ] 0

R f R f

opt optemp emp

0 [ ] [ ] [ ] [ ]

[ ] [ ] [ ] [ ]

sup( [ ] [ ]) [ ] [ ]

R f R f R f R f

Zweite Hälfte der Gleichung: opt ist unabhängig von Trainingsdaten! Daher:

erfordet gleichmäßige Konvergenz über alle Funktionen, die die Maschine implementieren kann!

Propt optemp| [ ] [ ] | 0 (Gesetz der großen Zahlen)R f R f

Prempsup( [ ] [ ]) 0

f FR f R f

Gleichmäßige Konvergenz

Gleichmäßige Konvergenz (2)

Wie kann gleichmäßige Konvergenz a priori garantiert werden?

Satz (Vapnik, Chervonenkis): Für alle >0

N(F,2n) heißt shattering Koeffizient der Funktionenklasse F.

N(F,2n) ist ein Maß, um die Komplexität (Kapazität) von F zu messen.

empPr(sup( [ ] R [ ]) ) 4 ( , 2 )exp8f F

nR f f N F n

Shattering

VC-Dimension

Shattering = Realisierung aller 2n verschiedenen Klasseneinteilungen von n Punkten

VC-Dimension = maximale Anzahl Punkte h, für die es eine Menge von h Punkten gibt, die F shattern kann (und , falls es kein solches h gibt).

Bsp.: VC-Dimension der Klasse der Hyperebenen in 2 ist 3.

VC-Schranke

Folgerung: gleichmäßige Konvergenz hängt von Kapazität von F ab.

=> Kapazität sollte beschränkt werden (Bevorzugung möglichst “einfacher” Funktionen)

Quantitativ (aus vorherigem Satz):

Mit Wahrscheinlichkeit 1 gilt:

1 2 4[ ] R [ ] ln 1 ln

nR f f h

Überanpassung vs. Unteranpassung

Überanpassung (overfitting): emp. Risiko klein (vielleicht 0), aber h groß.

Unteranpassung (underfitting): h klein, aber emp. Risiko groß.

Überanpassung vs. Unteranpassung (2)

Regularisierung

Trade-off zwischen Überanpassung und Unteranpassung.

Idee: Minimierung des regularisierten Risikos

-> Idee bei Support Vector Machines

reg emp[ ] [ ] [ ], 0R f R f f

Das Klassifikations-Framework

Vorverarbeitung der Daten

(falls möglich) Codierung als reelwertiger VektorNormalisierung aller Merkmale auf Mittelwert 0

und Standardabweichung 1.Alternativ: Skalierung, z.B. zwischen [-1,1].

Anzahl Räder Motor (ja/nein) Farbe Fahrzeugtyp4 ja blau Auto3 nein grün Dreirad2 ja gelb Motorrad2 nein rot Fahrrad4 ja silber Auto

... ... ... ...

Merkmalsauswahl

Entfernung irrelevanter Merkmale (hier: “Farbe”)Extraktion möglichst informativer Merkmale aus

den ursprünglichen Daten durch Transformation (z.B. Principal Component Analysis)

Evaluation eines Klassifikators

Möglichkeit 1: Teste auf einer großen Menge von ungesehenen Testdaten

Möglichkeit 2 (besser): benutze Kreuzvalidierung (cross-validation)

K-fold Kreuzvalidierung

Eigenschaften der Kreuzvalidierung

Schätzer für Generalisierungsleistung (Risiko)Schätzung um so genauer, je mehr folds. -> extrem: Leave-one-out cross-validationVorteil: einfacher Vergleich von KlassifikatorenNachteil: Rechenzeit

No Free Lunch

Gibt es einen universal besten Klassifikator? Sei hk die von Klassifikator k gelernte

Hypothese und g die Zielfunktion.Sei Pr(hk|D) die Wahrscheinlichkeit, daß der

Algorithmus hk liefert, wenn er auf Datensatz D trainiert wurde.

Definiere “Matching” zwischen Verteilungen P(hk|D) und P(g|D)

( ) ( )(1 ( ( ), ( ))) ( | ) ( | )k

h F g F x D

Match D P x g x h x P h D P g D

No Free Lunch (2)

Folgerung: Ohne Vorwissen von P(g|D) kann man eigentlich gar nichts über P(hk|D) zeigen.

Definiere sog. off-training Fehler

offtrain ( , ) ( )(1 ( ( ), ( ))) ( | )k k k k

E g D P x g x h x P h D dx

Satz (No Free Lunch Theorem)

1. Es gilt

2. Für irgendeinen festen Datensatz D gilt

3. 1 + 2 gelten auch gleichverteilt gemittelt über alle Priors P(g)

1 2offtrain offtrain( | )( [ , ] [ , ]) 0g D

P D g E g D E g D

1 2offtrain offtrain( | )( [ , ] [ , ]) 0g

P D g E g D E g D

Interpretation von 1 + 2

1. Falls alle Zielfunktionen gleich wahrscheinlich sind, dann wird, egal wie clever wir einen “guten” Lernalgorithmus P1(h1|D) und einen “schlechten” P2(h2|D) wählen, der “gute” nicht besser als der “schlechte” sein.

2. Das gleiche gilt, falls D schon bekannt ist.

Wie kann man 3. Interpretieren?

Folgerungen

Selbst ein theoretisch gut fundierter Algorithmus wird auf einigen Daten schlecht funktionieren.

Vergleiche der Generalisierungsleistung von Algorithmen sind nur auf vorhandenen Datensätzen sinnvoll.

Jeder Lernalgorithmus muß (implizite) Annahmen über das Lernproblem machen.

Es gibt keinen universalen Lernalgorithmus, der ohne Vorwissen auskommt.

Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich...

Documents

Transcript of Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich...

Rechnerarchitektur. 2 Teil 1 Das Registermaschinenmodell.

Rechnerarchitektur · Kombinatorische Logik II

Rechnerarchitektur Inhaltsverzeichnis - Gymnasium Pegnitz · Rechnerarchitektur M. Jakob Gymnasium Pegnitz 24. Februar 2019 Inhaltsverzeichnis Aufbau eines Computersystems Praktische

Künstliche Neuronale Netze

Parallele Rechnerarchitektur II - conan.iwr.uni-heidelberg.de · Parallele Rechnerarchitektur II Stefan Lang Interdisziplinäres Zentrum für Wissenschaftliches Rechnen Universität

Neuronale Netze Training & Regularisierung

Maschinelles Lernen: Neuronale Netze · Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn 16. Januar 2014, überarbeitet am 20. Januar 2017

KA – Rechnerarchitektur I ____________________________________________________________________________________________ ____________________________________________________________________________________________.

Maschinelles Lernen und Neural Computation

Neuronale Netze

Maschinelles Lernen

Rechnerarchitektur - LMU

KA – Rechnerarchitektur II ____________________________________________________________________________________________ ____________________________________________________________________________________________.

Maschinelles Lernen II Clustering 2 - Universität Potsdam · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering 2 Christoph

Rechnerarchitektur · Befehlssatzarchitektur I

3.IDDR: Betriebssysteme, Rechnerarchitektur und Rechentechnik

Neuronale Informationsverarbeitung

Maschinelles Lernen und automatische Textklassifikation

Maschinelles Lernen€¦ · Abteilung Schiele: MPI für Informatik . Klassifikation (Krizhevsky et al., 2012) Maschinelles Lernen 23.01.2017 9 . Suche (Krizhevsky et al., 2012) Maschinelles

Maschinelles Lernen II PCA - uni-potsdam.de › ml › teaching › ss13 › ml2 › PCA.pdf · Lehrstuhl Maschinelles Lernen Maschinelles Lernen II PCA Christoph Sawade/Niels Landwehr/Blaine

KA – Rechnerarchitektur I .

KA – Rechnerarchitektur II .