INTELLIGENTE DATENANALYSE
IN MATLAB
Mathematische Grundlagen
Lineare Algebra:
Vektoren, Matrizen, …
Analysis & Optimierung:
Distanzen, konvexe Funktionen, Lagrange-Ansatz, …
Numerik:
Fehlerfortpflanzung, Näherungsverfahren, …
Stochastik:
Wahrscheinlichkeitstheorie, Statistik, …
Überblick
2
Vektor:
Vektorsumme:
gewichteter
Mittelwert
Skalarprodukt: (euklidischer Raum)
Lineare Algebra Vektoren
1
T
1[ ]m
m
x
x x
x
x
11 1
1
1
nn
i
i
m nm
x x
x x
x
T
1
, ,
, cos
m
i i
i
x y
y x x y x y
x y x y
1x 2x
3x
1 2 3 x x x
x
x
y 3
1 2 2 1 2(1 ) ( )a a a x x x x x1x
2x
1 2(1 )a a x x1 2x x
Matrix:
Matrixsumme:
Matrixprodukt:
Lineare Algebra Matrizen
T T
11 1 11 1 1
1
T
1 1
[ ]
n m
n
m mn n mn m
x x x x
x x x x
x
X x x
x
T T
1 1
1 1
T T
n n
m m
x y
X Y x y x y
x y
T
1 1 1 1
1
T1
, ,
, ,
n
n
m m nm
x x y x y
YX XY y y
x y x yx
4
Quadratisch:
Symmetrisch:
Positiv definit:
Spur (trace):
Rang (rank):
Determinante:
Lineare Algebra Matrix-Eigenschaften
n m11 1
1
n
m n
m mn
a a
a a
A
TA A
T 0 falls symmetrisch x Ax x 0 A
1
( )m
ii
i
tr a
A
( ) 0 falls alle Zeilen/Spalten linear unabh. det A
( ) #linear unabhänger Zeilen/Spaltenrk A
5
~, chol positiv definitp p A 0 A
trace A
rank A
det A
Eins-Vektor/-Matrix:
Einheitsvektor:
Diagonalmatrix:
Einheitsmatrix:
Lineare Algebra Spezielle Matrizen
1
1 1
0
( ) [ ]
0
m m
m
a
diag a a
a
a e e
1 0
( )
0 1
diag
I 1
1 1 1
,
1 1 1
1 1
T[0 0 1 0 0]i e
1i
6
ones ,n m
diag a
eye n
Beispiele für Vektor-Distanzen bzw. Normen:
Minkowski-Norm:
Manhattan-Norm:
Euklidische Norm:
Beispiel für Matrix-Distanzen:
p-Norm
Natürliche p-Norm:
Frobenius-Norm:
Lineare Algebra Distanzen
1
mp
pip
i
x
x
1x
1
maxp
p
vX Xv
2
21
,m
i
i
x
x x x
2
1 1
m n
ijFi j
x
X
7
1
1 1
m n pp
iji j
x
X
Distanz von
x und y:
( , )d x y x y
Distanz von
X und Y:
( , )d X Y X Y
Beispiele für Vektor-Distanzen bzw. Normen:
Minkowski-Norm:
Manhattan-Norm:
Euklidische Norm:
Beispiel für Matrix-Distanzen:
p-Norm
Natürliche p-Norm:
Frobenius-Norm:
Lineare Algebra Distanzen
1
mp
pip
i
x
x
1x
1
maxp
p
vX Xv
2
21
,m
i
i
x
x x x
2
1 1
m n
ijFi j
x
X
8
1
1 1
m n pp
iji j
x
X
norm , px
norm , px
norm , 'fro 'x
Hyperebene:
Ellipsoid:
Mahalanobis-Distanz (bzgl. Matrix ):
Ellipse ( ):
Lineare Algebra Geometrie
T
0{ | ( ) 0}H f w w x x x w
w
Hw
z( )f z
w
T{ | ( ) 1}E g A x x x Ax
9
0w
w
( ) 0f z
( ) 0f z
T( , ) ( ) ( )d A x y x y A x y
0A
( , ) 1d A x y
Repräsentationen von Daten
Instanz mit m Feature:
n Instanzen (Datenmatrix):
Entscheidungswert (lineare Funktion, Hyperebene)
Eines Punktes:
Einer Datenmatrix:
Affin-lineare Transformation der Daten von nach :
Eines Punktes:
Einer Datenmatrix:
Reduktion der Feature, wenn
Lineare Algebra Repräsentationen & Operationen
10
1m 2m
T
1, , mx xx
1, , nX x x
T
0( )f w x w x
T
0 0( ) , ,f w w X w X
2 1 2,m m m n
A B
( )A x Ax b
( )A X AX B
2 1m m
2 1 2 1,
m m m A b
Eigenvektor:
Eigenwert-Zerlegung (symmetrische Matrix ):
Nicht symmetrisch, aber reelle Matrix :
Singulärwerte sind Wurzeln der Eigenwerte von
Lineare Algebra Eigenwerte & Eigenvektoren
Av v
1
T T T
1 1
01 falls
[ ] [ ] 0 falls
0
m m i j
m
i j
i j
A VCV v v v v v v
Eigenwerte Eigenvektoren
11
Orthonormale Basis
v 0 Eigenvektor
Eigenwert
A
BT
B B
, eigs ,mV C A
Singulärwert-Zerlegung (m > n):
Berechnung durch Eigenwert-Zerlegung:
Lineare Algebra Singulärwerte
1 T
T T
1 1
T
0 1 falls
0 falls [ ] [ ]
0 1 falls
0 falls
i j
m nn
i j
i j
i j
i j
i j
v v
A USV u u v v
u u0
Singulärwerte
1
1
T T T T
00
, , 0
0
i in
n
0A A U U AA V V
0 0
12
, , svdU S V A
Erste Ableitung einer Funktion:
Nach einem Skalar x:
Nach einem Vektor x:
Zweite Ableitung einer Funktion:
Nach einem Skalar x:
Nach einem Vektor x:
Analysis Differentialrechnung
T
1
( )m
f ff grad f
x x
x
d
d
ff
x
Gradient Partielle Ableitung
2 2
2
1 1
2
2 2
2
1
( )
m
m m
f f
x x x
f H f
f f
x x x
x
2
2
d
d
ff
x
Hesse-Matrix
13
Konvexe Funktion:
Konkave Funktion:
Streng konvex bzw. konkav:
„“ bzw. „“ wird zu „“ bzw. „“.
Es existiert maximal ein Minimum bzw. Maximum.
Zweite Ableitung ist überall positiv bzw. negativ.
Tangente an f(x) ist untere bzw. obere Schranke von f.
Analysis Konvexe & konkave Funktionen
( (1 ) ) ( ) (1 ) ( )f tx t y tf x t f y
( (1 ) ) ( ) (1 ) ( )f tx t y tf x t f y
14
Konvexe Funktion:
Konvexe Menge M:
Zwischenpunkte sind Teil der Menge:
Analysis Konvexe Mengen
( (1 ) ) ( ) (1 ) ( )f tx t y tf x t f y
, , 0,1 (1 )x y M t tx t y M
15
Nicht konvex konvex Nicht konvex
Optimierungsaufgabe (OA):
f Zielfunktion.
S zulässiger Bereich (definiert durch Nebenbedingungen).
f* Optimalwert.
x* optimale Lösung.
Ein x S wird zulässige Lösung genannt.
Konvexe Optimierungsaufgabe:
Zielfunktion und zulässiger Bereich konvex.
Lokales Optimum = globales Optimum.
Optimierung Definitionen
* *min ( ) mit arg min ( )x S x S
f f x x f x
16
Lagrange-Ansatz für konvexe Optimierungsaufgabe
mit Nebenbedingungen:
Zulässiger Bereich:
Lagrange-Funktion:
Dualität:
Primale OA:
Duale OA:
Optimierung Lagrange-Ansatz
{ | ( ) 0, ( ) 0, 1... , 1... }m
i jS g g i k j k n x x x
1
( , ) ( ) ( )n
i i
i
L f g
x α x x
*
0 0min ( ) min max ( , ) max min ( , )
m mi iS
f f L L
x x x
x x α x α
( )pf x ( )df α
( ) falls min ( ) mit ( )
falls m p px
f Sf f
S
x xx x
x
0max ( ) mit ( ) min ( , )
mi
d dx
f f L
α α x α
Wegen Konvexität
von f, gi und gj
17
* min ( )x S
f f x
Notwendige Optimalitätskriterien für x*:
Wenn f in x* differenzierbar ist, dann ist .
Wenn f in x* zweimal differenzierbar ist, dann ist
eine positiv (semi-)definite Matrix.
Lösung mit Hilfe numerischer Verfahren
Newton-Verfahren:
Berechnen von Nullstellen
Minimum entspricht Nullstelle des Gradienten
Optimierung Eigenschaften
*( ) 0x f x
2 *( )x f x
18
*( ) 0x f x
Gilt beides nicht für
Randpunkte von S
Ziel: Finden von mit .
Newton-Verfahren:
Anwendung: Lösen von Optimierungsaufgabe ohne NB;
für optimale Lösung x* gilt :
Quasi-Newton-Verfahren: Approximation von
bzw. .
Numerik Beispiel: Nullstellenproblem
0( ) 0g x 0x
0 0 0 1 0
1 ( ) ( )t t t tx x g x g x
*( ) 0 ( ) : ( )x xf x g x f x
* * 2 * 1 *
1 ( ) ( )t t x t x tx x f x f x
1( )H f ( )grad f
1g
1( )H f
19
Bei numerischen Verfahren können Ungenauigkeiten auftreten
Beispiele:
Addition von x und y mit :
Logarithmieren/Potenzrechnen:
Fehlerfortpflanzung: Summieren n ähnlich großer Zahlen
Produkt von n Zahlen:
Numerik Fehler
x y
4040 ln 1 e
1
n
i
i
y x
(1, ) mit ( , ) , 1, und ( , )2 2
a
a b a by f n f a b f a f b f a a x
20 20 2010 10 10
20
1
0n
i
i
y x
11
log log logn n
i i
ii
y x x
Rechne im
Log-Space
Zufallsexperiment: Definierter Prozess in dem eine
Beobachtung ω erzeugt wird (Elementarereignis).
Ereignisraum Ω: Menge aller möglichen Elementar-
ereignisse; Anzahl aller Elementarereignisse ist |Ω|.
Ereignis A: Teilmenge des Ereignisraums.
Wahrscheinlichkeit P: Funktion welche Wahr-
scheinlichkeitsmasse auf Ereignisse A aus Ω verteilt.
Stochastik Wahrscheinlichkeitstheorie
( ) :P A P A
21
Wahrscheinlichkeitsfunktion = normiertes Maß
definiert durch Kolmogorow-Axiome.
Wahrscheinlichkeit von Ereignis :
Sicheres Ereignis:
Wahrscheinlichkeit dass Ereignis oder Ereignis
eintritt mit (beide Ereignisse sind
inkompatibel):
Allgemein gilt:
Stochastik Wahrscheinlichkeitstheorie
( ) 1P
0 ( ) 1P A
A
B A B
( ) ( ) ( )P A B P A P B
A
( ) ( ) ( ) ( )P A B P A P B P A B 22
Für zwei unabhängige Zufallsexperimente gilt:
Wahrscheinlichkeit dass Ereignis (im ersten
Experiment) und Ereignis (im zweiten Experiment)
eintritt ist
Allgemein gilt:
Satz von Bayes:
Stochastik Satz von Bayes
B
( , ) ( | ) ( )P A B P A B P B
Bedingte Wahrscheinlichkeit: Wahrscheinlichkeit
von A unter der Bedingung dass B eingetreten ist.
( | ) ( )( , ) ( , ) ( | ) ( ) ( | ) ( ) ( | )
( )
P B A P AP A B P B A P A B P B P B A P A P A B
P B
A
( , ) ( ) ( )P A B P A P B
Wahrscheinlichkeit dass
Ereignis B eintritt.
23
Zufallsvariable X ist Abbildung eines elementaren
Ereignisses auf einen numerischen Wert,
bzw. auf einen m-dimensionalen Vektor, .
Bild der Zufallsvariable:
Verteilungsfunktion einer Zufallsvariable X:
Stochastik Zufallsvariablen
( ) : ( ) : ({ | ( ) })XP x P X x P X x
:X x
: mX x
24
: ( ) |Z X
Wertebereich: stetig/diskret, endlich/unendlich, ...
Dichtefunktion einer stetigen Zufallsvariable X:
Wahrscheinlichkeitsfunktion einer diskreten
Zufallsvariable X:
Stochastik Kenngrößen von Zufallsvariablen
25
( ) ( ) : ( ) ( )d
a
XX X X
x a
P xp a P a p x x
x
( ) : ( ) ( ) ( )X X X
x a
p a P X a P a p x
Erwartungswert (erwartete Realisierung):
Diskrete Zufallsvariable:
Stetige Zufallsvariable:
Varianz (erwartete Abweichung vom Erwartungswert):
Diskrete Zufallsvariable:
Stetige Zufallsvariable:
Stochastik Kenngrößen von Zufallsvariablen
E[ ] ( )X X
Z
X xp x dx
2 2 2E ( ) ( ) ( )X X X X
Z
X x p x dx
26
E[ ] ( )X X
x Z
X xp x
2 2 2E ( ) ( ) ( )X X X X
x Z
X x p x
Informationsgehalt der Realisierung x eines Zufalls-
experiments (mit Zufallsvariable X):
Informationsgehalt ist Zufallsvariable.
Entropie einer Zufallsvariable X (erwarteter
Informationsgehalt):
Diskrete Zufallsvariable:
Stetige Zufallsvariable:
Stochastik Informationstheorie
( ) : log ( )X Xh x p x
27
: ( ) log ( )X X X
Z
H p x p x dx
: ( ) log ( )X X X
x Z
H p x p x
Annahmen:
Datenpunkt xi ist eine Belegung der Zufallsvariable X (Realisierung des dazugehörigen Zufallsexperiments).
Stichprobe von n Datenpunkten xi resultiert aus n-maliger Wiederholung des Zufallsexperiments.
Ziel: Bestimmung der Eigenschaften von X (bspw. Verteilungsfunktion) basierend auf Stichprobe.
Entwicklung von Schätz- und Testverfahren für solche Aussagen, z.B.:
Schätzer für Parameter von Verteilungsfunktionen.
Signifikanztests für Aussagen.
Stochastik Mathematische Statistik
28
Erwartungswert-Schätzer = Mittelwert bzw. mittlere
Realisierung):
Varianz-Schätzer = mittlere quadratische Abweichung
vom Mittelwert:
Erwartungstreuer Schätzer:
Stochastik Schätzer
1
1ˆ( )
n
X X X i
iZ
xp x dx xn
22 2 2 2 2
1 1
1 1ˆ ˆ ˆ ˆ( ) ( oder) ( )
1
n n
X X X X i X X i X
i iZ
x p x dx x xn n
ˆlim X Xn
f f
29
Maschinelles Lernen ist zum großen Teil die Anwendung
von Mathematik aus zahlreichen Gebieten,
insbesondere der Statistik & Optimierung.
Inhalt der Veranstaltung ist
Verstehen, Implementieren und Anwenden von Algorithmen
des Maschinellen Lernens.
Inhalt der Veranstaltung ist NICHT
Herleiten der zugrunde liegenden Mathematik.
Zusammenfassung
30
Top Related