Inhalt 1. Problemstellung 2. Univariate lineare Regression 3. Multiple lineare Regression 4....
-
Upload
agata-aden -
Category
Documents
-
view
110 -
download
3
Transcript of Inhalt 1. Problemstellung 2. Univariate lineare Regression 3. Multiple lineare Regression 4....
Inhalt
1. Problemstellung
2. Univariate lineare Regression
3. Multiple lineare Regression
4. Hauptkomponenten Regression (PCR)
5. Partielle kleinste Quadrate (PLS)
6. Zusammenfassung
1. Problemstellung
Quantitative Bestimmung der 3 isomeren Nitrophenole in wäßriger Lösung
OH
NO2
OH
NO2
OH
NO2
o-Nitrophenol
m-Nitrophenol
p-Nitrophenol
normierte Spektren der Nitrophenole und normiertes Summenspektrum
Wellenlänge in nm
Ext
inkt
ion
0.0
0.2
0.4
0.6
0.8
1.0
1.2
260 280 300 320 340 360 380 400 420 440 460 480 500 520
o-Nitrophenol
m-Nitrophenol
p-Nitrophenol
Summe
1.1 Kalibrierproben
Wie stellt man die Kalibrierproben zusammen?
1. Forderung: möglichst wenige Kalibrierproben (in der Praxis max.10 Bequemlichkeit)
2. Forderung: die Kalibration muß den zu erwartenden Konzentrationsbereich abdecken
3. Forderung: Randomisierung hinsichtlich Konzentration und zeitlicher Reihenfolge
mögliche Herangehensweise:
Konzentrationsbereich: 10-6 mol/l C 10-4 mol/l
low = l = 10-6 mol/l medium = m = 10-5 mol/l high = h = 10-4 mol/l
1.1 Kalibrierproben
l m h
o-Nitrophenol
m-Nitrophenol
p-Nitrophenol
l l l m l h m l m m m h h l h m h h
l l l
l l m
l l h
l m l
l m m
l m h
l h l
l h m
l h h
m l l
m l m
m l h
m m l
m m m
m m h
m h l
m h m
m h h
h l l
h l m
h l h
h m l
h m m
h m h
h h l
h h m
h h h
3 Konzentrationen
27 x y z 10 x y z
Inhalt
1. Problemstellung
2. Univariate lineare Regression
3. Multiple lineare Regression
4. Hauptkomponenten Regression (PCR)
5. Partielle kleinste Quadrate (PLS)
6. Zusammenfassung
2.1 ULR - Grundlagen
Annahmen:
x = unabhängige Variable (z.B. Konzentration), fehlerfrei (sonst orthogonale Regression)
y = abhängige Variable (z.B. Extinktion), Meßwert fehlerbehaftet
x x
y y
berechnetes Modell wahres Modell
xbby 10 x10
ie i
2.1 Least-Squares Methode (Gauss) Zielstellung:
berechnete Regressionsgerade soll sich der Punktwolke möglichst gut anpassen
Berechnung der Residuen:
Minimierung der Fehlerquadratsumme:
Minimierung bedeutet Bilden der partiellen 1. Ableitung und Nullsetzen der Gleichungen
iii yye
i
2i10i
i
2ii
i
2i xbbyyyeR
iii10i
1
ii10i
0
0xxbby2b
R
01xbby2b
R Die meisten Regressionsmethoden arbeiten nach dieser
Methode!!!
2.1 Least-Squares Methode (Gauss)
Berechnung der Modellparameter:
Eine bedeutsame statistische Größe für eine solche Regression ist die Varianz der Residuen:
Zurück zum Beispiel:
xbyb
xx
yyxxb 10
i
2i
iii
1
n
xx
n
yy i
ii
i
Schätzwert für den reinen Experimentalfehler 2 wenn
Modell korrekt
2n
yy
2n
es i
2ii
i
2i
2e
Welche Wellenlänge soll ich zur Regression verwenden?
2.2 Auswahl der Wellenlänge
Annahme: Diejenige Wellenlänge deren Absorptionswerte am besten mit den entsprechenden Konzentrationswerten korrelieren
Pearsonscher Korrelationskoeffizient R als Maßzahl für einen linearen Zusammenhang
E = Vektor der Extinktionen der Proben 1 - 10
C = Vektor der Konzentrationen des Nitrophenols in den Proben 1 - 10
10
1i
2
i
10
1i
2
,i
10
1ii,i
CCEE
CCEEC,ER
2.3 ULR - Ergebnis
Ergebnis: Absorptionsmaximum Rmax beste Wellenlänge Rbest
o-Nitrophenol 418nm 0.4418 485 0.9835m-Nitrophenol 292nm 0.8313 305 0.8698p-Nitrophenol 402nm 0.9535 380 0.9612
Meßpunkte
Regressionsgerade
Konfidenzintervall
Kalibration für o-Nitrophenol bei univariater Auswertung auf 485nm
y = 0.00734+1010 * x
Konzentration von o-Nitrophenol in mol/l
Ext
inkt
ion
be
i 48
5n
m
-0.02
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
0 2e-5 4e-5 6e-5 8e-5 1e-4 1.2e-4
2.3 ULR - Ergebnis
Was bedeutet das Konfidenzintervall?
Intervall, in dem der wahre Wert 0 bei einem bestimmten Wert von x0 mit einer Wahrscheinlichkeit von 95% liegt
m-Messungen einer unbekannten Probe und Vorhersage der Konzentration
Angabe des Ergebnisses immer in der Form:
i
2i
20
e2n;025.000xx
xx
n
1styxCI
n = Zahl der Kalibrierproben
t = Parameter der t-Verteilung(tabelliert)
1
0?? b
byx
i
2i
21
2?
1
e2n;025.0??
xxb
yy
n
1
m
1
b
stxxCI
?? xCIx
2.3 ULR - Ergebnis
Wie gut funktioniert das Modell zur Vorhersage unbekannter Proben?
Test: Vorhersage der Konzentration von 115 „unbekannten“ Proben
Maßzahlen für die Güte des Kalibrationsmodells:
Zur graphischen Beurteilung dient der Wiederfindungsplot
x-Achse: bekannte Konzentration der 115 Proben
y-Achse: nach dem Kalibrationsmodell berechnete Konzentrationen der 115 Proben
115
1i
2ii yyPRESS PRESS = Predicted Residual Error Sum of Squares
115
PRESSRMSPE RMSPE = Root Mean Squared Prediction Error
2.3 ULR - Ergebnis
Wiederfindungsplot für die "unbekannten" 115 Proben
wahre Konzentration o-Nitrophenol in mol/l
vorh
erg
esa
gte
Ko
nze
ntr
atio
n o
-Nitr
op
he
no
l in
mo
l/l
-2e-5
0
2e-5
4e-5
6e-5
8e-5
1e-4
1.2e-4
-2e-5 0 2e-5 4e-5 6e-5 8e-5 1e-4 1.2e-4
PRESS=8.4010-9 mol2/l2
RMSPE=8.5510-6 mol/l
Modell: [O-NPh]= [-7.2710-6 + 9.9010-
4E485nm]mol/l
Inhalt
1. Problemstellung
2. Univariate lineare Regression
3. Multiple lineare Regression
4. Hauptkomponenten Regression (PCR)
5. Partielle kleinste Quadrate (PLS)
6. Zusammenfassung
3.1 MLR - Grundlagen
Muß man sich bei der Auswertung auf eine Wellenlänge beschränken?
Bisher folgendes Modell:
Erweiterung auf m-Variablen:
n-Kalibrierproben mit unterschiedlicher Zusammensetzung (im Bsp. n=10)
Messung der Extinktionsspektrums jeder Probe an m-Wellenlängen
(im.Bsp. 280nm - 500nm)
Wichtig: n > m
yi = die i-te Beobachtung (i. Bsp. die Konzentration der i-ten Probe)
xik = Wert der k-ten unabhängigen Variablen (i. Bsp. Extinktion bei der k-ten Wellenlänge) bei Messung der i-ten Probe
x10
m
1iii0mm110 xx.....x
3.1 MLR - Grundlagen
Damit ergibt sich folgendes Modell:
Es gilt also, die p = m + 1 Schätzungen (b0, b1,...,bm) der unbekannten
Regressionskoeffizienten (0, 1,...,m) zu finden !!!
Matrixschreibweise des Gleichungssystems:
iimm1i10i x.....xy
n
2
1
1n
y
y
y
y
nm2n1n
m22221
m11211
pn
xxx1
xxx1
xxx1
X
m
1
0
1p
β
n
2
1
1n
ε
3.1 MLR - Grundlagen
In Matrixschreibweise sieht das Modell folgendermaßen aus:
Die „least-squares“-Lösung für b lautet dann:
εXβy
yXXXb T1T
m
1
0
b
b
b
Kleinbuchstabe fettgedruckt = VektorGroßbuchstabe fettgedruckt = Matrix
XT bedeutet: X transponieren-1 bedeutet: Matrix invertieren
Inversion einer quadratischen Matrix
bedeutet immer Division durch die Determinante
dieser Matrix !!!
3.1 MLR - Grundlagen
1. Probelm: Wie groß ist die Determinante wenn X die Kalibrierdatenmatrix ist ?
2. Problem: Ich kann nicht 222 Regressionskoeffizienten berechnen wenn ich nur 10 Kalibrierproben gemessen habe !!!
Lösung: Methode zur Modellfindung schrittweise vorwärts
Varianzanalyse:
„Sum of Squares“ die auf die Regression zurückzuführen sind mit p-1 „degrees of freedom“
n
1
AaAdetD
det X´X = 0
1pdf ynyynSS 2TT2i
k
1iigRe
yXb
3.1 MLR - Grundlagen
Berechnung der „Sum of Squares“ der Residuen mit n-p „degrees of freedom“:
Berechnung der „Mean Sum of Squares“ der Regression und der Residuen
Bestimmen des geeigneten Modells:
pndf yySS TTTTk
1i
n
1j
2iijsRe
i
yXbyyee
df
SSMS
Modell 1: 110 xbby SSReg(1)
Modell 2: 2'21
'1
'0 xbxbby SSReg(2)
3.1 MLR - Grundlagen
Ist Modell 2 wirklich besser geeignet als das einfachere Modell 1 ?
Überprüfung mit einem F-Test:
12gRegRe x/xSS1SS2SS )1(df)2(df
x/xSSx/xMS 12
12
2MS
x/xMSF
sRe
12
wenn F > F0.05,df(2)-df(1),n-p
wenn F < F0.05,df(2)-df(1),n-p
Modell 2 signifikant besser
Modell 2 nicht signifikant besser(Modell 1 verwenden)
höhere Modelle prüfen
Wiederfindungsplot für die "unbekannten" 115 Proben
wahre Konzentration o-Nitrophenol in mol/l
vorh
erg
esa
gte
Ko
nze
ntr
atio
n o
-Nitr
op
he
no
l in
mo
l/l
-2e-5
0
2e-5
4e-5
6e-5
8e-5
1e-4
1.2e-4
-2e-5 0 2e-5 4e-5 6e-5 8e-5 1e-4 1.2e-4
PRESS=8.4010-9 mol2/l2
RMSPE=8.5510-6 mol/l
Modell: [O-NPh]= [-7.2710-6 + 9.9010-4E485nm]mol/l
Wiederfindungsplot für die "unbekannten" 115 Proben
wahre Konzentration o-Nitrophenol in mol/l
vorh
erg
esa
gte
Ko
nze
ntr
atio
n o
-Nitr
op
he
no
l in
mo
l/l
-2e-5
0
2e-5
4e-5
6e-5
8e-5
1e-4
1.2e-4
-2e-5 0 2e-5 4e-5 6e-5 8e-5 1e-4 1.2e-4
Modell: [O-NPh]
= [2.5710-7 + 2.0110-
3E485nm - 8.7910-
5E314nm
- 1.6810-
3E500nm]
mol/l
PRESS=1.0510-10 mol2/l2
RMSPE=9.5610-7 mol/l
3.2 MLR - Ergebnisse
Inhalt
1. Problemstellung
2. Univariate lineare Regression
3. Multiple lineare Regression
4. Hauptkomponenten Regression (PCR)
5. Partielle kleinste Quadrate (PLS)
6. Zusammenfassung
4.1 PCR - Grundlagen
Was bedeutet Hauptkomponentenanalyse?
Datenzerlegung in eine Score- und eine Loadingmatrix
Daten MatrixX
nm
j=1 . . . . . . . . . . . . . . . m
i=1.......n
Loading MatrixP
mm
j=1......
m
p=1 . . k . . . . . . . . . . . m
Score MatrixS
nm
i=1.......n
p=1 . . k . . . . . . . . . . . mX = S PT
Und was bringt mir das ?
4.2 Datenvorbehandlung
Welche Möglichkeiten der Datenvorbehandlung gibt es?
Rohdaten
MW=?
Std=?
zentrierte Daten
MW=0
Std=?
standardisierte Daten
MW=0
Std=1
jijij mxz
ijij xz
j
jijij s
mxz
Wie kann ich mir die PCA veranschaulichen ?
Beispieldaten aus dem Nitrophenoldatensatz:[o-Nitrophenol]
in mol/lE bei
442nmE bei
485nm.000001 .64626 .02565
.000005 .03329 .00680
.000010 .06744 .01039
.000050 .21643 .04478
.000100 .38349 .09472
jijij mxz
[o-Nitrophenol]in mol/l
E bei442nm
E bei485nm
-0.0000322 0.37687 -0.01082
-0.0000282 -0.23609 -0.02967
-0.0000232 -0.20194 -0.02608
0.0000168 -0.05295 0.00831
0.0000668 0.11410 0.05825
vor der Zentrierungnach der Zentrierung
4.2 Datenvorbehandlung
4.3 Der NIPALS-Algorithmus
Korrelation zwischen der Extinktion bei 442nm bzw. 485nm
und der Konzentration von o-Nitrophenol
Extinktion bei 485nm
Extinktion bei 442nm
Ko
nze
ntr
atio
n v
on
o-N
Ph
0
2e-5
4e-5
6e-5
8e-5
1e-4
1.2e-4
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7
R=0.14
R=0.96
4.3 Der NIPALS-Algorithmus Nonlinear Iterative Partial Least Squares
t0 kann willkürlich gewählt werden
X t
wT
1
2
3
Xwt
www
w
tXw
2/1T
T
00001.0tt neualt
00001.0tt neualt
2/1T1
2/1T
ww
wv
tt
tu1
= Spaltensingulärvektor
= Zeilensingulärvektor
4.3 Der NIPALS-Algorithmus
1T1 Xvu1
Berechnung des zugehörigen
Singulärwerts:
Residual-Datenmatrix:
XvuX T11 1
Tr
k
Tkkk VUΛvuX
Geometrische Interpretation der PCR-Hauptkomponenten
NIPALS
4.4 Durchführung der PCR
Wie führe ich die Hauptkomponentenregression durch?
1. Datenvorbehandlung durch Zentrierung:
2. Singulärwertzerlegung der zentrierten Datenmatrix Z
3. Berechnung der Scores- und der Loadings
2211
110
22110
22110 m1XZ
X = Kalibrierdatenmatrix1 = 101 Vektor aus 1enm = Vektor der Spaltenmittelwerte
221T10
1010
1010
22110 VΛUZ
U = Matrix der Zeilensingulärvektoren = Matrix der SingulärwerteV = Matrix der Spaltensingulärvektoren
10
22110
221
10221
22110
1010
1010
1010
VP
VZΛUS
S = ScorematrixP = Loadingmatirx
4.4 Durchführung der PCR
Was bedeuten diese beiden Matrizen?
Score-Matrix: Koordinaten der n-Objekte im Raum der durch die m-Hauptkomponenten aufgespannt wird
Loadingmatrix: enthält die Faktoren für die Linearkombination der ursprünglichen Variablen zur Berechnung der Scores (wenn p normiert Richtungskosinus)
(Vorsicht: NIPALS Drehrichtung uneinheitl.)
Hauptkomponente Singulärwert Eigenwerterklärte Varianz
in %kummulierte Varianz
in %1 16.4114 269.336 92.89450 92.89449552 4.3895 19.267 6.64535 99.53984433 1.1478 1.318 0.45443 99.99427174 0.1150 0.013 0.00456 99.99883275 0.0545 0.003 0.00102 99.99985636 0.0184 0.000 0.00012 99.99997337 0.0063 0.000 0.00001 99.99998698 0.0045 0.000 0.00001 99.99999389 0.0043 0.000 0.00001 100.000000010 0.0000 0.000 0.00000 100.0000000
Komponenten
Rauschen
Wie führe ich die Hauptkomponentenregression durch?
4. Aufstellen der Regressionsgleichung für die Kalibrierdaten
5. Least-Squares-Schätzung der Regressionskoeffizienten
6. Vorhersage der unbekannten Proben
110
1
3
3
10
1T1
110
110 ceqSc1c
c = KonzentrationsvektorcT = c = Mittelwert von cS* = Scorematrix mit den 3 PC‘sq* = Vektor der Regressionskoeff.
1T1
110
110
1
10
1
10
10T3
13
10
10T3
1
3 mit c1CCCSSSq 00
13
3
221221
11
115221
115
1
11
115
1T115
**unb
Tunb qPm1Xc1c
4.4 Durchführung der PCR
Wiederfindungsplot für die "unbekannten" 115 Proben
wahre Konzentration o-Nitrophenol in mol/l
vorh
erg
esa
gte
Ko
nze
ntr
atio
n o
-Nitr
op
he
no
l in
mo
l/l
-2e-5
0
2e-5
4e-5
6e-5
8e-5
1e-4
1.2e-4
-2e-5 0 2e-5 4e-5 6e-5 8e-5 1e-4 1.2e-4
PRESS=8.4010-9 mol2/l2
RMSPE=8.5510-6 mol/l
Modell: [O-NPh]= [-7.2710-6 + 9.9010-4E485nm]mol/l
4.5 PCR - ErgebnisseWiederfindungsplot für die "unbekannten" 115 Proben
wahre Konzentration o-Nitrophenol in mol/l
vorh
erg
esa
gte
Ko
nze
ntr
atio
n o
-Nitr
op
he
no
l in
mo
l/l
-2e-5
0
2e-5
4e-5
6e-5
8e-5
1e-4
1.2e-4
-2e-5 0 2e-5 4e-5 6e-5 8e-5 1e-4 1.2e-4
Modell: [O-NPh] =
[6.0310-5+ 0.0360 10-
4Score1
- 0.232 10-4Score2
+ 0.602 10-
4Score3]
mol/l
PRESS = 4.4410-10 mol2l-
2
RMSP = 1.9710-6 moll-1
Wiederfindungsplot für die "unbekannten" 115 Proben
wahre Konzentration o-Nitrophenol in mol/l
vorh
erg
esa
gte
Ko
nze
ntr
atio
n o
-Nitr
op
he
no
l in
mo
l/l
-2e-5
0
2e-5
4e-5
6e-5
8e-5
1e-4
1.2e-4
-2e-5 0 2e-5 4e-5 6e-5 8e-5 1e-4 1.2e-4
Modell: [O-NPh]
= [2.5710-7 + 2.0110-
3E485nm - 8.7910-
5E314nm
- 1.6810-
3E500nm]
mol/l
PRESS=1.0510-10 mol2/l2
RMSPE=9.5610-7 mol/l
Inhalt
1. Problemstellung
2. Univariate lineare Regression
3. Multiple lineare Regression
4. Hauptkomponenten Regression (PCR)
5. Partielle kleinste Quadrate (PLS)
6. Zusammenfassung
5.1 PLS - Grundlagen Kann man Scores finden die viel Varianz ausschöpfen und Vorhersagekraft für y haben?
Der NIPALS-PLS Algorithmus versucht beide Forderungen zu erfüllen
Als u0 wird die eine Spalte von Y gewählt:
X
w
t
q
u
uXw T www
w2/1T
Xwt
2/1Ttt
tYc
T
2/1Tcc
Ycu
00001.0
z.B. ?Konvergenz
neualt uu Y
1
2
3
4
5
6
Mit dem konvergenten Scorevektor t
erhält man die enstprechen Faktorladungen zu: tt
tEp
T
T
Berechnung der Residualmatrizen
YtcY
XtpX
T
T
Wiederholung des Zyklus
Berechnung aller Faktoren
Bestimmung der Zahl relevanter Faktoren(z.B. durch Kreuzvalidation)
Matrix der Regressionskoeffizienten
Vorhersage der Konzentration von o-Nitrophenol in den 115 unbekannten Proben
T1T CWPWBPLS
1 PLS221
2211
1115
221
115
1
11
115
1T115
*unb
Tunb Bm1Xc1c
5.1 PLS - Grundlagen
Was bedeutet das im Vergleich
zur PCR ?
Der NIPALS-Algorithmus
erlaubt die iterative Berechnung
von Eigenvektoren quadratischer
Matrizen
NIPALS-PCR
wXwX 2T
Geometrische Interpretation der PLS-Hauptkomponenten
NIPALS-PLS
wXwYYX T 2T
5.1 PLS - Grundlagen
jedes Vektorpaar t und u erfüllt folgende Eigenschaften:
maximalutut tu 22 rvarvar),cov(
Die Hauptkomponenten Regression maximiert ausschließlich var(t)
PLS maximiert die Kovarianz zwischen t und u
Die Zahl der zu verwendenden Faktoren wird über Kreuzvalidation bestimmt:
Kreuzvalidation („leave one out“-Methode):
Man entfernt das 1. Objekt aus dem Kalibrierdatensatz
Mit den restlichen (n-1) Objekten wird das Kalibrationsmodell berechnet
Mit diesem Kalibrationsmodell wird das 1. Objekt vorausgesagt
Diese Prozedur wiederholt man für alle n-Objekte
Die günstige Anzahl von Faktoren für das Modell bestimmt man über den folgenden Plot
5.1 PLS - Grundlagen
5.2 KreuzvalidationKreuzvalidation für o-NitrophenolKreuzvalidation für o-Nitrophenol
Zahl der Faktoren im Modell
RM
SP
in m
ol/l
0
1e-5
2e-5
3e-5
4e-5
5e-5
1 2 3 4 5 6 7 8 9 10
5.3 ErgebnisWiederfindungsplot für die "unbekannten" 115 Proben
wahre Konzentration von o-Nitrophenol in mol/l
vorh
erg
esa
gte
Ko
nze
ntr
atio
n v
on
o-N
itro
ph
en
ol i
n m
ol/l
-2e-5
0
2e-5
4e-5
6e-5
8e-5
1e-4
1.2e-4
-2e-5 0 2e-5 4e-5 6e-5 8e-5 1e-4 1.2e-4
bei 7 Faktoren im Modell
PRESS=1.0110-10 mol2/l2
RMSPE=9.410-7 mol/l
Inhalt
1. Problemstellung
2. Univariate lineare Regression
3. Multiple lineare Regression
4. Hauptkomponenten Regression (PCR)
5. Partielle kleinste Quadrate (PLS)
6. Zusammenfassung
6. Zusammenfassung
Wann braucht man multivariate Regressionsmethoden?
Im Labor hat man normalerweise wenige Kalibrierproben zur Verfügung
An jeder Kalibrierprobe können viele Variablen gemessen werden (z.B. Spektren)
Beschränkung auf eine Variable = univariate Arbeitsweise wertvolle Informationen werden verschenkt
Vorteile multivariater Arbeitsweise?
Maximale Ausnutzung der Information des Datensatzes
Bei dimensionsreduzierenden Methoden (z.B. PCR, PLS) - sachlogische Interpretation des Modells möglich
Hohe Vorhersagekraft des Modells
Nachteile multivariater Arbeitsweise?
Erhöhter Rechenaufwand
Algorithmen zum Teil etwas undurchsichtig „Black Box“ - Anwendung gefährlich
Verfahrenskenngrößen wie Nachweisgrenze, Erfassungsgrenze etc. noch nicht definiert