Inhalt 1. Problemstellung 2. Univariate lineare Regression 3. Multiple lineare Regression 4....

Inhalt

1. Problemstellung

2. Univariate lineare Regression

3. Multiple lineare Regression

4. Hauptkomponenten Regression (PCR)

5. Partielle kleinste Quadrate (PLS)

6. Zusammenfassung

1. Problemstellung

Quantitative Bestimmung der 3 isomeren Nitrophenole in wäßriger Lösung

OH

NO2

OH

NO2

OH

NO2

o-Nitrophenol

m-Nitrophenol

p-Nitrophenol

normierte Spektren der Nitrophenole und normiertes Summenspektrum

Wellenlänge in nm

Ext

inkt

ion

0.0

0.2

0.4

0.6

0.8

1.0

1.2

260 280 300 320 340 360 380 400 420 440 460 480 500 520

o-Nitrophenol

m-Nitrophenol

p-Nitrophenol

Summe

1.1 Kalibrierproben

Wie stellt man die Kalibrierproben zusammen?

1. Forderung: möglichst wenige Kalibrierproben (in der Praxis max.10 Bequemlichkeit)

2. Forderung: die Kalibration muß den zu erwartenden Konzentrationsbereich abdecken

3. Forderung: Randomisierung hinsichtlich Konzentration und zeitlicher Reihenfolge

mögliche Herangehensweise:

Konzentrationsbereich: 10-6 mol/l C 10-4 mol/l

low = l = 10-6 mol/l medium = m = 10-5 mol/l high = h = 10-4 mol/l

1.1 Kalibrierproben

l m h

o-Nitrophenol

m-Nitrophenol

p-Nitrophenol

l l l m l h m l m m m h h l h m h h

l l l

l l m

l l h

l m l

l m m

l m h

l h l

l h m

l h h

m l l

m l m

m l h

m m l

m m m

m m h

m h l

m h m

m h h

h l l

h l m

h l h

h m l

h m m

h m h

h h l

h h m

h h h

3 Konzentrationen

27 x y z 10 x y z

Inhalt

1. Problemstellung





6. Zusammenfassung

2.1 ULR - Grundlagen

Annahmen:

x = unabhängige Variable (z.B. Konzentration), fehlerfrei (sonst orthogonale Regression)

y = abhängige Variable (z.B. Extinktion), Meßwert fehlerbehaftet

x x

y y

berechnetes Modell wahres Modell

xbby 10 x10

ie i

2.1 Least-Squares Methode (Gauss) Zielstellung:

berechnete Regressionsgerade soll sich der Punktwolke möglichst gut anpassen

Berechnung der Residuen:

Minimierung der Fehlerquadratsumme:

Minimierung bedeutet Bilden der partiellen 1. Ableitung und Nullsetzen der Gleichungen

iii yye

i

2i10i

i

2ii

i

2i xbbyyyeR

iii10i

1

ii10i

0

0xxbby2b

R

01xbby2b

R Die meisten Regressionsmethoden arbeiten nach dieser

Methode!!!

2.1 Least-Squares Methode (Gauss)

Berechnung der Modellparameter:

Eine bedeutsame statistische Größe für eine solche Regression ist die Varianz der Residuen:

Zurück zum Beispiel:

xbyb

xx

yyxxb 10

i

2i

iii

1

n

xx

n

yy i

ii

i

Schätzwert für den reinen Experimentalfehler 2 wenn

Modell korrekt

2n

yy

2n

es i

2ii

i

2i

2e

Welche Wellenlänge soll ich zur Regression verwenden?

2.2 Auswahl der Wellenlänge

Annahme: Diejenige Wellenlänge deren Absorptionswerte am besten mit den entsprechenden Konzentrationswerten korrelieren

Pearsonscher Korrelationskoeffizient R als Maßzahl für einen linearen Zusammenhang

E = Vektor der Extinktionen der Proben 1 - 10

C = Vektor der Konzentrationen des Nitrophenols in den Proben 1 - 10

10

1i

2

i

10

1i

2

,i

10

1ii,i

CCEE

CCEEC,ER

2.3 ULR - Ergebnis

Ergebnis: Absorptionsmaximum Rmax beste Wellenlänge Rbest

o-Nitrophenol 418nm 0.4418 485 0.9835m-Nitrophenol 292nm 0.8313 305 0.8698p-Nitrophenol 402nm 0.9535 380 0.9612

Meßpunkte

Regressionsgerade

Konfidenzintervall

Kalibration für o-Nitrophenol bei univariater Auswertung auf 485nm

y = 0.00734+1010 * x

Konzentration von o-Nitrophenol in mol/l

Ext

inkt

ion

be

i 48

5n

m

-0.02

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

0 2e-5 4e-5 6e-5 8e-5 1e-4 1.2e-4

2.3 ULR - Ergebnis

Was bedeutet das Konfidenzintervall?

Intervall, in dem der wahre Wert 0 bei einem bestimmten Wert von x0 mit einer Wahrscheinlichkeit von 95% liegt

m-Messungen einer unbekannten Probe und Vorhersage der Konzentration

Angabe des Ergebnisses immer in der Form:

i

2i

20

e2n;025.000xx

xx

n

1styxCI

n = Zahl der Kalibrierproben

t = Parameter der t-Verteilung(tabelliert)

1

0?? b

byx

i

2i

21

2?

1

e2n;025.0??

xxb

yy

n

1

m

1

b

stxxCI

?? xCIx

2.3 ULR - Ergebnis

Wie gut funktioniert das Modell zur Vorhersage unbekannter Proben?

Test: Vorhersage der Konzentration von 115 „unbekannten“ Proben

Maßzahlen für die Güte des Kalibrationsmodells:

Zur graphischen Beurteilung dient der Wiederfindungsplot

x-Achse: bekannte Konzentration der 115 Proben

y-Achse: nach dem Kalibrationsmodell berechnete Konzentrationen der 115 Proben

115

1i

2ii yyPRESS PRESS = Predicted Residual Error Sum of Squares

115

PRESSRMSPE RMSPE = Root Mean Squared Prediction Error

2.3 ULR - Ergebnis

Wiederfindungsplot für die "unbekannten" 115 Proben

wahre Konzentration o-Nitrophenol in mol/l

vorh

erg

esa

gte

Ko

nze

ntr

atio

n o

-Nitr

op

he

no

l in

mo

l/l

-2e-5

0

2e-5

4e-5

6e-5

8e-5

1e-4

1.2e-4

-2e-5 0 2e-5 4e-5 6e-5 8e-5 1e-4 1.2e-4

PRESS=8.4010-9 mol2/l2

RMSPE=8.5510-6 mol/l

Modell: [O-NPh]= [-7.2710-6 + 9.9010-

4E485nm]mol/l

Inhalt

1. Problemstellung





6. Zusammenfassung

3.1 MLR - Grundlagen

Muß man sich bei der Auswertung auf eine Wellenlänge beschränken?

Bisher folgendes Modell:

Erweiterung auf m-Variablen:

n-Kalibrierproben mit unterschiedlicher Zusammensetzung (im Bsp. n=10)

Messung der Extinktionsspektrums jeder Probe an m-Wellenlängen

(im.Bsp. 280nm - 500nm)

Wichtig: n > m

yi = die i-te Beobachtung (i. Bsp. die Konzentration der i-ten Probe)

xik = Wert der k-ten unabhängigen Variablen (i. Bsp. Extinktion bei der k-ten Wellenlänge) bei Messung der i-ten Probe

x10

m

1iii0mm110 xx.....x


Damit ergibt sich folgendes Modell:

Es gilt also, die p = m + 1 Schätzungen (b0, b1,...,bm) der unbekannten

Regressionskoeffizienten (0, 1,...,m) zu finden !!!

Matrixschreibweise des Gleichungssystems:

iimm1i10i x.....xy

n

2

1

1n

y

y

y

y

nm2n1n

m22221

m11211

pn

xxx1

xxx1

xxx1

X

m

1

0

1p

β

n

2

1

1n

ε


In Matrixschreibweise sieht das Modell folgendermaßen aus:

Die „least-squares“-Lösung für b lautet dann:

εXβy

yXXXb T1T

m

1

0

b

b

b

Kleinbuchstabe fettgedruckt = VektorGroßbuchstabe fettgedruckt = Matrix

XT bedeutet: X transponieren-1 bedeutet: Matrix invertieren

Inversion einer quadratischen Matrix

bedeutet immer Division durch die Determinante

dieser Matrix !!!


1. Probelm: Wie groß ist die Determinante wenn X die Kalibrierdatenmatrix ist ?

2. Problem: Ich kann nicht 222 Regressionskoeffizienten berechnen wenn ich nur 10 Kalibrierproben gemessen habe !!!

Lösung: Methode zur Modellfindung schrittweise vorwärts

Varianzanalyse:

„Sum of Squares“ die auf die Regression zurückzuführen sind mit p-1 „degrees of freedom“

n

1

AaAdetD

det X´X = 0

1pdf ynyynSS 2TT2i

k

1iigRe

yXb


Berechnung der „Sum of Squares“ der Residuen mit n-p „degrees of freedom“:

Berechnung der „Mean Sum of Squares“ der Regression und der Residuen

Bestimmen des geeigneten Modells:

pndf yySS TTTTk

1i

n

1j

2iijsRe

i

yXbyyee

df

SSMS

Modell 1: 110 xbby SSReg(1)

Modell 2: 2'21

'1

'0 xbxbby SSReg(2)


Ist Modell 2 wirklich besser geeignet als das einfachere Modell 1 ?

Überprüfung mit einem F-Test:

12gRegRe x/xSS1SS2SS )1(df)2(df

x/xSSx/xMS 12

12

2MS

x/xMSF

sRe

12

wenn F > F0.05,df(2)-df(1),n-p

wenn F < F0.05,df(2)-df(1),n-p

Modell 2 signifikant besser

Modell 2 nicht signifikant besser(Modell 1 verwenden)

höhere Modelle prüfen



vorh

erg

esa

gte

Ko

nze

ntr

atio

n o

-Nitr

op

he

no

l in

mo

l/l

-2e-5

0

2e-5

4e-5

6e-5

8e-5

1e-4

1.2e-4

-2e-5 0 2e-5 4e-5 6e-5 8e-5 1e-4 1.2e-4



Modell: [O-NPh]= [-7.2710-6 + 9.9010-4E485nm]mol/l



vorh

erg

esa

gte

Ko

nze

ntr

atio

n o

-Nitr

op

he

no

l in

mo

l/l

-2e-5

0

2e-5

4e-5

6e-5

8e-5

1e-4

1.2e-4

-2e-5 0 2e-5 4e-5 6e-5 8e-5 1e-4 1.2e-4

Modell: [O-NPh]

= [2.5710-7 + 2.0110-

3E485nm - 8.7910-

5E314nm

- 1.6810-

3E500nm]

mol/l

PRESS=1.0510-10 mol2/l2


3.2 MLR - Ergebnisse

Inhalt

1. Problemstellung





6. Zusammenfassung

4.1 PCR - Grundlagen

Was bedeutet Hauptkomponentenanalyse?

Datenzerlegung in eine Score- und eine Loadingmatrix

Daten MatrixX

nm

j=1 . . . . . . . . . . . . . . . m

i=1.......n

Loading MatrixP

mm

j=1......

m

p=1 . . k . . . . . . . . . . . m

Score MatrixS

nm

i=1.......n

p=1 . . k . . . . . . . . . . . mX = S PT

Und was bringt mir das ?

4.2 Datenvorbehandlung

Welche Möglichkeiten der Datenvorbehandlung gibt es?

Rohdaten

MW=?

Std=?

zentrierte Daten

MW=0

Std=?

standardisierte Daten

MW=0

Std=1

jijij mxz

ijij xz

j

jijij s

mxz

Wie kann ich mir die PCA veranschaulichen ?

Beispieldaten aus dem Nitrophenoldatensatz:[o-Nitrophenol]

in mol/lE bei

442nmE bei

485nm.000001 .64626 .02565

.000005 .03329 .00680

.000010 .06744 .01039

.000050 .21643 .04478

.000100 .38349 .09472

jijij mxz

[o-Nitrophenol]in mol/l

E bei442nm

E bei485nm

-0.0000322 0.37687 -0.01082

-0.0000282 -0.23609 -0.02967

-0.0000232 -0.20194 -0.02608

0.0000168 -0.05295 0.00831

0.0000668 0.11410 0.05825

vor der Zentrierungnach der Zentrierung

4.2 Datenvorbehandlung

4.3 Der NIPALS-Algorithmus

Korrelation zwischen der Extinktion bei 442nm bzw. 485nm

und der Konzentration von o-Nitrophenol

Extinktion bei 485nm

Extinktion bei 442nm

Ko

nze

ntr

atio

n v

on

o-N

Ph

0

2e-5

4e-5

6e-5

8e-5

1e-4

1.2e-4

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

R=0.14

R=0.96

4.3 Der NIPALS-Algorithmus Nonlinear Iterative Partial Least Squares

t0 kann willkürlich gewählt werden

X t

wT

1

2

3

Xwt

www

w

tXw

2/1T

T

00001.0tt neualt

00001.0tt neualt

2/1T1

2/1T

ww

wv

tt

tu1

= Spaltensingulärvektor

= Zeilensingulärvektor

4.3 Der NIPALS-Algorithmus

1T1 Xvu1

Berechnung des zugehörigen

Singulärwerts:

Residual-Datenmatrix:

XvuX T11 1

Tr

k

Tkkk VUΛvuX

Geometrische Interpretation der PCR-Hauptkomponenten

NIPALS

4.4 Durchführung der PCR

Wie führe ich die Hauptkomponentenregression durch?

1. Datenvorbehandlung durch Zentrierung:

2. Singulärwertzerlegung der zentrierten Datenmatrix Z

3. Berechnung der Scores- und der Loadings

2211

110

22110

22110 m1XZ

X = Kalibrierdatenmatrix1 = 101 Vektor aus 1enm = Vektor der Spaltenmittelwerte

221T10

1010

1010

22110 VΛUZ

U = Matrix der Zeilensingulärvektoren = Matrix der SingulärwerteV = Matrix der Spaltensingulärvektoren

10

22110

221

10221

22110

1010

1010

1010

VP

VZΛUS

S = ScorematrixP = Loadingmatirx


Was bedeuten diese beiden Matrizen?

Score-Matrix: Koordinaten der n-Objekte im Raum der durch die m-Hauptkomponenten aufgespannt wird

Loadingmatrix: enthält die Faktoren für die Linearkombination der ursprünglichen Variablen zur Berechnung der Scores (wenn p normiert Richtungskosinus)

(Vorsicht: NIPALS Drehrichtung uneinheitl.)

Hauptkomponente Singulärwert Eigenwerterklärte Varianz

in %kummulierte Varianz

in %1 16.4114 269.336 92.89450 92.89449552 4.3895 19.267 6.64535 99.53984433 1.1478 1.318 0.45443 99.99427174 0.1150 0.013 0.00456 99.99883275 0.0545 0.003 0.00102 99.99985636 0.0184 0.000 0.00012 99.99997337 0.0063 0.000 0.00001 99.99998698 0.0045 0.000 0.00001 99.99999389 0.0043 0.000 0.00001 100.000000010 0.0000 0.000 0.00000 100.0000000

Komponenten

Rauschen

Wie führe ich die Hauptkomponentenregression durch?

4. Aufstellen der Regressionsgleichung für die Kalibrierdaten

5. Least-Squares-Schätzung der Regressionskoeffizienten

6. Vorhersage der unbekannten Proben

110

1

3

3

10

1T1

110

110 ceqSc1c

c = KonzentrationsvektorcT = c = Mittelwert von cS* = Scorematrix mit den 3 PC‘sq* = Vektor der Regressionskoeff.

1T1

110

110

1

10

1

10

10T3

13

10

10T3

1

3 mit c1CCCSSSq 00

13

3

221221

11

115221

115

1

11

115

1T115

**unb

Tunb qPm1Xc1c




vorh

erg

esa

gte

Ko

nze

ntr

atio

n o

-Nitr

op

he

no

l in

mo

l/l

-2e-5

0

2e-5

4e-5

6e-5

8e-5

1e-4

1.2e-4

-2e-5 0 2e-5 4e-5 6e-5 8e-5 1e-4 1.2e-4



Modell: [O-NPh]= [-7.2710-6 + 9.9010-4E485nm]mol/l

4.5 PCR - ErgebnisseWiederfindungsplot für die "unbekannten" 115 Proben


vorh

erg

esa

gte

Ko

nze

ntr

atio

n o

-Nitr

op

he

no

l in

mo

l/l

-2e-5

0

2e-5

4e-5

6e-5

8e-5

1e-4

1.2e-4

-2e-5 0 2e-5 4e-5 6e-5 8e-5 1e-4 1.2e-4

Modell: [O-NPh] =

[6.0310-5+ 0.0360 10-

4Score1

- 0.232 10-4Score2

+ 0.602 10-

4Score3]

mol/l

PRESS = 4.4410-10 mol2l-

2

RMSP = 1.9710-6 moll-1



vorh

erg

esa

gte

Ko

nze

ntr

atio

n o

-Nitr

op

he

no

l in

mo

l/l

-2e-5

0

2e-5

4e-5

6e-5

8e-5

1e-4

1.2e-4

-2e-5 0 2e-5 4e-5 6e-5 8e-5 1e-4 1.2e-4

Modell: [O-NPh]

= [2.5710-7 + 2.0110-

3E485nm - 8.7910-

5E314nm

- 1.6810-

3E500nm]

mol/l

PRESS=1.0510-10 mol2/l2


Inhalt

1. Problemstellung





6. Zusammenfassung

5.1 PLS - Grundlagen Kann man Scores finden die viel Varianz ausschöpfen und Vorhersagekraft für y haben?

Der NIPALS-PLS Algorithmus versucht beide Forderungen zu erfüllen

Als u0 wird die eine Spalte von Y gewählt:

X

w

t

q

u

uXw T www

w2/1T

Xwt

2/1Ttt

tYc

T

2/1Tcc

Ycu

00001.0

z.B. ?Konvergenz

neualt uu Y

1

2

3

4

5

6

Mit dem konvergenten Scorevektor t

erhält man die enstprechen Faktorladungen zu: tt

tEp

T

T

Berechnung der Residualmatrizen

YtcY

XtpX

T

T

Wiederholung des Zyklus

Berechnung aller Faktoren

Bestimmung der Zahl relevanter Faktoren(z.B. durch Kreuzvalidation)

Matrix der Regressionskoeffizienten

Vorhersage der Konzentration von o-Nitrophenol in den 115 unbekannten Proben

T1T CWPWBPLS

1 PLS221

2211

1115

221

115

1

11

115

1T115

*unb

Tunb Bm1Xc1c

5.1 PLS - Grundlagen

Was bedeutet das im Vergleich

zur PCR ?

Der NIPALS-Algorithmus

erlaubt die iterative Berechnung

von Eigenvektoren quadratischer

Matrizen

NIPALS-PCR

wXwX 2T

Geometrische Interpretation der PLS-Hauptkomponenten

NIPALS-PLS

wXwYYX T 2T


jedes Vektorpaar t und u erfüllt folgende Eigenschaften:

maximalutut tu 22 rvarvar),cov(

Die Hauptkomponenten Regression maximiert ausschließlich var(t)

PLS maximiert die Kovarianz zwischen t und u

Die Zahl der zu verwendenden Faktoren wird über Kreuzvalidation bestimmt:

Kreuzvalidation („leave one out“-Methode):

Man entfernt das 1. Objekt aus dem Kalibrierdatensatz

Mit den restlichen (n-1) Objekten wird das Kalibrationsmodell berechnet

Mit diesem Kalibrationsmodell wird das 1. Objekt vorausgesagt

Diese Prozedur wiederholt man für alle n-Objekte

Die günstige Anzahl von Faktoren für das Modell bestimmt man über den folgenden Plot


5.2 KreuzvalidationKreuzvalidation für o-NitrophenolKreuzvalidation für o-Nitrophenol

Zahl der Faktoren im Modell

RM

SP

in m

ol/l

0

1e-5

2e-5

3e-5

4e-5

5e-5

1 2 3 4 5 6 7 8 9 10

5.3 ErgebnisWiederfindungsplot für die "unbekannten" 115 Proben

wahre Konzentration von o-Nitrophenol in mol/l

vorh

erg

esa

gte

Ko

nze

ntr

atio

n v

on

o-N

itro

ph

en

ol i

n m

ol/l

-2e-5

0

2e-5

4e-5

6e-5

8e-5

1e-4

1.2e-4

-2e-5 0 2e-5 4e-5 6e-5 8e-5 1e-4 1.2e-4

bei 7 Faktoren im Modell

PRESS=1.0110-10 mol2/l2

RMSPE=9.410-7 mol/l

Inhalt

1. Problemstellung





6. Zusammenfassung

6. Zusammenfassung

Wann braucht man multivariate Regressionsmethoden?

Im Labor hat man normalerweise wenige Kalibrierproben zur Verfügung

An jeder Kalibrierprobe können viele Variablen gemessen werden (z.B. Spektren)

Beschränkung auf eine Variable = univariate Arbeitsweise wertvolle Informationen werden verschenkt

Vorteile multivariater Arbeitsweise?

Maximale Ausnutzung der Information des Datensatzes

Bei dimensionsreduzierenden Methoden (z.B. PCR, PLS) - sachlogische Interpretation des Modells möglich

Hohe Vorhersagekraft des Modells

Nachteile multivariater Arbeitsweise?

Erhöhter Rechenaufwand

Algorithmen zum Teil etwas undurchsichtig „Black Box“ - Anwendung gefährlich

Verfahrenskenngrößen wie Nachweisgrenze, Erfassungsgrenze etc. noch nicht definiert

Inhalt 1. Problemstellung 2. Univariate lineare Regression 3. Multiple lineare Regression 4....

Documents

Transcript of Inhalt 1. Problemstellung 2. Univariate lineare Regression 3. Multiple lineare Regression 4....