Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der...

65
Abschlussbericht zum Forschungsvorhaben „Intelligente Auswertemethoden von Chemosensorsignalen und NIR-Spektren zur Gewinnung quantitativer Informationen“ Hochschule Anhalt, Förderrunde 2000 Projektleitung: Prof. Dr. D. Hanrieder, FB 1 Projektbearbeitung: Dr. L. Hilfert, C. Steinbrück, FB 1 Kooperation: Prof. Dr. J. Wilke / Herr Eberl, FB 7 Prof. Dr. W. Schnäckel / D. Wiegand, D. Schnäckel, FB1

Transcript of Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der...

Page 1: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

Abschlussbericht zum Forschungsvorhaben

„Intelligente Auswertemethoden von Chemosensorsignalen und NIR-Spektren zur

Gewinnung quantitativer Informationen“

Hochschule Anhalt, Förderrunde 2000

Projektleitung: Prof. Dr. D. Hanrieder, FB 1 Projektbearbeitung: Dr. L. Hilfert, C. Steinbrück, FB 1 Kooperation: Prof. Dr. J. Wilke / Herr Eberl, FB 7 Prof. Dr. W. Schnäckel / D. Wiegand, D. Schnäckel, FB1

Page 2: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

2

1. Zielstellung des Projekts Im Rahmen des Projektes sollte die Eignung / der Aussagewert verschiedener Verfahren der multivariaten Statistik zur Aufbereitung der mit unterschiedlichen Messmethoden (Olfaktometrie, „elektronische Nase“, NIR, Instrumentelle Farb- und Texturmessung, Bestimmung der Peroxidzahl durch Titration, Humansensorik) erhobenen Daten untersucht werden mit dem Ziel der Unterscheidung von Probenklassen bzw. der Zuordnung von Proben zu vorgegebenen Klassen einerseits und der Gewinnung quantitativer Informationen andererseits. Hierfür sollte das eigens zu diesem Zweck erworbene Softwarepaket The Unscrambler (Fa. Camo), welches verschiedene statistische Verfahren für die unterschiedlichsten Anwendungszwecke beinhaltet, eingesetzt werden. Zur Datenlieferung untersucht wurden sowohl Proben aus der Umwelt als auch solche aus der Lebensmittelwirtschaft. Bei den Umweltproben handelte es sich um mittels Olfaktometrie beurteilte Luftproben, die in der Nähe landwirtschaftlicher Emittenten (Schweineställe) entnommen wurden und die unterschiedlich starken Geruchsbelästigungen entsprechen. Mittels PCA und SIMCA sollten diese Proben klassifiziert und anschließend mittels PLS-Regression Korrelationen zwischen der in Geruchseinheiten je m3 (GE/ m3) olfaktometrisch bestimmten Geruchsstoffkonzentration und den Signalen eines Gassensor-Arrays berechnet werden. Des Weiteren sollten durch Rühren in Gegenwart von Luft gealterte Speiseölproben sensorisch beurteilt sowie parallel mittels Gassensor-Array und NIR-spektroskopisch vermessen werden. Untersucht werden sollte die Möglichkeit, den Alterungsprozess mit den genannten Messverfahren objektiv zu verfolgen und die gealterten Proben zu klassifizieren. Angestrebt wurde weiterhin, auf mathematisch statistischem Wege zu Korrelationen zwischen den sensorisch bestimmten Attributen und den gemessenen Signalen sowie zwischen den Ergebnissen der verschiedenen Messverfahren zu gelangen. Außerdem sollten verschiedene an Fleisch von Rindern unterschiedlicher Rasse und Altersstufe gewonnene Farb- und Texturmessdaten mit den verfügbaren Methoden ausgewertet und Beziehungen zwischen Rasse und Messdaten bzw. Alter und Messdaten untersucht werden mit dem Ziel, anhand der Messdaten Aussagen über die Rasse bzw. das Alter des fleischliefernden Tieres machen zu können. Nach Möglichkeit sollten auch humansensorische Befunde mit in die Auswertung einbezogen werden.

Page 3: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

3

2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

Alterung von Speiseöl, sensorische Beurteilung und Aufnahme der Signale eines Gassensor-Arrays („elektronische Nase“ vom Typ Fox 4000 der Fa. Alpha M.O.S., Toulouse)

Aufnahme der Gassensor-Signale von Stallluftproben (olfaktometrisch beurteilt durch IFU GmbH Ottendorf)

Auswertung der Messdaten aller Partner mittels PCA, SIMCA und PLS Aufgaben der Arbeitsgruppe um Prof. Dr. Schnäckel, FB 1

Sensorische und instrumentelle (Farbe, Textur) Untersuchung der Fleischproben Aufgaben der Arbeitsgruppe um Prof. Wilke, FB 7

Aufnahme und Auswertung der NIR-Spektren der gealterten Speiseöle

Page 4: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

4

3. Erläuterung der Datenauswertemethoden

3.1 Vorbehandlung der Daten – Preprocessing Die Hauptkomponentenanalyse sowie die Regression nach dem PLS-Verfahren sind Projektionsmethoden, die darauf beruhen, dass die Richtung der maximalen Variation der Daten im n-dimensionalen Raum gefunden wird. Die relative Varianz der Variablen spielt dabei eine entscheidende Rolle. Die in Abb.1 beispielhaft dargestellten Standardabweichungen der Sensorsignale der Stallluftproben zeigen, dass die absoluten Standardabweichungen der Signale der einzelnen Sensoren relativ stark variieren. Dadurch erhält ein Sensor mit großer Standardabweichung in den Signalen ein u. U. unzulässig hohes Gewicht in der Auswertung. Demzufolge ist eine Standardisierung (Normierung) der Sensorsignale angebracht, d. h. die Sensordaten werden durch ihre Standardabweichung dividiert (von der Software als „gewichtet“ bezeichnet), womit alle Variablen die Varianz 1 erhalten.

Abb. 1: Mittelwert und Standardabweichung der Sensorsignale der Stallluftproben

3.2 Hauptkomponentenanalyse - PCA Die Ergebnisse der im Rahmen des Projektes durchgeführten Untersuchungen an den unterschiedlichen Untersuchungsobjekten (Stallluft, Speiseöl und Fleisch) hatten die Form großer Datenmatrices. Diese großen Datentabellen enthalten eine Vielzahl an Informationen, die aufgrund der Komplexität der Zusammenhänge versteckt sein können. Die Hauptkomponentenanalyse ist eine Projektionsmethode, die diese Informationen visualisieren kann. Dabei werden auf Grundlage einer Linearkombination der unabhängigen Variablen der Datenmatrix X, in unseren Fällen der Messdaten, neue künstliche Variablen, die

Page 5: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

5

sogenannten Hauptkomponenten, berechnet und die ursprüngliche Datenmatrix auf einen niedriger dimensionierten Raum projiziert. Die Berechnung der Hauptkomponenten erfolgt nach dem Kriterium der maximalen Varianz. Das bedeutet, ein großer Teil der ursprünglichen in den Messdaten enthaltenen Varianz findet sich bereits entlang der ersten Hauptkomponente wieder. Jede weitere Haupkomponente enthält in absteigender Reihenfolge weitere Anteile dieser ursprünglichen Varianz. Eine entscheidende Eigenschaft der berechneten Hauptkomponenten ist, dass sie mehr Informationen als die Ausgangsvariablen (X) übertragen, was in den meisten Fällen die Visualisierung der durch je einen Messdatensatz charakterisierten Proben in der Ebene der erste beiden Hauptkomponenten oder in einer 3-dimensionalen Darstellung erlaubt. Mit Hilfe der Hauptkomponentenanalyse können Aussagen hinsichtlich der Gruppierungen von Proben sowie des Einfusses der einzelnen Variablen (positiv oder negativ korreliert bzw. kein Einfluss), den diese auf die Gruppierung haben, diskutiert werden.

3.3 SIMCA Die SIMCA-Methode ( Soft Independent Modelling of Class Analogies )ist eine Methode, um Klassenzugehörigkeiten zu beschreiben. Das Hauptziel der Klassifizierung liegt in der Zuordnung unbekannter Proben, die z.B. durch gemessene Werte (X-Variablen) beschrieben sind, zu bereits existierenden Klassen, wobei ihnen ein Satz abhängiger Variablen (Y) zugewiesen wird. Für diese Klassen sind sowohl die X- als auch die Y-Variablen bekannt. Grundlage der SIMCA-Methode ist die Erstellung eines Hauptkomponentenmodells für jede einzelne Klasse. Da nicht die Originaldaten, sondern die durch Hauptkomponentenanalyse projizierten Daten zur Modellbildung herangezogen werden, sind die statistischen Anforderungen an das Verhältnis zwischen Anzahl der Messungen zur Anzahl an Eingangsvariablen nicht so streng. Die Zuordnung zu den entsprechenden Klassen wird auf Grundlage des Probe-zu-Modell-Abstandes vorgenommen. Für jede Probe werden alle Variablen, entsprechend dem Hauptkomponentenmodell, neu berechnet und mit dem aktuellen Wert verglichen. Der Probe-zu-Modell-Abstand ist ein Maß dafür, wie weit die Probe von der modellierten Klasse entfernt ist. Die Zuordnung unbekannter Proben erfolgt auf der Grundlage eines Vergleiches zwischen dem Probe-zu-Modell-Abstand und der Streuung innerhalb der Klasse. Wird ein Testobjekt zum Hauptkomponentenmodell einer bestehenden Klasse zugeordnet, so muss der Abstand klein (ideal 0) sein.

3.4 Partial Least Squares - PLS Die PLS-Methode kann man auch mit „Projection to Latent Structures“ übersetzen. Sie ist besonders geeignet zur Sichtbarmachung verborgener Strukturen in den Daten. Die Partial Least Squares Regression ist, wie die Hauptkomponentenanalyse, eine Projektionsmethode. Die Information der originalen X-Variablen wird auf eine kleine Anzahl „latenter“ Variablen, PLS-Komponenten genannt, projiziert. Während bei der Hauptkomponentenanalyse lediglich auf Grundlage einer Linearkombination der unabhängigen Variablen (Messdaten) neue Variablen (Hauptkomponenten) berechnet werden, in deren Koordinatensystem die Messdaten-Muster der Proben so dargestellt werden, dass ihre Varianz maximal erhalten bleibt, erfolgt diese Prozedur bei der PLS-Methode sowohl für die unabhängigen Variablen (X-Matrix) als auch für die abhängigen Variablen (Y-Matrix).

Page 6: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

6

Man erhält damit mehrere Hauptkomponenten sowohl für die abhängigen als auch für die unabhängigen Variablen. Die Hauptkomponenten im X-Raum werden so berechnet, dass Y am besten vorhergesagt wird. Die Hauptkomponenten im Y-Raum wiederum werden so berechnet, dass die Daten entlang der ersten Hauptkomponente im X-Raum durch die 1. Hauptkomponente im Y-Raum maximal erklärt werden. Die Projektion der Messdaten-Muster auf die Hauptkomponenten der X-Matrix ergibt die sogenannten „T-Scores“, die Projektion auf die Hauptkomponenten der Y-Matrix die „U-Scores“. Jede PLS-Hauptkomponente wird also bestimmt durch einen T- und einen U-Score. Die Beziehung zwischen T- und U-Score ist eine Zusammenfassung der Beziehung zwischen X und Y entlang einer bestimmten Modellkomponente.

4. Ergebnisse

4.1 Auswertung der Messungen an den Stallluftproben Aufgabenstellung: Ausgehend von olfaktometrisch bestimmten Geruchsstoffkonzentrationen, gemessen in Geruchsstoffeinheiten je m3 (in GE/ m3) und den 8 Signalen eines Gassensorarrays (Metalloxid-Sensorarray des modularen Sensorsystems MOSES II) soll mit Hilfe chemometrischer Methoden (PCA, SIMCA sowie PLS) ein Zusammenhang gefunden werden.

4.1.1. Hauptkomponentenanalyse (PCA) Ziel der PCA war es, herauszufinden, ob sich auf Grund der gemessenen Sensorsignale eine Klassifizierung der Messungen nach Geruchseinheiten erkennen lässt oder zumindest andeutet und welche Sensoren besonders wichtig zur Vorhersage der Geruchseinheiten sind. Abb. 2 (Score-Plot) zeigt das Ergebnis der Hauptkomponentenanalyse der ungewichteten, d. h. der „rohen“, nicht durch die Standardabweichung dividierten, Sensordaten sämtlicher der Kalibrierdatenmatrix zugeordneten Messungen von Stallluftproben. Der Score-Plot ist die Darstellung der zu charakterisierenden Proben im neuen Koordinatensystem, d.h. ihre Koordinaten relativ zu den Hauptkomponenten. Die Einteilung der Proben / Messungen in den Kalibrier- und den Testdatensatz sowie die zugehörigen Geruchseinheiten (GE) zeigt Tabelle 1 (siehe Anhang). Die Zuordnung zu den Klassen ‚niedrig‘, ‚mittel‘, ‚erhöht‘ und ‚hoch‘ wurde aufgrund der Anzahl der gemessenen GE vorgenommen. Die vier Probenklassen wurden in der Abbildung mit unterschiedlichen Farben markiert. Wie zu erkennen ist, setzen sich die Klassen ‚niedrig‘, ‚erhöht‘ und ‚hoch‘ in der Hauptkomponentenanalyse deutlich voneinander ab. Die Klasse ‚mittel‘ ist nicht zu erkennen; sie überlappt mit der Klasse ‚niedrig‘. Es fällt zudem auf, dass sich die Messungen der Probe mit 220 GE deutlich von allen anderen unterscheiden, obwohl sie zu der Klasse ‚niedrig‘ gehören sollten. Es kann davon ausgegangen werden, dass es sich in diesem Fall um Ausreißer handelt. Der Faktor PC1, die erste Hauptkomponente, erklärt 94 % und der Faktor PC2, die zweite Hauptkomponente, erklärt 5 % der Varianz der Kalibrierung, siehe Abb. 3. Die ersten beiden Hauptkomponenten erklären somit zusammen 99 % der Varianz, d.h. zwei

Page 7: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

7

Hauptkomponenten reichen aus, um die Varianz in der Datenmatrix zu erklären bzw. um das Modell (Kalibrierung) zu beschreiben, siehe Abb. 3. Die erklärte Y-Varianz für v.Total- (rosa Balken) bezieht sich auf eine Validierung, die am Kalibrierdatensatz durchgeführt wird. Die Unscrambler-Software stellt verschiedene Typen von Validierungsmethoden zur Auswahl. In den hier ausgeführten Berechnungen wurde grundsätzlich eine vollständige Kreuzvalidierung vorgenommen. Dabei wird nacheinander jeweils eine Messung aus dem Kalibrierdatensatz entfernt und das Modell ohne diese Messung neu erstellt. Anschließend wird die Messung (das Sensorsignalmuster) anhand der GE mit Hilfe des Modells vorhergesagt. Dieses Procedere wird mit jeder Messung das Kalibierdatensatzes durchgeführt. Bei jeder Vorhersage ergibt sich eine Abweichung zwischen dem ursprünglichen Signalmuster der jeweiligen Messung des Kalibrierdatensatzes und dem bei der Validierung mit Hilfe des Modells vorhergesagten Signalmuster. Maß für diese Abweichung sind die sogenannten Residuen. Diese einzelnen Residuen werden zur Berechnung der durch das Modell insgesamt nicht erklärten Varianz in der Validierung (v.Total, rosa Balken) herangezogen, woraus sich ergänzend zu 100 % die durch das Modell erklärte Varianz ergibt. Bei einer guten Kalibrierung sollten die erklärte bzw. nichterklärte Varianz der Validierung und die der Kalibrierung nahe beieinander liegen. Zur Überprüfung der möglichen Ausreißer kann der „Influence-Plot“ der X-Varianz ausgewertet werden, siehe Abb. 4.

Niedrig 75 GE – 255 GE Mittel 410 GE Erhöht 901 GE Hoch 2130 GE Abb. 2: PCA Score-Plot der Messungen der Stallluftproben (Kalibrierdaten), Daten

nicht gewichtet, Ausreißer nicht eliminiert); Faktorwerte-Darstellung für PC 1 und PC 2

Page 8: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

8

Abb. 3: Erklärte Varianz der X-Variablen (Sensorsignale)

Abb. 4: Influence-Plot Der Influence-Plot beschreibt die restliche, d.h. die durch das berechnete Modell (die Hauptkomponenten) nicht erklärte, Varianz der Kalibrierdaten (Residual X-Varianz) gegen den Einfluss dieser Daten auf die Modellbildung (Leverage). Daten mit hohem „Leverage“-Wert sind solche, die sich durch extreme Werte, verglichen mit der Mehrheit der Daten, auszeichnen und dadurch die Modellbildung stark beeinflussen können. Die Messungen Nr. 23 bis 25 der Probe mit 220 GE besitzen nach ihrer Position im Influence-Plot nur geringe Ausreißereigenschaften. Der hohe Leverage-Wert deutet zudem auf einflussreiche Variablen hin. Da sich aber im Score-Plot (Abb. 2) diese Messungen als separate Klasse deutlich absetzen, was angesichts ihrer Geruchseinheiten keinen Sinn macht, kann davon ausgegangen werden, dass vermutlich ein Fehler in der Probenvorbereitung oder in der Messung selbst vorlag. Diese Messungen sollten also nicht mit zur Modellbildung herangezogen, sondern als Ausreißer betrachtet und eliminiert werden.

Page 9: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

9

Abb. 5: PCA-Ladungen der X-Variablen der Stallluftproben für PC1 und PC2, Daten

nicht gewichtet Im Loading-Plot werden die Beiträge („Ladungen“) der Variablen (Messwerte) auf der jeweils dargestellten Hauptkomponente, d.h. die Faktoren, mit denen sie in die Linearkombination zur Berechnung der einzelnen Hauptkomponenten eingehen, dargestellt. Jede Variable hat auf jeder Hauptkomponente eine Ladung. Je größer der Ladungswert ist, desto größer ist die Wichtigkeit der Variable in Bezug auf die betrachtete Hauptkomponente. Variablen die sich im bzw. nahe dem Ursprung befinden, sind demzufolge für das Modell unwichtig. In Abb. 5 sind die Ladungen für das zu diskutierende Modell dargestellt. Wie ersichtlich ist, haben die Messwerte der Sensoren 1, 3, 5 und 6 den größten Einfluss auf die Modellbildung. Besonders groß ist die Bedeutung von Sensor 5, denn er beeinflusst stark die die meiste Varianz der Messdaten repräsentierende 1. Hauptkomponente. Eine gemeinsame Diskussion der Scores und Ladungen ist in einem Bi-Plot, wie in Abb.6 dargestellt, möglich.

Abb. 6: Bi-Plot für die gemeinsame Darstellung von Faktorenwerten und Ladungen für

PC1 und PC2

Page 10: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

10

Aus dem Bi-Plot (Abb. 6) lässt sich ableiten, dass die Sensoren 2, 3, 4, 7 und 8 hauptsächlich die Messungen der Proben mit Geruchseinheiten < 2130 GE beschreiben; sie sind mit diesen Messungen entweder positiv oder negativ korreliert. Die Sensoren 1 und 6 sollten demzufolge die Messungen der Probe mit 220 GE beschreiben. Die Sensorsignale der Sensoren 1 und 6 für die Messungen Nr. 23-25 (Probe mit 220 GE) fallen mit Werten von 397-428 (Sensor 1) und 763-781 (Sensor 6) im Vergleich zu Proben mit ähnlichen GE völlig aus dem Rahmen (siehe Tabelle 1, Anhang). Dies stützt die schon oben erwähnte Vermutung, dass es sich hierbei um einen Messfehler handeln könnte. Eine weitere Auswertung ist an dieser Stelle nicht sinnvoll, da die Ausreißer die Ergebnisse der PCA erheblich beeinflussen. Betrachtet man alle Sensorsignale, so ist zu bemerken, dass sich die Sensorantworten der Proben mit unterschiedlichen GE (siehe Tabelle 1, Anhang) in ihrer Größenordnung und demzufolge auch die Standardabweichungen ihrer jeweiligen Parallelbestimmungen in der Größe voneinander unterscheiden. Um daher jeder Variable die gleiche Chance auf Berücksichtigung bei der Berechnung der Hauptkomponenten zu geben, ist es sinnvoll, die Sensorantworten zu wichten. Bei der Wichtung (Standardisierung / Normierung, vgl. 3.1) werden die einzelnen Sensorantworten durch ihre Standardabweichung dividiert, damit erhält jede Variable die Varianz 1. Eine erneute PCA (Abb. 7), bei der zuvor die oben genannten Ausreißer (Messungen der Proben 23 bis 25mit 220 GE) eliminiert sowie die Sensordaten gewichtet wurden, ergab folgende Ergebnisse: Der Faktor PC1 erklärt 93% und der Faktor PC2 erklärt 5% der Varianz der Kalibrierdaten. Die ersten beiden Hauptkomponenten erklären somit 98% der Gesamtvarianz, d.h. 2 PC´s reichen aus, um die Varianz der komplexen Sensorsignale zu erklären. Die geringfügige Verschlechterung gegenüber der ersten Hauptkomponentenanalyse ergibt sich daraus, dass nach Eliminierung der Ausreißer sich der Einfluss der Messungen der Proben mit den extrem hohen GE stärker bemerkbar macht. Die Auswertung des Score-Plots (Abb. 7) zeigt, dass sich die Klassen im Vergleich zu Abb. 2 deutlicher voneinander trennen, insbesondere die zuvor nicht separat erscheinende Klasse der ‚mittleren‘ GE (410 GE) setzt sich nunmehr deutlich von der Klasse ‚niedrig‘ ab. Auch hier werden wie schon in Abb. 2 die Unterschiede in der Geruchsstoffkonzentration hauptsächlich in der ersten Hauptkomponente sichtbar.

Page 11: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

11

Niedrig Luftproben von 75 GE – 255 GE Mittel Luftproben von 410 GE Erhöht Luftproben von 901 GE Hoch Luftproben von 2130 GE Abb. 7: PCA Score-Plot der Messungen der Stallluftproben (Kalibrierdaten), Ausreißer

eliminiert, Daten gewichtet; Faktorwerte-Darstellung für PC 1 und PC 2 Wie der Influence-Plot (Abb. 8) zeigt, erscheinen nach Eliminierung der Messungen mit 220 GE als Ausreißer nunmehr sämtliche Messungen mit 2130 GE als Ausreißer, eine Tendenz, die sich schon in Abb. 4 andeutete. In der Tat stellen aufgrund des Fehlens von Messungen mit GE zwischen 900 und 2000 GE sich diese Messungen als Extremwerte dar. Die Modellbildung basiert hauptsächlich auf den Messungen der Proben mit niedrigen GE, so dass die Messungen von Proben mit hohen GE zwangsläufig nicht so gut beschrieben werden. Andererseits ist es logisch, dass Proben mit derart hoher Geruchsstoffkonzentration auch viel höhere Sensorsignale hervorrufen. Eine Eliminierung als Ausreißer ist demzufolge nicht zu rechtfertigen.

Abb. 8: Influence-Plot

Page 12: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

12

Abb. 9: Bi-Plot für die gemeinsame Darstellung von Faktorenwerten und Ladungen für

PC1 und PC2 Wie der Bi-Plot (Abb. 9) zeigt, ändert sich auch der Einfluss der einzelnen Sensoren im Vergleich zur Abb. 4. So ist zu erkennen, dass die Klasse der ‚erhöhten‘ GE ( 901 GE) durch die Sensorantworten der Sensoren 2 und 7 bestimmt werden. Die Klasse mit den ‚hohen‘ GE (2130 GE) wird hauptsächlich durch die Sensoren 1, 3, 4, 5, 6 und 8 bestimmt. Die Messungen der Klasse der ‚niedrigen‘ GE (75-255 GE) besitzen überwiegend negative Faktorwerte und liegen den positiven Ladungswerten der Sensoren 2 und 7 gegenüber. Das bedeutet, dass die Sensorantworten der Sensoren 2 und 7 mit den Messungen von Proben mit ‚niedrigen‘ GE negativ korreliert sind. Die gleiche Diskussion kann man für die Messungen der Klasse der ‚mittleren‘ GE (410 GE) führen. Sie liegen den Sensoren 1, 5 und 6 gegenüber, d. h. die Klasse wird durch geringe Sensorantworten der Sensoren 1, 5 und 6 und eine relativ hohe Sensorantwort der Sensoren 2 und 7 bestimmt. Durch die Verbindung der Ladungen für die einzelnen Sensoren mit dem Ursprung des Koordinatensystems kann man besonders gut die Korrelation der einzelnen Variablen untereinander erklären. Befindet sich zwischen zwei Ladungsvektoren ein spitzer Winkel, dann bedeutet dies, dass die Variablen miteinander korreliert sind. Mit der Vergrößerung des Winkels nimmt die Korrelation zunächst ab. Ein rechter Winkel weist auf unkorrelierte Variablen hin. Ein stumpfer Winkel zeigt eine geringe, ein 180°-Winkel eine vollständige negative Korrelation an. Die Ladungsvektoren der Sensoren 2 und 7 stehen nahezu senkrecht auf den Ladungsvektoren der Sensoren 1, 6 und 5, somit sind sie nicht mit diesen korreliert. Andererseits sind sowohl die Signale der Sensoren 2 und 7 als auch die der Sensoren 1, 6 und 5 stark miteinander positiv korreliert. Neben einer Klassifikation nach der Geruchsstoffkonzentration (GE) wäre eine Klassifikation der Proben / Messungen im Hinblick auf den Probenahmetag und den Ort der Probenahme (unterschiedliche Ställe) von Interesse gewesen, um herauszufinden, ob ein Einfluss auf die Intensität der Sensorsignale besteht. Um einen solchen Einfluss erkennen zu können, müsste man jedoch mehr Daten haben, d. h. Messungen von Proben mit gleichen GE, aber von unterschiedlichen Probenahmetagen bzw. aus verschiedenen Ställen. Diese standen uns jedoch nicht zur Verfügung.

Page 13: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

13

4.1.2 SIMCA Ein Ziel des Projektes war es, Sensorantworten unbekannter Proben mit Hilfe der SIMCA-Methode zu klassifizieren. Im vorliegenden Fall wurde ein Teil der Stallluftmessungen von vornherein als unbekannt deklariert (siehe Nr.43 ff., Tabelle 1, Anhang), d. h. die GE der gemessenen Proben werden als unbekannt angenommen (Validierungsdatensatz). Um unbekannte Proben den Klassen eines Modells zuordnen zu können, ist es im Vorfeld notwendig, die Daten des Kalibrierdatensatzes hinsichtlich möglicher Klassifizierungen zu überprüfen, was durch die PCA (siehe 4.1.1) bereits geschehen ist. Die Einteilung der Sensorantworten in ‚niedrig‘, ‚mittel‘, ‚erhöht‘ und ‚hoch‘ sollte mit Hilfe der SIMCA-Methode für unbekannte Proben überprüft werden. Die SIMCA-Methode beruht auf der Beschreibung der einzelnen Klassen durch jeweils ein separates Hauptkomponentenmodell. Es wird also zunächst anhand des Kalibrierdatensatzes für jede Klasse eine PCA, die dann für die SIMCA als Modell dient, durchgeführt. Anschließend werden die „unbekannten Proben“ anhand ihrer gemessenen Sensorsignalmuster (Validierungsdatensatz) einem dieser Modelle zugeordnet. Die Zuordnung erfolgt auf der Grundlage eines Vergleiches zwischen dem Probe-zu-Modell-Abstand und der Streuung innerhalb der Klasse. Die Ergebnisse der Klassifizierung der „unbekannten Proben“ werden nachfolgend dargestellt.

Page 14: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

14

Ergebnisse der Klassifizierung 1: In einer ersten Berechnung (Klassifizierung 1) wurde die in der Hauptkomponentenanalyse (siehe 4.1.1) verwendete Einteilung in 4 Klassen als Voraussetzung für die Bildung der Modelle verwendet. Tabelle 2 (siehe Anhang) zeigt das Ergebnis dieser Klassifizierung. Es wurden fast alle Messungen, mit Ausnahme einiger Messungen von Proben ‚mittlerer‘ GE, richtig zugeordnet. Zur Beurteilung der Klassifikation kann der Cooman’s Plot (siehe Abb. 10) herangezogen werden.

Abb. 10: Cooman’s Plots der SIMCA-Klassifizierung 1 für verschiedene

Modellkombinationen A: niedrig – mittel B: hoch - niedrig C: erhöht – mittel D: hoch – mittel Der Cooman’s Plot stellt den Probe-zu-Modell-Abstand für jeweils gleichzeitig zwei Modelle dar. Er zeigt, wie weit die Probe, repräsentiert durch das gemessene Sensorsignalmuster, von den modellierten Klassen entfernt ist. Ein kleiner Abstand bedeutet, dass die Probe gut durch das Modell beschrieben wird und damit ein Mitglied der Klasse darstellt. Im umgekehrten Fall, der Abstand im Cooman’s Plot ist groß, kann davon ausgegangen werden, dass die Probe nicht zur modellierten Klasse gehört. In Abb. 10 sind verschiedene Modellkombinationen dargestellt. In das Koordinatensystem, als durchgezogene Linien eingetragen sind die sogenannten „membership limits“, die die Grenzen der Zugehörigkeit zur jeweiligen Klasse markieren. Sie sind vom gewählten Signifikanzniveau abhängig. Bei den durchgeführten SIMCA-Berechnungen wurde ein Signifikanzniveau von 5 % angenommen. Die Lage der Proben / Messungen in dem von den „membership limits“-Linien gebildeten Koordinatensystem bildet die Grundlage für die Beurteilung ihrer

Page 15: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

15

Klassenzugehörigkeit. Proben / Messungen, die im rechten oberen Quadranten liegen, gehören zu keiner der beiden modellierten Klassen, während Proben / Messungen, die im linken unteren Quadranten liegen, zu beiden modellierten Klassen gehören. Proben / Messungen, die in einem der beiden anderen Quadranten erscheinen, gehören jeweils zu einer der beiden modellierten Klassen. Im Diagramm A in Abb. 10 ist der Probe-zu-Modell-Abstand für das Modell ‚niedrig‘ gegen das Modell ‚mittel‘ dargestellt. Die Proben / Messungen der Klassen ‚hoch‘ und ‚erhöht‘ liegen im rechten oberen Quadranten, bezogen auf die „membership limits“-Linien, d. h. sie weisen einen großen Abstand zu beiden Modellen auf, wobei der Abstand für die Proben / Messungen der Klasse „hoch“ größer ausfällt als für die der Klasse „erhöht“. Sie gehören demnach weder zum Modell ‚niedrig‘ noch zum Modell ‚mittel‘. Betrachtet man den Probe-zu-Modell-Abstand der Proben / Messungen der Klasse ‚erhöht‘, so ist eine eindeutige Zuordnung zum Modell ,erhöht‘ zu erkennen (kleiner Abstand zum Modell ,erhöht‘ in Abb. 10, Diagramm C). Ebenso zeigen die Diagramme B und C die Zugehörigkeiten der Proben / Messungen der Klasse „hoch“ zum Modell „hoch“. Die Proben / Messungen der Klassen ‚niedrig‘ und ‚mittel‘ sind hingegen nicht eindeutig zuzuordnen. In Abb. 11 ist der interessierende Teil des Koordinatensystems vergrößert dargestellt, was die Diskussion erleichtert.

Abb. 11: Vergrößerung des Cooman’s Plots der SIMCA-Klassifikation 1 für die

Modellkombination A: niedrig – mittel. Aussagen zur Modellzugehörigkeit (blau) beziehen sich auf die von den „membership limits“-Linien gebildeten 4 Quadranten.

Anhand der Abb. 11 kann festgestellt werden, dass einige Proben / Messungen der Klasse ‚mittel‘ (410 GE) zu beiden Modellen gehören. Der Abstand der beiden Modelle ist offenbar zu klein. Die Modelle ‚niedrig‘ und ‚mittel‘ können demzufolge zu einem Modell ‚niedrig‘ zusammengefasst werden.

Page 16: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

16

Ergebnisse der Klassifizierung 2 Die Ergebnisse einer erneuten Klassifizierung (Klassifizierung 2) der unbekannten Proben / Messungen auf der Grundlage einer Einteilung der Messungen des Kalibrierdatensatzes in nur 3 Klassen (‚niedrig‘; ‚erhöht’ und ‚hoch‘ – Zusammenfassung der bisherigen Klassen ,niedrig‘ und ,mittel‘ in der neuen Klasse ,niedrig‘) und darauf aufbauender Bildung von drei neuen Modellen, sind in der Tabelle 3 (siehe Anhang) dargestellt. Es wurde keine Probe fehlklassifiziert. Zusammenfassend kann festgestellt werden, dass die untersuchten Stallluftproben anhand von 8 Sensorsignalen eines Gassensor-Arrays (Metalloxid-Sensorarray des MOSES II) in 3 Klassen von Geruchsstoffkonzentrationen (in GE je m3) ‚niedrig‘; ,erhöht’ und ‚hoch‘ klassifiziert werden konnten. 4. 1.3 Regression mittels PLS

4.1.3.1 Berechnung des PLS-Modells (Kalibrierung) Ziel der Anwendung der Partial Least Squares Regression, kurz PLS, auf die Messdaten der Stallluftproben war die Ableitung quantitativer Zusammenhänge als Voraussetzung für die Vorhersage der Geruchsstoffkonzentration (in GE / m3) von Stallluftproben auf der Grundlage von mittels Gassensor-Array gemessenen Sensorsignalmustern. Die Sensorantworten stellen dabei die unabhängigen Variablen X dar und die GE die abhängige Variable Y. Aufgrund der in Kapitel 3.1 gemachten Ausführungen zur Statistik der Sensorsignale und zum Einfluss der Standardabweichung auf die Datenauswertung mittels PCA oder PLS wurde auch vor der Durchführung der PLS eine Standardisierung (Wichtung) der Sensor-Messdaten vorgenommen. Für die GE entfiel die Wichtung, da die olfaktometrische Bestimmung der Geruchsstoffkonzentrationen jeweils nur einmal erfolgte. Die Regression wurde als PLS1-Prozedur durchgeführt, d.h. mit nur einer unabhängigen Variable Y (GE). Die Regression der gesamten Daten (Sensordaten für 220 GE wurden von der Berechnung ausgeschlossen) ergab folgende Ergebnisse, siehe Abb. 12:

Abb. 12: Restliche Y-Varianz für die Kalibrierung und Validierung

Page 17: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

17

In Abb. 12 ist die restliche, d.h. die durch das berechnete PLS1-Modell nicht erklärte Y-Varianz und in Abb. 13 ist die erklärte Varianz, jeweils in Abhängigkeit von der Zahl der PLS-Hauptkomponenten, dargestellt. Die restliche (residual) und die erklärte (explained) Varianz zeigen, wie gut das Modell die Proben / Messungen widerspiegelt. Modelle mit einer restlichen Varianz nahe 0 bzw. mit einer erklärten Varianz nahe 100 % erklären den größten Teil der Variation in den Daten. Zur Entscheidung, wie viele Hauptkomponenten zur Beschreibung des Modells notwendig sind, wird die restliche Y-Varianz (siehe Abb. 12) herangezogen. Dabei orientiert man sich daran, bei wie vielen Hauptkomponenten ein Minimum in der restlichen Y-Varianz erreicht wird. Das erste Minimum wird nach 7 Hauptkomponenten erreicht.

Abb. 13: Erklärte Varianz von Y für die Kalibrierung und Validierung Mit diesen 7 Hauptkomponenten werden in der Kalibrierung (c. Total, blauer Balken), durchgeführt anhand des Kalibrierdatensatzes (zur Einteilung der Messdaten in Kalibrier- und Testdatensatz siehe Tabelle 1) 99,4 % der Varianz in den Geruchseinheiten (Y) erklärt. Die erklärte Y-Varianz für v.Total- (rosa Balken) bezieht sich auf eine Validierung, die am Kalibrierdatensatz durchgeführt wird. Zur näheren Erklärung der verwendeten Validierungsmethode, siehe S. 7. Der Score-Plot (siehe Abb. 14) zeigt, dass ähnlich wie in Abb. 2 die Klassen ‚niedrig‘, ‚mittel‘, ‚erhöht‘ und ‚hoch‘ hauptsächlich durch die erste Hauptkomponente (PC 1) beschrieben werden. Zur Bestimmung möglicher Ausreißer kann der X-Y-Relation Plot ausgewertet werden (siehe Abb. 15). Dieser Plot zeigt die Beziehung zwischen der Projektion der Proben (Signalmuster) im modellierten X-Raum (neues Koordinatensystem der unabhängigen Variablen), dem so genannten „T-Score“, und der Projektion der Proben (Signalmuster) im Y-Raum ) (neues Koordinatensystem der abhängigen Variablen), dem „U-Score“. Die in Abb. 15 markierte Probe wurde von der Software als Ausreißer bewertet. Sie liegt relativ weit von der Regressionslinie entfernt. Diese Messung wurde von uns bei erneuter Durchführung der PLS1-Prozedur nicht mit verwendet. Die Streuung der Variablen im Bereich der niedrigen GE ist allerdings insgesamt relativ hoch und auf die bereits genannten Unsicherheiten bei deren Bestimmung zurückzuführen. Weiterhin wurden von der Software auch alle Messungen der Proben mit 2130 GE als Ausreißer eingestuft. Sie wurden jedoch von uns nicht als solche deklariert und im Modell belassen.

Page 18: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

18

Niedrig Luftproben von 75 GE – 255 GE Mittel Luftproben von 410 GE Erhöht Luftproben von 901 GE Hoch Luftproben von 2130 GE Abb. 14: PLS1 Score-Plot der Messungen der Stallluftproben (Faktorwerte-Darstellung

für PC 1 und PC 2)

Abb. 15: X-Y Relation der 1. Hauptkomponente zur Bestimmung der Ausreißer Die Ergebnisse der erneuten Regression, wobei die oben als Ausreißer erkannten Proben nicht in die Berechnung einbezogen worden, zeigen Abb. 16 und 17.

Page 19: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

19

Abb. 16: Restliche Y-Varianz für die Kalibrierung und Validierung nach Entfernung des

Ausreißers

Abb. 17: Erklärte Varianz von Y für die Kalibrierung und Validierung, ohne Ausreißer Nach Eliminierung des Ausreißers werden bereits mit vier PC’s 99 % der Varianz in Y beschrieben, siehe Abb. 17. Eine eindeutige Bestimmung der Anzahl der benötigten PLS-Komponenten ist allein auf Grundlage der Abbildung 16 nicht möglich, da das Minimum aufgrund der sehr geringen Unterschiede nicht sicher festgelegt werden kann. Eine weitere Entscheidungshilfe ist die Auswertung des Root Mean Square Error of Prediction, siehe Abb. 20. Kriterium für die Entscheidung über die Anzahl der benötigten PLS-Hauptkomponenten ist auch hier das erste Minimum, in diesem Falle wird es bei PC_4 errreicht.

Page 20: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

20

Abb. 18: PLS1 Score-Plot der Messungen der Stallluftproben (Faktorwerte-Darstellung

für PC 1 und PC 2) ohne Ausreißer Abb. 18 zeigt den Score-Plot nach erneuter Regression. Anhand der Lage der Messungen im Koordinatensystem ist wiederum festzustellen, dass die Höhe der Geruchsstoffkonzentration (GE) hauptsächlich durch die 1. PLS-Hauptkomponente beschrieben wird.

Abb. 19 Regressionskoeffizienten für ein Modell mit 4 Hauptkomponenten In Abb. 19 sind die Regressionskoeffizienten für die einzelnen Sensoren für ein Modell mit 4 Hauptkomponenten dargestellt. Aus der Abbildung ist ersichtlich, dass die Sensoren 2, 5, 6 und 7 positiv mit den GE korreliert sind, 1, 4 und 8 hingegen negativ. Sensor 3 ist fast 0 und steht demzufolge in keinem Zusammenhang mit den GE. Die Sensoren 5 und 7 sind für das Modell besonders wichtig.

Page 21: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

21

Abb. 20: Root Mean Square Error of Prediction (RMSEP) Die Validierung des Modells wurde, wie bereits erwähnt, mittels vollständiger Kreuzvalidierung durchgeführt. Die Wurzel aus dem mittleren Quadrat des Vorhersagefehlers (Root Mean Square Error of Prediction, RMSEP) gibt an, wie groß der durchschnittliche Fehler, der bei zukünftigen Vorhersagen, in unserem Fall die Vorhersage von GE unbekannter Proben, zu erwarten ist. Der angegebene Fehler wird in der gleichen Einheit wie die GE angegeben. Abb. 20 zeigt, dass mit 4 Hauptkomponenten ein erstes Minimum im Vorhersagefehler erreicht wird. Noch geringer wird dieser Fehler wenn man 7 Hauptkomponenten für die Modellbildung heranzieht. Modelle mit weniger Hauptkomponenten sind jedoch robuster und daher vorzuziehen. Bei vier Hauptkomponenten liegt der Fehler bei ca. 78 GE, das bedeutet für zukünftige Vorhersagen einen Fehler von, vorhergesagter Wert ± 156 GE“. Dieser Fehler trifft nur für Daten zu, die die gleiche Größenordnung, wie die Kalibrierdaten haben.

Page 22: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

22

4.1.3.2 Vorhersage von GE auf Grundlage des PLS-Modells

Abb. 21: Vorhergesagte Werte für die Proben / Messungen des Testdatensatzes Ziel der Kalibrierung war es, ein mathematisches Modell zur Vorhersage der GE zu erstellen, um die aufwändigen humansensorischen (olfaktometrischen) Untersuchungen zu ersetzen. Für die Vorhersage (Prediction) der GE wurde das PLS-Modell mit 4 Hauptkomponenten ohne Ausreißer verwandt. In Abb. 21 sind die anhand der Sensorsignalmuster des Testdatensatzes („unbekannte Proben“, nicht für die Kalibrierung verwendet, siehe Tab. Nr. 43 ff.) vorhergesagten Werte der GE dargestellt. Der vorhergesagte Wert entspricht jeweils der horizontalen Linie. Die Box, die um den vorhergesagten Y-Wert dargestellt ist, entspricht der Unsicherheit, auch als Abweichung (Deviation) bezeichnet, mit der der Y-Wert behaftet ist. Die berechnete Abweichung drückt aus, wie ähnlich die vorhergesagte Probe zu den jeweiligen Kalibrierdaten ist. Die Berechnung der Abweichung (Deviation) basiert auf einer empirischen Formel, die die Varianz der Validierung, die Residual Varianz und den Einfluss der X-Daten auf die vorhergesagten Werte einbeziehen. In [1] wird die Gleichung ausführlich diskutiert. An dieser Stelle muss darauf hingewiesen werden, dass die berechneten Abweichungen nicht zur Beschreibung des Fehlers der Vorhersage geeignet sind. Im Anhang (Tabelle 4) sind die vorhergesagten GE für den Testdatensatz, die berechneten Abweichungen für jede Probe sowie zum Vergleich die olfaktometrisch ermittelten Daten (Referenz) zusammengefasst. Der Vergleich der vorhergesagten GE mit den Referenzmessungen lässt erkennten, dass die größten Schwankungen im Bereich der ‚niedrigen‘ GE gefunden werden . Daraus muss geschlussfolgert werden, dass das Modell für die Vorhersage in diesem Bereich ungeeignet ist. Für den Bereich „Mittel“ sind die vorhergesagten GE auch mit einer relativ großen Unsicherheit (Deviation) behaftet. Es ist aber hier schon der Trend zu erkennen, dass das Modell für die Vorhersage größerer GE sehr gut geeignet ist. Für die Klassen „Erhöht“ und „Hoch“ wurden GE vorhergesagt, die zu den Referenzmessungen relativ geringe Differenzen aufweisen. Das Modell ist demzufolge zur Vorhersage größerer GE relativ gut geeignet. [1] De Vries S., Ter Braak Cajo J.F., Prediction error in partial least regression: a critique on the deviation used in The Unscrambler, Chemometrics and Intelligent Laboratory Systems, 1993, 30, 393-425.

Page 23: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

23

Abschließend ist noch darauf hinzuweisen, dass zur Absicherung des Zusammenhangs zwischen Geruchseinheiten und Sensorsignalen und für eine bessere Modellierung über den gesamten Bereich praktisch möglicher Geruchsstoffintensitäten hinweg einer breiteren und lückenloseren Datenbasis bedarf, die für unsere Untersuchungen nicht zur Verfügung stand.

Page 24: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

24

4.2 Fleischproben Aufgabenstellung: Gegenstand der Untersuchen waren Rindfleischproben, die von unterschiedlichen Rassen (Herford, Limousine und Angus) sowie von unterschiedlichen Altersstufen stammen (Kalb bzw. Färse) stammen[1]. Ziel der Untersuchungen an den Fleischproben war es, die experimentell bestimmten Textur- und Farbdaten zu den Rassen bzw. zu den Altersstufen in Beziehung zu setzen, um anhand der Messdaten Vorhersagen hinsichtlich Rasse und Alter machen zu können. Von der ursprünglichen Absicht, auch sensorische Daten in die Untersuchung einzubeziehen und zu versuchen, diese anhand der instrumentellen Daten vorherzusagen, wurde auf Grund der Qualität der sensorischen Daten abgegangen.

4.2.1 Vorbehandlung der Daten Instrumentell gemessen wurde die Farbe der Fleischproben nach dem CIELAB-System. Verwendet wurde ein Farbmessgerät der Firma A. KRÜSS COLOR Analyser. Bei dem CIELAB-System werden die Farbmaßzahlen L, a und b benutzt, wobei a (pos. a = Rot, neg. a = Grün) und b (pos. b = Gelb, neg. b = Blau) die Farbtöne charakterisieren und L die Helligkeit beschreibt. Die Farbdaten wurden für jede Probe zehnfach bestimmt. Die Textur wurde mittels eines Texturanalyzers des Typs TA XT2 der Firma Winopal bestimmt. Das Prinzip der Texturmessung beruht auf einer Kraft-Weg-Messung. In einem Kraft-Weg-Diagramm werden dann die Parameter maximale Scherkraft (max. Kraft), mittlere Kraft (Mittel-Kraft) und die zu verrichtende Arbeit (Mittel-Fl als Fläche unter der Kurve) bestimmt. Die Texturmessung wurde für jede Probe dreimal wiederholt. Die Einteilung in Kalibrier- und Testdatensatz wurde so durchgeführt, dass die ersten drei Messergebnisse sowohl Textur- als auch Farbdaten dem Kalibrierdatensatz zugeordnet wurden. Das Fehlen von Texturdaten für den Testdatensatz (weil es nur drei Parallelbestimmungen gab) hat auf die Diskussion der Ergebnisse keinen entscheidenden Einfluss. Abb. 22 zeigt die Messdaten zusammen mit der jeweiligen Standardabweichung (berechnet aus 3 bzw. 10 Parallelbestimmungen). Letztere ist bei den einzelnen Messdaten sehr unterschiedlich.

[1] Schnäckel, W.; Matthes, H.-D.; Pastoushenko, V. Fleischquälität von Weidemastfärsen und –kälbern Fleischwirtschaft 80 (2000) 11 S.102-106.

Page 25: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

25

Abb. 22: Mittelwert und Standardabweichung der instrumentellen Daten der Fleischproben

Wie schon in Kapitel 3.1. vorgestellt, ist es daher auch im Falle der Fleischproben notwendig, die experimentellen Daten zu standardisieren, d. h. durch ihre Standardabweichung zu dividieren, wodurch alle Variablen die Varianz 1 erhalten. Bei allen folgenden Berechnungen sind die Farb- und Texturdaten standardisiert worden. Eine Zusammenfassung der Daten, die für die Berechnung herangezogen worden, ist auf der beiliegenden Diskette zu finden.

4.2.2 Hauptkomponentenanalyse Die zur Verfügung stehenden experimentellen Daten wurden zunächst auf Zusammenhänge hinsichtlich der Altersstufe, Kalb oder Färse, innerhalb der Rassen untersucht. Die Untersuchungen wurden an sämtlichen dem Kalibrierdatensatz zugeordneten Messungen der Fleischproben der einzelnen Rassen durchgeführt. Für jede Rasse wurde demzufolge eine PCA durchgeführt. Mögliche Ausreißer wurden - wie bereits weiter vorn beschrieben - anhand ihrer Lage im Influence-Plot identifiziert und von den weiteren Berechnungen ausgeschlossen. Anschließend wurde erneut eine PCA durchgeführt. Als erstes werden die Ergebnisse für die Rasse Herford dargestellt (siehe Abb. 23)

Page 26: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

26

4.2.2.1 Klassifizierung aufgrund von Messungen an Rindfleisch der Rasse Herford Farb- und Texturdaten:

A: Hf ... Herford-Färse Hf ...Herford-Kalb Abb. 23: Zusammenfassung der unter Verwendung der Farb- und Texturdaten

durchgeführten PCA der Messungen an Rindfleisch der Rasse Herford In der Kalibrierung erklärt der Faktor PC1 51 % und der Faktor PC2 24 % der Varianz, damit erklären die ersten beiden Hauptkomponenten nur 75 % der Varianz in X. Die Auswertung der restlichen, nicht durch das Modell erklärten X-Varianz (1. Minimum bei 5 Hauptkomponenten, Abb. 23, C) sowie der erklärten X-Varianz (Abb. 23, D) zeigt, dass für die Modellbildung 5 Hauptkomponenten notwendig sind. Mit diesen 5 Hauptkomponenten werden 99,5 % der Varianz in X erklärt. Aus dem Score-Plot (Abb. 23, A) ist zu entnehmen, dass die 1. Hauptkomponente die Information über die Altersstufe enthält. Wie zu erkennen ist, setzen sich die an Fleisch von Herford-Kälbern durchgeführten Messungen relativ gut in Richtung positiver PC1-Werte ab. Eine eindeutige Trennung zwischen den Messungen an Fleisch der Kälber und Färsen wird auch bei der Darstellung weiterer Hauptkomponenten nicht erhalten. Aufgrund der Lage im Loading-Plot kann man schlussfolgern, dass die Textur bei der Klassifizierung in Kälber und Färsen einen erheblichen Einfluss hat. Die Möglichkeit der Klassifizierung aufgrund nur der Farb- bzw. der Texturdaten wurden im Folgenden untersucht.

Page 27: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

27

Nur Farbdaten:

A: Hf ... Herford-Färse Hf ...Herford-Kalb Abb. 24: Zusammenfassung der unter ausschließlicher Verwendung der Farbdaten

durchgeführten PCA der Messungen an Rindfleisch der Rasse Herford Wie aus Abb. 24 zu entnehmen ist, ist die Berechnung eines Modells auf Grundlage der Farbdaten nicht möglich. Die Darstellung der erklärten Varianz in X (Abb. 24, D) zeigt, dass die erklärte Varianz in der Validierung (rosa Balken) gegenüber der in der Kalibrierung sehr klein ist und zudem in der 2. Hauptkomponente auch noch abnimmt. Die Farbdaten sind demzufolge für eine alleinige Modellbildung nicht geeignet. Nur Texturdaten: In Abb. 25 ist das Ergebnis der nur auf Grundlage der Texturdaten durchgeführten Hauptkomponentenanalyse dargestellt. In diesem Fall wurde eine sehr gute Modellbildung festgestellt (hohe Übereinstimmung in der erklärten Varianz bei Kalibrierung und Validierung, siehe Abb. 25, D). In der Kalibrierung erklärt die erste Hauptkomponente bereits 96 % der Varianz in X. Die ersten beiden Hauptkomponenten erklären zusammen 98,6 % der Varianz in X. Anhand der restlichen, nicht erklärten Varianz sowie anhand der Darstellung der erklärten Varianz (Abb. 25, D) lässt sich zeigen, dass diese beiden Hauptkomponenten für die Modellbildung ausreichen, d. h. die Varianz der Kalibrierdatenmatrix zufriedenstellend erklären.

Page 28: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

28

A: Hf ... Herford-Färse Hf ...Herford-Kalb B: F_H ... Herford-Färse K_H ... Herford-Kalb Abb. 25: Zusammenfassung der unter ausschließlicher Verwendung der Texturdaten

durchgeführten PCA der Messungen an Rindfleisch der Rasse Herford Im Score-Plot (Abb. 25, A) ist zu erkennen, dass die Information der Alterstufen Kalb oder Färse in PC1 zu finden ist. Um den Einfluss der X-Variablen (Texturdaten) auf die Faktorwerte (Scores) diskutieren zu können, wurde im Diagramm B der Bi-Plot abgebildet. Daraus ist zu erkennen, dass alle Texturdaten einen nahezu gleichen Einfluss auf PC1 haben. Vergleicht man nun die eingangs vorgestellten Ergebnisse der PCA mit allen X-Variablen mit den separaten PCA‘s der Farb- bzw. Texturdaten so ist festzustellen, dass die Texturdaten einen erheblichen Einfluss auf die Klassifizierung in Kalb oder Färse haben (2 PC’s erklären 98,6 % der X-Varianz). Eine Klassifizierung allein auf Grundlage der Farbdaten ist zwar nicht möglich, aber die Hauptkomponentenanalyse unter Einbeziehung sowohl der Textur- als auch der Farbdaten steigert die erklärte Varianz auf 99,5 %. Zusammenfassend kann festgestellt werden, dass sich das Fleisch der Herford-Kälber von dem der Herford-Färsen hauptsächlich in der Textur unterscheidet.

Page 29: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

29

4.2.2.2 Klassifizierung aufgrund von Messungen an Rindfleisch der Rasse Limousine Die Untersuchungen zur Klassifizierung hinsichtlich der Altersstufen Kalb und Färse wurden in der gleichen Art und Weise wie für die Rasse Herford beschrieben durchgeführt. Farb- und Texturdaten:

A: L ... Limousine-Kalb L ... Limousine-Färse Abb. 26: Zusammenfassung der unter Verwendung der Farb- und Texturdaten

durchgeführten PCA der Messungen an Rindfleisch der Rasse Limousine Als erstes wurde eine PCA unter Einbeziehung der Farb- und Texturdaten durchgeführt. Das Ergebnis ist in Abb. 26 dargestellt. In der Kalibrierung erklärt der Faktor PC1 51 % und der Faktor PC2 28 % der Varianz, damit erklären die ersten beiden Hauptkomponenten 79 % der Varianz in X. Die Auswertung der restlichen, nicht erklärten Varianz sowie der erklärten X-Varianz (Abb. 26, C und D) ergibt, dass 5 Hauptkomponenten für die Modellbildung notwendig sind und dass diese zusammen 99,0 % der Varianz in X erklären. Die Information der Alterstufen ist wiederum zu einem großen Teil in PC1 enthalten. Die optische Trennung der Klassen ist aber im Vergleich zur Rasse Herford nicht so gut ausgeprägt. Eine ausgeprägtere Separierung der Messungen nach Altersklassen war auch unter Einbeziehung weiterer Hauptkomponenten nicht möglich. Auch hier ist es die Textur, die die Klassifizierung stark beeinflusst (siehe Abb. 26, B).

Page 30: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

30

Nur Farbdaten:

A: L ... Limousine-Kalb L ... Limousine-Färse Abb. 27: Zusammenfassung der unter ausschließlicher Verwendung der Farbdaten

durchgeführten PCA der Messungen an Rindfleisch der Rasse Limousine Wiederum ist festzustellen, dass die alleinige Verwendung der Farbdaten zu keinem guten Modell führt (Abb. 27). Die Darstellung der erklärten X-Varianz zeigt, dass die erklärte Varianz in der Validierung (rosa Balken) gegenüber der in der Kalibrierung zu klein ist, d.h. trotz akzeptabel scheinender Kalibrierung ist der Fehler, der sich bei der Kreuzvalidierung ergibt, zu groß. Die Farbdaten sind demzufolge auch in diesem Fall für eine alleinige Modellbildung nicht geeignet. Nur Texturdaten: In Abb. 28 ist das Ergebnis der nur auf Grundlage der Texturdaten durchgeführten Hauptkomponentenanalyse dargestellt. Ähnlich wie für die Daten der Rasse Herford wurde eine sehr gute Modellbildung festgestellt. In der Kalibrierung erklärt die erste Hauptkomponente bereits 98 % der Varianz in X. Die ersten beiden Hauptkomponenten erklären zusammen 99,5 % der Varianz in X. Zwei Hauptkomponenten reichen aus, um die Varianz der Kalibrierdatenmatrix zu erklären. Im Score-Plot ist auch hier zu erkennen, dass die Information über die Alterstufen Kalb oder Färse weitgehend in PC1 zu finden ist. Um den Einfluss der X-Variablen (Texturdaten) auf die Faktorwerte (Scores) diskutieren zu können, wurde im Diagramm B der Bi-Plot abgebildet. Daraus ist zu erkennen, dass alle Texturdaten einen nahezu gleichen Einfluss auf PC1 haben. Die Textur ist auch für die Limousine-Kälber und –Färsen das entscheidende Klassifizierungskriterium.

Page 31: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

31

A: L ... Limousine-Kalb L ... Limousine-Färse B: F_L ...Limousine-Färse K_L ... Limousine-Kalb Abb. 28: Zusammenfassung der unter ausschließlicher Verwendung der Texturdaten

durchgeführten PCA der Messungen an Rindfleisch der Rasse Limousine

Page 32: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

32

4.2.2.3. Klassifizierung aufgrund von Messungen an Rindfleisch der Rasse Angus Die Untersuchungen zur Klassifizierung hinsichtlich der Altersstufen Kalb und Färse wurden in der gleichen Art und Weise wie für die Rasse Herford und Limousine durchgeführt. Als erstes wurde eine PCA unter Einbeziehung der Farb- und Texturdaten durchgeführt. Das Ergebnis ist in Abb. 29 dargestellt. Farb- und Texturdaten:

A: A ... Angus-Färse A ... Angus-Kalb Abb. 29: Zusammenfassung der unter Verwendung der Farb- und Texturdaten

durchgeführten PCA der Messungen an Rindfleisch der Rasse Angus In der Kalibrierung erklärt der Faktor PC1 55 % und der Faktor PC2 27 % der Varianz, damit erklären die ersten beiden Hauptkomponenten 82 % der Varianz in X. Die Auswertung der restlichen, nicht erklärten X-Varianz sowie der erklärten X-Varianz (Abb. 29, D) zeigt, dass 5 Hauptkomponenten für die Modellbildung notwendig sind und diese 98,7 % der Varianz in X erklären. Die Information der Alterstufen ist nicht bereits weitgehend in PC1 enthalten. Eine ausgeprägtere optische Trennung der Messungen nach Altersstufen war auch unter Einbeziehung weiterer Hauptkomponenten nicht möglich. Auch hier ist es die Textur, die die Klassifizierung stark beeinflusst (siehe Abb. 29, B), aber auch die Helligkeit L besitzt hohe Ladungswerte und ist als wichtiger Parameter für das berechnete Modell zu werten.

Page 33: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

33

Nur Farbdaten:

A: A ... Angus-Färse A ... Angus-Kalb B: F_A ... Angus-Färse K_A ... Angus-Kalb

Abb. 30: Zusammenfassung der unter ausschließlicher Verwendung der Farbdaten durchgeführten PCA der Messungen an Rindfleisch der Rasse Angus

Die gemessenen Farbdaten für die Fleischproben der Rasse Angus sind im Vergleich zu den beiden zuvor diskutierten Rassen besser für eine Modellbildung geeignet (Abb. 30). In der Validierung beträgt die erklärte X-Varianz für ein Modell mit 2 Hauptkomponenten 73,2 % und steht einer erklärten X-Varianz in der Kalibrierung von 91,5 % gegenüber. Die Modellbildung ist auf Grundlage dieser Werte nicht als gut zu bezeichnen, ist aber im Vergleich zu den Rassen Herford (Modell mit 2 Hauptkomponenten; erklärte X-Varianz: Kalibrierung 78,8 %, Validierung 21,4 %) und Limousine (Modell mit 2 Hauptkomponenten; erklärte X-Varianz: Kalibrierung 87,5 %, Validierung 58,9 %) sehr viel besser. Eine Klassifizierung nach Altersstufen deutet sich in PC1 an. Nur Texturdaten: In Abb. 31 ist das Ergebnis der nur auf Grundlage der Texturdaten durchgeführten Hauptkomponentenanalyse dargestellt. Ähnlich wie für die Daten der Rassen Herford und Limousine wurde eine sehr gute Modellbildung festgestellt. In der Kalibrierung erklärt die erste Hauptkomponente bereits 97 % der Varianz in X. Die ersten beiden Hauptkomponenten erklären zusammen 99,3 % der Varianz in X. Zwei Hauptkomponenten reichen aus, um die Varianz der Kalibrierdatenmatrix zu erklären. Im Score-Plot ist hier zu erkennen, dass eine Klassifizierung nach Altersstufen weder in PC1 noch in PC2 zu finden ist.

Page 34: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

34

A: A ... Angus-Färse A ... Angus-Kalb B: F_A ... Angus-Färse K_A ... Angus-Kalb

Abb. 31: Zusammenfassung der unter ausschließlicher Verwendung der Texturdaten durchgeführten PCA der Messungen an Rindfleisch der Rasse Angus

Für die Rasse Angus wird festgestellt, dass eine Klassifizierung nach Alterstufen auf Grundlage der am Fleisch gewonnenen Farb- und Texturdaten nicht eindeutig möglich ist. Es ist anzunehmen, dass die Unterschiede in diesen instrumentellen Parametern bei Fleisch der beiden Altersstufen für die Rasse Angus nicht so groß sind wie für Herford und Limousine.

4.2.2.4. Klassifizierung aufgrund von Messungen an Rindfleisch der Altersstufe Kalb Ein weiteres wichtiges Ziel der Untersuchungen ist die Unterscheidung der Rassen innerhalb einer Alterstufe. Für jede Altersstufe (Kalb bzw. Färse) wurde deshalb unter Einbeziehung der am Fleisch aller Rassen gewonnenen Daten eine PCA durchgeführt. Mögliche Ausreißer wurden zuvor aus der Messdatenmatrix entfernt (Procedere siehe weiter vorn) und bei den nachfolgend diskutierten Berechnungen nicht mit verwendet. Als erstes werden die Ergebnisse für die Altersstufe Kalb vorgestellt.

Page 35: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

35

Farb- und Texturdaten

A: H ...Herford L ... Limousine A ... Angus B: Hf ... Herford,

L ... Limousine A ... Angus

Abb. 32: Zusammenfassung der unter Verwendung der Farb- und Texturdaten durchgeführten PCA der Messungen an Rindfleisch der Altersstufe Kalb

Abb. 32 zeigt das Ergebnis der unter Verwendung der Farb- und Texturdaten durchgeführten Hauptkomponentenanalyse sämtlicher dem Kalibrierdatensatz zugeordneter Messungen an Fleisch von Kälbern aller 3 Rassen. In der Kalibrierung erklärt der Faktor PC1 49 % und der Faktor PC2 34 % der Varianz, damit erklären die ersten beiden Hauptkomponenten 83 % der Varianz in X. Die Auswertung der restlichen, nicht erklärten sowie der erklärten X-Varianz (Abb. 32, C und D) zeigt, dass für die Modellbildung 5 Hauptkomponenten notwendig sind und diese zusammen 99,4 % der Varianz in X erklären. Eine Klassifizierung nach den 3 Rassen ist andeutungsweise hauptsächlich in PC1 zu finden, allerdings muss festgestellt werden, dass die Unterschiede zwischen den einzelnen Rassen innerhalb der Altersstufe Kalb nicht sehr deutlich ausgeprägt sind. Die Kälber der Rasse Herford sind weitestgehend durch positive Score-Werte in PC1 repräsentiert. Die Rassen Limousine und Angus sind durch kleine positive und negative Score-Werte in PC1 gekennzeichnet. Aus dem B-Plot (Abb. 32, B) lässt sich entnehmen, dass für die Rassenunterscheidung entlang PC1 hauptsächlich die Texturwerte maßgeblich sind.

Page 36: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

36

Nur Farbdaten: Der Versuch einer Modellbildung allein auf Grundlage der Farbdaten brachte folgende Ergebnisse:

A: H ...Herford L ... Limousine A ... Angus Abb. 33: Zusammenfassung der unter ausschließlicher Verwendung der Farbdaten

durchgeführten PCA der Messungen an Rindfleisch der Altersstufe Kalb Auch hier ist festzustellen, dass die alleinige Verwendung der Farbdaten zu keinem guten Modell führt (siehe Abb. 33, D). Die Darstellung der erklärten X-Varianz zeigt, dass bei einem Modell mit zwei Hauptkomponenten die erklärte Varianz in der Validierung (rosa Balken) mit 48,5 % zu klein ist gegenüber der erklärten Varianz in der Kalibrierung (blauer Balken) von 83,8 %. Die Farbdaten sind demzufolge für eine alleinige Modellbildung nicht geeignet. Nur Texturdaten:

A: H ...Herford L ... Limousine A ... Angus Abb. 34: Zusammenfassung der unter ausschließlicher Verwendung der Texturdaten

durchgeführten PCA der Messungen an Rindfleisch der Altersstufe Kalb

Page 37: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

37

In Abb. 34 ist das Ergebnis der auf Grundlage der Texturdaten durchgeführten PCA dargestellt. In der Kalibrierung erklärt der Faktor PC1 95 % und der Faktor PC2 3 % der Varianz, damit erklären die ersten beiden Hauptkomponenten 98,2 % der Varianz in X. Zwei Hauptkomponenten reichen bereits für eine Modellbildung aus. Ebenso wie bei der PCA sämtlicher Messdaten (Farbe und Textur) ist die Information der Klassifizierung nach den 3 Rassen in PC1 zu finden, allerdings muss auch hier darauf hingewiesen werden, dass die Unterschiede zwischen den einzelnen Rassen innerhalb der Altersstufe Kalb nicht sehr deutlich ausgeprägt sind. Die Kälber der Rasse Herford sind weitestgehend durch positive Score-Werte in PC1 und negative Score-Werte in PC2 gekennzeichnet. Die Rassen Limousine und Angus sind auch anhand der Texturmessungen im Score-Plot nicht voneinander zu unterscheiden, setzen sich jedoch deutlich von Herford ab. Im Bi-Plot (siehe Abb. 35) sind die Score-Werte und Ladungen dargestellt.

K_Hf ... Herford-Kalb K_L ... Limousine-Kalb K_A ... Angus-Kalb

Abb. 35: Bi-Plot zur gemeinsamen Darstellung von Faktorwerten und Ladungen, für PC1 und PC2 der PCA der Texturdaten (Altersstufe Kalb, alle Rassen)

Auch hier ist der Einfluss auf PC1 für alle Variablen der Textur gleich, lediglich in PC2 sind Unterschiede zu finden. Bei der Klassifizierung nach Alterstufen innerhalb einer Rasse (siehe Abschnitt 4.2.2.1 bis 4.2.2.3) kamen wir zu dem Ergebnis, dass die Texturdaten den entscheidenden Einfluss auf die Modellbildung haben, aber die Farbdaten z.T. ebenfalls zur Unterscheidung beitragen. Bei dem hier vorgestellten Versuch der Klassifizierung nach Rassen innerhalb einer Altersstufe ist die Textur ebenfalls ein wichtiges Unterscheidungskriterium. Die Farbdaten liefern aber auch hier einen gewissen Beitrag zur Modellbildung. So wird für die nur unter Verwendung der Texturdaten durchgeführte PCA eine erklärte X-Varianz in der Kalibrierung von 98,2 % berechnet, unter Einbeziehung aller experimentell bestimmten Werte in die PCA steigt dieser Wert auf 99,4 %.

Page 38: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

38

Es ist an dieser Stelle anzumerken, dass das Modell, welches nur auf Grundlage der Texturdaten erstellt wurde, im Vergleich zu dem auf Grundlage der Farb- und Texturdaten berechneten Modell robuster ist, da es nur 2 Hauptkomponenten benötigt.

4.2.2.5. Klassifizierung aufgrund von Messungen an Rindfleisch der Altersstufe Färse Farb- und Texturdaten:

H ... Herford L ... Limousine A ... Angus Abb. 36: Zusammenfassung der unter Verwendung der Farb- und Texturdaten

durchgeführten PCA der Messungen an Rindfleisch der Altersstufe Färse Abb. 36 zeigt das Ergebnis der auf der Grundlage der Farb- und Texturdaten durchgeführten Hauptkomponentenanalyse sämtlicher dem Kalibrierdatensatz zugeordneter Messungen an Fleisch der Altersstufe Färse aller 3 Rassen. In der Kalibrierung erklärt der Faktor PC1 50 % und der Faktor PC2 25 % der Varianz, damit erklären die ersten beiden Hauptkomponenten 75 % der Varianz in X. 5 Hauptkomponenten sind zur Modellbildung notwendig (siehe Abb. 36, D) und erklären zusammen 99,8 % der Varianz in X.

Page 39: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

39

H ... Herford L ... Limousine A ... Angus A: PC1 – PC2 B: PC1 – PC3 C: PC2 – PC3 D: PC2 – PC4

Abb. 37: Unter Verwendung der Farb- und Texturdaten erhaltene PCA Score-Plots der Messungen an Rindfleisch der Altersstufe Färse

Eine Klassifizierung nach den 3 Rassen ist bei der Altersstufe Färse im Score-Plot ebenso wenig offensichtlich wie bei der Altersstufe Kalb. Eine Separierung der Rassen findet sich andeutungsweise in Abb.37, Diagramm B und C. Die Information der Rasse steckt demnach in der 3. Hauptkomponente. Die Rassen Herford und Limousine sind im Score-Plot sehr gut zu unterscheiden (Diagramm B), jedoch die Faktorwerte der Rasse Angus setzen sich nicht von den anderen Rassen ab, sondern sind ebenso bei Herford wie bei Limousine zu finden.

Page 40: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

40

Nur Farbdaten: Die Möglichkeit der Modellbildung allein auf Grundlage der Farbdaten brachte folgende Ergebnisse:

A: H ... Herford L ... Limousine A ... Angus B: H ... Herford L ... Limousine A ... Angus

Abb. 38: Zusammenfassung der unter ausschließlicher Verwendung der Farbdaten durchgeführten PCA der Messungen an Rindfleisch der Altersstufe Färse

In Abb. 38 sind die Ergebnisse der allein auf Grundlage der Farbdaten durchgeführten PCA zusammengefasst. Die Darstellung der erklärten X-Varianz zeigt, dass bei einem Modell mit zwei Hauptkomponenten die erklärte Varianz in der Validierung (rosa Balken) mit 64,6 % gegenüber der erklärten Varianz in der Kalibrierung (blauer Balken) von 83,8 % klein ist und damit die Farbwerte für die alleinige Modellbildung nicht uneingeschränkt geeignet sind. Es ist aber festzustellen, dass sich in PC2 eine Klassifizierung hinsichtlich der 3 Rassen andeutet (siehe Abb. 38, A). Im Bi-Plot (Abb. 38, B) sind die Farbparameter (L, a und b) gemeinsam mit den Faktorwerten in PC1 und PC2 dargestellt. Aus dem Bi-Plot lässt sich ableiten, dass der Farbwert a weitestgehend die Messungen der Proben der Rasse Limousine beschreibt und der Farbwert b die der Rasse Herford. Die Messungen an Färsenfleisch der Rasse Angus bilden keine separate Klasse. Es ist auch zu bemerken, das ein erheblicher Teil der Messungen an Färsenfleisch der Rasse Limousine denen der Klasse Herford ähnlich ist.

Page 41: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

41

Nur Texturdaten:

A: H ... Herford L ... Limousine A ... Angus B: F_H ... Herford-Färse

F_L ... Limousine-Färse

F_A ... Angus-Färse Abb. 39: Zusammenfassung der unter ausschließlicher Verwendung der Texturdaten

durchgeführten PCA der Messungen an Fleisch der Altersstufe Färse In Abb. 39 ist das Ergebnis der auf Grundlage der Texturdaten durchgeführten PCA dargestellt. In der Kalibrierung erklärt der Faktor PC1 97 % und der Faktor PC2 32% der Varianz, damit erklären die ersten beiden Hauptkomponenten 99,4 % der Varianz in X. Zwei Hauptkomponenten sind für die Modellbildung erforderlich. Es ist keine Unterscheidung nach Rassen innerhalb der Altersstufe Färse zu finden, auch nicht, wenn man die 3. Hauptkomponente bei der Diskussion heranzieht. Die Diskussion des Einflusses der Textur auf die Modellbildung ist analog zu der in vorhergehenden Kapiteln zu führen. Auch hier ist der Einfluss auf PC1 für alle Variablen der Textur gleich, lediglich in PC2 sind Unterschiede zu finden. Bei der Altersstufe Färse haben die Farbdaten einen größeren Einfluss auf die Modellbildung als bei der Alterstufe Kalb. Die erklärte Varianz in der Validierung liegt bei den Messungen an Fleischproben von Färsen mit 64,6 % gegenüber der erklärten Varianz in der Validierung bei den Messungen an Fleischproben der Kälber von 48,5 % deutlich höher. Daraus und aus der andeutungsweisen Gruppierung im Score-Plot (Abb. 38, A) kann man den Schluss ziehen, dass sich bei der Altersstufe Färse das Fleisch verschiedener Rassen stärker in der Farbe unterscheidet und damit die Farbwerte einen größeren Stellenwert bei der Unterscheidung der Rassen einnehmen.

Page 42: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

42

4.2.2.6 Klassifizierung aufgrund der gesamten an Rindfleisch beider Altersstufen und sämtlicher Rassen gewonnenen Daten

Farb- und Texturdaten: Die Durchführung einer Hauptkomponentenanalyse aller Messdaten (Farbe und Textur; Proben aller Rassen und Altersstufen) sollte zum Ziel haben, die 6 möglichen Klassen zu unterscheiden. In Abb. 40 sind die Ergebnisse dieser PCA dargestellt.

A: Herford-Kalb Angus-Kalb Limousine-Kalb Herford-Färse Angus-Färse Limousine-Färse

Abb. 40 : Zusammenfassung der PCA der Farb- und Texturdaten von Rindfleischproben aller untersuchten Altersstufen und Rassen

Wie aus Abb. 40, Diagramm A zu erkennen ist, kann eine Separierung der 6 möglichen Klassen in der aus PC1 und PC2 aufgespannten Ebene nicht festgestellt werden. Der Faktor PC1 erklärt 48 % und der Faktor PC2 erklärt 30 % der Varianz der Kalibrierung. Entsprechend Abb. 40, Diagramm D sind 5 Hauptkomponenten für die Modellbildung notwendig. Diese erklären 99,3 % der Varianz in der komplexen Datenmatrix X. Die Durchführung weiterer PCA’s, die entweder nur die Farbdaten oder nur die Texturdaten berücksichtigen, ergab hinsichtlich der gewünschten Klassifizierung in die 6 Klassen kein Ergebnis. Es kann daher festgestellt werden, dass mit 5 Hauptkomponenten eine Modellbildung auf Grundlage der gemessenen instrumentellen Daten gelingt, welche aber nicht zu einer Unterscheidung der 6 Klassen führt.

4.2.3. SIMCA Der Versuch, eine Klassifizierung auf Grundlage der zur Verfügung stehenden Daten mit Hilfe der SIMCA-Methode vorzunehmen, gelang nicht. Voraussetzung für die SIMCA sind separate Klassen, die dann jeweils durch ein eigenständiges Hauptkomponentenmodell beschrieben werden. Wie aber in den vorhergehenden Hauptkomponentenanalysen gezeigt wurde, gelingt die Separierung der einzelnen Klassen nicht.

Page 43: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

43

Am Beispiel der Färsenfleisch-Messungen wurde für jede Rasse ein separates Hauptkomponentenmodell erstellt und eine SIMCA-Klassifizierung durchgeführt. Im Anhang (Tabelle 5) ist das Ergebnis dargestellt. Es kommt zu Mehrfachzuordnungen, d. h. zu keiner eindeutigen Klassifizierung der Daten.

4.2.3. Regression Die Durchführung einer Regression ist nicht sinnvoll, da die Altersstufen nur als Kategorievariablen fungieren, d.h. alle Kälber sind 9 Monate und alle Färsen sind 24 Monate; Zwischenstufen fehlen. Auch die Vorhersage der Rasse ist aus demselben Grund nicht möglich, da auch die Rassen lediglich Kategorievariablen darstellen und somit nicht aus den Messdaten errechnet werden können.

Page 44: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

44

4.3. Auswertung der Maiskeimöle Aufgabenstellung: Gegenstand der Untersuchungen waren Maiskeimölproben, die unter kontrollierten Bedingungen oxidativ gealtert wurden. Ein Ziel des Projektes bestand nun darin, die gealterten Proben mittels Gassensor-Array, Peroxidzahl (POZ) und NIR-Spektroskopie zu untersuchen und die Leistungsfähigkeit der genannten Untersuchungsmethoden in Bezug auf die Vorhersage der Alterungsstufe mittels multivariater Statistik zu beurteilen.

Durchführung der Experimente und der angewandten instrumentellen Methoden Als Probenmaterial wurden mehrere handelsübliche Flaschen Maiskeimöl einer Charge zu einer Sammelprobe vereinigt. Ein Teil dieser Sammelprobe wurde, zum Zwecke der Referenzmessungen, kühl (4°C) und dunkel aufbewahrt. Der andere Teil wurde unter ständigem Rühren in einem geschlossenen Gefäß bei 40°C im Inkubator gelagert. Während der Versuchsdauer von 6 Wochen (16.10. – 24.11.00) wurde täglich eine gealterte Probe und eine Referenzprobe entnommen und untersucht. Zur Beurteilung der Proben hinsichtlich der Alterung kamen unterschiedliche instrumentelle Methoden zum Einsatz. Eine Methode war die Untersuchung mittels des Gassensor-Arrays FOX 4000 der Firma Alpha M.O.S., Toulouse. Das Sensor-Array arbeitet mit 18 Sensoren, die sich in 3 Kammern befinden. Das Grundprinzip der Messung besteht in der Widerstandänderung der Metalloxidsensoren, die aufgrund der Wechselwirkungen mit dem Headspace, der zu untersuchenden Probe, hervorgerufen wird. Dazu wurden je 1 ml des jeweiligen frischen bzw. gealterten Öls in einem 120 ml Probenglas pipettiert und in einem Blockheater, bei 75°C zur Headspacegenerierung, temperiert. Für jede Probe wurden 6 Parallelbestimmungen durchgeführt. Die NIR-Absorptionen der Maiskeimölproben wurden mit einem FTIR-Spektrometer IFS-66 der Firma Bruker am Institut für Lebensmittel-Technik und Qualitätssicherung e.V. in Köthen gemessen. Es wurden 5 mm Küvetten verwendet. Die Messungen fanden im Frequenzbereich von 10000 – 4000 cm-1 statt. Auf die Einbeziehung des gesamten Spektrums in die Auswertung wurde aufgrund fehlender Zusammenhänge zwischen spektraler Intensität und POZ verzichtet. Es wurden lediglich die Frequenzen zwischen 4898 – 4703 cm-1 in die Auswertung einbezogen. Dieser Bereich entspricht dem in der Literatur für Peroxid-Banden angegebenen Bereich. Für jede Probe wurden 2 Parallelbestimmungen durchgeführt. Messung der Peroxidzahl (POZ) Mit Hilfe der Peroxidzahl kann der Frischezustand von Ölen, Fetten oder fettreichen Lebensmittel beurteilt werden. Die POZ wurde nach der Methode nach Wheeler 2bestimmt. Jede Probe konnte aufgrund der geringen zur Verfügung stehenden Mengen nur einmal vermessen werden.

2 [1] Matissek, R.; Schnepel, F.-M.; Steiner, G. ;`Lebensmittelanalytik, 2. Auflage, Springerverlag 1992.

Page 45: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

45

4.3.1 Auswertung der Sensorsignale des Fox 4000 4.3.1.1 Vorbehandlung der Daten – Preprocessing Die Zuordnung der Proben/Messungen zum Test- und Kalibrierdatensatz ist in Tabelle 6 auf der beiliegenden Diskette aufgelistet. Ein Teil der Parallelbestimmungen wurde dem Kalibrierdatensatz zugeordnet und der verbleibende Rest dem Testdatensatz.

Abb. 41: Mittelwert und Standardabweichung der Sensorantworten des Fox4000, für sämtliche als Kalibrierdaten ausgewählte Parallelbestimmungen, siehe Tabelle 6 im Anhang

Wie in Kapitel 3.1. bereits diskutiert wurde, ist die Wichtung der Daten, in diesem Fall der Sensorsignalmuster, von entscheidender Bedeutung. Auf der beiliegenden Diskette sind für alle gemessenen Ölproben die Sensorsignale der 18 Sensoren des Sensorarrays Fox4000 der Firma Alpha M.O.S., Toulouse zusammengefasst. Vergleicht man die Signalintensitäten der einzelnen Sensoren untereinander, so ist festzustellen, dass erhebliche Unterschiede bestehen, siehe Abb. 41. Eine Standardisierung, d.h. die Sensordaten werden durch ihre Standardabweichung dividiert, ist in diesem Falle angebracht. Jeder Sensor, auch wenn er nur sehr kleine Signale liefert, erhält die Varianz 1, so dass jeder Sensor den gleichen relativen Einfluss auf das Ergebnis nehmen kann. Bei allen folgenden Berechnungen sind die Sensorantworten standardisiert worden, von der Software auch als gewichtet bezeichnet.

4.3.1.2. Hauptkomponentenanalyse Ziel der PCA war es, herauszufinden, ob der Alterungsprozess mittels des Gassensor-Array Fox4000 verfolgt werden kann und inwieweit die Ölproben hinsichtlich des jeweiligen Alterungsstadiums klassifiziert werden können.

Page 46: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

46

Abb. 42 zeigt das Ergebnis der Hauptkomponentenanalyse der standardisierten Sensordaten der der Kalibrierdatenmatrix zugeordneten Messungen der Maiskeimölproben. Ausreißer wurden bereits bei einer vorhergehenden Hauptkomponentenanalyse deklariert und bei der erneuten Berechnung nicht berücksichtig. Der Vorgang der Beurteilung möglicher Ausreißer wurde in Kapitel 4.1.1. vorgestellt. In Tabelle 6 im Anhang sind die Proben für den Kalibrier- und Testdatensatz sowie die Probenahmetage bzw. –monate zusammengefasst Die Auswertung der nicht erklärten und der erklärten X-Varianz (Abb. 42, A und B ) zeigt, dass 3 Hauptkomponenten notwendig sind und diese 96 % der Varianz der Kalibrierung (blauer Balken) und 95 % der Varianz der Validierung (rosa Balken) in X zu erklären.

Abb. 42: A: Nicht erklärte Varianz der X-Variablen B: Erklärte Varianz der X-Variablen

Der Faktor PC1 erklärt 70% und der Faktor PC2 erklärt 21% der Varianz der Kalibrierung. Die beiden ersten Hauptkomponenten erklären zusammen 91 % der Varianz in X. Im Score-Plot (Abb. 43) sind die Projektionen der Proben / Messungen auf die ersten 4 Hauptkomponenten dargestellt. Die Proben / Messungen sind entsprechend dem Monat der Messung (Diagramme A, C und D) und der Woche der Messung (Diagramm B) gekennzeichnet. Es ist festzustellen, dass die erste Hauptkomponente PC1 die Information des Alterungsmonats bzw. der Alterungswoche beinhaltet, d.h. von links nach rechts nimmt das Alter der Proben / Messungen zu. Die Messungen / Proben der 1. Woche sowie der Referenzmessungen sind auf der linken Seite zu finden. Die relativ breite Streuung der Referenzmessungen ist möglicherweise darauf zurückzuführen, dass trotz Kühlung der Referenzproben eine leichte Alterung eingetreten ist, die durch die Sensorsignale detektiert wird. Eine weitere Ursache kann aber auch eine geringfügige Variation der Messbedingungen sein. Die Diagramme C und D zeigen keine Klassifizierung wie es in den Diagrammen A und B der Fall ist, d.h. in den Hauptkomponenten PC2, PC3 und PC4 kommt die Information der Alterungsdauer nicht zum Ausdruck.

Page 47: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

47

Diagramme A, C und D: Referenzmessungen, Messungen im Oktober Messungen im November

Diagramm B: 1. Woche Referenzmessungen 2. Woche 3. Woche 4. Woche 5. Woche 6. Woche

Abb. 43: PCA Score-Plots der Sensormessungen der Maiskeimölproben, Diagramm A und B: PC1 und PC2 Diagramm C: PC2 und PC3 Diagramm D: PC3 und PC4

Sensorgruppe 1: SY/G, SY/gCT, SY/gCTI Sensorgruppe 2: TA2, P10/2 ,T40/1 Sensorgruppe 3: SY/LG, SY/AA, SY/Gh, T30/1,P10/1, P40/1, T70/2, PA2, P30/1,

P40/2, P30/2, T40/2 Abb. 44: Loading-Plot für die Darstellung der Ladungen, PC1 und PC2

Page 48: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

48

Die Darstellung der X-loadings in Abb. 44 zeigt, dass die 18 Sensoren des Gassensor-Arrays sich in 3 Sensorgruppen aufteilen. Innerhalb jeder Sensorgruppe sind die Sensoren positiv miteinander korreliert. Weiterhin ist festzustellen, dass die Ladungsvektoren der Sensorgruppe 1 mit denen der Sensorgruppe 3 weitestgehend negativ korreliert sind. Die Ladungsvektoren der Sensorgruppe 2 haben im Vergleich zu den Sensorgruppen 1 und 3 nur einen geringen Einfluss auf die 1. Hauptkomponente und stehen damit in keinem Zusammenhang mit der Alterungsdauer. Die Sensoren der Sensorgruppe 2 sind auch nur zum Teil geringfügig positiv mit denen der Sensorgruppe3 korreliert. Allgemein kann man feststellen, dass die Ladungsvektoren der Sensorgruppe 2 weitestgehend senkrecht sowohl auf den Ladungsvektoren der Sensorgruppe 1 als auch zum großen Teil auf den Ladungsvektoren der Sensorgruppe 3 stehen und damit keine Korrelation zu beiden Sensorgruppen zeigen.

Abb. 45: Bi-Plot Wie der Bi-Plot (Abb. 45) zeigt werden die Proben / Messungen der ersten Oktoberwoche sowie die der Referenzmessungen hauptsächlich durch die Sensorantworten der Sensoren der Sensorgruppe 1 bestimmt. Für diese Proben ist der Alterungsprozess nur wenig oder überhaupt nicht fortgeschritten. Die Proben / Messungen der letzten Oktoberwoche und der Novemberwochen werden durch hohe Werte der Sensorgruppe 3 bestimmt. Ziel der PCA war es, herauszufinden, ob ein Zusammenhang zwischen den Sensorsignalen und dem Alterungsprozess besteht. Die durchgeführten Untersuchungen können diesen Zusammenhang bestätigen.

4.3.1.3 Regression - Vorhersage der Alterungsdauer auf Grundlage der Sensorsignale des FOX 4000

Ziel der Anwendung der PLS-Methode auf die Messdaten der Maiskeimölproben war es, einen quantitativen Zusammenhang zwischen den Sensorsignalmustern des Gassensor-Arrays Fox4000 und der Alterungsdauer herzustellen. Die Sensorantworten stellen hier die unabhängigen Variablen X dar. Eine Standardisierung der Sensorsignale war auf Grund der eingangs vorgestellten Statistik der Sensorsignale wichtig.

Page 49: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

49

Unabhängige Variablen X: Sensorsignale der Gassensor-Arrays FOX 4000 Abhängige Variable : Alterungsdauer in Tagen Die Auswertung möglicher Ausreißer wurde nach der gleichen Prozedur, wie in Kap. 4.1.3.1. durchgeführt. Bei der hier zu diskutierenden Regression (PLS1) sind die Ausreißer bereits entfernt.

Diagramm A: Referenz Diagramm B: Referenz Oktober 1. Oktoberwoche 1. Novemberwoche November 2. Oktoberwoche 2. Novemberwoche 3. Novemberwoche 4. Novemberwoche

Abb. 46: Zusammenfassung der durchgeführten PLS1 der Messungen an Maiskeimölproben

In Abb. 46 sind die Ergebnisse der Regression mit den oben angeführten Variablen dargestellt. Im Diagramm C ist die restliche Y- Varianz und im Diagramm D die erklärte Y-Varianz in Abhängigkeit von der Anzahl der Hauptkomponenten abgebildet. Die Auswertung beider Diagramme ergab, dass in der Kalibrierung für die Modellbildung 7 Hauptkomponenten notwendig sind, und diese zusammen 98,2 % der Varianz der Alterungsdauer (Y) erklären. Die Score-Plots (Diagramm A und B) zeigen, dass ähnlich wie in Abb. 43 die Information der Alterungsdauer in der ersten PLS-Hauptkomponente PC1 zu finden ist. Eine Möglichkeit, die Qualität des Regressionsmodells zu überprüfen, besteht in der Auswertung des Predicted vs. Measured Plots (Abb. 47). Hier sind die vorhergesagten Y-Werte gegen die gemessenen Y-Werte aufgetragen. Das Modell ist als gut zu bezeichnen, da der Offset (Schnittpunkt mit der y-Achse) mit 0,246 sehr klein ist und demzufolge dem Ursprung des Koordinatensystems sehr nahe ist. Ein weiteres Kriterium ist der Slope (Anstieg der berechneten Regressionsgeraden), der mit 0,968 dem idealen Anstieg von 1 sehr nahe kommt. Auch hier ist die Klassifizierung in die entsprechenden Alterungswochen gut zu erkennen.

Page 50: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

50

Referenz 1. Oktoberwoche 2. Oktoberwoche 1. Novemberwoche 2. Novemberwoche 3. Novemberwoche 4. Novemberwoche

Abb. 47: Darstellung der vorhergesagten Variablen Y gegen die gemessenen Variablen Y (tatsächliche Alterungsdauer) für ein Modell mit 7 PLS-Hauptkomponenten

Abb.48: Root Mean Square Error of Prediction (RMSEP)

Page 51: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

51

Die durchschnittliche Unsicherheit bei der Vorhersage der Alterungstage unbekannter Proben wird durch den RMSEP (Abb. 48) ausgedrückt. Für ein Modell mit 7 Hauptkomponenten liegt der Fehler bei 1,93 Tage, das bedeutet für zukünftige Vorhersagen einen Fehler von „vorhergesagter Wert ± 3,86 Tage“. In Abb. 49 sind die Regressionskoeffizienten für die einzelnen Sensoren für ein Modell mit 7 PLS-Hauptkomponenten dargestellt. Die X-Variablen sind standardisiert in die Berechnungen eingegangen. X-variablen mit einem hohen Regressionskoeffizienten sind für das Modell wichtig und X-Variablen mit kleinen Regressionskoeffizienten sind für das Modell unwichtig und können bei erneuten Berechnungen vernachlässigt werden. Ein Regressionsmodell mit 7 PLS-Hauptkomponenten zu erklären, ist sehr schwierig. Da die ersten beiden PLS-Hauptkomponenten bereits 91 % der Varianz in X und 92 % der Varianz in Y erklären, ist man bestrebt, die Anzahl der für das Modell relevanten PLS-Hauptkomponenten gering zu halten. Eine Möglichkeit besteht darin, die Variablen herauszufinden, die für das Modell signifikant, d.h. von besonderer Bedeutung, sind. Das Regressionsmodell soll somit stabiler und robuster werden. Im hier angewendeten Softwarepaket The Unscrambler (Fa. Camo) besteht die Möglichkeit einen „Uncertainty Test“, der von H. Martens entwickelt wurde, durchzuführen3. Eine ausführliche Diskussion der theoretischen Grundlagen ist in der angegebenen Literatur zu finden. Bei dem „Uncertainty Test“ werden Sub-Modelle gebildet. Die Sub-Modelle werden so erstellt, dass jeweils eine Probe nicht in die Berechnung eingeht. Für jedes Sub-Modell werden die entsprechenden Modell-Parameter, wie Regressionskoeffizient Bi, Faktorwerte (Scores) u.s.w. bestimmt. Weiterhin wird ein vollständiges Modell, das alle Proben gleichzeitig enthält, berechnet. Für das vollständige (totale) Modell werden ebenfalls alle Modellparameter wie z.B. der Regressionskoeffizient Btot berechnet. In einem weiteren Schritt werden die Varianzen der Regressionskoeffizienten Bi für jede Variable bestimmt. Mit dem STUDENTschen t-Test wird die Signifikanz der Bi berechnetet. Die Regressionskoeffizienten können mit einem „Uncertainty Limit“ präsentiert werden, Bi ± 2 * Standardabweichung, das entspricht einem Konfidenzintervall von 95%. In Abb. 49 sind die „Uncertainty Limits“ dargestellt.

1 Martens, H.; Martens, M. Modified Jack-knife Estimation of Parameter Uncertainty in Bilinear Modelling (PLSR) Food Quality and Preferences, 1999

Page 52: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

52

signif. = signifikant Abb. 49: Regressionskoeffizienten und deren „uncertainty limits“ (Unsicherheits Limits)

für die Sensoren des FOX 4000 mit Angabe der signifikanten Sensoren In Abb. 49 sind die von der Software als signifikant erkannten Sensoren gekennzeichnet. Eine erneute Durchführung der Regression mit den signifikanten Sensoren ergab folgende Ergebnisse:

Diagramm A und B: Referenz 1. Oktoberwoche 2. Oktoberwoche 1. Novemberwoche 2. Novemberwoche 3. Novemberwoche 4. Novemberwoche

Abb. 50: Zusammenfassung der für den 1. Fall durchgeführten PLS1 der Messungen an Maiskeimölproben mit signifikanten Sensoren

Ziel der Beschränkung der X-Variablen auf die als signifikant erkannten war es,das Modell robuster zu machen. Das bedeutet die Anzahl der notwendigen PLS-Hauptkomponenten auf ein Minimum zu reduzieren und dem Modell gegenüber Ausreißern Toleranz zu verleihen. Die Auswertung der restlichen Varianz der Validierung (Diagramm C) ergab, dass 4 PLS-Hauptkomponenten zur Beschreibung der Modells optimal sind. Demzufolge erklären 4 PLS-Hauptkomponenten in der Kalibrierung 97,0 % der Varianz der Alterungsdauer (Y) (Diagramm D).

Page 53: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

53

Die Information der Alterungsdauer ist auch hier in der 1. PLS-Hauptkomponente zu finden (Diagramm A). Im Vergleich zu der ersten Regression reduziert sich die Anzahl der notwendigen PLS-Hauptkomponenten von 7 auf 4, d.h. das Modell ist robuster geworden. Im Diagramm B ist der Predicted vs. Measured Plots (Abb. 50) dargestellt. Die Parameter für die Regressionslinie sind mit Slope=0,955 und Offset=0.336 geringfügig schlechter als für das vorherige Modell. Ein wichtiger Parameter ist der Root Mean Square Error of Prediction der für ein Modell mit 4 PLS-Hauptkomponenten bei 2,24 Tagen liegt, das bedeutet für zukünftige Vorhersagen einen Fehler von „vorhergesagter Wert ± 4,48 Tage“. An dieser Stelle muss festgestellt werden, dass die erwünschte Reduzierung der notwendigen PLS-Hauptkomponenten erreicht werden konnte. Die Reduzierung der Dimensionalität des Regressionsmodells hat aber zur Folge, dass der Fehler der Vorhersage sich verschlechtert. Eine weitere Möglichkeit, die Güte der hier vorgestellten Regressionsmodelle zu überprüfen, besteht in der Vorhersage (Prediction) der Alterungsdauer von als „unbekannte“ deklarierten Proben. Die Vorhersage der Alterungsdauer „unbekannter“ Proben auf Grundlage der Sensorsignale ergab für die beiden vorgestellten Regressionsmodelle folgende Ergebnisse: In Abb. 51 ist das Ergebnis der Vorhersage der Alterungsdauer für das Modell (7 PLS-Hauptkomponenten), das alle Sensorsignale beinhaltet und in Abb. 52 ist das Ergebnis für das Modell (4 PLS-Hauptkomponenten), das nur die Signale der signifikanten Sensoren beinhaltet, dargestellt. Im Anhang (Tabelle 7 und 8) sind die vorhergesagten Alterungstage, die berechneten Abweichungen für die Proben des Testdatensatzes zusammengefasst. Die Abweichungen (Deviation) sind ein Maß für die Verlässlichkeit der Vorhersage. An dieser Stelle muss wieder darauf hingewiesen werden, dass die berechneten Abweichungen (Deviation) nicht zur Beschreibung des Fehlers der Vorhersage geeignet sind. Alle hier vorgestellten Vorhersagen (Prediction) beinhalten mögliche Ausreißer.

Abb. 51: Vorhergesagte Werte für die Proben / Messungen des Testdatensatzes auf

Grundlage des PLS-Modells mit 7 PLS-Hauptkomponenten und allen Sensoren.

Page 54: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

54

Abb. 52: Vorhergesagte Werte für die Proben / Messungen des Testdatensatzes auf

Grundlage des PLS-Modells mit 4 PLS-Hauptkomponenten signifikanter Sensoren.

Die Auswertung der Prediction zeigt für beide Modelle, dass die Alterungstage nur teilweise „gut“ vorhergesagt werden, siehe Tab. 7 und 8. Große Abweichungen sind im Bereich geringer Alterungsdauer, Referenzmessungen und Messungen während der 1. und 2. Woche, zu finden. Dagegen werden die länger gealterten Proben (3., 4. Oktoberwoche und alle Novembermessungen) relativ gut vorhergesagt. Der Vergleich der vorhergesagten Alterungstage mit den Referenzangaben lässt schlussfolgern, dass mit beiden Modellen keine befriedigenden Werte gefunden wurden. Die Sensorsignalmuster können zwar den Trend der Alterung gut wiederspiegeln, aber zur exakten Vorhersage der Alterungsdauer sind sie nicht uneingeschränkt geeignet.

4.3.1.4. Vorhersage der POZ auf Grundlage der Sensorsignale Die Vorhersage der Peroxidzahlen auf Grundlage der Sensorsignale soll im Folgenden diskutiert werden. Die Sensorantworten des FOX 4000 stellen dabei die unabhängigen Variablen X und die POZ die abhängige Variable Y dar. Die Regression unter Einbeziehung aller Sensoren ergab, dass 9 PLS-Hauptkomponenten notwendig sind, um 98,2 % der Varianz in Y (POZ) zu beschreiben. Die Diskussion eines Modells mit 9 PLS-Hauptkomponenten ist, wie schon in vorhergehenden Abschnitten vorgestellt, zu komplex. Die Reduzierung der notwendigen PLS-Hauptkomponenten wurde durch die Beschränkung, auf für das Modell signifikante Sensoren, erreicht. In Abb. 53 (Diagramm B) sind die vom Programm als signifikant erklärten Sensoren abgebildet. Das berechnete Modell benötigt 5 PLS-Hauptkomponenten, um 97,9% der Varianz in Y (POZ) zu erklären. Der Root Mean Square Error of Prediction (RMSEP) beträgt für dieses Modell, unter Verwendung von 5 PLS-Hauptkomponenten 0,36, das bedeutet für zukünftige Messungen „vorhergesagter Wert ± 0,72“.

Page 55: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

55

Abb. 53: Zusammenfassung der PLS1 der Messungen an Maiskeimölproben unter

Berücksichtigung signifikanter Sensoren

Abb. 54: Vorhergesagte POZ für die Proben / Messungen des Testdatensatzes , Modell mit 5 PLS-Hauptkomonenten

Page 56: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

56

4.3.2 Vorhersage der Alterungsdauer auf Grundlage der Peroxidzahl Die Peroxidzahl steht mit der Alterung, d.h. der Ranzigkeit der Maiskeimölproben, im engen Zusammenhang. Sie stellt ein Maß für den peroxidisch gebundenen Sauerstoff in Fetten dar und wird in mg aktiven Sauerstoffs pro kg Probe angegeben.

Abb. 55: POZ gegen Alterungsdauer, Kalibrierdatensatz Aufgrund der im zu untersuchenden Öl ablaufenden Reaktionen, wie der Autoxidation und der Lipoxigenase-Katalyse, kommt es in der Anfangsphase des Versuches zu nur geringfügigen Änderungen der Peroxidzahl mit zunehmenden Alter (Abb. 55). Nach der Anfangsperiode, die zur Initiierung der Alterungsprozesse notwendig ist, kommt es mit fortschreitenden Alter zur exponentiellen Erhöhung der Peroxidzahl. Die Peroxidzahl steht demnach in keinem linearen Zusammenhang mit der Alterungsdauer. Eine Regression der Daten mit dem Ziel, die Alterungstage auf Grundlage der POZ vorherzusagen, ist in diesem Falle nur möglich, wenn man sich auf lineare Bereiche beschränkt. Der erste Bereich wäre bis zum 16.11. zu setzen. Die POZ schwankt in diesem Bereich willkürlich zwischen 1 und 3. Eine Kalibrierung ist für diesen Bereich mit den vorliegenden Daten nicht günstig. Für zukünftige Messungen wäre es vorteilhaft, die Anzahl der Wiederholungsmessungen pro Probe sowie die Dichte der Probennahmetage zu erhöhen, um Fehler bei der Bestimmung der POZ auszuschließen. Für den ansteigenden Bereich (14.11. – 24.11.) wurde eine lineare Regression mit anschließender Vorhersage für die als unbekannt deklarierten Proben durchgeführt. In Abb. 56 sind der Predicted vs. Measured Plot sowie die statistischen Parameter der Regressionsgeraden zu finden. Der RMSEP ist mit 1,11 Tagen als sehr gut einzuschätzen. Für zukünftige Messungen ist demnach ein Fehler von „vorhergesagter Wert ±2,22 Tage“ zu erwarten.

Page 57: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

57

Abb. 56: Darstellung der vorhergesagten Y-Variablen (vorhergesagte Alterungsdauer)

gegen die gemessenen Y-Variablen (tatsächliche Alterungsdauer) für ein Modell mit 1 PLS-Hauptkomponente

Die Vorsage der Alterungsdauer auf Grundlage des erstellten Modells ergab folgende Resultate:

Abb. 57: Vorhergesagte Alterungstage für die Proben / Messungen des Testdatensatzes , Modell mit 1 PLS-Hauptkomonente In Abb. 57 sind die aufgrund der gemessenen POZ vorhergesagten Alterungstage dargestellt. Im Anhang (Tabelle 9) sind die vorhergesagten Werte für den Testdatensatz sowie zum Vergleich die bekannten Alterungstage als Referenz zusammengefasst. In diesem Fall ist festzustellen, dass die Abweichungen von den bekannten Alterungstagen sehr gering sind. An dieser Stelle ist noch darauf hinzuweisen, dass die hier vorgestellte Methode zur Vorhersage der Alterungsdauer auf Grundlage der POZ zwar sehr gute Ergebnisse liefert, aber der untersuchte Bereich nicht repräsentativ für reale Messungen ist. Ein Ausweg besteht in der zeitlichen Ausweitung der Versuche, die über die hier gemessenen POZ hinausgehen.

Page 58: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

58

4.3.3. Vorhersage der Alterungsdauer auf Grundlage der gemeinsamen Auswertung von POZ und Sensorsignalen

Unabhänge Variablen X: Sensorsignale des Gassensorarrays FOX 4000 und POZ Abhängige Variable Y: Alterungsdauer in Tagen In Abb.58 ist das Ergebnis der Regression (PLS1) dargestellt.

Diagramm A: Referenzmessungen Oktober November Abb. 58: Zusammenfassung der für den 3. Fall durchgeführten PLS1 der Messungen an

Maiskeimölproben Die Auswertung der restlichen Varianz der Validierung (Abb. 58, Diagramm C) benötigt man 2 PLS-Hauptkomponenten, um 96,0 % der Varianz in Y (Diagramm D) zu beschreiben. Auch hier ist die Information der Alterungsdauer in der ersten PLS-Hauptkomponente zu finden (Diagramm A). Die Regressionskoeffizienten sind im Diagramm B mit den „Uncertainty Limits“ für ein Modell mit 2 PLS-Hauptkomponenten dargestellt. Die Auswertung dieser Grenzen ergab, dass alle X-Variablen (POZ und alle Sensorsignale) für das Modell signifikant sind. In Abb. 59 ist der Predicted vs. Measured Plot sowie die statistischen Parameter der Regressionsgeraden zu finden.

Page 59: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

59

Abb. 59: Darstellung der gemessenen Y-Variablen gegen die vorhergesagten Y-

Variablen für ein Modell mit 2 PLS-Hauptkomponenten Der Root Mean Square Error of Prediction liegt für das diskutierte Modell bei 2,24 Tagen, das bedeutet „vorhergesagter Wert ± 4,48 Tage“. Die Vorhersage der Alterungsdauer auf Grundlage des erstellten Modells ist im Folgenden dargestellt:

Abb. 60: Vorhergesagte Alterungstage für die Proben / Messungen des Testdatensatzes , Modell mit 2 PLS-Hauptkomonenten Im Anhang Tabelle 10 sind die vorhergesagten Werte zusammengefasst. Auch hier werden Alterungsdauer nur bedingt „gut“ vorhergesagt. Die größten Abweichungen treten wieder im Bereich geringer Alterung auf, wie schon bei den vorher diskutierten Modellen (Fall 1 und 2) beobachtet. Die in Tabelle 10 angegebene prozentuale Abweichung von der Referenz zeigt, dass für das Modell, das sowohl die POZ als auch die Sensorsignale in die Regression einbezieht, die besten Ergebnisse, d.h. die geringsten Abweichungen gefunden werden.

Page 60: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

60

4.3.4 Auswertung der NIR-Absorptionen der Maiskeimölproben Die NIR-Absorptionen der Maiskeimölproben wurden mit einem FTIR-Spektrometer IFS-66 der Firma Bruker am Institut für Lebensmittel-Technik und Qualitätssicherung e.V. in Köthen gemessen. Es wurden 5 mm Küvetten verwendet. Die Messungen fanden im Frequenzbereich von 10000 – 4000 cm-1 statt. Auf die Einbeziehung des gesamten Spektrums in die Auswertung wurde aufgrund fehlender Zusammenhänge zwischen spektraler Intensität und POZ verzichtet. Es wurden lediglich die Frequenzen zwischen 4898 – 4703 cm-1 in die Auswertung einbezogen. Dieser Bereich entspricht dem in der Literatur für Peroxid-Banden4 angegebenen Bereich.

4.3.4.1 Vorbehandlung der Daten – Preprocessing IR-Spektren können durch eine Vielzahl von physikalischen Effekten so beeinflusst werden, dass chemische Eigenschaften nicht mehr durch die Spektren repräsentiert werden und damit eine Interpretation unmöglich wird. Die Spektrenaufnahme kann u.a. durch schwankende Temperatur- und/oder Druckverhältnisse, sich ändernde optische Weglängen oder durch zusätzliches Untergrundrauschen beeinflusst werden. Als Resultat dieser Einflüsse treten additive und multiplikative Effekte auf. Die Darstellung der Effekte ist mit Hilfe des Scatter-Effect Plots möglich. Im Scatter-Effect Plot werden die durchschnittlichen spektralen Werte, die statistisch berechnet wurden, gegen die individuellen spektralen Werte, die gemessen wurden, für jede Probe einzeln aufgetragen. Jede Regressionslinie im Scatter-Plot ist durch eine Geradengleichung beschrieben. Die multiplikativen Effekte sind durch unterschiedliche Anstiege (Amplification) der einzelnen Geraden gekennzeichnet und die additiven Effekte durch variierende Schnittpunkte (Offset) mit der Ordinate gekennzeichnet. Die Multiplicative Scatter Correction (MSC) ist eine Transformationsmethode, um additive und multiplikative Effekte zu eliminieren und die relevanten chemischen Informationen zugänglich zu machen. In die statistische Berechnung sind die Daten des Kalibrier- und des Testdatensatzes eingegangen. In Abb. 61 ist der Scatter-Plot für die Messungen der Probe vom 17.10. dargestellt. Aus der Abbildung ist ersichtlich, dass die Regressionslinien unterschiedliche Schnittpunkte mit Ordinate haben und damit ein additiver Effekt vorliegen sollte. Die Untersuchung weiterer Proben ergab, dass die Wiederholungsmessung in jedem Fall von der ersten Messung abweicht. Das Vorliegen eines additiven bzw. multiplikativen Effektes kann ausgeschlossen werden. Die Ursache dafür kann nur im Vorliegen eines systematischen Fehlers zu suchen sein, auf den hier nicht näher eingegangen werden kann. Für die Verarbeitung der NIR-Absorptionen bedeutet das, dass die erste und zweite Messung getrennt voneinander betrachtet werden müssen.

4Literatur Peroxid-Bande

Page 61: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

61

Abb. 61: Darstellung der Streueffekte für die Doppelbestimmung der Probe vom

17.10.00 4.3.4.2 Auswertung der NIR-Absorptionen der Maiskeimölproben Ziel der Untersuchungen ist die Erstellung eines quantitativen Zusammenhanges zwischen den NIR-Absorptionen und der Alterungsdauer herzustellen. Die NIR-Absorptionen stellen hier die unabhängigen Variablen X und die Alterungsdauer die abhängigen Variablen dar. Eine Vorbehandlung der Daten mittels MSC (Multiplicative Scatter Correction) sowie die Bildung der ersten und zweiten Ableitung brachte keinen Erfolg hinsichtlich der Kompensation der Unterschiede zwischen der ersten und zweiten Messreihe. Als Konsequenz wurden die Messreihen separat ausgewertet, wobei sich analoge Aussagen ergaben. Ergebnisse der 1. Messreihe: In Abb. 62 sind die Ergebnisse der PLS der ersten Messreihe dargestellt. Die Auswertung der nicht erklärten Varianz (Abb. 62, C) ergab, dass für die Modellbildung 3 PLS-Hauptkomponenten notwendig sind, um 98,0% der Varianz der Kalibrierung und 96,7% der Varianz der Validierung zu beschreiben. Die Information der Alterungsdauer liegt hauptsächlich in der ersten PLS-Hauptkomponente (Abb. 62, A). Im Diagramm B sind die Regressionskoeffizienten für die NIR-Frequenzen, für ein Modell mit 3 PLS-Hauptkomponenten dargestellt. Die Regressionskoeffizienten sind bis 4788 cm-1 negativ und ab dieser Frequenz positiv.

Page 62: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

62

Diagramm A: 1. Oktoberwoche 1. Novemberwoche

2. Oktoberwoche 2. Novemberwoche 3. Novemberwoche 4. Novemberwoche

Abb. 62: Zusammenfassung der für die 1. Messreihe durchgeführte PLS1 an Maiskeimölproben (Ausreißer bereits entfernt) unter Verwendung des oben angegebenen Frequenzbereiches

Der RMSEP ist für dieses Regressionsmodell 2,24 Tage berechnet worden. Für zukünftige Vorhersagen ist unter Verwendung dieses Modells ein Fehler von „vorhergesagter Wert ±4,48 Tage“ zu erwarten.

Abb. 63: Darstellung der gemessenen Y-Variablen gegen die vorhergesagten Y-

Variablen für ein Modell mit 3 PLS-Hauptkomponenten Die Parameter der Regressionsgeraden (Abb. 63) sind mit einem Offset von 0,718 und einem Anstieg der Regressionsgeraden von 0,957 als gut einzustufen.

Page 63: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

63

Möglichkeit des „Uncertainty-Tests“ Die erneute Regression der Daten mit den signifikanten Absorptionen ergab folgende Ergebnisse: In Abb. 64, Diagramm B, sind die durch den „Uncertainty Test“ als signifikant erkannten Regressionskoeffizienten dargestellt. Im Vergleich zur Abb. 62 ist das sogenannte Rauschen entfernt. Das neue Modell benötigt ebenfalls 3 PLS-Hauptkomponenten und erklärt damit 98,3 % der Varianz der Kalibrierung (Diagramm C und D). Die Information der Alterungsdauer ist auch hier in PC1 enthalten. Im Diagramm B sind die signifikanten Regressionskoeffizienten für die einzelnen NIR-Messpunkte dargestellt. Der Fehler der Vorhersage verbessert sich auf 1,94 Tage, das entspricht einem Fehler von „vorhergesagter Wert ±3,88 Tage“.

Abb. 64: Zusammenfassung der für die 1. Messreihe durchgeführte PLS1 an

Maiskeimölproben (Ausreißer bereits entfernt) unter Verwendung signifikanter Absorptionen

Abb. 65: Darstellung der gemessenen Y-Variablen gegen die vorhergesagten Y-Variablen für ein Modell mit 3 PLS-Hauptkomponenten, unter Verwendung signifikanter Absorptionen

Page 64: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

64

Ergebnisse der 2. Messreihe: In Abb. 66 sind die Ergebnisse der PLS der zweiten Messreihe dargestellt. Die Auswertung der nicht erklärten Varianz (Abb. 66, C) ergab, dass für die Modellbildung nur eine PLS-Komponente erforderlich ist und dass diese bereits 98% der Varianz der Kalibrierung und 98% der Varianz der Validierung erklärt. Die Information der Alterungsdauer liegt auch hier in der ersten Hauptkomponente (Abb. 66, A). Die im Diagramm B dargestellten Regressionskoeffizienten sind für die Messungen der 2. Messreihe ausnahmslos negativ, d.h. die Absorptionen stehen im negativen Zusammenhang mit der Alterungsdauer. Eine Untersuchung auf signifikante Absorptionen ergab, dass alle signifikant sind, das steht auch mit der Tatsache im Einklang, dass für das Modell die erste PLS-Hauptkomponete ausreichend ist. Die Auswertung des Predicted vs. Measured Plots (Abb. 67) sowie die angegebenen statistischen Parameter lassen den Schluss zu, dass das Modell mit einem Offset von 0,36 und einem Slope von 0,98 als sehr gut zu bewerten ist. Der RMSEP wurde mit 1,82 Tage berechnet. Für zukünftige Vorhersagen ist damit ein Fehler von ± 3,64 Tage zu erwarten.

Diagramm A: Referenzmessungen Oktober November

Abb. 66: Zusammenfassung der für die 2. Messreihe durchgeführte PLS1 an Maiskeimölproben (Ausreißer bereits entfernt) unter Verwendung des oben angegebenen Frequenzbereiches

Page 65: Abschlussbericht zum Forschungsvorhaben „Intelligente ...€¦ · 3 2. Darstellung der Arbeitsaufgaben der Projektpartner Aufgaben der Arbeitsgruppe um Prof. Dr. Hanrieder, FB 1

65

Abb. 67: Darstellung der gemessenen Y-Variablen gegen die vorhergesagten Y-

Variablen für ein Modell mit 1 PLS-Hauptkomponente

Vorhersage der Alterungstage Zur Überprüfung der Regressionsmodelle sollten, wie schon in den vorhergehenden Kapiteln dargestellt, Daten herangezogen werden, die nicht zur Modellbildung benutzt wurden. Eine Möglichkeit die erstellten PLS-Modelle auf Validität zu überprüfen, besteht in der Vorhersage der Alterungsdauer für die Messdaten der 1. Messreihe mittels des PLS-Modelles der zweiten Messreihe und umgekehrt. Die resultierenden vorhergesagten Alterungstage sollten den Fehler von 2*RMSEP nicht überschreiten. Der Versuch die Alterungstage, wie oben beschrieben, für die jeweiligen Messreihen vorherzusagen, führte zu dem Ergebnis, dass die PLS-Modelle nicht auf die jeweilige andere Messreihe angewendet werden kann.