Segmen tierungsfreie und ersc hein ungsbasierterisack.leute.server.de/paper/da.pdf · hein...

Segmentierungsfreie und erscheinungsbasierteErkennung dreidimensionaler ObjekteDiplomarbeit im Fach InformatikvorgelegtvonRobert Risackgeb. am 1. April 1970 in Erlangen

Angefertigt amLehrstuhl f�ur Mustererkennung (Informatik 5)Institut f�ur Mathematische Maschinen und DatenverarbeitungFriedrich-Alexander-Universit�at Erlangen-N�urnbergBetreuer: Joachim Hornegger, Josef P�oslBeginn der Arbeit: 1. August 1996Abgabe der Arbeit: 3. Februar 1997

Ich versichere, da� ich die Arbeit ohne fremde Hilfe und ohne Benutzung anderer alsder angegebenen Quellen angefertigt habe und da� die Arbeit in gleicher oder �ahnlicherForm noch keiner anderen Pr�ufungsbeh�orde vorgelegen hat und von dieser als Teil einerPr�ufungsleistung angenommen wurde. Alle Ausf�uhrungen, die w�ortlich oder sinngem�a��ubernommen wurden, sind als solche gekennzeichnet.Die Richtlinien des Lehrstuhls f�ur Studien- und Diplomarbeiten habe ich gelesen undanerkannt, insbesondere die Regelung des Nutzungsrechts in Punkt 2.3.Erlangen, den 3. Februar 1997 : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :

�UbersichtVerfahren zur Objekterkennung basieren gr�o�tenteils auf der Detektion von Segmen-tierungsobjekten im Bild als Merkmale, wie zum Beispiel Kanten oder Ecken. Methodenzur Segmentierung sind jedoch fehleranf�allig. In der Spracherkennung werden dagegenschon seit langem mit Erfolg Verfahren verwendet, die auf eine Segmentierung im Signalverzichten. Der erscheinungsbasierte Ansatz zur Objekterkennung verfolgt eine �ahnlicheIdee. Merkmale werden mit einer analytisch zu bestimmenden Transformation direkt ausdem Grauwertbild gewonnen.In dieser Arbeit werden verschiedene analytische Verfahren zur Merkmalsextraktiongetestet. Der Ein u� von nichtlinearen, vorverarbeitenden Filtern auf diese Verfahrenwird untersucht. Au�erdem werden zwei Methoden zur Modellgenerierung von Objektenim Merkmalsraum vorgestellt.

Inhaltsverzeichnis1 Einleitung 12 Analytische Merkmalsgewinnung 72.1 Problemabh�angige Reihenentwicklungen : : : : : : : : : : : : : : : : : : : 82.1.1 G�utema�e : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 82.1.2 Kernmatrizen : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 112.2 Berechnung der Transformationsbasis : : : : : : : : : : : : : : : : : : : : : 142.2.1 Quadratische Form : : : : : : : : : : : : : : : : : : : : : : : : : : : 152.2.2 Implizite Kernmatrix : : : : : : : : : : : : : : : : : : : : : : : : : : 182.2.3 Intraklassenabstand : : : : : : : : : : : : : : : : : : : : : : : : : : : 192.3 Nichtlineare Vorverarbeitung : : : : : : : : : : : : : : : : : : : : : : : : : : 213 Eigenraum 233.1 Rekonstruktion und Komprimierung : : : : : : : : : : : : : : : : : : : : : 233.2 Punkte im Eigenraum : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 243.3 Translation : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 254 Objektmodelle im Eigenraum 274.1 Mannigfaltigkeiten : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 274.2 Normalverteilungen : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 294.3 Vergleich der Modelle : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 315 Probleme und Einschr�ankungen 336 Programmstrukturen 376.1 SLAM{Struktur : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 386.2 Einbindung in �̀��o& : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 396.2.1 Klassen : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 406.2.2 Programme : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 41

i

7 Ergebnisse 457.1 Zusammenfassung der Ergebnisse von Murase und Nayar : : : : : : : : : : 457.2 Experimentelle Ergebnisse : : : : : : : : : : : : : : : : : : : : : : : : : : : 497.2.1 Verwendete Bildmengen : : : : : : : : : : : : : : : : : : : : : : : : 497.2.2 Transformationen und Modelle : : : : : : : : : : : : : : : : : : : : 507.2.3 Vorverarbeitung : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 547.2.4 Zeitmessungen : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 577.3 Schlu�folgerungen : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 598 Zusammenfassung 61Literaturverzeichnis 65A Dokumentation 69Klassendokumentation Interpolation : : : : : : : : : : : : : : : : : : : : : : : : 70Klassendokumentation QuadBSpline : : : : : : : : : : : : : : : : : : : : : : : : 71Klassendokumentation BSplineCurve : : : : : : : : : : : : : : : : : : : : : : : : 72Klassendokumentation BSplineSurface : : : : : : : : : : : : : : : : : : : : : : : 74Klassendokumentation BSplineVolume : : : : : : : : : : : : : : : : : : : : : : : 76Klassendokumentation GoldenSection : : : : : : : : : : : : : : : : : : : : : : : : 78Klassendokumentation GridGoldenSection : : : : : : : : : : : : : : : : : : : : : 79Funktionsdokumentation congrad : : : : : : : : : : : : : : : : : : : : : : : : : 80Funktionsdokumentation �letail : : : : : : : : : : : : : : : : : : : : : : : : : : 81Funktionsdokumentation strrstr : : : : : : : : : : : : : : : : : : : : : : : : : : 82Programmdokumentation average : : : : : : : : : : : : : : : : : : : : : : : : : 83Programmdokumentation distance : : : : : : : : : : : : : : : : : : : : : : : : 84Programmdokumentation eigen : : : : : : : : : : : : : : : : : : : : : : : : : : 85Programmdokumentation gclass : : : : : : : : : : : : : : : : : : : : : : : : : : 87Programmdokumentation gvitovec : : : : : : : : : : : : : : : : : : : : : : : : 88Programmdokumentation ipolate : : : : : : : : : : : : : : : : : : : : : : : : : 90Programmdokumentation project : : : : : : : : : : : : : : : : : : : : : : : : : 91Programmdokumentation sample : : : : : : : : : : : : : : : : : : : : : : : : : 93Programmdokumentation traing : : : : : : : : : : : : : : : : : : : : : : : : : : 94Programmdokumentation vectogvi : : : : : : : : : : : : : : : : : : : : : : : : 95ii

Abbildungsverzeichnis1.1 Objekt sowie Kanten und Eckpunkte des Objekts : : : : : : : : : : : : : : 21.2 Segmentierungsbasiertes Klassi�kationssystem : : : : : : : : : : : : : : : : 31.3 Klassentrennung im Merkmalsraum : : : : : : : : : : : : : : : : : : : : : : 52.1 G�utema�e I : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 82.2 Streifenproblem der Karhunen{Lo�eve{Transformation : : : : : : : : : : : : 92.3 G�utema�e II : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 102.4 Bildung eines Vektors aus einem Bild. : : : : : : : : : : : : : : : : : : : : : 152.5 Struktogramm zur Eigenvektorberechnung : : : : : : : : : : : : : : : : : : 192.6 Nullraum des Intraklassenabstands : : : : : : : : : : : : : : : : : : : : : : 203.1 Translation eines Kreises : : : : : : : : : : : : : : : : : : : : : : : : : : : : 253.2 Translation eines Quadrates : : : : : : : : : : : : : : : : : : : : : : : : : : 264.1 Beispiel einer Mannigfaltigkeit : : : : : : : : : : : : : : : : : : : : : : : : : 284.2 Verteilung von Merkmalen : : : : : : : : : : : : : : : : : : : : : : : : : : : 326.1 SLAM Klassenstruktur : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 386.2 Klassen zur Optimierung mit dem Goldenen Schnitt : : : : : : : : : : : : : 406.3 Segmentierungsfreies Klassi�kationssystem : : : : : : : : : : : : : : : : : : 427.1 Holz�guren von Murase und Nayar : : : : : : : : : : : : : : : : : : : : : : 467.2 Erkennungsraten : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 477.3 Fehler bei der Ansichtsbestimmung mit 4 Objekten : : : : : : : : : : : : : 477.4 Fehler bei der Ansichtsbestimmung mit 20 Objekten : : : : : : : : : : : : : 487.5 Objekte der Bildmenge A : : : : : : : : : : : : : : : : : : : : : : : : : : : 497.6 Objekte der Bildmenge B. : : : : : : : : : : : : : : : : : : : : : : : : : : : 507.7 Transformationen und Modelle : : : : : : : : : : : : : : : : : : : : : : : : : 517.8 Kombiniertes Ma� : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 527.9 Vorverarbeitete Bilder mit Karhunen{Lo�eve{Transformation : : : : : : : : 547.10 Vorverarbeitete Bilder mit Klassenzentrenabstand : : : : : : : : : : : : : : 56iii

Tabellenverzeichnis6.1 Programme zur erscheinungsbasierten Objekterkennung : : : : : : : : : : : 426.2 Hilfsprogramme : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 437.1 Fehler der Positionsbestimmung mit Transformationen : : : : : : : : : : : 527.2 Erkennungsraten mit Bildmenge B : : : : : : : : : : : : : : : : : : : : : : 537.3 Erkennungsraten bei Translationsinvarianz : : : : : : : : : : : : : : : : : : 537.4 Positionsbestimmung nach Filterung : : : : : : : : : : : : : : : : : : : : : 557.5 Vorverarbeitung bei Bildmenge B : : : : : : : : : : : : : : : : : : : : : : : 577.6 Zeitmessungen Lernphase : : : : : : : : : : : : : : : : : : : : : : : : : : : 577.7 Zeiten nach Gr�o�e der Lernstichprobe : : : : : : : : : : : : : : : : : : : : : 587.8 Zeitmessungen Arbeitsphase : : : : : : : : : : : : : : : : : : : : : : : : : : 58

iv

Kapitel 1EinleitungDie Mustererkennung besch�aftigt sich damit, Rechnern wahrnehmende F�ahigkeiten mitHilfe von Sensoren zu geben. Mit dem Anstieg der Rechenleistung von Computern er-reichen Themen der Mustererkennung wie automatisches Sprachverstehen oder Rechner-sehen ein immer weiteres Interesse. Ein aktuelles Gebiet aus diesem Bereich ist die Er-kennung von Objekten mit Hilfe von Kameradaten. W�ahrend die Erkennung zweidimen-sionaler Objekte als weitgehend gel�ost gilt [Hor96], ist die Erkennung dreidimensionalerObjekte noch Gebiet zahlreicher Arbeiten.Als Objekterkennung wird oft Klassi�kation und Lokalisation eines Objekts verstanden[Hor96]. Bei der Klassi�kation wird festgestellt, welches Objekt aus einer vorgegebenenMenge von Objekten in einem Bild vorliegt. Lokalisation ist die Bestimmung der Lageeines Objekts im Bild bez�uglich Translation und Rotation. In dieser Arbeit wird jedochin erster Linie die Klassi�kation betrachtet.Bisherige Objekterkennungssysteme verwenden oft wichtige Teile eines Objekts imBild, sogenannte Segmentierungsobjekte [Nie90]. Solche Segmentierungsobjekte k�onnenzum Beispiel Kanten oder Eckpunkte eines Objekts sein. Die daf�ur verwendeten Verfahrensind allerdings anf�allig gegen�uber Rauschen [Mur95b, Hor96]. H�au�g k�onnen zum BeispielLinien nur abh�angig von den Beleuchtungsverh�altnissen erkannt werden, oder es werdenmehrere parallele Linien anstelle einer einzigen erkannt. Bei dreidimensionalen Objektensind immer nur ein Teil der Ecken und Kanten sichtbar, da die anderen vom Objekt selbstverdeckt sind. Zus�atzlich geht durch die Segmentierung Information verloren, insbesonderebei Punktmerkmalen. Schlie�lich ist es auch f�ur einen Menschen schwierig, Objekte einzigund allein durch eine Menge von Punkten zu erkennen, die in eine Ebene projiziert wurden(siehe Bild 1.1).F�ur solche Verfahren verwenden viele Systeme CAD{Modelle [Arm93, Che93], umverschiedene Objekte darzustellen, die erkannt werden sollen. Derartige Modelle m�ussenin der Regel aufwendig von Hand erstellt werden (Bild 1.2). Dieses Vorgehen bietet sichbei industriellen Objekten an, die bereits mit CAD{Systemen erstellt wurden. F�ur andere1

2 KAPITEL 1. EINLEITUNG

1.1a Originalbild 1.1b SegmentierungsergebnisBild 1.1: Objekt sowie Kanten und Eckpunkte des Objekts. Zu dem Objekt links wurdenmit einer Kantendetektion die Linien rechts erkannt. Durch Verfolgung der Linien undMarkierung dort, wo sich die Richtung der Linie um mehr als einen bestimmten Win-kel �andert, wurden Eckpunkte segmentiert (Kreuze). Die Kante zwischen Zylinder undW�urfel wird nicht erkannt. Die Holzmaserung unten wird erkannt, oben dagegen nicht.Der Eckpunkt links oben am Zylinder wird nicht detektiert, da in jedem Punkt der Liniedie Richtungs�anderung zu niedrig ist. Wegen fehlender Information k�onnen Ecken nichtsegmentiert werden, da die Linie gerade erscheint.Objekte und insbesondere Objekte einer nat�urlichen Umwelt ist diese Methode jedochungeeignet. Eine �Ubersicht weiterer Verfahren zur Objektrepr�asentation bieten [Hor96,Win94].Ein statistischer Ansatz zum Erlernen von Modellen, sowohl f�ur zwei{ als auch drei-dimensionale Objekte, wird in [Hor96] vorgeschlagen. Dabei werden als Merkmale Eck-punkte des Objekts oder Objektkanten verwendet. F�ur die einzelnen Merkmale werdenparametrische Dichten eingef�uhrt, die sowohl modell{ als auch lagespezi�sche Eigenschaf-ten der Objekte beschreiben. Diese Dichten werden anhand einer Stichprobe gesch�atzt.Mit Hilfe der gesch�atzten Dichten kann eine statistische Klassi�kation mit der Bayes{Entscheidungsregel getro�en werden. Die Eckpunkte und die Kanten zwischen den Eck-punkten erlauben eine geometrische Interpretation des Bildes und damit eine Lokalisationdes Objekts.Der statistische Teil dieses Ansatzes beschr�ankt sich jedoch auf Modellgenerierung undKlassi�kation. F�ur die Merkmalsgewinnung wird weiterhin die Segmentierung verwendet.Analytische Verfahren zur Merkmalsgewinnung wie zum Beispiel die Karhunen{Lo�eve{Transformation (KLT) sind bereits seit langem bekannt [Nie70]. Sie werden in vielenBereichen zur Merkmalsgewinnung und zur Merkmalsreduktion verwendet, zum Beispielin [Gue74, Her95]. W�ahrend bei heuristischen Verfahren wie Segmentierung oder Fourier-transformation Merkmale unabh�angig von der Problemstellung berechnet werden, mu�

3CAD-Modellen per HandGenerierung von

oder ModellpunktenZuordnung dermit ModellkantenKanten oder PunkteModellSegmentierungs-objekte

KlasseKanten oder PunktenSegmentierung vonBild

Bild 1.2: Aufbau eines segmentierungsbasierten Klassi�kationssystems. Der Aufbau einessegmentierungsfreien Systems mit problemabh�angigen Reihenentwicklungen ist in Bild 6.3dargestellt.bei den analytischen Verfahren aus einer geeigneten Lernstichprobe zun�achst eine Trans-formation berechnet werden. Die Berechnung der Transformation gew�ahrleistet, da� diedurch sie gefundenen Merkmale ein vorgegebenes G�utema� optimieren. So wird bei derKarhunen{Lo�eve{Transformation der mittlere quadratische Abstand aller Merkmale vonallen maximiert.Die Idee, solche Verfahren unmittelbar auf Grauwertbildern anzuwenden, scheitertebisher an der begrenzten Speicherkapazit�at von Computern. Erst mit einem e�zientenAlgorithmus von Murakami und Kumar [Mur82] kann dieses Problem umgangen werden.Somit ist es jetzt m�oglich, die Karhunen{Lo�eve{Transformation auch in der Bildverarbei-tung zu benutzen.Murase und Nayar [Mur95a, Mur95b, Nay96] wenden die Karhunen{Lo�eve{Trans-formation auf Bilder mit verschiedenen Ansichten von Objekten und unterschiedlichenBeleuchtungsverh�altnissen an und betrachten die so gewonnenen Merkmale als Punkteim Merkmalsraum. Durch Interpolation dieser Punkte werden parametrische Mannigfal-tigkeiten im Merkmalsraum gebildet. Die Parametrisierung stellt die unterschiedlichenAnsichten und Beleuchtungsverh�altnisse dar. Auf diese Weise wird ein Objektmodell er-stellt, das einzig und allein auf zweidimensionalen Erscheinungsbildern des Objekts be-ruht. Information �uber die Tiefe des Objekts oder Wissen um das Kameramodell wirdnicht ben�otigt. Deshalb spricht man auch von erscheinungsbasierter Objekterkennung.Die Klassi�kation erfolgt durch eine Abstandsmessung zur Mannigfaltigkeit.

4 KAPITEL 1. EINLEITUNGMurase und Nayar beschr�anken sich in ihrem Ansatz auf Bilder, die lediglich ein Objektenthalten. Mehrobjektszenen und auch teilweise Verdeckungen des Objekts wurden nichtber�ucksichtigt. Eine Lokalisation �ndet nur bez�uglich der Rotation statt. Die Translationwird in dem Verfahren als bekannt vorausgesetzt. In den Bildern, die sie verwenden, dienteine einfache Diskriminanzanalyse zur Unterscheidung des Objekts vom Hintergrund. Nurdas Rechteck, das das Objekt umschlie�t, wird betrachtet.Empirische Untersuchungen �uber das Verhalten des erscheinungsbasierten Verfahrensbei unterschiedlichen Beleuchtungsverh�altnissen wurden von Epstein, Hallinan und Yuilledurchgef�uhrt [Eps95]. Sie fanden heraus, da� die Berechnung von f�unf Merkmalen ausGrauwertbildern mit Hilfe der Karhunen{Lo�eve{Transformation ausreichen, um unter-schiedliche Beleuchtungsbedingungen zu modellieren.Huttenlocher, Lilien und Olsen verwenden statt der Karhunen{Lo�eve{Transformationeine Transformation, die ein generalisiertes Haussdorfma� optimiert, um Verdeckungenbehandeln zu k�onnen [Hut96]. Ein Ansatz von Bischof und Leonardis [Bis96] erreichtRobustheit gegen�uber St�orungen und Verdeckungen mit Hilfe einer Hypothetisiere{und{Teste{Methode [Nie83], so da� die Berechnung der Merkmale eines Bildes bestm�oglicheRekonstruktion des Bildes erm�oglicht.F�ur den Fall, da� nur wenige Bilder in einer Lernstichprobe vorhanden sind, schlagenMurase und Nayar eine Methode zur Generierung k�unstlicher Bilder anhand der vorlie-genden vor [Mur96]. Hier wird jedoch wieder auf die aufwendige manuelle Markierungvon wichtigen Punkten des Objekts zur�uckgegri�en, was dem urspr�unglichen Ziel desautomatischen Lernens widerspricht.Ausgehend von den Arbeiten von Murase und Nayar [Mur95b, Nay96] werden imRahmen dieser Diplomarbeit weitere segmentierungsfreie Ans�atze entwickelt. Es werdenweitere Verfahren zur analytischen Merkmalsgewinnung und der Einsatz eines statisti-schen Klassi�kators untersucht.Die bereits erw�ahnte Karhunen{Lo�eve{Transformation wird in der Literatur amh�au�gsten zur erscheinungsbasierten Objekterkennung verwendet [Mur95b, Nay96, Bis96].Durch sie werden alle Merkmale m�oglichst weit auseinander gezogen. F�ur eine erfolgreicheKlassi�kation ist es dagegen vorteilhaft, wenn Merkmale einer Klasse dicht beieinander imMerkmalsraum liegen, die Klassen aber voneinander getrennt sind [Nie83] (siehe Bild 1.3).Deshalb werden hier weitere Transformationen erprobt, die andere G�utema�e optimieren.Bei diesen G�utema�en wird die Klasseneinteilung der Lernstichprobe ber�ucksichtigt. Esmu� also eine klassi�zierte Stichprobe vorliegen.Diese Verfahren werden auch h�au�g problemabh�angige Reihenentwicklungen genannt,da eine Reihenentwicklung bestimmt wird, die Eigenschaften der Problemstellung anhandder Lernstichprobe ber�ucksichtigt. M�ogliche G�utema�e sind zum einen der Interklassenab-stand, der die Abst�ande der Merkmale einer Klasse von den Merkmalen anderer Klassen

5

1.3a kompakte Klassen 1.3b nahe Klassen 1.3c gestreute KlassenBild 1.3: Klassentrennung im Merkmalsraum. Das Bild links zeigt drei Klassen, derenMerkmale einfach zu trennen sind. Hier liegen die Merkmale klassenweise kompakt vor.Im Bild in der Mitte ist wegen zu geringem Abstand der Klassengebiete, im Bild rechtswegen der hohen Streuung der Merkmale eine Trennung schwieriger.maximiert, zum anderen der Intraklassenabstand, der die Abst�ande der Merkmale einerKlasse unter sich minimiert. Au�erdem sind Kombinationen beider Abst�ande m�oglich.Ein weiteres G�utema�, der Klassenzentrenabstand wird in dieser Arbeit eingef�uhrt.Da analytische Verfahren (bisher) nur lineare Transformationen liefern, wird inErg�anzung zu den erw�ahnten Verfahren versucht, durch die Anwendung von nichtlinearenFiltern zur Vorverarbeitung der Bilder andere Merkmale zu �nden. Falls ein Filter wich-tige Teile zur Erkennung der Objekte hervorhebt und andere vernachl�assigt, kann manauf bessere Merkmale durch die problemabh�angigen Reihenentwicklungen ho�en.Des weiteren wurde eine Eigenschaft der mit problemabh�angigen Reihenentwicklungengewonnenen Merkmale zur Modellgenerierung ausgenutzt. Da sich �uber die Verteilung derMerkmale im Merkmalsraum empirische Aussagen tre�en lassen [Nie70], k�onnen dieseVerteilungen verwendet, und deren freie Parameter gesch�atzt werden. Dadurch wird dieAnwendung eines statistischen Klassi�kators erm�oglicht.In Kapitel 2 werden die verschiedenen Verfahren zur analytischen Merkmalsgewin-nung beschrieben. Zur Modellgenerierung wichtige Eigenschaften des Eigenraums werdenin Kapitel 3 erl�autert. Die Modellgenerierung selbst mit zwei unterschiedlichen Artenvon Modellen, den Mannigfaltigkeiten von Murase und Nayar und dem neuen Modell derNormalverteilungen, wird in Kapitel 4 vorgestellt. Der hier verwendete Ansatz zur erschei-nungsbasierten Objekterkennung wird erst seit einigen Jahren verfolgt. Demzufolge sindeinige Probleme, die sich aus diesem Ansatz ergeben, noch nicht endg�ultig gel�ost. Einigedieser Probleme sind in Kapitel 5 aufgelistet. Im Kapitel 6 werden kurz die implementier-ten Klassen und Programme beschrieben. Die Einbindung der implementierten Klassenin die am Lehrstuhl verwendete Klassenbibliothek wird ebenfalls erl�autert. Kapitel 7 fa�tzun�achst die wichtigsten Ergebnisse von Murase und Nayar zusammen. Im weiteren folgen

6 KAPITEL 1. EINLEITUNGExperimente und Ergebnisse zu dieser Arbeit. Zum Abschlu� folgt eine Zusammenfassungder wichtigsten Punkte der Arbeit in Kapitel 8.

Kapitel 2Analytische MerkmalsgewinnungBei bisherigen Verfahren der Objekterkennung wurden Merkmale h�au�g durch Segmentie-rung von Kanten oder Punkten im Grauwertbild gewonnen. Diese Verfahren beruhen aufder Heuristik, da� diese Merkmale wichtige Teile eines Objekts darstellen, und somit eineeinfache Klassi�zierung m�oglich ist. Eine Alternative dazu sind analytische Methoden, beidenen optimale Merkmale zu einem vorher bestimmten G�utekriterium berechnet werden[Nie83].Ein Beispiel daf�ur ist die Karhunen{Lo�eve{Transformation (KL{Transformation), diebereits seit langem bekannt ist [Nie70, Chi68, Kar60, Kar47]. Diese Transformation wirdverwendet, um aus Merkmalsvektoren hoher Dimension Merkmalsvektoren niedriger Di-mension zu gewinnen, wobei ein bestimmtes G�utema� bez�uglich einer Stichprobe opti-miert wird. Die Idee, diese Transformation direkt auf die Grauwerte eines Bildes an-zuwenden, scheiterte bisher, weil die Kapazit�at von Rechneranlagen bisher nicht daf�urausreichte.Murakami und Kumar [Mur82] beschreiben einen Algorithmus, mit dem es mit heuti-gen Anlagen m�oglich ist, die KL{Transformation auf Bildern durchzuf�uhren. Mit Hilfe derso gewonnenen Merkmale k�onnen Objekte automatisch aus dem Erscheinungsbild gelerntund klassi�ziert werden [Mur95b].Die Karhunen{Lo�eve{Transformation und andere Transformationen, die im Rahmendieser Arbeit f�ur die Objekterkennung genutzt werden, werden in Abschnitt 2.1 eingef�uhrt.Im Abschnitt 2.2 wird die e�ziente Berechnung beschrieben, die f�ur die weiteren Trans-formationen angepa�t wurde. Diese analytischen Verfahren sind jedoch auf lineare Trans-formationen eingeschr�ankt. Deshalb wird in Abschnitt 2.3 die Verwendung nichtlinearerVorverarbeitung der Bilder motiviert.7

8 KAPITEL 2. ANALYTISCHE MERKMALSGEWINNUNG2.1 Problemabh�angige ReihenentwicklungenIn diesem Abschnitt sollen die f�ur diese Arbeit verwendeten problemabh�angigen Reihen-entwicklungen eingef�uhrt werden. Zun�achst werden einige G�utema�e de�niert. Im weiterenwird die Optimierung dieser Ma�e auf die L�osung von Eigenwertproblemen zur�uckgef�uhrtund die Matrix, deren Eigenwerte berechnet werden m�ussen, f�ur jedes Ma� angegeben.2.1.1 G�utema�e

2.1a Ma� s1 2.1b Ma� s2Bild 2.1: G�utema�e. Dieses Bild zeigt, welche Abst�ande zwischen Merkmalen f�ur die G�ute-ma�e ber�ucksichtigt werden. Bei dem mittleren quadratischen Abstand s1 sind es alleAbst�ande. Nur Abst�ande zwischen Merkmalen unterschiedlicher Klassen werden bei demInterklassenabstand s2 ber�ucksichtigt.Die Karhunen{Lo�eve{Transformation und die anderen in diesem Abschnitt eingef�uhr-ten Transformationen werden auch problemabh�angige Reihenentwicklungen genannt, imGegensatz zu den problemunabh�angigen Entwicklungen, wie zum Beispiel der Fourier{Transformation [Nie83]. In beiden F�allen soll ausgehend von einem Signalvektor f 2 IRMmit einer linearen Transformationc = (�1;�2; : : : ;�K)T| {z }�2IRK�M f (2.1)ein Merkmalsvektor c 2 IRK gefunden werden. Die Zeilen der Matrix � sind die Vekto-ren �i 2 IRM mit i = 1; : : : ; K. W�ahrend bei den unabh�angigen Reihenentwicklungen dieMatrix � fest vorgegeben ist, wird die Matrix bei den problemabh�angigen Reihenentwick-lungen anhand einer Stichprobe von Signalvektoren ! = fif j i = 1; : : : ; Ng so berechnet,da� die Merkmalsvektoren ein bestimmtes G�utema� optimieren. Um �Anderungen desG�utema�es durch Skalieren der Transformation auszuschlie�en, werden die Vektoren �iauf Einheitsvektoren beschr�ankt.

2.1. PROBLEMABH�ANGIGE REIHENENTWICKLUNGEN 9Zur Objekterkennung ist in der Literatur die Karhunen{Lo�eve{Transformation weitverbreitet [Mur95b, Bis96]. Durch diese Transformation wird der mittlere quadratischeAbstand aller Merkmale von allen maximiert (Bild 2.1a). Dieser Abstand ist durch dieGleichungs1 = 1N2 NXi=1 NXj=1 �ic� jc�T �ic� jc� (2.2)gegeben, wobei N die Gr�o�e der Stichprobe ist. Die Vektoren ic sind die Merkmale, dieaus den Elementen if der Stichprobe ! mit der Gleichung (2.1) berechnet werden. Umoptimale Merkmale zu erhalten, mu� also s1 in Abh�angigkeit von � maximiert werden.312g1 g2

Bild 2.2: Streifenproblem [Sch95]. Sind Merkmale verteilt, wie im Bild gezeigt ist, ermitteltdie Karhunen{Lo�eve{Transformation als Hauptachse die Gerade g1. Eine Projektion aufdiese Achse macht eine Klassi�zierung der Merkmale jedoch unm�oglich. Projektion aufdie Gerade g2 erm�oglicht dagegen eine eindeutige Klassi�kation. Diese Gerade wird vonden anderen im Text genannten Ma�en als Achse gefunden.Die Merkmale, die mit der Karhunen{Lo�eve{Transformation gewonnen werden, habenalle voneinander maximalen Abstand, unabh�angig von der Klassenzugeh�origkeit. Zudemtritt ein Problem auf, wenn die Klassen streifenartig �ubereinander liegen. In diesem Fallk�onnen mit der Karhunen{Lo�eve{Transformation keine Merkmale bestimmt werden, dieeine Klassi�kation erlauben (Bild 2.2). Zur Klassi�kation ist es dagegen vorteilhaft, wenndie Merkmale einer Klasse dicht beieinander liegen, und die Merkmale unterschiedlicherKlassen voneinander getrennt sind (siehe Kapitel 1). Deshalb wurden G�utekriterien ent-wickelt, die die Klassenzugeh�origkeit eines Merkmals ber�ucksichtigen [Nie70]. F�ur dieseMa�e ist eine klassi�zierte Stichprobe zur Berechnung der Transformation notwendig.Das Ma�s2 = 2k(k�1) kX�=2 ��1X�=1 1N�N� N�Xi=1 N�Xj=1 �ic� � jc��T �ic� � jc�� (2.3)beschreibt den Interklassenabstand, das hei�t den mittleren quadratischen Abstand derMerkmale einer Klasse zu den Merkmalen aller anderen Klassen (Bild 2.1b). Die Variablek steht hierbei f�ur die Anzahl der Klassen, ic� ist ein Merkmal mit bekannter Klassenzu-geh�origkeit �, und N� beziehungsweise N� ist die Gr�o�e der Stichprobe !� beziehungsweise

10 KAPITEL 2. ANALYTISCHE MERKMALSGEWINNUNG!�. Die Menge !� enth�alt nur die Vektoren, die der Klasse � angeh�oren. Wird dieses Kri-terium maximiert, wird eine Transformation � gefunden, so da� die Merkmalsvektoreneiner Klasse gro�en Abstand von den Merkmalen der anderen Klassen haben.

2.3a Ma� s3 2.3b Ma� s4Bild 2.3: G�utema�e. Der Intraklassenabstand betrachtet nur die Abst�ande von Merkmaleninnerhalb einer Klasse, der Klassenzentrenabstand nur den Abstand des Mittelpunktes derKlassenbereiche.Der Intraklassenabstand, also der mittlere quadratische Abstand der Merkmale einerKlasse untereinander (Bild 2.3a), wird durchs3 = 1k kX�=1 1N2� N�Xi=1 N�Xj=1 �ic� � jc��T �ic� � jc�� (2.4)beschrieben [Nie83]. Dieses Kriterium mu� minimiert werden, damit Merkmale gefundenwerden, bei denen jede Klasse m�oglichst kompakt im Merkmalsraum liegt.F�ur diese Arbeit wurde ein weiteres G�utema� eingef�uhrt. Dieses Ma� s4 ber�ucksichtigtnur den Abstand der Klassenzentren untereinander (Bild 2.3b). Die Lage der Merkmaleeiner Klasse untereinander spielt bei diesem Ma� keine Rolle. Wenn dieser Abstand imMittel maximiert wird, ist eine gute Klassi�kation m�oglich, sofern die Streuung der Merk-male nicht zu hoch ist. Dieses Ma�, im folgenden Klassenzentrenabstand genannt, wirdde�niert alss4 = 2k(k�1) kX�=2 ��1X�=1 (�� )T (�� ) (2.5)Der Vektor �� ist dabei der Mittelwertvektor der Klasse � im Merkmalsraum.Im Vergleich mit s1 sieht man, da� dieses Ma� nichts anderes ist, als das Ma� derKarhunen{Lo�eve{Transformation, angewendet auf die Mittelwerte der einzelnen Klassen.Nur wird eine andere Skalierung der Summe verwendet. Diese Skalierung beein u�t aberdie Lage des Maximums des Ma�es nicht.

2.1. PROBLEMABH�ANGIGE REIHENENTWICKLUNGEN 11Weiterhin denkbar sind Kombinationen aus dem Interklassenabstand und dem In-traklassenabstand, beziehungsweise dem Klassenzentrenabstand und dem Intraklassen-abstand. Interklassen{ und Klassenzentrenabstand sind jeweils Beschreibungen f�ur denAbstand der Klassen voneinander, w�ahrend der Intraklassenabstand ein Ma� f�ur die Streu-ung der Klassen ist. Es gilt also s3 m�oglichst klein, und s2 beziehungsweise s4 m�oglichstgro� zu halten. Die Gewichtung zwischen den Ma�en wird durch einen Multiplikator ~�beziehungsweise � 2 IR beschrieben:~s5 = s2 + ~�s3 (2.6)s5 = s4 + �s3: (2.7)Im folgenden Abschnitt wird ein einfacher Zusammenhang zwischen s4 und s2 hergeleitet,aus dem folgt, da� die Ma�e ~s5 und s5 f�ur bestimmte ~� und � identisch sind.2.1.2 KernmatrizenUm diese Ma�e ausgehend von der Stichprobe ! = fif ji = 1; : : : ; Ng zu maximieren,mu� die optimale Transformationsmatrix � gefunden werden. Die Ma�e k�onnen mit Glei-chung (2.1) in die Formsi = 2 KXl=1�lTQ(i)�l (2.8)�ubergef�uhrt werden. Man kann zeigen, da� die Ma�e genau dann maximiert beziehungs-weise minimiert werden, wenn � aus den Eigenvektoren �i der dazu passenden Kernmatri-zen Q(i) mit maximalen beziehungsweise minimalen Eigenwerten zusammengesetzt wird[Nie83, Seiten 111�]. Der obere Index i bezeichnet dabei die Kernmatrix zum G�utema�si. Die Kernmatrizen lassen sich �uber die GleichungenQ(1) = R�mmT (2.9)Q(2) = 1k kX�=1R� � 1k(k�1) kX�=2 �X�=1 �m�m�T +m�m�T� (2.10)Q(3) = 1k kX�=1 �R� �m�m�T� (2.11)

12 KAPITEL 2. ANALYTISCHE MERKMALSGEWINNUNGmit R = 1N NXj=1 jf jfT (2.12)m = 1N NXj=1 jf (2.13)R� = 1N� N�Xj=1 jf�jf�T (2.14)m� = 1N� N�Xj=1 jf� (2.15)berechnen [Nie83]. Die Vektoren jf sind die Elemente der Stichprobe. Die Vektoren jf�sind die Elemente der klassi�zierten Stichprobe, die zu der Klasse � geh�oren. Die MatrixRist die Autokorrelation der Stichprobe, der Vektorm ist der Mittelwert �uber die Elementeder Stichprobe. Entsprechendes gilt f�ur R� und m�, bezogen auf die Klasse �. F�ur dieMittelwertvektoren der Vektoren f und c gilt� = �m�� = �m�: (2.16)Die Gr�o�e der Matrizen Q(i) mit i = 1; 2; 3 ist jeweils M �M . Bei der Anwendung f�urBilddaten wird die Gr�o�e der Stichprobe N deutlich kleiner als die Anzahl M der Grau-werte in einem Bild sein. Da die Matrizen bestenfalls aus diesen N linear unabh�angigenVektoren zusammengesetzt werden, gilt f�ur der Rang der Matrix [Mur82]RangQ(i) � N: (2.17)Da der Klassenzentrenabstand analog zum Ma� der Karhunen{Lo�eve{Transformationist, wird auch die Kernmatrix Q(4) dem der Kernmatrix der Karhunen{Lo�eve{Transfor-mation entsprechen, mit der selben Einschr�ankung, da� diese auf die Mittelwerte derKlassen angewendet wird.Der Beweisf�uhrung aus [Nie83, S. 111�] entsprechend gilt f�ur das Ma�s4 = 2k(k�1) kX�=2 ��1X�=1 (�m� � �m�)T (�m� � �m�)= 2k(k�1) kX�=2 ��1X�=1 (m� �m�)T�T� (m� �m�)= 2k(k�1) kX�=2 ��1X�=1 Spur ��T� (m� �m�) (m� �m�)T�= 2Spur "�T� 1k(k�1) kX�=2 ��1X�=1 (m� �m�) (m� �m�)T!#

2.1. PROBLEMABH�ANGIGE REIHENENTWICKLUNGEN 13= 2 Spur h�T�Q(4)i := 2 KXi=1�iTQ(4)�i (2.18)Die Kernmatrix ist hier also, analog zu [Nie83],Q(4) = 1k(k�1) kX�=2 ��1X�=1 (m� �m�) (m� �m�)T: (2.19)Unter Verwendung der Gleichung1k�1 kX�=2 ��1X�=1 �m�m�T �m�m�T� = kX�=1m�m�T (2.20)erkennt man einen Zusammenhang zwischen dieser Matrix und der Matrix des Interklas-senabstandes. Es giltQ(4) = 1k(k�1) kX�=2 ��1X�=1 h�m�m�T +m�m�T�� m�m�T +m�m�T�i= 1km�m�T � 1k(k�1) kX�=2 ��1X�=1 �m�m�T +m�m�T� (2.21)Vergleicht man die letzten Zeile mit der Kernmatrix Q(2), so sieht man, da� f�ur dieDi�erenzQ(2) �Q(4) = 1k kX�=1 �R� �m�m�T�= Q(3) (2.22)gilt. Der Unterschied zwischen dem Interklassenabstand s2 und dem Abstandsma� s4 istalso genau der Intraklassenabstand s3. Damit gilt f�ur die Kernmatrix des kombiniertenMa�es s5Q(5) = Q(2) + ~�Q(3) = Q(4) + �Q(3) (2.23)mit � = ~� + 1.Den bereits vermuteten Zusammenhang zwischen der Karhunen{Lo�eve{Transforma-tion und der Transformation nach dem Ma� s4 erkennt man aus

14 KAPITEL 2. ANALYTISCHE MERKMALSGEWINNUNGQ(4) = 1k(k�1) kX�=1 kX�=1 �m�m�T +m�m�T �m�m�T �m�m�T�= kk�1 24 1k kX�=1m�m�T + 1k kX�=1m�m�T � 1k kX�=1m�! 1k kX�=1m�!T� 1k kX�=1m�! 1k kX�=1m�!T35= 2kk�1 � �R� �m �mT� : (2.24)Man sieht, da� die Kernmatrix Q(4) also bis auf die Skalierung der Kernmatrix einer Kar-hunen{Lo�eve{Transformation der Klassenmittelwerte entspricht. Die Autokorrelation �Rund der Mittelwert der Mittelwerte �m sind entsprechend de�niert als�R = 1k kX�=1m�m�T (2.25)�m = 1k kX�=1m�: (2.26)Der Rang der Matrix Q(4) ist also nur durch die Anzahl der Mittelwerte und somitder Klassen beschr�ankt:RangQ(4) � k: (2.27)Der Rang ist hier also im allgemeinen niedriger als der Rang der anderen Matrizen.2.2 Berechnung der TransformationsbasisBei der Anwendung der Reihenentwicklungen zur Objekterkennung bilden die Grauwerteeines Bildes den Signalvektor. Dabei wird das Bild, zum Beispiel durch Konkatenationder Zeilen, in den Vektorf = (f1; f2; : : : ; fM)T 2 IRM (2.28)umgewandelt, wie in Bild 2.4 skizziert ist. Die ZahlM ist dabei die Anzahl der Bildpunkte.Die Normierung der Vektoren auf die L�ange Eins liefert f�ur jeden Pixel von der verwen-deten Grauwerttiefe unabh�angige Werte im Bereich [0; : : : ; 1]. Dadurch werden au�erdemdie Vektoren invariant gegen�uber Schwankungen in der Helligkeit der Bilder.Gilt f�ur die Signalvektoren f 2 IRM , so gilt f�ur die Kernmatrix aus Abschnitt 2.1Q 2 IRM�M : (2.29)

2.2. BERECHNUNG DER TRANSFORMATIONSBASIS 1510 11 4512 46 449 45 46 =) 1p10664

0BBBBBBBBBBBBBBB@10114512464494546

1CCCCCCCCCCCCCCCABild 2.4: Bildung eines Vektors aus einem Bild. Die Zahlen in den einzelnen Feldern gebendie Grauwerte der Pixel an. Ob das Bild nun spaltenweise oder zeilenweise umgeformtwird, ist f�ur die weitere Betrachtung unwichtig.Geht man von Bildern der Gr�o�e 128� 128 aus, so ergibt sich f�ur die Matrizen eine Zahlvon M = 16384 Zeilen und Spalten, unabh�angig von der Anzahl der Klassen und derVektoren in der Stichprobe. Um diese Matrix im Speicher eines Computers mit den achtByte gro�en double{Werten darstellen zu k�onnen, sind insgesamt 2 Gigabyte Speichernotwendig. Es ist damit klar, da� eine direkte Berechnung der Matrix Q, die im folgendenexplizite Kernmatrix genannt wird, und ihrer Eigenvektoren heute nicht m�oglich ist.Im folgenden soll ein Algorithmus angegeben werden, mit dessen Hilfe die Eigenvekto-ren berechnet werden k�onnen, indem das Eigenwertproblem auf das einer kleineren Matrixzur�uckgef�uhrt wird. Allerdings ist dieses Vorgehen nur m�oglich wenn das betre�ende Ma�maximiert werden mu�. Der Intraklassenabstand, der minimiert werden mu�, wird amSchlu� des Abschnitts gesondert betrachtet.2.2.1 Quadratische FormF�ur die Anwendung des Algorithmus ist es erforderlich, da� die Kernmatrizen in einerquadratischen FormQ = FF T (2.30)dargestellt werden k�onnen. In diesem Abschnitt sollen f�ur die in Abschnitt 2.1 angegebe-nen Kernmatrizen quadratische Formen entwickelt werden.F�ur die Matrix Q(1) giltQ(1) = R�mmT �mmT +mmT= 1N NXi=1 if ifT � 1N NXi=1 if!mT �m 1N NXi=1 if!T +mmT= 1N NXi=1 �if �m� �if �m�T: (2.31)

16 KAPITEL 2. ANALYTISCHE MERKMALSGEWINNUNGWird nun die MatrixF (1) = � 1f �m ; : : : ; Nf �m � 2 IRM�N (2.32)durch Hintereinanderschreiben der einzelnen Vektoren de�niert, so ist die geforderte FormdurchQ(1) = 1NF (1)F (1)T (2.33)gegeben.Die Skalierung hat bei der sp�ateren Eigenvektorberechnung keine Bedeutung mehr, dadie Eigenvektoren auf die L�ange Eins normiert sind. Die Skalierung der Eigenwerte �andertsich dadurch, doch beein ussen diese die Transformation nach Gleichung (2.1) nicht.F�ur die Matrix Q(3) kann analog zur Gleichung (2.31) f�ur jeden Summanden�R� �m�m�T� = 1N� N�Xi=1 �if� �m�� if� �m��T (2.34)geschrieben werden.Mit der De�nition analog zu Gleichung (2.32)F � = 1pN�� 1f� �m� ; : : : ; N�f� �m� � 2 IRM�N� (2.35)wird jeder der Summanden durch�R� �m�m�T� = F �F �T (2.36)beschrieben. Der Faktor 1N� mu� hier mit ber�ucksichtigt werden, da er f�ur unterschiedlicheKlassen � unterschiedlich gro� sein kann. Die Summe dieser Matrixmultiplikationen l�a�tsich durch Konkatenation der Matrizen als eine einzige Matrixmultiplikation darstellen.Q(3) = 1k X� F �F �T= 1k(F 1; : : : ;F k)0BBB@ F 1T...F kT 1CCCA= 1kF (3)F (3)T; (2.37)wobei durch das Aneinanderreihen der einzelnen Matrizen eine neue Matrix F (3) 2 IRM�Nentstanden ist, mit N als der Gr�o�e der Stichprobe und M�N der Gr�o�e der Vektorenf aus der Lernstichprobe:

2.2. BERECHNUNG DER TRANSFORMATIONSBASIS 17F (3) = (F 1; : : : ;F k)= 1f1 � m1pN1 ; : : : ; N1f1 � m1pN1 ;1f2 � m2pN2 ; : : : ; N2f2 � m2pN2 ;: : : ;1fk � mkpNk ; : : : ; Nkfk � mkpNk ! (2.38)Die weitere Berechnung der Eigenvektoren erfolgt wie bei der Karhunen{Lo�eve{Transformation. Somit kann der Skalierungsfaktor 1k ebenfalls ignoriert werden.F�ur die Kernmatrix des Interklassenabstands ist die Umformung am einfachstenmit Hilfe der Kernmatrix zum Klassenzentrenabstand m�oglich. Wegen der Analogiedes Klassenzentrenabstands zur Karhunen{Lo�eve{Transformation kann die quadratischeForm zuQ(4) = F (4)F (4)T (2.39)mit F (4) = 1pk (m1 � �m; : : : ;mk � �m) 2 IRM�k (2.40)bestimmt werden. Die Skalierung 1pk ist hier wichtig, um die korrekte Matrix f�ur das kom-binierte Ma� und den Interklassenabstand anzugeben. Mu� nur die Matrix zum Klassen-zentrenabstand angegeben werden, kann dieser wie bei der Karhunen{Lo�eve{Transforma-tion weggelassen werden.Mit Hilfe der Gleichung (2.22) und den quadratischen Formen f�ur Q(3) und Q(4) �ndetman eine entsprechende FormQ(2) = F (2)F (2)T= �F (3) ; F (4) ��F (3) ; F (4) �T; (2.41)mit F (2) 2 IRM�(N+k).Die Kernmatrix zu dem kombinierten Ma� ist gegeben alsQ(5) = Q(4) + �Q(3)= �F (4) ; p�F (3) ��F (4) ; p�F (3) �T= F (5)F (5)T: (2.42)

18 KAPITEL 2. ANALYTISCHE MERKMALSGEWINNUNGDer optimale Faktor � kann allerdings nicht direkt berechnet werden, sondern mu� n�ahe-rungsweise durch Berechnung der Transformation mit verschiedenen Werten von � be-stimmt werden [Nie83]. Durch die Anwendung der Quadratwurzel in der quadratischenForm ist der Wertebereich von � auf den positiven Bereich eingeschr�ankt. Eine Auftei-lung der Form �F (4) ; F (3) ��F (4) ; �F (3) �T widerspricht der erforderlichen quadratischenForm. Die Verwendung komplexer Zahlen erfordert Algorithmen zur Berechnung von Ei-genwerten komplexer Matrizen (siehe Abschnitt 2.2.2).2.2.2 Implizite KernmatrixWie zu Anfang des Abschnitts dargelegt, kann die Kernmatrix mit heutigen Rechensyste-men nicht explizit berechnet werden. Berechnet man jedoch statt dessen die sogenannteimplizite KernmatrixcQ = FTF ; (2.43)so ist die Gr�o�e der Matrix je nach gew�ahltem G�utema� durch die Anzahl der Elemen-te in der Lernstichprobe beziehungsweise die Anzahl der zu unterscheidenden Klassenbestimmt. Von der Bildgr�o�e ist diese Matrix unbestimmt. F�ur die Karhunen{Lo�eve{Transformation bei 1000 Vektoren sind das zum Beispiel 8 Megabyte, unabh�angig vonder Vektorgr�o�e. Bei dem Klassenzentrenabstand ist nur die Klassenzahl von Bedeutung.Sind die 1000 Vektoren zum Beispiel in 10 Klassen aufgeteilt, sind 800 Byte Speicher f�urdie Matrix notwendig. Diese Speichermengen k�onnen heutige Rechnersysteme problemloszur Verf�ugung stellen.Im folgenden wird gezeigt, da� die gr�o�ten N Eigenwerte und die dazugeh�origen Ei-genvektoren der Matrix Q auch durch die L�osung des Eigenwertproblems zur Matrix cQbestimmt werden k�onnen. Die Eigenvektoren der Kernmatrizen zu s1, s2, s4 und s5, lassensich auf diese Weise berechnen.Entsprechend der expliziten und impliziten Kernmatrix hei�en die Eigenvektoren vonQ explizite, die von cQ implizite Eigenvektoren. F�ur die Eigenwerte b�l und Eigenvektorenb�l der impliziten Matrix giltcQb�l = b�l b�lF TF b�l = b�l b�lFF T �F b�l� = b�l �F b�l�Q �F b�l� = b�l �F b�l� : (2.44)Jeder Eigenwert der impliziten Matrix cQ ist somit ein Eigenwert der expliziten MatrixQ. Mit der ungekehrten Argumentation ist auch jeder Eigenwert der expliziten Matrixein Eigenwert der impliziten Matrix. Die Matrix Q hat maximal N von Null verschiedene

2.2. BERECHNUNG DER TRANSFORMATIONSBASIS 19Eigenvektoren, da ihr Rang h�ochstens N ist. Zu diesen Eigenwerten ungleich Null werdendie normierten Eigenvektoren �uber die impliziten Eigenvektoren mit�l = F b�l F b�l (2.45)berechnet [Mur82]. Dieser Algorithmus ist in Bild 2.5 als Struktogramm dargestellt.Bildvektoren in Matrix F ladenBerechne cQ = FTFBerechne K Eigenvektoren c�lFOR l = 1; : : : ; KBerechne �l = F Tc�l F Tc�l Bild 2.5: Struktogramm zur Eigenvektorberechnung. Wenn die Matrix F zu gro� ist, mu�sie st�uckweise geladen werden, wenn sie ben�otigt wird. Die Berechnungen werden dannjeweils mit den vorhandenen Teilen durchgef�uhrt.Dadurch wurde das urspr�ungliche Eigenwertproblem auf ein Eigenwertproblem einerdeutlich kleineren Matrix reduziert. F�ur dessen L�osung existieren verschiedene numerischeVerfahren. Verwendet wurde in dieser Arbeit das Konjugierte{Gradienten{Verfahren, dasdie Eigenvektoren iterativ berechnet. Dieses Verfahren ist in [Mur82] beschrieben.Die meisten, praktisch anwendbaren Algorithmen zur Eigenwertberechnung arbeitenauf symmetrischen Matrizen. Deshalb ist die quadratische Form der Kernmatrizen, wiesie in Abschnitt 2.1 angegeben sind, entscheidend f�ur die Anwendung des hier erw�ahntenVerfahrens. Nur so kann sichergestellt sein, da� auch die implizite Kernmatrix eine sym-metrische Matrix ist. Die nicht{quadratische Version von Q(5) ist damit ausgeschlossen.Diese Algorithmen arbeiten auch zumeist nur auf reellen Zahlen. Somit ist auch die Ver-wendung der zwar quadratischen, aber komplexen Variante bei negativem � nicht m�oglich.2.2.3 IntraklassenabstandF�ur den Intraklassenabstand s3 sind nicht die gr�o�ten, sondern die kleinsten Eigenwertezu berechnen. Da die Matrix Q(3) 2 IRM�M h�ochstens Rang N hat und positiv semi-de�nit ist [Nie83], hat die Matrix den kleinsten Eigenwert Null. Die Eigenvektoren zudiesem Eigenwert bilden den sogenannten Nullraum. Dieser Nullraum hat als Dimensiondie H�au�gkeit des Eigenwerts Null, also (M�N). Eine Projektion der Stichprobe in diesenNullraum (und jeden Unterraum des Nullraums) liefert f�ur den Intraklassenabstands3 = Xk �kTQ(3)�k= 0; (2.46)

20 KAPITEL 2. ANALYTISCHE MERKMALSGEWINNUNGg1 E

g2Bild 2.6: Nullraum des Intraklassenabstands. Im Bild sind zwei Klassen gezeigt, die auszwei (oder mehr) Punkten im dreidimensionalen Raum bestehen, die auf zwei parallelenGeraden wie Perlen an einer Schnur aufgereiht sind. Ihre Projektion in den Nullraum desIntraklassenabstands (Ebene E) liefert zwei getrennte Punkte. Der Intraklassenabstands3 ist Null. Die Projektion auf einen Unterraum des Nullraums liefert bei diesem Beispielbestenfalls (Gerade g1) zwei gut getrennte Punkte. In einem ung�unstigen Fall (Geradeg2) werden beide Klassen auf einen Punkt projiziert. Der Intraklassenabstand ist in bei-den F�allen gleich Null. Durch Optimierung des Intraklassenabstands kann deshalb keineUnterscheidung der Unterr�aume durchgef�uhrt werden.da f�ur jeden Basisvektor �k des NullraumsQ(3)�k = 0 gilt. Das hei�t, jede Klasse wird aufeinen Punkt im Merkmalsraum abgebildet. Da bei Anwendung auf Bilder N � M gilt,bedeutet die Projektion in den Nullraum jedoch keine wesentliche Datenreduktion. EinVergleich von Punkten im Nullraum ist aus E�zienzgr�unden genausowenig m�oglich, wieein Vergleich der Grauwertbilder direkt. Bild 2.6 stellt in einem dreidimensionalen Raumdar, da� sehr wohl Unterr�aume des Nullraums eine Klassi�kation erm�oglichen k�onnen(�1), andere dagegen alle Klassen auf einen einzigen Punkt komprimieren (�2). EineBerechnung, welcher Unterraum eine sinnvolle Projektion liefert, ist zum Beispiel mit einerKarhunen{Lo�eve{Transformation m�oglich, die auf die Punkte im Nullraum angewandtwird.Allerdings ist die Berechnung des Nullraums der Matrix Q(3) aus Speichergr�undenebenfalls nicht ohne weiteres m�oglich. Es mu� auch hier ein Verfahren gefunden werden,da� eine Basis des Nullraums berechnet, ohne da� die Matrix selbst explizit bekannt seinmu�. Dies ist mit den hier gegeben Verfahren nicht m�oglich. Um den Rahmen dieserArbeit einzuhalten, konnte dieser Punkt nicht weiter untersucht werden.

2.3. NICHTLINEARE VORVERARBEITUNG 212.3 Nichtlineare VorverarbeitungZiel der analytischen Merkmalsgewinnung ist es, eine Transformation Tf�g zu �nden, diebez�uglich eines G�utekriteriums optimale Merkmalec = T ffg (2.47)�ndet. Die in Abschnitt 2.1 eingef�uhrten problemabh�angigen Reihenentwicklungen sind,wie Gleichung (2.1) zu entnehmen ist, lineare Transformationen. Die Merkmale, die zueinem G�utekriterium gefunden wurden, sind also nur optimal in bezug auf lineare Trans-formationen. Es kann durchaus der Fall sein, da� nichtlineare Transformationen zu einemG�utekriterium bessere Merkmale und damit auch bessere Erkennungsraten liefern. Einedirekte L�osung ist allerdings (bisher?) nur f�ur den linearen Fall gefunden worden [Nie83,S. 108]. Eine optimale nichtlineare Transformation kann nicht direkt aus dem Grauwert-bild berechnet werden.Es existiert jedoch eine Vielzahl an Vorverarbeitungs�ltern, die auf Bilder angewen-det werden k�onnen. Durch Experimente mit diesen Filtern lassen sich vielleicht bessereMerkmale �nden. Dabei kann man sich auf nichtlineare Filter beschr�anken, da f�ur jedenlinearen Filter mit der Matrix �c = ~� (�f) = �~�� f = �f (2.48)gilt. Also mu� die optimale lineare Transformationsmatrix ~� angewandt auf linear vor-verarbeitete Bilder f die selben Merkmale liefern, wie die optimale lineare Transformati-onsmatrix � = ~�� angewandt auf nicht vorverarbeitete Bilder.Die im Rahmen dieser Arbeit untersuchten Filter sind zum einen verschiedene Hoch-pa��lter, wie der Laplace{Operator oder der Sobeloperator [Nie90]. Des weiteren wurdenExperimente mit dem Betrag der Fourierkoe�zienten eines Bildes durchgef�uhrt. Zum Ab-schlu� wurden die Ergebnisse eines Kantendetektors in Bin�arbilder verwandelt, und diesezur Transformation verwendet.

22 KAPITEL 2. ANALYTISCHE MERKMALSGEWINNUNG

Kapitel 3EigenraumIm Kapitel 2 wurden die problemabh�angigen Reihenentwicklungen als Transformatio-nen eines hochdimensionalen Signalvektors in einen niedrigdimensionalen Merkmalsvek-tor eingef�uhrt. Eine solche Transformation l�a�t sich auch als orthogonale Projektion ineinen Unterraum interpretieren. Der Unterraum wird dabei durch die Eigenvektoren derKernmatrix der Transformation gebildet. Deshalb wird dieser Unterraum auch Eigenraumgenannt [Mur95b].Einige Eigenschaften dieses Eigenraums sollen in den n�achsten Abschnitten beschrie-ben werden. In Abschnitt 3.1 wird die Projektion als Komprimierung verstanden. Ausder komprimierten Darstellung kann das Bild n�aherungsweise rekonstruiert werden. Ab-schnitt 3.2 zeigt, da� der Abstand zweier Punkte im Eigenraum eine N�aherung f�ur die�Ahnlichkeit zweier Bilder darstellt. Eine Eigenschaft der Verteilung der Punkte im Merk-malsraum wird ebenfalls hier erw�ahnt. Zum Schlu� wird in Abschnitt 3.3 gezeigt, da� dieTranslation mit diesem Ansatz nicht behandelt werden kann.3.1 Rekonstruktion und KomprimierungDie Dimension des Eigenraums K wird durch die Anzahl der Eigenvektoren bestimmt,die f�ur die Projektion verwendet werden. Insgesamt existierenM Eigenvektoren, wobeiMdie Dimension des Signalvektors ist. Ein Merkmalsvektor c beschreibt somit einen Punktim Eigenraum, der aus der Projektion des Bildes f entsteht (siehe Gleichung (2.1)).Die Projektionsmatrix � = (�1; : : : ;�K)T 2 IRK�M besteht aus Eigenvektoren, diezueinander orthogonal sind und die L�ange Eins haben. F�ur die Matrix gilt somit [Bro85]IdK = ��T 2 IRK�KIdM = �T� 2 IRM�M ; (3.1)wobei Idn f�ur die Einheitsmatrix der Dimension n steht.23

24 KAPITEL 3. EIGENRAUMWird ein Eigenraum aus allen Eigenvektoren gebildet (K=M), kann damit das Bildif aus seinen Koordinaten icl im Eigenraum mit der Formelif = MXk=1 ick�k = �T ic (3.2)vollst�andig rekonstruiert werden. F�ur K < M ist keine vollst�andige Rekonstruktionm�oglich. Das Bild wird approximiert, wenn die Eigenvektoren mit maximalem Eigenwertf�ur die Transformation verwendet wird.if � KXk=1 ick�k = �T ic (3.3)Die Eigenraumdarstellung eines Bildes in einem Eigenraum mit wenigen Eigenvekto-ren ist zugleich eine verlustbehaftete Komprimierung des Bildes. Ein Eigenvektor ist sogro� wie ein Bild, also M Bildpunkte. F�ur N Bilder tritt bei der Darstellung in einemEigenraum mit K Eigenvektoren ein Speicherbedarf von O(NK) auf. Die Eigenvekto-ren ben�otigen zus�atzlich Speicher in der Gr�o�enordnung O(MK). Das ergibt zusammenO((N+M)K). Um die Bilder selbst zu speichern, ist ein Speicher von O(MN) erforderlich.Mit K�M wird somit ein hoher Komprimierungsgrad erreicht.3.2 Punkte im EigenraumEine wichtige Eigenschaft des Eigenraums ist der Zusammenhang zwischen dem Abstandzweier Punkte ic und jc im Eigenraum und der �Ahnlichkeit der dazugeh�origen Bilderif und jf .Die �Ahnlichkeit zwischen zwei Bildern wird h�au�g als die Summe der quadratischenDi�erenzen der Koe�zienten der Bildvektoren de�niert (Euklidischer Abstand) [Nay96].Dabei werden die Bilder als normierte Vektoren mit kfk = fTf = 1 betrachtet.Mit der Gleichung if � jf 2 = �if � jf�T �if � jf�= ifTif + jfTjf � ifTjf � jfTif= 2� 2ifTjf (3.4)wird klar, da� Maximierung der Korrelation ifTjf zwischen den Bildern gleichbedeutendist mit der Minimierung des Euklidischen Abstands und somit mit der Maximierung der�Ahnlichkeit zwischen den Bildern [Nie83].Mit Gleichung (3.3) kann der Euklidische Abstand mit den Eigenraumpunkten ic undjc beschrieben werden. if � jf 2 � �T ic� �T jc 2 = �T( ic� jc ) 2 (3.5)

3.3. TRANSLATION 25Mit der Abk�urzung d = ic� jc gilt f�ur die rechte Seite �Td 2 = (�Td)T(�Td) = dT(��T)d = kdk2: (3.6)Der letzte Schritt ergibt sich aus der Orthonormalit�at der Eigenvektoren �k. Hieraus folgt if � jf 2 � ic� jc 2: (3.7)Also ist der Euklidische Abstand im Eigenraum eine N�aherung f�ur den EuklidischenAbstand der Bilder und somit ein ungef�ahres Ma� f�ur die �Ahnlichkeit von Bildern. DieseEigenschaft wird in Abschnitt 4.1 zur Modellgenerierung verwendet.Eine weitere Eigenschaft wird f�ur ein alternatives Modell in Abschnitt 4.2 verwendet.Mit empirischen Tests konnte festgestellt werden, da� die Merkmalsvektoren im Eigen-raum n�aherungsweise normalverteilt [Nie70] sind. Unter dieser Annahme kann die Dichteder Merkmale klassenweise gesch�atzt werden. Mit der Bayes{Formel werden dann diea{posteriori Wahrscheinlichkeiten p(�jc) der Klassen f�ur den zu klassi�zierenden Merk-malsvektor berechnet. Der Klassi�kator entscheidet sich dann f�ur die Klasse mit maxima-ler a{posteriori Wahrscheinlichkeit.3.3 Translation

Bild 3.1: Translation eines KreisesAus der Beziehung zwischen �Ahnlichkeit von Bildern und Abstand von Punkten im Eigen-raum ergibt sich eine grunds�atzliche Einschr�ankung des erscheinungsbasierten Ansatzes,wie er hier beschrieben ist. Mit Gleichung (3.4) ist die Korrelation zweier Bilder ein Ma�f�ur die �Ahnlichkeit der Bilder. Unterscheiden sich die Bilder in der Translation der Ob-jekte, wie in Bild 3.1 zu sehen ist, so korrelieren Bilder, die dasselbe Objekt zeigen, nichtmiteinander. Das Skalarprodukt der Bildvektoren ist ifTjf = 0. Existiert ein weiteres

26 KAPITEL 3. EIGENRAUM

Bild 3.2: Translation eines QuadratesObjekt (Bild 3.2), korrelieren die Bilder, bei denen die Bilder die gleiche Translation auf-weisen, st�arker miteinander. Bilder, die derselben Klasse angeh�oren, sind einander alsoweniger �ahnlich, als Bilder unterschiedlicher Klassen, die das Objekt in derselben Trans-lation zeigen.Da die N�ahe von Punkten im Eigenraum ein N�aherungswert f�ur die �Ahnlichkeit derBilder ist, liegen auch die Punkte im Eigenraum bei gleicher Translation der Objekten�aher zusammen als Punkte gleicher Objekte bei unterschiedlicher Translation. Dies istunabh�angig davon, welche Merkmalstransformation aus Kapitel 2 angewendet wird. EineTrennung der Klassen, die f�ur die Klassi�kation erforderlich ist, wird dadurch erschwert.Deshalb kann die Translation mit diesem Ansatz nicht erfa�t werden.

Kapitel 4Objektmodelle im EigenraumZur Klassi�kation werden Objektmodelle im Eigenraum eingef�uhrt. Die Bilder der Lern-stichprobe sind im Eigenraum durch Punkte wiedergegeben. Aus Punkten eines Objektswird ein Modell dieses Objekts gebildet. Mit Hilfe dieses Modells erfolgt die Klassi�kationeines Bildes, nachdem es in den Eigenraum projiziert wurde.In dieser Arbeit werden zwei unterschiedliche Arten von Modellen untersucht. Der ersteAnsatz ist von Murase und Nayar beschrieben worden [Mur95b, Nay96]. Die Punkte derLernstichprobe werden zu Mannigfaltigkeiten zusammengefa�t. Zur Klassi�kation einesneuen Bildes wird der Abstand zwischen Merkmalspunkt und Mannigfaltigkeit gemessen.Der zweite Ansatz nutzt die n�aherungsweise Normalverteilung der Punkte im Eigen-raum [Nie83, Nie70]. Die freien Parameter der Normalverteilungen werden anhand derStichprobe gesch�atzt. Mit den gesch�atzten Dichten kann ein statistischer Klassi�katorverwendet werden.Die Erzeugung dieser Modelle und ihre Anwendung zur Klassi�kation wird in denAbschnitten 4.1 beziehungsweise 4.2 beschrieben.4.1 MannigfaltigkeitenMurase und Nayar schlagen als Objektmodelle parametrisierte Mannigfaltigkeiten vor[Mur95b]. Unterschiedliche Bedingungen bei der Aufnahme eines Objekts, zum Beispielunterschiedliche Ansichten des Objekts, liefern die Parametrisierung. Zur Beschreibungder Bedingungen bei der Aufnahme dient der Parametervektorq = (q1; q2; : : : ; qm)T: (4.1)27

28 KAPITEL 4. OBJEKTMODELLE IM EIGENRAUMDie Dimension m des Vektors ist der Freiheitsgrad der Mannigfaltigkeiten. Wird der Wer-tebereich jedes Parameters ql (l = 1; : : : ; m) in jeweils Rl Werte quantisiert, sind somitinsgesamtL = mYl=1Rl (4.2)verschiedene Werte f�ur den Vektor q m�oglich. F�ur jeden diskreten Wert von q wird vonjedem Objekt ein Bild aufgenommen. Zwischen den diskreten Werten wird sp�ater inter-poliert.Zwei m�ogliche Parameter der Aufnahme sind die Ansicht eines Objekts oder die Rich-tung, aus der das Objekt beleuchtet wird. Im allgemeinen kann die Ansicht des Objektsin drei, die Beleuchtungsrichtung in zwei Freiheitsgraden variieren. Da jedoch die An-zahl der aufzunehmenden Bilder exponentiell mit der Anzahl der Freiheitsgrade w�achst,beschr�ankt man sich meist auf ein oder zwei Freiheitsgrade.

0-0.2 0 0.2 0.4 0.20.1-0.1-0.2-0.3-0.2-0.100.1

Bild 4.1: Beispiel einer eindimensionalen Mannigfaltigkeit in einem dreidimensionalen Ei-genraum. Der Parameter ist die Drehung des Objekts. Die Punkte markieren die Lern-stichprobe. Deshalb ist die Mannigfaltigkeit geschlossen. Bei anderen Parametrisierungenist dies nicht erforderlich. Diese Mannigfaltigkeit entstand aus dem zweiten Objekt derBildmenge A aus Abschnitt 7.2 mit der Karhunen{Lo�eve{Transformation.Ist die Diskretisierung der Parameter so bescha�en, da� sich die Bilder von einerDiskretisierungsstufe zur n�achsten nur wenig �andern, liegen die Punkte von Bildern auf-einanderfolgender Diskretisierungsstufen im Eigenraum nahe beieinander (siehe Kapitel3). Ein Objekt wird also im Eigenraum durch eine im allgemeinen mehrdimensionale Folgevon Merkmalsvektoren hqci dargestellt. Durch Interpolation der Punkte, zum Beispiel miteinem B{Spline{Algorithmus [Rog90], erh�alt man eine kontinuierliche Mannigfaltigkeitc(q) (siehe Bild 4.1). Dadurch wird es m�oglich, auch Bilder, die in ihrer Parametrisierungzwischen zwei Bildern der Lernstichprobe liegen, zu bearbeiten.Soll ein Bild f klassi�ziert werden, werden seine Merkmale c mit der in der Lern-phase ermittelten Transformation berechnet. Darauf werden die Abst�ande des Punktes

4.2. NORMALVERTEILUNGEN 29zu den Mannigfaltigkeiten c�(q) der gelernten Klassen � gemessen. Das Bild wird derKlasse zugeordnet, zu deren Mannigfaltigkeit es den geringsten Abstand besitzt. K�onnenin einer Anwendung Bilder unbekannter Objekte auftreten, kann eine R�uckweisung ver-anla�t werden, indem ein Schwellwert f�ur den Abstand zur Mannigfaltigkeit eingef�uhrtwird. Ist der Abstand zu allen Mannigfaltigkeiten gr�o�er als dieser Wert, wird das Bildder R�uckweisungsklasse zugeordnet.Im Prinzip ist dieser Klassi�kator eine Verfeinerung des N�achster{Nachbar{Klassi�kators. Anstatt den n�achsten Punkt aus der Lernstichprobe im Eigenraum zu�nden, wird durch die Interpolation zwischen den vorgegebenen Punkten erm�oglicht, denAbstand zu einem beliebigen Punkt der Mannigfaltigkeit zu messen. Die interpoliertenPunkte beschreiben Sch�atzungen f�ur Bilder, deren Parametervektoren nicht mit der Dis-kretisierung erfa�t wurden.Nach der Klassi�kation eines Bildes ist die Sch�atzung des Parametervektors q m�oglich.Dadurch k�onnen die Aufnahmebedingungen des Bildes rekonstruiert werden, zum Bei-spiel, welche Ansicht eines Objekts im Bild vorlag. Der Punkt auf der Mannigfaltigkeit,der dem Punkt c am n�achsten liegt, liefert den Sch�atzwert bq. Ein besserer Sch�atzwertwird erreicht, indem der n�achste Punkt der Mannigfaltigkeit im sogenannten objektbe-zogenen Eigenraum bestimmt wird [Mur95b]. Der objektbezogene Eigenraum wird durchKarhunen{Lo�eve{Transformation der Bilder eines Objekts bestimmt. Zur Berechnung desobjektbezogenen Eigenraus eines Objekts k�onnen die anderen Transformationen aus Ka-pitel 2 nicht verwendet werden, da hier die Lernstichprobe aus den Bildern einer einzigenKlasse besteht.4.2 NormalverteilungenDie statistische Klassi�kation von Mustern ist theoretisch gut verstanden [Nie83, S. 164�].Es ist sogar m�oglich, den optimalen Klassi�kator anzugeben, in dem Sinne, da� die Ent-scheidungsregel des Klassi�kators die mittleren Kosten der Entscheidung minimiert. Mitder Annahme der klassenweise Normalverteilung der Merkmale wird in dieser Arbeit einModell entwickelt, da� die Nutzung dieses Klassi�kators erm�oglicht.Die 0,1{Kostenfunktion beschreibt den Fall, da� jede Fehlentscheidung das gleichekostet und korrekte Entscheidungen kostenfrei sind. Bei dieser Kostenfunktion ist deroptimale Klassi�kator der Bayes{Klassi�kator. Der Bayes{Klassi�kator berechnet die a{posteriori Wahrscheinlichkeit p(�jc) f�ur alle � und entscheidet sich dann f�ur die Klassemit maximaler a{posteriori Wahrscheinlichkeit. Diese Wahrscheinlichkeit l�a�t sich �uberdie Bayes{Formelp(�jc) = p�p(cj�)p(c) (4.3)

30 KAPITEL 4. OBJEKTMODELLE IM EIGENRAUMberechnen. Dazu m�ussen die Wahrscheinlichkeiten und Dichten der rechten Seite bekanntsein. Die Wahrscheinlichkeit p� steht dabei f�ur das Auftreten der Klasse �. p(c) ist dieDichte f�ur das Auftreten des Merkmalsvektors c, p(cj�) die Dichte f�ur das Auftretender Merkmalsvektoren der Klasse �. Die Entscheidungsregel ist f�ur einen vorgegebenenMerkmalsvektor c durch� = argmax� p(�jc)= argmax� p�p(cj�) (4.4)gegeben, wobei �uber alle Klassenindizes � = 1; : : : ; k maximiert wird. Der Nenner p(c)entf�allt hier, da diese Dichte von der Klassenzugeh�origkeit des Vektors c unabh�angig ist.�Ublicherweise sind die Wahrscheinlichkeiten und Dichten nicht direkt bekannt. Unterbestimmten Annahmen k�onnen aber Sch�atzwerte p̂�, p̂(c) und p̂(cj�) berechnet werden.Die diskreten Wahrscheinlichkeiten f�ur das Auftreten der einzelnen Klassen p̂� m�ussenje nach Anwendung beziehungsweise Problemstellung gesch�atzt werden. F�ur die Dichteder Merkmalsvektoren w�ahlt man, ebenfalls je nach Anwendung, eine parametrische Ver-teilungsfunktion p(cja), deren Parameter a aus einer Lernstichprobe gesch�atzt werdenk�onnen.F�ur die Klassi�kation ist die Dichte p(c) nicht erforderlich, jedoch f�ur die genaue Be-rechnung der a{posteriori Wahrscheinlichkeit. Dies ist zum Beispiel f�ur eine R�uckweisunginteressant (siehe unten). Deshalb soll die Sch�atzung hierf�ur mit angegeben werden. Sieist durch die Mischverteilungp̂(c) = kX�=1 p̂�N�(c; �̂�; K̂�); (4.5)die aus einer Linearkombination der einzelnen Verteilungen gebildet wird, gegeben. DieGewichtung der Verteilungen ist so gew�ahlt, da� die Stochastizit�atsbedingungZIRK p(c)dc = 1 (4.6)erf�ullt ist, mit IRK als dem Merkmalsraum. Mit den Klassenwahrscheinlichkeiten p� alsSkalierungsfaktoren wird au�erdem ber�ucksichtigt, da� Merkmalsvektoren aus Klassenmit niedriger Wahrscheinlichkeit insgesamt seltener auftreten als solche aus Klassen mithoher Wahrscheinlichkeit.Mit diesen Sch�atzwerten kann nun der Sch�atzwert f�ur die a{posteriori Wahrscheinlich-keit p̂(�jc) = p̂�p̂(cj�)p̂(c) (4.7)f�ur jede Klasse berechnet und danach optimal klassi�ziert werden.

4.3. VERGLEICH DER MODELLE 31Die in dieser Arbeit relevanten Merkmalsvektoren wurden durch problemabh�angigeReihenentwicklung gewonnen (siehe Abschnitt 2.1). F�ur diese Merkmale konnte gezeigtwerden, da� sie in guter N�aherung als klassenweise normalverteilt angenommen werdenk�onnen [Nie70]. Folglich k�onnen die Wahrscheinlichkeiten p(cj�) als NormalverteilungenN�(c;��;K�) modelliert werden.Die Parameter �� und K� der Normalverteilung k�onnen mit der Maximum{Likelihood{Methode [Bro85] aus den Merkmalen ic� Lernstichprobe gesch�atzt werden.�̂� = 1N� N�Xi=1 ic� (4.8)K̂� = 1N� N�Xi=1 �ic� � �̂�� ic�T (4.9)Die angen�aherte Merkmalsdichte einer Klasse ist damit gegeben alsp̂(cj�) = N�(c; �̂�; K̂�) = 1qdet(2�K̂�) exp((c� �̂�)TK̂�1� (c� �̂�)) (4.10)Die Wahrscheinlichkeiten p� sind immer abh�angig von der Problemstellung zusch�atzen. Ist �uber die H�au�gkeit der einzelnen Objekte nichts bekannt, werden in derRegel alle Klassen als gleich wahrscheinlich angenommen. Ist k die Anzahl der Klassen,so gilt̂p� = 1k : (4.11)Mit dieser Bedingung vereinfacht sich die Bayes{Regel zu� = argmax� p̂�p̂(cj�)= argmax� 1k p̂(cj�)= argmax� p̂(cj�): (4.12)Die Optimalit�at des Bayes{Klassi�kators bezieht sich auf tats�achliche Wahrscheinlich-keiten und Dichten. Durch die Sch�atzung entsteht ein Fehler, der die Erkennungsrate desKlassi�kators beein u�t. Die Qualit�at des Klassi�kators ist also abh�angig von der Qua-lit�at der Sch�atzung. Bei wenigen Bildern in der Stichprobe, wie in Bild 4.1 zu sehen ist,kann die Verteilung nicht gut gesch�atzt werden. Dazu sind mehr Bilder in der Stichprobeerforderlich (siehe 4.2).4.3 Vergleich der ModelleDie beiden Modellarten unterscheiden sich wesentlich in ihrem Aufbau und in ihrer An-wendbarkeit. Das Modell der Mannigfaltigkeiten liefert neben der Klassi�kation auch eine

32 KAPITEL 4. OBJEKTMODELLE IM EIGENRAUM0 0.3-0.300.3-0.3 -0.30.30Bild 4.2: Verteilung von Merkmalen von vier Objekten in einem dreidimensionalen Eigen-raum. Deutlich zu erkennen sind die vier disjunkten Bereiche der verschiedenen Klassen.Die Merkmale wurden mit den Bildern der Bildmenge B berechnet (siehe Abschnitt 7.2).Als Transformation wurde ein kombiniertes Ma� mit � = 10�4 verwendet, wobei zuvorder Fourierbetrag berechnet wurde.Parametersch�atzung f�ur den Vektor q. Je nach dessen Bedeutung kann daraus die Lagedes Objekts, die Ansicht, die Richtung der Beleuchtung, oder andere Bedingungen bei derAufnahme des Objekts bestimmt werden. Es ist allerdings erforderlich, da� die m�oglichenAufnahmebedingungen des Objekts durch einen oder mehrere kontinuierliche Parameterdarstellbar sind. Dies ist bei den oben erw�ahnten Beispielen ohne weiteres m�oglich.Andere Bedingungen k�onnen aber zum Beispiel verschiedene Auspr�agungen von Ob-jekten sein, wie unterschiedlich gebaute St�uhle oder verschiedene Arten von Werkst�ucken,die jeweils als eine Klasse gelten sollen. Solche �Anderungen sind durch kontinuierlicheParameter nur schwer, wenn �uberhaupt, zu modellieren.Bei den Normalverteilungsmodellen geht Information �uber die �Anderungen eines Ob-jekts bei der Sch�atzung der Normalverteilung verloren. Die Klassenbeschreibung bestehtausschlie�lich aus Mittelpunkt und Streuungsbereich einer Klasse. Somit kann diese Mo-dellart zur Modellierung unterschiedliche Auspr�agungen von Objekten ohne weiteres ver-wendet werden. Liegen allerdings kontinuierliche Parameter vor, mu� auf eine Parame-tersch�atzung verzichtet werden. Jedoch ist die Anwendung auch hier sinnvoll, wenn dieAufnahmen nicht in den Schritten entsprechend der Parameterquantisierung (siehe Ab-schnitt 4.1) vorliegen, sondern willk�urlich �uber dem Parameterraum verteilt sind.Ein wichtiger Vorteil der Mannigfaltigkeitsmodelle gegen�uber den Normalverteilungensind die Erkennungsraten bei kleinen Lernstichproben. Die Experimente hierzu sind imKapitel 7 beschrieben.

Kapitel 5Probleme und Einschr�ankungenDie Idee zur erscheinungsbasierten Objekterkennung, wie sie in dieser Arbeit beschriebenwird, wird erst seit wenigen Jahren verwendet. Deswegen sind noch nicht alle Probleme,die sich mit diesem Ansatz ergeben, endg�ultig gel�ost. Im Folgenden sollen einige dieserProbleme, die zum Teil bereits von Murase und Nayar beschrieben wurden [Mur95b], miteinigen L�osungsans�atzen aus der Literatur aufgelistet werden.Segmentierung:Zur Objekterkennung in Szenen mit mehreren Objekten ist es erforderlich, die ein-zelnen Objekte zu segmentieren. Dazu werden die aus der Bildsegmentierung be-kannten Methoden zur Kanten{ oder Regionendetektion benutzt. Als "letzter Rest\aus der Segmentierung ist dies eine erhebliche Einschr�ankung dieses Verfahrens, dasolche Methoden bisher fehleranf�allig und emp�ndlich gegen�uber St�orungen sind.Verdeckung:Des weiteren wird hier davon ausgegangen, da� die Objekte unverdeckt sind.Durch Verdeckungen �andert sich das Erscheinungsbild eines Objekts erheblich. EinL�osungsansatz von Murase und Nayar [Mur95a] arbeitet mit einem Teilvergleichder Bilder [Nay96]. Huttenlocher, Lilien und Olson [Hut96] verwenden anstelle desmittleren quadratischen Abstands das generalisierte Hausdor�{Ma�, um den Unter-raum zu erzeugen. Auf diese Weise wird auch die Klassi�zierung von nur teilweisesichtbaren Objekten erm�oglicht. Auf einer Hypothetisiere{und{Teste{Methode be-ruht eine Arbeit von Bischof und Leonardis [Bis96]. Anstelle der Projektion einesBildes in den Eigenraum werden im Eigenraum Koe�zienten gesucht, die eine op-timale Rekonstruktion nach der Gleichung (3.3) erlauben. Dadurch kann auch dieSegmentierung entfallen.Bestimmung der Dimension des Eigenraums:Welche Dimension des Eigenraums f�ur eine ausreichende Repr�asentation erforder-lich ist, ist stark abh�angig sowohl von den Objekteigenschaften, als auch von der33

34 KAPITEL 5. PROBLEME UND EINSCHR�ANKUNGENAnzahl der Objekte, die erkannt werden sollen. F�ur Objekte mit komplexer Texturist eine h�ohere Dimension des Eigenraums notwendig, als f�ur einfache Objekte, umeine gute Ann�aherung gem�a� Gleichung (3.3) zu erhalten. Sollen mehr Objekte er-kannt werden, mu� im allgemeinen die Dimension gr�o�er sein, damit eine robusteKlassi�kation m�oglich ist. Es gibt allerdings keine einfachen Beziehungen zwischenEigenschaften des Objekts und seiner Eigenraumdarstellung. Deshalb ist es schwer,die Anzahl der Dimensionen zu optimieren.Schwellwertwahl zur Zur�uckweisung:Ist der ermittelte Abstand eines Bildes zur optimalen Mannigfaltigkeit zu gro�, mu�das Objekt als unbekannt zur�uckgewiesen werden, wenn auch unbekannte Objektedem System vorgef�uhrt werden Die Wahl dieses Schwellwerts erfolgt heuristisch,und ist somit eine Einschr�ankung des analytischen Ansatzes.Bei Normalverteilungen kann der Schwellwert f�ur eine R�uckweisung aus den Kostenf�ur Fehlklassi�kation beziehungsweise R�uckweisung ermittelt werden. Eine R�uck-weisung erfolgt, wenn die maximale a{posteriori Wahrscheinlichkeit max� p(�jc)unter dem Schwellwert liegt [Nie83].Strukturelle Eigenschaften des Eigenraums:In sehr gro�en Projekten erweist sich die Lernphase als der wichtigste Flaschenhalsdes Systems. W�ahrend dieser Phase m�ussen viele Bilder aufgenommen, die Eigenvek-toren gro�er Matrizen berechnet und die parametrischen Mannigfaltigkeiten erzeugtwerden. Der Aufwand, der f�ur die Lernphase notwendig ist, ist abh�angig von derAnzahl der Bilder, die notwendig ist, um gute Mannigfaltigkeiten zu erhalten. Wie-viele Bilder braucht man also, um f�ur ein bestimmtes Objekt hinreichend genaueMannigfaltigkeiten zu erhalten?F�ur einige Sonderf�alle von Objekten, die hochgradig symmetrisch sind, k�onneneinfache und konkrete Aussagen gemacht werden, wie sich die Ansicht eines Ob-jekts zu Eigenschaften der Mannigfaltigkeiten verh�alt. So gilt zum Beispiel f�ur einegleichm�a�ige Kugel bei gleichbleibender Beleuchtung, da� jede Ansicht identischist. Doch derartige Objekte sind in der Praxis nur sehr selten, wenn �uberhaupt,vorhanden. F�ur die meisten Objekte ist unter perspektivischer Projektion der Zu-sammenhang zwischen Form des Objekts und der Mannigfaltigkeit zu komplex, alsda� man allgemeine Aussagen bez�uglich der Ansicht eines Objekts und seiner Man-nigfaltigkeit erwarten k�onnte.Wie Nayar und Murase [Nay95] mit empirischen Untersuchungen herausgefundenhaben, ist es im Gegensatz dazu m�oglich, einen einfachen Zusammenhang zwischenBeleuchtungsparametern und der Struktur einer Mannigfaltigkeit herzustellen, un-ter bestimmten Annahmen �uber das Re exionsverhalten der Objekte. So reichen f�ur

35Objekte mit Lambertschen Ober �achen mit beliebiger Textur drei Bilder aus, umdie gesamte Mannigfaltigkeit bez�uglich der Beleuchtung zu bestimmen. F�ur allge-meinere Ober �achen wurde in einer detaillierten empirischen Studie ermittelt, da�5 Dimensionen des Eigenraums ausreichen [Eps95].Lernen eines neuen Objekts:Wird ein neues Objekt hinzugef�ugt, mu� der globale Eigenraum neu berechnet wer-den. Die Vorgehensweise, die Kernmatrix und die Eigenvektoren neu zu berechnen,ist ine�zient, sobald viele Objekte in der Datenbank vorhanden sind. Um das zuvermeiden, kann ein Verfahren wie das Orthogonalisierungsverfahren von Gram undSchmidt [Hou64] verwendet werden. Dabei wird zun�achst der objektbezogene Eigen-raum des neuen Objekts berechnet. Diese wird mit dem alten globalen Eigenraumorthogonalisiert. Das Ergebnis ist dann der neue globale Eigenraum. Schlie�lich giltes noch, die Objektmodelle in dem neu berechneten Eigenraum zu �nden.

36 KAPITEL 5. PROBLEME UND EINSCHR�ANKUNGEN

Kapitel 6ProgrammstrukturenAn der Columbia University, Department of Computerscience wurde in C++ die Pro-grammbibliothek SLAM (Software Library for Appearance Matching [Nen94]) erstellt,mit deren Hilfe Objekte anhand ihrer Mannigfaltigkeiten in parametrischen Unterr�aumenerkannt werden k�onnen. Kern dieser Bibliothek ist eine Implementierung des in Kapitel[Mur95b] beschriebenen Verfahrens zum Lernen und Erkennen von Objekten und zur An-sichtsbestimmung. Weiterhin existieren Bedienungsober �achen zu den Programmen unterXWindows, einer gra�schen Benutzerober �ache zu UNIX. Die Programmbibliothek wurdeuns freundlicherweise von Professor Nayar zur Verf�ugung gestellt.Am Lehrstuhl f�ur Mustererkennung der Universit�at Erlangen wird eine eigene Klas-senbibliothek zur Programmentwicklung unter C++ verwendet. Diese Bibliothek mit demNamen �̀��o& (sprich "hippos\, von HIerarchy of Picture Processing ObjectS) wurde spezi-ell f�ur die Anforderungen der Bildverarbeitung entworfen. In Anf�angen wird sie inzwischenauch zur Sprachverarbeitung genutzt. Eine Beschreibung des Konzeptes von �̀��o& �ndetsich in [Pau95, Pau91]. Als Basis f�ur �̀��o& wurde das Klassensystem NIHCL (Natio-nal Institute of Health Class Library) [Gor90] verwendet, das an der US{amerikanischenGesundheitsbeh�orde (NIH) entwickelt wurde. NIHCL stellt sogenannte Containerklassenzur Verf�ugung, die verschiedene Datenstrukturen wie Listen, Mengen und dergleichendarstellen. Weiterhin werden �uber eine gemeinsame Basisklasse aller Klassen, die KlasseObject, eine einheitliche Schnittstelle zur Ein{ und Ausgabe, Methoden zum konsistentenKopieren von Instanzen, dynamische Typ�uberpr�ufung und vieles mehr erm�oglicht.Um diese Basis auch in dieser Arbeit nutzen zu k�onnen, wurden Klassen von SLAMnach �̀��o& portiert, sofern nicht �ahnliche Klassen in �̀��o& bereits vorhanden waren. Imweiteren soll zun�achst der Aufbau von SLAM beschrieben werden (Abschnitt 6.1). AufRealisierung der Implementierung unter �̀��o& soll am Ende des Kapitels in Abschnitt 6.2eingegangen werden.37

38 KAPITEL 6. PROGRAMMSTRUKTUREN6.1 SLAM{Struktur

search

PersistentSearchScheme

�tBSpline *

Interpolation *sample put, getPersistent search

PartialSearchBinarySearchFullSearch

sample, �tsample, �t sample, �t

Vektorfeld Vektorfeld Vektorfeld

PersistentInterpolationSearchScheme

BSplineVolume *BSplineSurface *BSplineCurve *search search

Bild 6.1: SLAM Klassenstruktur (Ausschnitt) Die mit * markierten Klassen wurden nach�̀��o& portiert.Die wesentlichen Klassen in der Hierarchie von SLAM sind die abstrakten KlassenInterpolation und SearchScheme sowie deren abgeleitete Klassen. Die hierarchischenBeziehungen dieser Klassen ist in Bild 6.1 wiedergegeben.

6.2. EINBINDUNG IN �̀��o& 39Interpolation stellt eine Schnittstelle dar, um aus einer Menge von Punkten ei-ne kontinuierliche Mannigfaltigkeit zu generieren. Aus dieser kontinuierlichen Mannig-faltigkeit k�onnen Punkte an beliebigen Parametern ermittelt werden. Auch kann eineso gewonnene Mannigfaltigkeit neu abgetastet werden. Von dieser Klasse ist die KlasseBSpline abgeleitet. Sie bietet eine Schnittstelle, um eine Interpolation der Punkte mitbeliebig{dimensionalen quadratischen B{Splines [Rog90] zu erzeugen. F�ur B{Splines miteiner, zwei und drei Dimensionen existieren die nicht{abstrakten Klassen BSplineCurve,BSplineSurface und BSplineVolume. Um das Abspeichern auf Datentr�ager zu verein-fachen, wurde als Basisklasse f�ur BSpline nicht unmittelbar Interpolation verwendet,sondern die auch von Persistent abgeleitete Klasse PersistentInterpolation.Um den Abstand eines Punktes zu einer Mannigfaltigkeit berechnen zu k�onnen, wur-de die Klasse SearchScheme angelegt. Dabei wird vorausgesetzt, da� die Mannigfaltigkeitwieder abgetastet wurde. Es wird der n�achste Nachbar des Punktes zu den Punkten aufder Mannigfaltigkeit gesucht. Dabei wird der Euklidische Abstand berechnet. Konkreti-sierungen dieser Klasse sind folgende:FullSearch: vergleicht jeden Punkt einer abgetasteten Mannigfaltigkeit mit dem neuenPunkt. Bei vielen Punkten ist dieses Vorgehen ine�zient.BinarySearch: ist eine Verallgemeinerung der bin�aren Suche im Eindimensionalen.PartialSearch: sucht dimensionsweise mit der Heuristik, da� bei geringen Unterschiedenin einer Dimension auch geringe Abst�ande der Punkte angenommen werden k�onnen.Auch hier wurde mit PersistentSearchScheme eine Klasse eingef�ugt, um Dateibehand-lung der abgeleiteten Klassen zu vereinfachen.Die Klassenhierarchie von SLAM enthielt weitere Klassen, die grunds�atzliche Daten-strukturen, wie zum Beispiel Listen, oder wichtige mathematische Repr�asentationen, wieMatrizen und Vektoren, zur Verf�ugung stellten. Da diese Teile von SLAM bei der Por-tierung durch entsprechende NIHCL{ und �̀��o&{Klassen ersetzt wurden, soll hier nichtweiter darauf eingegangen werden.6.2 Einbindung in �̀��o&Im folgenden sollen kurz die verwendeten Klassen, Funktionen und Programme beschrie-ben werden. Eine ausf�uhrliche Dokumentation der implementierten Klassen und Program-me ist in Anhang A wiedergegeben.

40 KAPITEL 6. PROGRAMMSTRUKTUREN6.2.1 KlassenVon den oben erw�ahnten Klassen mu�ten nur die Interpolationsklassen im Rahmen dieserArbeit nach �̀��o& portiert werden. Die Interpolationsklassen von SLAM wurden im Rah-men dieser Arbeit Die Klasse PersistentInterpolation konnte dabei weggelassen wer-den. Statt dessen wurde die Klasse Interpolation von der NIHCL{Basisklasse Objectabgeleitet. Dadurch erhalten die Klassen die oben erw�ahnten NIHCL{Eigenschaften.Im Rahmen der STACCATO{Bibliothek (STAtistiCal ClAssi�cation of Three{dimensional Objects), die Teil der �̀��o&{Bibliothek ist, wurden Klassen entwickelt, diedie globale Optimierung beliebiger Funktionen erm�oglichen [Hor96]. Die Suche mit denvon SearchScheme abgeleiteten Klassen nach dem n�achsten Nachbarn eines Punktes ausSLAM wurde durch die Berechnung des Abstandes zwischen Punkt und der Mannigfal-tigkeit als Modell eines Objekts ersetzt. Dieser Abstand ist de�niert alsd(c;�) = minq kc� c�(q)k; (6.1)also als der Euklidische Abstand zwischen dem Punkt und dem n�achsten Punkt auf derMannigfaltigkeit. Der Parametervektor, �uber den minimiert wird, stimmt mit dem Para-metervektor q aus Gleichung (4.1) �uberein.

GoldenSection *minimizeminimize minimizeGridGoldenSection *

minimizeGoldenSection

NoGradOptimization GridOptimization

Bild 6.2: Klassen zur Optimierung mit dem Goldenen Schnitt. Die mit * markiertenKlassen wurden f�ur diese Arbeit implementiert.Eine einfache eindimensionale Optimierung mit Hilfe des Goldenen{Schnitt{Verfahrens [Bro84, Pre88] wurde zus�atzlich zu den bisherigen Optimierungsverfahren im-plementiert. Dieses Verfahren ist jedoch nur ein lokales Verfahren, das hei�t, es wird nurein lokales Optimum der zu optimierenden Funktion gefunden.

6.2. EINBINDUNG IN �̀��o& 41Es ist jedoch leicht m�oglich, ein lokales Verfahren anzuwenden, um ein globales Op-timum zu �nden. Dazu wird ein Raster auf den Bereich gelegt, in dem optimiert werdensoll. In den Intervallen, die durch die Rasterung entstehen, wird jeweils das lokale Verfah-ren angewendet. So entsteht eine endliche Menge von lokalen Optima. Das Optimum ausdieser Menge ist das globale Optimum. Die Suche des Optimums aus der endlichen Mengehat die Zeitkomplexit�at O(n), mit n als der Anzahl der Elemente. Insgesamt l�a�t sich dieben�otigte Zeit mit nt + O(n) absch�atzen, wobei t den Zeitaufwand des lokalen Optimie-rungsverfahrens beschreibt [Hor96]. Kritisch hierbei ist also lediglich die Wahl der Anzahlbeziehungsweise Gr�o�e der Intervalle. Bei wenigen gro�en Intervallen k�onnen die lokalenVerfahren die Optima der Intervalle nicht sicher �nden. Bei vielen kleinen Intervallen wirddas Optimum zwar sicher gefunden, allerdings auf Kosten der Rechenzeit. Eine Klasse,die diese Vorgehensweise f�ur den Goldenen Schnitt zur Verf�ugung stellt, wurde ebenfallsimplementiert. Die Einbindung der Klassen in die STACCATO{Hierarchie ist in Bild 6.2abgebildet.Ein weiterer Teil der STACCATO{Bibliothek sind Klassen zur Sch�atzung von Wahr-scheinlichkeiten und Wahrscheinlichkeitsdichten. Abgeleitet von der Klasse Density exi-stieren Klassen zur Sch�atzung einer Normalverteilung und zur Berechnung einer Mischver-teilung aus mehreren Verteilungen. Diese Klassen stellen auch Methoden zur Verf�ugung,mit denen die a{posteriori Wahrscheinlichkeiten der einzelnen Klassen f�ur den Bayes{Klassi�kator berechnet werden kann.Eine detaillierte Beschreibung der STACCATO{Bibliothek ist in [Hor96] gegeben.6.2.2 ProgrammeDie Grundstruktur der zu dieser Arbeit entwickelten Programme kann dem Bild 6.3 ent-nommen werden. Es wird zun�achst in Lernphase und Arbeitsphase unterschieden. In derLernphase werden anhand einer Lernstichprobe ! = fif�ji = 1; : : : ; N� � = 1; : : : ; kg miteiner der problemabh�angigen Reihenentwicklungen aus Abschnitt 2.1 die optimalen Merk-male bestimmt. Dies beinhaltet zum einen die Bestimmung der Transformationsmatrix�, zum anderen die Anwendung dieser Matrix, um aus den Elementen der Lernstich-probe die Merkmale zu erhalten. Aus diesen Merkmalen werden dann in einem drittenSchritt die Objektmodelle zur Klassi�kation bestimmt. Die Arbeitsphase besteht aus zweiSchritten. Im ersten Schritt werden mit der aus der Lernphase bestimmten Transforma-tion die Merkmale gewonnen. Dieser Merkmalsvektor kann nun je nach den verwendetenObjektmodellen klassi�ziert werden.Im wesentlichen existieren f�ur jeden dieser Schritte einzelne Programme. In Bild 6.3nicht eingezeichnet ist der Schritt, um aus einem Bild einen Vektor f zu generieren. Da-zu wurde das Programm gvitovec implementiert. Neben der Umformung k�onnen aucheinige vorverarbeitende Schritte, wie zum Beispiel Bildgr�o�ennormierung oder Filterung,

42 KAPITEL 6. PROGRAMMSTRUKTUREN

Klasse� Projektion

Klassi�kationProjektion Eigenraumberechnung

Modellgenerierungif� fic� c

ModellBild 6.3: Systemaufbau zur Klassi�kation mit problemabh�angiger Reihenentwicklung. DieModellgenerierung ist entweder Interpolation der Punkte zu einer Mannigfaltigkeit oderdie Sch�atzung der Parameter der Normalverteilung. Je nach verwendetem Verfahren mu�das entsprechende Klassi�kationsverfahren verwendet werden.Programm BeschreibungLernphase gvitovec Wandelt ein Bild in einen Vektor um. F�uhrtebenfalls vorverarbeitende Schritte aus.eigen Berechnet die Eigenvektoren aus einerReihe von Eingabevektoren.project Projiziert Bildvektoren in den Eigenraum.ipolate Interpoliert Punkte im Eigenraum zu einerMannigfaltigkeit.traing Sch�atzt die Normalverteilungen dereinzelnen Klassen.Arbeitsphase gvitovec (siehe oben)project (siehe oben)distance Bestimmt Abstand zwischen Punkt undMannigfaltigkeiten und klassi�ziert dasObjekt.gclass Berechnet die a{posterioriWahrscheinlichkeit und klassi�ziert dasObjekt.Tabelle 6.1: Programme zur erscheinungsbasierten Objekterkennungvorgenommen werden. Mit dem Programm eigen wird aus der Lernstichprobe die Trans-formationsmatrix bestimmt. Die Transformation stellt eine Projektion der Vektoren in

6.2. EINBINDUNG IN �̀��o& 43den Eigenraum dar. Diese wird sowohl in der Lernphase als auch in der Arbeitsphasedurch das Programm project durchgef�uhrt.Zwei verschiedene Arten von Objektmodellen wurden implementiert. Die erste Artbeschreibt �uber Interpolation der Punkte im Eigenraum eine Mannigfaltigkeit. Die Er-stellung einer B{Spline{Interpolation mit den im Abschnitt 6.2.1 skizzierten Klassen er-folgt durch das Programm ipolate. Abstandsmessung und Klassi�kation werden von demProgramm distance durchgef�uhrt.Die Normalverteilungen werden von dem Programm traing (kurz f�ur train gaus-sian distribution) anhand der Stichprobe gesch�atzt. Die Klassi�kation mit der Bayes{Entscheidungsregel f�uhrt das Programm gclass aus.Programm Beschreibungvectogvi Wandelt einen Vektor in ein Bild zur�uck.project -back Rekonstruiert Bildvektor aus einem Punktim Eigenraum.sample Wiederabtasten einer Mannigfaltigkeit.Tabelle 6.2: Hilfsprogramme zur R�uckf�uhrung in den BildraumEinige Hilfsprogramme wurden implementiert, um eine R�uckprojektion von Daten inden Bildraum zu erleichtern. Das Programm vectogvi verwandelt einen Vektor wiederin ein Bild um. Die Gr�o�e des Ausgabebildes mu� dabei mit der Gr�o�e des Vektors�ubereinstimmen. Da nicht automatisch von einer eindimensionalen Gr�o�e auf die Gr�o�edes Bildes geschlossen werden kann, mu� die Bildgr�o�e in einer Option angegeben werden.Zur R�uckprojektion entsprechend der Gleichung (3.3) wird das Programm projectmit der Option -back verwendet.Zum erneuten Abtasten einer Mannigfaltigkeit dient das Programm sample. Eserm�oglicht sowohl die Abtastung in festen Schritten zu mehreren Vektoren, aber auchdie Berechnung des Wertes der Mannigfaltigkeit an einer bestimmten Parameterstelle.Die Parameter liegen f�ur jede Komponente im Bereich [0; 1].

44 KAPITEL 6. PROGRAMMSTRUKTUREN

Kapitel 7ErgebnisseIm folgenden sollen die zur Objekterkennung durchgef�uhrten Experimente beschriebenund die erzielten Ergebnisse dargestellt und erl�autert werden. In Abschnitt 7.1 werdendie wichtigsten Ergebnisse aus der Arbeit von Murase und Nayar [Mur95b] zusammenge-fa�t. Die im Rahmen dieser Arbeit erzielten Ergebnisse sind in Abschnitt 7.2 aufgef�uhrt.Abschlie�end werden in Abschnitt 7.3 einige Folgerungen aus den Ergebnissen aufgef�uhrt.7.1 Zusammenfassung der Ergebnisse von Muraseund NayarMurase und Nayar [Mur95b, Nay96] gewinnen in einem System zur Objekt{ und Ansichts-erkennung Merkmale mit Hilfe der Karhunen{Lo�eve{Transformation. Zur Modellgenerie-rung werden die Mannigfaltigkeitsmodelle benutzt.Die Bilder, anhand derer die Tests durchgef�uhrt werden, zeigen helle Objekte vorschwarzem Hintergrund. Mit einer einfachen Schwellwertsegmentierung ist es deshalbm�oglich Objekt und Hintergrund voneinander zu trennen, und das Objekt aus dem Bildauszuschneiden. Mit dieser Segmentierung ist eine Einschr�ankung des ansonsten segmen-tierungsfreien Ansatzes gegeben.Als Parameter der verschiedenen Aufnahmen werden nur die Rotationslage des Ob-jekts und die Beleuchtungsrichtung ber�ucksichtigt. F�ur einen allgemeinen Ansatz im drei-dimensionalen sind drei Parameter f�ur die Rotation und zwei f�ur die Beleuchtungsrichtungerforderlich. Um den Aufwand niedrig zu halten, wird jedoch jeweils nur ein Parameterf�ur Rotation und Beleuchtungsrichtung verwendet.F�ur einen ersten Test des Verfahrens werden von Murase und Nayar vier einfacheHolz�guren (siehe Bild 7.1) benutzt. Eine Lichtquelle wird mit einem Roboterarm so po-sitioniert, da� sie aus f�unf verschiedenen Richtungen das Objekt beleuchten kann. DasObjekt wurde auf einem Drehteller um jeweils vier Grad zwischen zwei Aufnahmen ge-45

46 KAPITEL 7. ERGEBNISSE

Bild 7.1: Holz�guren von Murase und Nayar (entnommen aus [Nay96])dreht. Bei einer vollen Drehung um 360 Grad entstehen so 90 Ansichten der Objekte. F�uralle vier Objekte ergeben sich damit 1800 Bilder in der Lernstichprobe.Getestet wird das System mit weiteren Aufnahmen, bei denen diesmal drei Beleuch-tungsrichtungen vorhanden sind. Die Ansicht unterscheidet sich ebenfalls in vier{Grad{Schritten. Dabei wurde darauf geachtet, da� die Rotationslage eines Testbildes jeweilszwischen den Rotationslagen in zwei Bildern der Lernstichprobe liegt. Bei vier Objektenentstanden so 1080 Testbilder.Versuche mit verschiedener Dimension des Eigenraums ergeben, da� die Erkennungsra-te f�ur weniger als vier Dimensionen niedrig ist (unter 80 % bei zwei Dimensionen), jedochbereits bei etwa vier Dimensionen sich an 100 % ann�ahert (siehe Bild 7.2a). Bereits 30 ver-schiedene Ansichten in der Lernphase, was Drehungen von jeweils 12� entspricht, reichenallerdings aus, um Erkennungsraten nahe eins zu erreichen (siehe Bild 7.2b). Bei wenigerLernansichten wird die Erkennungsrate vor allem dann schlechter, wenn die Ansicht desObjekts beim Test zwischen zwei Lernansichten liegt.Auch die Genauigkeit der Ansichtsbestimmung wurde getestet. Mit allen 90 Ansichtenw�ahrend der Trainingsphase wurde ein mittlerer Fehler bei der Ansichtsbestimmung voneinem halben Grad festgestellt. In einem zweiten Test wurde die Anzahl der Lernansichtenauf 18 reduziert, was Objektdrehungen von 20 Grad entspricht. Dadurch erh�ohte sich dermittlere Fehler auf ein Grad (siehe auch Abbildung 7.3).

7.1. ZUSAMMENFASSUNG DER ERGEBNISSE VON MURASE UND NAYAR 47

111086420708090100(in %)

Dimension des Eigenraums

Erkennungsrate

7.2a Erkennungsrate bzgl. Dimension desEigenraums 100806040200708090100(in %)Erkennungsrate

Ansichten in der Lernphase7.2b Erkennungsrate bzgl. Gr�o�e der Lern-stichprobeBild 7.2: Das Bild links zeigt die Erkennungsrate aufgetragen auf der Dimension desEigenraums. Im Bild rechts sieht man, wie die Anzahl der Bilder in der Lernphase dasErkennungsergebnis beein u�t (entnommen aus [Nay96]).

-8 -6 -4 -2 0 2 4 6 8 x02004006008001000 90 Ansichten inLernphaseBilder

Fehler der Ansichtsbestimmung(in Grad)7.3a 90 Ansichten -8 -6 -4 -2 0 2 4 6 8 x0100200300400500600

(in Grad)Fehler der Ansichtsbestimmung

Bilder 18 Ansichten inLernphase

7.3b 18 AnsichtenBild 7.3: Das Bild links zeigt die aufgetretenen Fehler bei der Ansichtsbestimmung, wennin der Lernphase 90 Ansichten benutzt werden. Bei nur 18 Ansichten in der Lernphaseist der Fehler etwas gr�o�er, wie das Histogramm rechts zeigt. Das x steht f�ur nicht richtigerkannte Bilder, bei denen eine Ansichtsbestimmung nicht sinnvoll ist (entnommen aus[Nay96]).In einem weiteren Versuch wurde ein Erkennungssystem mit 20 Objekten aufgebaut.Das System arbeitet unter Laborbedingungen, bei denen die Beleuchtung als konstant

48 KAPITEL 7. ERGEBNISSEangesehen werden kann. Nur die Ansicht des Objekts wurde mit einer Drehung um eineAchse ver�andert. Die Mannigfaltigkeiten variieren also nur in einem Parameter. Zu jedemObjekt wurden 72 Lernansichten aufgenommen. Die gesamte Datenmenge betrug also1440 Bilder. Daraus wurde ein 20{dimensionaler Eigenraum errechnet. Auf objektbezo-gene Eigenr�aume wurde verzichtet. Die Ansichtsbestimmung erfolgt ebenfalls im globalenEigenraum. Zum Test wurden 320 Testbilder der 20 Objekte benutzt, mit zuf�allig gew�ahl-ter, aber bekannter Ansicht. Alle Objekte wurden korrekt erkannt. Der mittlere Fehlerder Ansichtsbestimmung betr�agt 1.59 Grad, bei einer Standardabweichung des Fehlersvon 1.53 Grad (siehe Bild 7.4)[Nay96].

0 2 4 6 8 10 12 14 16 18 x020406080100

Fehler der Ansichtsbestimmung

Bilder

(in Grad)Bild 7.4: Fehler bei der Ansichtsbestimmung mit 20 Objekten (entnommen aus [Nay96])

7.2. EXPERIMENTELLE ERGEBNISSE 497.2 Experimentelle ErgebnisseIn diesem Abschnitt werden Experimente beschrieben, die im Rahmen dieser Arbeit durch-gef�uhrt wurden, und die Ergebnisse dieser Experimente erl�autert. Zun�achst (Abschnitt7.2.1) werden die verwendeten Bildmengen beschrieben. Im Abschnitt 7.2.2 werden dieErkennungsraten der verschiedenen Transformationen und Objektmodelle verglichen, diein Kapitel 2 beziehungsweise 4 beschrieben sind. Die Auswirkung von nichtlinearen, vor-verarbeitenden Filtern wird in Abschnitt 7.2.3 dargestellt. Zum Schlu� folgen in Abschnitt7.2.4 Bemerkungen �uber die Laufzeit der Algorithmen.7.2.1 Verwendete Bildmengen

Bild 7.5: Objekte der Bildmenge A. Die unteren Bilder zeigen das Objekt jeweils um 180Grad gedreht.Um die Eigenschaften der Transformationen, Modelle und Vorverarbeitungen aus den Ka-piteln 2 und 4 vergleichen zu k�onnen, wurden die implementierten Programme zun�achstmit einer bei SLAM (siehe Kapitel 6) mitgelieferten Bildmenge getestet. Sie ist ein Teilder 20{Objekte{Datenbank aus dem vorigen Abschnitt. In dieser Menge, die im weite-ren Menge A hei�t, sind f�unf Objekte aus verschiedenen Ansichten aufgenommen (Bild7.5). Die Ansichten unterscheiden sich in jeweils f�unf{Grad{Drehungen des Objekts. DieDrehachse liegt leicht geneigt zur vertikalen Achse der Bildebene. Eine komplette 360�{Drehung um diese Achse liefert f�ur jedes Objekt 72 Bilder.Diese Bilder sind unter Laborbedingungen entstanden; die Beleuchtung, die mit Ha-logenstrahlern erfolgte, ist weitgehend konstant [Mur95b]. In den Bildern ist nahezukein Rauschen vorhanden. Insbesondere ist der Hintergrund der Bilder homogen schwarz(Grauwert Null). Da die Objekte selbst sehr hell sind, lassen sie sich einfach vom Hinter-grund trennen. Die Objekte wurden aus dem Bild ausgeschnitten und in der Bildgr�o�eauf 128� 128 Pixel normiert.Um das Verhalten der Verfahren bei Bildern aufzuzeigen, die nicht in der Lernphaseverwendet wurden, wurde die Bildmenge in eine Lernstichprobe und eine Teststichprobe

50 KAPITEL 7. ERGEBNISSEaufgeteilt, wobei zwischen zwei aufeinanderfolgenden Bildern einer Stichprobe jeweils einUnterschied der Ansicht in zehn Grad vorliegt.Bild 7.6: Objekte der Bildmenge B.Eine weitere Bildmenge, Bildmenge B, mit denen die Algorithmen getestet wurden,wurde am Lehrstuhl f�ur Mustererkennung bereits zum Testen anderer Systeme zur Ob-jekterkennung verwendet (Bild 7.6). In dieser Bildmenge sind vier Objekte vorhanden,deren Translation und Rotation in der Ebene variiert. Die Beleuchtung der Objekte er-folgte hier indirekt, ist aber konstant �uber die gesammte Stichprobe. Zu jedem Objektexistieren etwa 200 Aufnahmen. Die Bilder unterscheiden sich in der Lage des Objekts,sowohl Translation als auch Rotation. Bei einigen Bildern, etwa 20 f�ur jedes Objekt, liegtdas Objekt teilweise �uber den Rand des Bildes hinaus. Dadurch wurden Verdeckungendes Objekts simuliert.Die Lage der Objekte in den Bildern variierte zuf�allig. Deshalb ist eine Bearbeitungmit dem Mannigfaltigkeitsmodell, wie es in dieser Arbeit angegeben ist, nicht m�oglich.Deshalb wurden mit dieser Bildmenge nur die Normalverteilungsmodelle getestet. DieBilder wurden zuf�allig in Lern{ und Teststichprobe aufgeteilt. Auch ein Teil der Bildermit Verdeckungen wurde in die Lernstichprobe aufgenommen.Die Bilder sind durch die Aufnahme verrauscht; der Hintergrund ist somit nicht ho-mogen. Jedoch sind die Objekte wiederum wei� vor schwarzem Hintergrund. Die ein-fache Segmentierung ist hier ebenfalls anwendbar, um die Objekte auszuschneiden. Umdie theoretisch schlechten Ergebnisse aus Abschnitt 3.3 bei der Translation praktisch zubest�atigen, wurde dies zun�achst nicht durchgef�uhrt. Die Bilder wurden ebenfalls auf eineBildgr�o�e von 128� 128 Pixeln normiert.7.2.2 Transformationen und ModelleZun�achst wurden f�ur die Bilder der Bildmenge A die verschiedenen Transformationennach Kapitel 2 berechnet und danach die Merkmale bestimmt. Als Modelle wurden sowohlMannigfaltigkeiten, als auch Normalverteilungen verwendet. Die Ergebnisse sind in Bild7.7 aufgezeigt.Bei allen Transformationen sind die Mannigfaltigkeitsmodelle besser als die Normalver-teilungsmodelle. Sie erreichen eine Erkennungsrate von Eins bei deutlich weniger Dimen-

7.2. EXPERIMENTELLE ERGEBNISSE 51KL{TransformationInterklassenabstandKlassenzentrenabstandErkennungsra

te 10.80.60.40.20 Dimension des Eigenraums0 2 4 6 8 107.7a MannigfaltigkeitsmodelleInterklassenabstandKL{TransformationKlassenzentrenabstandDimension des Eigenraums

10.80.600.20.4 6 8 10420

Erkennungsrate

7.7b NormalverteilungsmodelleBild 7.7: Verlauf der Erkennungsraten zu den einzelnen Transformationen und Modellenin Abh�angigkeit von der Dimensionalit�at des Eigenraums. (Bildmenge A)sionen des Eigenraums. Da der Klassi�kator bei den Normalverteilungsmodellen optimalist, mu� der Fehler bei der Sch�atzung der Verteilungsparameter oder bei der Annahmeder Verteilung liegen. Wie an Bild 4.1 als Beispiel einer Mannigfaltigkeit erkannt werdenkann, liegen zu wenig bekannte Punkte vor, um eine gute Sch�atzung zu erhalten.Beide Modellarten liefern als das beste Ma� den Klassenzentrenabstand. Die Verbesse-rung gegen�uber der Karhunen{Lo�eve{Transformation ist klar, da diese die Zugeh�origkeitder Merkmalsvektoren zu den Klassen nicht ber�ucksichtigt. Verglichen mit dem Interklas-senabstand liegt der Vorteil in der niedrigeren Streuung der Klassen, die durch gleichzeitigeMinimierung des Intraklassenabstands erreicht wird.Allerdings ist der Eigenraum bei dieser Transformation auf wenige Dimensionen be-schr�ankt (siehe Kapitel 2). Bei den hier verwendeten rauschfreien Aufnahmen mit ei-ner einfachen Parametrisierung (siehe oben) reichen diese aus, um die maximale Erken-nungsrate von Eins zu erreichen. Bei komplizierteren Problemstellungen ist dies unterUmst�anden nicht der Fall. Daf�ur kann jedoch das kombinierte Ma� s5 = s4+ �s3 verwen-det werden. Dieses Ma� wurde f�ur mehrere Werte von � getestet. Wegen Gleichung (2.42)ist � auf positive, reelle Werte eingeschr�ankt. In Bild 7.8 ist die Erkennungsrate bei� = 10�4; 10�1; 12 ; 1 dargestellt. F�ur den Wert � = 1 ist dieses Ma� der Interklassenab-stand. Im Vergleich zum Klassenzentrenabstand wird jeweils eine niedrigere Erkennungs-rate erreicht, da der Intraklassenabstand erh�oht wird. Nur bei � = 10�4 ist die Erh�ohungdes Intraklassenabstands so niedrig, da� eine Verschlechterung der Erkennungsrate nichtfeststellbar ist. Es k�onnen jedoch mehr Dimensionen des Eigenraums berechnet werden,als bei dem Klassenzentrenabstand. Da s3 ein Ma� f�ur die Kompaktheit der Klassen im


Dimension des Eigenraums0 2 4 6 8 100.000100.20.40.6

0.81Erkennungsrate

10.50.17.8a Mannigfaltigkeiten

0.50.10.00010 2 4 6 8 10Dimension des EigenraumsErkennungsrate 0.40.60.8100.2 1

7.8b NormalverteilungenBild 7.8: Kombiniertes Ma� s5 = s4 + �s3 f�ur Bildmenge A mit � = 10�4; 10�1; 12 ; 1. Beidem Wert � = 1 ist das Ma� der Interklassenabstand.Merkmalsraum ist, ist die Komprimierung der Klassen im Merkmalsraum in diesem Fallbesonders wichtig f�ur die Klassi�kation.Transformation/G�utema� Fehler [Grad]Karhunen{Lo�eve{Transformation 0.70Interklassenabstand 0.71Klassenzentrenabstand 5.04kombiniert (� = 10�4) 0.69kombiniert (� = 0:1) 0.69kombiniert (� = 0:5) 1.21Tabelle 7.1: Mittlerer Fehler der Positionsbestimmung mit verschiedenen Transformatio-nen bei Verwendung von Mannigfaltigkeitsmodellen im zehndimensionalen Eigenraum,beziehungsweise vierdimensionalem Eigenraum bei Verwendung des Klassenzentrenab-stands.Bei Mannigfaltigkeiten k�onnen die Parameter der Aufnahme gesch�atzt werden. Diemittleren Fehler bei den verschiedenen Transformationen sind in Tabelle 7.1 aufgelistet.Obwohl vier Eigenvektoren ausreichen, um bei der Klassi�kation mit dem Klassenzentren-abstand die Erkennungsrate 1 zu erreichen, ist der Fehler bei der Parameterbestimmungdeutlich gr�o�er als bei den anderen Ma�en. Doch auch dies kann durch das kombinierteMa� ausgeglichen werden.Die hier genannten Ergebnisse lassen sich mit der Bildmenge B f�ur Normalvertei-lungen best�atigen. Mit 20 Eigenvektoren lassen sich Erkennungsraten wie in Tabelle 7.2angegeben erreichen. Mit dem Klassenzentrenabstand selbst sind bei vier Klassen kei-ne 20 Eigenvektoren zu berechnen. Statt dessen wurde hier das kombinierte Ma� mit

7.2. EXPERIMENTELLE ERGEBNISSE 53Klasse s1 s2 s5(0:5) s5(10�4) s1 s2 s5(0:5) s5(10�4)unverdeckt verdeckt1 40 35 47 61 10 10 10 302 80 80 83 88 30 30 30 403 3 9 25 62 0 0 0 04 64 65 63 62 80 90 100 80Gesamt 47 47 54 68 30 33 35 38Tabelle 7.2: Erkennungsraten bei Bildmenge B unter Verwendung unterschiedlicher G�ute-ma�e bei 20 Eigenvektoren. Die Bilder wurden hier mit einer Diskriminanzanalyse vor-verarbeitet, um Objekt und Hintergrund zu unterscheiden. Hintergrundpixel wurden aufNull gesetzt.� = 10�4 angegeben. Dieses Ma� liefert hier die erfolgreichste Transformation. Da f�ur dieVerdeckungen nur sehr wenige Bilder in der Lernstichprobe vorhanden waren, und die�Ahnlichkeit zwischen den Bildern mit Verdeckungen und den Bildern ohne Verdeckungennicht besonders hoch ist, sind die Ergebnisse mit verdeckten Objekten im allgemeinenschlechter. Die besseren Ergebnisse bei Objekt vier kann mit der hohen Symmetrie desObjekts erkl�art werden.Die insgesamt schlechten Ergebnisse bei allen Transformationen lassen sich mit denunterschiedlichen Translationen der Objekte erkl�aren, die in diesen Bildern auftreten.Nach Kapitel 3.3 ist die Translation mit diesem Ansatz nur schwer behandelbar.Verfahren Rate [%]unverdeckt verdecktTranslation als Parameter 47 30invariant durch Objektsegmentierung 99 73invariant durch Fouriertransformation 100 100Tabelle 7.3: Erkennungsraten bei Translationsinvarianz.Durch eine Schwellwertsegmentierung des Objekts kann das Objekt im Bild ausge-schnitten werden. Durch dieses Ausschneiden werden die translatorischen Unterschiedebeseitigt. Die Erkennungsrate f�allt dann schon bei der Karhunen{Lo�eve{Transformationmit 98% bei 20 Eigenvektoren deutlich besser aus. Wird der Fourierbetrag der Bilder be-rechnet, wodurch ebenfalls translationsinvariante Merkmale berechnet werden, wird eineErkennungsrate von 100% erreicht. Auch in diesem Fall reicht bereits die Karhunen{Lo�eve{Transformation f�ur diese Erkennungsrate aus. Selbst bei Verdeckungen wurdenalle Objekte richtig erkannt. Werden Teile eines Objekts verdeckt, kann aus den sichtba-ren Grauwerten nicht auf die Werte der verdeckten Grauwerte geschlossen werden. Einrein grauwertbasiertes Verfahren mu� deshalb bei Verdeckung scheitern. Dagegen werdenim Bild vorkommende Frequenzen von allen Grauwerten bestimmt. Deshalb k�onnen Fre-

54 KAPITEL 7. ERGEBNISSEquenzen noch ungef�ahr bestimmt werden, auch wenn ein Teil der Grauwerte des Objektsunbekannt ist.7.2.3 Vorverarbeitung

0 2 4 6 8 100.2 Dimension des Eigenraums00.40.60.81

KantendetektionKein FilterGau�{FilterFourierbetragErkennungsrate

7.9a Mannigfaltigkeitsmodelle 2 4 6 8 1000.20.40.60.81

0 Dimension des EigenraumsKantendetektionKein FilterFourierbetragGau�{FilterErkennungsrate

7.9b NormalverteilungsmodelleNevatia{BabuKein FilterLaplace

10.80.60.40.200 2 4 Sobel6Dimension des Eigenraums8 10Erkennungsrate

7.9c MannigfaltigkeitsmodelleLaplaceNevatia{BabuSobel0 2 4 6 8 10Kein Filter

Dimension des Eigenraums00.20.40.60.81Erkennungsrate

7.9d NormalverteilungsmodelleBild 7.9: Erkennungsraten bei vorverarbeiteten Bildern mit Karhunen{Lo�eve{Transfor-mation der Vektoren (s1). F�ur eine bessere �Ubersicht sind die Filter in zwei Gruppenaufgeteilt. Die Ergebnisse der ersten Gruppe sind oben, die der zweiten Gruppe untendargestellt. Zum Vergleich ist jeweils die Erkennungsrate bei nicht vorverarbeiteten Bil-dern mit angegeben.Weitere Experimente wurden mit vorverarbeitenden Filtern durchgef�uhrt. Die getestetenFilter waren in ihrer Zielsetzung stark unterschiedlich. Eine Klasse von Filtern sind Hoch-pa��lter, wie der Sobel{Operator, der Laplace{Operator und der Nevatia{Babu{Filter.Diese Filter geben eine hohe Antwort bei gro�en �Anderungen des Grauwerts, also anden Kanten des Objekts. Da aber auch ein Hintergrundrauschen der Bilder starke Grau-

7.2. EXPERIMENTELLE ERGEBNISSE 55wertspr�unge hervorrufen kann, sind diese Filter sehr st�oranf�allig.Wegen der Hervorhebungvon Kanten dienen sie als Vorverarbeitung zur Kantendetektion.Ein solches Kantendetektionsverfahren wurde ebenfalls getestet, wobei die Kanten inBin�arbildern dargestellt wurden. Auf diesen Bildern wurden dann die oben beschriebenenVerfahren angewendet.Im Gegensatz zu diesen Filtern stehen die Tiefpa��lter, wie zum Beispiel der Gau�{Filter. Diese Filter dienen zur Gl�attung eines Bildes. Dadurch soll das Hintergrundrau-schen eliminiert werden. Allerdings werden dabei auch die Kanten unscharf. Das Bildwirkt verschwommen. Bei dem Gau�{Filter mu� ein Parameter � eingestellt werden, derdie Varianz der Gau�kurve angibt. Je h�oher dieser Wert ist, um so st�arker ist die Gl�attung.F�ur die Tests hier wurde mit einem Wert von � = 5 gearbeitet.Weiterhin wurde der Betrag der Fourierkoe�zienten getestet. Diese Werte geben dieH�au�gkeit der im Originalbild auftretenden Frequenzen wieder.Der Verlauf der Erkennungsraten bei Verwendung der Bildmenge A sind in Bild 7.9und Bild 7.10 dargestellt. Da diese Bilder nahezu kein Rauschen enthalten, liefern dieFilter sehr gute Ergebnisse. Nach dem Filtern wurde die Karhunen{Lo�eve{Transforma-tion beziehungsweise die Transformation nach dem Klassenzentrenabstand angewendet.Filter Fehler [Grad]Ohne Filter 0.70Fourier 0.96Gau�{Filter 0.74Kantendetektion 14.84Laplace{Operator 3.81Nevatia{Babu 2.96Sobel{Operator 1.73Tabelle 7.4: Mittlerer Fehler der Positionsbestimmung nach Filterung bei Verwendungvon Mannigfaltigkeitsmodellen im zehndimensionalen Eigenraum.Bei niedrigen Dimensionen ist die Rate zum Teil deutlich h�oher als dies bei den un-bearbeiteten Bildern der Fall ist. Bei Hinzunahme weiterer Dimensionen ist der Anstiegviel acher, so da� unge�lterte Bilder bald bessere Raten liefern. Der hohe Einstieg liegtan der Reduktion auf wenige wichtige Eigenschaften, die diese Filter liefern. Insbesondereergibt die Verwendung segmentierter Bilder bei niedrigen Dimensionen die besten Werte.Durch die Filterung ist jedoch auch ein Informationsverlust gegeben. Deshalb ist der In-formationszuwachs bei Vergr�o�erung der Dimensionalit�at letztendlich niedriger und derAnstieg der Erkennungsrate acher.Lediglich der Betrag der Fourierkoe�zienten liefert ein besseres Ergebnis. Die H�au�g-keit der im Bild vorkommenden Frequenzen sind somit ein besseres Kriterium zur Ob-


1 2 3 4KantendetektionDimension des EigenraumsErkennungsrate 10.80.60.40.20 Kein FilterFourierbetragGau�{Filter

7.10a Mannigfaltigkeitsmodelle 400.20.40.60.81

Dimension des EigenraumsErkennungsrate Kein FilterKantendetektionGau�{FilterFourierbetrag1 2 37.10b Normalverteilungsmodelle

0.80.60.40.20 Kein FilterLaplaceNevatia{BabuSobel1 21

3Erkennungsrate

4Dimensionen des Eigenraums7.10c Mannigfaltigkeitsmodelle0.20.40.60.81

1 2 3 40 SobelErkennungsrate

Dimension des EigenraumsKein FilterLaplaceNevatia{Babu

7.10d NormalverteilungsmodelleBild 7.10: Erkennungsraten bei vorverarbeiteten Bildern mit Karhunen{Lo�eve{Transfor-mation der Mittelwerte der Vektoren (s4). F�ur eine bessere �Ubersicht sind die Filter inzwei Gruppen aufgeteilt. Die Ergebnisse der ersten Gruppe sind oben, die der zweitenGruppe unten dargestellt. Zum Vergleich ist jeweils die Erkennungsrate bei unverarbeite-ten Bildern mit angegeben.jekterkennung als die Grauwerte selbst. Allerdings ist hier die Genauigkeit der Positi-onssch�atzung bei Mannigfaltigkeiten etwas schlechter (siehe Tabelle 7.4).Die Bilder der Bildmenge A enthalten nahezu kein Rauschen. Damit kann die An-wendung eines rauschreduzierenden Filters wie des Gau�{Filters keine Verbesserung derBilder bewirken. Die Bildmenge B dagegen enth�alt verrauschte Daten. Durch Anwendungrauschunterdr�uckender und bildverbessernder Vorverarbeitung kann die Erkennungsratezum Teil deutlich verbessert werden. Die Ergebnisse sind in Tabelle 7.5 wiedergegeben.Der Gau�{Filter wurde hier mit Varianz 3 getestet. Ein weiterer getesteter Filterverwendet die Diskriminanzanalyse, um Vordergrund von Hintergrund zu unterscheiden.Die Bildpunkte des Hintergrunds werden dann auf Null gesetzt (eingeschw�arzt).

7.2. EXPERIMENTELLE ERGEBNISSE 57Klasse | GF DA | GF DAunverdeckt verdeckt1 25 41 40 10 10 102 87 85 79 30 20 303 1 0 3 0 0 04 57 48 64 80 80 80Gesamt 43 44 47 30 28 30Tabelle 7.5: Erkennungsrate bei Bildmenge B, wenn vorverarbeitet wurde. Es wurde dieKarhunen{Lo�eve{Transformation verwendet. Die Spalten zeigen die Rate ohne Filterung(|), bei Gau�{Filterung (GF) und bei Anwenden der Diskriminanzanalyse (DA) zumEinschw�arzen der Hintergrundpixel.Da� die Diskriminanzanalyse erfolgreicher ist als der Gau�{Filter ist klar, da nach derGl�attung der Hintergrund nicht rauschfrei, sondern nur rauschreduziert ist. Durch dasEinschw�arzen des Hintergrunds wird jedoch das Rauschen zumindest auf dem Hintergrundeliminiert. Die Gl�attung bewirkt au�erdem ein Verschmieren der Kanten, was durch dasSchw�arzen nicht erfolgt.7.2.4 ZeitmessungenAnzahl EV berechnen Training [msec]Eigenvektoren [min:sec] Gauss Interpol5 3:34 < 10 < 1010 3:55 < 10 < 1020 4:18 40 < 10Tabelle 7.6: Zeitmessungen zu Programmen f�ur die Lernphase in Abh�angigkeit von derDimension des Eigenraums.Zu den in Abschnitt 6.2.2 beschriebenen Programmen wurden Zeitmessungen vorgenom-men. Die ermittelten Zeiten wurden mit Hilfe des Systemtaktes bestimmt. Es wurdennur die f�ur diesen Algorithmus relevanten Zeiten ber�ucksichtigt. Die Dauer f�ur das La-den der Daten von Festplatte, Systemaufrufe, die im Kernel arbeiten, und vorbereitendeInitialisierungen in den Programmen sind hier nicht wiedergegeben.Die Messungen wurden auf einer Workstation HP 9000/735 mit dem BetriebssystemHP-UX Version A.09.07 durchgef�uhrt. Der Systemtakt betr�agt 100 Hertz. Die Messungensind damit auf 10 Millisekunden genau.Das verwendete Datenmaterial sind die Bilder aus der Bildmenge A aus Abschnitt7.2.1. Es sind insgesamt 180 Bilder in der Lernphase, die jeweils auf die Gr�o�e 128� 128normiert wurden.

58 KAPITEL 7. ERGEBNISSEAnzahl ZeitBilder [min:sec]45 :3890 1:37135 2:34180 3:55Tabelle 7.7: Zeiten zur Berechnung von Eigenvektoren bei unterschiedlicher Gr�o�e derLernstichprobe.Die Zeiten f�ur die Eigenwertberechnung und das Training der Modelle bei unterschied-lichen Dimensionen des Eigenraums sind in Tabelle 7.6 zusammengefa�t. Die Zeiten f�urdas Training stehen f�ur das Erlernen einer Klasse. Man erkennt, da� die Berechnungder Eigenvektoren mit Zeiten im Minutenbereich deutlich l�anger dauert als das Training,auch wenn man ber�ucksichtigt, da� mehrere Klassen trainiert werden m�ussen. Die Zeitenf�ur die Eigenvektorberechnung sind nur in zweiter Linie von der Anzahl der Eigenvekto-ren abh�angig, die zu berechnen sind. Wichtiger ist die Anzahl der Eingabevektoren, wieTabelle 7.7 zeigt. Anzahl Umwandlung Projektion Klassi�kationEigenvektoren NV MF[msec] [msec] [msec] [msec]5 30 < 10 56010 500 60 < 10 65020 110 30 790Tabelle 7.8: Zeitmessungen zu Programmen f�ur die Arbeitsphase in Abh�angigkeit von derDimension des Eigenraums.Die Zeit, die die �ubrigen Programme ben�otigen, ist in Tabelle 7.8 aufgef�uhrt. Diemeiste Zeit beansprucht die Umwandlung eines Bildes in einen Vektor, zusammen mit deranf�anglichen Segmentierung, und die Klassi�kation bei den Mannigfaltigkeitsmodellen.Die Umwandlung ist nat�urlich unabh�angig von der Anzahl der Eigenvektoren, da hiernoch nicht im Eigenraum gerechnet wird. Die Projektion, die auch in der Lernphasenotwendig ist, und die Bayes{Klassi�kation mit den Normalverteilungen fallen dagegennicht ins Gewicht.Die Bayes{Klassi�kation ist schneller als die Abstandsmessung bei den Mannigfal-tigkeiten, weil f�ur die Bewertung jeder Klasse nur die Bayes-Formel berechnet werdenmu�. F�ur die Bewertung einer Klasse, die als Mannigfaltigkeitsmodell vorliegt, ist ei-ne globale Optimierung erforderlich. Dies ist ein Vorteil der Normalverteilungsmodellegegen�uber den Mannigfaltigkeitsmodellen. Dagegen steht nat�urlich der Nachteil, da� dieErkennungsraten bei den Normalverteilungsmodellen schlechter sind, wenn die Stichprobenicht ausreichend gro� gew�ahlt wurde.

7.3. SCHLUSSFOLGERUNGEN 597.3 Schlu�folgerungenAus diesen Ergebnissen k�onnen folgende Schlu�folgerungen gezogen werden. F�ur die er-scheinungsbasierte Objekterkennung zeigte der Fourierbetrag als Ausgangspunkt f�ur eineanalytische Transformation die besten Ergebnisse. Ein Nachteil ist hier, da� die Para-meterbestimmung ungenauer ist, als bei unbearbeiteten Bildern. Da der mittlere Fehlerjedoch immer noch unter einem Grad liegt, ist dieser Nachteil in den meisten Anwendun-gen zu verschmerzen.Der Klassenzentrenabstand erwies sich in dieser Arbeit als der eindeutig beste G�ute-ma� zum Finden einer optimalen Transformation. Allerdings w�are ein kombiniertes Ma�aus Klassenzentrenabstand und Intraklassenabstand mit einem negativem Faktor unterUmst�anden ebenfalls interessant, konnte aber mit diesem Ansatz nicht berechnet werden.Mannigfaltigkeitsmodelle sind bei einer kleinen Stichprobe f�ur eine bessere Erken-nung den Normalverteilungsmodellen vorzuziehen. Insbesondere die Klassi�kation ist da-gegen bei Normalverteilungen deutlich schneller durchzuf�uhren. Eine m�ogliche Anwen-dung der Normalverteilungsmodelle kann hierbei sein, eine erste, grobe Klassi�kationdurchzuf�uhren. Sind in einem Erkennungssystem sehr viele Objekte enthalten, wird dieErkennung mit Mannigfaltigkeitsmodellen viel Zeit beanspruchen, da zu jeder Klasse derAbstand berechnet werden mu�. Wird statt dessen der Bayes{Klassi�kator so verwendet,da� nicht nur die Klasse mit der besten Bayes{Bewertung, sondern ein paar bestbewerteteKlassen zur�uckgegeben werden, ist die Klassi�kation auf den verbleibenden Klassen mitMannigfaltigkeiten nicht mehr so aufwendig.

Kapitel 8ZusammenfassungDiese Arbeit besch�aftigt sich mit der Klassi�kation von dreidimensionalen Objekten. Zudiesem Problem wurde vor wenigen Jahren ein segmentierungsfreier und erscheinungsba-sierter Ansatz vorgeschlagen. Um dreidimensionale Objekte zu modellieren, mu� keineTiefeninformation berechnet werden. Es gen�ugt, zweidimensionale Erscheinungsbilder ei-nes Objekts aus verschiedenen Richtungen zu betrachen. Als Merkmale werden nicht, wiebei den meisten bisherigen Verfahren, Segmentierungsobjekte wie Kanten oder Punkteim Bild verwendet. Statt dessen werden Merkmale mit analytischen Verfahren wie derKarhunen{Lo�eve{Transformation direkt aus dem Grauwertbild berechnet. In dieser Ar-beit wurden verschiedene analytische Verfahren zur Merkmalsgewinnung untersucht. ZurModellgenerierung wurden zwei Arten von Modellen getestet, die eine Klassi�kation miteinem abstandsmessenden beziehungsweise einem statistischen Klassi�kator erm�oglichen.In der bisherigen Literatur zur erscheinungsbasierten Objekterkennung wird die Kar-hunen{Lo�eve{Transformation verwendet. Sie berechnet aus einer nicht klassi�ziertenLernstichprobe von Vektoren eine Transformationsmatrix, so da� der mittlere quadra-tische Abstand aller transformierten Vektoren aus der Stichprobe zueinander maximiertwird. Die so berechneten Merkmale sind zu diesem Abstandsma� optimal. Neben ihr exi-stieren weitere Verfahren, die speziell f�ur die Mustererkennung entwickelt wurden. Hierbeiwerden andere G�utema�e im Merkmalsraum optimiert, die den Abstand und die Kom-paktheit von Klassen im Merkmalsraum beschreiben. F�ur die Berechnung der Transforma-tionsmatrizen mu� hier eine klassi�zierte Stichprobe vorliegen. In der vorliegenden Arbeitwurden Transformationen verwendet, die den Interklassenabstand, den Intraklassenab-stand oder eine gewichtete Kombination aus beiden optimieren. Ein weiteres G�utema�,der Klassenzentrenabstand, wurde f�ur diese Arbeit untersucht. Es beschreibt die Abst�andeder Mittelpunkte der Klassen zueinander im Merkmalsraum, und ist ein Spezialfall deskombinierten Ma�es aus Interklassenabstand und Intraklassenabstand.Die optimale Transformationsmatrix zu einem Ma� wird aus den Eigenvektoren einergeeignet gew�ahlten Kernmatrix zu maximalen beziehungsweise minimalen Eigenwertenzusammengesetzt. Die Kernmatrix wird aus den Vektoren der Lernstichprobe berechnet.61

62 KAPITEL 8. ZUSAMMENFASSUNGIhre Gr�o�e wird durch die Gr�o�e der Vektoren in der Lernstichprobe bestimmt. DieseMatrix ist symmetrisch und positiv semide�nit. Damit sind ihre Eigenwerte reell undgr�o�er gleich Null. Heutige Rechenanlagen reichen nicht aus, um explizit die Kernmatrixf�ur Bilder zu berechnen. Mit Hilfe der L�osung des Eigenwertproblems der sogenanntenimpliziten Kernmatrix, deren Gr�o�e durch die Gr�o�e der Stichprobe gegeben ist, k�onnendie Eigenvektoren berechnet werden. Die Anzahl der Eigenvektoren, die berechnet werdenk�onnen, ist durch die Anzahl der Vektoren in der Lernstichprobe begrenzt. Der hierf�urverwendete Algorithmus wurde f�ur den Interklassen{, den Klassenzentrenabstand und daskombinierte Ma� in dieser Arbeit angepa�t. Die Eigenvektoren des kombinierten Ma�esk�onnen bei diesem Algorithmus jedoch nicht mit beliebigem Gewichtungsfaktoren f�urInterklassen{ und Intraklassenabstand berechnet werden.Eine Sonderstellung nimmt hier der Intraklassenabstand ein. Da er | im Gegensatz zuallen anderen verwendeten Ma�en | minimiert und nicht maximiert werden mu�, m�ussenauch die minimalen statt der maximalen Eigenwerte berechnet werden. Im Regelfall beider Anwendung des Verfahrens auf Bilder ist der kleinste Eigenwert der Kernmatix Null.Bei Transformation in den Nullraum der Matrix wird der Intraklassenabstand gleich Nullund damit minimal. Zur Berechnung des Nullraums ist ein weiterer e�zienter Algorithmuserforderlich, der ohne explizite Berechnung der Kernmatrix durchgef�uhrt werden kann.Um den Rahmen dieser Arbeit nicht zu sprengen, wurde dieser Abstand f�ur sich nichtweiter untersucht. Er spielt dennoch eine wichtige Rolle im kombinierten Ma� aus Inter{und Intraklassenabstand.In der Literatur wurde vorgeschlagen, das Verfahren auch auf vorge�lterte Bilder anzu-wenden. Dies wurde dort jedoch nicht untersucht. Einen ersten Beitrag, um das Verhaltenbei vorverarbeiteten Bildern zu testen, liefert diese Arbeit. Da die Transformationen nachden G�utema�en linear sind, k�onnen mit Hilfe von nichtlinearen Filtern, die wichtige Teiledes Objekts im Bild hervorheben, unter Umst�anden bessere Merkmale gefunden werden.Getestet wurden mehrere Hochpa��lter, ein Tiefpa��lter, die Berechnung der Betr�age derFourierkoe�zienten aus der Fouriertransformation, sowie ein Verfahren zur Kantendetek-tion.Die Transformation der Bilder in den Merkmalsraum lassen sich auch als orthogonaleProjektion der Bildvektoren in einen Unterraum auffassen, der von den Eigenvektorenaufgespannt wird. Dieser Unterraum wird Eigenraum genannt. Die Merkmalsvektorenbezeichnen Punkte im Eigenraum. Einige Eigenschaften des Eigenraums sind die Voraus-setzung f�ur die Generierung von Objektmodellen. Der mittlere quadratische Unterschiedder Grauwerte zweier Bilder ist ein h�au�g verwendetes Ma�, um die �Ahnlichkeit der Bil-der zu beschreiben. Es kann gezeigt werden, da� der Abstand der dazugeh�origen Punkteim Eigenraum eine N�aherung f�ur dieses Ma� ist. Das hei�t, da� einander �ahnliche Bilderauch im Eigenraum nahe beieinander liegen. Es konnte gezeigt werden, da� wegen dieserEigenschaft Translation von Objekten mit diesem Ansatz nicht behandelbar ist. Bilderunterschiedlicher Objekte k�onnen in diesem Fall einander �ahnlicher sein, als Bilder eines

63Objekts. Eine weitere Eigenschaft des Eigenraums ist, da� bei wenigen Dimensionen desEigenraums die Punkte eines Objekts n�aherungsweise normalverteilt sind.Zwei verschiedene Modellarten f�ur Objekte wurden in dieser Arbeit untersucht. Dabeiwird davon ausgegangen, da� sich die Bilder der Lernstichprobe in bestimmten Para-metern, wie zum Beispiel der Rotationslage des Objekts, unterscheiden. Die erste Arterlaubt eine Klassi�zierung mit einer Verfeinerung des N�achster{Nachbar{Klassi�kators.Die Parametrisierung der Lernstichprobe mu� hier in festen Quantisierungsstufen vorlie-gen. Die Anzahl der erforderlichen Bilder w�achst exponentiell mit der Anzahl der Parame-ter. Durch Projektion der Bilder in den Eigenraum liefern die Bilder verschiedene Punkteim Eigenraum. Werden die Punkte einer Klasse interpoliert, entsteht f�ur jede Klasse eineparametrische Mannigfaltigkeit im Eigenraum. Die Klassi�zierung erfolgt durch Abstands-messung zwischen dem Merkmalspunkt des zu klassi�zierenden Bildes und den Mannig-faltigkeiten. Die Verfeinerung gegen�uber dem N�achsten{Nachbar{Klassi�kator liegt in derInterpolation. Diese erlaubt eine bessere Klassi�kation von Bildern, deren Parameter zwi-schen den Quantisierungsstufen der Lernstichprobe liegen. Mit dieser Methode ist aucheine Sch�atzung der Parameter des zu klassi�zierenden Bildes durch die Parameter desn�achsten Punktes auf der Mannigfaltigkeit m�oglich.Neben den Mannigfaltigkeitsmodellen wurde in dieser Arbeit eine weitere Modellarteingef�uhrt, die die n�aherungsweise Normalverteilung der Merkmalsvektoren im Eigen-raum ausnutzt. Anhand der Stichprobe werden f�ur jede Klasse die freien Parameter derNormalverteilung gesch�atzt. Diese werden zu einer Mischverteilung zusammengefa�t. Diegesch�atzten Verteilungen erm�oglichen eine Klassi�kation mit dem optimalen statistischenKlassi�kator. Der Vorteil der Normalverteilungen gegen�uber den Mannigfaltigkeiten liegtdarin, da� keine Quantisierung der Parameter der Lernstichprobe erforderlich ist. Auchkann die Erkennung schneller durchgef�uhrt werden, da in der Arbeitsphase f�ur jede Klas-se statt eines Abstands nur die a-posteriori Wahrscheinlichkeit berechnet werden mu�.Allerdings ist eine Parametersch�atzung in diesem Fall nicht m�oglich. Die Qualit�at derKlassi�kation mit dieser Modellierung h�angt von der Qualit�at der Verteilungssch�atzungab. Experimente mit unterschiedlichen Bildmengen ergaben, da� die Mannigfaltigkeitenbessere Resultate bei der Objekterkennung liefern als die Normalverteilungen. W�ahrend ineiner Testreihe mit der Karhunen{Lo�eve{Transformation durch den abstandsmessendenKlassi�kator bereits bei einem vierdimensionalen Eigenraum eine Erkennungsrate von100% erreicht wird, ist dies bei dem statistischen Klassi�kator erst bei sieben Dimensionender Fall. Bei vier Dimensionen wird mit Normalverteilungen eine Erkennungsrate von nur62% erreicht.Bei den G�utema�en schneidet der Klassenzentrenabstand am besten ab. Hier reichenbei Normalverteilungen ebenfalls bereits vier Dimensionen des Eigenraums f�ur 100% Er-kennungsrate aus. Bei Mannigfaltigkeiten wird diese Rate jetzt bereits bei einem dreidi-mensionalen Eigenraum erreicht. F�ur verschiedene kombinierte Ma�e wurden niedrigere

64 KAPITEL 8. ZUSAMMENFASSUNGRaten erreicht. Allerdings konnten nur kombinierte Ma�e berechnet werden, bei denendie Minimierung des Intraklassenabstands weniger stark gewichtet ist als bei der Maxi-mierung des Klassenzentrenabstand. Die Parameterbestimmung bei Mannigfaltigkeitenwurde anhand der Rotation dreidimensionaler Objekte getestet. Hier lieferten alle Trans-formationen etwa ein Grad in mittlere Abweichung.Die Erkennungsraten wurden in einer zweiten Testreihe mit vier Objekten in unter-schiedlicher Translations{ und Rotationslage best�atigt. Der Klassenzentrenabstand liefer-te mit 68% Erkennungsrate die besten Ergebnisse. Mit Interklassenabstand beziehungs-weise Karhunen{Lo�eve{Transformation werden nur 47% Erkennungsrate erreicht. Bei Bil-dern mit verdeckten Objekten konnten nur Erkennungsraten unter 40% erreicht werden.Wurden aus den Bildern vor der Merkmalsberechnung der Betrag der Fourierkoe�zien-ten berechnet, die gegen�uber Translation invariant ist, konnte eine Erkennungsrate von100% selbst bei nur 10 Eigendimensionen erreicht werden. Sogar Verdeckungen wurden zu100% richtig klassi�ziert. Mit diesem Ergebnis best�atigt sich die theoretische �Uberlegung,da� Translation von Objekten mit diesem Ansatz nicht behandelt werden kann. Eine Pa-rameterbestimmung war in diesem Fall nicht m�oglich, da keine feste Quantisierung derParameter in der Lernstichprobe vorlag. Rotation und Translation waren zuf�allig verteilt.Mit den Bildern der ersten Testreihe lieferte die Berechnung des Betrags der Fourierko-e�zienten die besten Ergebnisse, auch im Vergleich zu den unbearbeiteten Bildern. Aller-dings ergab die Rotationssch�atzung etwas schlechtere Ergebnisse. Der mittlere Fehler istjedoch immer noch niedriger als ein Grad. Hier reicht bereits eine Dimension im Eigenraumaus, um Erkennungsraten von 80% und mehr zu erreichen. Die �ubrigen Filter lieferten zumTeil deutlich h�ohere Erkennungsraten bei niedrigen Dimensionen des Eigenraums, da die-se Filter wichtige Teile des Bildes, wie zum Beispiel Kanten, hervorheben. W�ahrend ohneFilterung bei einem eindimensionalen Eigenraum mit der Karhunen{Lo�eve{Transforma-tion nicht mehr als 20% bei Normalverteilungen und 40% bei Mannigfaltigkeiten erreichtwerden, werden bei vorge�lterten Bildern bis zu 60% der Bilder richtig klassi�ziert. Wegendes Informationsverlusts bei der Filterung ist jedoch der Anstieg der Erkennungsrate beiErweiterung des Eigenraums deutlich acher als bei unbearbeiteten Bildern. Bei h�oherenDimensionen des Eigenraums liefert die Klassi�kation mit unbearbeiteten Bildern h�ohereRaten als mit ge�lterten Bildern.Der hier beschriebene Ansatz, wird erst seit wenigen Jahren verfolgt. Er beschr�anktsich auf einzelne Objekte im Bild. F�ur Mehrobjektszenen ist er ungeeignet. Bei Ver-deckungen konnte dieser Ansatz gute Ergebnisse liefern, wenn die Bilder mit der Fourier-transformation vorverarbeitet wurden. Ohne diese Transformation k�onnen Objekte beiVerdeckung nicht sicher erkannt werden. Rotation kann mit Mannigfaltigkeitsmodellengesch�atzt werden. Zur Bestimmung der Translation erwies sich der Ansatz als ungeeig-net.

Literaturverzeichnis[Arm93] F. Arman, J. K. Aggarwal: Model{Based Object Recognition in Dense{RangeImages | A Review, ACM Computing Surveys, Bd. 25, Nr. 1, M�arz 1993, S.5{43.[Bis96] H. Bischof, A. Leonardis: Robust Recovery of Eigenimages in the Presence ofOutliers and Occlusions, International Journal of Computing and InformationTechnology, Bd. 4, Nr. 1, 1996, S. 25{38.[Bro84] I. N. Bronstein, K. A. Semendjajew: Taschenbuch der Mathematik, erg�anzendeKapitel, Harri Deutsch, Thun, 1984.[Bro85] I. N. Bronstein, K. A. Semendjajew: Taschenbuch der Mathematik, HarriDeutsch, Thun, 1985.[Che93] X. Chen, F. Schmitt: Vision{Based Construction of CAD Models from RangeImages, in Proceedings of the 4th International Conference on Computer Vision(ICCV), IEEE Computer Society Press, Berlin, Mai 1993, S. 129{136.[Chi68] Y. Chien, K. Fu: Selection and Ordering of Feature Observations in a PatternRecognition System, Information And Control, Bd. 12, 1968, S. 395{414.[Eps95] R. Epstein, P. W. Hallinan, A. L. Yuille: 5�2 Eigenimages Su�ce: An EmpiricalInvestigation of Low-Dimensional Lighting Models, in Proceedings of IEEEWorkshop on Physics Based Modeling in Computer Vision, Boston, Juni 1995,S. 108{116.[Gor90] K. E. Gorlen, S. Orlow, P. S. Plexico: Data Abstraction and Object{OrientedProgramming in C++, John Wiley and Sons, Chichester, 1990.[Gue74] A. Guedesen: Ein u� von Rechengenauigkeit, Zeichennormierung und Kon-text bei der Erkennung handgeschriebener Zeichen mit Lo�eve{Karhunen{Entwicklung., Forschungsbericht 74,16, Dokumentationszentrum der Bundes-wehr, Bonn, 1974.[Her95] T. Herberg: Numerische Simulation und Analyse der station�aren und insta-tion�aren laminaren Abl�oseblase an der zur�uckspringenden, abgerundeten Stufemit Hilfe der Karhunen{Lo�eve{Zerlegung, Forschungsbericht DLR FB 95 31,Deutsche Forschungsanstalt f�ur Luft- und Raumfahrt, K�oln, 1995.65

66 LITERATURVERZEICHNIS[Hor96] J. Hornegger: Statistische Modellierung, Klassi�kation und Lokalisation vonObjekten, Dissertation, Technische Fakult�at, Universit�at Erlangen{N�urnberg,Erlangen, 1996.[Hou64] A. S. Householder: The theory of matrices in numerical analysis, Blaisdell,New York, 1964.[Hut96] D. P. Huttenlocher, R. H. Lilien, C. F. Olson: Object Recognition Using SubspaceMethods, in B. Buxton, R. Cipolla (Hrsg.): Computer Vision | ECCV '96, Nr.1065 in Lecture Notes in Computer Science, Springer, Heidelberg, 1996, S. 536{545.[Kar47] K. Karhunen: �Uber lineare Methoden in der Wahrscheinlichkeitsrechnung, Ann.Acad. Sci. Fenn., Bd. Ser. A I, 1947, S. 37.[Kar60] K. Karhunen, I. Selin (trans.): On Linear Methods in Probability Theory, �Uber-setzung zu [Kar47] T-131, The Rand Corporation, August 1960.[Mur82] H. Murakami, V. Kumar: E�cient Calculation of Primary Images from a Setof Images, IEEE Transactions on Pattern Analysis and Machine Intelligence,Bd. 4, Nr. 5, September 1982, S. 511{515.[Mur95a] H. Murase, S. K. Nayar: Image Spotting of 3D Objects Using Parametric Eigen-space Representation, in Proceedings of 9th Scandinavian Conference on ImageAnalysis, Uppsala, Juni 1995, S. 325{332.[Mur95b] H. Murase, S. K. Nayar: Visual Learning and Recognition of 3{D Objects fromAppearance, International Journal of Computer Vision, Bd. 14, Nr. 1, Januar1995, S. 5{24.[Mur96] H. Murase, S. K. Nayar: Learning by a Generation Approach to Appearance-based Object Recognition, in Proceedings of the ICPR, 1996, S. 24{29.[Nay95] S. K. Nayar, H. Murase: On the Dimensionality of Illumination in Eigenspace,Technical Report CUCS-021-94, Deptartment of Computer Science, ColumbiaUniversity, 1995.[Nay96] S. K. Nayar, H. Murase, S. A. Nene: Parametric Appearance Representation,in S. K. Nayar, T. Poggio (Hrsg.): Early Visual Learning, Oxford UniversityPress, 1996, S. 131{160.[Nen94] S. A. Nene, S. K. Nayar, H. Murase: SLAM: A Software Library for AppearanceMatching, in Proceedings of Image Understandig Workshop, Morgan KaufmannPublishers, Inc., Monterey, California, November 1994.[Nie70] H. Niemann: Mustererkennung mit orthonormalen Reihenentwicklungen, Nach-richtentechnische Zeitschrift, Bd. 23, Nr. 6, 1970, S. 308{313.[Nie83] H. Niemann: Klassi�kation von Mustern, Springer, Berlin, 1983.

LITERATURVERZEICHNIS 67[Nie90] H. Niemann: Pattern Analysis and Understanding, Springer-Verlag, Berlin,second. Ausg., 1990.[Pau91] D. Paulus: Objektorientierte Bildverarbeitung, Dissertation, Technische Fa-kult�at, Universit�at Erlangen{N�urnberg, Erlangen, 1991.[Pau95] D. Paulus, J. Hornegger: Pattern Recognition and Image Processing in C++,Advanced Studies in Computer Science, Vieweg, Braunschweig, 1995.[Pre88] W. Press, B. Flannery, S. Teukolsky, W. Vetterling: Numerical Recipes - theArt of Numerical Computing, C Version, 35465-X, 1988.[Rog90] D. F. Rogers, J. A. Adams: Mathematical Elements for Computer Graphics,McGraw{Hill, New York, 2. Ausg., 1990.[Sch95] E. Schukat{Talamazzini: Automatische Spracherkennung, Vieweg, Wiesbaden,1995.[Win94] A. Winzen: Automatische Erzeugung dreidimensionaler Modelle f�ur Bildanaly-sesysteme, Dissertation, Technische Fakult�at, Universit�at Erlangen{N�urnberg,Erlangen, 1994.

Segmen tierungsfreie und ersc hein ungsbasierterisack.leute.server.de/paper/da.pdf · hein...

Documents

Transcript of Segmen tierungsfreie und ersc hein ungsbasierterisack.leute.server.de/paper/da.pdf · hein...