Vorlesung 5 Biologisch motivierte Methoden der ...€¦ · GUITAR PIANO DRUM BASIC classical...

Post on 30-Apr-2020

0 views 0 download

Transcript of Vorlesung 5 Biologisch motivierte Methoden der ...€¦ · GUITAR PIANO DRUM BASIC classical...

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Vorlesung 5

Biologisch motivierte Methoden der Objekterkennung I

Martin Giese

Martin.giese@uni-tuebingen.de

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Übersicht

EinführungStrukturbasierte AnsätzeAnsichtsabhängige AnsätzeAlignment-MethodenInterpolationsansätze

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

I. Einführung

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Objektkonstanz

Menschliche Wahrnehmung von Objekten unabhängig von Orientierung und Änderungen der 2D-Projektion

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Invarianzen

Beispiele

I. Bülthoff

GrösseRotationSkalierungBeleuchtungVerdeckungObjektdetails

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Einfaches Modell für die Objekterkennung

Objekt Erkennung:(recognition)

Vergleich / Matchen “Mein

Lieblingsstuhl”

Kategorisierung:(categorization)

Gedächtnis

“Ein Stuhl” vs. “ein Tier”

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Template Matching

Probleme:Stimulus rotiert, falscheSkala oder nicht zentriertauf dem RFBeleuchtungsgradientenOkklusionenDeformation des Objektes

Rezeptives Feld (RF)

+

-------

--- --- - ----- -----------

-------

-----

-

-----

-------

-

++++++++

++

++ +-

-----

-

+

-------

--- --- - ----- -----------

-------

-----

-

-----

-------

-

++++++++

++

++ +-

-----

-

Effektiv für die Erkennung vonGesichtskomponenten

Brunelli & Poggio (1993)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Merkmalsanalyse

Metamer

FEATURE LIST

Probleme:Objekt repräsentiert durch Listeoder Karte von MerkmalenVerglichen von ListenKarten enthaltenPositionsinformation

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

MerkmalsanalysePandemonium model(Selfridge, 1959)

ursprünglich zur Dekodierung von Morsesignalen

Image demons – verarbeiten Sensorinformation

Feature demons – MerkmalsextraktionCognitive demons – MustergenerierungPattern demon – Entscheidung /

Mustererkennung

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Merkmalsanalyse

http://www.psych.utah.edu/cns/pandemonium2-15-00/PAppletTest.htm

Probleme:Einfache Merkmale führen zu vielen VerwechslungenKomplexe Merkmale schwer aus Bildern berechenbar

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

II. Strukturbasierte Ansätze

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Objektteile

Probleme:Extraktion von Teilen (z.B. Formprimitiven)Beschreibung wie Teile miteinander in Beziehung stehenTeil-Ganzes HierarchienMehrere Skalen

Palmer (1999)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Strukturbeschreibungen

Palmer (1975)

Grammatische Beziehungen zwischen TeilenTeil-Ganzes Hierarchien

Probleme:Extraktion von TeilenIntegration vieler komplexer Beziehungen schwierig

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Extraktion von Teilen

Schneiden an Punkten konkaver Diskontinuitäten oder an Stellen maximaler Kankavität (Hoffman & Richards, 1984)

Extraktion vordefinierter Formprimitive (Binford, 1971)

Hoffman & Richards (1984)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Globale vs. lokale Verarbeitung

Organisation auf mehreren Ebenen SkalenLängere Reaktionszeiten wenn lokale und globale Organisation inkonsistent sind

Navon (1977)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Theorie von Marr

Vier Repräsentationsebenen:1. Originalbild

2. Primal sketch: – Kanten (aus Filterung)– Gruppierung (Kanten, Punkte,

Linienenden)

1 -1

-1

-1

-1Kanten-detektor Marr & Nishhara (1978)

Schwaninger (2001)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Theorie von Marr

3. 2 ½ Sketch: Oberflächen

Marr & Nishhara (1978)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Theorie von Marr

3. 2 ½ Sketch: Oberflächen

4. 3D Model: – Objektzentrierte

Koordinaten– Hierarchisch– Strukturelle

BeschreibungMetrische Beziehungen

Marr & Nishhara (1978)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Formprimitive

Superquadrische Funktionen(Pentland, 1986)

Generalisierte Zylinder(Binford, 1971; Marr, 1982)

Geons (Biederman, 1987)

1=

±

±

m

z

m

y

m

x az

ay

ax

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Recognition by Components (RBC)3D-Formprimitive: geometric icons (geons)Geons mit bestimmtenräumlichen Beziehungenmodellieren verschiedeneObjekteHierarchisches Netzwerkvon Beziehungenzwischen Primitiven (e.g. SEITLICH VERBUNDEN, GRÖSSER ALS, …)

> 106 Objektemodellierbar

I. Biederman(1985, 1987)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Recognition by Components (RBC)

36 qualitativ verschiedene Geons generiert durchTransformationen108 Geons durch Veränderung von Höhe / Breite

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Recognition by Components (RBC)Überzufällige Merkmale (nonaccidental features) für jedes Geon können aus Bildern ansichts-unabhängig identifiziert werden

Ansichtsunab-hängigkeit

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Recognition by Components (RBC)

Neurales Netzwerk (Hummel & Biederman, 1992)Kanten- + Endpunktextraktion Extraktion von Ecken, Symmetrieachsen and MerkmalsclusternSeparate Karten für Geon-AttributeZeitliche “Bindung” der Merkmale die Geons repräsentieren durch synchrone SpikesBeziehungen zwischen Geons separat repräsentiertGeons zu Objekten kombiniert

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

III. Ansichtsabhängige Ansätze

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Probleme der RBC

Genauigkeit (nicht ausreichend zur Unterscheidung von Subkategorien)Extraktion der Überzufälligen Merkmale nicht robustNicht alle Objekte können in Geons zerlegt werdenNicht einfach auf Grauwertbilder verallgemeinerbarEmpirisch ist Objekterkennung beimMenschen ansichtsabhängig

– Psychophysik– Elektrophysiologie

Edelman (1999)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Ansichtsabhängigkeit

Thatcher-Illusion

Thompson (1980)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Ansichtsabhängigkeit

Thatcher-Illusion

Thompson (1980)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Ansichtsabhängigkeit

Kleiner (2002)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Ansichtsabhängigkeit

Kleiner (2002)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Ansichtsabhängigkeit

Kleiner (2002)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Prototypen

KategorienMUSICAL SUPER-

INSTRUMENTS ORDINATE

GUITAR PIANO DRUM BASIC

classical electric grand upright kettle bass SUBORDINATE

“Goodness-of-example” ratings for two categories (Rosch, 1975)

Furniture VehicleMember Rank Member Rankchair 1.5 automobile 1sofa 1.5 station wagon 2couch 3.5 truck 3table 3.5 car 4easy chair 5 bus 5.5dresser 6.5 taxi 5.5rocking chair 6.5 jeep 7coffee table 8 ambulance 8

Evidence for Importance of Basic Level Categories

Mean latencyfor namingobjects

Subordinate Basic SuperordinateLevel Level Level

Prototypische farben (Rosch, 1973)Einige Kategorien sind elementarer als andereMessung der Typikalität von KategorienUnterscheidung:

– Basiskategorie (basic level)– Untergeordnete Kategorie (subordinate level)– Übergeordnete Kategorie (superordinate

level)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Kanonische AnsichtenRatings für Typikalität

(Palmer, Rosch & Chase, 1981)Maximale Häufigkeit vs. maximaler Informationsgehalt

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Kanonische Ansichten

Kanonische Ansichten verschiedener Objekte(Palmer, Rosch & Chase, 1981)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

GeneralisierungsfelderBüroklammern & Amöben Generalisierungsfelder

Bülthoff & Edelman(1992)

(Gemittelte Daten von 6 Vpn, 6 Amöben; ±60 grd. Um Trainingsansicht; jede Kontour ≅ 5% Fehlerrate)

φ

θH. Bülthoff

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Ansichtsbasierte Objekterkennung

Problem:Ggf. muss eine sehr grosse Zahl von Ansichten pro Objekt gespeichert werden

Lösung:Transformation (Alignment) der gespeicherten und wahrgenommenen AnsichtenGeneralisierung / Interpolation zwischengespeicherten Ansichten

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

IV. Alignment-Methoden

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Alignment-Methoden

Prinzip Template

Bild

Huttenlocher & Ullman (1990)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Alignment-MethodenBeispiel

Vorgehen:Extraktion von Merkmalen im Bildund gespeichertem MusterHerstellen von Korrespondenz (welches Merkmal im Bild gehört zu welchem Merkmal im Template?) Berechnung der Transformationsmatrix

Rotation around anchor points

Huttenlocher & Ullman (1990)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Alignment-Methoden

Satz (Ullman):Im generischen Falle sind drei Punkte ausreichend,

um die Transformationsmatrix zu bestimen.

Template

Bild

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

3DAlignment-Methoden Ähnlichkeitstransformation

+=

ZYX

sZYX

RT'''

TranslationSkalierung

Rotation

Beweis in 2 Schritten:Jede affine Transformation inder Bildebene korrespondiert zu orthographischer Projektion einer 3D Ähnlichkeitstransfor-mation (bis auf bis auf Offset in Tiefe und Reflexion an Bildebene)Affine Transformation in 2D hat 6 freie Parameter ⇒ 3 Punkte ausreichend

2DAffineTransformation

Orthogonale Projektion

=

YX

yx''

+

=

yx

aaaa

tt

yx

2221

1211

2

1

''

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Alignment-Methoden

Ullman (1996)

r

Rotationsmethode:Zur Transformation von glatten UmrandungenAnpassen von Kreisen and RandkurvenRotationsmatrix aus Mittelpunkten der angepassten Kreise

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Alignment-Methoden(Hypothetische) neuronale Realisierung:

x

x’

“Shifter circuit”

Van Essen et al. (1994)Andersen & van Essen (1987)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

V. Interpolationsansätze

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Interpolation / Generalisierung

Poggio & Edelman (1990)

Feuerrate

Ähnliche Ansicht

Trainings-ansicht

Merkmale = 2D-Eckpunkte

Neuronen analog radiale Basisfunktionen

Graduelle glatte Variation der Feuerrate mit Projektionswinkeln Ansichtswinkeln

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Interpolation / GeneralisierungPoggio & Edelman (1990)

Training Test

Problem:Bestimmung der Eckpunkte aus dem Bild biologisch nicht plausibel!

Input: EckenpositionenOutput:– Standardansicht– Orientierung

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Hierarchisches MAX Modell

Riesenhuber & Poggio (1999)

MAX Riesenhuber

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Visueller Verarbeitungspfad

Form

Bewegung

ObjekterkennungIT

Navigation, AugenbewegungMST

BewegungsanalyseMT

Trennung der VerarbeitungspfadeV2

Extraktion primärerMerkmale

(Orientierung, SF, ...)V1

FunktionArea

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Hierarchisches MAX Modell

Riesenhuber & Poggio (1999)(vgl. auch Fukushima, 1980)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Hierarchisches MAX Modell

Riesenhuber & Poggio (1999)(vgl. auch Fukushima, 1980)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

“Balkendetektoren”OrientierungstuningON und OFF-Bereiche imRezeptiven Feld (RF)

D. Hubel T. Wiesel

Orientierung

Feue

rrate

Tuningkurve

Simple Cells

Kandel, Schwartz, Jessel (2000)

RF

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Simple Cells

Modellierung durch Gabor Filter (Jones & Palmer, 1979;Daugman, 1984)

OrtsselektivFrequenzselektivPhasenselektiv

))(cos()( 002/|| 22

0 φσ +−= −− xxkx xx TAeG

WellenzahlvektorPhase

RF Grösse RF Mittelpunkt

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Hubel-und-Wiesel-Model

RF Grösse nimmt in der Peripherie zuOrientierungstuningModell: Lineare Summation von ON- und OFF-Center Antwortendes Kniekörpers (LGN)

LGN

Primärervisueller Kortex

Simple Cells

Kandel, Schwartz, Jessel (2000)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Complex Cells

Kandel, Schwartz, Jessel (2000)

PositionsinvarianzHubel & Wiesel:lineares Poolen (Summieren) von Antworten von Simple-Cells mit verschiedener RF-Position“Hyperkomplexe” und “Endstopped”-Zellen: Selektiv für Linienenden und Ecken

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

MAX(IMUM) Model

Positionsinvarianter Balkendetektor

Riesenhuber & Poggio (1999)

„Complex Cell“(positionsinvariant)

xx

x

„Simple cells“(positionsvariant)

Pooling

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

SUMMEN Model

Lokale Detektoren

+Complex Cell

(z.B. Hubel & Wiesel, 1962)

Stimuli:

GepooltesSignal:

→Lineares Poolen zerstörtdie Merkmalsselektivität “Gitterdetektor”

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

MAX(IMUM) Model“HMAX-Model” (Riesenhuber & Poggio, 1999)

Lokale Detektoren

MAX

Complex Cell

(z.B. Hubel & Wiesel, 1962)

Stimuli:

GepooltesSignal:

(siehe auch Fukushima, 1980; Goddard, 1992)→Merkmalsselektivität bleibt

erhalten.

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Hierarchisches MAX Modell

Riesenhuber & Poggio (1999)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Area V4 Effektive Stimuli

Pasupathy & Connor (1999)

Extraktion von Ecken, Kurven, …

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Area V4 MaximumberechnungStimulus 1

Stim

ulus

2

Reale vs. vorherge-sagte Aktivität

+ MAXO SUM

Stimulus 1 alleine

Stimulus 2 alleine

Feuerrate als Zeitfunktion

Gawne & Martin (2002)

Zellen mit Antwortverhalten das kompatibel mit MAX-Operation ist

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Hierarchisches MAX Modell

Riesenhuber & Poggio (1999)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Infero-temporaler Kortex (Area IT)AnsichtsabhängigkeitTuning ähnlich RBFs

Ähnliches Verhalten für natürliche + unnatürliche Objekte

Paperclips / Amöben

Bülthoff & Edelman (1992)Gauthier & Logothetis (1999)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Infero-temporaler Kortex (Area IT)

Ansichtsabhängige + ansichtsunabhängige NeuroneInvarianz möglicherweise durch Poolen der Ausgangs-signale ansichtsabhän-giger NeuroneCa. 100 Neurone pro Objekt (Schätzung)

Logothetis, Pauls & Poggio (1995)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Infero-temporaler Kortex (Area IT)

Grösseninvarianz

Logothetis, Pauls & Poggio (1995)

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

MAX(IMUM)-Operation

Feed-forward-Shunting (divisive Normalisierung)

Feedback-Shunting (divisive Hemmung)

Mögliche neuronale Schaltkreise zur Realisierung der MAX-Operation (Yu et al. 2002)

Σ

Σ÷÷

÷

zxn

f(xn)

x

x

x

÷

Σ

Σzxn

yn÷

÷ x

x

x

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

MAX(IMUM)-Operation (Forts.)

Lineare laterale Hemmung;lineare Schwellenneurone Σ

Σz

xnyn

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

Wichtige Punkte

Was ist schwierig an ObjekterkennungTemplate-MatchingStruktubasierte Ansätze (RBC)AnsichtsabhängigkeitAlignment-MethodenMAX-Modell

M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003

LiteraturOlshausen BA, Anderson CH, Van Essen DC (1993) A neurobiological model of visual attention and

invariant pattern recognition based on dynamic routing of information. J. Neurosci. 13, 4700-4719. Edelman, S (1999) Representation and Recognition in Vision. MIT Press, Cambridge, MA. Gauthier I, Logothetis NK (2000) Is face recognition not so unique

after all? Cognitive Neuropsychology, 17, 125-142. Hummel JE, Biederman I (1992) Dynamic binding in a neural network for shape recognition. Psychol

Rev. 99, 480-517.Kandell, Schwartz and Jessel (2000) Principles of Neural Science. McGraw-Hill Professional

Publishing, New York.

Logothetis NK, Pauls J, Poggio T (1995) Shape representation in the inferior temporal cortex of monkeys. Curr Biol. 5, 552-563.

Palmer, SE (1999). Vision Science: Photons to Phenomenology. MIT Press, Cambridge, MA.

Poggio T, Edelman S (1990) A network that learns to recognize 3D objects. Nature 343, 263-266.

Riesenhuber M, Poggio T. (1999) Hierarchical models of object recognition in cortex. Nature Neuroscience 2, 1019-1025.

Ullman, S. (1996) High-level Vision: Object Recognition and Visual Cognition. MIT Press, Cambridge, MA.

Yu AJ, Giese MA, Poggio T (2002) Biophysiologically plausible implementations of the maximum operation. Neural Comput. 14, 2857-2881.