Vorlesung 5 Biologisch motivierte Methoden der ...€¦ · GUITAR PIANO DRUM BASIC classical...
Transcript of Vorlesung 5 Biologisch motivierte Methoden der ...€¦ · GUITAR PIANO DRUM BASIC classical...
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Vorlesung 5
Biologisch motivierte Methoden der Objekterkennung I
Martin Giese
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Übersicht
EinführungStrukturbasierte AnsätzeAnsichtsabhängige AnsätzeAlignment-MethodenInterpolationsansätze
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
I. Einführung
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Objektkonstanz
Menschliche Wahrnehmung von Objekten unabhängig von Orientierung und Änderungen der 2D-Projektion
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Invarianzen
Beispiele
I. Bülthoff
GrösseRotationSkalierungBeleuchtungVerdeckungObjektdetails
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Einfaches Modell für die Objekterkennung
Objekt Erkennung:(recognition)
Vergleich / Matchen “Mein
Lieblingsstuhl”
Kategorisierung:(categorization)
Gedächtnis
“Ein Stuhl” vs. “ein Tier”
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Template Matching
Probleme:Stimulus rotiert, falscheSkala oder nicht zentriertauf dem RFBeleuchtungsgradientenOkklusionenDeformation des Objektes
Rezeptives Feld (RF)
+
-------
--- --- - ----- -----------
-------
-----
-
-----
-------
-
++++++++
++
++ +-
-----
-
+
-------
--- --- - ----- -----------
-------
-----
-
-----
-------
-
++++++++
++
++ +-
-----
-
Effektiv für die Erkennung vonGesichtskomponenten
Brunelli & Poggio (1993)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Merkmalsanalyse
Metamer
FEATURE LIST
Probleme:Objekt repräsentiert durch Listeoder Karte von MerkmalenVerglichen von ListenKarten enthaltenPositionsinformation
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
MerkmalsanalysePandemonium model(Selfridge, 1959)
ursprünglich zur Dekodierung von Morsesignalen
Image demons – verarbeiten Sensorinformation
Feature demons – MerkmalsextraktionCognitive demons – MustergenerierungPattern demon – Entscheidung /
Mustererkennung
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Merkmalsanalyse
http://www.psych.utah.edu/cns/pandemonium2-15-00/PAppletTest.htm
Probleme:Einfache Merkmale führen zu vielen VerwechslungenKomplexe Merkmale schwer aus Bildern berechenbar
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
II. Strukturbasierte Ansätze
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Objektteile
Probleme:Extraktion von Teilen (z.B. Formprimitiven)Beschreibung wie Teile miteinander in Beziehung stehenTeil-Ganzes HierarchienMehrere Skalen
Palmer (1999)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Strukturbeschreibungen
Palmer (1975)
Grammatische Beziehungen zwischen TeilenTeil-Ganzes Hierarchien
Probleme:Extraktion von TeilenIntegration vieler komplexer Beziehungen schwierig
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Extraktion von Teilen
Schneiden an Punkten konkaver Diskontinuitäten oder an Stellen maximaler Kankavität (Hoffman & Richards, 1984)
Extraktion vordefinierter Formprimitive (Binford, 1971)
Hoffman & Richards (1984)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Globale vs. lokale Verarbeitung
Organisation auf mehreren Ebenen SkalenLängere Reaktionszeiten wenn lokale und globale Organisation inkonsistent sind
Navon (1977)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Theorie von Marr
Vier Repräsentationsebenen:1. Originalbild
2. Primal sketch: – Kanten (aus Filterung)– Gruppierung (Kanten, Punkte,
Linienenden)
1 -1
-1
-1
-1Kanten-detektor Marr & Nishhara (1978)
Schwaninger (2001)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Theorie von Marr
3. 2 ½ Sketch: Oberflächen
Marr & Nishhara (1978)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Theorie von Marr
3. 2 ½ Sketch: Oberflächen
4. 3D Model: – Objektzentrierte
Koordinaten– Hierarchisch– Strukturelle
BeschreibungMetrische Beziehungen
Marr & Nishhara (1978)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Formprimitive
Superquadrische Funktionen(Pentland, 1986)
Generalisierte Zylinder(Binford, 1971; Marr, 1982)
Geons (Biederman, 1987)
1=
±
±
m
z
m
y
m
x az
ay
ax
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Recognition by Components (RBC)3D-Formprimitive: geometric icons (geons)Geons mit bestimmtenräumlichen Beziehungenmodellieren verschiedeneObjekteHierarchisches Netzwerkvon Beziehungenzwischen Primitiven (e.g. SEITLICH VERBUNDEN, GRÖSSER ALS, …)
> 106 Objektemodellierbar
I. Biederman(1985, 1987)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Recognition by Components (RBC)
36 qualitativ verschiedene Geons generiert durchTransformationen108 Geons durch Veränderung von Höhe / Breite
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Recognition by Components (RBC)Überzufällige Merkmale (nonaccidental features) für jedes Geon können aus Bildern ansichts-unabhängig identifiziert werden
Ansichtsunab-hängigkeit
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Recognition by Components (RBC)
Neurales Netzwerk (Hummel & Biederman, 1992)Kanten- + Endpunktextraktion Extraktion von Ecken, Symmetrieachsen and MerkmalsclusternSeparate Karten für Geon-AttributeZeitliche “Bindung” der Merkmale die Geons repräsentieren durch synchrone SpikesBeziehungen zwischen Geons separat repräsentiertGeons zu Objekten kombiniert
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
III. Ansichtsabhängige Ansätze
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Probleme der RBC
Genauigkeit (nicht ausreichend zur Unterscheidung von Subkategorien)Extraktion der Überzufälligen Merkmale nicht robustNicht alle Objekte können in Geons zerlegt werdenNicht einfach auf Grauwertbilder verallgemeinerbarEmpirisch ist Objekterkennung beimMenschen ansichtsabhängig
– Psychophysik– Elektrophysiologie
Edelman (1999)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Ansichtsabhängigkeit
Thatcher-Illusion
Thompson (1980)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Ansichtsabhängigkeit
Thatcher-Illusion
Thompson (1980)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Ansichtsabhängigkeit
Kleiner (2002)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Ansichtsabhängigkeit
Kleiner (2002)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Ansichtsabhängigkeit
Kleiner (2002)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Prototypen
KategorienMUSICAL SUPER-
INSTRUMENTS ORDINATE
GUITAR PIANO DRUM BASIC
classical electric grand upright kettle bass SUBORDINATE
“Goodness-of-example” ratings for two categories (Rosch, 1975)
Furniture VehicleMember Rank Member Rankchair 1.5 automobile 1sofa 1.5 station wagon 2couch 3.5 truck 3table 3.5 car 4easy chair 5 bus 5.5dresser 6.5 taxi 5.5rocking chair 6.5 jeep 7coffee table 8 ambulance 8
Evidence for Importance of Basic Level Categories
Mean latencyfor namingobjects
Subordinate Basic SuperordinateLevel Level Level
Prototypische farben (Rosch, 1973)Einige Kategorien sind elementarer als andereMessung der Typikalität von KategorienUnterscheidung:
– Basiskategorie (basic level)– Untergeordnete Kategorie (subordinate level)– Übergeordnete Kategorie (superordinate
level)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Kanonische AnsichtenRatings für Typikalität
(Palmer, Rosch & Chase, 1981)Maximale Häufigkeit vs. maximaler Informationsgehalt
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Kanonische Ansichten
Kanonische Ansichten verschiedener Objekte(Palmer, Rosch & Chase, 1981)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
GeneralisierungsfelderBüroklammern & Amöben Generalisierungsfelder
Bülthoff & Edelman(1992)
(Gemittelte Daten von 6 Vpn, 6 Amöben; ±60 grd. Um Trainingsansicht; jede Kontour ≅ 5% Fehlerrate)
φ
θH. Bülthoff
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Ansichtsbasierte Objekterkennung
Problem:Ggf. muss eine sehr grosse Zahl von Ansichten pro Objekt gespeichert werden
Lösung:Transformation (Alignment) der gespeicherten und wahrgenommenen AnsichtenGeneralisierung / Interpolation zwischengespeicherten Ansichten
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
IV. Alignment-Methoden
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Alignment-Methoden
Prinzip Template
Bild
Huttenlocher & Ullman (1990)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Alignment-MethodenBeispiel
Vorgehen:Extraktion von Merkmalen im Bildund gespeichertem MusterHerstellen von Korrespondenz (welches Merkmal im Bild gehört zu welchem Merkmal im Template?) Berechnung der Transformationsmatrix
Rotation around anchor points
Huttenlocher & Ullman (1990)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Alignment-Methoden
Satz (Ullman):Im generischen Falle sind drei Punkte ausreichend,
um die Transformationsmatrix zu bestimen.
Template
Bild
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
3DAlignment-Methoden Ähnlichkeitstransformation
+=
ZYX
sZYX
RT'''
TranslationSkalierung
Rotation
Beweis in 2 Schritten:Jede affine Transformation inder Bildebene korrespondiert zu orthographischer Projektion einer 3D Ähnlichkeitstransfor-mation (bis auf bis auf Offset in Tiefe und Reflexion an Bildebene)Affine Transformation in 2D hat 6 freie Parameter ⇒ 3 Punkte ausreichend
2DAffineTransformation
Orthogonale Projektion
=
YX
yx''
+
=
yx
aaaa
tt
yx
2221
1211
2
1
''
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Alignment-Methoden
Ullman (1996)
r
Rotationsmethode:Zur Transformation von glatten UmrandungenAnpassen von Kreisen and RandkurvenRotationsmatrix aus Mittelpunkten der angepassten Kreise
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Alignment-Methoden(Hypothetische) neuronale Realisierung:
x
x’
“Shifter circuit”
Van Essen et al. (1994)Andersen & van Essen (1987)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
V. Interpolationsansätze
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Interpolation / Generalisierung
Poggio & Edelman (1990)
Feuerrate
Ähnliche Ansicht
Trainings-ansicht
Merkmale = 2D-Eckpunkte
Neuronen analog radiale Basisfunktionen
Graduelle glatte Variation der Feuerrate mit Projektionswinkeln Ansichtswinkeln
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Interpolation / GeneralisierungPoggio & Edelman (1990)
Training Test
Problem:Bestimmung der Eckpunkte aus dem Bild biologisch nicht plausibel!
Input: EckenpositionenOutput:– Standardansicht– Orientierung
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Hierarchisches MAX Modell
Riesenhuber & Poggio (1999)
MAX Riesenhuber
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Visueller Verarbeitungspfad
Form
Bewegung
ObjekterkennungIT
Navigation, AugenbewegungMST
BewegungsanalyseMT
Trennung der VerarbeitungspfadeV2
Extraktion primärerMerkmale
(Orientierung, SF, ...)V1
FunktionArea
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Hierarchisches MAX Modell
Riesenhuber & Poggio (1999)(vgl. auch Fukushima, 1980)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Hierarchisches MAX Modell
Riesenhuber & Poggio (1999)(vgl. auch Fukushima, 1980)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
“Balkendetektoren”OrientierungstuningON und OFF-Bereiche imRezeptiven Feld (RF)
D. Hubel T. Wiesel
Orientierung
Feue
rrate
Tuningkurve
Simple Cells
Kandel, Schwartz, Jessel (2000)
RF
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Simple Cells
Modellierung durch Gabor Filter (Jones & Palmer, 1979;Daugman, 1984)
OrtsselektivFrequenzselektivPhasenselektiv
))(cos()( 002/|| 22
0 φσ +−= −− xxkx xx TAeG
WellenzahlvektorPhase
RF Grösse RF Mittelpunkt
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Hubel-und-Wiesel-Model
RF Grösse nimmt in der Peripherie zuOrientierungstuningModell: Lineare Summation von ON- und OFF-Center Antwortendes Kniekörpers (LGN)
LGN
Primärervisueller Kortex
Simple Cells
Kandel, Schwartz, Jessel (2000)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Complex Cells
Kandel, Schwartz, Jessel (2000)
PositionsinvarianzHubel & Wiesel:lineares Poolen (Summieren) von Antworten von Simple-Cells mit verschiedener RF-Position“Hyperkomplexe” und “Endstopped”-Zellen: Selektiv für Linienenden und Ecken
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
MAX(IMUM) Model
Positionsinvarianter Balkendetektor
Riesenhuber & Poggio (1999)
„Complex Cell“(positionsinvariant)
xx
x
„Simple cells“(positionsvariant)
Pooling
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
SUMMEN Model
Lokale Detektoren
+Complex Cell
(z.B. Hubel & Wiesel, 1962)
Stimuli:
GepooltesSignal:
→Lineares Poolen zerstörtdie Merkmalsselektivität “Gitterdetektor”
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
MAX(IMUM) Model“HMAX-Model” (Riesenhuber & Poggio, 1999)
Lokale Detektoren
MAX
Complex Cell
(z.B. Hubel & Wiesel, 1962)
Stimuli:
GepooltesSignal:
(siehe auch Fukushima, 1980; Goddard, 1992)→Merkmalsselektivität bleibt
erhalten.
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Hierarchisches MAX Modell
Riesenhuber & Poggio (1999)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Area V4 Effektive Stimuli
Pasupathy & Connor (1999)
Extraktion von Ecken, Kurven, …
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Area V4 MaximumberechnungStimulus 1
Stim
ulus
2
Reale vs. vorherge-sagte Aktivität
+ MAXO SUM
Stimulus 1 alleine
Stimulus 2 alleine
Feuerrate als Zeitfunktion
Gawne & Martin (2002)
Zellen mit Antwortverhalten das kompatibel mit MAX-Operation ist
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Hierarchisches MAX Modell
Riesenhuber & Poggio (1999)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Infero-temporaler Kortex (Area IT)AnsichtsabhängigkeitTuning ähnlich RBFs
Ähnliches Verhalten für natürliche + unnatürliche Objekte
Paperclips / Amöben
Bülthoff & Edelman (1992)Gauthier & Logothetis (1999)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Infero-temporaler Kortex (Area IT)
Ansichtsabhängige + ansichtsunabhängige NeuroneInvarianz möglicherweise durch Poolen der Ausgangs-signale ansichtsabhän-giger NeuroneCa. 100 Neurone pro Objekt (Schätzung)
Logothetis, Pauls & Poggio (1995)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Infero-temporaler Kortex (Area IT)
Grösseninvarianz
Logothetis, Pauls & Poggio (1995)
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
MAX(IMUM)-Operation
Feed-forward-Shunting (divisive Normalisierung)
Feedback-Shunting (divisive Hemmung)
Mögliche neuronale Schaltkreise zur Realisierung der MAX-Operation (Yu et al. 2002)
Σ
Σ÷÷
÷
zxn
f(xn)
x
x
x
÷
Σ
Σzxn
yn÷
÷ x
x
x
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
MAX(IMUM)-Operation (Forts.)
Lineare laterale Hemmung;lineare Schwellenneurone Σ
Σz
xnyn
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
Wichtige Punkte
Was ist schwierig an ObjekterkennungTemplate-MatchingStruktubasierte Ansätze (RBC)AnsichtsabhängigkeitAlignment-MethodenMAX-Modell
M. Giese: Lernmethoden in Computer Grafik und Multimedia10 November 2003
LiteraturOlshausen BA, Anderson CH, Van Essen DC (1993) A neurobiological model of visual attention and
invariant pattern recognition based on dynamic routing of information. J. Neurosci. 13, 4700-4719. Edelman, S (1999) Representation and Recognition in Vision. MIT Press, Cambridge, MA. Gauthier I, Logothetis NK (2000) Is face recognition not so unique
after all? Cognitive Neuropsychology, 17, 125-142. Hummel JE, Biederman I (1992) Dynamic binding in a neural network for shape recognition. Psychol
Rev. 99, 480-517.Kandell, Schwartz and Jessel (2000) Principles of Neural Science. McGraw-Hill Professional
Publishing, New York.
Logothetis NK, Pauls J, Poggio T (1995) Shape representation in the inferior temporal cortex of monkeys. Curr Biol. 5, 552-563.
Palmer, SE (1999). Vision Science: Photons to Phenomenology. MIT Press, Cambridge, MA.
Poggio T, Edelman S (1990) A network that learns to recognize 3D objects. Nature 343, 263-266.
Riesenhuber M, Poggio T. (1999) Hierarchical models of object recognition in cortex. Nature Neuroscience 2, 1019-1025.
Ullman, S. (1996) High-level Vision: Object Recognition and Visual Cognition. MIT Press, Cambridge, MA.
Yu AJ, Giese MA, Poggio T (2002) Biophysiologically plausible implementations of the maximum operation. Neural Comput. 14, 2857-2881.