Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf...

29
Kontinuierliche Gebärdenspracherkennung auf großem Vokabular Philippe Dreuw , Morteza Zahedi, David Rybach, Thomas Deselaers, Hermann Ney [email protected] Gebärdensprachworkshop 27. Oktober 2006 Lehrstuhl für Informatik 6 RWTH Aachen University, Germany P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 1 Gebärdensprachworkshop 2006 27. Oktober 2006

Transcript of Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf...

Page 1: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

Kontinuierliche Gebärdenspracherkennungauf großem Vokabular

Philippe Dreuw, Morteza Zahedi, David Rybach,Thomas Deselaers, Hermann [email protected]

Gebärdensprachworkshop 27. Oktober 2006

Lehrstuhl für Informatik 6RWTH Aachen University, Germany

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 1 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 2: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

Übersicht

1 Einleitung

2 Systemübersicht

3 Wortmodellierung

4 Ergebnisse

5 Schlussfolgerung

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 2 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 3: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

1 Einleitung

I Gemeinsamkeiten: Spracherkennung / Gebärdenspracherkennung

Lautsprache ⇐⇒ zeitliche Folge von LautenGebärdensprache zeitliche Folge von Gebärden / Gesten

⇓ ⇓akustisches Signal ⇐⇒ zeitliche Folge von akustischen Vektoren,

(akustische Realisierung der Laute)visuelles Signal zeitliche Folge von “visuellen” Vektoren,

(visuelle Realisierung der Gebärden)

I Unterschiede:

. Grammatik

. Parallelität der Gebärdensprache

. Raumnutzung und Indexierung

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 3 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 4: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

Problematik robuster Erkennungssysteme

IsolierteGebärden

����������������������������������������������������������������������������������������������������������������������������������������������������������������

����������������������������������������������������������������������������������������������������������������������������������������������������������������

KontinuierlicheGebärden

Sprache Anzahl Sprecher

Bewegungsepenthese

Effekte / Probleme

Interpersonelle Unterschiede

StilleVARIANZ

Intrapersonelle Unterschiede− Art der Ausführungen− Geschwindigkeit

− Geschlecht− Dialekt

Koartikulation

I Was ist in der Spracherkennung wesentlich anders? Was fehlt uns?

. Daten: ca. 400 Stunden Sprache vs. < 1 Stunde Gebärdensprache

. Sprecher: 50 – 100 Sprecher vs. 1 – 4 Gebärdensprecher

. robuste Merkmale, Phoneme, Modelle, ...

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 4 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 5: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

Spracherkennung: Geschichte

I Wie lange hat Spracherkennung gedauert?

zeitliche Entwicklung (Forschung):1965 erste Versuche1975 Einzelwörter:

isoliert gesprochen, kleiner Wortschatz1985 isoliert: 5000 Wörter

kontinuierlich: 1000 Wörter1990 kontinuierlich: 10 000 Wörter1995 Telefonsysteme: sprecherunabhängig,

kontinuierlich, 3 000 Wörter

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 5 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 6: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

Gebärdenspracherkennung: Geschichte

I Wo stehen wir heute im Vergleich zur Spracherkennung?

zeitliche Entwicklung (Forschung):1965 Beschreibung möglicher Wortuntereinheiten1975 Beschreibung nicht-manueller Komponenten1990 Beschreibung der Bewegungsepenthese, HamNoSys1995 isoliert, Kamera: 40 Wörter2000+ isoliert, Handschuhe: 10 - 5000 Wörter

kontinuierlich, Kamera: 10 - 100 Wörter

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 6 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 7: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

Anwendung: Sprache-zu-Sprache

Erkennung: Sprache-zu-Text (Video ⇒Glossen)

Übersetzung: Text-zu-Text (Glossen ⇒Text)

JOHN FISH WONT EAT BUT CAN EAT CHICKENJohn will not eat fish but eats chicken

Synthese: Text-zu-Sprache (Text ⇒Audio)

audio/021.wav

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 7 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 8: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

2 Systemübersicht

I Erkennung

I Machine Translation

I Synthese

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 8 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 9: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

2.1 Merkmale zur Gebärdenspracherkennung

I Was für Merkmale brauchen wir?

. Manuelle Komponenten

. Nicht-Manuelle Komponenten⇒ sollten in irgendeiner Form aus dem Eingangssignal extrahiert werden

I Unterschiedliche Ansätze / Annahmen

. Spezial Hardware

. Computersehen (Computer Vision)

⇒ dabei Entstehen unterschiedliche Probleme bei der Extraktion

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 9 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 10: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

2.2 Datenbank

RWTH-Boston-104 (RWTH Aachen University)

I American Sign Language (ASL)

I Daten der Boston University

I 201 annotierte ASL Sätze

I Vokabular: 104 Wörter, 3 Sprecher (2 ♀, 1 ♂)

JOHN WRITE HOMEWORK LIKE CHOCOLATE WHO SOMETHING/-ONE CARSTOLEN

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 10 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 11: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

Datenbank

RWTH-Boston-104: StatistikKorpus Sätze Glossen Vokabular EinzelbeobachtungenTraining 161 710 103 27Test 40 178 65 9

26.2%19.4%

10.7%

8.7%

8.7%

26.2%

N5

Nn>5

N1

N2

N3

N4

Worthäufigkeiten im Training

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 11 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 12: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

2.3 Tracking

I Anwendung: Tracking des Kopfes

I Probleme:

. Hände sind oft vor dem Gesicht

. Kopf Rotation, starke Mimik

. Hintergrund: Hautfarben, Struktur, ...

I Idee: kombiniere Hautfarbinformation und Gesichtsmerkmale

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 12 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 13: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

Tracking

I Beispiele

Kopf- und Hand-Tracking auf derRWTH-Boston-104 Datenbank

Kopf-Tracking auf der RWTH-PhoenixDatenbank mit Körpermodell

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 13 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 14: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

2.4 Verwendete Merkmale

I Manuelle Merkmale (aus dem Tracking):

. Hand-Position

. Hand-Bewegung

. Hand-Trajektorie

manualfeatures

headtracking

scaling PCA / LDA

handtracking feature

nationcombi−

non−manualfeatures

ut

ut−2

ut−1

Baseline Setup:

I Erscheinungsbasierte Bildmerkmale

. Bilder werden auf 32×32 Pixel verkleinert

. dienen als gutes Baseline Ergebnis in zahlreichenProblemen der Bilderkennung

. erfolgreich in der Gestenerkennung eingesetzt

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 14 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 15: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

3 Wortmodellierung

I Erkennung auf großem Vokabular: Ganzwort-Modelle nicht sinnvoll

. nicht ausreichend Trainingsmaterialvorhanden

. größerer Speicheraufwand

I Lösung:

. erstelle Wort-Modelle durchKonkatenierung von Wortuntereinheiten

I Vorteile:

. Daten werden unter den Wörtern aufgeteilt

. dadurch mehr Trainingsdaten pro Wort

. nicht im Training gesehene Wörter könnennun durch ein Aussprache-Lexikon erkanntwerden

x:

:x:

:x

::y

:yx

x::z:

::

y:

z

x

y

Beobachtung 3

Beobachtung 2

Beobachtung 1

x,y,z: Labels der Untereinheiten

z:

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 15 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 16: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

Wortmodellierung

I Probleme in der Gebärdenspracherkennung:

. Phoneme noch immer nicht eindeutig definiert

. kein Aussprache-Lexikon vorhanden

. Phoneme treten simultan auf (Multi-Stream)

. deutlich mehr Phoneme in der Gebärdenspracherkennung als Phoneme inder Spracherkennung

⇒ Ansatz nicht ohne weiteres auf die Gebärdenspracherkennung übertragbar

I Isolierte Gebärden

. Wortgrenzen bekannt

I Kontinuierliche Gebärden

. unbekannte Wortgrenzen

. Kontexteffekte an Wortübergängen

. Bewegungsepenthese

. Stille

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 16 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 17: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

4 Ergebnisse

I Baseline Ergebnisse und Kombination mit Hand MerkmalenMerkmal Fehlerrate

skaliertes Bild 37.0

PCA-transformiertes Bild 27.5+Hand-Trajektorie 23.6

Fenstern 21.9

Modell-Kombination 17.9

I Beispielsätze

ALL BOY GIVE TEACHER APPLEALL BOY GIVE TEACHER APPLE

JOHN SHOULD NOT BUY HOUSEJOHN FUTURE NOT BUY HOUSE

ANN BLAME MARYANN BLAME

JOHN READ BOOKJOHN FUTURE FINISH READ BOOK

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 17 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 18: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

5 Schlussfolgerung

I Ergebnisse wurden auf einer öffentlichen Datenbank erzielt

I System benötigt keine spezielle Hardware oder Handschuhe

I Gebärdenspracherkennung mit einem aktuellen Spracherkennungssystem

I erscheinungsbasierte Bildmerkmale erzielen auch gute Ergebnissein der Gebärdenspracherkennung

I viele Prinzipien der Spracherkennung sind direktauf die Gebärdenspracherkennung übertragbar

. besonders wichtig: Kontextinformation und Sprachmodelle

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 18 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 19: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

Ausblick

I Weitere Erkenntnisse der Sprach- und Bilderkennung untersuchen:

. Sprecheradaption

. weitere Merkmale für die Erkennung

. Wortmodellierung

I Integration der Rauminformation aus der Erkennung in die Übersetzung

Erkennung JOHN IX GIVE MAN IX NEW COATJOHN GIVE IX NEW COAT

Übersetzung ohne Rauminformation John gives that man a coatÜbersetzung mit Rauminformation John gives the man over there a coat.

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 19 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 20: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

Danke für Ihre Aufmerksamkeit

Philippe Dreuw

[email protected]

http://www-i6.informatik.rwth-aachen.de/

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 20 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 21: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

Anhang: Bayes’sche Entscheidungsregel

Video Input

Feature Analysis

Global Search:

argmaxw

N

1

{

Pr(wN

1) · Pr(xT

1|wN

1)}

Recognized Word Sequence

Word Model Inventory

Language Model

XT

1

xT

1

wN

1

Pr(xT

1|wN

1)

Pr(wN

1)

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 21 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 22: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

Anhang: Eigenfaces

I An image X can be projected to face space by a linear transformation φ:

φ(X) = V T (X − µ)

where V = [v1 . . . vm] is the matrix of the first m eigenvectors and µ is themean face calculated on the set of training images.

I The projection from face space to image space is:

φ−1(Xf) = V Xf + µ

where Xf is the image representation in face space φ(X).

I The distance between an image and its forward and backward projected ver-sion, is called the face space distance. It can be used as a measure of “facen-ess”.

df(X) = ‖X − φ−1(φ(X))‖2

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 22 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 23: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

Anhang: Eigenfaces

I An example of projected images and the resulting distance:

X φ−1(φ(X)) X − φ−1(φ(X)) df(X)

278

432

I We use the face space distance as score function to detect and track heads:

sf(ut−1, ut; Xtt−1) = −df (Xt(ut))

where Xt(ut) denotes a rectangular patch of image Xt centered in positionut.

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 23 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 24: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

Anhang: LM Scales

I Akustisches Modell und Sprachmodell haben den gleichen Einfluss in derBayes’schen Entscheidungsregel

I Experimente in der Spracherkennung haben gezeigt, dass die Erkennungstark verbessert werden kann, wenn das Sprachmodell einen stärkeren Ein-fluss als das Akustische Modell hat

I Die Gewichtung erfolgt durch die Einfühlung eines Gewichtes α für das Sprach-modell und eines Gewichtes β für das Akustische Modell:

argmaxwN

1

{p(wN

1 |xT1 )

}= argmax

wN1

{pα(wN

1 ) · pβ(xT1 |wN

1 )}

= argmaxwN

1

βlog p(wN

1 ) + log p(xT1 |wN

1 )

}

I Der Faktor αβ

wird als Sprachmodell Faktor bezeichnet.

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 24 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 25: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

Anhang: LM Perplexity

I The perplexity of a language model and a test corpus wN1 is defined as:

PP = p(wN1 )− 1

N

=

[N∏

n=1

p(wn|hn)

]− 1N

I As the perplexity is an inverse probability, it can be interpreted as the averagenumber of possible words at each position in the text.

I The logarithm of the perplexity is equal to the entropy of the text, i.e. theredundancy of words in the test corpus with respect to this language model.

log PP = −1

N

N∑n=1

log p(wn|hn)

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 25 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 26: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

Anhang: Hand Trajectory Features

I calculate global features describing geometric properties of the hand trajec-tory

I estimation of the covariance matrix Σt for hand positions in a certain timewindow 2∆ + 1

µt =1

2∆ + 1

t+∆∑t′=t−∆

ut′

Σt =1

2∆ + 1

t+∆∑t′=t−∆

(ut′ − µt) (ut′ − µt)T

Σ·tvt,i = λt,i · vt,i i ∈ {1, 2}

I eigenvalues λt,i and eigenvectors vt,i of the covariance matrix can then beused as global features.

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 26 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 27: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

Anhang: Hand Trajectory Features

40

60

80

100

120

14020 40 60 80 100

hand positions ut

eigenvectors vi

0

20

40

60

80

100

120

140

160

1800 20 40 60 80 100 120 140 160 180

hand positions ut

eigenvectors vi

60

80

100

120

140

160

40 60 80 100 120 140

hand positions ut

eigenvectors vi

60

70

80

90

100

11050 60 70 80 90 100

hand positions ut

eigenvectors vi

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 27 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 28: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

Anhang: Ergebnisse - Kontextinformation

20

25

30

35

40

50 100 150 200 250 300

WE

R[%

]

dimension

window size = 5window size = 3window size = 7

Kombination durch Fenstern von PCA-transformierten Bildern

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 28 Gebärdensprachworkshop 2006 27. Oktober 2006

Page 29: Kontinuierliche Gebärdenspracherkennung auf großem Vokabular · PDF fileauf großem Vokabular Philippe Dreuw, Morteza Zahedi, ... I Daten der Boston University ... Test 40 178 65

Anhang: Ergebnisse - Sprachmodellierung

10

20

30

40

50

60

70

80

0 100 200 300 400 500

WE

R[%

]

LM scale

zerogramunigrambigramtrigram

Ergebnisse für unterschiedliche Sprachmodelle und Skalierungsfaktoren

P. Dreuw et al.: Kontinuierliche Gebärdenspracherkennung 29 Gebärdensprachworkshop 2006 27. Oktober 2006