03 Artikulation Paper - Technische Fakultätbwrede/ASR/03_Artikulation... · –Hängt die...

33
Spracherkennung 4. Sitzung 23. Oktober 2008

Transcript of 03 Artikulation Paper - Technische Fakultätbwrede/ASR/03_Artikulation... · –Hängt die...

Spracherkennung

4. Sitzung23. Oktober 2008

Überblick• Wiederholung

– 3 Akustik

• 3 Artikulation– Studie zu Veränderung der Artikulation bei Lärm

• 4 Sprachwahrnehmung– Kategoriale Sprachwahrnehmung beim Menschen

Komplexe Wellenform

Spektrum: Amplitudengröße derFrequenzanteile im Signal

[Clark & Yallop, 1991]

Harmonische SchwingungenF02F0

3F0

Þ Erzeugung von Obertönen

Source-Filter Modell

Quelle: Stimmbänderfundamentale Anregungstimmhaft - stimmlos

Filter: VokaltraktUmformung desAnregungssignals Sprach-

signal

[Clark & Yallop, 1991]

Modulierung im Vokaltrakt durchDämpfung und Verstärkung

Maximale Verstärkung durch Bedingungen, die eine „stehendeWelle“ erzeugen

http://www.schulphysik.de/physik/mech/swell/

Þ Verstärkungen genau der Frequenzen, die max. Druck an Glottis,min. Druck an Mundöffnung erzeugen, d.h. mit:

Lambda = 1/4 lLambda = 3/4 l

etc.l: Länge des Vokaltraktes (z.B. 17 cm)Lambda: Wellenlängec: Schallgeschwindigkeit (Ca 340 m / s)

Modulierung durch Vokaltrakt:Formanten

Gesucht: Frequenz mit Wellenlänge 1/4 Lambda = ld.h. Lambda = 4 * 17 cm = 68 cmf = c : Lambda = 34000 cm/s : 68 cm = 500 Hzd.h. erste Resonanzfrequenz bei 500 Hz,d.h. der Oberton mit 500 Hz wird besonders verstärktÞ 1. Formant bei 500 Hz

Quelle: http://www.phonetik.uni-muenchen.de/AP/APKap2.html

Modulierung durch Vokaltrakt:Formanten

Gesucht: Frequenz mit Wellenlänge 3/4 Lambda = ld.h. Lambda = 4/3 * 17 cm = 22.6 cmf = c : Lambda = 34000 cm/s : 22.6 cm = 1500 Hzd.h. zweite Resonanzfrequenz bei 1500 Hz,d.h. der Oberton mit 1500 Hz wird besonders verstärktÞ 2. Formant bei 1500 Hz

Quelle: http://www.phonetik.uni-muenchen.de/AP/APKap2.html

Akustisches =Artikulatorisches Vokaldreieck

i y

a:

e 2

E

a

@

6

u

oO9

I Y U

hintenvorne

tief / offen

hoch /geschlossen

F2

F1

Überblick• Wiederholung

– 3 Akustik

• 3 Artikulation– Studie zu Veränderung der Artikulation bei Lärm

• 4 Sprachwahrnehmung– Kategoriale Sprachwahrnehmung beim Menschen

An Acoustic and Articulatory Study ofLombard Speech

M. Garnie, L. Bailly, M. Dohen, P. Welby, H. Loevenbruck

Hintergrund– Wenn Menschen in Lärmumgebung sprechen, adaptieren sie ihre

Sprache so, dass sie besser verstanden werden (Lombard-Effekt)– Bisher ist dieser Effekt aber nur akustisch-phonetisch beschrieben

worden, aber nicht artikulatorisch

Fragestellungen zum Lombard-Effekt– Gibt es Hyper-Artikulation (in Lombard Speech)?– Welche artikulatorischen Parameter werden verändert?– Sind die artikulatorischen und akustischen Parameter korreliert?– Hängt die artikulatorische Adaption vom Typ des Lärms ab?

An Acoustic and Articulatory Study ofLombard Speech

M. Garnie, L. Bailly, M. Dohen, P. Welby, H. Loevenbruck

Methode– Sprachaufnahmen von 1 VP (Französisch)– 33 Sätze mit SVO Struktur– nur CV Silbenstruktur– nur stimmhafte Konsonanten

An Acoustic and Articulatory Study ofLombard Speech

M. Garnie, L. Bailly, M. Dohen, P. Welby, H. Loevenbruck

Maße• visuell

– A: Spreizung der Lippen (spreading)– B: Öffnung der Lippen (aperture)– S: Öffnungsfläche (inter-lip area)– B‘: Lippenkompression (lip pinching)

• protruded lip pinching• swallowed lip pinching

– max: Amplitude des Maximums der artikulatorischenBewegung

– glob: globale Evolution (Integral über Zeit -> Summe)

An Acoustic and Articulatory Study ofLombard Speech

M. Garnie, L. Bailly, M. Dohen, P. Welby, H. Loevenbruck

Maße• audio

– Spektrum• EGG (Elektroglottograph, auch Laryngograph)

– F0: Grundfrequenz– Oq: Öffnungsquotient

Ergebnisse

Amplitude der artikulatorischen Bewegungen

• A, B, S: signifikant größer in wn und cktl (bei Lärm)• A, B, S: signifkant größter in cktl als in wn (ausser swallowed pinching)

Þ größere Mundbewegungen, gespanntere LippenÞ stärkster Effekt bei Cocktailparty-LärmÞ Effekt bei Cocktailparty sig. stärker als bei White Noise

A: Spreizung der Lippen (spreading)B: Öffnung der Lippen (aperture)S: Öffnungsfläche (inter-lip area)

ErgebnisseÜberlegungen zu Sprech- vs Artikulationstempo

normale Sprech- Artikulationsgeschwindigkeit

Lärm

Baseline

Bewegungsamplitude bei...

ErgebnisseÜberlegungen zu Sprech- vs Artikulationstempo

normale Sprech- Artikulationsgeschwindigkeitschnellere Artikulationstempo, gleiches Sprechtempo

Lärm

Baseline

Bewegungsamplitude bei...

ErgebnisseÜberlegungen zu Sprech- vs Artikulationstempo

normale Sprech- Artikulationsgeschwindigkeitschnellere Artikulationstempo, gleiches Sprechtempogleiches Artikulationstempo, langsameres Sprechtempo

Lärm

Baseline

Bewegungsamplitude bei...

ErgebnisseGeschwindigkeit der artikulatorischen Bewegungen

Überlegung: wenn Bewegungen (pro Laut) größer, dannentweder langsamere Sprachgeschwindigkeit oder schnellereBewegung

• Geschwindigkeit von A, B, S: signifikant höher bei Lärm• Geschwindigkeit von B, S: signifikant höher in wn und cktl

(außer swallowed pinching)

Þ schnellere Mund- und Lippenbewegungen bei LärmÞ schnellste Bewegungen bei Cocktailparty-LärmÞ jedoch nicht für Lippenspreizung (A)

ErgebnisseAkustische Parameter (Intensität, F0, Dauer)

Überlegung: lassen sich akustische Korrelate zuartikulatorischen Effekten finden?

• Intensität, F0 und Wortdauer signifikant höher bei Lärm• aber: differenziertere Unterschiede zwischen White Noise

und Cocktailparty

Þ trotz schnellerer Bewegungen doch (auch) langsamereSprechgeschwindigkeit

ErgebnisseÜberlegungen zu Sprech- vs Artikulationstempo

normale Sprech- Artikulationsgeschwindigkeitschnellere Artikulationstempo, langsameres Sprechtempo

Lärm

Baseline

Bewegungsamplitude bei...

ErgebnisseAkustische Parameter (Vokal- und Konsonanten-Dauer)

Hintergrund: im Allgemeinen sind Vokale stärker vonDauervariation betroffen, da variabler

• Vokaldauer in Lärm länger, in White Noise am längsten• Konsonantendauer in Lärm kürzer

Þ Vokale werden gelängt, Konsonanten gekürzt

ErgebnisseAkustische Parameter (Intensität, F0)

Überlegung: lassen sich akustische Korrelate zuartikulatorischen Effekten finden?

• Intensität und F0 signifikant höher bei Lärm• aber: differenziertere Unterschiede zwischen White Noise

und Cocktailparty

Þ betontere Sprechweise (Betonung: Intensität, F0, Dauer)

ErgebnisseAkustische Parameter (Intensität, F0)

• Intensität in Cocktailparty Noise geringer als in WhiteNoise (gleicher Effekt für Vokale und Konsonanten, aberIntensitätssteigerung generell bei Vokalen stärker)

• F0 in Cocktailparty Noise höher als in White Noise

Þ generell lauter und höher bei LärmÞ Lautstärke bei Cocktailparty Noise nicht so wichtig,

aber Tonhöhe

Elektroglottograph zum Messender Stimmlippen-Bewegungen

Quelle: K. Marasek. Tutorial to EGGhttp://www.ims.uni-stuttgart.de/phonetik/EGG/frmst1.htm

Sprachqualität undSpektrale EnergieBeispiele

• modal: normale Spannung und Schwingung

• whisper: geöffnete Glottis; keine Stimmlippenschwingung

• breathy: geringe Spannung und geringer Kontakt der Stimmlippen;unregelmäßige Schwingungen mit kontinuierlicher Öffnung

• creaky: geringe Spannung aber starker Kontakt der Stimmlippen;langsame, unregelmäßige Schwindungen

• harsh: sehr starke Spannung der Stimmlippen; unregelmäßige Frequenzund Amplitude

• falsetto: langgezogene Stimmlipen, dadurch dünner; hohe FrequenzQuelle: K. Marasek. Tutorial to EGGhttp://www.ims.uni-stuttgart.de/phonetik/EGG/frmst1.htm

Sprachqualität undSpektrale Energie

Anregungssignal

Idealisiertes SpektrumArtikulation

[Clark & Yallop, 1991]Quelle: K. Marasek. Tutorial to EGGhttp://www.ims.uni-stuttgart.de/phonetik/EGG/frmst1.htm

Sprachqualität undSpektrale Energie

Breathy voice

Bright voice

[Clark & Yallop, 1991]

Sprachqualität undSpektrale Energie

high vocal effort low vocal effort

1500 -3500 Hz

3500 -5500 Hz

1500 -3500 Hz

3500 -5500 Hz

Þ hohe Differenz zwischen der Energie in den Frequenz- bändern

Þ geringe Differenz zwischen der Energie in den Frequenz- bändern

Ergebnis Spektrale Energie

• Zunahme der Differenz bei Lärm• Zunahme bei Cocktailparty Noise geringer als bei

White Noise• Zunahme bei Vokalen und Konsonanten gleich

Þ größerer „vocal Effort“ bei LärmÞ größerer „vocal Effort“ bei White Noise als bei

Cocktailparty Noise

Zusammenfassung Ergebnisse

Fragestellungen zum Lombard-Effekt• Gibt es Hyper-Artikulation (in Lombard Speech)?

– Ja• Welche artikulatorischen Parameter werden

verändert?– größere und schnellere Mundbewegungen– aber langsameres Sprechtempo– Vokale werden gelängt, Konsonanten gekürzt

Akustische Ergebnisse der StudieFragestellungen zum Lombard-Effekt• Sind die artikulatorischen und akustischen Parameter korreliert?

– Ja:– Akustik: größere F1-WerteÞ Artikulation: weiter geöffneter Kiefer / Mund

• Hängt die artikulatorische Adaption vom Typ des Lärms ab?– ja, differenzierte Unterschiede zwischen white Noise und Cocktailparty

Noise

Akustisches =Artikulatorisches Vokaldreieck

i y

a:

e 2

E

a

@

6

u

oO9

I Y U

hintenvorne

tief / offen

hoch /geschlossen

F2

F1