Stimmliche Charakteristika bei globaler und lokaler ... · ÎÄnderung der Stimmqualität zu...

25
Stimmliche Charakteristika bei globaler und lokaler Lautstärkevariation Christine Mooshammer & Jennifer Schneeberg Institut für Phonetik und digitale Sprachverarbeitung Christian-Albrechts-Universität Kiel Deutschland

Transcript of Stimmliche Charakteristika bei globaler und lokaler ... · ÎÄnderung der Stimmqualität zu...

Stimmliche Charakteristika bei globaler und lokaler Lautstärkevariation

Christine Mooshammer& Jennifer Schneeberg

Institut für Phonetik und digitale SprachverarbeitungChristian-Albrechts-Universität KielDeutschland

DAGA 2005 München

Einführung

Globale Lautstärkeerhöhung primär: größerer subglottaler Luftdruck

Schnelleres Schließen der Stimmlippen ( höhere f0)

Flacher abfallendes Quellspektrum

sekundär: supralaryngale ArtikulationLängung der VokaleTieferer Kiefer bei Vokalen und damit höherer F1

DAGA 2005 München

Einführung

Lokale Lautstärkeänderung: = linguistisch bedingt: Akzentuierung

Wortakzent in Sprachen mit dynamischen Akzent (z.B. „Tenor“)

Intensität als Hauptmerkmal neben Dauer und Grundfrequenz(s. Sweet 1906, Sluijter et al. 1996)

kontrolliert durch subglottalen LuftdruckNachweis: Änderung des spectral tiltsGilt auch in deakzentuierter Position, d.h. ohne Grundfrequenzunterschiede

DAGA 2005 München

EinführungSatzbetonung: realisiert durch melodische Unterschiede mittels Anpassung der Stimmlippenspannung

Hypothesen:I. Nur lexikalischer Wortakzent bewirkt ähnliche

Änderungen in den stimmlichen Parametern wie globale Lautstärkeänderungen, nicht aber der Satzakzent.

II. Unterschiede in der Wortbetonung sind unabhängig davon, ob das Wort satzbetont ist oder nicht.

DAGA 2005 München

Korpus1. Wortakzent

/ ze /

/ le / Lenor/len/

Lena/lena/

Senat/zenat/

Sehnen/zenn/

Unstressed[-S]

Stressed[+S]

DAGA 2005 München

Korpus2. Satzbetonung: Frage-Antwort Paradigma

(durch Variation des Fokus + Emphase)

FOCUS [+F]Q: Wolltest Du Dir Friedas Buch ausleihen?A: Nein, ich wollte Lenas Buch ausleihen.

NON-FOCUS [-F]Q: Wie findest Du Lena?A: Ich hasse Lena und ihre Schusseligkeit.

DAGA 2005 München

Korpus3. Globale Lautstärkevariation

Sätze mit wortbetonten, fokussierten Testsequenzen wurden in drei Lautstärkebedingungen gesprochen:Normal (N)laut: „Sprich laut ohne zu schreien“ (L)leise: „Sprich leise ohne zu flüstern“ (S)

8 bis 9 Wiederholungen

DAGA 2005 München

Aufnahmen6 Sprecher aus Norddeutschland (20-30 Jahre alt, Nichtraucher, männlich)Akustik und Glottissignal (Lx) mittelsLaryngographie (Glottal Enterprises)Die erste Ableitung des Lx-Signals (DEGG) wurde mittels Differenzierung berechnet.Akustische Etikettierung mit Praat

DAGA 2005 München

Messungen LxHalbautomatische Etikettierung mittels EMU/RAlle Perioden während des Vokals /e/

Analysierte Parameter:a) f0 basierend auf dem DEGG Signalb) RMS basierend auf dem Audio-Signalc) Open Quotient OQd) Speed Quotient SQe) Steigungen der Öffnungs- und

Schließungsbewegungen (Oslope, Cslope)

DAGA 2005 München

MessungenOpen Quotient:100*top/TProblem: Festlegung des Zeitpunkts der Öffnung:

752 754 756 758 760

-3-2

-10

12

3

times

lxx

* 2

T

top1

1. Negativer Gipfel der ersten Ableitung = top1

top2

2. 4/7 Schwellwert (Howard‘s method) = top2

DAGA 2005 München

Messungen

Speed Quotient:100*tcl/top(10% Schwellwert)

736 738 740 742 744

-600

0-4

000

-200

00

2000

4000

6000

8000

timesl

data

l

SQ= 20.93

Schließung Öffnung

toptcl

CslopeCslope

Oslope

Oslope

DAGA 2005 München

Vorhersagen(basierend auf Marasek (1997), Zwei-Massen-Modell -> Lx-Signal aus Glottisfläche)

Problem: Trennung der Einflüsse des subglottalen Luftdrucks und der Stimmlippenspannung auf die EGG Parameter

=↑Oslope

=↑Cslope

↑(↓ )SQ

↑↓OQ

Focus≈Pitch

Stress≈ Loudness

Parameter

DAGA 2005 München

Stimmparameter: globale Lautstärke

• Bei lautem Sprechen: höhere f0 und größerer Bereich

• Signifikant tiefere f0 bei leisem Sprechen

100

140

180

f0 [H

z]

100

140

180

loud normal soft

/l//z/

Grundfrequenz

• Für alle Sprecher signifikante Unterschiede zwischen den Lautstärkeniveaus

5055

6065

7075

RM

S [d

B]

5055

6065

7075

loud norm al soft

/l//z/

Intensität

DAGA 2005 München

Stimmparameter: globale Lautstärke

• OQ vergrößert sich von laut und normal nach leise

• Konsistent für alle Sprecher

4050

6070

OQ

[%]

4050

6070

loud normal soft

/l//z/

Open Quotient

• Signifikant steilere Steigungen für lautes Sprechen

• Konsistent für laut-normal• Nur 3 Spr. für normal-leise

2000

6000

OSl

ope

2000

6000

loud normal soft

/l//z/

Steigung der Öffnungsbewegung

DAGA 2005 München

Stimmparameter: Prominenz

5560

6570

RM

S [d

B]

5560

6570

[+F,+S] [+F,-S] [-F,+S] [-F,-S]

/l//z/

Intensität

Fokus Non-Fokus

• /l/: Wortakzent bewirkt höhere Intensität bei +F und –F

•/z/: höhere Intensität bei –F nur bei 3 Sprechern

8012

016

0

f0 [H

z]

8012

016

0

[+F,+S] [+F,-S] [-F,+S] [-F,-S]

/l//z/

Grundfrequenz

Fokus Non-Fokus

Konsonanteneffekt bei [-F]:• /l/: F0 unterscheidet sich für

Wortakzent (aufgrund von 2 Sprechern)f0_stress.jpg

•/z/: F0 Neutralisation

DAGA 2005 München

Stimmparameter: ProminenzVorhersagen:• Wortakzent: [+S]<[-S]• Fokus: [+F]>[-F]

Wortakzent: • niedrigerer OQ für [+S] • ähnlich laut-normal

4555

6575

OQ

[%]

4555

6575

[+F,+S] [+F,-S] [-F,+S] [-F,-S]

/l//z/

Fokus: • meist niedriger für [+F] • entgegen Vorhersage

Open Quotient

[+F,+S] [+F,-S] [-F,+S] [-F,-S]

5052

5456

5860

/l//z/

Fokus Non-Fokus

DAGA 2005 München

Stimmparameter: Prominenz

Wortakzent: • [+F]: vier Sprecher zeigen

steilere Steigungen für [+S]• [-F]: 4 Sprecher /l/,

nur 1 Sprecher /z/Fokus: • In beiden Bedingungen

meist signifikanter Anstieg der Steigung für [+F]

[+F,+S] [+F,-S] [-F,+S] [-F,-S]

010

0020

0030

00 /l//z/

Fokus Non-Fokus

Vorhersagen:•Wortakzent: [+S]>[-S]•Fokus: [+F]=[-F]

Steigung der Öffnungsbewegung

DAGA 2005 München

Zsf.: StimmparameterLautes Sprechen: erhöhter subglottaler LuftdruckLeises Sprechen: weniger konsistente Druckunterschiede

Änderung der Stimmqualität zu behaucht?Wortakzent: Evidenz für höheren subglottalen Luftdruck nur bei fokussierten Wörter und hauptsächlich nach /l/Fokus: kaum Hinweise auf geänderte Stimmlippen-spannung, dafür Evidenz für erhöhten Luftdruck

Tentative Erklärung:1. Bestimmung des Zeitpunkts der glottalen Öffnung2. Verwendete Parameter könnten abhängig von der

Grundfrequenz sein (z.B. Steigungen).

DAGA 2005 München

2. FormanalyseAlternativer holistischer Ansatz: gesamte Wellenform bildet die Basis, z.B. PCA (Mokhtari et al. 2003) oder Functional Data Analysis (FDA, z.B. Ramsay)

0 200 400 600 800 1000

0.0

0.2

0.4

0.6

0.8

1.0

Normalized time

Nor

mal

ized

am

plitu

de

Input:• Mittlere zwei Perioden• Zeit- und amplituden-

normalisiert• 317 ItemsVerarbeitung:• Berechnung von Spline

Funktionen

DAGA 2005 München

Hauptkomponentenanalyse:Positiv: längere Geschlossenphase, steile Verschließbewegung, linksschiefNegativ: lange Offenphase, langsamere Verschließbewegung, symmetrischer Impuls

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

+++

0.1 0.2 0.3 0.4 0.5 0.6 0.7

0.0

0.4

0.8

PCA function 1 (Percentage of variability 64.3 )Normalized time

---------------------------------------------------------------------------------------

Click to advance to next plotHauptkomponente (64.3 %)

LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE

Alle Sprecher

Fakt

or 1

-0.0

50.

000.

05

Lena

Lenor

LautstärkeX

XX

FaktorscoresLautstärke:

Laut: pos. Werte Normal: Werte um nullLeise: neg. Werte

Wortakzent:„Lena“: positive Werte„Lenor“: negative Werte

Fokus: kein Unterschied

DAGA 2005 München

LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE

BD Var= 79-0

.10

0.00

0.10

LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE

DP Var= 75

-0.1

00.

000.

10

LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE

GA Var= 80

-0.1

00.

000.

10

LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE

NU Var= 65

-0.1

00.

000.

10

LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE

SB Var= 76

-0.1

00.

000.

10

LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE

SZ Var= 76-0

.10

0.00

0.10

Lena Lenor Lena Lenor

Lautstärke

XX XXX

Signifikant für 5 Sprecher

Prominenz: keine signifikanten Effekte

DAGA 2005 München

LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE

BD Var= 71

-0.1

00.

000.

10

LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE

DP Var= 81

-0.1

00.

000.

10

LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE

GA Var= 76

-0.1

00.

000.

10

LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE

NU Var= 75

-0.1

00.

000.

10

LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE

SB Var= 76

-0.1

00.

000.

10

LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE

SZ Var= 78-0

.10

0.00

0.10

Sehnen Senat Sehnen Senat

Prominenz:signifikanten Effekte bei DP

Lautstärke: signifikante Effekte bei 5 Sprechern

DAGA 2005 München

SchlussfolgerungenGlobale Lautstärkeveränderung: verändert die Form des glottalen PulsesWortakzent:

Sehr inkonsistente EffekteNur für einen Sprecher in die erwartete Richtung

Nachdem f0- und Amplitudenunterschiede entfernt wurden, ergeben sich keine Effekte für Wortakzent

DAGA 2005 München

Schlussfolgerungen (cont.)Warum keine Effekte bei Prominenz?

1. Unterschiede könnten zu subtil sein, um sich signifikant niederzuschlagen. Keine klare Tendenz erkennbar

2. Unterschiede zeigen sich nicht im Lx Signal aufgrund der bekannten ProblemeLautstärkeeffekte sind sehr konsistent

3. Wortakzent wird nicht durch Änderung des subglottalen Luftdrucks realisiertNeue Hypothese: Flacherer Abfall bei wortbetonten Vokalen ist eine Folge der laryngalen und/oder supralaryngalenArtikulation

DAGA 2005 München

AusblickParameter des spektralen Abfalls

spectral balance, spectral tilt und spectral emphasis??? Abhängig von Grundfrequenz ???

Systematischer Vergleich zwischen verschiedenen Maßen mittels Synthese

Supralaryngale Artikulation: Parameter wie Dauern und Formanten

Vorläufige Ergebnisse: große Unterschiede bei Wortakzent, aber nicht in Richtung lautes Sprechen nur selten konsistente Unterschiede für Fokus

Erhebung von artikulatorischen Daten