Phonetik I: Akustische Phonetik (II) Inhalt: Akustische ... · o Längsspannung der Stimmlippen->...

26
Phonetik I: Akustische Phonetik (II) Inhalt: Akustische Phonetik Physikalische Grundlagen Akustogenese: Generierung des Sprachschalls im Sprechtrakt Regeln zur Modifikation von Formantfrequenzen Akustische Merkmale einzelner Lautgruppen Akustische Analysemethoden Einführung in das Arbeiten mit Sprachsignal-Analysesoftware Durchführung und Vorbearbeitung von Sprachschallaufnahmen Akustische Merkmale von Stimm- und Sprechstörungen 1

Transcript of Phonetik I: Akustische Phonetik (II) Inhalt: Akustische ... · o Längsspannung der Stimmlippen->...

Phonetik I: Akustische Phonetik (II)

Inhalt: Akustische Phonetik • Physikalische Grundlagen • Akustogenese: Generierung des Sprachschalls im Sprechtrakt

• Regeln zur Modifikation von Formantfrequenzen • Akustische Merkmale einzelner Lautgruppen• Akustische Analysemethoden • Einführung in das Arbeiten mit Sprachsignal-Analysesoftware• Durchführung und Vorbearbeitung von Sprachschallaufnahmen• Akustische Merkmale von Stimm- und Sprechstörungen

1

Akustogenese: Generierung des akustischen Sprachsignals im Sprechtrakt

Wichtige Theorie hierzu: Die Quelle-Filter Theorie (Fant 1960)• Dreiteilung des Sprechapparates aus funktionaler Sicht (aerodynamisch/akustisch)

Kent_03_05o Initiation: Lunge liefert aerodynamische Energie (Luftdruck und Luftstrom) o Phonation: Stimmlippenschwingung im Kehlkopf -> akustisches Signalo Artikulation: Vokaltrakt (Ansatzrohr: Rachen-, Mund- und Nasenraum) überformt

den Phonationsschall

• Zweiteilung des Sprechapparates aus engerer akustischer Sicht: Im Grunde die letzten beiden Punkte:o Phonation = Quelle: Generierung des Schallsignalso Artikulation / Vokaltrakt = Filter: Überformung / Filterung (und Abstrahlung) des

Schallsignals

2

Die Quelle: Phonation • Der Phonationsmechanismus: Aerodynamische Energie (Überdruck bei geschlossener

Stimmritze und Bernoulli-Unterdruck) -> mechanische Stimmlippenschwingung -> schnelle Variation des Luftstroms (Luftstrom-Impulse) -> akustisches Signal

PM_012 Grass_2_07 PM_015

• Zwei wichtige funktionale Parameter der Phonation: o Längsspannung der Stimmlippen -> Variation der Tonhöhe Kroe02_04o Ruheabstand der Stimmlippen: Grass_2_08

stark verschlossen (-> Vollverschluss []; keine Phonation) gepresst verschlossen (-> Knarrstimme; gepresste Stimme) locker verschlossen (-> normale Phonation) leicht geöffnet (-> behauchte Phonation) geöffnet (-> stimmlose Laute; keine Phonation) weit geöffnet (-> Atemstellung; keine Phonation)

3

Zur Aerodynamik und Akustik der Phonation

Ausgangspunkt: (mechanische) Stimmlippenschwingung führt zu zeitlicher Änderung der Fläche der Stimmritze (Glottis) quantitativ ähnliche Variation des Luftstroms PM_015 Glott_Parameter Variation des Schalldrucks PM_048 ( Phonationsschall)

Grundfreqeunz (F0) des Phonationsschalls liegt um ca. 120 Hz bei Männern um ca. 250 Hz bei Frauen;

4

Zum Spektrum des Phonationsschalls Glott_Spektrum• Frequenz der Obertöne sind immer ganzzahlige Vielfache des Grundtons F0

Abstand zweier Teiltöne entspricht genau F0 (Abb. hohes/tiefes F0)• abnehmende Intensität der Obertöne zu höheren Frequenzen hin PM_051 (a)

Kroe02_06 (a)• sprechakustisch relevante Obertöne im Bereich von 0 bis ca. 3 kHz• bei leisem Sprechen sinkt die Amplitude der Obertöne schneller PM_015

Spektrum: normales und leises Sprechen: testsig_synt_glott (200Hz, 400Hz)

Auftreten von Phonationsschall beim SprechenPhonationsschall tritt auf in allen stimmhaften Lauten: z.B. Vokale, Nasale, Laterale, Vibranten, stimmhafte Plosive und Frikative

5

Eine weitere akustische Quelle: Friktionsschall • Friktionsschall entsteht aufgrund der Luftströmung durch eine glottale oder supra­

gottale Konstriktion (Enge) PM_049• Zum Mechanismus:

o Beschleunigung des Luftstroms in einer Enge; o Verwirbelung des Luftstrahls nach Verlassen der Enge (aufgrund von

Luftreibung) o Luftdruckschwankungen im Bereich der Wirbel o Schallentstehung

• Die Wirbelbildung ist ein nur noch „statistisch“ vorhersagbares Ereignis zugehöriges akustisches Signal: Rauschen PM_047

genannt: Friktionsrauschen (supraglottal)Aspiration (glottal)

6

Akustische Eigenschaften des Friktionsschalls Friktionsrauschen liegt im Bereich von ca. 3 bis 10 kHz: laute_fric [f], [s]Also: Meist höher als Phonationsschall inkl. der intensitätsstarken Obertöne

anhand der Energieverteilung im Sonagramm kann leicht stimmhaft/stimmlos detek­tiert werdendimh_01_sona (und Transkription)

Auftreten von Friktionsschall beim SprechenFriktionsschall tritt auf bei • Frikativlauten • Plosivlaute: kurzzeitiges Plosionsgeräusch ( transiente Anregung)

nachfolgend auch Aspiration (= glottales Friktionsrauschen)

7

Akustische Eigenschaften des Filters / des Ansatzrohres / des Vokaltraktes: Was passiert im Vokaltrakt / im Ansatzrohr (bei vokalischer Artikulation)?Eine Überformung des Phonationsschalls durch die Filterwirkung des Vokaltraktes.

Was bedeutet „Filterwirkung des Vokaltraktes“? • Der Vokaltrakt ist ein Hohlraum -> Es gibt Hohlraumresonanzen (Experiment: „An­

blaseton“ einer Flasche) (Experiment: „Anschnipsen“ der Backe) • Das Ansatzrohr des Menschen ist ein Hohlraum: Anregung an Glottis, Abstrahlung am

Mund • Die Frequenzen des Glottissignals im Bereich dieser Resonanzen werden ohne Ab­

schwächung durchgelassen bzw. verstärkt; alle anderen Frequenzen (zwischen den Resonanzen) werden abgeschwächt

Kroe02_06 (a,b,c) PM_051 (a,b,c)

8

Definition des Begriffs „Formant“Aus Sicht der Akustogenese: Formanten = Hohlraumresonanzen des AnsatzrohresAus Sicht der Analyse: Formant = (breites) Energiemaximum im Spektrum

(Breit im Vergleich zu den Spektrallinien der Teiltöne)

Darstellung der Formanten im abgestrahlten akustischen Sprachsignal:Formanten = Bereiche stärkerer Energie im Spektrum

= dunkle horizontale Balken im SonagrammHören: vokale_01 vokale_02Sonagramme mit sfs: sona_vokale_01_bs sona_vokale_02_bsSonagramme mit Praat: sona_vokale_01 sona_vokale_02

Die Änderung der Lage der Formanten deutet die Änderung der Lage und Formung der Sprechorgane (Lippen, Unterkiefer, Zunge, Gaumensegel) an.

9

Beispiele zu den „Formanten“Synthetisch erzeugte Vokale: testsig_synt_vok [a], [i], [u] natürliche Vokale: laute_vok [a], [i] (mittels Kurzzeitspektrum analysiert)

10

Formanten und stehende Wellen

Wieso entstehen Hohlraumresonanzen?

Antwort:Schallwellen können in Hohlräumen bei bestimmten Frequenzen stehende Wellen aus­bilden BordHarris_04_60 Hess_aap2f_53

11

Schwingungen und WellenBisher diskutiert: Schwingungen: Auslenkung eines Punktes über die Zeit: PM_043 Siehe auch bereits PM_041 (vertikale Achse)

Jetzt neu: Wellen: Übertragung einer Schwingung auf benachbarte Punkte (Luftpartikel) und damit Ausbreitung der Schwingung in den Raum hinein PM_041 Zur Erläuterung von Schallwellen:• Generierung einer Welle aus einer Schwingung (Punktquelle) Generierung_Welle• Ausbreitung einer Welle im Raum Ausbreitung_Welle

Es schieben sich Teilchenverdichtungen durch den Raum• ( Empfang der Schallwelle am Trommelfell oder am Mikrofon (Membran)

Empfang_Welle )

12

Longitudinalwellen und TransversalwellenSchallwellen sind Longitudinalwellen: Schwingung der Teilchen in Richtung der Ausbreitung der Welle

Es gibt auch Transversalwellen: z.B. elektromagnetische Wellen; in Näherung auch: Wasserwellen, Seil Ausbr_transv_Welle

Anmerkung: Elektromagnetische Wellen treten je nach Wellenlänge in unterschiedlicher Form in Erscheinung:MikrowellenRadiowellensichtbares LichtRöntgenstrahlen...

13

Beschreibungsgrößen von Schallwellen Die Beschreibungsgröße einer Schallschwingung ist die Auslenkung des Teilchens bzw. die momentane Geschwindigkeit des Teilchens PM_041

Das kann auf die Schallwelle übertragen werden: Die Beschreibungsgrößen einer Schallwelle sind Schalldruck und Schallschnelle:

PM_041

Innerhalb der Welle treten auf: Schallwelle• Bereiche hohen Schalldrucks (hohe Dichte der Teilchen) Druckbäuche• Bereiche hoher Schallschnelle (schnelle Bewegung der Teilchen) SchnellebäucheDazwischen: Druckknoten und Schnelleknoten

Die Schwingungsform, die von der Schallquelle generiert wurde (hier eine Sinus­schwingung) setzt sich in den Raum fort für Schalldruck und Schallschnelle PM_041

14

Stehende Wellen Zurück zum Sprechtrakt: Besondere Situation: Ausbreitung einer Schallwelle in einem „Röhrchen“ (Ansatzrohr): Reflexion der Schallwelle an den Enden des Röhrchens (Glottis / Mund)

Der Sprechtrakt / das Ansatzrohr stellt vereinfacht gesehen ein einseitig geschlossenes und einseitig offenes Rohr dar. BordHarris_04_60 Hess_aap2f_52• Geschlossenes Ende: Reflexion der Welle (intuitiv: wie Zurückprallen eines Balls) • Offenes Ende: Wieso entsteht am Mund eine Reflexion der Schallwelle?

Grund: Der Druck kann am offenen Mund nicht variieren (= Umgebungsdruck), wohl die Schnelle (longitudinal: freie Bewegung der Teilchen) Also: Reflexion des Schalldrucks Reflexion_Druck (wie fest eingespanntes Seil)

15

Also: Die Schallwellen werden an der Glottis erzeugt und dann an beiden Enden laufend reflektiert. Im Ansatzrohr laufen die an der Glottis erzeugten Schallwellen hin und her

Bei besonderen Wellenlängen (in Relation zur Länge des Ansatzrohres) können wegen der Reflexion stehende Wellen entstehen.Entstehung_steh_Welle (hier beidseitig geschlossenes Ende)Knoten (= Node)Bauch (= Antinode)

Für eine stehende Welle gilt: Ein Druckbauch fällt immer mit einem Schnelleknoten zusammen und umgekehrt. Schallwelle

16

Zum Zusammenhang Wellenlänge und Frequenz (Periodendauer)

Den Zusammenhang zwischen Wellenlänge λ und Frequenz f (Periodendauer T) der Welle definiert die Schallgeschwindigkeit: c = λ/T = λ*f = 350 m/s

• niederfrequente Schallwellen sind lang (Meterbereich) 100 Hz <-> 3.5 m• hochfrequente Schallwellen sind kurz (Millimeterbereich) 10kHz <-> 3.5mm

17

Wellenlänge (und Frequenz) von stehenden Wellen im AnsatzrohrErinnerung: BordHarris_04_60 Hess_aap2f_52• Offenes Ende (Mund): Hier kann immer nur ein Druckknoten (Umgebungsdruck) und

ein Schnellebauch (freies Ende) auftreten• Geschlossenes Ende (Glottis): Hier kann immer nur ein Druckbauch (freie Variation)

und ein Schnelleknoten (Teilchen können sich longitudinal nicht bewegen) auftreten.

Frage: Welche Wellenlängen können im Röhrchen als stehende Wellen auftreten? Antwort: Das sind Viertel-, Dreiviertel-, Fünfviertel-, .... -Wellen.

BordHarris_04_60 Hess_aap2f_52 Hess_aap2f_53

Obwohl das Glottisspektrum (die Glottisschwingung) alle Frequenzen (alle Wellen­längen) anbietet, werden nur die Frequenzen der stehenden Wellen im Ansatzrohr „besonders stark“. Die Frequenzen der stehenden Wellen sind die Resonanzfrequenzen des Ansatzrohres (die Formanten) PM_051

18

Die Sprechtraktlänge definiert somit die Länge der stehenden Wellen (der Resonanzen) und damit ihre Frequenz: Bei einer Sprechtraktlänge von 17.5 cm ergibt sich:• F1: λ = 4*17.5cm -> F1 = 500 Hz Hess_aap2f_53• F2: λ = 4*17.5cm / 3 -> F2 = 1500 Hz• F3: λ = 4*17.5cm / 5 -> F3 = 2500 Hz

Illustration / Animation die ersten vier stehenden Wellen bei • einem beidseitig geschlossenen Rohr Schnelle oder: • einem beidseitig offenen Rohr DruckMan erkennt die immer kleiner werdende Wellenlänge der Resonanzen:Welle_steh_h1 Welle_steh_h2 Welle_steh_h3 Welle_steh_h4

19

Anmerkung: Abstrahlung der Schallwelle am Mund

Erinnerung: Am Mund wird der Schalldruck reflektiert Grund: Druck ausserhalb des Mundes = Umgebungsdruck = const.Reflexion_Druck

Hier wird die Welle totalreflektiert; es findet keine Abstrahlung statt. (!?)

Realität: Der Druck außerhalb des Mundes kann leicht um den Umgebungsdruck schwanken.Damit wird eine Teilabstrahlung (und Teilreflexion) der Welle möglich:

Abstrahlung_Mund (Allgemeines Beispiel für Impedanzsprünge)

20

Quelle und Filter im Zeit- und im Frequenzbereich

1) Betrachtung von Quelle und Filter im FrequenzbereichPM_051• Quelle = kontinuierlich abfallendes Linienspektrum X(f)• Filter = Filterfunktion / Übertragungsfunktion H(f)• (Vom Mund) abgestrahltes Schallsignal Y(f) = X(f) * H(f)

Multiplikation im Frequenzbereich ( „Faltung“ im Zeitbereich)

Anmerkung: (Amplituden-)Spektren werden meist logarithmisch dargestelltGrund: Lautstärke wird vom Gehör näherungsweise logarithmisch verarbeitet:

Lautstärkepegel: L = 10 log10 (A2) [dB] = 20 log10 (A)

Im logarithmischen Amplitudenspektrum ergibt sich das abgestrahlte Schallsignal als Summe von Quelle und Filterfunktion: log(Y(f)) = log(X(f)) + log(H(f))

21

2) Betrachtung von Quelle und Filter im Zeitbereich

• Die Quelle macht „glottale Impulse“o Glottale Impulse sind oftmals in (Breitband-)Sonagrammen gut erkennbar

dimh_01_sonao Glottale Impulse repräsentieren den glottalen Schalldruck-Impuls zum Zeitpunkt

des Schließens der Stimmritze innerhalb des glottalen Schwingungszyklus PM_048

o Dieser „negative Maximalwert“ PM_048 liefert genau die „akustische Anregung“ des Vokaltraktes / des Ansatzrohres

o Eine solche Anregung passiert ca. alle 10 ms (100 Hz) bis unter 4 ms (250 Hz)

22

• Die „Antwort“ des Vokaltraktes auf einen glottalen Impuls (-> „Impulsantwort“) ist eine abklingende Schwingung, anhand der die Formanten abgelesen werden können. PM_050 hess_gsv3f_54

Versuch: Einstellen des Vokaltraktes auf einen Vokal [i, a, o, u] und „Anschlagen“ einer Wange -> Der Vokal ist (= Die Formanten sind) in der „Impulsantwort“ hörbar.

• Das Sprachsignal entsteht aus der zeitlichen Überlagerung von Impulsantworten, die jeweils zum Zeitpunkt eines glottalen Impulses ausgelöst werden („Faltung“) PM_050

Anmerkung: Die Faltung ist ein wesentlich komplizertes Verfahren als ein Multiplikati­on (oder Addition). Aus dieser Sicht ist die Betrachtung von Quelle und Filter im Frequenzbereich attraktiv.

23

Analyse von Quelle und Filter im Zeit- und im Frequenzbereich (Bsp.: Vokal)• Zeitbereich: PM_050

o Quelle: Anregungsimpulse des Sprechtraktes: Amplitudenmaxima im Oszillo­gramm; vertikale Balken im Breitbandsonagramm

o Filter: Impulsantwort des Ansatzrohres: Schwingung zwischen den Amplituden­maxima im Oszillogramm; horizontale Balken im Breitbandsonagramm sona_vo­kale_02

• Frequenzbereich: PM_051o Quelle: Linienspektrum (wird sichtbar im Kurzzeitspektren mit Analysefens­

terlänge um ca. 100 ms; wird sichtbar im Schmalbandsonagramm)o Filter: Übertragungsfunktion ist näherungsweise die Einhüllende des Spektrums

des abgestrahlten SchallsignalsProblem: Sehe die Teiltöne im abgestrahlten Schallsignal.Lösung: Durchführung einer „spektraler Glättung“ LPC, Cepstrum

24

Einfaches Verfahren der spektralen Glättung: Kurzzeitspektrum mit Analysefens­terlänge unterhalb von T=1/F0. Nachteil: sehr schlechte Auflösung im Frequenz­bereich.

Übung: Realisierung von Kurzzeitspektren (Cool-Edit > Analyse > Frequency ) zu den Vokalen [a] und [i] bei unterschiedlichen Analysefensterlängen: vok_aa_01 vok_ii_01

• kurzes Analysefenster: sehe kein Linienspektrum sehe die Einhüllende; aber bei sehr schlechter spektraler Auflösung kann die Formantfrequenzen nicht genau messen

• langes Analysefenster: sehe das Linienspektrum sehe die Einhüllende nicht mehr so gut; kann die Lage eines Formanten (die Formantfrequenz) zwischen zwei Teiltönen nur erahnen kann die Formantfrequenzen nicht genau messen

Es wird klar: Wir benötigen „weitergehende“ Methoden, um die Quelle und den Filter aus dem akustischen Signal separieren zu können.

25

• Methoden der spektralen Glättung Filterfunktion des Vokaltraktes durch LPC-Analyse: vok_aa_LPC vok_ii_LPC

• Inverse Filterung Parameter der Quelle: Parameter des Stimmklanges

26