Von Spektren und Formanten Grundlagen akustischer Analyse und Manipulation Martin Meyer/Franziskus...

Post on 06-Apr-2015

108 views 2 download

Transcript of Von Spektren und Formanten Grundlagen akustischer Analyse und Manipulation Martin Meyer/Franziskus...

Von Spektren und FormantenGrundlagen akustischer Analyse und

Manipulation

Martin Meyer/Franziskus Liem 28.03.2011

1

2

Übersicht

•I Theorie‣ Das Oszillogramm‣ Fourier Transformation, Spektrum und Spektrogramme‣ Formanten

•II Praxis

3

Das Oszillogramm

•Oszillogramme einfacher Sinussignale

4

Das Oszillogramm

•Oszillogramme einfacher Sinussignale

5

Das Oszillogramm

•2 Dimensionen‣ x: Zeit‣ y: Auslenkung (durch Schall

entstandene Luftdruckschwankungen)

•Was kann man daraus ablesen?‣ Amplitude

- Ausschlag/Auslenkung des Signals- → Lautstärke

‣ Frequenz- Anzahl der Nulldurchgänge innerhalb einer Sekunde- bzw. 1/Periodendauer- Hertz [Hz]- → Tonhöhe

6

Das Oszillogramm

7

Das Oszillogramm

•Wie unterschiedlich sind die beiden Töne?

8

Übersicht

•I Theorie‣ Das Oszillogramm‣ Fourier Transformation, Spektrum und Spektrogramme‣ Formanten

•II Praxis

9

Fourier Transformation

•Überlagerung zweier Schwingungen → Addition zu einer neuen

www.germanistik.unibe.ch

10

Fourier Transformation

•Jedes (auch noch so komplexe) periodische Signal (zB Sprache) stellt eine Addition einfacher Sinusschwingungen dar

•Die FT zerlegt ein komplexes Signal in einzelne Sinusschwingungen mit unterschiedlicher Frequenz

11

Fourier Transformation

100 Hz

200Hz

En

erg

ie (

Am

plit

ud

e)

Oszillogramm SpektrumFT

12

Spektrum

•2 Dimensionen‣ Frequenz [Hz]

‣ Energie - Schalldruckpegel (Sound Pressure Level - SPL) [dB/Hz]

•Dezibel - dB‣ Logarithmische Hilfseinheit

‣ Faustregel: +10 dB entspricht ungefähr der doppelten Lautstärke

Schallereignis (Pa)

Referenzdruck (Pa)

13

Spektrum

•Welches Signal ist lauter, höher?

Spektrum

14

Spektrum

440 Hz + 1000Hz =

16

Spektrum

•Wie sieht das Spektrum aus?

440 1000

17Meyer et al. (2006)

Spektrum

•Was kann aus einem Spektrum ablesen?‣ Verteilung der Frequenzen und ihre Intensität → Klangfarbe

Klangfarbe

Im Zeitbereich

Im Frequenzbereich

18

Spektrum

•Abfallend oder Ansteigend?

19

Spektrum

•Keine Aussage über Veränderungen, Trends über die Zeit

•→ gut geeignet, um durchschnittliche Charakteristik eines Signals bzw. eingeschwungene Signale darzustellen

•Sprache, Musik… sind zeitlich sehr komplexe Signale

•→ Darstellung im Spektrogramm

20

Spektrogramm (=Sonagramm, Sonogramm)

•3 Dimensionen‣ x: Zeit

‣ y: Frequenz

‣ z (Schwärzung): Energie (Intensität)

21

Spektrogramm

•Was kann man daraus ablesen?‣ Verteilung der Frequenzen und ihre Intensität

‣ Verlauf über die Zeit

22

Spektrogramm

23

Spektrogramm

•Abfallend oder Ansteigend?

26

Zusammenfassung

Achsen Gut Ablesbar

OszillogrammZeit

AuslenkungLautstärke, Pausen/Segmente

SpektrumFrequenzIntensität

Gesamtcharakteristik der Frequenz/Intensität, Klangfarbe

SpektrogrammZeit

FrequenzIntensität

Frequenz- & Intensitätsverlauf über die Zeit

27

Übersicht

•I Theorie‣ Das Oszillogramm‣ Fourier Transformation, Spektrum und Spektrogramme‣ Formanten

•II Praxis

Das Quelle-Filter-Modell der Vokalproduktion

• Quelle-Filter-Modell– ein Filter lässt bestimmte Frequenzen passieren &

dämpft andere

28

• Resonanzfrequenz– je grösser das Objekt desto tiefer fres

Rauschen Resonator gefiltertes Rauschen

Quelle Filter Output

29

• Vokaltrakt als Resonator– Vokalproduktion

Stimmlippen Vokaltrakt Sprache

Quelle Filter Output

30

31

Formanten Entstehung einer Lautäusserung - Quelle/Filter-Theorie

Larynx (Kehlkopf):Phonation = Erzeugung eines akustischen Signals (Schwingung der Stimmbänder mit Grundfrequenz f0) - Quellsignal→ Tonhöhe (f0), Stimmqualität (zB gepresst)

Lunge: Luftdruck→ Lautstärke

logopaedie.rwth-aachen.de

Ansatzrohr (Mund-, Nasen-, Rachenraum (Pharynx)):Artikulation = Modulation / Filterung des Quellsignals→ Ausdifferenzierung der Phoneme →Formanten

supralaryngal

laryngal

sublaryngal

Fitch (2000)

• Vokaltrakt (Ansatzrohr) als Resonator

• mehrere Resonanzräume -> mehrere Resonanzfrequenzen

www.ims.uni-stuttgart.de 32

• je nach Stellung der Artikulatoren unterscheiden sich die Formantfrequenzen

33

34

Formanten

•Supralaryngale Artikulatoren‣ Zunge‣ Lippen‣ Gaumensegel

35

Formanten

•Quellsignal: f0 & Harmonische (ganzzahlige Vielfache von f0)

•Je nach Geometrie und Stellung der Artikulatoren können bestimmte Frequenzen in Resonanz schwingen.

•Es ergeben sich Amplitudenmaxima

•→ Formanten: Konzentration akustischer Energie in einem Frequenzband

36

Formanten

• Konzentration akustischer Energie in einem Frequenzband

• Im Spektrogramm sichtbar

Filter

FormantenIm Spektrogramm

37

38

FormantenIm Spektrogramm

Fitch (1997)

•Frequenzbereiche erhöhter Intensität heissen Formanten

•Filtering by formants (bandpass filter, Vokaltrakt

Resonanzen)

• Formanten – schnelle Modifikation durch Artikulatoren (Zunge, Lippe, Gaumen, Zäpfchen)

• Formant – keinen Einfluss auf Tonhöhe, welche in der Larynx modifiziert werden.

• („Beet, Bett, beten“)

39

Vokalraum

40

Englisch Deutsch

41

42

Übersicht

•I Theorie

•II Praxis‣ Praat‣ Darstellung akustischer Signale‣ Signalfilter - Hochpass, Tiefpass, Bandpass - Flüstern &

Delexikalisieren‣ Suprasegmentale Manipulationen - Prosodie, akustische

Geschlechtsumwandlung‣ Segmentale Manipulation - VOT‣ Signalvorverarbeitung - Normalisierung

43

Praat

•Soundanalyse, -manipulation…

•Für viele Plattformen (Win, OS X, Linux…)•Gratis, offen•Viele Tutorials im Internet•Gute On- und Offline Hilfe•Stapelverarbeitung via Skripten möglich•tw. etwas gewöhnungsbedürftiges Handling

www.praat.org

44Hauptfenster

ObjectsBefehle Ausgabefenster

•Eigene Soundfiles aufnehmen

‣ Vokale & Konsonanten

‣ Einen kurzen Satz (mit viel Melodie)

‣ New -> record mono sound… -> Record -> SPRECHEN

‣ Stop -> Save to list & close

‣ Write -> Write to wav file

45

46

Darstellung akustischer SignaleOszillogramm

•File laden‣ Read… → Read from file → jutta.wav

•Abspielen‣ Play

•Edit‣ Abspielen mit Tabulator‣ Zoomen

‣ Intensity → Show Intensity

‣ Pitch → Show Pitch (in etwa f0) (Achtung: 2. Achse)

‣ Formant → Show Formants

47

Darstellung akustischer SignaleSpektrum

•Spektrum erstellen

‣ Analyse → Spectrum → To Spectrum...

- Abspielen: Tabulator

- Frequenzbereiche markieren und abspielen

‣ Zeichnen

- Draw...

48

Suprasegmentale ManipulationenAkustische Geschlechtsumwandlung

•f005.wav und m005.wav

•Synthesize → Convert → change gender…

•Formant shift ratio

•Duration factor

Lattner et al. (2005)

49

Suprasegmentale ManipulationenFlattening

•Sound 1a06 → Manipulate → To Manipulation...•Manipulation 1a06 → Extract Pitch Tier•Edit

‣ Remove Points‣ Add Point

•Replace Pitch Tier•Manipulation 1a06 & PitchTier untiteled gleichzeitig

markieren‣ → Replace Pitch Tier

•Flattened soundfile erstellen‣ Manipulation 1a06‣ Play (overlapp-add)‣ Get resynthesis (overlapp-add)

‣ Sound 1a06‣ Write → Write to WAV file…

•+ weiter Melodieverläufe erstellen

50

Suprasegmentale ManipulationenFlattening

Meyer et al. (2004)

51

Signalfilter

•Hochpass

‣ Lässt Frequenzen über einer Grenzfrequenz passieren

•Tiefpass

‣ Lässt Frequenzen unter einer Grenzfrequenz passieren

•Bandpass

‣ Lässt Frequenzen in einem Frequenzband passieren

•Bandstopp

‣ Stoppt Frequenzen in einem Frequenzband

52

SignalfilterFlüstern

•1a06.wav

•Hochpassfilter anlgegen

‣ Synthesize → Filter (stop hann band)… → 0...x Hz

53

SignalfilterDelexikalisieren

•Semantische Informationen zerstört, prosodische erhalten

•Kontrollbedingung in Experimenten (zB: Meyer et al., 2004)

•1a06.wav

•Tiefpassfilter anlgegen

‣ Synthesize → Filter (pass hann band)… → 0...x Hz

54

Segmentale ManipulationenVOT•VOT – Voice Onset Time

‣ Zeit zwischen Beginn des Konsonanten und Einsatz der Stimme (Schwingung der Stimmbänder)

Frye(2007)

55

Segmentale ManipulationenVOT

•Kategoriale Sprachwahrnehmung

eco.psy.ruhr-uni-bochum.de/download/Guski-Lehrbuch/Kap_7_3.html

/da/ /ta/

Phonem-Grenze =

phonetic categoric boundary

56

Segmentale ManipulationenVOT

‣ Pa-pa.wav

/pa/

/ba/

57

SignalvorverarbeitungNormalisierung

•Zwei Unterschiedlich laute Soundfiles (jutta.wav & kind.wav)

•Normalisierung: Angleichung der Energie (→ Lautstärke)

‣ Modify → scale intesity… → zB: 70dB

‣ Kontrolle: Query → get intensity (dB)

58

Darstellung akustischer SignaleOszillogramm

•Edit‣ Get Pitch/Formant Frequency...

‣ Wide-/Narrowband-Spektrogramm - Spectrum → Spectrogramm settings…- Window length: 0.005s → Wideband- Window length: 0.05s → Narrowband

- Vgl. f0 und unterste Harmonische

•Oszillogram zeichnen‣ Im Outputwindow einen eine Ebene aufspannen‣ Draw…‣ Parameter variieren‣ File → Copy to clipboard‣ Erase All