Sprecherdiskrimination anhand der Intonation

Sprecherdiskrimination anhand der Intonation

Ludwig-Maximilians-Universität München (LMU)Seminar: Forensische Phonetik

Professor: Prof. Dr. Jonathan HarringtonReferentin: Clara Tillmanns

Datum: 15.11.2007

Clara Tillmanns: Sprecherdiskrimination anhand der Intonation 2

• Inwiefern kann eine Analyse der Intonation für die forensische Phonetik nützlich sein?


Pensum

1. Grundlagen und Einführung

2. Experiment

3. Diskussion der Ergebnisse


Pensum1. Grundlagen und Einführung

1.1 Intonation und Sprechererkennung1.2 Die phonologische Struktur der Intonation 1.3 Phonologische und phonetische Unterschiede

zwischen Sprechern2. Experiment

2.1 Argumentation und Hypothese2.2 Prozedere2.2.1 Sprachdaten2.2.2 Versuchspersonen2.2.3 Ablauf der Aufnahmen2.2.4 Analysen2.2.5 Ergebnisse

3. Diskussion der Ergebnisse


Grundlagen und Einführung

1. Intonation und Sprechererkennung2. Die phonologische Struktur der

Intonation 3. Phonologische und phonetische

Unterschiede zwischen Sprechern


Grundlagen und Einführung1.1 Intonation und Sprechererkennung

Intonation:Suprasegmentelles System, das dazu dient:- Strukturen abzugrenzen- Informationen hervorzuheben- Semantische Unterschiede zu unterstreichen- Turn-Taking zu regulierenErzielt durch:- hauptsächlich die Variation der Glottalschwingung,

wahrgenommen als Tonhöhe- Längung des betonten Wortes (Silbe, Vokals)- Auffällige Tonhöhenbewegungen- Höhere Lautheit (Amplitude; stark beeinflusst von F0)


Grundlagen und Einführung1.1 Intonation und Sprechererkennung

Intonation innerhalb der Sprechererkennung:- Statistiken auf der Grundlage von F0- Und globale Vergleiche von F0-Konturen in

bestimmten Äußerungen zeigten sich als hilfreichSolche Langzeitstatistiken verschleiern den Einfluss von

Ereignissen, die mit lexikalischen und segmentellen Ereignissen verknüpft sind.

-> hier Nolan (2002) die Untersuchung der Nützlichkeit für die Sprechererkennung von Merkmalen, die von einer linguistischen Analyse der Intonation definiert sind.


Grundlagen und Einführung1.2 Die phonologische Struktur der Intonation

Die linguistische Struktur der Intonation ist nicht eindeutig.

Zur Erfassung gibt es drei konkurrierende Modelle:

• Die „britische“ Tradition (z.B. Crystal 1969)• Das IPO-Modell (z.B. `t Hart, Collier & Cohen 1990)• Der autosegmentell-metrische Ansatz (Ladd 1996)



Die „britische“ Tradition konzentriert sich auf dynamische Ereignisse wie falls und rises.



Der autosegmentell-metrische Ansatz

Metrisch prominenten (betonten) Silben werden Töne (H, L) zugeordnet (pitch accents):- einzelne Töne: H*, L* (single tones)- Kombinationstöne: z.B. H*L Benannt wird der Ausgangspunkt und das Ziel, nicht die Bewegung selbst.

Intonationsgrenzen werden Grenztöne zugeordnet:- H%, L%


Grundlagen und Einführung1.3 Phonologische und phonetische Unterschiede

zwischen SprechernIntonatorische VariabilitätBeispiel: Ja-oder-Nein-FrageH* L H%

L* H%

H* H%



zwischen SprechernPhonetische Variabilität[SlIm] / [Slym]

Es besteht ein

Auditiver Unterschied

Akustischer Unterschied



zwischen SprechernÜbertragbar auf die Intonation:

Auditiver Unterschied:Welcher Silbe wird ein Akzent zugeordnet?

Akustischer Unterschied:An welcher Position (auf der Zeitachse) wird dieser

Akzent tatsächlich realisiert?


2. Experiment

1. Argumentation und Hypothese

2. Prozedere


2. Experiment2.1 Argumentation und Hypothese

Argumentation und Hypothese

Nolan und Ferres (1999) zeigten, dass Sprecher vierer britischer Dialekte das Maximum der Tonhöhenbewegung zur Akzentuierung je nach Dialekt an unterschiedlichen Stellen realisierten.

Nämlich während der betonten Silbe,der folgenden Silbe oderder darauf folgenden Silbe.


2. Experiment2.1 Argumentation und Hypothese

-> zwei Hypothesen:• Die Zuordnung der intonatorischen Tonhöhe zu

einer Silbe ist zeitlich unterschiedlich zwischen Sprechern.

• Die Zuordnung bleibt trotz Änderungen des Tonhöhenumfangs konstant.

Betrachtet wird also nicht die Grundfrequenz in Hz sondern die (zeitliche) Position der Maxi- und Minima in Bezug auf die ihnen zugeordneten linguistischen Einheiten.

(Deshalb: Zuordnungs-Merkmal (alignment feature) nicht Tonhöhen-Merkmal (pitch feature))


2. Experiment2.2 Prozedere

1. Sprachdaten

2. Versuchspersonen

3. Ablauf der Aufnahmen

4. Analysen

5. Ergebnisse



1. Sprachdaten:• Zum Testen von subphonologischen Ereignissen, muss die

phonologische Struktur identisch sein.• Jede Äußerung muss abgrenzbare Tonhöhenumfänge darstellen.

A: We were re - lying on a milliner. H L* H* L - L%B: A milliner? H* L - H%

Mit drei Tonhöhenumfängen: neutral, gestaucht, gedehnt.



2. Versuchspersonen

8 Teilnehmerinnen mit intonatorischer Vorbildung

Alle Sprecherinnen des Southern British Dialekts

3. Aufnahmen

Orientierungsaufnahmen sollten mit „der eigenen Stimme“ imitiert

werden



4. Analyse

Breitbandsonagramm und Oszillogramm:

Zeitliche Lage und F0 in Hz von einigen intonatorischen Ereignissen

Meist Maxima (H*) und Minima (L*) sowie der Zeitpunkt, zu der die Mitte des Frequenzbereichs zwischen H* und L* erreicht wurde (mid-fall).



Fig.1: F0-Verlauf der Äußerung „We were relying on a milliner.“ mit gedehntem Tonhöhenumfang (aus Nolan 2002)

L* relying H* milliner L milliner mid Mittfrequenz zwischen H* und L

Nicht notwendigerweise äquidistant im Zeitbereich



Fig.2: F0-Verlauf der Äußerung „A milliner?“ mit neutralem Tonhöhenumfang (aus Nolan 2002).

H* milliner L2 milliner



Zuordnung der intonatorischen Ereignisse zu Segmenten:

A: L* als % von [rIlaIIN On] (von Lösung des /l/ bis Beginn des velaren Nasals)

A: H* und mid-fall als % von [mIlIn@]B: H*, mid-fall und L2 (Beginn final rise) je als ein

Prozentsatz von [mIlIn@]

A: H* to mid-fall (absolute duration in ms)



Evaluation der Aussagekraft der Merkmale über die Diskrimination: F-ratio

Wie stark variieren die Merkmale zwischen und innerhalb der Sprecherinnen?

Varianz der Sprecherdurchschnitte (1) zwischenF = Durchschnitt der Sprechervarianzen (2) innerhalb

Wenn (1) groß: Große Unterschiede zwischen den Sprechern -> F-ratio > 1

Wenn (1) klein: kaum ein Unterschied zwischen den Sprechern -> F-ratio < 1



5. ErgebnisseF-ratio-Werte der Merkmale dieser Studie werden mit den F-ratio-Werten

der ersten drei Formanten von /l/ und /r/ verglichen:

Fig.3: Vergleich der F-ratio-Werte der Intonation-Zuordnung dieser Studie mit denen von Nolan 1983 von den Formant-Frequenzen von /l/ und /r/.



Ergebnis 1/7:Kein Merkmal hat einen so großen Effekt auf die Sprecheridentifikation wie

F3 von /r/ (denn es gibt mehrere Allophone im britischen Englisch).




Ergebnis 2/7:Die schlechtesten Werte der Zuordnungsmerkmale sind schlechter als der

schlechteste Wert der Formanten.




Ergebnis 3/7:1, 2, 5 sind < 1 und zeigen, dass die Varianz der einzelnen Sprecherinnen (intra)

sogar größer ist, als die Varianz der Durchschnitte der Sprecherinnen (inter).




Ergebnis 4/7:Bester Wert: mid-fall in A (Unterschiedliche Stellung in 6, fall-rise, statt fall L%)




Ergebnis 5/7:2t bester Wert: Beginn des final-rise in B.




Ergebnis 6/7:4: der einzige absolute Wert liegt auch nur knapp über 1.




Ergebnis 7/7: Vergleich von Tonhöhen-Merkmalen mit Zuordnungs-MerkmalenL* in A als absoluter Frequenzwert hat einen F-ratio von 4,16, im Vergleich zum

besten Zuordnungs-Merkmal mit 3,76.



3. DiskussionWarum sind die guten Merkmale so gut?Warum sind die schlechten Merkmale so schlecht?

Was heißt das für die Wahrnehmung von Intonation zur Sprechererkennung?

Was heißt das für den Nutzen der Analyse der Intonation in der forensischen Phonetik?



Schon frühere Studien haben gezeigt, dass L* ein relativ stabiler Wert eines Sprechers für Äußerungen die mit fallender Tonhöhe enden, ist (Liberman & Pierrehumbert 1984).

Fig.4: Diagramm der Positionen: mif-fall in A auf der x-, mid-fall in B auf der y-Achse.



Hohe Variabilität innerhalb der Sprecher, geringe Variabilität zwischen den Sprechern, eine Kombination aus beidem?

Fig. 5: Vergleich der Varianzen zwischen und innerhalb der Sprecher für zwei Zuordnungs-Merkmale: H* und mid-fall aus A.



Heißt das nun, dass doch dynamische intonatorische Ereignisse bedeutungsvoller sind als die Extrempunkte (innerhalb der Sprechererkennung)?

Achten Sprecher während der Produktion stärker darauf, wann ein mittlerer Wert erreicht sein soll, als auf die Zielpunkte?

Nicht so schnell, die berühmten Messschwierigkeiten...



Messfehlerquellen:- Der Verlauf der Grundfrequenz ist nie eine glatte Kurve sondern unruhig:

Dellen oder Beulen können von Messgeräten als Maxima interpretiert werden obwohl für die Wahrnehmung der „gröbere“ Verlauf der wichtigere ist .

- Maxima und Minima zeigen sich selten in ^ - oder v - Form.D.h.: Es ist schwer (wenn nicht nahe unmöglich) den richtigen Punkt auf einem Plateau zu finden.

- ...



Um die Frage wenigstens etwas zu klären, ob die schlechten Merkmale wirklich schlechter sind als die Guten, wurde der Einfluss der enormen Tonhöhenunterschiede dieser Äußerungen auf die Varianz der H*- und mid-fall- Werte berechnet.

Siehe da:

mid-fall ist mit einer Korrelation von 0.26 weniger beeinflusst als

H* mit einer Korrelation von 0.40.

Schön, aber das nur am Rande.


3. DiskussionZurück zur Frage:Ziel oder Bewegung?Und auch:Was heißt das für die Wahrnehmung von Intonation zur Sprechererkennung?

Da über die zeitlichen Aspekte der Maxima und Minima in dieser Studie fast nichts ausgesagt werden kann,nun noch ein kurzer Blick auf die Bewegung von einem Ziel zum nächsten.

Fig. 6: Schematische Repräsentation von zwei möglichen „koartikulatorischen“ Transitionen von unterschiedlichen Personen zwischen phonologischen benannten H und L Zielen.


3. DiskussionZurück zur Frage:Ziel oder Bewegung?Und auch:Was heißt das für die Wahrnehmung von Intonation zur Sprechererkennung?

Nolan (1983) fand, dass unterschiedliche Bewegungsbahnen der Artikulatoren zwischen den gleichen Zielen zur Sprechererkennung beitragen.

Hiervon die These für weitere Forschung:Sprecher wählen „ihren eigenen Weg“ innerhalb der Freiheit

zwischen zwei Zielen; Hörer nutzen diesen zur Sprechererkennung.



3. DiskussionWas heißt das für den Nutzen der Analyse der Intonation in der forensischen

Phonetik?

Von dieser Studie ist kein direkter Nutzen ableitbar da:1. Vergleiche auf der Basis des gleichen Textes2. In gleicher intonatorischer Realisation3. Mit vorsichtig ausgewähltem Phoneminventar (Sonoranten und Vokale) um

Störungen des F0-Verlaufs zu vermeiden.4. Aufnahmen entstanden in einem schallarmen Raum.

Aber

Die Zuordnungs-Merkmale zeigten auch bei extremen Tonhöhenunterschieden die Möglichkeit Sprecher zu diskriminieren.

An deren Robustheit muss weiter gearbeitet werden.



QuellenCrystal. D. (1969) Prosodic Systems and Intonation in English, London:

Cambridge University PressLadd, D. R. (1996) Intonational Phonology, Cambridge: Cambridge

University PressLiberman, M. und Pierrehumbert, J. (1984)Intonational invariance under

changes in pitch range and length, in M. Aronoff and R. Oerhle (Hrg.), Language Sound Structure, Cambridge, Mass.: MIT Press, S. 157-233

Nolan, F. (2002) Intonation in speaker identification: an experiment on pitch alignment features. INTERNATIONAL JOURNAL SPEECH LANGUAGE AND THE LAW, 9, 1-21

`t Hart, J., Collier, R. und Cohen, A. (1990) A Perceptual Study of Intonation: an Experimental-Phonetic Approach to Speech Melody, Cambridge: Cambridge University Press

Sprecherdiskrimination anhand der Intonation

Documents

Transcript of Sprecherdiskrimination anhand der Intonation