Einsatzmöglichkeiten der Sprachsignalverarbeitung

27
Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, [email protected]

description

Einsatzmöglichkeiten der Sprachsignalverarbeitung. Milan SIGMUND , TU Br ü nn , sigmund @ feec.vutbr.cz. Sprach sign a l. Was ist Sprache ?. Akusti s c he For m. Schriftliche F orm. e i n s o der 1. Sign al form. Mat h emati s c he F orm „a“. Sprach sign a l. - PowerPoint PPT Presentation

Transcript of Einsatzmöglichkeiten der Sprachsignalverarbeitung

Page 1: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

Einsatzmöglichkeiten der Sprachsignalverarbeitung

Milan SIGMUND, TU Brünn, [email protected]

Page 2: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

SprachSprachsignsignaall

Was ist Sprache ?

Mathematische Form „a“

)02,0200sin(1,00,1)(40

1

)140010025,0()80010075,0( kkteetsk

kk

Akustische Form

Schriftliche Form

Signalform

eins oder 1

Page 3: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

SprachSprachsignsignaall

Sprache aus der technischen Sicht

Sprache = Sprachsignal (akustisches Signal)

das kann man: ► messen

► übertragen

► aufnehmen (archivieren)

► bearbeiten und verarbeiten (auch on-line)

Page 4: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

AkustiAkustissccheshes SSignignaall

pabs(t)

Pm

pak(t)

pabs = Pm + pak

Atmosphärendruck Pm : langsame Schwankungen 960-1050 hPa

Schalldruck pak: schnelle Schwankungen 20 μPa-0,1 Pa

Absolutdruck:

t [Tage]

t [ms]

Abfolge von Luftdruckschwankungen

Maßeinheit Pascal 1 Pa = 1 N/m2

Page 5: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

AkustiAkustissccheshes SSignignaall

man unterscheidet:

► periodische Klänge (Musik, Vogelgesang, Wind,....)

► nichtperiodische Klänge (Husten, Gewitterdonner,....)

► Sprache

Page 6: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

AkustiAkustissccheshes SSignignaallReiner Ton

T

A

s(t)

ts(t) = A sin (2π f t + φ)

Parameter wahrgenommen als

Amplitude A Periode T resp. Frequenz fPhase φ

Tf 1

LautstärkeTonhöhe

Page 7: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

AkustiAkustissccheshes SSignignaall

Audio = „ich höre“ (lateinisch)

Infraschall Schall Ultraschall

unhörbar hörbar unhörbar

16 Hz 20 000 Hz

Page 8: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

AkustiAkustissccheshes SSignignaall

Hörfläche des menschlichen Gehörs

Schallquelle:

140 dB Flugzeug beim Start 120 dB Rockgruppe

80 dB belebte Strasse 70 dB normale Unterhaltung 50 dB leise Unterhaltung 30 dB sanftes Flüstern 20 dB Papiergeraschel

Page 9: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

AkustiAkustissccheshes SSignignaallFrequenzbereiche

Musikinstrument Frequenz [Hz] Orgel 15 – 16 000

Klavier 25 – 4 000

Kontrabass 40 – 250

Trompete 150 – 1 100

Fagott 50 – 500

Piccoloflöte 500 – 5 000

Sprache Frequenz [Hz] Bühnensprache 80 – 16 000

Alltagssprache 180 – 6 000

Telefonsprache 300 – 3 400

Page 10: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

Informationsgehalt der SpracheInformationsgehalt der Sprache

75 % Inhalt der Sprache Was?25 % Sprecher: 15 % - Identität Wer? 10 % - Zustand Wie?

Gesamtinformation in störungsfreiem Sprachsignal:

Nachricht

Identität

Zustand

Page 11: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

SpracheingabeSpracheingabe

Spracherkennung WAS wird gesprochen?

Verbundene Wörter

Fließende Sprache

Sprechererkennung WER spricht?

Verifikation

Spezielle Erkennung WIE oder WO wird es gesprochen?

Psychische Untersuchung

Räumliche Lokalisierung

Alkoholdetektor, Lügendetektor, Ermüdungsdetektor,

- -

Einzelne Wörter

Spracheingabe Identifikation

Diagnostik von Sprachorganen

Page 12: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

SSppracherkennung - Vokaleracherkennung - Vokale

Vokal „a“ im Detail

s(t) S(f)

t f

·       • periodische Signalform·       • hohe Signalenergie·       • charakterisiert durch Formanten 

Page 13: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

Spracherkennung - VokaleSpracherkennung - VokaleFormanten - lokale Maxima im Spektrum F1 - F7

- Resonanzfrequenzen von den größten Räumen des Vokaltraktes- F1 -

Rachenraum

F2 - Mundhöhle

F3 - Nasenhöhle

f

S(f)

F1 F2 F3

Page 14: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

Spracherkennung - VokaleSpracherkennung - VokaleVokal F1 [Hz] F2 [Hz]

a 800 - 1000 1200 - 1400

e 500 – 700 1600 - 2100

i 300 - 500 2100 - 2700

o 500 - 700 900 - 1200

u 300 - 500 600 - 1000

0,5 1,0 2,0 3,0 4,0

0,3

0,6

0,9

F [kHz]2

F [kHz]1

o

u

a

e

i

Page 15: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

SpracherkennungSpracherkennungVariabilität des Sprachsignals

Wort „Signal“ im Zeitbereich (dreimal von einem Sprecher)

Page 16: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

SpracherkennungSpracherkennungSegmentierung des Sprachsignals

nwnsns seg

Verschiebung

Überlappung Segment ~ 20-30ms

Hamming-Fensterw(n) = 0,54 - 0,46 cos(2n/N) für n = 1,

2, ..., Nw(n) = 0 sonst

N .... Länge eines Segments in Abtastwerten

Page 17: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

SpracherkennungSpracherkennungSprachmerkmale:

1+ssignsign2

1 1

1

nnsZN

n

Signalenergie

s(n) - Sprachsignal N - Segmentlänge (in Abtastwerten)

Z= 19

Nulldurchgangsrate

E s nn

N

2

1

Page 18: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

SpracherkennungSpracherkennung

Zeitverlauf

Energie

Log Energie

Nulldurchgangsrate

20 40 60 80 100 120 140

20 40 60 80 100 120 140

20 40 60 80 100 120 140

2000 4000 6000 8000 10000 12000 14000 16000n

Segment

1

-1

0

0

s(n)

1

0

E [-]

0

log E [dB]

0

Z [-]

0,5

0

Page 19: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

SpechererkennungSpechererkennung

Merkmale des Sprachsignals

Sprache Anatomische Parameter

Optimale Merkmale

führen durch Sprachsignalverarbeitung direkt zu anatomischen Parametern

Page 20: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

SpechererkennungSpechererkennungGrundfrequenz der Stimme F0

Merkmal des Sprachsignals: Grundfrequenz der Stimme F0 in Hz

Bezogener anatomischer Parameter: Länge der Stimmlippen L in mm

Page 21: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

SpechererkennungSpechererkennungWerte der Grundfrequenz F0

Normale Sprache 50 – 400 Hz

Männer 70 – 160 Hz typisch F0=110 Hz

Frauen 150 – 280 Hz typisch F0=210 Hz

Kinder 300 – 400 HzExtrem – singende weibliche Stimme bis ca. 980 Hz

Page 22: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

Anwendungen Anwendungen Spracherkennung:► Akustische Steuerung von Geräten

• Alarmstopschalter (ein Wort)• Eingabe der Rufnummer• Lichtsteuerung, …

► Fließende Sprache • Begutachtungen (medizinische, forensische) • Schlüsselworterkennung in Audiodateien • Diskussion bei wichtigen Tagungen, ….

Ziel: Diktiermaschine mit Spracheingang

Page 23: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

AnwendungenAnwendungen

► Informationen

• Fahrplan, Flugplan, Telefonnummer, …

► Übersetzungen

• on-line mit Handy, ...

Datenbank

Steuerung des

Dialogs

Sprach-erkennung

řeči

Sprach- synthese

Dialogsysteme:

Page 24: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

AnwendungenAnwendungen

Spechererkennung:► Verifikation

• Wegfahrsperre für Kraftfahrzeuge • telefonischer Bankauftragsdienst

► Identifikation • Analyse von Täterstimmen für forensischen Gebrauch

Ziel: Zuverlässigkeit wie Fingerabdruck

Page 25: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

AnwendungenAnwendungen

Erkennung des Sprecherzustandes:► Medizinische Untersuchungen

• Krankheiten an Sprechorganen (Krebs,...)• Alzheimer, Parkinson,…

► Psychoanalyse (teilweise)• Stress, Depression, Ermüdung• Freude, ...

Ziel: automatische Diagnose

Page 26: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

AnwendungenAnwendungen

Spezielle Analyse (Erkennung):

► Test nach Alkohol vor Autofahren - Dialog über Handy

► Schätzung des IQ bei kleinen Kindern- Analyse des Baby-Weinens

► Lügendetektor- software im Internet ?

Page 27: Einsatzmöglichkeiten  der Sprachsignalverarbeitung

LeistungsvergleichLeistungsvergleich

Technisches System (PC):► erkennt Sprecher und weiblich/männlich schneller (40ms)

► erkennt mehr Personen (Mensch ca. 150 Stimmen) ► nutzt Informationen, die Mensch nicht hören kann

Gehirn:► kann eine Stimme aus der Stimmenmischung filtern► bessere Übersetzung in fremde Sprache► bessere Rekonstruktion der fehlenden Frequenzen

(Telefon, Laptop)► bessere Rekonstruktion der falschen Wörter

(gebrochene Sprache)