ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist...

Kommunikation mit gesprochener Sprache ...

... ist mehr als Hören und Sprechen:

Mensch-Maschine-Kommunikation mit gesprochener Sprache 1



Hören

Kikala brint tovoluti?




Hören Erkennen

Winter kochtest ganz Blatt?




Hören Erkennen Verstehen

Wann steigt die Party?






Sprechen

Sintu högafi notsi!






SprechenFormulieren

Sonderbar werfen die Wellen hinab!






SprechenFormulierenVerstehen Planen

Am Freitag, im Hirsch!






SprechenFormulierenVerstehen Planen

Am Freitag, im Hirsch!

Hören Erkennen SprechenFormulierenVerstehen Planen


Gesprochene Sprache

Segmentstruktur

Äußerungen Und wie wäre es am Mittwoch?


Gesprochene Sprache

Segmentstruktur


Phrasen wie wäre es am Mittwoch?


Gesprochene Sprache

Segmentstruktur



Wörter wie wäre es


Gesprochene Sprache

Segmentstruktur




Silben wä re


Gesprochene Sprache

Segmentstruktur




Silben wä re

Laute w ä r e


Gesprochene Sprache

Segmentübergreifende Information (Prosodie)


Gesprochene Sprache


• Grundfrequenz


Gesprochene Sprache


• Grundfrequenz

• Rhythmus


Gesprochene Sprache


• Grundfrequenz

• Rhythmus

• Lautstärke


Gesprochene Sprache


• Grundfrequenz

• Rhythmus

• Lautstärke

wird verwendet ...


Gesprochene Sprache


• Grundfrequenz

• Rhythmus

• Lautstärke

wird verwendet ...

• ... für Hervorhebungen (Neues, Wichtiges, Unerwartetes, ...)


Gesprochene Sprache


• Grundfrequenz

• Rhythmus

• Lautstärke

wird verwendet ...


• ... zur Gliederung (Phrasen, Sätze)


Gesprochene Sprache


• Grundfrequenz

• Rhythmus

• Lautstärke

wird verwendet ...



• ... zur Moduskennzeichnung (Aussage, Frage, ...)


Gesprochene Sprache


• Grundfrequenz

• Rhythmus

• Lautstärke

wird verwendet ...




• ... zur Dialogsteuerung (Vergabe der Initiative)


Gesprochene Sprache


• Grundfrequenz

• Rhythmus

• Lautstärke

wird verwendet ...




• ... zur Dialogsteuerung (Vergabe der Initiative)

• ... zum Ausdruck von Emotionen (Freude, Angst, Überraschung,Verlegenheit, ...)


Sprachsynthese

Zwei Herangehensweisen:


Sprachsynthese


Vollsynthese• Erzeugen des Sprach-

signals durch Ton- undRauschgeneratoren

• akzeptable Verständlich-keit

• geringe Natürlichkeit


Sprachsynthese


Vollsynthese• Erzeugen des Sprach-

signals durch Ton- undRauschgeneratoren

• akzeptable Verständlich-keit

• geringe Natürlichkeit

reproduktive Synthese• Aufnehmen und Wieder-

geben menschlicherSprachsignale

• hohe Verständlichkeit

• gute bis hohe Natürlich-keit


Sprachsynthese

reproduktive SyntheseWas sind geeignete Basiseinheiten?

• ganze Phrasen: nur für Spezialanwendungen

• Laute: schlechte Qualität

• Kompromiss: flexible Ermittlung der Basiselemente ausKorpusdaten


Sprachsynthese

reproduktive SyntheseWas sind geeignete Basiseinheiten?

• ganze Phrasen: nur für Spezialanwendungen

• Laute: schlechte Qualität

• Kompromiss: flexible Ermittlung der Basiselemente ausKorpusdaten

Wie werden die Basiselemente verkettet?

• harter Schnitt erzeugt Knackgeräusche

• ”weiche” Übergänge erforderlich

• prosodische Variation durch spezielle Transformationsverfahren


Spracherkennung

• nur Berücksichtigung von Lautcharakteristika

• ”Training” von Modellen auf großen Sprachdatensammlungen

• Vernachlässigung der Prosodie

• nur Erkennung, kein Sprachverstehen!


Spracherkennung

Spracherkenner

und wiewäre es

am Montag


Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-

extraktion


Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-

extraktionWorterkenner


Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-


Laut-modelle


Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-


Laut-modelle

• Modelle für jeden Laut im Kontextseiner Nachbarlautem-a+m, m-a+n, d-a+n, ...

• Berechnung der Wahrscheinlichkeit,dass das Sprachsignal durch dasModell erzeugt wurde

• Zustände, Zustandsübergänge

• Transitionswahrscheinlichkeiten

• Emissionswahrscheinlichkeiten


Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-


Laut-modelle

trainiert auf Signaldaten


Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-


Laut-modelle


Aussprache-

Wörterbuch


Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-


Laut-modelle


Aussprache-

Wörterbuch• eine oder mehrere Lautfolgen fürjede WortformMittwo h m i t v o x spwäre v eh r 2 sp

• Verkettung von Lautmodellen zuWortmodellenMittwo h:sp-m+i m-i+t i-t+v t-v+o ...


Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-


Laut-modelle


Aussprache-

Wörterbuch

manuell erstellt


Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-


Laut-modelle


Aussprache-

Wörterbuch

manuell erstellt

Sprach-

modell


Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-


Laut-modelle


Aussprache-

Wörterbuch

manuell erstellt

Sprach-

modell

• Berechnung der Wahrscheinlichkeitfür komplette Äußerungen

• Wahrscheinlichkeiten für Wortpaare,-tripel oder -quadrupel

p(wir|dann wollen)p(Mittwoch|dann wollen)

• wenig geeignet für Dialogsysteme


Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-


Laut-modelle


Aussprache-

Wörterbuch

manuell erstellt

Sprach-

modell

trainiert auf Texten


Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-


Laut-modelle


Aussprache-

Wörterbuch

manuell erstellt


Sprach-

modell


Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-


Laut-modelle


Aussprache-

Wörterbuch

manuell erstellt


Sprach-

modell

Dialog-

modell


Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-


Laut-modelle


Aussprache-

Wörterbuch

manuell erstellt


Sprach-

modell

Dialog-

modell

manuell erstellt


Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-


Laut-modelle


Aussprache-

Wörterbuch

manuell erstellt


Sprach-

modell

Dialog-

modell

manuell erstellt

Dialog-

modell


Dialogmodellierung

• dynamische Einschränkung des Erkennerwortschatzes inAbhängigkeit vom Dialogzustand


Dialogmodellierung


• Wozu braucht man das?


Dialogmodellierung


• Wozu braucht man das?• Erkennungssicherheit erhöhen→ Was wurde gesagt?


Dialogmodellierung



• ähnliche Aussprache: Mai oder drei?• verschiedene Sprecher• schlechte Übertragungsqualität


Dialogmodellierung




• semantische Interpretation erleichtern→ Was wird von der Maschine erwartet?


Dialogmodellierung





• Zahl → Geldbetrag, Uhrzeit, Datum, Kontonummer, ...• Mehrdeutigkeit: Wann werden S/sie kommen?• Referenzauflösung: Was wird durch sie bezeichnet?


Dialogmodellierung





• Zahl → Geldbetrag, Uhrzeit, Datum, Kontonummer, ...• Mehrdeutigkeit: Wann werden S/sie kommen?• Referenzauflösung: Was wird durch sie bezeichnet?

• eine Maschine hat keinen gesunden Menschenverstand!


Dialogmodellierung

• Dialogzustände: Aufforderung zur Eingabe (Prompt)

• Übergänge zwischen Dialogzuständen: Erkennung vonNutzeräußerungen


Dialogmodellierung



Bittegeben SieIhren Ab-fahrtsort

ein!


Dialogmodellierung




ein!

Bittegeben Sie

IhrenZielort

ein!

Berlin

Dresden

Düsseldorf

Hamburg

Köln

München

...

Stuttgart


Dialogmodellierung




ein!

Bittegeben Sie

IhrenZielort

ein!

Berlin

Dresden

Düsseldorf

Hamburg

Köln

München

...

Stuttgart

Bittegeben Sie

die Ab-fahrtszeit

ein!

Berlin

Dresden

Düsseldorf

Hamburg

Köln

München

...

Stuttgart


Dialogmodellierung

• Mehrfachverwendung von Teilnetzen


ein!


Dialogmodellierung



ein!

Bittegeben Sie

IhrenZielort

ein!

Ortsangabe


Dialogmodellierung



ein!

Bittegeben Sie

IhrenZielort

ein!

OrtsangabeBitte

geben Siedie Ab-

fahrtszeitein!

Ortsangabe


Dialogmodellierung• sprecherunabhängige Spracherkennung ist unsicher• insbesondere bei Telefoneingabe• Erhöhen der Zuverlässigkeit durch Rückfragen


ein!




ein!

Siewollen

inA

abfahren?

Ortsangabe




ein!

Siewollen

inA

abfahren?

Ortsangabe

nein




ein!

Siewollen

inA

abfahren?

Ortsangabe

nein

Bittegeben Sie

IhrenZielort

ein!

ja




ein!

Siewollen

inA

abfahren?

Ortsangabe

nein

Bittegeben Sie

IhrenZielort

ein!

ja

Siewollennach

Zfahren?

Ortsangabe




ein!

Siewollen

inA

abfahren?

Ortsangabe

nein

Bittegeben Sie

IhrenZielort

ein!

ja

Siewollennach

Zfahren?

Ortsangabe

nein




ein!

Siewollen

inA

abfahren?

Ortsangabe

nein

Bittegeben Sie

IhrenZielort

ein!

ja

Siewollennach

Zfahren?

Ortsangabe

nein

Bittegeben Sie

die Ab-fahrtszeit

ein!

ja


Dialogmodellierung

• theoretische Grundlage: deterministischer endlicher Automat


Dialogmodellierung

• theoretische Grundlage: deterministischer endlicher Automat• einfachstes Automatenmodell der Informatik• effiziente Implementierung• gute Vorhersagefähigkeit → starke Einschränkung des

aktiven Wortschatzes


Dialogmodellierung



• für natürliche Dialogführung zu rigide → Erweiterungen nötig


Dialogmodellierung



• für natürliche Dialogführung zu rigide → Erweiterungen nötig• wechselnde Prompts• ”Hineinreden” in den Prompt (barge in)• ...


Dialogmodellierung

• Dialogmodellierung erfordert Vorhersehen möglicherNutzerreaktionen

• Hineinversetzen in den Nutzer• Wizard-of-Oz-Experimente


Dialogmodellierung

• Dialogmodellierung erfordert Vorhersehen möglicherNutzerreaktionen

• Hineinversetzen in den Nutzer• Wizard-of-Oz-Experimente

• Dialogmodellierung schränkt die sprachliche Möglichkeiten einesNutzers stark ein

• Lenkung des Nutzers durch Vorgabe zulässigerÄußerungen (akustisches Menü)


ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist...

Documents

Transcript of ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist...