ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist...
Transcript of ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist...
Kommunikation mit gesprochener Sprache ...
... ist mehr als Hören und Sprechen:
Mensch-Maschine-Kommunikation mit gesprochener Sprache 1
Kommunikation mit gesprochener Sprache ...
... ist mehr als Hören und Sprechen:
Hören
Kikala brint tovoluti?
Mensch-Maschine-Kommunikation mit gesprochener Sprache 1
Kommunikation mit gesprochener Sprache ...
... ist mehr als Hören und Sprechen:
Hören Erkennen
Winter kochtest ganz Blatt?
Mensch-Maschine-Kommunikation mit gesprochener Sprache 1
Kommunikation mit gesprochener Sprache ...
... ist mehr als Hören und Sprechen:
Hören Erkennen Verstehen
Wann steigt die Party?
Mensch-Maschine-Kommunikation mit gesprochener Sprache 1
Kommunikation mit gesprochener Sprache ...
... ist mehr als Hören und Sprechen:
Hören Erkennen Verstehen
Wann steigt die Party?
Sprechen
Sintu högafi notsi!
Mensch-Maschine-Kommunikation mit gesprochener Sprache 1
Kommunikation mit gesprochener Sprache ...
... ist mehr als Hören und Sprechen:
Hören Erkennen Verstehen
Wann steigt die Party?
SprechenFormulieren
Sonderbar werfen die Wellen hinab!
Mensch-Maschine-Kommunikation mit gesprochener Sprache 1
Kommunikation mit gesprochener Sprache ...
... ist mehr als Hören und Sprechen:
Hören Erkennen Verstehen
Wann steigt die Party?
SprechenFormulierenVerstehen Planen
Am Freitag, im Hirsch!
Mensch-Maschine-Kommunikation mit gesprochener Sprache 1
Kommunikation mit gesprochener Sprache ...
... ist mehr als Hören und Sprechen:
Hören Erkennen Verstehen
Wann steigt die Party?
SprechenFormulierenVerstehen Planen
Am Freitag, im Hirsch!
Hören Erkennen SprechenFormulierenVerstehen Planen
Mensch-Maschine-Kommunikation mit gesprochener Sprache 1
Gesprochene Sprache
Segmentstruktur
Äußerungen Und wie wäre es am Mittwoch?
Mensch-Maschine-Kommunikation mit gesprochener Sprache 2
Gesprochene Sprache
Segmentstruktur
Äußerungen Und wie wäre es am Mittwoch?
Phrasen wie wäre es am Mittwoch?
Mensch-Maschine-Kommunikation mit gesprochener Sprache 2
Gesprochene Sprache
Segmentstruktur
Äußerungen Und wie wäre es am Mittwoch?
Phrasen wie wäre es am Mittwoch?
Wörter wie wäre es
Mensch-Maschine-Kommunikation mit gesprochener Sprache 2
Gesprochene Sprache
Segmentstruktur
Äußerungen Und wie wäre es am Mittwoch?
Phrasen wie wäre es am Mittwoch?
Wörter wie wäre es
Silben wä re
Mensch-Maschine-Kommunikation mit gesprochener Sprache 2
Gesprochene Sprache
Segmentstruktur
Äußerungen Und wie wäre es am Mittwoch?
Phrasen wie wäre es am Mittwoch?
Wörter wie wäre es
Silben wä re
Laute w ä r e
Mensch-Maschine-Kommunikation mit gesprochener Sprache 2
Gesprochene Sprache
Segmentübergreifende Information (Prosodie)
Mensch-Maschine-Kommunikation mit gesprochener Sprache 3
Gesprochene Sprache
Segmentübergreifende Information (Prosodie)
• Grundfrequenz
Mensch-Maschine-Kommunikation mit gesprochener Sprache 3
Gesprochene Sprache
Segmentübergreifende Information (Prosodie)
• Grundfrequenz
• Rhythmus
Mensch-Maschine-Kommunikation mit gesprochener Sprache 3
Gesprochene Sprache
Segmentübergreifende Information (Prosodie)
• Grundfrequenz
• Rhythmus
• Lautstärke
Mensch-Maschine-Kommunikation mit gesprochener Sprache 3
Gesprochene Sprache
Segmentübergreifende Information (Prosodie)
• Grundfrequenz
• Rhythmus
• Lautstärke
wird verwendet ...
Mensch-Maschine-Kommunikation mit gesprochener Sprache 3
Gesprochene Sprache
Segmentübergreifende Information (Prosodie)
• Grundfrequenz
• Rhythmus
• Lautstärke
wird verwendet ...
• ... für Hervorhebungen (Neues, Wichtiges, Unerwartetes, ...)
Mensch-Maschine-Kommunikation mit gesprochener Sprache 3
Gesprochene Sprache
Segmentübergreifende Information (Prosodie)
• Grundfrequenz
• Rhythmus
• Lautstärke
wird verwendet ...
• ... für Hervorhebungen (Neues, Wichtiges, Unerwartetes, ...)
• ... zur Gliederung (Phrasen, Sätze)
Mensch-Maschine-Kommunikation mit gesprochener Sprache 3
Gesprochene Sprache
Segmentübergreifende Information (Prosodie)
• Grundfrequenz
• Rhythmus
• Lautstärke
wird verwendet ...
• ... für Hervorhebungen (Neues, Wichtiges, Unerwartetes, ...)
• ... zur Gliederung (Phrasen, Sätze)
• ... zur Moduskennzeichnung (Aussage, Frage, ...)
Mensch-Maschine-Kommunikation mit gesprochener Sprache 3
Gesprochene Sprache
Segmentübergreifende Information (Prosodie)
• Grundfrequenz
• Rhythmus
• Lautstärke
wird verwendet ...
• ... für Hervorhebungen (Neues, Wichtiges, Unerwartetes, ...)
• ... zur Gliederung (Phrasen, Sätze)
• ... zur Moduskennzeichnung (Aussage, Frage, ...)
• ... zur Dialogsteuerung (Vergabe der Initiative)
Mensch-Maschine-Kommunikation mit gesprochener Sprache 3
Gesprochene Sprache
Segmentübergreifende Information (Prosodie)
• Grundfrequenz
• Rhythmus
• Lautstärke
wird verwendet ...
• ... für Hervorhebungen (Neues, Wichtiges, Unerwartetes, ...)
• ... zur Gliederung (Phrasen, Sätze)
• ... zur Moduskennzeichnung (Aussage, Frage, ...)
• ... zur Dialogsteuerung (Vergabe der Initiative)
• ... zum Ausdruck von Emotionen (Freude, Angst, Überraschung,Verlegenheit, ...)
Mensch-Maschine-Kommunikation mit gesprochener Sprache 3
Sprachsynthese
Zwei Herangehensweisen:
Mensch-Maschine-Kommunikation mit gesprochener Sprache 4
Sprachsynthese
Zwei Herangehensweisen:
Vollsynthese• Erzeugen des Sprach-
signals durch Ton- undRauschgeneratoren
• akzeptable Verständlich-keit
• geringe Natürlichkeit
Mensch-Maschine-Kommunikation mit gesprochener Sprache 4
Sprachsynthese
Zwei Herangehensweisen:
Vollsynthese• Erzeugen des Sprach-
signals durch Ton- undRauschgeneratoren
• akzeptable Verständlich-keit
• geringe Natürlichkeit
reproduktive Synthese• Aufnehmen und Wieder-
geben menschlicherSprachsignale
• hohe Verständlichkeit
• gute bis hohe Natürlich-keit
Mensch-Maschine-Kommunikation mit gesprochener Sprache 4
Sprachsynthese
reproduktive SyntheseWas sind geeignete Basiseinheiten?
• ganze Phrasen: nur für Spezialanwendungen
• Laute: schlechte Qualität
• Kompromiss: flexible Ermittlung der Basiselemente ausKorpusdaten
Mensch-Maschine-Kommunikation mit gesprochener Sprache 5
Sprachsynthese
reproduktive SyntheseWas sind geeignete Basiseinheiten?
• ganze Phrasen: nur für Spezialanwendungen
• Laute: schlechte Qualität
• Kompromiss: flexible Ermittlung der Basiselemente ausKorpusdaten
Wie werden die Basiselemente verkettet?
• harter Schnitt erzeugt Knackgeräusche
• ”weiche” Übergänge erforderlich
• prosodische Variation durch spezielle Transformationsverfahren
Mensch-Maschine-Kommunikation mit gesprochener Sprache 5
Spracherkennung
• nur Berücksichtigung von Lautcharakteristika
• ”Training” von Modellen auf großen Sprachdatensammlungen
• Vernachlässigung der Prosodie
• nur Erkennung, kein Sprachverstehen!
Mensch-Maschine-Kommunikation mit gesprochener Sprache 6
Spracherkennung
Spracherkenner
und wiewäre es
am Montag
Mensch-Maschine-Kommunikation mit gesprochener Sprache 7
Spracherkennung
Spracherkenner
und wiewäre es
am Montag
Merkmals-
extraktion
Mensch-Maschine-Kommunikation mit gesprochener Sprache 7
Spracherkennung
Spracherkenner
und wiewäre es
am Montag
Merkmals-
extraktionWorterkenner
Mensch-Maschine-Kommunikation mit gesprochener Sprache 7
Spracherkennung
Spracherkenner
und wiewäre es
am Montag
Merkmals-
extraktionWorterkenner
Laut-modelle
Mensch-Maschine-Kommunikation mit gesprochener Sprache 7
Spracherkennung
Spracherkenner
und wiewäre es
am Montag
Merkmals-
extraktionWorterkenner
Laut-modelle
• Modelle für jeden Laut im Kontextseiner Nachbarlautem-a+m, m-a+n, d-a+n, ...
• Berechnung der Wahrscheinlichkeit,dass das Sprachsignal durch dasModell erzeugt wurde
• Zustände, Zustandsübergänge
• Transitionswahrscheinlichkeiten
• Emissionswahrscheinlichkeiten
Mensch-Maschine-Kommunikation mit gesprochener Sprache 7
Spracherkennung
Spracherkenner
und wiewäre es
am Montag
Merkmals-
extraktionWorterkenner
Laut-modelle
trainiert auf Signaldaten
Mensch-Maschine-Kommunikation mit gesprochener Sprache 7
Spracherkennung
Spracherkenner
und wiewäre es
am Montag
Merkmals-
extraktionWorterkenner
Laut-modelle
trainiert auf Signaldaten
Aussprache-
Wörterbuch
Mensch-Maschine-Kommunikation mit gesprochener Sprache 7
Spracherkennung
Spracherkenner
und wiewäre es
am Montag
Merkmals-
extraktionWorterkenner
Laut-modelle
trainiert auf Signaldaten
Aussprache-
Wörterbuch• eine oder mehrere Lautfolgen fürjede WortformMittwo h m i t v o x spwäre v eh r 2 sp
• Verkettung von Lautmodellen zuWortmodellenMittwo h:sp-m+i m-i+t i-t+v t-v+o ...
Mensch-Maschine-Kommunikation mit gesprochener Sprache 7
Spracherkennung
Spracherkenner
und wiewäre es
am Montag
Merkmals-
extraktionWorterkenner
Laut-modelle
trainiert auf Signaldaten
Aussprache-
Wörterbuch
manuell erstellt
Mensch-Maschine-Kommunikation mit gesprochener Sprache 7
Spracherkennung
Spracherkenner
und wiewäre es
am Montag
Merkmals-
extraktionWorterkenner
Laut-modelle
trainiert auf Signaldaten
Aussprache-
Wörterbuch
manuell erstellt
Sprach-
modell
Mensch-Maschine-Kommunikation mit gesprochener Sprache 7
Spracherkennung
Spracherkenner
und wiewäre es
am Montag
Merkmals-
extraktionWorterkenner
Laut-modelle
trainiert auf Signaldaten
Aussprache-
Wörterbuch
manuell erstellt
Sprach-
modell
• Berechnung der Wahrscheinlichkeitfür komplette Äußerungen
• Wahrscheinlichkeiten für Wortpaare,-tripel oder -quadrupel
p(wir|dann wollen)p(Mittwoch|dann wollen)
• wenig geeignet für Dialogsysteme
Mensch-Maschine-Kommunikation mit gesprochener Sprache 7
Spracherkennung
Spracherkenner
und wiewäre es
am Montag
Merkmals-
extraktionWorterkenner
Laut-modelle
trainiert auf Signaldaten
Aussprache-
Wörterbuch
manuell erstellt
Sprach-
modell
trainiert auf Texten
Mensch-Maschine-Kommunikation mit gesprochener Sprache 7
Spracherkennung
Spracherkenner
und wiewäre es
am Montag
Merkmals-
extraktionWorterkenner
Laut-modelle
trainiert auf Signaldaten
Aussprache-
Wörterbuch
manuell erstellt
trainiert auf Texten
Sprach-
modell
Mensch-Maschine-Kommunikation mit gesprochener Sprache 7
Spracherkennung
Spracherkenner
und wiewäre es
am Montag
Merkmals-
extraktionWorterkenner
Laut-modelle
trainiert auf Signaldaten
Aussprache-
Wörterbuch
manuell erstellt
trainiert auf Texten
Sprach-
modell
Dialog-
modell
Mensch-Maschine-Kommunikation mit gesprochener Sprache 7
Spracherkennung
Spracherkenner
und wiewäre es
am Montag
Merkmals-
extraktionWorterkenner
Laut-modelle
trainiert auf Signaldaten
Aussprache-
Wörterbuch
manuell erstellt
trainiert auf Texten
Sprach-
modell
Dialog-
modell
manuell erstellt
Mensch-Maschine-Kommunikation mit gesprochener Sprache 7
Spracherkennung
Spracherkenner
und wiewäre es
am Montag
Merkmals-
extraktionWorterkenner
Laut-modelle
trainiert auf Signaldaten
Aussprache-
Wörterbuch
manuell erstellt
trainiert auf Texten
Sprach-
modell
Dialog-
modell
manuell erstellt
Dialog-
modell
Mensch-Maschine-Kommunikation mit gesprochener Sprache 7
Dialogmodellierung
• dynamische Einschränkung des Erkennerwortschatzes inAbhängigkeit vom Dialogzustand
Mensch-Maschine-Kommunikation mit gesprochener Sprache 8
Dialogmodellierung
• dynamische Einschränkung des Erkennerwortschatzes inAbhängigkeit vom Dialogzustand
• Wozu braucht man das?
Mensch-Maschine-Kommunikation mit gesprochener Sprache 8
Dialogmodellierung
• dynamische Einschränkung des Erkennerwortschatzes inAbhängigkeit vom Dialogzustand
• Wozu braucht man das?• Erkennungssicherheit erhöhen→ Was wurde gesagt?
Mensch-Maschine-Kommunikation mit gesprochener Sprache 8
Dialogmodellierung
• dynamische Einschränkung des Erkennerwortschatzes inAbhängigkeit vom Dialogzustand
• Wozu braucht man das?• Erkennungssicherheit erhöhen→ Was wurde gesagt?
• ähnliche Aussprache: Mai oder drei?• verschiedene Sprecher• schlechte Übertragungsqualität
Mensch-Maschine-Kommunikation mit gesprochener Sprache 8
Dialogmodellierung
• dynamische Einschränkung des Erkennerwortschatzes inAbhängigkeit vom Dialogzustand
• Wozu braucht man das?• Erkennungssicherheit erhöhen→ Was wurde gesagt?
• ähnliche Aussprache: Mai oder drei?• verschiedene Sprecher• schlechte Übertragungsqualität
• semantische Interpretation erleichtern→ Was wird von der Maschine erwartet?
Mensch-Maschine-Kommunikation mit gesprochener Sprache 8
Dialogmodellierung
• dynamische Einschränkung des Erkennerwortschatzes inAbhängigkeit vom Dialogzustand
• Wozu braucht man das?• Erkennungssicherheit erhöhen→ Was wurde gesagt?
• ähnliche Aussprache: Mai oder drei?• verschiedene Sprecher• schlechte Übertragungsqualität
• semantische Interpretation erleichtern→ Was wird von der Maschine erwartet?
• Zahl → Geldbetrag, Uhrzeit, Datum, Kontonummer, ...• Mehrdeutigkeit: Wann werden S/sie kommen?• Referenzauflösung: Was wird durch sie bezeichnet?
Mensch-Maschine-Kommunikation mit gesprochener Sprache 8
Dialogmodellierung
• dynamische Einschränkung des Erkennerwortschatzes inAbhängigkeit vom Dialogzustand
• Wozu braucht man das?• Erkennungssicherheit erhöhen→ Was wurde gesagt?
• ähnliche Aussprache: Mai oder drei?• verschiedene Sprecher• schlechte Übertragungsqualität
• semantische Interpretation erleichtern→ Was wird von der Maschine erwartet?
• Zahl → Geldbetrag, Uhrzeit, Datum, Kontonummer, ...• Mehrdeutigkeit: Wann werden S/sie kommen?• Referenzauflösung: Was wird durch sie bezeichnet?
• eine Maschine hat keinen gesunden Menschenverstand!
Mensch-Maschine-Kommunikation mit gesprochener Sprache 8
Dialogmodellierung
• Dialogzustände: Aufforderung zur Eingabe (Prompt)
• Übergänge zwischen Dialogzuständen: Erkennung vonNutzeräußerungen
Mensch-Maschine-Kommunikation mit gesprochener Sprache 9
Dialogmodellierung
• Dialogzustände: Aufforderung zur Eingabe (Prompt)
• Übergänge zwischen Dialogzuständen: Erkennung vonNutzeräußerungen
Bittegeben SieIhren Ab-fahrtsort
ein!
Mensch-Maschine-Kommunikation mit gesprochener Sprache 9
Dialogmodellierung
• Dialogzustände: Aufforderung zur Eingabe (Prompt)
• Übergänge zwischen Dialogzuständen: Erkennung vonNutzeräußerungen
Bittegeben SieIhren Ab-fahrtsort
ein!
Bittegeben Sie
IhrenZielort
ein!
Berlin
Dresden
Düsseldorf
Hamburg
Köln
München
...
Stuttgart
Mensch-Maschine-Kommunikation mit gesprochener Sprache 9
Dialogmodellierung
• Dialogzustände: Aufforderung zur Eingabe (Prompt)
• Übergänge zwischen Dialogzuständen: Erkennung vonNutzeräußerungen
Bittegeben SieIhren Ab-fahrtsort
ein!
Bittegeben Sie
IhrenZielort
ein!
Berlin
Dresden
Düsseldorf
Hamburg
Köln
München
...
Stuttgart
Bittegeben Sie
die Ab-fahrtszeit
ein!
Berlin
Dresden
Düsseldorf
Hamburg
Köln
München
...
Stuttgart
Mensch-Maschine-Kommunikation mit gesprochener Sprache 9
Dialogmodellierung
• Mehrfachverwendung von Teilnetzen
Bittegeben SieIhren Ab-fahrtsort
ein!
Mensch-Maschine-Kommunikation mit gesprochener Sprache 10
Dialogmodellierung
• Mehrfachverwendung von Teilnetzen
Bittegeben SieIhren Ab-fahrtsort
ein!
Bittegeben Sie
IhrenZielort
ein!
Ortsangabe
Mensch-Maschine-Kommunikation mit gesprochener Sprache 10
Dialogmodellierung
• Mehrfachverwendung von Teilnetzen
Bittegeben SieIhren Ab-fahrtsort
ein!
Bittegeben Sie
IhrenZielort
ein!
OrtsangabeBitte
geben Siedie Ab-
fahrtszeitein!
Ortsangabe
Mensch-Maschine-Kommunikation mit gesprochener Sprache 10
Dialogmodellierung• sprecherunabhängige Spracherkennung ist unsicher• insbesondere bei Telefoneingabe• Erhöhen der Zuverlässigkeit durch Rückfragen
Bittegeben SieIhren Ab-fahrtsort
ein!
Mensch-Maschine-Kommunikation mit gesprochener Sprache 11
Dialogmodellierung• sprecherunabhängige Spracherkennung ist unsicher• insbesondere bei Telefoneingabe• Erhöhen der Zuverlässigkeit durch Rückfragen
Bittegeben SieIhren Ab-fahrtsort
ein!
Siewollen
inA
abfahren?
Ortsangabe
Mensch-Maschine-Kommunikation mit gesprochener Sprache 11
Dialogmodellierung• sprecherunabhängige Spracherkennung ist unsicher• insbesondere bei Telefoneingabe• Erhöhen der Zuverlässigkeit durch Rückfragen
Bittegeben SieIhren Ab-fahrtsort
ein!
Siewollen
inA
abfahren?
Ortsangabe
nein
Mensch-Maschine-Kommunikation mit gesprochener Sprache 11
Dialogmodellierung• sprecherunabhängige Spracherkennung ist unsicher• insbesondere bei Telefoneingabe• Erhöhen der Zuverlässigkeit durch Rückfragen
Bittegeben SieIhren Ab-fahrtsort
ein!
Siewollen
inA
abfahren?
Ortsangabe
nein
Bittegeben Sie
IhrenZielort
ein!
ja
Mensch-Maschine-Kommunikation mit gesprochener Sprache 11
Dialogmodellierung• sprecherunabhängige Spracherkennung ist unsicher• insbesondere bei Telefoneingabe• Erhöhen der Zuverlässigkeit durch Rückfragen
Bittegeben SieIhren Ab-fahrtsort
ein!
Siewollen
inA
abfahren?
Ortsangabe
nein
Bittegeben Sie
IhrenZielort
ein!
ja
Siewollennach
Zfahren?
Ortsangabe
Mensch-Maschine-Kommunikation mit gesprochener Sprache 11
Dialogmodellierung• sprecherunabhängige Spracherkennung ist unsicher• insbesondere bei Telefoneingabe• Erhöhen der Zuverlässigkeit durch Rückfragen
Bittegeben SieIhren Ab-fahrtsort
ein!
Siewollen
inA
abfahren?
Ortsangabe
nein
Bittegeben Sie
IhrenZielort
ein!
ja
Siewollennach
Zfahren?
Ortsangabe
nein
Mensch-Maschine-Kommunikation mit gesprochener Sprache 11
Dialogmodellierung• sprecherunabhängige Spracherkennung ist unsicher• insbesondere bei Telefoneingabe• Erhöhen der Zuverlässigkeit durch Rückfragen
Bittegeben SieIhren Ab-fahrtsort
ein!
Siewollen
inA
abfahren?
Ortsangabe
nein
Bittegeben Sie
IhrenZielort
ein!
ja
Siewollennach
Zfahren?
Ortsangabe
nein
Bittegeben Sie
die Ab-fahrtszeit
ein!
ja
Mensch-Maschine-Kommunikation mit gesprochener Sprache 11
Dialogmodellierung
• theoretische Grundlage: deterministischer endlicher Automat
Mensch-Maschine-Kommunikation mit gesprochener Sprache 12
Dialogmodellierung
• theoretische Grundlage: deterministischer endlicher Automat• einfachstes Automatenmodell der Informatik• effiziente Implementierung• gute Vorhersagefähigkeit → starke Einschränkung des
aktiven Wortschatzes
Mensch-Maschine-Kommunikation mit gesprochener Sprache 12
Dialogmodellierung
• theoretische Grundlage: deterministischer endlicher Automat• einfachstes Automatenmodell der Informatik• effiziente Implementierung• gute Vorhersagefähigkeit → starke Einschränkung des
aktiven Wortschatzes
• für natürliche Dialogführung zu rigide → Erweiterungen nötig
Mensch-Maschine-Kommunikation mit gesprochener Sprache 12
Dialogmodellierung
• theoretische Grundlage: deterministischer endlicher Automat• einfachstes Automatenmodell der Informatik• effiziente Implementierung• gute Vorhersagefähigkeit → starke Einschränkung des
aktiven Wortschatzes
• für natürliche Dialogführung zu rigide → Erweiterungen nötig• wechselnde Prompts• ”Hineinreden” in den Prompt (barge in)• ...
Mensch-Maschine-Kommunikation mit gesprochener Sprache 12
Dialogmodellierung
• Dialogmodellierung erfordert Vorhersehen möglicherNutzerreaktionen
• Hineinversetzen in den Nutzer• Wizard-of-Oz-Experimente
Mensch-Maschine-Kommunikation mit gesprochener Sprache 13
Dialogmodellierung
• Dialogmodellierung erfordert Vorhersehen möglicherNutzerreaktionen
• Hineinversetzen in den Nutzer• Wizard-of-Oz-Experimente
• Dialogmodellierung schränkt die sprachliche Möglichkeiten einesNutzers stark ein
• Lenkung des Nutzers durch Vorgabe zulässigerÄußerungen (akustisches Menü)
Mensch-Maschine-Kommunikation mit gesprochener Sprache 13