ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist...

72
Kommunikation mit gesprochener Sprache ... ... ist mehr als Hören und Sprechen: Mensch-Maschine-Kommunikation mit gesprochener Sprache 1

Transcript of ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist...

Page 1: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Kommunikation mit gesprochener Sprache ...

... ist mehr als Hören und Sprechen:

Mensch-Maschine-Kommunikation mit gesprochener Sprache 1

Page 2: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Kommunikation mit gesprochener Sprache ...

... ist mehr als Hören und Sprechen:

Hören

Kikala brint tovoluti?

Mensch-Maschine-Kommunikation mit gesprochener Sprache 1

Page 3: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Kommunikation mit gesprochener Sprache ...

... ist mehr als Hören und Sprechen:

Hören Erkennen

Winter kochtest ganz Blatt?

Mensch-Maschine-Kommunikation mit gesprochener Sprache 1

Page 4: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Kommunikation mit gesprochener Sprache ...

... ist mehr als Hören und Sprechen:

Hören Erkennen Verstehen

Wann steigt die Party?

Mensch-Maschine-Kommunikation mit gesprochener Sprache 1

Page 5: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Kommunikation mit gesprochener Sprache ...

... ist mehr als Hören und Sprechen:

Hören Erkennen Verstehen

Wann steigt die Party?

Sprechen

Sintu högafi notsi!

Mensch-Maschine-Kommunikation mit gesprochener Sprache 1

Page 6: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Kommunikation mit gesprochener Sprache ...

... ist mehr als Hören und Sprechen:

Hören Erkennen Verstehen

Wann steigt die Party?

SprechenFormulieren

Sonderbar werfen die Wellen hinab!

Mensch-Maschine-Kommunikation mit gesprochener Sprache 1

Page 7: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Kommunikation mit gesprochener Sprache ...

... ist mehr als Hören und Sprechen:

Hören Erkennen Verstehen

Wann steigt die Party?

SprechenFormulierenVerstehen Planen

Am Freitag, im Hirsch!

Mensch-Maschine-Kommunikation mit gesprochener Sprache 1

Page 8: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Kommunikation mit gesprochener Sprache ...

... ist mehr als Hören und Sprechen:

Hören Erkennen Verstehen

Wann steigt die Party?

SprechenFormulierenVerstehen Planen

Am Freitag, im Hirsch!

Hören Erkennen SprechenFormulierenVerstehen Planen

Mensch-Maschine-Kommunikation mit gesprochener Sprache 1

Page 9: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Gesprochene Sprache

Segmentstruktur

Äußerungen Und wie wäre es am Mittwoch?

Mensch-Maschine-Kommunikation mit gesprochener Sprache 2

Page 10: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Gesprochene Sprache

Segmentstruktur

Äußerungen Und wie wäre es am Mittwoch?

Phrasen wie wäre es am Mittwoch?

Mensch-Maschine-Kommunikation mit gesprochener Sprache 2

Page 11: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Gesprochene Sprache

Segmentstruktur

Äußerungen Und wie wäre es am Mittwoch?

Phrasen wie wäre es am Mittwoch?

Wörter wie wäre es

Mensch-Maschine-Kommunikation mit gesprochener Sprache 2

Page 12: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Gesprochene Sprache

Segmentstruktur

Äußerungen Und wie wäre es am Mittwoch?

Phrasen wie wäre es am Mittwoch?

Wörter wie wäre es

Silben wä re

Mensch-Maschine-Kommunikation mit gesprochener Sprache 2

Page 13: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Gesprochene Sprache

Segmentstruktur

Äußerungen Und wie wäre es am Mittwoch?

Phrasen wie wäre es am Mittwoch?

Wörter wie wäre es

Silben wä re

Laute w ä r e

Mensch-Maschine-Kommunikation mit gesprochener Sprache 2

Page 14: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Gesprochene Sprache

Segmentübergreifende Information (Prosodie)

Mensch-Maschine-Kommunikation mit gesprochener Sprache 3

Page 15: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Gesprochene Sprache

Segmentübergreifende Information (Prosodie)

• Grundfrequenz

Mensch-Maschine-Kommunikation mit gesprochener Sprache 3

Page 16: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Gesprochene Sprache

Segmentübergreifende Information (Prosodie)

• Grundfrequenz

• Rhythmus

Mensch-Maschine-Kommunikation mit gesprochener Sprache 3

Page 17: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Gesprochene Sprache

Segmentübergreifende Information (Prosodie)

• Grundfrequenz

• Rhythmus

• Lautstärke

Mensch-Maschine-Kommunikation mit gesprochener Sprache 3

Page 18: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Gesprochene Sprache

Segmentübergreifende Information (Prosodie)

• Grundfrequenz

• Rhythmus

• Lautstärke

wird verwendet ...

Mensch-Maschine-Kommunikation mit gesprochener Sprache 3

Page 19: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Gesprochene Sprache

Segmentübergreifende Information (Prosodie)

• Grundfrequenz

• Rhythmus

• Lautstärke

wird verwendet ...

• ... für Hervorhebungen (Neues, Wichtiges, Unerwartetes, ...)

Mensch-Maschine-Kommunikation mit gesprochener Sprache 3

Page 20: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Gesprochene Sprache

Segmentübergreifende Information (Prosodie)

• Grundfrequenz

• Rhythmus

• Lautstärke

wird verwendet ...

• ... für Hervorhebungen (Neues, Wichtiges, Unerwartetes, ...)

• ... zur Gliederung (Phrasen, Sätze)

Mensch-Maschine-Kommunikation mit gesprochener Sprache 3

Page 21: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Gesprochene Sprache

Segmentübergreifende Information (Prosodie)

• Grundfrequenz

• Rhythmus

• Lautstärke

wird verwendet ...

• ... für Hervorhebungen (Neues, Wichtiges, Unerwartetes, ...)

• ... zur Gliederung (Phrasen, Sätze)

• ... zur Moduskennzeichnung (Aussage, Frage, ...)

Mensch-Maschine-Kommunikation mit gesprochener Sprache 3

Page 22: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Gesprochene Sprache

Segmentübergreifende Information (Prosodie)

• Grundfrequenz

• Rhythmus

• Lautstärke

wird verwendet ...

• ... für Hervorhebungen (Neues, Wichtiges, Unerwartetes, ...)

• ... zur Gliederung (Phrasen, Sätze)

• ... zur Moduskennzeichnung (Aussage, Frage, ...)

• ... zur Dialogsteuerung (Vergabe der Initiative)

Mensch-Maschine-Kommunikation mit gesprochener Sprache 3

Page 23: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Gesprochene Sprache

Segmentübergreifende Information (Prosodie)

• Grundfrequenz

• Rhythmus

• Lautstärke

wird verwendet ...

• ... für Hervorhebungen (Neues, Wichtiges, Unerwartetes, ...)

• ... zur Gliederung (Phrasen, Sätze)

• ... zur Moduskennzeichnung (Aussage, Frage, ...)

• ... zur Dialogsteuerung (Vergabe der Initiative)

• ... zum Ausdruck von Emotionen (Freude, Angst, Überraschung,Verlegenheit, ...)

Mensch-Maschine-Kommunikation mit gesprochener Sprache 3

Page 24: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Sprachsynthese

Zwei Herangehensweisen:

Mensch-Maschine-Kommunikation mit gesprochener Sprache 4

Page 25: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Sprachsynthese

Zwei Herangehensweisen:

Vollsynthese• Erzeugen des Sprach-

signals durch Ton- undRauschgeneratoren

• akzeptable Verständlich-keit

• geringe Natürlichkeit

Mensch-Maschine-Kommunikation mit gesprochener Sprache 4

Page 26: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Sprachsynthese

Zwei Herangehensweisen:

Vollsynthese• Erzeugen des Sprach-

signals durch Ton- undRauschgeneratoren

• akzeptable Verständlich-keit

• geringe Natürlichkeit

reproduktive Synthese• Aufnehmen und Wieder-

geben menschlicherSprachsignale

• hohe Verständlichkeit

• gute bis hohe Natürlich-keit

Mensch-Maschine-Kommunikation mit gesprochener Sprache 4

Page 27: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Sprachsynthese

reproduktive SyntheseWas sind geeignete Basiseinheiten?

• ganze Phrasen: nur für Spezialanwendungen

• Laute: schlechte Qualität

• Kompromiss: flexible Ermittlung der Basiselemente ausKorpusdaten

Mensch-Maschine-Kommunikation mit gesprochener Sprache 5

Page 28: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Sprachsynthese

reproduktive SyntheseWas sind geeignete Basiseinheiten?

• ganze Phrasen: nur für Spezialanwendungen

• Laute: schlechte Qualität

• Kompromiss: flexible Ermittlung der Basiselemente ausKorpusdaten

Wie werden die Basiselemente verkettet?

• harter Schnitt erzeugt Knackgeräusche

• ”weiche” Übergänge erforderlich

• prosodische Variation durch spezielle Transformationsverfahren

Mensch-Maschine-Kommunikation mit gesprochener Sprache 5

Page 29: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Spracherkennung

• nur Berücksichtigung von Lautcharakteristika

• ”Training” von Modellen auf großen Sprachdatensammlungen

• Vernachlässigung der Prosodie

• nur Erkennung, kein Sprachverstehen!

Mensch-Maschine-Kommunikation mit gesprochener Sprache 6

Page 30: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Mensch-Maschine-Kommunikation mit gesprochener Sprache 7

Page 31: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-

extraktion

Mensch-Maschine-Kommunikation mit gesprochener Sprache 7

Page 32: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-

extraktionWorterkenner

Mensch-Maschine-Kommunikation mit gesprochener Sprache 7

Page 33: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-

extraktionWorterkenner

Laut-modelle

Mensch-Maschine-Kommunikation mit gesprochener Sprache 7

Page 34: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-

extraktionWorterkenner

Laut-modelle

• Modelle für jeden Laut im Kontextseiner Nachbarlautem-a+m, m-a+n, d-a+n, ...

• Berechnung der Wahrscheinlichkeit,dass das Sprachsignal durch dasModell erzeugt wurde

• Zustände, Zustandsübergänge

• Transitionswahrscheinlichkeiten

• Emissionswahrscheinlichkeiten

Mensch-Maschine-Kommunikation mit gesprochener Sprache 7

Page 35: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-

extraktionWorterkenner

Laut-modelle

trainiert auf Signaldaten

Mensch-Maschine-Kommunikation mit gesprochener Sprache 7

Page 36: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-

extraktionWorterkenner

Laut-modelle

trainiert auf Signaldaten

Aussprache-

Wörterbuch

Mensch-Maschine-Kommunikation mit gesprochener Sprache 7

Page 37: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-

extraktionWorterkenner

Laut-modelle

trainiert auf Signaldaten

Aussprache-

Wörterbuch• eine oder mehrere Lautfolgen fürjede WortformMittwo h m i t v o x spwäre v eh r 2 sp

• Verkettung von Lautmodellen zuWortmodellenMittwo h:sp-m+i m-i+t i-t+v t-v+o ...

Mensch-Maschine-Kommunikation mit gesprochener Sprache 7

Page 38: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-

extraktionWorterkenner

Laut-modelle

trainiert auf Signaldaten

Aussprache-

Wörterbuch

manuell erstellt

Mensch-Maschine-Kommunikation mit gesprochener Sprache 7

Page 39: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-

extraktionWorterkenner

Laut-modelle

trainiert auf Signaldaten

Aussprache-

Wörterbuch

manuell erstellt

Sprach-

modell

Mensch-Maschine-Kommunikation mit gesprochener Sprache 7

Page 40: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-

extraktionWorterkenner

Laut-modelle

trainiert auf Signaldaten

Aussprache-

Wörterbuch

manuell erstellt

Sprach-

modell

• Berechnung der Wahrscheinlichkeitfür komplette Äußerungen

• Wahrscheinlichkeiten für Wortpaare,-tripel oder -quadrupel

p(wir|dann wollen)p(Mittwoch|dann wollen)

• wenig geeignet für Dialogsysteme

Mensch-Maschine-Kommunikation mit gesprochener Sprache 7

Page 41: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-

extraktionWorterkenner

Laut-modelle

trainiert auf Signaldaten

Aussprache-

Wörterbuch

manuell erstellt

Sprach-

modell

trainiert auf Texten

Mensch-Maschine-Kommunikation mit gesprochener Sprache 7

Page 42: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-

extraktionWorterkenner

Laut-modelle

trainiert auf Signaldaten

Aussprache-

Wörterbuch

manuell erstellt

trainiert auf Texten

Sprach-

modell

Mensch-Maschine-Kommunikation mit gesprochener Sprache 7

Page 43: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-

extraktionWorterkenner

Laut-modelle

trainiert auf Signaldaten

Aussprache-

Wörterbuch

manuell erstellt

trainiert auf Texten

Sprach-

modell

Dialog-

modell

Mensch-Maschine-Kommunikation mit gesprochener Sprache 7

Page 44: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-

extraktionWorterkenner

Laut-modelle

trainiert auf Signaldaten

Aussprache-

Wörterbuch

manuell erstellt

trainiert auf Texten

Sprach-

modell

Dialog-

modell

manuell erstellt

Mensch-Maschine-Kommunikation mit gesprochener Sprache 7

Page 45: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Spracherkennung

Spracherkenner

und wiewäre es

am Montag

Merkmals-

extraktionWorterkenner

Laut-modelle

trainiert auf Signaldaten

Aussprache-

Wörterbuch

manuell erstellt

trainiert auf Texten

Sprach-

modell

Dialog-

modell

manuell erstellt

Dialog-

modell

Mensch-Maschine-Kommunikation mit gesprochener Sprache 7

Page 46: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung

• dynamische Einschränkung des Erkennerwortschatzes inAbhängigkeit vom Dialogzustand

Mensch-Maschine-Kommunikation mit gesprochener Sprache 8

Page 47: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung

• dynamische Einschränkung des Erkennerwortschatzes inAbhängigkeit vom Dialogzustand

• Wozu braucht man das?

Mensch-Maschine-Kommunikation mit gesprochener Sprache 8

Page 48: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung

• dynamische Einschränkung des Erkennerwortschatzes inAbhängigkeit vom Dialogzustand

• Wozu braucht man das?• Erkennungssicherheit erhöhen→ Was wurde gesagt?

Mensch-Maschine-Kommunikation mit gesprochener Sprache 8

Page 49: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung

• dynamische Einschränkung des Erkennerwortschatzes inAbhängigkeit vom Dialogzustand

• Wozu braucht man das?• Erkennungssicherheit erhöhen→ Was wurde gesagt?

• ähnliche Aussprache: Mai oder drei?• verschiedene Sprecher• schlechte Übertragungsqualität

Mensch-Maschine-Kommunikation mit gesprochener Sprache 8

Page 50: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung

• dynamische Einschränkung des Erkennerwortschatzes inAbhängigkeit vom Dialogzustand

• Wozu braucht man das?• Erkennungssicherheit erhöhen→ Was wurde gesagt?

• ähnliche Aussprache: Mai oder drei?• verschiedene Sprecher• schlechte Übertragungsqualität

• semantische Interpretation erleichtern→ Was wird von der Maschine erwartet?

Mensch-Maschine-Kommunikation mit gesprochener Sprache 8

Page 51: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung

• dynamische Einschränkung des Erkennerwortschatzes inAbhängigkeit vom Dialogzustand

• Wozu braucht man das?• Erkennungssicherheit erhöhen→ Was wurde gesagt?

• ähnliche Aussprache: Mai oder drei?• verschiedene Sprecher• schlechte Übertragungsqualität

• semantische Interpretation erleichtern→ Was wird von der Maschine erwartet?

• Zahl → Geldbetrag, Uhrzeit, Datum, Kontonummer, ...• Mehrdeutigkeit: Wann werden S/sie kommen?• Referenzauflösung: Was wird durch sie bezeichnet?

Mensch-Maschine-Kommunikation mit gesprochener Sprache 8

Page 52: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung

• dynamische Einschränkung des Erkennerwortschatzes inAbhängigkeit vom Dialogzustand

• Wozu braucht man das?• Erkennungssicherheit erhöhen→ Was wurde gesagt?

• ähnliche Aussprache: Mai oder drei?• verschiedene Sprecher• schlechte Übertragungsqualität

• semantische Interpretation erleichtern→ Was wird von der Maschine erwartet?

• Zahl → Geldbetrag, Uhrzeit, Datum, Kontonummer, ...• Mehrdeutigkeit: Wann werden S/sie kommen?• Referenzauflösung: Was wird durch sie bezeichnet?

• eine Maschine hat keinen gesunden Menschenverstand!

Mensch-Maschine-Kommunikation mit gesprochener Sprache 8

Page 53: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung

• Dialogzustände: Aufforderung zur Eingabe (Prompt)

• Übergänge zwischen Dialogzuständen: Erkennung vonNutzeräußerungen

Mensch-Maschine-Kommunikation mit gesprochener Sprache 9

Page 54: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung

• Dialogzustände: Aufforderung zur Eingabe (Prompt)

• Übergänge zwischen Dialogzuständen: Erkennung vonNutzeräußerungen

Bittegeben SieIhren Ab-fahrtsort

ein!

Mensch-Maschine-Kommunikation mit gesprochener Sprache 9

Page 55: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung

• Dialogzustände: Aufforderung zur Eingabe (Prompt)

• Übergänge zwischen Dialogzuständen: Erkennung vonNutzeräußerungen

Bittegeben SieIhren Ab-fahrtsort

ein!

Bittegeben Sie

IhrenZielort

ein!

Berlin

Dresden

Düsseldorf

Hamburg

Köln

München

...

Stuttgart

Mensch-Maschine-Kommunikation mit gesprochener Sprache 9

Page 56: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung

• Dialogzustände: Aufforderung zur Eingabe (Prompt)

• Übergänge zwischen Dialogzuständen: Erkennung vonNutzeräußerungen

Bittegeben SieIhren Ab-fahrtsort

ein!

Bittegeben Sie

IhrenZielort

ein!

Berlin

Dresden

Düsseldorf

Hamburg

Köln

München

...

Stuttgart

Bittegeben Sie

die Ab-fahrtszeit

ein!

Berlin

Dresden

Düsseldorf

Hamburg

Köln

München

...

Stuttgart

Mensch-Maschine-Kommunikation mit gesprochener Sprache 9

Page 57: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung

• Mehrfachverwendung von Teilnetzen

Bittegeben SieIhren Ab-fahrtsort

ein!

Mensch-Maschine-Kommunikation mit gesprochener Sprache 10

Page 58: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung

• Mehrfachverwendung von Teilnetzen

Bittegeben SieIhren Ab-fahrtsort

ein!

Bittegeben Sie

IhrenZielort

ein!

Ortsangabe

Mensch-Maschine-Kommunikation mit gesprochener Sprache 10

Page 59: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung

• Mehrfachverwendung von Teilnetzen

Bittegeben SieIhren Ab-fahrtsort

ein!

Bittegeben Sie

IhrenZielort

ein!

OrtsangabeBitte

geben Siedie Ab-

fahrtszeitein!

Ortsangabe

Mensch-Maschine-Kommunikation mit gesprochener Sprache 10

Page 60: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung• sprecherunabhängige Spracherkennung ist unsicher• insbesondere bei Telefoneingabe• Erhöhen der Zuverlässigkeit durch Rückfragen

Bittegeben SieIhren Ab-fahrtsort

ein!

Mensch-Maschine-Kommunikation mit gesprochener Sprache 11

Page 61: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung• sprecherunabhängige Spracherkennung ist unsicher• insbesondere bei Telefoneingabe• Erhöhen der Zuverlässigkeit durch Rückfragen

Bittegeben SieIhren Ab-fahrtsort

ein!

Siewollen

inA

abfahren?

Ortsangabe

Mensch-Maschine-Kommunikation mit gesprochener Sprache 11

Page 62: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung• sprecherunabhängige Spracherkennung ist unsicher• insbesondere bei Telefoneingabe• Erhöhen der Zuverlässigkeit durch Rückfragen

Bittegeben SieIhren Ab-fahrtsort

ein!

Siewollen

inA

abfahren?

Ortsangabe

nein

Mensch-Maschine-Kommunikation mit gesprochener Sprache 11

Page 63: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung• sprecherunabhängige Spracherkennung ist unsicher• insbesondere bei Telefoneingabe• Erhöhen der Zuverlässigkeit durch Rückfragen

Bittegeben SieIhren Ab-fahrtsort

ein!

Siewollen

inA

abfahren?

Ortsangabe

nein

Bittegeben Sie

IhrenZielort

ein!

ja

Mensch-Maschine-Kommunikation mit gesprochener Sprache 11

Page 64: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung• sprecherunabhängige Spracherkennung ist unsicher• insbesondere bei Telefoneingabe• Erhöhen der Zuverlässigkeit durch Rückfragen

Bittegeben SieIhren Ab-fahrtsort

ein!

Siewollen

inA

abfahren?

Ortsangabe

nein

Bittegeben Sie

IhrenZielort

ein!

ja

Siewollennach

Zfahren?

Ortsangabe

Mensch-Maschine-Kommunikation mit gesprochener Sprache 11

Page 65: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung• sprecherunabhängige Spracherkennung ist unsicher• insbesondere bei Telefoneingabe• Erhöhen der Zuverlässigkeit durch Rückfragen

Bittegeben SieIhren Ab-fahrtsort

ein!

Siewollen

inA

abfahren?

Ortsangabe

nein

Bittegeben Sie

IhrenZielort

ein!

ja

Siewollennach

Zfahren?

Ortsangabe

nein

Mensch-Maschine-Kommunikation mit gesprochener Sprache 11

Page 66: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung• sprecherunabhängige Spracherkennung ist unsicher• insbesondere bei Telefoneingabe• Erhöhen der Zuverlässigkeit durch Rückfragen

Bittegeben SieIhren Ab-fahrtsort

ein!

Siewollen

inA

abfahren?

Ortsangabe

nein

Bittegeben Sie

IhrenZielort

ein!

ja

Siewollennach

Zfahren?

Ortsangabe

nein

Bittegeben Sie

die Ab-fahrtszeit

ein!

ja

Mensch-Maschine-Kommunikation mit gesprochener Sprache 11

Page 67: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung

• theoretische Grundlage: deterministischer endlicher Automat

Mensch-Maschine-Kommunikation mit gesprochener Sprache 12

Page 68: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung

• theoretische Grundlage: deterministischer endlicher Automat• einfachstes Automatenmodell der Informatik• effiziente Implementierung• gute Vorhersagefähigkeit → starke Einschränkung des

aktiven Wortschatzes

Mensch-Maschine-Kommunikation mit gesprochener Sprache 12

Page 69: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung

• theoretische Grundlage: deterministischer endlicher Automat• einfachstes Automatenmodell der Informatik• effiziente Implementierung• gute Vorhersagefähigkeit → starke Einschränkung des

aktiven Wortschatzes

• für natürliche Dialogführung zu rigide → Erweiterungen nötig

Mensch-Maschine-Kommunikation mit gesprochener Sprache 12

Page 70: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung

• theoretische Grundlage: deterministischer endlicher Automat• einfachstes Automatenmodell der Informatik• effiziente Implementierung• gute Vorhersagefähigkeit → starke Einschränkung des

aktiven Wortschatzes

• für natürliche Dialogführung zu rigide → Erweiterungen nötig• wechselnde Prompts• ”Hineinreden” in den Prompt (barge in)• ...

Mensch-Maschine-Kommunikation mit gesprochener Sprache 12

Page 71: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung

• Dialogmodellierung erfordert Vorhersehen möglicherNutzerreaktionen

• Hineinversetzen in den Nutzer• Wizard-of-Oz-Experimente

Mensch-Maschine-Kommunikation mit gesprochener Sprache 13

Page 72: ist mehr als Hören und Sprechen - nats … · Kommunikation mit gesprochener Sprache ..... ist mehr als Hören und Sprechen: Hören Kikala brint tovoluti? Mensch-Maschine-Kommunikation

Dialogmodellierung

• Dialogmodellierung erfordert Vorhersehen möglicherNutzerreaktionen

• Hineinversetzen in den Nutzer• Wizard-of-Oz-Experimente

• Dialogmodellierung schränkt die sprachliche Möglichkeiten einesNutzers stark ein

• Lenkung des Nutzers durch Vorgabe zulässigerÄußerungen (akustisches Menü)

Mensch-Maschine-Kommunikation mit gesprochener Sprache 13