Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände...

61
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachportale Sprachportale Tobias Scheffer

Transcript of Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände...

Page 1: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Universität PotsdamInstitut für Informatik

Lehrstuhl Maschinelles Lernen

SprachportaleSprachportaleTobias Scheffer

Page 2: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

MotivationS

Motivation

Es gibt grob geschätzt: Scheffer: S

Es gibt, grob geschätzt:

668 Mio. 1.15 M d

Sprachtec1 5 Mrd

Mrd.

hnologie

Die wenigsten Computer verfügen über

1.5 Mrd.

Die wenigsten Computer verfügen über Bildschirm und Tastatur.

Telefone einfacher zu benutzen,Telefone einfacher zu benutzen, erreichen mehr Menschen.

Sprache als Mensch-Maschine-Schnittstelle!

2

p

Page 3: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

MotivationS

Motivation

Ubiquitäre allgegenwärtige Information Scheffer: S

Ubiquitäre, allgegenwärtige Information. Fernbedienung mit einem Knopf, Location-based Services S

prachtec

Location based Services, …

hnologie

Auch Grauen erregende Anwendungen vorstellbar: Joghurtbecher belehrt über

wertvolle Inhaltsstoffe. Werbeplakate sprechen Passanten an.

3

Page 4: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

ÜberblickS

Überblick

Spachtechnologien: Scheffer: S

Spachtechnologien: Spracherkennung, Spracherzeugung S

prachtec

Spracherzeugung. Anwendungsentwicklung:

SRGS, SSML, VoiceXML, hnologie

SRGS, SSML, VoiceXML, Beispiel.

Anwendungen.g Forschung und weitere Entwicklung:

woran hängt es?g

4

Page 5: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherkennung: Mathematisches PrinzipS

Spracherkennung: Mathematisches Prinzip

Komponenten: Akustisches und Sprachmodell Scheffer: S

Komponenten: Akustisches und Sprachmodell.

Posterior: wie wahrscheinlich argmax: beste Sprachtec

)Signal|Wortfolge(maxarg P

ist Wortfolge gegeben Signal?Wortfolge.

hnologie llSprachmodeModellsAkustische

)Wortfolge(

)Wortfolge(

)Wortfolge()Wortfolge|Signal(maxarg

)Signal|Wortfolge(maxarg

PP

P

llSprachmodeModell sAkustische

Bayes

Prior: wie wahrscheinlich ist Wortfolge generell?

Likelihood: wie gut passt Signal zu Wortfolge?

5

g gg g

Page 6: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherkennung: Mathematisches PrinzipS

Spracherkennung: Mathematisches PrinzipS

cheffer: SSprachtec

)Signal|Wortfolge(maxarg P hnologie llSprachmodeModellsAkustische

)Wortfolge(

)Wortfolge(

)Wortfolge()Wortfolge|Signal(maxarg

)Signal|Wortfolge(maxarg

PP

P

llSprachmodeModell sAkustische

Anpassung des Erkenners an neue Domäne: Sprachmodell aus Texten lernen. Durch (probabilistische) Grammatik spezifiziert

6

Durch (probabilistische) Grammatik spezifiziert.

Page 7: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherkennung: Mathematisches PrinzipS

Spracherkennung: Mathematisches PrinzipS

cheffer: SSprachtec

)Signal|Wortfolge(maxarg P hnologie llSprachmodeModellsAkustische

)Wortfolge(

)Wortfolge(

)Wortfolge()Wortfolge|Signal(maxarg

)Signal|Wortfolge(maxarg

PP

P

Akustisches Modell:

llSprachmodeModell sAkustische

Akustisches Modell: Aus annotierten Sprachproben trainiert. Phonemische Modelle: Signal Phone.

7

Aussprachenetze: Phone Wörter.

Page 8: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherkennung: Mathematisches PrinzipS

Spracherkennung: Mathematisches Prinzip

Dekodierung (Prozess der Spracherkennung):

Scheffer: S

Dekodierung (Prozess der Spracherkennung): Suche im Raum der möglichen Wortfolgen. Suchalgorithmen, Viterbi Beam Search. S

prachtec

)Signal|Wortfolge(maxarg P

Suchalgorithmen, Viterbi Beam Search.

hnologie llSprachmodeModellsAkustische

)Wortfolge(

)Wortfolge(

)Wortfolge()Wortfolge|Signal(maxarg

)Signal|Wortfolge(maxarg

PP

P

llSprachmodeModell sAkustische

8

Page 9: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherkennung: Akustisches ModellS

Spracherkennung: Akustisches Modell Ganze Wörter: S

cheffer: S

Ganze Wörter: Erkennung weniger, isolierter Wörter (z.B. Ziffern). Keine Generalisierung unbekannter Wörter. S

prachtec

Gemeinsame Phone in verschiedenen Wörtern. Silben:

hnologie

Gut für Japanisch (50 Silben), sonst schlecht (Englisch: 30.000 Silben).

Phon: Phon: Kleinste Einheit einer sprachlichen Äußerung. Phonem: Bedeutungsunterscheidende Einheit. Phonem: Bedeutungsunterscheidende Einheit. 50 Phone im Englischen. Aber Aussprache kontextabhängig.

9

Page 10: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherkennung: akustisches ModellS

Spracherkennung: akustisches Modell

Short-Time-Fourier-Transformation: Scheffer: S

Short-Time-Fourier-Transformation: Signal Sinus (Frequenz ) = Anteil am Signal.

Zu jedem Zeitpunkt: Sprachtec

Zu jedem Zeitpunkt: Amplituden von ca. 24 Bändern. Dekorrelation, Reduktion: Cepstral-Attribute. hnologie

Dekorrelation, Reduktion: Cepstral Attribute. Ergebnis: ca. 20-50 kontinuierliche Attribute.

2907.2

Zeitabhängige Überlagerung von Schwingungen

1.1

29.0

von Schwingungen .

n

NinkekXkX /2][][

10

Page 11: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherkennung: Akustisches ModellS

Spracherkennung: Akustisches Modell

Triphon-Klassenmodelle Scheffer: S

Triphon-Klassenmodelle. Aussprache des Phons hängt von Nachbarphonen ab. b“ und p“ haben denselben Einfluss auf einen S

prachtec

„b und „p haben denselben Einfluss auf einen folgenden Vokal, ebenso „r“ und „w“.

Solche Kontexte werden zu Klassen zusammen hnologie

gefasst um die Anzahl der Modellparameter zu reduzieren.

Senone: Senone: Cluster von ähnlichen subphonetischen Einheiten,

gemeinsame Modellparametergemeinsame Modellparameter.

11

Page 12: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherkennung: Akustisches ModellS

Spracherkennung: Akustisches Modell

Hidden-Markov-Modell: Scheffer: S

Hidden-Markov-Modell: Probabilistischer endlicher Automat. Probabilistische Zustandsübergänge ija S

prachtec

Probabilistische Zustandsübergänge . Jeder Zustand hat Emissionswahrscheinlichkeiten

Ein Phon/Senon wird durch 2-20 Zustände

ija)( ti Ob

hnologie

Ein Phon/Senon wird durch 2 20 Zustände repräsentiert.

Struktur repräsentiert Aussprachevarianten.p p Meist lineare Struktur, aber Verkürzungen (Kanten, die Zustände überspringen). Aussprachevarianten.

12

Page 13: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherkennung: Hidden-Markov-ModellS

Folge der Zustände ist nicht sichtbar nur die

Spracherkennung: Hidden-Markov-ModellS

cheffer: S

Folge der Zustände ist nicht sichtbar, nur die emittierten Beobachtungen (akustische Merkmale).

Emissionswahrscheinlichkeiten als Mischung Sprachtec

Emissionswahrscheinlichkeiten als Mischung multivariater Gaußverteilungen modelliert.

hnologieZustand2

Zustand44%

90%

1

Zustand1

Zustand90%

10%

Zustand

15%5%1%1%

Zustand3

Zustand54%

80%

1

P Zustand 1

)()()|( NkbSP Σ )|( SqSqP

13

)(,)()|( tk kkjjt NkbSP xΣμx )|( 1 itjt SqSqP

Page 14: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherkennung: AussprachenetzwerkeS

Spracherkennung: Aussprachenetzwerke

Abbildung von Phonen auf Wörter Scheffer: S

Abbildung von Phonen auf Wörter. Probabilistischer endlicher Automat. Transitionswahrscheinlichkeiten aus annotiertem S

prachtec

Transitionswahrscheinlichkeiten aus annotiertem Korpus schätzen.

hnologie

14

Page 15: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherkennung: Hidden-Markov-ModellS

Spracherkennung: Hidden-Markov-Modell

Schätzung der Modellparameter: Scheffer: S

Schätzung der Modellparameter: Aus annotierten Sprachdaten, mit Baum-Welch-Algorithmus EM-Variante S

prachtec

mit Baum Welch Algorithmus, EM Variante. Finde )Parameter |atenTrainingsd(maxarg P

hnologie

Wiederhole bis Konvergenz:Wiederhole bis Konvergenz:▪ Forward-Backward berechnet▪ Berechne

S hä

,,),( jit

▪ Schätze ▪ Schätze▪ Schätze

)(1)( ik

i ( ) ( , ) ( )kij t t

t ta i j i

t

tOOt

tk

i iiObt

)()()(:

)(

15

tOOt t:

Page 16: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherkennung: Akustisches ModellS

Spracherkennung: Akustisches Modell

Dekodierung des akustischen Modells: Scheffer: S

Dekodierung des akustischen Modells: Finde Zustandsfolge gegeben akustisches Signal. n-best Viterbi-Algorithmus S

prachtec

n best Viterbi Algorithmus. n wahrscheinlichste Senone, Wörter.

hnologie

Aussprachenetz

Zustand1

Zustand2

Zustand4

10%

4%

15%5%1%1%

90%

1

Senonische HMMsZustand

3

90% Zustand54%

80%

1

Signal / Merkmale

16

Signal / Merkmale

Page 17: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherkennung: Akustisches ModellS

Spracherkennung: Akustisches Modell

Dekodierung des akustischen Modells: Scheffer: S

Dekodierung des akustischen Modells: Finde Zustandsfolge gegeben akustisches Signal. n-best Viterbi-Algorithmus S

prachtec

n best Viterbi Algorithmus. n wahrscheinlichste Senone, Wörter.

hnologie

Aussprachenetz

Zustand1

Zustand2

Zustand4

10%

4%

15%5%1%1%

90%

1

Senonische HMMsZustand

3

90% Zustand54%

80%

1

Signal / Merkmale

17

Signal / Merkmale

Page 18: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherkennung: SprachmodellS

Spracherkennung: Sprachmodell

Modellierung von )Wortfolge(P Scheffer: S

Modellierung von Wissen über Sprache:

P( Ich pflücke Bären“) = sehr gering

)Wortfolge(P

Sprachtec

P(„Ich pflücke Bären ) = sehr gering. P(„Ich pflücke Beeren“) = schon größer.

Häufig verwendete Sprachmodelle: hnologie

Häufig verwendete Sprachmodelle: N-Gramm-Modelle. Kontextfreie Grammatiken. o e e e G a a e Probabilistische Kontextfreie Grammatiken.

18

Page 19: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherkennung: SprachmodellS

Spracherkennung: Sprachmodell

N-Gramm-Modell: Scheffer: S

N-Gramm-Modell:

Markov Annahme n 1 Ordnung:

pflücke)Ich |Bären(Ich)|pflücke()Ich(Bären) pflückeIch ( PPPP

Sprachtec

Markov-Annahme n-1. Ordnung: Nur Abhängigkeiten zwischen bis zu n

aufeinanderfolgenden Wörtern. hnologie

g Längere Abhängigkeiten werden ignoriert.

Modellparameter:p Für alle Wortkombinationen: Parameter werden aus Korpus geschätzt.

)Wort,...,Wort|Wort( 1-n1nP

Häufig anwendungsspezifische Korpora (z.B. WSJ).

19

Page 20: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherkennung: SprachmodellS

Spracherkennung: Sprachmodell

Probabilistische kontextfreie Grammatik Scheffer: S

Probabilistische, kontextfreie Grammatik. Jede Regel ist mit Wahrscheinlichkeit belegt. Schätzung der Parameter aus Baum-Bank oder S

prachtec

Schätzung der Parameter aus Baum Bank oder anwendungsbezogene Festlegung.

hnologie

),|(),( GNwPqp jpqpqj

20

)|,,(),( )1()1(1 GwNwPqp mqjpqpj

Page 21: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherkennung: SprachmodellS

Spracherkennung: Sprachmodell

Probabilistische kontextfreie Grammatik Scheffer: S

Probabilistische, kontextfreie Grammatik. Dekodierung: wahrscheinlichster Pars-Baum mit

Viterbi-Algorithmus in O(n3). Sprachtec

g ( )

Höchste Inside Wahrscheinlichkeit für einen hnologie

Höchste Inside-Wahrscheinlichkeit für einenPars des Teilbaumes :▪ Initialisierung:

I d kti

),( qpiipqN

( , ) ( )ii pp p P N w

k▪ Induktion:▪ Bester Weg:▪ Parse-Baum rekonstruieren: wenn dann sind

, ,( , ) max ( ) ( , ) ( 1, )i j ki q j k n p r q j kp q P N N N p r r q

( , , )( , ) arg max ( ) ( , ) ( 1, )i j ki j k r j kp q P N N N p r r q

( , ) ( , , )i p q j k r

links und rechts im Baum.jprN ( 1)

kr qN

21

Page 22: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherkennung: DekodierungS

Spracherkennung: Dekodierung

Beam Search: Suche im Raum aller Wortfolgen Scheffer: S

Beam Search: Suche im Raum aller Wortfolgen. Speichere k beste Satzanfänge der Länge t. Akustisches Modell: n wahrscheinlichste nächste S

prachtec

Akustisches Modell: n wahrscheinlichste nächste Wörter.

Bestimme k beste Satzanfänge der Länge t+1. hnologie

)Wortfolge( )Signal|Wortfolge(maxarg P

llSprachmodeModell sAkustische

)Wortfolge(

)Wortfolge(

)Wortfolge()Wortfolge|Signal(maxarg

)g|g(g

PP

22

Page 23: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

ÜberblickS

Überblick

Sprachtechnologien: Scheffer: S

Sprachtechnologien: Spracherkennung, Spracherzeugung S

prachtec

Spracherzeugung. Anwendungsentwicklung:

SRGS, SSML, VoiceXML, hnologie

SRGS, SSML, VoiceXML, Beispiel.

Anwendungen.g Forschung und weitere Entwicklung:

woran hängt es?g

23

Page 24: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherzeugung: TextanalyseS

Spracherzeugung: Textanalyse

Vorverarbeitung: Scheffer: S

Vorverarbeitung: Expandieren von Abkürzungen. Expandieren von Zahlen Sonderzeichen S

prachtec

Expandieren von Zahlen, Sonderzeichen. Satzzeichen: Identifizieren von Sätzen, Satzenden.

Morphologische Analyse: hnologie

Morphologische Analyse: Morpheme, Silbengrenzen, Wortakzente. Morphemlexikon + Grammatik. p

Wortartenerkennung und syntaktische Analyse: Syntaxbaum, y Phrasierung, Gliederung in prosodische Gruppen.

24

Page 25: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherzeugung: PhonetisierungS

Spracherzeugung: Phonetisierung

Abbildung Wörter Phone Scheffer: S

Abbildung Wörter Phone. Aussprachelexikon für Grundformen. Aussprache abhängig von Wortart und Syntax S

prachtec

Aussprache abhängig von Wortart und Syntax („read“ / „read“).

Verwandt mit und ähnlich komplex wie Übersetzung. hnologie

Lexika und Regeln verbreitet. Statistischer Ansatz:

t tt PP

P

)Phonfolge()SyntaxKontext,,Phone|Wort(

Wortfolge)|Phonfolge(maxarg Phonfolge

25

Page 26: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherzeugung: ProsodiegenerierungS

Spracherzeugung: Prosodiegenerierung

Prosodische Information aus syntaktischen Scheffer: S

Prosodische Information aus syntaktischen Gruppen.

Prosodie aus Meta-Information (SSML). Sprachtec

Prosodie aus Meta Information (SSML). Modifikation von Tonhöhe, Geschwindigkeit.

hnologie

26

Page 27: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherzeugung: SignalerzeugungS

Spracherzeugung: Signalerzeugung

Konkatenation: Scheffer: S

Konkatenation: Aussprache eines Phons hängt von Nachbarn ab. Alle Phone werden in der Mitte geteilt S

prachtec

Alle Phone werden in der Mitte geteilt. Für jedes benachbarte Paar aus halben Phonen wird

ein Sample aufgenommen. hnologie

27

Page 28: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherzeugung: SignalerzeugungS

Spracherzeugung: Signalerzeugung

Formantsynthese: Scheffer: S

Formantsynthese: Formanten: Langsam variierende Frequenzbereiche,

in denen bei Aussprache Energiegipfel auftreten. Sprachtec

p g g p Modellbasierte Synthese des Signals.

Artikulatorische Synthese: hnologie

y Simulation der Schallerzeugungsmechanik.

Häufig konkatenative Systeme mit Wellenformmodifikation. Glattere Übergänge, natürlicherer Klang.

28

Page 29: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

ÜberblickS

Überblick

Sprachtechnologie: Scheffer: S

Sprachtechnologie: Spracherkennung, Text-to-Speech S

prachtec

Text to Speech. Anwendungsentwicklung:

SRGS, SSML, VoiceXML, hnologie

SRGS, SSML, VoiceXML, Beispiel.

Anwendungen.g Forschung und weitere Entwicklung:

woran hängt es?g

29

Page 30: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

SprachportaleS

SprachportaleAnwendungsentwicklung S

cheffer: S

VoiceXML: Ablaufsteuerung

SALT: Speech Application Language Tags

Anwendungsentwicklung

Sprachtec

SRGS S h N GRAM St h ti SSML S h

Ablaufsteuerung Language Tags

hnologie

SRGS: Speech Recognition Grammar

N-GRAM: Stochastic Language Models Specification

SSML: Speech Synthesis MarkupLanguage

Specification

Spracherkennung Spracherzeugung

Sprachtechnologie

30

Page 31: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Speech Recognition Grammar SpecificationS

Speech Recognition Grammar Specification

Version 2 1 W3C Recommendation Scheffer: S

Version 2.1 W3C Recommendation. Syntax für probabilistische, kontextfreie

Grammatiken: Sprachtec

Grammatiken: Augmented BNF oder XML. Sprache und DTMF-Eingaben. hnologie

p g

Kernelemente: Regeldefinitionen, Regelexpansionen.

31

Page 32: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

SRGS: ElementeS

SRGS: Elemente

Regeldefinition: l id b ll

Scheffer: S

Regeldefinition: Assoziiert Regel mit

Bezeichner.

<rule id = bestellung>[Regelexpansion]

</rule> Sprachtechnologie

32

Page 33: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

SRGS: ElementeS

SRGS: Elemente

Regeldefinition: Regelreferenz: Scheffer: S

Regeldefinition: Assoziiert Regel mit

Bezeichner.

Regelreferenz: Referenz auf Regel

oder N-GRAM. Sprachtec

VOID, NULL, GARBAGE.

hnologie

<rule id = bestellung><rule id bestellung><ruleref uri = #begrüßung/>

…</rule></rule>

33

Page 34: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

SRGS: ElementeS

SRGS: Elemente

Regeldefinition: Regelreferenz: Scheffer: S

Regeldefinition: Assoziiert Regel mit

Bezeichner.

Regelreferenz: Referenz auf Regel

oder N-GRAM. Sprachtec

VOID, NULL, GARBAGE.

hnologie

Alternativen:<one-of> Alternativen: Akzeptiert jede der

Varianten.

<one of><item>Caipirinha</item><item>Mojito</item><item>Zombie</item><item>Zombie</item>

</one-of>

34

Page 35: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

SRGS: ElementeS

SRGS: Elemente

f Regelreferenz: Scheffer: S

<one-of><item weight=10 >Caipirinha</item>

Regelreferenz: Referenz auf Regel

oder N-GRAM. Sprachtec

<item weight=5>Mojito</item><item weight=1>B52</item>

</one-of>

VOID, NULL, GARBAGE.

hnologie

Alternativen: Gewichtungen: Alternativen: Akzeptiert jede der

Varianten.

Gewichtungen: In Wahrscheinlichkeiten

umzurechnen. PCFG.

35

Page 36: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

N-GRAM: Stochastic Language ModelsS

N-GRAM: Stochastic Language Models

W3C Working Draft Scheffer: S

W3C Working Draft. Syntaktisches Schema zur Repräsentation von

Wörterbüchern Sprachtec

Wörterbüchern, Zählern für Auftretenshäufigkeit von N-Grammen.

Elemente hnologie

Elemente <lexicon> Lexikondeklaration, <token> Tokendeklaration, o e o e de a a o , <tree> Zähler für Auftretenshäufigkeiten, <interpolation> Lineare Interpolationsgewichte,g

36

Page 37: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

SSML: Speech Synthesis MarkupS

SSML: Speech Synthesis Markup

Version 2 1 W3C Recommendation Scheffer: S

Version 2.1 W3C Recommendation. Markup-Konventionen für Stufen der

Spracherzeugung. Sprachtec

Spracherzeugung.

ACSS: Aural Cascading Style Sheets hnologie

ACSS: Aural Cascading Style Sheets. Komplexe Markup-Definitionen, Auswahl von Sprechern für Markup-Tags, us a o Sp ec e ü a up ags, Räumliche Anordnung der Schallquellen.

37

Page 38: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

SSML: ElementeS

SSML: Elemente Normierung (Expansion von Abkürzungen S

cheffer: S

Normierung (Expansion von Abkürzungen, Währungen: <say-as>- und <sub>-Elemente. S

prachtec

<p>- und <s>-Elemente (Absatz, Satz). Konvertierung Text Phonem:

h El t hnologie

<phoneme>-Element. Beschreibung im IPA-Alphabet.

Prosodie-Analyse: Prosodie-Analyse: <emphasis>-, <break>- und <prosody>-Elemente.

Signalerzeugung:g g g <voice>-Element, Stimm-Auswahl. Attribute gender, age, variant, name.

38

Page 39: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

VoiceXMLS

VoiceXML

Version 2 0 W3C Recommendation Scheffer: S

Version 2.0 W3C Recommendation. VoiceXML Forum:

Intel AT&T HP Oracle TellMe IBM Motorola Sprachtec

Intel, AT&T, HP, Oracle, TellMe, IBM, Motorola, … Ziele:

Trennung von Awendung und Sprachtechnologie hnologie

Trennung von Awendung und Sprachtechnologie. Elemente:

Dialogsteuerung <vxml version="2.0">f Dialogsteuerung,

Spracherkennung und –Synthese, DTMF,

<form> <block>

<prompt> Hello world! Aufzeichnung und

Wiedergabe.</prompt>

</block> </form> </vxml>

39

Page 40: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

VoiceXML: KonzepteS

VoiceXML: Konzepte

Dialoge und Subdialoge: Scheffer: S

Dialoge und Subdialoge: Menüs: Verzweigungspunkte. Forms: ausfüllbare Formulare S

prachtec

Forms: ausfüllbare Formulare. Events: Behandlung von Ausnahmesituationen. Links: hnologie

Links: Grammatik, die in einem Gültigkeitsbereichaktiv ist. Löst Event aus oder verweist auf Ziel-URI. ös e aus ode e e s au e U

Prozedurale Elemente: <var>, <assign>, <goto>,, g , g , <if> <else/> </if>. <objekt>: Aufruf eines plattformabhängigen Objekts.

40

Page 41: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

VoiceXML: Erzeugung von DokumentenS

VoiceXML: Erzeugung von Dokumenten

VoiceXML-Dokument wird meist generiert Scheffer: S

VoiceXML-Dokument wird meist generiert, genau wie HTML, z B mit XSLT aus XML-Beschreibung der Inhalte S

prachtec

z.B. mit XSLT aus XML Beschreibung der Inhalte.

<cocktailkarte><cocktail>

<xsl:template match=“cocktailkarte”>Cocktailkarte hnologie

<cocktail><name>Caipirinha</name><beschr>Nationalgetränk

Brasiliens</beschr>

Cocktailkarte<xsl:template match=“cocktail”>

<voice gender = male><xsl:value-of select=“name”/>

</cocktail>…

</cocktailkarte>

</voice><p/><voice gender = female>

<xsl:value-of select=“beschr”/><xsl:value of select beschr /></voice>

</xsl:template>…

<voice gender=male>Caipirinha</voice><voice gender=female>

41

</xsl:template>g

Nationalgetränk Brasiliens</voice>

Page 42: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

VoiceXML Elemente: FormsS

VoiceXML Elemente: Forms

<form>: Formular; <field>: auszufüllendes Feld Scheffer: S

<form>: Formular; <field>: auszufüllendes Feld. Attribute und Methoden:

Bezeichner dient später als Referenz Sprachtec

Bezeichner, dient später als Referenz. Mit Eingabe zu belegende Variablen, Scope: lokal für Dialog oder global, hnologie

Scope: lokal für Dialog oder global, Event-Handler, Aktionen wie Rufweiterleitung. Bedingungen für Felder.g g

42

Page 43: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

VoiceXML Elemente: FormsS

VoiceXML Elemente: Forms

Interpretation: Scheffer: S

Interpretation: Solange nicht jedes <field> aufgefüllt, wähle <field> lies <prompt> warte auf Eingabe S

prachtec

wähle field , lies prompt , warte auf Eingabe.

hnologie

<form id=bestellung><block>Sie können jetzt bestellen.</block><field name=„getränk“>field name „getränk

<prompt>Was möchten Sie trinken?</prompt><grammar src= cocktail grxml“ type= application/srgs+xml“/><grammar src=„cocktail.grxml type=„application/srgs+xml />

</field></form>

43

Page 44: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

VoiceXML Forms: Mixed InitiativeS

VoiceXML Forms: Mixed Initiative

<initial> initiales Element: Prompt bei erster Scheffer: S

<initial>, initiales Element: Prompt bei erster Iteration über Form.

Benutzer kann ein oder gleich mehrere Felder Sprachtec

Benutzer kann ein oder gleich mehrere Felder füllen.

Interpreter spielt danach Prompt des ersten jetzt hnologie

p p p jnoch freien Feldes ab.

> Wohin dürfen wir den Cocktail liefern?Bitte in die August-Bebel-Str. 89, mein Name ist Scheffermein Name ist Scheffer.> Wie lautet Ihre Postleitzahl?

44

Page 45: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

VoiceXML - BeispielS

VoiceXML - BeispielS

cheffer: SSprachtechnologie

45

Page 46: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

SALT: Speech Application Language TagsS

SALT: Speech Application Language Tags

Erweiterung von HTML um sprach-orientierte Tags Scheffer: S

Erweiterung von HTML um sprach-orientierte Tags. Sprachsteuerung von Browsern. Multimodale Browser S

prachtec

Multimodale Browser. Basiert auf SRGS und SSML. Microsoft Speech Server. hnologie

p OpenSALT.

46

Page 47: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

ÜberblickS

Überblick

Unter der Haube: Scheffer: S

Unter der Haube: Spracherkennung, Text-to-Speech S

prachtec

Text to Speech. Anwendungsentwicklung:

SRGS, SSML, VoiceXML, hnologie

SRGS, SSML, VoiceXML, Beispiel.

Anwendungen.g Forschung und weitere Entwicklung:

woran hängt es?g

47

Page 48: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Sprachportale: AnwendungenS

Sprachportale: Anwendungen

Bankgeschäfte: Scheffer: S

Bankgeschäfte: Statusabfragen, Aufträge S

prachtec

Aufträge, Wertpapierhandel.

hnologie

48

Page 49: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Sprachportale: AnwendungenS

Sprachportale: Anwendungen

Bankgeschäfte: Wirtschaft und Scheffer: S

Bankgeschäfte: Statusabfragen, Aufträge

Wirtschaft und Handel: Versandhandel, S

prachtec

Aufträge, Wertpapierhandel.

, Bestellungen.

hnologie

49

Page 50: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Sprachportale: AnwendungenS

Sprachportale: Anwendungen

Bankgeschäfte: Wirtschaft und Scheffer: S

Bankgeschäfte: Statusabfragen, Aufträge

Wirtschaft und Handel: Versandhandel, S

prachtec

Aufträge, Wertpapierhandel.

, Bestellungen.

hnologie

Information Retrieval: Information Retrieval: Wetterauskunft, Telefonauskunft Telefonauskunft, Kino, Sport.

50

Page 51: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Sprachportale: AnwendungenS

Sprachportale: Anwendungen

Wirtschaft und Scheffer: S

Wirtschaft und Handel: Versandhandel, S

prachtec

, Bestellungen.

hnologie

Information Retrieval: Unified Messaging: Information Retrieval: Wetterauskunft, Telefonauskunft

Unified Messaging: Vorlesen von SMS, Email-Portale Telefonauskunft,

Kino, Sport. Email Portale, Voice-Office.

51

Page 52: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

ÜberblickS

Überblick

Unter der Haube: Scheffer: S

Unter der Haube: Spracherkennung, Text-to-Speech S

prachtec

Text to Speech. Anwendungsentwicklung:

SRGS, SSML, VoiceXML, hnologie

SRGS, SSML, VoiceXML, Beispiel.

Anwendungen.g Forschung und weitere Entwicklung:

woran hängt es?g

52

Page 53: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Woran hängt es?S

Woran hängt es?

Spracherkennung ist eine Schwachstelle: Scheffer: S

Spracherkennung ist eine Schwachstelle: Benutzerspezifisch oder Thematisch fokussiert.

Sprachtec

Mensch gegen Maschine Mensch MaschineWSJ 0.90% 4.50%

1 10%

hnologie

WSJ, verrauscht 1.10% 8.60%WSJ, Trigramm-Texte 7.60% 4.40%

Perfektes Sprachmodell: Spracherkenner schlagen Sekretärinnen! [Huang et al 2001]Sekretärinnen! [Huang et al., 2001].

Argument: Brauchen bessere Sprachmodelle.

53

Page 54: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Forschungsfragen: SpracherkennungS

Forschungsfragen: Spracherkennung

Sprachmodelle nicht gut genug zu wenig Scheffer: S

Sprachmodelle nicht gut genug, zu wenig Hintergrundwissen. LDA: Kontextinformation im Sprachmodell S

prachtec

pberücksichtigen [Blei & Jordan, 2003].

Diskriminative Modelle: angemessenere hnologie

Optimierungskriterien. Stufenweise Verarbeitung:

Problem: Fehler summieren sich über die Verarbeitungsstufen.

Integration in ein gemeinsames Integration in ein gemeinsames Optimierungsproblem: Rechenaufwand! [z.B. Tsochanidardis et al. 2005].

54

]

Page 55: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Forschungsfragen: SprachverstehenS

Forschungsfragen: SprachverstehenS

cheffer: S

VoiceXML: Dialoge per Skript gesteuert. Bis auf Mixed Initiative Dialoge.

N t l L U d t di

Sprachtec

Natural Language Understanding: Ermittle beste Aktion bzw. Äußerung im aktuellen

Dialogzustand für gegebenes Dialog Ziel hnologie

Dialogzustand für gegebenes Dialog-Ziel.

Dialogmanager

)Bedeutung|Zustand()Zustand|Aktion(maxarg

)ZustandEingabe,|Aktion(maxarg 1

PP

P

tttAktion

t-tAktion

t

t

)Eingabe|Bedeutung(P

S ti h P Di k l

55

Semantischer Parser Diskursanalyse

Page 56: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Weitere Entwicklung VoiceXMLS

Weitere Entwicklung VoiceXML Gegenwärtige Entwicklung: S

cheffer: S

Gegenwärtige Entwicklung: Call Control: Verbindungen herstellen, managen. Repräsentation von Semantik, NLSML. S

prachtec

N-Gramme. Zukünftige Entwicklung:

hnologie

Sprechererkennung. Word Spotting, Klassifikation, Summarization. Übersetzung Übersetzung. Musikgenerierung.

Noch nicht geplant:g p Multimodale Dialoge. SPIs für NLP-Funktionalität.

56

Page 57: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Forschungsfragen: Conversational AgentsS

Forschungsfragen: Conversational Agents

Multimodale Benutzerschnittstellen: Scheffer: S

Multimodale Benutzerschnittstellen: Sprache, Gesten, Gesichtsausdruck, …

Konversationsmodelle Verkaufsagenten Sprachtec

Konversationsmodelle, Verkaufsagenten. Lernen von Konversationsskripten [Kadous, 2004].

hnologie Alternative Plattform: Microsoft AgentsMicrosoft Agents

57

Page 58: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

ZusammenfassungS

Zusammenfassung

Sprach-Technologie: Scheffer: S

Sprach-Technologie: Spracherkennung, Spracherzeugung. Forschung: Sprachmodelle Parameteroptimierung S

prachtec

Forschung: Sprachmodelle, Parameteroptimierung, Signalverarbeitung.

Technologien für Anwendungsentwicklung: hnologie

g g g SRGS, SSML, VoiceXML. Nicht ausgereift, aber weit entwickelt. Forschung: Generierte, statt gescripteter Dialoge.

Anwendungen: Retrieval, mobile Services, Finanzwirtschaft, Handel, Unified Messaging.

58

Page 59: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Sprachportale - ProblemeS

Sprachportale - Probleme

Sprache weniger geeignet zum Editieren von Scheffer: S

Sprache weniger geeignet zum Editieren von Texten.

Unimodal, keine Grafik. Sprachtec

Unimodal, keine Grafik. Gedächtnis beschränkt, kein schnelles Nachsehen. Sprache langsamer als Text hnologie

Sprache langsamer als Text. Sprache problematisch in

Öffentlichkeit Öffentlichkeit, lauten Umgebungen

59

Page 60: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherzeugung: ZusammenfassungS

Spracherzeugung: ZusammenfassungS

cheffer: S

Vorverarbeitung, Satzenden, Zahlen, Abkürzungen.

Text

A ti t T t

Sprachtec

, g Morphologische Analyse. Wortarterkennung,

Annotierter Text

Morphemfolge hnologie

g,Syntaxanalyse

Aussprachelexika, Wortarten, Parsbaumprosodische Gruppen

Übersetzung. Prosodieerzeugung, Folge von Phonen

Signalerzeugung.Signal

60

Page 61: Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände b i (O t) hnologie Ein Phon/Senon wird durch 2 20 Zustände repräsentiert. Struktur

Spracherkennung: ZusammenfassungS

Spracherkennung: Zusammenfassung

Diskretisierung FourierAkustisches Signal Scheffer: S

Diskretisierung, Fourier, Merkmalsextraktion.

n-best Viterbi-Dekodierung im

Akustisches Signal

Merkmalsvektor für jeden Zeitschritt S

prachtec

n best Viterbi Dekodierung im phonetischen Modell.

n wahrschenlichste Pfade im

jeden Zeitschritt

Akustisches Modell:HMM fü Ph hnologie

Aussprachenetz, dynamische Programmierung.

HMM für Phone

Akustisches Modell:

Beam-Search-Dekodierung.

Aussprachenetz

Sprachmodell:pN-Gramm, Grammatik

Folge von Wörtern

61

Folge von Wörtern