Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände...
Transcript of Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände...
Universität PotsdamInstitut für Informatik
Lehrstuhl Maschinelles Lernen
SprachportaleSprachportaleTobias Scheffer
MotivationS
Motivation
Es gibt grob geschätzt: Scheffer: S
Es gibt, grob geschätzt:
668 Mio. 1.15 M d
Sprachtec1 5 Mrd
Mrd.
hnologie
Die wenigsten Computer verfügen über
1.5 Mrd.
Die wenigsten Computer verfügen über Bildschirm und Tastatur.
Telefone einfacher zu benutzen,Telefone einfacher zu benutzen, erreichen mehr Menschen.
Sprache als Mensch-Maschine-Schnittstelle!
2
p
MotivationS
Motivation
Ubiquitäre allgegenwärtige Information Scheffer: S
Ubiquitäre, allgegenwärtige Information. Fernbedienung mit einem Knopf, Location-based Services S
prachtec
Location based Services, …
hnologie
Auch Grauen erregende Anwendungen vorstellbar: Joghurtbecher belehrt über
wertvolle Inhaltsstoffe. Werbeplakate sprechen Passanten an.
3
ÜberblickS
Überblick
Spachtechnologien: Scheffer: S
Spachtechnologien: Spracherkennung, Spracherzeugung S
prachtec
Spracherzeugung. Anwendungsentwicklung:
SRGS, SSML, VoiceXML, hnologie
SRGS, SSML, VoiceXML, Beispiel.
Anwendungen.g Forschung und weitere Entwicklung:
woran hängt es?g
4
Spracherkennung: Mathematisches PrinzipS
Spracherkennung: Mathematisches Prinzip
Komponenten: Akustisches und Sprachmodell Scheffer: S
Komponenten: Akustisches und Sprachmodell.
Posterior: wie wahrscheinlich argmax: beste Sprachtec
)Signal|Wortfolge(maxarg P
ist Wortfolge gegeben Signal?Wortfolge.
hnologie llSprachmodeModellsAkustische
)Wortfolge(
)Wortfolge(
)Wortfolge()Wortfolge|Signal(maxarg
)Signal|Wortfolge(maxarg
PP
P
llSprachmodeModell sAkustische
Bayes
Prior: wie wahrscheinlich ist Wortfolge generell?
Likelihood: wie gut passt Signal zu Wortfolge?
5
g gg g
Spracherkennung: Mathematisches PrinzipS
Spracherkennung: Mathematisches PrinzipS
cheffer: SSprachtec
)Signal|Wortfolge(maxarg P hnologie llSprachmodeModellsAkustische
)Wortfolge(
)Wortfolge(
)Wortfolge()Wortfolge|Signal(maxarg
)Signal|Wortfolge(maxarg
PP
P
llSprachmodeModell sAkustische
Anpassung des Erkenners an neue Domäne: Sprachmodell aus Texten lernen. Durch (probabilistische) Grammatik spezifiziert
6
Durch (probabilistische) Grammatik spezifiziert.
Spracherkennung: Mathematisches PrinzipS
Spracherkennung: Mathematisches PrinzipS
cheffer: SSprachtec
)Signal|Wortfolge(maxarg P hnologie llSprachmodeModellsAkustische
)Wortfolge(
)Wortfolge(
)Wortfolge()Wortfolge|Signal(maxarg
)Signal|Wortfolge(maxarg
PP
P
Akustisches Modell:
llSprachmodeModell sAkustische
Akustisches Modell: Aus annotierten Sprachproben trainiert. Phonemische Modelle: Signal Phone.
7
Aussprachenetze: Phone Wörter.
Spracherkennung: Mathematisches PrinzipS
Spracherkennung: Mathematisches Prinzip
Dekodierung (Prozess der Spracherkennung):
Scheffer: S
Dekodierung (Prozess der Spracherkennung): Suche im Raum der möglichen Wortfolgen. Suchalgorithmen, Viterbi Beam Search. S
prachtec
)Signal|Wortfolge(maxarg P
Suchalgorithmen, Viterbi Beam Search.
hnologie llSprachmodeModellsAkustische
)Wortfolge(
)Wortfolge(
)Wortfolge()Wortfolge|Signal(maxarg
)Signal|Wortfolge(maxarg
PP
P
llSprachmodeModell sAkustische
8
Spracherkennung: Akustisches ModellS
Spracherkennung: Akustisches Modell Ganze Wörter: S
cheffer: S
Ganze Wörter: Erkennung weniger, isolierter Wörter (z.B. Ziffern). Keine Generalisierung unbekannter Wörter. S
prachtec
Gemeinsame Phone in verschiedenen Wörtern. Silben:
hnologie
Gut für Japanisch (50 Silben), sonst schlecht (Englisch: 30.000 Silben).
Phon: Phon: Kleinste Einheit einer sprachlichen Äußerung. Phonem: Bedeutungsunterscheidende Einheit. Phonem: Bedeutungsunterscheidende Einheit. 50 Phone im Englischen. Aber Aussprache kontextabhängig.
9
Spracherkennung: akustisches ModellS
Spracherkennung: akustisches Modell
Short-Time-Fourier-Transformation: Scheffer: S
Short-Time-Fourier-Transformation: Signal Sinus (Frequenz ) = Anteil am Signal.
Zu jedem Zeitpunkt: Sprachtec
Zu jedem Zeitpunkt: Amplituden von ca. 24 Bändern. Dekorrelation, Reduktion: Cepstral-Attribute. hnologie
Dekorrelation, Reduktion: Cepstral Attribute. Ergebnis: ca. 20-50 kontinuierliche Attribute.
2907.2
Zeitabhängige Überlagerung von Schwingungen
1.1
29.0
von Schwingungen .
n
NinkekXkX /2][][
10
Spracherkennung: Akustisches ModellS
Spracherkennung: Akustisches Modell
Triphon-Klassenmodelle Scheffer: S
Triphon-Klassenmodelle. Aussprache des Phons hängt von Nachbarphonen ab. b“ und p“ haben denselben Einfluss auf einen S
prachtec
„b und „p haben denselben Einfluss auf einen folgenden Vokal, ebenso „r“ und „w“.
Solche Kontexte werden zu Klassen zusammen hnologie
gefasst um die Anzahl der Modellparameter zu reduzieren.
Senone: Senone: Cluster von ähnlichen subphonetischen Einheiten,
gemeinsame Modellparametergemeinsame Modellparameter.
11
Spracherkennung: Akustisches ModellS
Spracherkennung: Akustisches Modell
Hidden-Markov-Modell: Scheffer: S
Hidden-Markov-Modell: Probabilistischer endlicher Automat. Probabilistische Zustandsübergänge ija S
prachtec
Probabilistische Zustandsübergänge . Jeder Zustand hat Emissionswahrscheinlichkeiten
Ein Phon/Senon wird durch 2-20 Zustände
ija)( ti Ob
hnologie
Ein Phon/Senon wird durch 2 20 Zustände repräsentiert.
Struktur repräsentiert Aussprachevarianten.p p Meist lineare Struktur, aber Verkürzungen (Kanten, die Zustände überspringen). Aussprachevarianten.
12
Spracherkennung: Hidden-Markov-ModellS
Folge der Zustände ist nicht sichtbar nur die
Spracherkennung: Hidden-Markov-ModellS
cheffer: S
Folge der Zustände ist nicht sichtbar, nur die emittierten Beobachtungen (akustische Merkmale).
Emissionswahrscheinlichkeiten als Mischung Sprachtec
Emissionswahrscheinlichkeiten als Mischung multivariater Gaußverteilungen modelliert.
hnologieZustand2
Zustand44%
90%
1
Zustand1
Zustand90%
10%
Zustand
15%5%1%1%
Zustand3
Zustand54%
80%
1
P Zustand 1
)()()|( NkbSP Σ )|( SqSqP
13
)(,)()|( tk kkjjt NkbSP xΣμx )|( 1 itjt SqSqP
Spracherkennung: AussprachenetzwerkeS
Spracherkennung: Aussprachenetzwerke
Abbildung von Phonen auf Wörter Scheffer: S
Abbildung von Phonen auf Wörter. Probabilistischer endlicher Automat. Transitionswahrscheinlichkeiten aus annotiertem S
prachtec
Transitionswahrscheinlichkeiten aus annotiertem Korpus schätzen.
hnologie
14
Spracherkennung: Hidden-Markov-ModellS
Spracherkennung: Hidden-Markov-Modell
Schätzung der Modellparameter: Scheffer: S
Schätzung der Modellparameter: Aus annotierten Sprachdaten, mit Baum-Welch-Algorithmus EM-Variante S
prachtec
mit Baum Welch Algorithmus, EM Variante. Finde )Parameter |atenTrainingsd(maxarg P
hnologie
Wiederhole bis Konvergenz:Wiederhole bis Konvergenz:▪ Forward-Backward berechnet▪ Berechne
S hä
,,),( jit
▪ Schätze ▪ Schätze▪ Schätze
)(1)( ik
i ( ) ( , ) ( )kij t t
t ta i j i
t
tOOt
tk
i iiObt
)()()(:
)(
15
tOOt t:
Spracherkennung: Akustisches ModellS
Spracherkennung: Akustisches Modell
Dekodierung des akustischen Modells: Scheffer: S
Dekodierung des akustischen Modells: Finde Zustandsfolge gegeben akustisches Signal. n-best Viterbi-Algorithmus S
prachtec
n best Viterbi Algorithmus. n wahrscheinlichste Senone, Wörter.
hnologie
Aussprachenetz
Zustand1
Zustand2
Zustand4
10%
4%
15%5%1%1%
90%
1
Senonische HMMsZustand
3
90% Zustand54%
80%
1
Signal / Merkmale
16
Signal / Merkmale
Spracherkennung: Akustisches ModellS
Spracherkennung: Akustisches Modell
Dekodierung des akustischen Modells: Scheffer: S
Dekodierung des akustischen Modells: Finde Zustandsfolge gegeben akustisches Signal. n-best Viterbi-Algorithmus S
prachtec
n best Viterbi Algorithmus. n wahrscheinlichste Senone, Wörter.
hnologie
Aussprachenetz
Zustand1
Zustand2
Zustand4
10%
4%
15%5%1%1%
90%
1
Senonische HMMsZustand
3
90% Zustand54%
80%
1
Signal / Merkmale
17
Signal / Merkmale
Spracherkennung: SprachmodellS
Spracherkennung: Sprachmodell
Modellierung von )Wortfolge(P Scheffer: S
Modellierung von Wissen über Sprache:
P( Ich pflücke Bären“) = sehr gering
)Wortfolge(P
Sprachtec
P(„Ich pflücke Bären ) = sehr gering. P(„Ich pflücke Beeren“) = schon größer.
Häufig verwendete Sprachmodelle: hnologie
Häufig verwendete Sprachmodelle: N-Gramm-Modelle. Kontextfreie Grammatiken. o e e e G a a e Probabilistische Kontextfreie Grammatiken.
18
Spracherkennung: SprachmodellS
Spracherkennung: Sprachmodell
N-Gramm-Modell: Scheffer: S
N-Gramm-Modell:
Markov Annahme n 1 Ordnung:
pflücke)Ich |Bären(Ich)|pflücke()Ich(Bären) pflückeIch ( PPPP
Sprachtec
Markov-Annahme n-1. Ordnung: Nur Abhängigkeiten zwischen bis zu n
aufeinanderfolgenden Wörtern. hnologie
g Längere Abhängigkeiten werden ignoriert.
Modellparameter:p Für alle Wortkombinationen: Parameter werden aus Korpus geschätzt.
)Wort,...,Wort|Wort( 1-n1nP
Häufig anwendungsspezifische Korpora (z.B. WSJ).
19
Spracherkennung: SprachmodellS
Spracherkennung: Sprachmodell
Probabilistische kontextfreie Grammatik Scheffer: S
Probabilistische, kontextfreie Grammatik. Jede Regel ist mit Wahrscheinlichkeit belegt. Schätzung der Parameter aus Baum-Bank oder S
prachtec
Schätzung der Parameter aus Baum Bank oder anwendungsbezogene Festlegung.
hnologie
),|(),( GNwPqp jpqpqj
20
)|,,(),( )1()1(1 GwNwPqp mqjpqpj
Spracherkennung: SprachmodellS
Spracherkennung: Sprachmodell
Probabilistische kontextfreie Grammatik Scheffer: S
Probabilistische, kontextfreie Grammatik. Dekodierung: wahrscheinlichster Pars-Baum mit
Viterbi-Algorithmus in O(n3). Sprachtec
g ( )
Höchste Inside Wahrscheinlichkeit für einen hnologie
Höchste Inside-Wahrscheinlichkeit für einenPars des Teilbaumes :▪ Initialisierung:
I d kti
),( qpiipqN
( , ) ( )ii pp p P N w
k▪ Induktion:▪ Bester Weg:▪ Parse-Baum rekonstruieren: wenn dann sind
, ,( , ) max ( ) ( , ) ( 1, )i j ki q j k n p r q j kp q P N N N p r r q
( , , )( , ) arg max ( ) ( , ) ( 1, )i j ki j k r j kp q P N N N p r r q
( , ) ( , , )i p q j k r
links und rechts im Baum.jprN ( 1)
kr qN
21
Spracherkennung: DekodierungS
Spracherkennung: Dekodierung
Beam Search: Suche im Raum aller Wortfolgen Scheffer: S
Beam Search: Suche im Raum aller Wortfolgen. Speichere k beste Satzanfänge der Länge t. Akustisches Modell: n wahrscheinlichste nächste S
prachtec
Akustisches Modell: n wahrscheinlichste nächste Wörter.
Bestimme k beste Satzanfänge der Länge t+1. hnologie
)Wortfolge( )Signal|Wortfolge(maxarg P
llSprachmodeModell sAkustische
)Wortfolge(
)Wortfolge(
)Wortfolge()Wortfolge|Signal(maxarg
)g|g(g
PP
22
ÜberblickS
Überblick
Sprachtechnologien: Scheffer: S
Sprachtechnologien: Spracherkennung, Spracherzeugung S
prachtec
Spracherzeugung. Anwendungsentwicklung:
SRGS, SSML, VoiceXML, hnologie
SRGS, SSML, VoiceXML, Beispiel.
Anwendungen.g Forschung und weitere Entwicklung:
woran hängt es?g
23
Spracherzeugung: TextanalyseS
Spracherzeugung: Textanalyse
Vorverarbeitung: Scheffer: S
Vorverarbeitung: Expandieren von Abkürzungen. Expandieren von Zahlen Sonderzeichen S
prachtec
Expandieren von Zahlen, Sonderzeichen. Satzzeichen: Identifizieren von Sätzen, Satzenden.
Morphologische Analyse: hnologie
Morphologische Analyse: Morpheme, Silbengrenzen, Wortakzente. Morphemlexikon + Grammatik. p
Wortartenerkennung und syntaktische Analyse: Syntaxbaum, y Phrasierung, Gliederung in prosodische Gruppen.
24
Spracherzeugung: PhonetisierungS
Spracherzeugung: Phonetisierung
Abbildung Wörter Phone Scheffer: S
Abbildung Wörter Phone. Aussprachelexikon für Grundformen. Aussprache abhängig von Wortart und Syntax S
prachtec
Aussprache abhängig von Wortart und Syntax („read“ / „read“).
Verwandt mit und ähnlich komplex wie Übersetzung. hnologie
Lexika und Regeln verbreitet. Statistischer Ansatz:
t tt PP
P
)Phonfolge()SyntaxKontext,,Phone|Wort(
Wortfolge)|Phonfolge(maxarg Phonfolge
25
Spracherzeugung: ProsodiegenerierungS
Spracherzeugung: Prosodiegenerierung
Prosodische Information aus syntaktischen Scheffer: S
Prosodische Information aus syntaktischen Gruppen.
Prosodie aus Meta-Information (SSML). Sprachtec
Prosodie aus Meta Information (SSML). Modifikation von Tonhöhe, Geschwindigkeit.
hnologie
26
Spracherzeugung: SignalerzeugungS
Spracherzeugung: Signalerzeugung
Konkatenation: Scheffer: S
Konkatenation: Aussprache eines Phons hängt von Nachbarn ab. Alle Phone werden in der Mitte geteilt S
prachtec
Alle Phone werden in der Mitte geteilt. Für jedes benachbarte Paar aus halben Phonen wird
ein Sample aufgenommen. hnologie
27
Spracherzeugung: SignalerzeugungS
Spracherzeugung: Signalerzeugung
Formantsynthese: Scheffer: S
Formantsynthese: Formanten: Langsam variierende Frequenzbereiche,
in denen bei Aussprache Energiegipfel auftreten. Sprachtec
p g g p Modellbasierte Synthese des Signals.
Artikulatorische Synthese: hnologie
y Simulation der Schallerzeugungsmechanik.
Häufig konkatenative Systeme mit Wellenformmodifikation. Glattere Übergänge, natürlicherer Klang.
28
ÜberblickS
Überblick
Sprachtechnologie: Scheffer: S
Sprachtechnologie: Spracherkennung, Text-to-Speech S
prachtec
Text to Speech. Anwendungsentwicklung:
SRGS, SSML, VoiceXML, hnologie
SRGS, SSML, VoiceXML, Beispiel.
Anwendungen.g Forschung und weitere Entwicklung:
woran hängt es?g
29
SprachportaleS
SprachportaleAnwendungsentwicklung S
cheffer: S
VoiceXML: Ablaufsteuerung
SALT: Speech Application Language Tags
Anwendungsentwicklung
Sprachtec
SRGS S h N GRAM St h ti SSML S h
Ablaufsteuerung Language Tags
hnologie
SRGS: Speech Recognition Grammar
N-GRAM: Stochastic Language Models Specification
SSML: Speech Synthesis MarkupLanguage
Specification
Spracherkennung Spracherzeugung
Sprachtechnologie
30
Speech Recognition Grammar SpecificationS
Speech Recognition Grammar Specification
Version 2 1 W3C Recommendation Scheffer: S
Version 2.1 W3C Recommendation. Syntax für probabilistische, kontextfreie
Grammatiken: Sprachtec
Grammatiken: Augmented BNF oder XML. Sprache und DTMF-Eingaben. hnologie
p g
Kernelemente: Regeldefinitionen, Regelexpansionen.
31
SRGS: ElementeS
SRGS: Elemente
Regeldefinition: l id b ll
Scheffer: S
Regeldefinition: Assoziiert Regel mit
Bezeichner.
<rule id = bestellung>[Regelexpansion]
</rule> Sprachtechnologie
32
SRGS: ElementeS
SRGS: Elemente
Regeldefinition: Regelreferenz: Scheffer: S
Regeldefinition: Assoziiert Regel mit
Bezeichner.
Regelreferenz: Referenz auf Regel
oder N-GRAM. Sprachtec
VOID, NULL, GARBAGE.
hnologie
<rule id = bestellung><rule id bestellung><ruleref uri = #begrüßung/>
…</rule></rule>
33
SRGS: ElementeS
SRGS: Elemente
Regeldefinition: Regelreferenz: Scheffer: S
Regeldefinition: Assoziiert Regel mit
Bezeichner.
Regelreferenz: Referenz auf Regel
oder N-GRAM. Sprachtec
VOID, NULL, GARBAGE.
hnologie
Alternativen:<one-of> Alternativen: Akzeptiert jede der
Varianten.
<one of><item>Caipirinha</item><item>Mojito</item><item>Zombie</item><item>Zombie</item>
</one-of>
34
SRGS: ElementeS
SRGS: Elemente
f Regelreferenz: Scheffer: S
<one-of><item weight=10 >Caipirinha</item>
Regelreferenz: Referenz auf Regel
oder N-GRAM. Sprachtec
<item weight=5>Mojito</item><item weight=1>B52</item>
</one-of>
VOID, NULL, GARBAGE.
hnologie
Alternativen: Gewichtungen: Alternativen: Akzeptiert jede der
Varianten.
Gewichtungen: In Wahrscheinlichkeiten
umzurechnen. PCFG.
35
N-GRAM: Stochastic Language ModelsS
N-GRAM: Stochastic Language Models
W3C Working Draft Scheffer: S
W3C Working Draft. Syntaktisches Schema zur Repräsentation von
Wörterbüchern Sprachtec
Wörterbüchern, Zählern für Auftretenshäufigkeit von N-Grammen.
Elemente hnologie
Elemente <lexicon> Lexikondeklaration, <token> Tokendeklaration, o e o e de a a o , <tree> Zähler für Auftretenshäufigkeiten, <interpolation> Lineare Interpolationsgewichte,g
36
SSML: Speech Synthesis MarkupS
SSML: Speech Synthesis Markup
Version 2 1 W3C Recommendation Scheffer: S
Version 2.1 W3C Recommendation. Markup-Konventionen für Stufen der
Spracherzeugung. Sprachtec
Spracherzeugung.
ACSS: Aural Cascading Style Sheets hnologie
ACSS: Aural Cascading Style Sheets. Komplexe Markup-Definitionen, Auswahl von Sprechern für Markup-Tags, us a o Sp ec e ü a up ags, Räumliche Anordnung der Schallquellen.
37
SSML: ElementeS
SSML: Elemente Normierung (Expansion von Abkürzungen S
cheffer: S
Normierung (Expansion von Abkürzungen, Währungen: <say-as>- und <sub>-Elemente. S
prachtec
<p>- und <s>-Elemente (Absatz, Satz). Konvertierung Text Phonem:
h El t hnologie
<phoneme>-Element. Beschreibung im IPA-Alphabet.
Prosodie-Analyse: Prosodie-Analyse: <emphasis>-, <break>- und <prosody>-Elemente.
Signalerzeugung:g g g <voice>-Element, Stimm-Auswahl. Attribute gender, age, variant, name.
38
VoiceXMLS
VoiceXML
Version 2 0 W3C Recommendation Scheffer: S
Version 2.0 W3C Recommendation. VoiceXML Forum:
Intel AT&T HP Oracle TellMe IBM Motorola Sprachtec
Intel, AT&T, HP, Oracle, TellMe, IBM, Motorola, … Ziele:
Trennung von Awendung und Sprachtechnologie hnologie
Trennung von Awendung und Sprachtechnologie. Elemente:
Dialogsteuerung <vxml version="2.0">f Dialogsteuerung,
Spracherkennung und –Synthese, DTMF,
<form> <block>
<prompt> Hello world! Aufzeichnung und
Wiedergabe.</prompt>
</block> </form> </vxml>
39
VoiceXML: KonzepteS
VoiceXML: Konzepte
Dialoge und Subdialoge: Scheffer: S
Dialoge und Subdialoge: Menüs: Verzweigungspunkte. Forms: ausfüllbare Formulare S
prachtec
Forms: ausfüllbare Formulare. Events: Behandlung von Ausnahmesituationen. Links: hnologie
Links: Grammatik, die in einem Gültigkeitsbereichaktiv ist. Löst Event aus oder verweist auf Ziel-URI. ös e aus ode e e s au e U
Prozedurale Elemente: <var>, <assign>, <goto>,, g , g , <if> <else/> </if>. <objekt>: Aufruf eines plattformabhängigen Objekts.
40
VoiceXML: Erzeugung von DokumentenS
VoiceXML: Erzeugung von Dokumenten
VoiceXML-Dokument wird meist generiert Scheffer: S
VoiceXML-Dokument wird meist generiert, genau wie HTML, z B mit XSLT aus XML-Beschreibung der Inhalte S
prachtec
z.B. mit XSLT aus XML Beschreibung der Inhalte.
<cocktailkarte><cocktail>
<xsl:template match=“cocktailkarte”>Cocktailkarte hnologie
<cocktail><name>Caipirinha</name><beschr>Nationalgetränk
Brasiliens</beschr>
Cocktailkarte<xsl:template match=“cocktail”>
<voice gender = male><xsl:value-of select=“name”/>
</cocktail>…
</cocktailkarte>
</voice><p/><voice gender = female>
<xsl:value-of select=“beschr”/><xsl:value of select beschr /></voice>
</xsl:template>…
<voice gender=male>Caipirinha</voice><voice gender=female>
41
</xsl:template>g
Nationalgetränk Brasiliens</voice>
VoiceXML Elemente: FormsS
VoiceXML Elemente: Forms
<form>: Formular; <field>: auszufüllendes Feld Scheffer: S
<form>: Formular; <field>: auszufüllendes Feld. Attribute und Methoden:
Bezeichner dient später als Referenz Sprachtec
Bezeichner, dient später als Referenz. Mit Eingabe zu belegende Variablen, Scope: lokal für Dialog oder global, hnologie
Scope: lokal für Dialog oder global, Event-Handler, Aktionen wie Rufweiterleitung. Bedingungen für Felder.g g
42
VoiceXML Elemente: FormsS
VoiceXML Elemente: Forms
Interpretation: Scheffer: S
Interpretation: Solange nicht jedes <field> aufgefüllt, wähle <field> lies <prompt> warte auf Eingabe S
prachtec
wähle field , lies prompt , warte auf Eingabe.
hnologie
<form id=bestellung><block>Sie können jetzt bestellen.</block><field name=„getränk“>field name „getränk
<prompt>Was möchten Sie trinken?</prompt><grammar src= cocktail grxml“ type= application/srgs+xml“/><grammar src=„cocktail.grxml type=„application/srgs+xml />
</field></form>
43
VoiceXML Forms: Mixed InitiativeS
VoiceXML Forms: Mixed Initiative
<initial> initiales Element: Prompt bei erster Scheffer: S
<initial>, initiales Element: Prompt bei erster Iteration über Form.
Benutzer kann ein oder gleich mehrere Felder Sprachtec
Benutzer kann ein oder gleich mehrere Felder füllen.
Interpreter spielt danach Prompt des ersten jetzt hnologie
p p p jnoch freien Feldes ab.
> Wohin dürfen wir den Cocktail liefern?Bitte in die August-Bebel-Str. 89, mein Name ist Scheffermein Name ist Scheffer.> Wie lautet Ihre Postleitzahl?
44
VoiceXML - BeispielS
VoiceXML - BeispielS
cheffer: SSprachtechnologie
45
SALT: Speech Application Language TagsS
SALT: Speech Application Language Tags
Erweiterung von HTML um sprach-orientierte Tags Scheffer: S
Erweiterung von HTML um sprach-orientierte Tags. Sprachsteuerung von Browsern. Multimodale Browser S
prachtec
Multimodale Browser. Basiert auf SRGS und SSML. Microsoft Speech Server. hnologie
p OpenSALT.
46
ÜberblickS
Überblick
Unter der Haube: Scheffer: S
Unter der Haube: Spracherkennung, Text-to-Speech S
prachtec
Text to Speech. Anwendungsentwicklung:
SRGS, SSML, VoiceXML, hnologie
SRGS, SSML, VoiceXML, Beispiel.
Anwendungen.g Forschung und weitere Entwicklung:
woran hängt es?g
47
Sprachportale: AnwendungenS
Sprachportale: Anwendungen
Bankgeschäfte: Scheffer: S
Bankgeschäfte: Statusabfragen, Aufträge S
prachtec
Aufträge, Wertpapierhandel.
hnologie
48
Sprachportale: AnwendungenS
Sprachportale: Anwendungen
Bankgeschäfte: Wirtschaft und Scheffer: S
Bankgeschäfte: Statusabfragen, Aufträge
Wirtschaft und Handel: Versandhandel, S
prachtec
Aufträge, Wertpapierhandel.
, Bestellungen.
hnologie
49
Sprachportale: AnwendungenS
Sprachportale: Anwendungen
Bankgeschäfte: Wirtschaft und Scheffer: S
Bankgeschäfte: Statusabfragen, Aufträge
Wirtschaft und Handel: Versandhandel, S
prachtec
Aufträge, Wertpapierhandel.
, Bestellungen.
hnologie
Information Retrieval: Information Retrieval: Wetterauskunft, Telefonauskunft Telefonauskunft, Kino, Sport.
50
Sprachportale: AnwendungenS
Sprachportale: Anwendungen
Wirtschaft und Scheffer: S
Wirtschaft und Handel: Versandhandel, S
prachtec
, Bestellungen.
hnologie
Information Retrieval: Unified Messaging: Information Retrieval: Wetterauskunft, Telefonauskunft
Unified Messaging: Vorlesen von SMS, Email-Portale Telefonauskunft,
Kino, Sport. Email Portale, Voice-Office.
51
ÜberblickS
Überblick
Unter der Haube: Scheffer: S
Unter der Haube: Spracherkennung, Text-to-Speech S
prachtec
Text to Speech. Anwendungsentwicklung:
SRGS, SSML, VoiceXML, hnologie
SRGS, SSML, VoiceXML, Beispiel.
Anwendungen.g Forschung und weitere Entwicklung:
woran hängt es?g
52
Woran hängt es?S
Woran hängt es?
Spracherkennung ist eine Schwachstelle: Scheffer: S
Spracherkennung ist eine Schwachstelle: Benutzerspezifisch oder Thematisch fokussiert.
Sprachtec
Mensch gegen Maschine Mensch MaschineWSJ 0.90% 4.50%
1 10%
hnologie
WSJ, verrauscht 1.10% 8.60%WSJ, Trigramm-Texte 7.60% 4.40%
Perfektes Sprachmodell: Spracherkenner schlagen Sekretärinnen! [Huang et al 2001]Sekretärinnen! [Huang et al., 2001].
Argument: Brauchen bessere Sprachmodelle.
53
Forschungsfragen: SpracherkennungS
Forschungsfragen: Spracherkennung
Sprachmodelle nicht gut genug zu wenig Scheffer: S
Sprachmodelle nicht gut genug, zu wenig Hintergrundwissen. LDA: Kontextinformation im Sprachmodell S
prachtec
pberücksichtigen [Blei & Jordan, 2003].
Diskriminative Modelle: angemessenere hnologie
Optimierungskriterien. Stufenweise Verarbeitung:
Problem: Fehler summieren sich über die Verarbeitungsstufen.
Integration in ein gemeinsames Integration in ein gemeinsames Optimierungsproblem: Rechenaufwand! [z.B. Tsochanidardis et al. 2005].
54
]
Forschungsfragen: SprachverstehenS
Forschungsfragen: SprachverstehenS
cheffer: S
VoiceXML: Dialoge per Skript gesteuert. Bis auf Mixed Initiative Dialoge.
N t l L U d t di
Sprachtec
Natural Language Understanding: Ermittle beste Aktion bzw. Äußerung im aktuellen
Dialogzustand für gegebenes Dialog Ziel hnologie
Dialogzustand für gegebenes Dialog-Ziel.
Dialogmanager
)Bedeutung|Zustand()Zustand|Aktion(maxarg
)ZustandEingabe,|Aktion(maxarg 1
PP
P
tttAktion
t-tAktion
t
t
)Eingabe|Bedeutung(P
S ti h P Di k l
55
Semantischer Parser Diskursanalyse
Weitere Entwicklung VoiceXMLS
Weitere Entwicklung VoiceXML Gegenwärtige Entwicklung: S
cheffer: S
Gegenwärtige Entwicklung: Call Control: Verbindungen herstellen, managen. Repräsentation von Semantik, NLSML. S
prachtec
N-Gramme. Zukünftige Entwicklung:
hnologie
Sprechererkennung. Word Spotting, Klassifikation, Summarization. Übersetzung Übersetzung. Musikgenerierung.
Noch nicht geplant:g p Multimodale Dialoge. SPIs für NLP-Funktionalität.
56
Forschungsfragen: Conversational AgentsS
Forschungsfragen: Conversational Agents
Multimodale Benutzerschnittstellen: Scheffer: S
Multimodale Benutzerschnittstellen: Sprache, Gesten, Gesichtsausdruck, …
Konversationsmodelle Verkaufsagenten Sprachtec
Konversationsmodelle, Verkaufsagenten. Lernen von Konversationsskripten [Kadous, 2004].
hnologie Alternative Plattform: Microsoft AgentsMicrosoft Agents
57
ZusammenfassungS
Zusammenfassung
Sprach-Technologie: Scheffer: S
Sprach-Technologie: Spracherkennung, Spracherzeugung. Forschung: Sprachmodelle Parameteroptimierung S
prachtec
Forschung: Sprachmodelle, Parameteroptimierung, Signalverarbeitung.
Technologien für Anwendungsentwicklung: hnologie
g g g SRGS, SSML, VoiceXML. Nicht ausgereift, aber weit entwickelt. Forschung: Generierte, statt gescripteter Dialoge.
Anwendungen: Retrieval, mobile Services, Finanzwirtschaft, Handel, Unified Messaging.
58
Sprachportale - ProblemeS
Sprachportale - Probleme
Sprache weniger geeignet zum Editieren von Scheffer: S
Sprache weniger geeignet zum Editieren von Texten.
Unimodal, keine Grafik. Sprachtec
Unimodal, keine Grafik. Gedächtnis beschränkt, kein schnelles Nachsehen. Sprache langsamer als Text hnologie
Sprache langsamer als Text. Sprache problematisch in
Öffentlichkeit Öffentlichkeit, lauten Umgebungen
59
Spracherzeugung: ZusammenfassungS
Spracherzeugung: ZusammenfassungS
cheffer: S
Vorverarbeitung, Satzenden, Zahlen, Abkürzungen.
Text
A ti t T t
Sprachtec
, g Morphologische Analyse. Wortarterkennung,
Annotierter Text
Morphemfolge hnologie
g,Syntaxanalyse
Aussprachelexika, Wortarten, Parsbaumprosodische Gruppen
Übersetzung. Prosodieerzeugung, Folge von Phonen
Signalerzeugung.Signal
60
Spracherkennung: ZusammenfassungS
Spracherkennung: Zusammenfassung
Diskretisierung FourierAkustisches Signal Scheffer: S
Diskretisierung, Fourier, Merkmalsextraktion.
n-best Viterbi-Dekodierung im
Akustisches Signal
Merkmalsvektor für jeden Zeitschritt S
prachtec
n best Viterbi Dekodierung im phonetischen Modell.
n wahrschenlichste Pfade im
jeden Zeitschritt
Akustisches Modell:HMM fü Ph hnologie
Aussprachenetz, dynamische Programmierung.
HMM für Phone
Akustisches Modell:
Beam-Search-Dekodierung.
Aussprachenetz
Sprachmodell:pN-Gramm, Grammatik
Folge von Wörtern
61
Folge von Wörtern