Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände...

Universität PotsdamInstitut für Informatik

Lehrstuhl Maschinelles Lernen

SprachportaleSprachportaleTobias Scheffer

MotivationS

Motivation

Es gibt grob geschätzt: Scheffer: S

Es gibt, grob geschätzt:

668 Mio. 1.15 M d

Sprachtec1 5 Mrd

Mrd.

hnologie

Die wenigsten Computer verfügen über

1.5 Mrd.

Die wenigsten Computer verfügen über Bildschirm und Tastatur.

Telefone einfacher zu benutzen,Telefone einfacher zu benutzen, erreichen mehr Menschen.

Sprache als Mensch-Maschine-Schnittstelle!

2

p

MotivationS

Motivation

Ubiquitäre allgegenwärtige Information Scheffer: S

Ubiquitäre, allgegenwärtige Information. Fernbedienung mit einem Knopf, Location-based Services S

prachtec

Location based Services, …

hnologie

Auch Grauen erregende Anwendungen vorstellbar: Joghurtbecher belehrt über

wertvolle Inhaltsstoffe. Werbeplakate sprechen Passanten an.

3

ÜberblickS

Überblick

Spachtechnologien: Scheffer: S

Spachtechnologien: Spracherkennung, Spracherzeugung S

prachtec

Spracherzeugung. Anwendungsentwicklung:

SRGS, SSML, VoiceXML, hnologie

SRGS, SSML, VoiceXML, Beispiel.

Anwendungen.g Forschung und weitere Entwicklung:

woran hängt es?g

4

Spracherkennung: Mathematisches PrinzipS

Spracherkennung: Mathematisches Prinzip

Komponenten: Akustisches und Sprachmodell Scheffer: S

Komponenten: Akustisches und Sprachmodell.

Posterior: wie wahrscheinlich argmax: beste Sprachtec

)Signal|Wortfolge(maxarg P

ist Wortfolge gegeben Signal?Wortfolge.

hnologie llSprachmodeModellsAkustische

)Wortfolge(

)Wortfolge(

)Wortfolge()Wortfolge|Signal(maxarg

)Signal|Wortfolge(maxarg

PP

P

llSprachmodeModell sAkustische

Bayes

Prior: wie wahrscheinlich ist Wortfolge generell?

Likelihood: wie gut passt Signal zu Wortfolge?

5

g gg g



cheffer: SSprachtec

)Signal|Wortfolge(maxarg P hnologie llSprachmodeModellsAkustische

)Wortfolge(

)Wortfolge(



PP

P


Anpassung des Erkenners an neue Domäne: Sprachmodell aus Texten lernen. Durch (probabilistische) Grammatik spezifiziert

6

Durch (probabilistische) Grammatik spezifiziert.



cheffer: SSprachtec

)Signal|Wortfolge(maxarg P hnologie llSprachmodeModellsAkustische

)Wortfolge(

)Wortfolge(



PP

P

Akustisches Modell:


Akustisches Modell: Aus annotierten Sprachproben trainiert. Phonemische Modelle: Signal Phone.

7

Aussprachenetze: Phone Wörter.


Spracherkennung: Mathematisches Prinzip

Dekodierung (Prozess der Spracherkennung):

Scheffer: S

Dekodierung (Prozess der Spracherkennung): Suche im Raum der möglichen Wortfolgen. Suchalgorithmen, Viterbi Beam Search. S

prachtec

)Signal|Wortfolge(maxarg P

Suchalgorithmen, Viterbi Beam Search.

hnologie llSprachmodeModellsAkustische

)Wortfolge(

)Wortfolge(



PP

P


8

Spracherkennung: Akustisches ModellS

Spracherkennung: Akustisches Modell Ganze Wörter: S

cheffer: S

Ganze Wörter: Erkennung weniger, isolierter Wörter (z.B. Ziffern). Keine Generalisierung unbekannter Wörter. S

prachtec

Gemeinsame Phone in verschiedenen Wörtern. Silben:

hnologie

Gut für Japanisch (50 Silben), sonst schlecht (Englisch: 30.000 Silben).

Phon: Phon: Kleinste Einheit einer sprachlichen Äußerung. Phonem: Bedeutungsunterscheidende Einheit. Phonem: Bedeutungsunterscheidende Einheit. 50 Phone im Englischen. Aber Aussprache kontextabhängig.

9

Spracherkennung: akustisches ModellS

Spracherkennung: akustisches Modell

Short-Time-Fourier-Transformation: Scheffer: S

Short-Time-Fourier-Transformation: Signal Sinus (Frequenz ) = Anteil am Signal.

Zu jedem Zeitpunkt: Sprachtec

Zu jedem Zeitpunkt: Amplituden von ca. 24 Bändern. Dekorrelation, Reduktion: Cepstral-Attribute. hnologie

Dekorrelation, Reduktion: Cepstral Attribute. Ergebnis: ca. 20-50 kontinuierliche Attribute.

2907.2

Zeitabhängige Überlagerung von Schwingungen

1.1

29.0

von Schwingungen .

n

NinkekXkX /2][][

10


Spracherkennung: Akustisches Modell

Triphon-Klassenmodelle Scheffer: S

Triphon-Klassenmodelle. Aussprache des Phons hängt von Nachbarphonen ab. b“ und p“ haben denselben Einfluss auf einen S

prachtec

„b und „p haben denselben Einfluss auf einen folgenden Vokal, ebenso „r“ und „w“.

Solche Kontexte werden zu Klassen zusammen hnologie

gefasst um die Anzahl der Modellparameter zu reduzieren.

Senone: Senone: Cluster von ähnlichen subphonetischen Einheiten,

gemeinsame Modellparametergemeinsame Modellparameter.

11



Hidden-Markov-Modell: Scheffer: S

Hidden-Markov-Modell: Probabilistischer endlicher Automat. Probabilistische Zustandsübergänge ija S

prachtec

Probabilistische Zustandsübergänge . Jeder Zustand hat Emissionswahrscheinlichkeiten

Ein Phon/Senon wird durch 2-20 Zustände

ija)( ti Ob

hnologie

Ein Phon/Senon wird durch 2 20 Zustände repräsentiert.

Struktur repräsentiert Aussprachevarianten.p p Meist lineare Struktur, aber Verkürzungen (Kanten, die Zustände überspringen). Aussprachevarianten.

12

Spracherkennung: Hidden-Markov-ModellS

Folge der Zustände ist nicht sichtbar nur die


cheffer: S

Folge der Zustände ist nicht sichtbar, nur die emittierten Beobachtungen (akustische Merkmale).

Emissionswahrscheinlichkeiten als Mischung Sprachtec

Emissionswahrscheinlichkeiten als Mischung multivariater Gaußverteilungen modelliert.

hnologieZustand2

Zustand44%

90%

1

Zustand1

Zustand90%

10%

Zustand

15%5%1%1%

Zustand3

Zustand54%

80%

1

P Zustand 1

)()()|( NkbSP Σ )|( SqSqP

13

)(,)()|( tk kkjjt NkbSP xΣμx )|( 1 itjt SqSqP

Spracherkennung: AussprachenetzwerkeS

Spracherkennung: Aussprachenetzwerke

Abbildung von Phonen auf Wörter Scheffer: S

Abbildung von Phonen auf Wörter. Probabilistischer endlicher Automat. Transitionswahrscheinlichkeiten aus annotiertem S

prachtec

Transitionswahrscheinlichkeiten aus annotiertem Korpus schätzen.

hnologie

14


Spracherkennung: Hidden-Markov-Modell

Schätzung der Modellparameter: Scheffer: S

Schätzung der Modellparameter: Aus annotierten Sprachdaten, mit Baum-Welch-Algorithmus EM-Variante S

prachtec

mit Baum Welch Algorithmus, EM Variante. Finde )Parameter |atenTrainingsd(maxarg P

hnologie

Wiederhole bis Konvergenz:Wiederhole bis Konvergenz:▪ Forward-Backward berechnet▪ Berechne

S hä

,,),( jit

▪ Schätze ▪ Schätze▪ Schätze

)(1)( ik

i ( ) ( , ) ( )kij t t

t ta i j i

t

tOOt

tk

i iiObt

)()()(:

)(

15

tOOt t:



Dekodierung des akustischen Modells: Scheffer: S

Dekodierung des akustischen Modells: Finde Zustandsfolge gegeben akustisches Signal. n-best Viterbi-Algorithmus S

prachtec

n best Viterbi Algorithmus. n wahrscheinlichste Senone, Wörter.

hnologie

Aussprachenetz

Zustand1

Zustand2

Zustand4

10%

4%

15%5%1%1%

90%

1

Senonische HMMsZustand

3

90% Zustand54%

80%

1

Signal / Merkmale

16

Signal / Merkmale



Dekodierung des akustischen Modells: Scheffer: S

Dekodierung des akustischen Modells: Finde Zustandsfolge gegeben akustisches Signal. n-best Viterbi-Algorithmus S

prachtec

n best Viterbi Algorithmus. n wahrscheinlichste Senone, Wörter.

hnologie

Aussprachenetz

Zustand1

Zustand2

Zustand4

10%

4%

15%5%1%1%

90%

1

Senonische HMMsZustand

3

90% Zustand54%

80%

1

Signal / Merkmale

17

Signal / Merkmale

Spracherkennung: SprachmodellS

Spracherkennung: Sprachmodell

Modellierung von )Wortfolge(P Scheffer: S

Modellierung von Wissen über Sprache:

P( Ich pflücke Bären“) = sehr gering

)Wortfolge(P

Sprachtec

P(„Ich pflücke Bären ) = sehr gering. P(„Ich pflücke Beeren“) = schon größer.

Häufig verwendete Sprachmodelle: hnologie

Häufig verwendete Sprachmodelle: N-Gramm-Modelle. Kontextfreie Grammatiken. o e e e G a a e Probabilistische Kontextfreie Grammatiken.

18



N-Gramm-Modell: Scheffer: S

N-Gramm-Modell:

Markov Annahme n 1 Ordnung:

pflücke)Ich |Bären(Ich)|pflücke()Ich(Bären) pflückeIch ( PPPP

Sprachtec

Markov-Annahme n-1. Ordnung: Nur Abhängigkeiten zwischen bis zu n

aufeinanderfolgenden Wörtern. hnologie

g Längere Abhängigkeiten werden ignoriert.

Modellparameter:p Für alle Wortkombinationen: Parameter werden aus Korpus geschätzt.

)Wort,...,Wort|Wort( 1-n1nP

Häufig anwendungsspezifische Korpora (z.B. WSJ).

19



Probabilistische kontextfreie Grammatik Scheffer: S

Probabilistische, kontextfreie Grammatik. Jede Regel ist mit Wahrscheinlichkeit belegt. Schätzung der Parameter aus Baum-Bank oder S

prachtec

Schätzung der Parameter aus Baum Bank oder anwendungsbezogene Festlegung.

hnologie

),|(),( GNwPqp jpqpqj

20

)|,,(),( )1()1(1 GwNwPqp mqjpqpj



Probabilistische kontextfreie Grammatik Scheffer: S

Probabilistische, kontextfreie Grammatik. Dekodierung: wahrscheinlichster Pars-Baum mit

Viterbi-Algorithmus in O(n3). Sprachtec

g ( )

Höchste Inside Wahrscheinlichkeit für einen hnologie

Höchste Inside-Wahrscheinlichkeit für einenPars des Teilbaumes :▪ Initialisierung:

I d kti

),( qpiipqN

( , ) ( )ii pp p P N w

k▪ Induktion:▪ Bester Weg:▪ Parse-Baum rekonstruieren: wenn dann sind

, ,( , ) max ( ) ( , ) ( 1, )i j ki q j k n p r q j kp q P N N N p r r q

( , , )( , ) arg max ( ) ( , ) ( 1, )i j ki j k r j kp q P N N N p r r q

( , ) ( , , )i p q j k r

links und rechts im Baum.jprN ( 1)

kr qN

21

Spracherkennung: DekodierungS

Spracherkennung: Dekodierung

Beam Search: Suche im Raum aller Wortfolgen Scheffer: S

Beam Search: Suche im Raum aller Wortfolgen. Speichere k beste Satzanfänge der Länge t. Akustisches Modell: n wahrscheinlichste nächste S

prachtec

Akustisches Modell: n wahrscheinlichste nächste Wörter.

Bestimme k beste Satzanfänge der Länge t+1. hnologie

)Wortfolge( )Signal|Wortfolge(maxarg P


)Wortfolge(

)Wortfolge(


)g|g(g

PP

22

ÜberblickS

Überblick

Sprachtechnologien: Scheffer: S

Sprachtechnologien: Spracherkennung, Spracherzeugung S

prachtec

Spracherzeugung. Anwendungsentwicklung:




woran hängt es?g

23

Spracherzeugung: TextanalyseS

Spracherzeugung: Textanalyse

Vorverarbeitung: Scheffer: S

Vorverarbeitung: Expandieren von Abkürzungen. Expandieren von Zahlen Sonderzeichen S

prachtec

Expandieren von Zahlen, Sonderzeichen. Satzzeichen: Identifizieren von Sätzen, Satzenden.

Morphologische Analyse: hnologie

Morphologische Analyse: Morpheme, Silbengrenzen, Wortakzente. Morphemlexikon + Grammatik. p

Wortartenerkennung und syntaktische Analyse: Syntaxbaum, y Phrasierung, Gliederung in prosodische Gruppen.

24

Spracherzeugung: PhonetisierungS

Spracherzeugung: Phonetisierung

Abbildung Wörter Phone Scheffer: S

Abbildung Wörter Phone. Aussprachelexikon für Grundformen. Aussprache abhängig von Wortart und Syntax S

prachtec

Aussprache abhängig von Wortart und Syntax („read“ / „read“).

Verwandt mit und ähnlich komplex wie Übersetzung. hnologie

Lexika und Regeln verbreitet. Statistischer Ansatz:

t tt PP

P

)Phonfolge()SyntaxKontext,,Phone|Wort(

Wortfolge)|Phonfolge(maxarg Phonfolge

25

Spracherzeugung: ProsodiegenerierungS

Spracherzeugung: Prosodiegenerierung

Prosodische Information aus syntaktischen Scheffer: S

Prosodische Information aus syntaktischen Gruppen.

Prosodie aus Meta-Information (SSML). Sprachtec

Prosodie aus Meta Information (SSML). Modifikation von Tonhöhe, Geschwindigkeit.

hnologie

26

Spracherzeugung: SignalerzeugungS

Spracherzeugung: Signalerzeugung

Konkatenation: Scheffer: S

Konkatenation: Aussprache eines Phons hängt von Nachbarn ab. Alle Phone werden in der Mitte geteilt S

prachtec

Alle Phone werden in der Mitte geteilt. Für jedes benachbarte Paar aus halben Phonen wird

ein Sample aufgenommen. hnologie

27

Spracherzeugung: SignalerzeugungS

Spracherzeugung: Signalerzeugung

Formantsynthese: Scheffer: S

Formantsynthese: Formanten: Langsam variierende Frequenzbereiche,

in denen bei Aussprache Energiegipfel auftreten. Sprachtec

p g g p Modellbasierte Synthese des Signals.

Artikulatorische Synthese: hnologie

y Simulation der Schallerzeugungsmechanik.

Häufig konkatenative Systeme mit Wellenformmodifikation. Glattere Übergänge, natürlicherer Klang.

28

ÜberblickS

Überblick

Sprachtechnologie: Scheffer: S

Sprachtechnologie: Spracherkennung, Text-to-Speech S

prachtec

Text to Speech. Anwendungsentwicklung:




woran hängt es?g

29

SprachportaleS

SprachportaleAnwendungsentwicklung S

cheffer: S

VoiceXML: Ablaufsteuerung

SALT: Speech Application Language Tags

Anwendungsentwicklung

Sprachtec

SRGS S h N GRAM St h ti SSML S h

Ablaufsteuerung Language Tags

hnologie

SRGS: Speech Recognition Grammar

N-GRAM: Stochastic Language Models Specification

SSML: Speech Synthesis MarkupLanguage

Specification

Spracherkennung Spracherzeugung

Sprachtechnologie

30

Speech Recognition Grammar SpecificationS

Speech Recognition Grammar Specification

Version 2 1 W3C Recommendation Scheffer: S

Version 2.1 W3C Recommendation. Syntax für probabilistische, kontextfreie

Grammatiken: Sprachtec

Grammatiken: Augmented BNF oder XML. Sprache und DTMF-Eingaben. hnologie

p g

Kernelemente: Regeldefinitionen, Regelexpansionen.

31

SRGS: ElementeS

SRGS: Elemente

Regeldefinition: l id b ll

Scheffer: S

Regeldefinition: Assoziiert Regel mit

Bezeichner.

<rule id = bestellung>[Regelexpansion]

</rule> Sprachtechnologie

32

SRGS: ElementeS

SRGS: Elemente

Regeldefinition: Regelreferenz: Scheffer: S


Bezeichner.

Regelreferenz: Referenz auf Regel

oder N-GRAM. Sprachtec

VOID, NULL, GARBAGE.

hnologie

<rule id = bestellung><rule id bestellung><ruleref uri = #begrüßung/>

…</rule></rule>

33

SRGS: ElementeS

SRGS: Elemente

Regeldefinition: Regelreferenz: Scheffer: S


Bezeichner.




hnologie

Alternativen:<one-of> Alternativen: Akzeptiert jede der

Varianten.

<one of><item>Caipirinha</item><item>Mojito</item><item>Zombie</item><item>Zombie</item>

</one-of>

34

SRGS: ElementeS

SRGS: Elemente

f Regelreferenz: Scheffer: S

<one-of><item weight=10 >Caipirinha</item>



<item weight=5>Mojito</item><item weight=1>B52</item>

</one-of>


hnologie

Alternativen: Gewichtungen: Alternativen: Akzeptiert jede der

Varianten.

Gewichtungen: In Wahrscheinlichkeiten

umzurechnen. PCFG.

35

N-GRAM: Stochastic Language ModelsS

N-GRAM: Stochastic Language Models

W3C Working Draft Scheffer: S

W3C Working Draft. Syntaktisches Schema zur Repräsentation von

Wörterbüchern Sprachtec

Wörterbüchern, Zählern für Auftretenshäufigkeit von N-Grammen.

Elemente hnologie

Elemente <lexicon> Lexikondeklaration, <token> Tokendeklaration, o e o e de a a o , <tree> Zähler für Auftretenshäufigkeiten, <interpolation> Lineare Interpolationsgewichte,g

36

SSML: Speech Synthesis MarkupS

SSML: Speech Synthesis Markup


Version 2.1 W3C Recommendation. Markup-Konventionen für Stufen der

Spracherzeugung. Sprachtec

Spracherzeugung.

ACSS: Aural Cascading Style Sheets hnologie

ACSS: Aural Cascading Style Sheets. Komplexe Markup-Definitionen, Auswahl von Sprechern für Markup-Tags, us a o Sp ec e ü a up ags, Räumliche Anordnung der Schallquellen.

37

SSML: ElementeS

SSML: Elemente Normierung (Expansion von Abkürzungen S

cheffer: S

Normierung (Expansion von Abkürzungen, Währungen: <say-as>- und <sub>-Elemente. S

prachtec

<p>- und <s>-Elemente (Absatz, Satz). Konvertierung Text Phonem:

h El t hnologie

<phoneme>-Element. Beschreibung im IPA-Alphabet.

Prosodie-Analyse: Prosodie-Analyse: <emphasis>-, <break>- und <prosody>-Elemente.

Signalerzeugung:g g g <voice>-Element, Stimm-Auswahl. Attribute gender, age, variant, name.

38

VoiceXMLS

VoiceXML


Version 2.0 W3C Recommendation. VoiceXML Forum:

Intel AT&T HP Oracle TellMe IBM Motorola Sprachtec

Intel, AT&T, HP, Oracle, TellMe, IBM, Motorola, … Ziele:

Trennung von Awendung und Sprachtechnologie hnologie

Trennung von Awendung und Sprachtechnologie. Elemente:

Dialogsteuerung <vxml version="2.0">f Dialogsteuerung,

Spracherkennung und –Synthese, DTMF,

<form> <block>

<prompt> Hello world! Aufzeichnung und

Wiedergabe.</prompt>

</block> </form> </vxml>

39

VoiceXML: KonzepteS

VoiceXML: Konzepte

Dialoge und Subdialoge: Scheffer: S

Dialoge und Subdialoge: Menüs: Verzweigungspunkte. Forms: ausfüllbare Formulare S

prachtec

Forms: ausfüllbare Formulare. Events: Behandlung von Ausnahmesituationen. Links: hnologie

Links: Grammatik, die in einem Gültigkeitsbereichaktiv ist. Löst Event aus oder verweist auf Ziel-URI. ös e aus ode e e s au e U

Prozedurale Elemente: <var>, <assign>, <goto>,, g , g , <if> <else/> </if>. <objekt>: Aufruf eines plattformabhängigen Objekts.

40

VoiceXML: Erzeugung von DokumentenS

VoiceXML: Erzeugung von Dokumenten

VoiceXML-Dokument wird meist generiert Scheffer: S

VoiceXML-Dokument wird meist generiert, genau wie HTML, z B mit XSLT aus XML-Beschreibung der Inhalte S

prachtec

z.B. mit XSLT aus XML Beschreibung der Inhalte.

<cocktailkarte><cocktail>

<xsl:template match=“cocktailkarte”>Cocktailkarte hnologie

<cocktail><name>Caipirinha</name><beschr>Nationalgetränk

Brasiliens</beschr>

Cocktailkarte<xsl:template match=“cocktail”>

<voice gender = male><xsl:value-of select=“name”/>

</cocktail>…

</cocktailkarte>

</voice><p/><voice gender = female>

<xsl:value-of select=“beschr”/><xsl:value of select beschr /></voice>

</xsl:template>…

<voice gender=male>Caipirinha</voice><voice gender=female>

41

</xsl:template>g

Nationalgetränk Brasiliens</voice>

VoiceXML Elemente: FormsS

VoiceXML Elemente: Forms

<form>: Formular; <field>: auszufüllendes Feld Scheffer: S

<form>: Formular; <field>: auszufüllendes Feld. Attribute und Methoden:

Bezeichner dient später als Referenz Sprachtec

Bezeichner, dient später als Referenz. Mit Eingabe zu belegende Variablen, Scope: lokal für Dialog oder global, hnologie

Scope: lokal für Dialog oder global, Event-Handler, Aktionen wie Rufweiterleitung. Bedingungen für Felder.g g

42

VoiceXML Elemente: FormsS

VoiceXML Elemente: Forms

Interpretation: Scheffer: S

Interpretation: Solange nicht jedes <field> aufgefüllt, wähle <field> lies <prompt> warte auf Eingabe S

prachtec

wähle field , lies prompt , warte auf Eingabe.

hnologie

<form id=bestellung><block>Sie können jetzt bestellen.</block><field name=„getränk“>field name „getränk

<prompt>Was möchten Sie trinken?</prompt><grammar src= cocktail grxml“ type= application/srgs+xml“/><grammar src=„cocktail.grxml type=„application/srgs+xml />

</field></form>

43

VoiceXML Forms: Mixed InitiativeS

VoiceXML Forms: Mixed Initiative

<initial> initiales Element: Prompt bei erster Scheffer: S

<initial>, initiales Element: Prompt bei erster Iteration über Form.

Benutzer kann ein oder gleich mehrere Felder Sprachtec

Benutzer kann ein oder gleich mehrere Felder füllen.

Interpreter spielt danach Prompt des ersten jetzt hnologie

p p p jnoch freien Feldes ab.

> Wohin dürfen wir den Cocktail liefern?Bitte in die August-Bebel-Str. 89, mein Name ist Scheffermein Name ist Scheffer.> Wie lautet Ihre Postleitzahl?

44

VoiceXML - BeispielS

VoiceXML - BeispielS

cheffer: SSprachtechnologie

45

SALT: Speech Application Language TagsS

SALT: Speech Application Language Tags

Erweiterung von HTML um sprach-orientierte Tags Scheffer: S

Erweiterung von HTML um sprach-orientierte Tags. Sprachsteuerung von Browsern. Multimodale Browser S

prachtec

Multimodale Browser. Basiert auf SRGS und SSML. Microsoft Speech Server. hnologie

p OpenSALT.

46

ÜberblickS

Überblick

Unter der Haube: Scheffer: S

Unter der Haube: Spracherkennung, Text-to-Speech S

prachtec





woran hängt es?g

47

Sprachportale: AnwendungenS

Sprachportale: Anwendungen

Bankgeschäfte: Scheffer: S

Bankgeschäfte: Statusabfragen, Aufträge S

prachtec

Aufträge, Wertpapierhandel.

hnologie

48



Bankgeschäfte: Wirtschaft und Scheffer: S

Bankgeschäfte: Statusabfragen, Aufträge

Wirtschaft und Handel: Versandhandel, S

prachtec


, Bestellungen.

hnologie

49



Bankgeschäfte: Wirtschaft und Scheffer: S

Bankgeschäfte: Statusabfragen, Aufträge


prachtec


, Bestellungen.

hnologie

Information Retrieval: Information Retrieval: Wetterauskunft, Telefonauskunft Telefonauskunft, Kino, Sport.

50



Wirtschaft und Scheffer: S


prachtec

, Bestellungen.

hnologie

Information Retrieval: Unified Messaging: Information Retrieval: Wetterauskunft, Telefonauskunft

Unified Messaging: Vorlesen von SMS, Email-Portale Telefonauskunft,

Kino, Sport. Email Portale, Voice-Office.

51

ÜberblickS

Überblick

Unter der Haube: Scheffer: S

Unter der Haube: Spracherkennung, Text-to-Speech S

prachtec





woran hängt es?g

52

Woran hängt es?S

Woran hängt es?

Spracherkennung ist eine Schwachstelle: Scheffer: S

Spracherkennung ist eine Schwachstelle: Benutzerspezifisch oder Thematisch fokussiert.

Sprachtec

Mensch gegen Maschine Mensch MaschineWSJ 0.90% 4.50%

1 10%

hnologie

WSJ, verrauscht 1.10% 8.60%WSJ, Trigramm-Texte 7.60% 4.40%

Perfektes Sprachmodell: Spracherkenner schlagen Sekretärinnen! [Huang et al 2001]Sekretärinnen! [Huang et al., 2001].

Argument: Brauchen bessere Sprachmodelle.

53

Forschungsfragen: SpracherkennungS

Forschungsfragen: Spracherkennung

Sprachmodelle nicht gut genug zu wenig Scheffer: S

Sprachmodelle nicht gut genug, zu wenig Hintergrundwissen. LDA: Kontextinformation im Sprachmodell S

prachtec

pberücksichtigen [Blei & Jordan, 2003].

Diskriminative Modelle: angemessenere hnologie

Optimierungskriterien. Stufenweise Verarbeitung:

Problem: Fehler summieren sich über die Verarbeitungsstufen.

Integration in ein gemeinsames Integration in ein gemeinsames Optimierungsproblem: Rechenaufwand! [z.B. Tsochanidardis et al. 2005].

54

]

Forschungsfragen: SprachverstehenS

Forschungsfragen: SprachverstehenS

cheffer: S

VoiceXML: Dialoge per Skript gesteuert. Bis auf Mixed Initiative Dialoge.

N t l L U d t di

Sprachtec

Natural Language Understanding: Ermittle beste Aktion bzw. Äußerung im aktuellen

Dialogzustand für gegebenes Dialog Ziel hnologie

Dialogzustand für gegebenes Dialog-Ziel.

Dialogmanager

)Bedeutung|Zustand()Zustand|Aktion(maxarg

)ZustandEingabe,|Aktion(maxarg 1

PP

P

tttAktion

t-tAktion

t

t

)Eingabe|Bedeutung(P

S ti h P Di k l

55

Semantischer Parser Diskursanalyse

Weitere Entwicklung VoiceXMLS

Weitere Entwicklung VoiceXML Gegenwärtige Entwicklung: S

cheffer: S

Gegenwärtige Entwicklung: Call Control: Verbindungen herstellen, managen. Repräsentation von Semantik, NLSML. S

prachtec

N-Gramme. Zukünftige Entwicklung:

hnologie

Sprechererkennung. Word Spotting, Klassifikation, Summarization. Übersetzung Übersetzung. Musikgenerierung.

Noch nicht geplant:g p Multimodale Dialoge. SPIs für NLP-Funktionalität.

56

Forschungsfragen: Conversational AgentsS

Forschungsfragen: Conversational Agents

Multimodale Benutzerschnittstellen: Scheffer: S

Multimodale Benutzerschnittstellen: Sprache, Gesten, Gesichtsausdruck, …

Konversationsmodelle Verkaufsagenten Sprachtec

Konversationsmodelle, Verkaufsagenten. Lernen von Konversationsskripten [Kadous, 2004].

hnologie Alternative Plattform: Microsoft AgentsMicrosoft Agents

57

ZusammenfassungS

Zusammenfassung

Sprach-Technologie: Scheffer: S

Sprach-Technologie: Spracherkennung, Spracherzeugung. Forschung: Sprachmodelle Parameteroptimierung S

prachtec

Forschung: Sprachmodelle, Parameteroptimierung, Signalverarbeitung.

Technologien für Anwendungsentwicklung: hnologie

g g g SRGS, SSML, VoiceXML. Nicht ausgereift, aber weit entwickelt. Forschung: Generierte, statt gescripteter Dialoge.

Anwendungen: Retrieval, mobile Services, Finanzwirtschaft, Handel, Unified Messaging.

58

Sprachportale - ProblemeS

Sprachportale - Probleme

Sprache weniger geeignet zum Editieren von Scheffer: S

Sprache weniger geeignet zum Editieren von Texten.

Unimodal, keine Grafik. Sprachtec

Unimodal, keine Grafik. Gedächtnis beschränkt, kein schnelles Nachsehen. Sprache langsamer als Text hnologie

Sprache langsamer als Text. Sprache problematisch in

Öffentlichkeit Öffentlichkeit, lauten Umgebungen

59

Spracherzeugung: ZusammenfassungS

Spracherzeugung: ZusammenfassungS

cheffer: S

Vorverarbeitung, Satzenden, Zahlen, Abkürzungen.

Text

A ti t T t

Sprachtec

, g Morphologische Analyse. Wortarterkennung,

Annotierter Text

Morphemfolge hnologie

g,Syntaxanalyse

Aussprachelexika, Wortarten, Parsbaumprosodische Gruppen

Übersetzung. Prosodieerzeugung, Folge von Phonen

Signalerzeugung.Signal

60

Spracherkennung: ZusammenfassungS

Spracherkennung: Zusammenfassung

Diskretisierung FourierAkustisches Signal Scheffer: S

Diskretisierung, Fourier, Merkmalsextraktion.

n-best Viterbi-Dekodierung im

Akustisches Signal

Merkmalsvektor für jeden Zeitschritt S

prachtec

n best Viterbi Dekodierung im phonetischen Modell.

n wahrschenlichste Pfade im

jeden Zeitschritt

Akustisches Modell:HMM fü Ph hnologie

Aussprachenetz, dynamische Programmierung.

HMM für Phone

Akustisches Modell:

Beam-Search-Dekodierung.

Aussprachenetz

Sprachmodell:pN-Gramm, Grammatik

Folge von Wörtern

61

Folge von Wörtern

Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände...

Documents

Transcript of Institut für Informatik Lehrstuhl Maschinelles Lernen · Ein Phon/Senon wird durch 2-20 Zustände...