Automatisches Verstehen Kapitel 1: Einführung in die … · enthält Verweise auf...
Transcript of Automatisches Verstehen Kapitel 1: Einführung in die … · enthält Verweise auf...
Automatisches Verstehengesprochener Sprache1. Einführung in die Thematik
Martin HackerBernd LudwigGünther Görz
Professur für Künstliche IntelligenzDepartment Informatik
Friedrich-Alexander-Universität Erlangen-Nürnberg
18.04.2012
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11Kapitel 1: Einführung in die Thematik
1 Gesprochene Sprache
2 Systeme in der Praxis
Kapitel 1: Einführung in die Thematik
1 Gesprochene Sprache
2 Systeme in der Praxis
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 1: Einführung in die Thematik
Gesprochene Sprache
Gesprochene Sprache
Mittel zur Kommunikation → Was ist Kommunikation?verbal und/oder non-verbalAustausch von gedanklichen Strukturen (Informationen,Meinungen, Gefühle, Wünsche) mittels SymbolenDiese werden zur Übermittlung kodiert und vomEmpfänger dekodiert (Modell von Shannon/Weaver)
!"#$"%&
'()(*+*,-&.-()/,012&!+3*0+*34&
!567810(9(&.:;3+(34&
<=#=>&
!?-,/1& !?-,/1&
"@ABC#D"%&
'()(*+*,-&.-()/,012&!+3*0+*34&
!567810(9(&.:;3+(34&
!+;3*,-&
&&!E3/FGH
I(3J+(G(,&
$(08)?(3*,-&<8)?(3*,-&
!E3/FGH
-(,(3?(3*,-&
4 / 22
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 1: Einführung in die Thematik
Gesprochene Sprache
Gesprochene Sprache vs. Schriftsprache (1)
Gesprochene Sprache ist spontan und flüchtiggeringe Vorausplanungskapazitätkeine Möglichkeit, bereits Gesagtes nachträglich zuverändern oder zu löschengeringes Gedächtnisfenster
Gesprochene Sprache ist interaktiventhält Rückmeldungen (Grounding)enthält Nachfragen und interaktive Erklärungenenthält Unterbrechungen
Gesprochene Sprache ist situativenthält Verweise auf den Situationskontext (Deixis)enthält Präsuppositionen, die sich aus dem Kontext oderdem gemeinsamen Erfahrungsschatz ergeben.enthält Nachfragen und interaktive Erklärungen
5 / 22
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 1: Einführung in die Thematik
Gesprochene Sprache
Gesprochene Sprache vs. Schriftsprache (2)
Gesprochene Sprache ist ökonomischEs wird nicht mehr gesprochen, als nötig, dass der/dieGesprächspartner den Inhalt verstehtDies gilt auch für die Komplexität der SyntaxBesonders häufig: Ellipsen
Gesprochene Sprache ist personenbezogenVarietäten wie Dialekt, Soziolekt, UmgangsspracheExplizite oder implizite Verweise auf gemeinsamenErfahrungsschatz
6 / 22
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 1: Einführung in die Thematik
Gesprochene Sprache
Besonderheiten
LexikalischKlitika (gibt’s)Umgangssprachliche Formen (ich hab heut)Füllwörter (also, halt, oder so), Platzhalter (das Ding)falsche Verwendung oder Umdeutung von Wörtern
SyntaktischInterpunktion nur teilweise durch Intonation wiedergegebenWortgrenzen verschwimmenfreiere WortstellungDisfluenzen
7 / 22
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 1: Einführung in die Thematik
Gesprochene Sprache
Arten von Disfluenzen
Selbstkorrekturen In äh auf welchem Sender ZDF oder ARDWiederholungen und zwischendurch könnten wir mal von Fernse-
hen auf auf Radio umschaltenAbbrüche wie häufig hat jetzt eigentlich wie häufig ist der
Fernseher eigentlich heute schon eingeschaltetworden
Anakoluthe wenn wir noch keine Nachrichten sehen könnenbitte ich den Fernseher solange auszuschaltenund um zwanzig Uhr wieder einschalten
Häsitationen Ich möchte ... äh ...Herausstellungen und den Ventilator können Sie den bitte anschaltenNachschübe ich hätt jetzt doch gern die Lampe angeschaltet
und zwar den Deckenfluter
8 / 22
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 1: Einführung in die Thematik
Gesprochene Sprache
Gesprächsarten
Dialog1 Austausch von Meinungen oder Informa-tionen, meist zum Zweck, ein Problem zulösen oder einen Kompromiss zu finden
Konversation1 Pflege sozialer BeziehungenDiskurs1 Dialog als rationale HandlungDiktat Gesprochene Schriftsprache, einseitig
vorgetragen, nur unterbrochen durchspontansprachliche Nachfragen und Er-läuterungen
1Definition nach McTear (2002): Spoken dialogue technology9 / 22
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 1: Einführung in die Thematik
Gesprochene Sprache
Dialog
ZielZwei oder mehr Teilnehmer haben unterschiedlichesWissen/GlaubenZur Lösung eines Problems oder zur Konsensfindung istAustausch von Wissen/Gedanken nötigAber auch Kommunikation als Selbstzweck möglich
Typische ElementeGroundingBezug auf vorher Gesagtes
10 / 22
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 1: Einführung in die Thematik
Gesprochene Sprache
Struktur von Dialogen
ÄußerungenMoves, TurnsDialogakte (z. B. INFO-REQUEST, STATEMENT, REJECT)Dialogaktsequenzen (z. B. Frage-Antwort-Paar,Äußerung-Bestätigung)eingebettete Dialoge (z. B. Klärungsdialoge)ThemenSpeech Events (z. B. Erzählen einer Anekdote)
11 / 22
Kapitel 1: Einführung in die Thematik
1 Gesprochene Sprache
2 Systeme in der Praxis
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 1: Einführung in die Thematik
Systeme in der Praxis
Maschinelle Verarbeitung gesprochener Sprache
!"#$"%&
'()(*+*,-&.-()/,012&!+3*0+*34&
!567810(9(&.:;3+(34&
<=#=>&
!?-,/1& !?-,/1&
"@ABC#D"%&
'()(*+*,-&.-()/,012&!+3*0+*34&
!567810(9(&.:;3+(34&
!+;3*,-&
&&!E3/FGH
I(3J+(G(,&
$(08)?(3*,-&<8)?(3*,-&
!E3/FGH
-(,(3?(3*,-&
1 Sprachproduktion (Textgenerierung und Text-to-Speech,hier nicht behandelt)
2 Dekodierung des akustischen Signals (Spracherkennung)3 Interpretation (Sprachverstehen)
13 / 22
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 1: Einführung in die Thematik
Systeme in der Praxis
Aufbau eines Dialogsystems
!"#$%&'()%)*("+,$#- .(/01"(),$#- !2)%34'()5+(4($-
."%&0#6%$%#(6($+-
!2)%34%,5#%*(-
7/+0)($-
.%+($*%$/- 8($,+9()601(&&-
!($50)($-
14 / 22
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 1: Einführung in die Thematik
Systeme in der Praxis
Anwendungsbeispiele
DiktiersystemeTelefonhotline (Kundendatenabfrage und/oder Vorauswahlzur Weiterleitung an zuständigen Bearbeiter)AutonavigationssystemSteuerung von HaushaltsgerätenSprachwahlDatenbankabfrage (Kinoauskunft)VoiceMail/VoiceSearchAssistenzsystemeTranslatorSimulated Conversation
15 / 22Bü
ro fü
r Ges
taltu
ng W
angl
er &
Abe
le 0
4. A
pril
2011
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 1: Einführung in die Thematik
Systeme in der Praxis
Akzeptanzprobleme
Insbesondere Dialogsysteme haben einen schlechten Rufhttp://www.youtube.com/watch?v=ryBn5nBwVmUBahnauskunft.wav
Gründe:Häufige Fehlerkennungen (Wortfehlerraten von 25%)Statische, unnatürliche Dialogführung(Systemprompts abwarten, keine Möglichkeit zur Initiative)Eingeschränktes Vokabular, aber:„Was kann ich sagen?“Keine Lösung für unvorhergesehene Probleme
16 / 22
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 1: Einführung in die Thematik
Systeme in der Praxis
Klassifikation von Dialogsystemen
nach ArtikulationIsolierte Wörter vs. kontinuierliche SpracheSprecherabhängig vs. sprecherunabhängigRein auditiv vs. multimodal
nach SprachstilKontrollierte vs. freie SpracheSpezialvokabular oder Allgemeinsprache (large-vocabulary)Geplante Sprache vs. SpontanspracheMonolingual vs. multilingual
nach Art der AufgabeReines Auskunftssystem vs. Durchführung vonTransaktionenKonventionell vs. kollaborativ
nach Ablauf des DialogsSysteminitiativ, benutzerinitiativ, gemischt initiativ
17 / 22
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 1: Einführung in die Thematik
Systeme in der Praxis
Zwei Sichtweisen auf Dialogsysteme
1 Speech User Interface (SUI) als Alternative zum GraphicalUser Interface (GUI)
Starrer, vorher festgelegter AblaufI. d. R. vom System vorgegebene MenüführungBenutzer muss Lösungsweg kennen
2 System als eigenständiger, kognitiverKommunikationsagent
Benutzer kann Problem beschreibenSystem besitzt Fähigkeiten zum Schließen undProblemlösen (Planen)
18 / 22
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 1: Einführung in die Thematik
Systeme in der Praxis
Bedarf (1)
Wann wird Spracheingabe vorgezogen?Wenn andere Modalitäten blockiert (z. B. Autofahren,Behinderung)Wenn Tastatureingabe unergonomisch (z. B. Handy)Wenn kein ausreichend großes Display verfügbar (z. B.eingebettete Systeme)Wenn Systemfunktionalität zu komplex und Benutzer nichtmit GUI vertraut
19 / 22
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 1: Einführung in die Thematik
Systeme in der Praxis
Bedarf (2)
Wann ist Spracheingabe nicht geeignet?In lauten UmgebungenFür vertrauliche Angelegenheiten in der ÖffentlichkeitFür Information, die schwer serialisiert werden kann(z. B. Tabellen)Für Information, die die Kapazität desKurzzeitgedächtnisses übersteigt
20 / 22
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 1: Einführung in die Thematik
Systeme in der Praxis
Schwierigkeiten
Jeder Mensch spricht andersStimmlage, TempoAkzent/DialektHeiserkeit, SprechstörungSprechstil
Aussprache variiert je nachEmotionWortkontext
Akustische StörfaktorenAufnahmesettingHintergrundgeräuscheGleichzeitiges Sprechen mehrerer PersonenWechsel zwischen On- und Offtalk
Viele Möglichkeiten, einen Sachverhalt auszudrückenAmbiguität auf allen Ebenen
21 / 22Bü
ro fü
r Ges
taltu
ng W
angl
er &
Abe
le 0
4. A
pril
2011
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 1: Einführung in die Thematik
Systeme in der Praxis
Gesellschaftliche und philosophische Fragen
Ersetzt die Maschine den Menschen bald auch in weitenTeilen des Dienstleistungssektors?Wird die Mensch-Computer-Kommunikation unsereSprache und unser Denken ähnlich stark oder noch stärkerverändern als der Übergang ins Informationszeitalter(Internet)?Ist es möglich, wie ein Mensch zu sprechen, ohne wie einMensch zu denken?Bestimmt die Sprache das Denken (WhorfscheHypothese), das Denken die Sprache (Aristoteles), odersind Sprache und Denken unabhängig(Modularitätshypothese von Fodor 1983)?
22 / 22