Automatisches Verstehen Kapitel 1: Einführung in die … · enthält Verweise auf...

4
Automatisches Verstehen gesprochener Sprache 1. Einführung in die Thematik Martin Hacker Bernd Ludwig Günther Görz Professur für Künstliche Intelligenz Department Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg 18.04.2012 Kapitel 1: Einführung in die Thematik 1 Gesprochene Sprache 2 Systeme in der Praxis Kapitel 1: Einführung in die Thematik 1 Gesprochene Sprache 2 Systeme in der Praxis Automatisches Verstehen gesprochener Sprache (SoSe 2012) Kapitel 1: Einführung in die Thematik Gesprochene Sprache Gesprochene Sprache Mittel zur Kommunikation Was ist Kommunikation? verbal und/oder non-verbal Austausch von gedanklichen Strukturen (Informationen, Meinungen, Gefühle, Wünsche) mittels Symbolen Diese werden zur Übermittlung kodiert und vom Empfänger dekodiert (Modell von Shannon/Weaver) !"#$"% '()(*+*,- .-()/,012 !+3*0+*34 !567810(9( .:;3+(34 <=#=> !?-,/1 !?-,/1 "@ABC#D"% '()(*+*,- .-()/,012 !+3*0+*34 !567810(9( .:;3+(34 !+;3*,- !E3/FGH I(3J+(G(, $(08)?(3*,- <8)?(3*,- !E3/FGH -(,(3?(3*,- 4 / 22 Automatisches Verstehen gesprochener Sprache (SoSe 2012) Kapitel 1: Einführung in die Thematik Gesprochene Sprache Gesprochene Sprache vs. Schriftsprache (1) Gesprochene Sprache ist spontan und flüchtig geringe Vorausplanungskapazität keine Möglichkeit, bereits Gesagtes nachträglich zu verändern oder zu löschen geringes Gedächtnisfenster Gesprochene Sprache ist interaktiv enthält Rückmeldungen (Grounding) enthält Nachfragen und interaktive Erklärungen enthält Unterbrechungen Gesprochene Sprache ist situativ enthält Verweise auf den Situationskontext (Deixis) enthält Präsuppositionen, die sich aus dem Kontext oder dem gemeinsamen Erfahrungsschatz ergeben. enthält Nachfragen und interaktive Erklärungen 5 / 22 Automatisches Verstehen gesprochener Sprache (SoSe 2012) Kapitel 1: Einführung in die Thematik Gesprochene Sprache Gesprochene Sprache vs. Schriftsprache (2) Gesprochene Sprache ist ökonomisch Es wird nicht mehr gesprochen, als nötig, dass der/die Gesprächspartner den Inhalt versteht Dies gilt auch für die Komplexität der Syntax Besonders häufig: Ellipsen Gesprochene Sprache ist personenbezogen Varietäten wie Dialekt, Soziolekt, Umgangssprache Explizite oder implizite Verweise auf gemeinsamen Erfahrungsschatz 6 / 22

Transcript of Automatisches Verstehen Kapitel 1: Einführung in die … · enthält Verweise auf...

Automatisches Verstehengesprochener Sprache1. Einführung in die Thematik

Martin HackerBernd LudwigGünther Görz

Professur für Künstliche IntelligenzDepartment Informatik

Friedrich-Alexander-Universität Erlangen-Nürnberg

18.04.2012

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11Kapitel 1: Einführung in die Thematik

1 Gesprochene Sprache

2 Systeme in der Praxis

Kapitel 1: Einführung in die Thematik

1 Gesprochene Sprache

2 Systeme in der Praxis

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 1: Einführung in die Thematik

Gesprochene Sprache

Gesprochene Sprache

Mittel zur Kommunikation → Was ist Kommunikation?verbal und/oder non-verbalAustausch von gedanklichen Strukturen (Informationen,Meinungen, Gefühle, Wünsche) mittels SymbolenDiese werden zur Übermittlung kodiert und vomEmpfänger dekodiert (Modell von Shannon/Weaver)

!"#$"%&

'()(*+*,-&.-()/,012&!+3*0+*34&

!567810(9(&.:;3+(34&

<=#=>&

!?-,/1& !?-,/1&

"@ABC#D"%&

'()(*+*,-&.-()/,012&!+3*0+*34&

!567810(9(&.:;3+(34&

!+;3*,-&

&&!E3/FGH

I(3J+(G(,&

$(08)?(3*,-&<8)?(3*,-&

!E3/FGH

-(,(3?(3*,-&

4 / 22

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 1: Einführung in die Thematik

Gesprochene Sprache

Gesprochene Sprache vs. Schriftsprache (1)

Gesprochene Sprache ist spontan und flüchtiggeringe Vorausplanungskapazitätkeine Möglichkeit, bereits Gesagtes nachträglich zuverändern oder zu löschengeringes Gedächtnisfenster

Gesprochene Sprache ist interaktiventhält Rückmeldungen (Grounding)enthält Nachfragen und interaktive Erklärungenenthält Unterbrechungen

Gesprochene Sprache ist situativenthält Verweise auf den Situationskontext (Deixis)enthält Präsuppositionen, die sich aus dem Kontext oderdem gemeinsamen Erfahrungsschatz ergeben.enthält Nachfragen und interaktive Erklärungen

5 / 22

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 1: Einführung in die Thematik

Gesprochene Sprache

Gesprochene Sprache vs. Schriftsprache (2)

Gesprochene Sprache ist ökonomischEs wird nicht mehr gesprochen, als nötig, dass der/dieGesprächspartner den Inhalt verstehtDies gilt auch für die Komplexität der SyntaxBesonders häufig: Ellipsen

Gesprochene Sprache ist personenbezogenVarietäten wie Dialekt, Soziolekt, UmgangsspracheExplizite oder implizite Verweise auf gemeinsamenErfahrungsschatz

6 / 22

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 1: Einführung in die Thematik

Gesprochene Sprache

Besonderheiten

LexikalischKlitika (gibt’s)Umgangssprachliche Formen (ich hab heut)Füllwörter (also, halt, oder so), Platzhalter (das Ding)falsche Verwendung oder Umdeutung von Wörtern

SyntaktischInterpunktion nur teilweise durch Intonation wiedergegebenWortgrenzen verschwimmenfreiere WortstellungDisfluenzen

7 / 22

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 1: Einführung in die Thematik

Gesprochene Sprache

Arten von Disfluenzen

Selbstkorrekturen In äh auf welchem Sender ZDF oder ARDWiederholungen und zwischendurch könnten wir mal von Fernse-

hen auf auf Radio umschaltenAbbrüche wie häufig hat jetzt eigentlich wie häufig ist der

Fernseher eigentlich heute schon eingeschaltetworden

Anakoluthe wenn wir noch keine Nachrichten sehen könnenbitte ich den Fernseher solange auszuschaltenund um zwanzig Uhr wieder einschalten

Häsitationen Ich möchte ... äh ...Herausstellungen und den Ventilator können Sie den bitte anschaltenNachschübe ich hätt jetzt doch gern die Lampe angeschaltet

und zwar den Deckenfluter

8 / 22

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 1: Einführung in die Thematik

Gesprochene Sprache

Gesprächsarten

Dialog1 Austausch von Meinungen oder Informa-tionen, meist zum Zweck, ein Problem zulösen oder einen Kompromiss zu finden

Konversation1 Pflege sozialer BeziehungenDiskurs1 Dialog als rationale HandlungDiktat Gesprochene Schriftsprache, einseitig

vorgetragen, nur unterbrochen durchspontansprachliche Nachfragen und Er-läuterungen

1Definition nach McTear (2002): Spoken dialogue technology9 / 22

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 1: Einführung in die Thematik

Gesprochene Sprache

Dialog

ZielZwei oder mehr Teilnehmer haben unterschiedlichesWissen/GlaubenZur Lösung eines Problems oder zur Konsensfindung istAustausch von Wissen/Gedanken nötigAber auch Kommunikation als Selbstzweck möglich

Typische ElementeGroundingBezug auf vorher Gesagtes

10 / 22

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 1: Einführung in die Thematik

Gesprochene Sprache

Struktur von Dialogen

ÄußerungenMoves, TurnsDialogakte (z. B. INFO-REQUEST, STATEMENT, REJECT)Dialogaktsequenzen (z. B. Frage-Antwort-Paar,Äußerung-Bestätigung)eingebettete Dialoge (z. B. Klärungsdialoge)ThemenSpeech Events (z. B. Erzählen einer Anekdote)

11 / 22

Kapitel 1: Einführung in die Thematik

1 Gesprochene Sprache

2 Systeme in der Praxis

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 1: Einführung in die Thematik

Systeme in der Praxis

Maschinelle Verarbeitung gesprochener Sprache

!"#$"%&

'()(*+*,-&.-()/,012&!+3*0+*34&

!567810(9(&.:;3+(34&

<=#=>&

!?-,/1& !?-,/1&

"@ABC#D"%&

'()(*+*,-&.-()/,012&!+3*0+*34&

!567810(9(&.:;3+(34&

!+;3*,-&

&&!E3/FGH

I(3J+(G(,&

$(08)?(3*,-&<8)?(3*,-&

!E3/FGH

-(,(3?(3*,-&

1 Sprachproduktion (Textgenerierung und Text-to-Speech,hier nicht behandelt)

2 Dekodierung des akustischen Signals (Spracherkennung)3 Interpretation (Sprachverstehen)

13 / 22

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 1: Einführung in die Thematik

Systeme in der Praxis

Aufbau eines Dialogsystems

!"#$%&'()%)*("+,$#- .(/01"(),$#- !2)%34'()5+(4($-

."%&0#6%$%#(6($+-

!2)%34%,5#%*(-

7/+0)($-

.%+($*%$/- 8($,+9()601(&&-

!($50)($-

14 / 22

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 1: Einführung in die Thematik

Systeme in der Praxis

Anwendungsbeispiele

DiktiersystemeTelefonhotline (Kundendatenabfrage und/oder Vorauswahlzur Weiterleitung an zuständigen Bearbeiter)AutonavigationssystemSteuerung von HaushaltsgerätenSprachwahlDatenbankabfrage (Kinoauskunft)VoiceMail/VoiceSearchAssistenzsystemeTranslatorSimulated Conversation

15 / 22Bü

ro fü

r Ges

taltu

ng W

angl

er &

Abe

le 0

4. A

pril

2011

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 1: Einführung in die Thematik

Systeme in der Praxis

Akzeptanzprobleme

Insbesondere Dialogsysteme haben einen schlechten Rufhttp://www.youtube.com/watch?v=ryBn5nBwVmUBahnauskunft.wav

Gründe:Häufige Fehlerkennungen (Wortfehlerraten von 25%)Statische, unnatürliche Dialogführung(Systemprompts abwarten, keine Möglichkeit zur Initiative)Eingeschränktes Vokabular, aber:„Was kann ich sagen?“Keine Lösung für unvorhergesehene Probleme

16 / 22

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 1: Einführung in die Thematik

Systeme in der Praxis

Klassifikation von Dialogsystemen

nach ArtikulationIsolierte Wörter vs. kontinuierliche SpracheSprecherabhängig vs. sprecherunabhängigRein auditiv vs. multimodal

nach SprachstilKontrollierte vs. freie SpracheSpezialvokabular oder Allgemeinsprache (large-vocabulary)Geplante Sprache vs. SpontanspracheMonolingual vs. multilingual

nach Art der AufgabeReines Auskunftssystem vs. Durchführung vonTransaktionenKonventionell vs. kollaborativ

nach Ablauf des DialogsSysteminitiativ, benutzerinitiativ, gemischt initiativ

17 / 22

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 1: Einführung in die Thematik

Systeme in der Praxis

Zwei Sichtweisen auf Dialogsysteme

1 Speech User Interface (SUI) als Alternative zum GraphicalUser Interface (GUI)

Starrer, vorher festgelegter AblaufI. d. R. vom System vorgegebene MenüführungBenutzer muss Lösungsweg kennen

2 System als eigenständiger, kognitiverKommunikationsagent

Benutzer kann Problem beschreibenSystem besitzt Fähigkeiten zum Schließen undProblemlösen (Planen)

18 / 22

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 1: Einführung in die Thematik

Systeme in der Praxis

Bedarf (1)

Wann wird Spracheingabe vorgezogen?Wenn andere Modalitäten blockiert (z. B. Autofahren,Behinderung)Wenn Tastatureingabe unergonomisch (z. B. Handy)Wenn kein ausreichend großes Display verfügbar (z. B.eingebettete Systeme)Wenn Systemfunktionalität zu komplex und Benutzer nichtmit GUI vertraut

19 / 22

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 1: Einführung in die Thematik

Systeme in der Praxis

Bedarf (2)

Wann ist Spracheingabe nicht geeignet?In lauten UmgebungenFür vertrauliche Angelegenheiten in der ÖffentlichkeitFür Information, die schwer serialisiert werden kann(z. B. Tabellen)Für Information, die die Kapazität desKurzzeitgedächtnisses übersteigt

20 / 22

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 1: Einführung in die Thematik

Systeme in der Praxis

Schwierigkeiten

Jeder Mensch spricht andersStimmlage, TempoAkzent/DialektHeiserkeit, SprechstörungSprechstil

Aussprache variiert je nachEmotionWortkontext

Akustische StörfaktorenAufnahmesettingHintergrundgeräuscheGleichzeitiges Sprechen mehrerer PersonenWechsel zwischen On- und Offtalk

Viele Möglichkeiten, einen Sachverhalt auszudrückenAmbiguität auf allen Ebenen

21 / 22Bü

ro fü

r Ges

taltu

ng W

angl

er &

Abe

le 0

4. A

pril

2011

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 1: Einführung in die Thematik

Systeme in der Praxis

Gesellschaftliche und philosophische Fragen

Ersetzt die Maschine den Menschen bald auch in weitenTeilen des Dienstleistungssektors?Wird die Mensch-Computer-Kommunikation unsereSprache und unser Denken ähnlich stark oder noch stärkerverändern als der Übergang ins Informationszeitalter(Internet)?Ist es möglich, wie ein Mensch zu sprechen, ohne wie einMensch zu denken?Bestimmt die Sprache das Denken (WhorfscheHypothese), das Denken die Sprache (Aristoteles), odersind Sprache und Denken unabhängig(Modularitätshypothese von Fodor 1983)?

22 / 22