Automatisches Verstehen gesprochener Sprache file2 4 kasus = DAT numerus = SING genus = FEM 3 5 Die...

17
Automatisches Verstehen gesprochener Sprache 7. Unifikation und Chunking Martin Hacker Bernd Ludwig Günther Görz Professur für Künstliche Intelligenz Department Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg 13.06.2012

Transcript of Automatisches Verstehen gesprochener Sprache file2 4 kasus = DAT numerus = SING genus = FEM 3 5 Die...

Page 1: Automatisches Verstehen gesprochener Sprache file2 4 kasus = DAT numerus = SING genus = FEM 3 5 Die Grammatikregeln bekommen Nebenbedingungen, die angeben, welche Merkmale übereinstimmen

Automatisches Verstehengesprochener Sprache7. Unifikation und Chunking

Martin HackerBernd LudwigGünther Görz

Professur für Künstliche IntelligenzDepartment Informatik

Friedrich-Alexander-Universität Erlangen-Nürnberg

13.06.2012

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Page 2: Automatisches Verstehen gesprochener Sprache file2 4 kasus = DAT numerus = SING genus = FEM 3 5 Die Grammatikregeln bekommen Nebenbedingungen, die angeben, welche Merkmale übereinstimmen

Kapitel 7: Unifikation und Chunking

1 Merkmalstrukturen und Unifikation

2 Chunks

Page 3: Automatisches Verstehen gesprochener Sprache file2 4 kasus = DAT numerus = SING genus = FEM 3 5 Die Grammatikregeln bekommen Nebenbedingungen, die angeben, welche Merkmale übereinstimmen

Kapitel 7: Unifikation und Chunking

1 Merkmalstrukturen und Unifikation

2 Chunks

Page 4: Automatisches Verstehen gesprochener Sprache file2 4 kasus = DAT numerus = SING genus = FEM 3 5 Die Grammatikregeln bekommen Nebenbedingungen, die angeben, welche Merkmale übereinstimmen

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 7: Unifikation und Chunking

Merkmalstrukturen und Unifikation

Kongruenz

Konstituenten alleine reichen nicht aus:Grammatikregeln parsen auch ungrammatischen Input:

PP → P ART N

passt z.B. aufmit die Straßenbahnmit dem Straßenbahnmit der Straßenbahnen

Syntaktische Beziehungen verlangen häufig Kongruenz(agreement) zwischen Konstituenten:

mit braucht Dativ,der Kasus von ART und der von N muss übereinstimmen,ebenso das Genus von ART und N,und der Numerus von ART und N.

4 / 17

Page 5: Automatisches Verstehen gesprochener Sprache file2 4 kasus = DAT numerus = SING genus = FEM 3 5 Die Grammatikregeln bekommen Nebenbedingungen, die angeben, welche Merkmale übereinstimmen

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 7: Unifikation und Chunking

Merkmalstrukturen und Unifikation

Merkmalstrukturen

Erinnerung: Die morphologische Analyse liefert uns diegrammatikalischen Merkmale der einzelnen Wörter:

[kasrek = DAT

] kasus = DATnumerus = SING

genus = FEM

Die Grammatikregeln bekommen Nebenbedingungen, dieangeben, welche Merkmale übereinstimmen müssen:

PP → P [ kasrek = X ] ART[

kasus = Xnumerus = Y

genus = Z

]N[

kasus = Xnumerus = Y

genus = Z

]Eine solche Attribut-Wert-Matrix heißt Merkmalstruktur.

5 / 17

Page 6: Automatisches Verstehen gesprochener Sprache file2 4 kasus = DAT numerus = SING genus = FEM 3 5 Die Grammatikregeln bekommen Nebenbedingungen, die angeben, welche Merkmale übereinstimmen

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 7: Unifikation und Chunking

Merkmalstrukturen und Unifikation

Aufbau von Merkmalstrukturen

Es können beliebige Informationen gespeichert werden.Die Werte können selbst wieder Merkmalstrukturen sein.Koreferenz: Haben zwei Attribute denselben (Identität!)Wert, muss dieser nur einmal gespeichert werden.Kennzeichnung in der Matrix: voranstehende Nummern.Die Reihenfolge der Attribute spielt keine Rolle.

kasus = (1) DATnumerus = (2) SING

genus = (3) FEM+ definite

P =

lemma = mitkasrek = (1) DAT

position = prepos− definite

confidence = 0.7

ART =

lemma = diekasus = (1) DAT

numerus = (2) SINGgenus = (3) FEM

+ definiteconfidence = 0.6

N =

lemma = Straßenbahnkasus = (1) DAT

numerus = (2) SINGgenus = (3) FEM

confidence = 0.8semtyp = SCHEDULED_VEHICLE

6 / 17

Page 7: Automatisches Verstehen gesprochener Sprache file2 4 kasus = DAT numerus = SING genus = FEM 3 5 Die Grammatikregeln bekommen Nebenbedingungen, die angeben, welche Merkmale übereinstimmen

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 7: Unifikation und Chunking

Merkmalstrukturen und Unifikation

Unifikation von Merkmalstrukturen

Analogie: Fahndung nach einem Täter2 Zeugenaussagen, die den Täter teilweise beschreiben:

Aussage 1:

gender = m

size = großage = mitte_dreißig

face =

shape = rundcolor = rötlich

lips =[

size = kleinthickness = dünn

]nose =

[size = groß

shape = haken

]

Aussage 2:

age = mitte_dreißig

gender = msize = groß

figure = stämmigface =

[nose = [ size = klein ]

shape = rund

]

Sind die Aussagen miteinander vereinbar (unifizierbar)?Falls ja, welches Bild ergibt sich insgesamt?→ Unifikation 7 / 17

Page 8: Automatisches Verstehen gesprochener Sprache file2 4 kasus = DAT numerus = SING genus = FEM 3 5 Die Grammatikregeln bekommen Nebenbedingungen, die angeben, welche Merkmale übereinstimmen

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 7: Unifikation und Chunking

Merkmalstrukturen und Unifikation

Informelle Sicht auf die Unifikation

Die resultierende Struktur ist die Vereinigung derInformationen aus beiden MS.Gibt es zu einem Attribut unterschiedliche Werte, sind diebeiden MS nicht unifizierbar.

gender = msize = großage = mitte_dreißig

figure = stämmig

face =

shape = rundcolor = rötlich

lips =[

size = kleinthickness = dünn

]nose =

[size = groß/klein

shape = haken

]

Legende:durch beide Aussagen bestätigtnur in Aussage 1 vorhandennur in Aussage 2 vorhandenWidersprüchliche Informationen

8 / 17

Page 9: Automatisches Verstehen gesprochener Sprache file2 4 kasus = DAT numerus = SING genus = FEM 3 5 Die Grammatikregeln bekommen Nebenbedingungen, die angeben, welche Merkmale übereinstimmen

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 7: Unifikation und Chunking

Merkmalstrukturen und Unifikation

Unifikation und Koreferenz

Die Unifikation erhält alle Koreferenzen.Koreferenzen können auch bestehen, ohne dass Werteangegeben sind:

DET =

kasus = Xnumerus = Y

genus = Z

N =

kasus = Xnumerus = Y

genus = Z

kasus = X

numerus = Ygenus = Z

DET =

lemma = daskasus = NOM

numerus = SINGgenus = NEUT

N =

lemma = Straßenbahnkasus = DAT

numerus = SINGgenus = FEM

Da jede Merkmalstruktur auch als Gleichungssystemgeschrieben werden kann, entspricht die Unifikation derUnifikation von Gleichungssystemen!

9 / 17

Page 10: Automatisches Verstehen gesprochener Sprache file2 4 kasus = DAT numerus = SING genus = FEM 3 5 Die Grammatikregeln bekommen Nebenbedingungen, die angeben, welche Merkmale übereinstimmen

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 7: Unifikation und Chunking

Merkmalstrukturen und Unifikation

Unifikationsgrammatiken

Alle Konstituenten erhalten bei ihrer Instanziierung eineMerkmalstruktur.Jeder Grammatikregel ist eine unterspezifizierteMerkmalstruktur zugeordnet. Diese kann man als Vorlagefür die MS des Konstituenten auf der linken Seitebetrachten.Die Merkmalstruktur für die nicht-terminalen Konstituentenentstehen bei Anwendung einer Grammatik-Regel durchUnifikation der Vorlage mit den MS der rechten Seite.

10 / 17

Page 11: Automatisches Verstehen gesprochener Sprache file2 4 kasus = DAT numerus = SING genus = FEM 3 5 Die Grammatikregeln bekommen Nebenbedingungen, die angeben, welche Merkmale übereinstimmen

Kapitel 7: Unifikation und Chunking

1 Merkmalstrukturen und Unifikation

2 Chunks

Page 12: Automatisches Verstehen gesprochener Sprache file2 4 kasus = DAT numerus = SING genus = FEM 3 5 Die Grammatikregeln bekommen Nebenbedingungen, die angeben, welche Merkmale übereinstimmen

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 7: Unifikation und Chunking

Chunks

Grenzen des symbolischen Grammatikansatzes

Aufgrund der Besonderheiten gesprochener Sprache istdas vollständige, tiefe Parsing schwierig:ich ich möchte gerne ich will heute abend zumChristkindlesmarkt nach Nürnberg und zwar so um 19 Uhrrum und ja halt eben nicht mit dem ICE oder soMan behilft sich mit folgenden Einschränkungen:

1 Partielles Parsing:Es wird nicht versucht, jedes Wort der Äußerung in einesyntaktische Struktur einzubetten, sondern nur die Teileeiner Äußerung, die eine entscheidende Rolle für dieBedeutung des Satzes tragen (vgl. keyphrase spotting).

2 Flaches Parsing:Es werden Syntaxbäume für bestimmte Segmente oderPhrasen erstellt, ohne diese auf höheren Ebenen zuSatzstrukturen zusammenzufassen (vgl. slot filling).

12 / 17

Page 13: Automatisches Verstehen gesprochener Sprache file2 4 kasus = DAT numerus = SING genus = FEM 3 5 Die Grammatikregeln bekommen Nebenbedingungen, die angeben, welche Merkmale übereinstimmen

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 7: Unifikation und Chunking

Chunks

Zwei-Phasen-Parsing

Unser Ansatz besteht aus 2 Phasen:1 Partielles flaches Parsing: Identifikation von Chunks.2 Tiefes Parsing: Analyse der syntaktischen Beziehungen

zwischen Chunks mit Hilfe einer Dependenzgrammatik.

13 / 17

Page 14: Automatisches Verstehen gesprochener Sprache file2 4 kasus = DAT numerus = SING genus = FEM 3 5 Die Grammatikregeln bekommen Nebenbedingungen, die angeben, welche Merkmale übereinstimmen

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 7: Unifikation und Chunking

Chunks

Was sind Chunks?

Viele Wörter in einer Äußerung können nicht allein stehen.Erst durch die Kombination hintereinanderstehenderWörter ergibt sich eine hinreichend genaue Beschreibungder bezeichneten Entität oder des Vorgangs.Diese Wörter sind zu Chunks gruppiert.Die Slots beim Slot Filling bestehen aus einem odermehreren solchen Chunks:Ich muss heute nachmittag gegen vier Uhr dreißig zumHauptbahnhof Nürnberg und suche eine schnelleVerbindung.Es gibt auch eine psycholinguistische Motivation:[I begin] [with an intuition]: [when I read] [a sentence],[I read it] [a chunk] [at a time]. (aus: STEVEN ABNEY: PARSING BY CHUNKS) .

14 / 17

Page 15: Automatisches Verstehen gesprochener Sprache file2 4 kasus = DAT numerus = SING genus = FEM 3 5 Die Grammatikregeln bekommen Nebenbedingungen, die angeben, welche Merkmale übereinstimmen

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 7: Unifikation und Chunking

Chunks

Typen von Chunks

Typ Abk. BeispielNominal-Chunks NC eine schnelle VerbindungPräpositional-Chunks PC nach NürnbergAdverbial-Chunks ADVC jetzt gleichAdjektiv-Chunks ADJC günstige und schnelleVerbal-Chunks VC verpasst habe

Aufgrund der Klammerstellung des Prädikats sind VCs imDeutschen von geringerer Bedeutung:Nimm das Fußballspiel auf!Hast du das Fußballspiel aufgenommen?Bei diesen aus mehreren Bestandteilen bestehendenFormen handelt es sich nicht mehr um Chunks!

15 / 17

Page 16: Automatisches Verstehen gesprochener Sprache file2 4 kasus = DAT numerus = SING genus = FEM 3 5 Die Grammatikregeln bekommen Nebenbedingungen, die angeben, welche Merkmale übereinstimmen

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 7: Unifikation und Chunking

Chunks

Aufbau von Chunks

In der Informatik werden Sequenzen vonEingabesymbolen mit Hilfe von Automaten analysiert.Beispiele: Programmiersprachen, die den Vorteil haben,kontextfrei zu sein!Natürliche Sprache ist zwar nicht kontextfrei, der Aufbauder einzelnen Chunks lässt sich aber mit kontextfreienoder sogar regulären Grammatiken recht gut wiedergeben.In der Originalfassung von Abney sind Chunksnicht-rekursiv aufgebaut, d.h. es reichen sogar reguläreSprachen.Wir erlauben hier jedoch prinzipiell auch Rekursion undverwenden daher kontextfreie Grammatiken.

16 / 17

Page 17: Automatisches Verstehen gesprochener Sprache file2 4 kasus = DAT numerus = SING genus = FEM 3 5 Die Grammatikregeln bekommen Nebenbedingungen, die angeben, welche Merkmale übereinstimmen

Büro

für G

esta

ltung

Wan

gler

& A

bele

04.

Apr

il 20

11

Automatisches Verstehen gesprochener Sprache (SoSe 2012)

Kapitel 7: Unifikation und Chunking

Chunks

Parsing von Chunks

Gegeben: kontextfreie Grammatiken für die einzelnenChunktypen.Die Vereinigung dieser Grammatiken ist eine Grammatikohne Startsymbol!Deswegen findet der Parser keine Lösung.Wende den Chart-Parsing-Algorithmus an: Interessant istder Inhalt der Chart (aktive Kanten) nach der vollständigenExpansion aller Regeln.Diese Kanten bilden die Menge aller Chunkhypothesen imSatz.

17 / 17