Automatisches Verstehen gesprochener Sprache file2 4 kasus = DAT numerus = SING genus = FEM 3 5 Die...
Transcript of Automatisches Verstehen gesprochener Sprache file2 4 kasus = DAT numerus = SING genus = FEM 3 5 Die...
Automatisches Verstehengesprochener Sprache7. Unifikation und Chunking
Martin HackerBernd LudwigGünther Görz
Professur für Künstliche IntelligenzDepartment Informatik
Friedrich-Alexander-Universität Erlangen-Nürnberg
13.06.2012
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Kapitel 7: Unifikation und Chunking
1 Merkmalstrukturen und Unifikation
2 Chunks
Kapitel 7: Unifikation und Chunking
1 Merkmalstrukturen und Unifikation
2 Chunks
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 7: Unifikation und Chunking
Merkmalstrukturen und Unifikation
Kongruenz
Konstituenten alleine reichen nicht aus:Grammatikregeln parsen auch ungrammatischen Input:
PP → P ART N
passt z.B. aufmit die Straßenbahnmit dem Straßenbahnmit der Straßenbahnen
Syntaktische Beziehungen verlangen häufig Kongruenz(agreement) zwischen Konstituenten:
mit braucht Dativ,der Kasus von ART und der von N muss übereinstimmen,ebenso das Genus von ART und N,und der Numerus von ART und N.
4 / 17
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 7: Unifikation und Chunking
Merkmalstrukturen und Unifikation
Merkmalstrukturen
Erinnerung: Die morphologische Analyse liefert uns diegrammatikalischen Merkmale der einzelnen Wörter:
[kasrek = DAT
] kasus = DATnumerus = SING
genus = FEM
Die Grammatikregeln bekommen Nebenbedingungen, dieangeben, welche Merkmale übereinstimmen müssen:
PP → P [ kasrek = X ] ART[
kasus = Xnumerus = Y
genus = Z
]N[
kasus = Xnumerus = Y
genus = Z
]Eine solche Attribut-Wert-Matrix heißt Merkmalstruktur.
5 / 17
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 7: Unifikation und Chunking
Merkmalstrukturen und Unifikation
Aufbau von Merkmalstrukturen
Es können beliebige Informationen gespeichert werden.Die Werte können selbst wieder Merkmalstrukturen sein.Koreferenz: Haben zwei Attribute denselben (Identität!)Wert, muss dieser nur einmal gespeichert werden.Kennzeichnung in der Matrix: voranstehende Nummern.Die Reihenfolge der Attribute spielt keine Rolle.
kasus = (1) DATnumerus = (2) SING
genus = (3) FEM+ definite
P =
lemma = mitkasrek = (1) DAT
position = prepos− definite
confidence = 0.7
ART =
lemma = diekasus = (1) DAT
numerus = (2) SINGgenus = (3) FEM
+ definiteconfidence = 0.6
N =
lemma = Straßenbahnkasus = (1) DAT
numerus = (2) SINGgenus = (3) FEM
confidence = 0.8semtyp = SCHEDULED_VEHICLE
6 / 17
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 7: Unifikation und Chunking
Merkmalstrukturen und Unifikation
Unifikation von Merkmalstrukturen
Analogie: Fahndung nach einem Täter2 Zeugenaussagen, die den Täter teilweise beschreiben:
Aussage 1:
gender = m
size = großage = mitte_dreißig
face =
shape = rundcolor = rötlich
lips =[
size = kleinthickness = dünn
]nose =
[size = groß
shape = haken
]
Aussage 2:
age = mitte_dreißig
gender = msize = groß
figure = stämmigface =
[nose = [ size = klein ]
shape = rund
]
Sind die Aussagen miteinander vereinbar (unifizierbar)?Falls ja, welches Bild ergibt sich insgesamt?→ Unifikation 7 / 17
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 7: Unifikation und Chunking
Merkmalstrukturen und Unifikation
Informelle Sicht auf die Unifikation
Die resultierende Struktur ist die Vereinigung derInformationen aus beiden MS.Gibt es zu einem Attribut unterschiedliche Werte, sind diebeiden MS nicht unifizierbar.
gender = msize = großage = mitte_dreißig
figure = stämmig
face =
shape = rundcolor = rötlich
lips =[
size = kleinthickness = dünn
]nose =
[size = groß/klein
shape = haken
]
Legende:durch beide Aussagen bestätigtnur in Aussage 1 vorhandennur in Aussage 2 vorhandenWidersprüchliche Informationen
8 / 17
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 7: Unifikation und Chunking
Merkmalstrukturen und Unifikation
Unifikation und Koreferenz
Die Unifikation erhält alle Koreferenzen.Koreferenzen können auch bestehen, ohne dass Werteangegeben sind:
DET =
kasus = Xnumerus = Y
genus = Z
N =
kasus = Xnumerus = Y
genus = Z
kasus = X
numerus = Ygenus = Z
DET =
lemma = daskasus = NOM
numerus = SINGgenus = NEUT
N =
lemma = Straßenbahnkasus = DAT
numerus = SINGgenus = FEM
Da jede Merkmalstruktur auch als Gleichungssystemgeschrieben werden kann, entspricht die Unifikation derUnifikation von Gleichungssystemen!
9 / 17
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 7: Unifikation und Chunking
Merkmalstrukturen und Unifikation
Unifikationsgrammatiken
Alle Konstituenten erhalten bei ihrer Instanziierung eineMerkmalstruktur.Jeder Grammatikregel ist eine unterspezifizierteMerkmalstruktur zugeordnet. Diese kann man als Vorlagefür die MS des Konstituenten auf der linken Seitebetrachten.Die Merkmalstruktur für die nicht-terminalen Konstituentenentstehen bei Anwendung einer Grammatik-Regel durchUnifikation der Vorlage mit den MS der rechten Seite.
10 / 17
Kapitel 7: Unifikation und Chunking
1 Merkmalstrukturen und Unifikation
2 Chunks
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 7: Unifikation und Chunking
Chunks
Grenzen des symbolischen Grammatikansatzes
Aufgrund der Besonderheiten gesprochener Sprache istdas vollständige, tiefe Parsing schwierig:ich ich möchte gerne ich will heute abend zumChristkindlesmarkt nach Nürnberg und zwar so um 19 Uhrrum und ja halt eben nicht mit dem ICE oder soMan behilft sich mit folgenden Einschränkungen:
1 Partielles Parsing:Es wird nicht versucht, jedes Wort der Äußerung in einesyntaktische Struktur einzubetten, sondern nur die Teileeiner Äußerung, die eine entscheidende Rolle für dieBedeutung des Satzes tragen (vgl. keyphrase spotting).
2 Flaches Parsing:Es werden Syntaxbäume für bestimmte Segmente oderPhrasen erstellt, ohne diese auf höheren Ebenen zuSatzstrukturen zusammenzufassen (vgl. slot filling).
12 / 17
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 7: Unifikation und Chunking
Chunks
Zwei-Phasen-Parsing
Unser Ansatz besteht aus 2 Phasen:1 Partielles flaches Parsing: Identifikation von Chunks.2 Tiefes Parsing: Analyse der syntaktischen Beziehungen
zwischen Chunks mit Hilfe einer Dependenzgrammatik.
13 / 17
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 7: Unifikation und Chunking
Chunks
Was sind Chunks?
Viele Wörter in einer Äußerung können nicht allein stehen.Erst durch die Kombination hintereinanderstehenderWörter ergibt sich eine hinreichend genaue Beschreibungder bezeichneten Entität oder des Vorgangs.Diese Wörter sind zu Chunks gruppiert.Die Slots beim Slot Filling bestehen aus einem odermehreren solchen Chunks:Ich muss heute nachmittag gegen vier Uhr dreißig zumHauptbahnhof Nürnberg und suche eine schnelleVerbindung.Es gibt auch eine psycholinguistische Motivation:[I begin] [with an intuition]: [when I read] [a sentence],[I read it] [a chunk] [at a time]. (aus: STEVEN ABNEY: PARSING BY CHUNKS) .
14 / 17
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 7: Unifikation und Chunking
Chunks
Typen von Chunks
Typ Abk. BeispielNominal-Chunks NC eine schnelle VerbindungPräpositional-Chunks PC nach NürnbergAdverbial-Chunks ADVC jetzt gleichAdjektiv-Chunks ADJC günstige und schnelleVerbal-Chunks VC verpasst habe
Aufgrund der Klammerstellung des Prädikats sind VCs imDeutschen von geringerer Bedeutung:Nimm das Fußballspiel auf!Hast du das Fußballspiel aufgenommen?Bei diesen aus mehreren Bestandteilen bestehendenFormen handelt es sich nicht mehr um Chunks!
15 / 17
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 7: Unifikation und Chunking
Chunks
Aufbau von Chunks
In der Informatik werden Sequenzen vonEingabesymbolen mit Hilfe von Automaten analysiert.Beispiele: Programmiersprachen, die den Vorteil haben,kontextfrei zu sein!Natürliche Sprache ist zwar nicht kontextfrei, der Aufbauder einzelnen Chunks lässt sich aber mit kontextfreienoder sogar regulären Grammatiken recht gut wiedergeben.In der Originalfassung von Abney sind Chunksnicht-rekursiv aufgebaut, d.h. es reichen sogar reguläreSprachen.Wir erlauben hier jedoch prinzipiell auch Rekursion undverwenden daher kontextfreie Grammatiken.
16 / 17
Büro
für G
esta
ltung
Wan
gler
& A
bele
04.
Apr
il 20
11
Automatisches Verstehen gesprochener Sprache (SoSe 2012)
Kapitel 7: Unifikation und Chunking
Chunks
Parsing von Chunks
Gegeben: kontextfreie Grammatiken für die einzelnenChunktypen.Die Vereinigung dieser Grammatiken ist eine Grammatikohne Startsymbol!Deswegen findet der Parser keine Lösung.Wende den Chart-Parsing-Algorithmus an: Interessant istder Inhalt der Chart (aktive Kanten) nach der vollständigenExpansion aller Regeln.Diese Kanten bilden die Menge aller Chunkhypothesen imSatz.
17 / 17