Einführung in die Linguistik, Teil...

45
Einführung in die Linguistik, Teil 4 Menschliche und Maschinelle Sprachverarbeitung Markus Bader, Miriam Butt, Uli Lutz, Bj ¨ orn Wiemer Einf ¨ uhrung in die Linguistik, Teil 4 – p. 1/46

Transcript of Einführung in die Linguistik, Teil...

Einführung in die Linguistik, Teil 4Menschliche und Maschinelle Sprachverarbeitung

Markus Bader, Miriam Butt, Uli Lutz, Bjorn Wiemer

Einfuhrung in die Linguistik, Teil 4 – p. 1/46

Syntax und Sprachverarbeitung

Die syntaktische Struktur eines Satzes gibt Auskunftüber . . .

Lineare AbfolgeIn welcher Reihenfolge müssen die einzelnen Wörter imSatz erscheinen?

Hierarchische GliederungWelche Wörter gehören eng zusammen, welche nicht?

Syntaktische Funktionen: Was ist das Subjekt einesSatzes, was das Objekt?

Einfuhrung in die Linguistik, Teil 4 – p. 2/46

Syntax und Sprachproduktion

n! Möglichkeiten, n Wörter anzuordnen:

(1) {Opa, lacht, unser}a. unser Opa lachtb. *unser lacht Opac. *Opa lacht unserd. *Opa unser lachte. Lacht unser Opaf. *Lacht Opa unser

Einfuhrung in die Linguistik, Teil 4 – p. 3/46

Syntax und Sprachverstehen

(1) a. Peter loves Mary.b. Mary loves Peter.

(3) a. Der Peter liebt die Maria.b. Den Peter liebt die Maria.

(2) a. Peter liebt Maria.b. Maria liebt Peter.

Einfuhrung in die Linguistik, Teil 4 – p. 4/46

Syntax und Übersetzen 1

1-zu-1-Übersetzung von Englisch nach Deutsch(oder umgekehrt):

(1) a. The dog ate the cake.b. Der Hund aß den Kuchen.

(2) a. I believe that the dog snores.b. Ich glaube, dass der Hund schnarcht.

Einfuhrung in die Linguistik, Teil 4 – p. 5/46

Syntax und Übersetzen 2

1-zu-1-Übersetzung von Enlisch nach Deutsch(Fortsetzung):

(3) a. The dog will eat the cake.b. *Der Hund wird essen den Kuchen.

(4) a. I believe that the dog will snore.b. *Ich glaube, dass der Hund wird schlafen.

(5) a. Which cake will the dog eat?b. Welchen Kuchen wird der Hund essen?

Einfuhrung in die Linguistik, Teil 4 – p. 6/46

Syntax und Sprachverstehen

Fragestellungen

Wie wird einem Satz beim Sprachverstehen einesyntaktische Struktur zugewiesen?

Wie werden syntaktische Ambiguitäten beimSprachverstehen aufgelöst?

Einfuhrung in die Linguistik, Teil 4 – p. 7/46

Parsing

Die Zuweisung einer syntaktischen Struktur an einenSatz bezeichnet man als PARSING.

Einen Mechanismus oder einen Prozess, der einesyntaktische Struktur berechnet, bezeichnet mandementsprechend als PARSER.

Diejenigen Prozesse im menschlichen Gehirn, die fürdas Berechnen syntaktischer Strukturen zuständig sind,bezeichnet man als MENSCHLICHEN PARSER.

Auch im Bereich der Computerwissenschaft ist Parsingein häufig wiederkehrendes Problem: Beispielsweisebeinhaltet die Anzeige jeder Webpage einenParsingprozess (der das anzuzeigende HTML-Fileparst).

Einfuhrung in die Linguistik, Teil 4 – p. 8/46

Globale Syntaktische Ambiguitäten

(1) Max gefällt Maria.

(2) a. Dem Max gefällt die Maria.b. Der Max gefällt der Maria.

Satz (1) ist global ambig, denn auch nach Verarbeitendes gesamten Satzes kann man nicht entscheiden,welche DP das Subjekt ist und welche DP das Objekt.

Einfuhrung in die Linguistik, Teil 4 – p. 9/46

Globale Ambiguität: Beispiele

(1) I saw the man with the binoculars.

(2) I heard that Mary died before Grandfather came back.

(3) Ich kenne den Diener des Grafen, der vor dem Hotel steht.

(4) Ich weiss nicht, welche der Tanten Maria besuchen wird.

Einfuhrung in die Linguistik, Teil 4 – p. 10/46

Lokale Syntaktische Ambiguitäten

(1) Max gefällt unserer Mutter .

(2) Max gefällt unsere Mutter .

Die beiden Sätze (1) und (2) sind lokal ambig.

Hat man nur die ersten beiden Wörter gelesen odergehört, kann man nicht entscheiden, ob Max dasSubjekt oder das Objekt ist.

Das Wort nach gefällt beendet die lokale Ambiguität.

unserer desambiguiert den Satz zugunsten einerSubjekt-Objekt-Struktur.

unsere desambiguiert den Satz zugunsten einerObjekt-Subjekt-Struktur.

Einfuhrung in die Linguistik, Teil 4 – p. 11/46

Garden-Path-Sätze 1

(1) Ich glaube,dass Max zugunsten von Tim etwas unternommen ...

(2) Ich glaube,dass Max zugunsten von Tim etwas unternommen wurde.

(3) Ich glaube,dass Max zugunsten von Tim etwas unternommen hat.

Einfuhrung in die Linguistik, Teil 4 – p. 12/46

Garden-Path-Sätze 2

(2’) Ich glaube,dass [Max zugunsten] [von Tim] etwas unternommen wurde.

(3’) Ich glaube,dass [Max] [zugunsten von Tim] etwas unternommen hat.

(2”) [Max zugunsten] wurde [von Tim] etwas unternommen.

(3”) [Max] hat [zugunsten von Tim] etwas unternommen.

Einfuhrung in die Linguistik, Teil 4 – p. 13/46

Garden-Path-Sätze 3

Garden-Path-Sätze ...

... enthalten eine lokale syntaktische Ambiguität; d.h.,ab einem bestimmten Wort wn sind zwei oder mehrsyntaktische Analysen möglich.

... werden durch ein späteres Wort wm, m > n, wiedereindeutig.

... sind unter der präferierten Desambiguierungschwierig zu verstehen.

... heißen deshalb Garden-Path-Sätze, weil sie denParser in die Irre führen (to lead someone down thegarden-path = „jemanden in die Irre führen”)

Einfuhrung in die Linguistik, Teil 4 – p. 14/46

Garden-Path-Sätze 4

(1) Ich glaube,dass Max zugunsten von Tim etwas unternommen wurde.

Die Ambiguität beginnt mit dem Wort Max :Analyse 1: Max = SubjektAnalyse 2: Max = Objekt der Postposition zugunsten

Die Ambiguität endet mit dem letzten Wort wurde:Dieses Wort ist nur mit Analyse 2 vereinbar.

Am Punkt der Desambiguierung kommt es zuVerarbeitungsschwierigkeiten: Die präferierte Analyseist Analyse 1, aber das letzte Wort widerspricht dieserAnalyse.

Einfuhrung in die Linguistik, Teil 4 – p. 15/46

GP-Sätze als Werkzeug 1

Garden-Path-Sätze stellen ein wichtiges Werkzeug für dieErforschung des menschlichen Parsers dar:

(1) Max gefällt Maria.

Im Falle eines global ambigen Satzes muß manVersuchspersonen explizit fragen, welche dermöglichen Lesarten sie präferieren. Man erhält also nurOff-Line-Daten, die auf Introspektion beruhen.

Einfuhrung in die Linguistik, Teil 4 – p. 16/46

GP-Sätze als Werkzeug 2

(2) a. Max gefällt unserer Mutter .b. Der Max gefällt unserer Mutter .

(2) a. Max gefällt unsere Mutter .b. Dem Max gefällt unsere Mutter .

Man lässt Versuchspersonen sowohl lokal ambige alsauch entsprechende eindeutige Sätze lesen.

Man misst dabei, ob unter einer der möglichenDesambiguierungen Schwierigkeiten auftreten(beispielsweise durch Messung von Blickbewegungen).

Einfuhrung in die Linguistik, Teil 4 – p. 17/46

GP-Sätze als Werkzeug 2

(2) a. Max gefällt unserer Mutter .b. Der Max gefällt unserer Mutter .

(2) a. Max gefällt unsere Mutter .b. Dem Max gefällt unsere Mutter .

Verarbeitungsschwierigkeiten schlagen sich in erhöhtenLese- oder Reaktionszeiten für lokal ambige imGegensatz zu entsprechenden eindeutigen Sätzennieder.

Der Satz, für den Schwierigkeiten auftreten, ist einGarden-Path-Satz.

Einfuhrung in die Linguistik, Teil 4 – p. 18/46

Garden-Path-Sätze: Beispiele

(1) The horse raced past the barn fell down.(1’) The horse raced past the barn and fell down.(1”) The horse that was raced past the barn fell down.

(2) The cotton clothing is made of grows in Missisippi.(2’) The cotton clothing is made of cotton from Missisippi.(2”) The cotton that clothing is made of grows in Missisippi.

(3) Ich weiss, dass Fritz die Oma geholfen hat.(3’) Ich weiss, dass Fritz die Oma unterstützt hat.(3”) Ich weiss, dass dem Fritz die Oma geholfen hat.

Einfuhrung in die Linguistik, Teil 4 – p. 19/46

Auflösung syntaktischer Ambiguitäten

Fragestellungen

Wann werden Ambiguitäten aufgelöst?

Wieso führen manche Ambiguitäten zuVerarbeitungsschwierigkeiten, andere dagegen nicht?

Wie wird entschieden, zugunsten welcher Struktur eineAmbiguität aufgelöst wird?

Nach welchem Parsingalgorithmus arbeitet dermenschliche Parser?

Einfuhrung in die Linguistik, Teil 4 – p. 20/46

Auflösung syntaktischer Ambiguitäten

Angenommen, es muss eine Entscheidung über diesyntaktische Struktur eines Satzes getroffen werden,aber der Input läßt mehr als nur eine einzigeEntscheidung zu. Was passiert in einer solchenSituation?

Commital ParsingDer Parser trifft alle Entscheidungen sofort.

Non-Commital ParsingDer Parser vermeidet unsichere Entscheidungen.

Einfuhrung in die Linguistik, Teil 4 – p. 21/46

Auflösung syntaktischer Ambiguitäten

Serielle Verarbeitung

Alle Entscheidungen werden sofort getroffen, auchwenn dies die Gefahr von Fehlern mit sich bringt.

Es wird nur eine einzige syntaktische Strukturberechnet.

Die Festlegung auf eine bestimmte Struktur geschiehtunmittelbar.

Einfuhrung in die Linguistik, Teil 4 – p. 22/46

Auflösung syntaktischer Ambiguitäten

Parallele Verarbeitung

Unsichere Entscheidungen werden dadurch umgangen,dass alle möglichen syntaktischen Analysen berechnetwerden.

Es können mehrere syntaktische Strukturen parallelberechnet werden.

Die syntaktische Analyse findet sofort statt, dieFestlegung auf eine bestimmte Analyse kann dagegendurch Berechnen aller Möglichkeiten verzögert werden.

Einfuhrung in die Linguistik, Teil 4 – p. 23/46

Auflösung syntaktischer Ambiguitäten

Verzögerte Verarbeitung

Unsichere Entscheidungen werden dadurch umgangen,dass die Verarbeitung ausgesetzt wird: Der Parserwartet mit der Berechnung einer Struktur, bis weitereInformationen vorhanden sind.

Es wird nur eine Analyse berechnet, die aber nichtvollständig spezifiziert sein muss.

Die Festlegung auf eine vollständig spezifizierteAnalyse kann verzögert werden.

Einfuhrung in die Linguistik, Teil 4 – p. 24/46

Garden-Path-Sätze: Experimente

Die bisherigen Beispiele für Garden-Path-Sätze führtenzu so gravierenden Verarbeitungsproblemen, dass dieVerarbeitungsschwierigkeiten am Punkt derDesambiguierung bewußt wahrnehmbar waren.

Es gibt aber auch viele leichte Garden-Path-Effekte, dieman kaum mehr bewußt wahrnehmen kann, und diedeshalb experimentell untersucht werden müssen.

Im folgenden werden wir die Garden-Path-Theorie vonFrazier und Rayner (1982) betrachten, eine Theorie, dieeine Fülle weiterer Untersuchungen zum Thema„menschliches Parsen” nach sich gezogen hat.

Einfuhrung in die Linguistik, Teil 4 – p. 25/46

The Garden-Path Theory 1

Grundannahmen von Frazier & Rayner (1982)

Der menschliche Parser arbeitet SERIELL: Bei Antreffeneiner syntaktischen Ambiguität im Input entscheidet ersich für eine der möglichen Strukturen und verfolgt nurdiese eine Struktur weiter.

Serielle Verarbeitung impliziert INKREMENTELLE

Verarbeitung: Jedes Wort wird sofort, nachdem esgelesen oder gehört wurde, syntaktisch analysiert, d.h.in einen Phrasenstrukturbaum eingefügt (vgl. dieHypothese der „Immediacy of Interpretation” von Justund Carpenter).

Einfuhrung in die Linguistik, Teil 4 – p. 26/46

The Garden-Path Theory 2

Grundannahmen von Frazier & Rayner (1982)

Die Entscheidung, welche Struktur weiterverfolgt wird,erfolgt ausschließlich aufgrund syntaktischerInformation.

Es gibt zwei Parsing-Prinzipien – MINIMAL ATTACHMENT

und LATE CLOSURE – die darüber entscheiden, welcheStruktur präferiert weiterverfolgt wird.

Einfuhrung in die Linguistik, Teil 4 – p. 27/46

The Garden-Path Theory 3

Da serielles Parsing das Risiko von Fehlanalysen mit sichbringt, benötigt ein serieller Parser zweiVerarbeitungsstufen:

Analyse: Die Zuweisung einer syntaktischen Strukturan den Input (Input = Kette von Wörtern). Ambiguitätenwerden während der Analysephase aufgrund derParsingprinzipien zugunsten einer der möglichenStrukturen aufgelöst.

Reanalyse: Reanalyse ist nur dann notwendig, wennspäteres Material mit der initialen Struktur nichtkompatibel ist. M.a.W., Reanalyse benötigt man fürGarden-Path-Sätze, um doch noch die korrekte Strukturzu finden.

Einfuhrung in die Linguistik, Teil 4 – p. 28/46

Minimal Attachment

Minimal AttachmentAttach incoming material into the phrase-markera beingconstructed using the fewest nodes consistent with thewellformedness rules of the language.

Beispiel

Minimal Attachment:The wife will claim the inheritance .

Non-Minimal Attachment:The wife will claim the inheritance belongs to her.

a“phrase-marker” = andere Bezeichnung fur Phrasenstrukturbaum

Einfuhrung in die Linguistik, Teil 4 – p. 29/46

Minimal Attachment in Aktion 1

(1) The wife will claim ...

IPa

aaa

!!

!!

DPZZ

��

Det

the

NP

wife

I’Z

Z�

I

will

VP

V

claim

Einfuhrung in die Linguistik, Teil 4 – p. 30/46

Minimal Attachment in Aktion 2

(1) The wife will claim the ...

IPPPPP

����

DPb

bb"

""

the wife

I’H

HH�

��

I

will

VPQ

Q�

V

claim

DP

Det

the

IPPPPP

����

DPb

bb"

""

the wife

I’H

HH�

��

I

will

VPQ

Q�

V

claim

IP

DP

Det

the

Einfuhrung in die Linguistik, Teil 4 – p. 31/46

Minimal Attachment in Aktion 3

(1) The wife will claim the inheritance ...

IPPPPP

����

DPb

bb"

""

the wife

I’a

aaa

!!

!!

I

will

VPa

aaa

!!

!!

V

claim

DPH

HH�

��

Det

the

NP

inheritance

Einfuhrung in die Linguistik, Teil 4 – p. 32/46

Minimal Attachment in Aktion 4

(1) The wife will claim the inheritance belongs ...

IPPPPP

����

DPb

bb"

""

the wife

I’a

aaa!

!!!

I

will

VPa

aaa

!!

!!

V

claim

DPH

HH�

��

Det

the

NP

inheritance

?←−

V|

belongs

Einfuhrung in die Linguistik, Teil 4 – p. 33/46

Minimal Attachment in Aktion 5

(1) The wife will claim the inheritance belongs ...

IPPPPPP

�����DP

bbb

"""

the wife

I’XXXXX

�����

I

will

VPXXXXXX

������

V

claim

IPXXXXX

�����

DPH

HH�

��

Det

the

NP

inheritance

VP

V

belongs

Einfuhrung in die Linguistik, Teil 4 – p. 34/46

Attachment-Sätze

ShortMinimal Attachment: The lawyers think his secondwife will claim the inheritance .

Non-Minimal Attachment: The second wife will claimthe inheritance belongs to her.

Long

Minimal Attachment: The lawyers think his secondwife will claim the entire family inheritance .

Non-Minimal Attachment: The second wife will claimthe entire family inheritance belongs to her.

Einfuhrung in die Linguistik, Teil 4 – p. 35/46

Ergebnisse für Attachment-Sätze

Tabelle 1: Mean Reading Time per Letter (msec) for

Each of the Four Attachment Sentence VersionsNonminimal A. Minimal A. Mean

Long 61 45 53Short 51 49 50Mean 56 47

Einfuhrung in die Linguistik, Teil 4 – p. 36/46

Late Closure

(1) Tom said that Bill read the book yesterday.

IPa

aa!

!!

. . . VP1a

aa!

!!

V

said

IPa

aa!

!!

. . . VP2H

HH�

��

V

read

DPH

HH�

��

the book

?←−

AdvP|

yesterday

Einfuhrung in die Linguistik, Teil 4 – p. 37/46

Late Closure

Late ClosureWhen possible, attach incoming lexical items into theclause or phrase currently being processed.

(1) Tom said that Bill read the book yesterday.

IPa

aa!

!!

. . . VP1aaa

!!!

V

said

IPa

aa!

!!

. . . VP2H

HH�

��

V

read

DPH

HH�

��

the book

?←−

AdvP|

yesterday

Einfuhrung in die Linguistik, Teil 4 – p. 38/46

Closure: Experiment

(1) Since Jay always jogs a mile . . . .

(2) Early ClosureSince Jay always jogs a mile seems likea very short distance to him.

(3) Late ClosureSince Jay always jogs a mile this seems likea short distance to him.

Einfuhrung in die Linguistik, Teil 4 – p. 39/46

Closure-Sätze

ShortLate Closure: Since Jay always jogs a mile thisseems like a short distance to him.

Early Closure: Since Jay always jogs a mile seemslike a very short distance to him.

Long

Late Closure: Since Jay always jogs a mile and a halfthis seems like a short distance to him.

Early Closure: Since Jay always jogsa mile and a half seems like a very short distance tohim.

Einfuhrung in die Linguistik, Teil 4 – p. 40/46

Ergebnisse für Closure-Sätze 1

Tabelle 2: Mean Reading Time per Letter (msec) for

Each of the Four Closure Sentence VersionsEarly Closure Late Closure Mean

Long 68 50 59Short 57 55 56Mean 62.5 52.5

Einfuhrung in die Linguistik, Teil 4 – p. 41/46

Ergebnisse für Closure-Sätze 2

Tabelle 3: Second-Pass Mean Reading Time per

Letter (msec) in two Diffferent Regions for each of

the Four Closure Sentence VersionsShort Long

Early Cl. Late Cl. Early Cl. Late Cl.Ambiguity 37 27 32 15Disambiguation 41 22 48 32

Einfuhrung in die Linguistik, Teil 4 – p. 42/46

Frazier & Rayner (1982): Zusammenfassung

Die Ergebnisse von Frazier & Rayner (1982) zeigen:

Es gibt sowohl Evidenz für Late Closure als auch fürMinimal Attachment.

Die Schwere des Garden-Path-Effekts, der beinicht-präferierter Desambiguierung auftritt, hängt vonder Länge der ambigen Region ab:Ist die desambiguierende Region länger, ist derGarden-Path-Effekt schwerer.

Einfuhrung in die Linguistik, Teil 4 – p. 43/46

Frazier & Rayner (1982): Diskussion 1

Können wir aus den Ergebnissen von Frazier & Rayner(1982) schließen, dass syntaktische Ambiguitätenausschließlich aufgrund syntaktischer Informationenaufgelöst werden?

Falls ja, würde dies für die informationelle Einkapselungdes Parsers sprechen

Die Antwort muss aber „nein” lauten: Die Ergebnissesind zwar mit informationeller Einkapselung kompatibel,schließen das Gegenteil aber nicht aus.

Einfuhrung in die Linguistik, Teil 4 – p. 44/46

Frazier & Rayner (1982): Diskussion 2

Grund: Das Experiment von Frazier & Rayner (1982) hatviele Faktoren nicht berücksichtigt, die dafür verantwortlichsein könnten, warum die eine Struktur der anderenvorgezogen wird: a

Die Frequenz der alternativen Strukturen

Die semantische Plausibilität der alternativenStrukturen

Verbspezifische Präferenzen bezüglich des Objekts:Wird ein Verb wie to jog eher mit oder ohneDistanzangabe (a mile)verwendet? Will ein Verb wie toclaim eher eine DP oder einen Satz als Objekt?

aDas ist das Schicksal der meisten Pionier-Experimente.

Einfuhrung in die Linguistik, Teil 4 – p. 45/46