Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken...

31
Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 1 / 31

Transcript of Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken...

Page 1: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Einführung Computerlinguistik

Konstituentensyntax II

Hinrich Schütze & Robert Zangenfeind

Centrum für Informations- und Sprachverarbeitung, LMU München

2013-11-18

1 / 31

Page 2: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Take-away

Phrasenstrukturgrammatik: Formaler Ansatz zur Darstellungder Struktur von Sätzen

Zwei Arten von Regeln: Phrasenstrukturregeln, Lexikonregeln

Anwendungen von Syntax in der Computerlinguistik: Parsing,Maschinelle Übersetzung etc.

2 / 31

Page 3: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Overview

1 Phrasenstrukturgrammatik

2 Anwendung in der Computerlinguistik

3 / 31

Page 4: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Outline

1 Phrasenstrukturgrammatik

2 Anwendung in der Computerlinguistik

4 / 31

Page 5: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Phrasenstrukturgrammatik

Beziehungen der unmittelbaren Dominanz werden als Regelnzur Erzeugung von Sätzen (Konstituentenstrukturen)aufgestellt , z.B.:

S

VPNP

Regel (rewriting rule, Phrasenstrukturregel) hierzu:

S → NP VP

zu lesen als: “expandiere S zu . . . / ersetze S durch . . . / Sdominiert unmittelbar . . . / schreibe S um zu . . . ”

S: Startsymbol (“Satz”)

5 / 31

Page 6: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Schema für Phrasenstrukturregeln

Allgemeines Schema einer PS-Regel: X → (W) Y (Z) (W–Z:Kategorialsymbole)

X: Eingabesymbol (genau ein solches steht links des Pfeils)

W, Y, Z: Ausgabesymbole

Y: obligatorisches Element

W, Z: fakultative Elemente

PS-Regeln sind kontextfrei, d.h. genau ein Nichtterminalsymbol(links) wird expandiert zu beliebiger Folge von Nichtterminal- undTerminalsymbolen

6 / 31

Page 7: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Beispiel für Phrasenstrukturregeln (1)

S

VP

PP

NP

N

Käfig

Det

dem

P

aus

V

springt

NP

N

Löwe

Det

Der

S → NP VP; NP → Det N VP → V PP; PP → PNP

7 / 31

Page 8: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Beispiel für Phrasenstrukturregeln (2)

S → NP VP; NP → Det N VP → VPP; PP → P NP Mit diesen Regeln kann obigeBaumstruktur bis zur Ebene der Wortkategorien (präterminaleKette) generiert werden. Außerdem möglich:

Die Katze sitzt auf der Bank

Der Bauer arbeitet auf dem Feld etc.

8 / 31

Page 9: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

S

VP

PP

NP

N

Bank

Det

der

P

auf

V

sitzt

NP

N

Katze

Det

Die

9 / 31

Page 10: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

S

VP

PP

NP

N

Feld

Det

dem

P

auf

V

arbeitet

NP

N

Bauer

Det

Der

10 / 31

Page 11: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Rekursion: Nichtterminal dominiert Instanz seiner selbst

Fall 1: Ausgabe einer Regel dient als Eingabe der gleichen Regelz.B. NP → Det N NP: “die Farbe der Augen der Tochter des

Pianisten”NP

NP

NP

NP

N

Pianisten

Det

des

N

Tochter

Det

der

N

Augen

Det

der

N

Farbe

Det

Die

11 / 31

Page 12: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Rekursion: Nichtterminal dominiert Instanz seiner selbst (2)

Fall 2: Ausgabe einer Regel ist Eingabe einer “früheren” Regel: S→ NP VP,VP → V S: “Die Studis hoffen, dass der Prof denkt, dass Ferien sind”

S

VP

S

VP

S

VP

AUX

NP

N

COMP

dass

V

denkt

NP

N

Prof

Det

der

COMP

dass

V

hoffen

NP

N

Studis

Det

Die

12 / 31

Page 13: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

S

VP

S

VP

S

VP

AUX

sind

NP

N

Ferien

COMP

dass

V

denkt

NP

N

Prof

Det

der

COMP

dass

V

h.

NP

N

S.

Det

Die

13 / 31

Page 14: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Lexikonregeln (1)

Zur Generierung der terminalen Kette Der Löwe springt aus dem

Käfig sind noch weitere Regeln nötig: Det → der N → Löwe V →

springt P → aus Det → dem N → Käfig

zu lesen als: Käfig ist ein Exemplar der Menge der Nomen

diese Regeln entsprechen einem Lexikon

Mittels dieser Lexikonregeln werden die Wörter in die durchPhrasenstrukturregeln erzeugte Strukturbäume eingesetzt(lexikalische Einsetzung).

14 / 31

Page 15: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Lexikonregeln (2)

mehr Information nötig, weil: z.B. *Der Löwe schläft aus dem

Käfig. → Lexikoneintrag muss Informationen über denzugelassenen syntaktischen Rahmen des Verbs enthalten →

Subkategorisierung (vgl. Rektionsmodell): z.B.: a. schlafen V, [ __] b. helfen V, [ __ NP] c. schenken V, [ __ NP, NP]

15 / 31

Page 16: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Zwei Typen von Konstituenten

Wortkategorienz.B.: N, V, DETschreiben ein Wortsymbol um als ein Wortz.B.: DET → der, N → Hundsetzt Klassifizierung der Woerter voraus

Phrasenkategorienz.B.: NP, VP, Sschreiben ein Phrasensymbol um als Folge von einem odermehreren Phrasensymbolenz.B.: S → NP VP

16 / 31

Page 17: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Wortkategorien / Wortarten

terminale Kategorien

dargestellt in präterminaler Kette

bezieht sich auf terminale Kette: Wortformen (Elemente, dieauf Satzebene nicht weiter zerteilt werden)

17 / 31

Page 18: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

S

VP

S

VP

S

VP

AUX

sind

NP

N

Ferien

COMP

dass

V

denkt

NP

N

Prof

Det

der

COMP

dass

V

h.

NP

N

S.

Det

Die

18 / 31

Page 19: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Phrasenkategorien

Konstituenten, die mehr als ein Wort enthalten: Phrasen(stellen grammatische Klassen dar)

Phrase besteht aus Kopf (obligatorischer Kern) und optionalaus weiteren (dominierten) Wörtern

Klassifizierung nach der Wortart, zu der der Kopf einer Phrasegehört

z.B. großes Haus: grammatische Eigenschaften wie Haus →

Haus ist Kopf

“Haus” ist N, also ist die Phrase NP

→ Kategoriensymbole ersetzen die Knoten im Baum →

Konstituentenstruktur

19 / 31

Page 20: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

S

VP

S

VP

S

VP

AUX

sind

NP

N

Ferien

COMP

dass

V

denkt

NP

N

Prof

Det

der

COMP

dass

V

h.

NP

N

S.

Det

Die

20 / 31

Page 21: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

how would you extend this to model (i)agreement (“Peter rennen.”, “das Schule”)(ii) government (“vor den Schule”, “er halfihn”)?

21 / 31

Page 22: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Outline

1 Phrasenstrukturgrammatik

2 Anwendung in der Computerlinguistik

22 / 31

Page 23: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Parsing, Parsen

syntaktische Analyse eines Textes, d.h. den Sätzen wirdsyntaktische Struktur zugeordnet

Zwei grundlegende Typen von Strukturen: Dependenzbäumeund Phrasenstrukturbäume

Dependenzbäume zeigen die syntaktischen Abhängigkeiten derWörter untereinander.

Phrasenstrukturbäume zeigen die Konstituentenstruktur desSatzes.

setzt Analyse von Syntax als Konstituentenstruktur vorausUrsprung: generative Grammatik (Chomsky)

23 / 31

Page 24: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Dependenzbaum

24 / 31

Page 25: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Phrasenstrukturbaum

<4>[<*>][,relabel=psgexample]

S

VP

S

VP

S

VP

AUX

sind

NP

N

Ferien

COMP

dass

V

denkt

NP

N

Prof

Det

der

COMP

dass

V

h.

NP

N

S.

Det

Die

25 / 31

Page 26: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Satzendeerkennung

Feststellen des jeweiligen Satzendes

wichtige Voraussetzung für das Parsen eines Textes

Schwierigkeiten:Punkt kennzeichnet keineswegs immer das Satzende , sondernauch Abkürzungen oder Nummerierungen (z.B. Abschnitt 5.3)u.ä.nicht nur Punkt als Kennzeichen des Satzendes

26 / 31

Page 27: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Lokale Grammatiken

Beschreibung der syntaktischen Struktur von jeweils ganzbestimmten Mustern von Wortfolgen (Phrasen).

direkte, lokale Umgebung von Wörtern, die durch die Syntaxdieser Wörter bestimmt ist (in welcher Form folgen die Wörteraufeinander?)

durch Graphen als endliche Automaten darstellbar

Unitex zur Entwicklung und Anwendung lokaler Grammatiken(http://www-igm.univ-mlv.fr/~unitex/download.html)

27 / 31

Page 28: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Anwendungen

Informationsextraktion (insbesondere lokale Grammatiken)

Information Retrieval (protein-protein interactions)

Maschinelle Übersetzung(oft) nicht einzelne Wörter aus der Quellsprache übersetzensondern größere Einheiten von zwei oder mehr Wörternz.B. bei Kollokationen (schwer verletzen – engl. to heart badly

und nicht *to heart heavily)oder bei Idiomen (engl. to kick the bucket – ins Gras beißenund nicht *den Eimer treten)unterschiedliche Wortordnung richtig übersetzen

28 / 31

Page 29: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Parser im Netz

Stanford Parser (Phrasenstruktur, Dependenzbaum; Demo):http://nlp.stanford.edu:8080/parser/

ETAP (Dependenzbaum; Demo):http://proling.iitp.ru/etap3

MSTParser (Dependenzbaum; download):http://sourceforge.net/projects/mstparser/

MaltParser (Dependenzbaum; download):http://www.maltparser.org/

29 / 31

Page 30: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

write down parse tree for “I saw a man withan umbrella.”

30 / 31

Page 31: Einf hrung Computerlinguistik [0.5cm] Konstituentensyntax IIhs/teach/13w/... · Lokale Grammatiken Beschreibung der syntaktischen Struktur von jeweils ganz bestimmten Mustern von

Take-away

Phrasenstrukturgrammatik: Formaler Ansatz zur Darstellungder Struktur von Sätzen

Zwei Arten von Regeln: Phrasenstrukturregeln, Lexikonregeln

Anwendungen von Syntax in der Computerlinguistik: Parsing,Maschinelle Übersetzung etc.

31 / 31