Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

20
Schätzfunktionen für stochastische Attribut-Wert- Grammatiken Universität Potsdam – Institut für Linguistik Hauptseminar Stochastische Lernalgorithmen Gerhard Jäger – Referent: Kai Zimmer

description

Schätzfunktionen für stochastische Attribut-Wert-Grammatiken. Universität Potsdam – Institut für Linguistik Hauptseminar Stochastische Lernalgorithmen Gerhard Jäger – Referent: Kai Zimmer. Überblick. Bisherige Probleme - PowerPoint PPT Presentation

Transcript of Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Page 1: Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Schätzfunktionen für stochastische Attribut-Wert-

Grammatiken

Universität Potsdam – Institut für Linguistik

Hauptseminar Stochastische Lernalgorithmen

Gerhard Jäger – Referent: Kai Zimmer

Page 2: Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Überblick

• Bisherige Probleme

• Vorstellung zweier neuer Verfahren zur Parameter-Abschätzung von stochastischen Attribut-Wert-Grammatiken aus einem Trainingskorpus

• Anwendung zur Abschätzung

Page 3: Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Definitionen:

• Ω alle grammatischen Analysen

• ω Grammatik (PFCG)

• fj Feature

• θ Parameter

Page 4: Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Random Sampling

• Für die Erstellung von Gewichten für Merkmale notwendig

• Gesucht wird ein für ein Modell q repräsentatives Korpus:

• Anhand von q kann dieses Korpus nicht generiert werden, da die vorhandenen Merkmale nicht zwangsweise Regeln entsprechen

Page 5: Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Random Sampling Metropolis Hastings Algorithmus• Aber: aus p0 (z.B. mit handerstellten Regeln)

lassen sich einzelne Bäume generieren

• je nach Übereinstimmung mit dem Modell q wird der Baum entweder in das Korpus aufgenommen oder verworfen

• Wird ein “schlechter” Baum verworfen, wird der zuvor erzeugte Baum ein weiteres Mal ins Korpus aufgenommen

Page 6: Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Problem

Page 7: Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Problem

• Für PCFGs ist λ kalkulierbar, aber generell sind αLD/αλj und Zλ nicht berechenbar

• Abney schlägt zur Annäherung die Monte-Carlo Berechnung vor, die aber bei großen Korpora nicht praktikabel ist (man benötigt zuviele Beispiele für eine genaue Annäherung)

Page 8: Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Erstes Verfahren:

Parameterabschätzung durch Pseudo-likelihood

Page 9: Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Parameterabschätzung durch pseudo-likelihood

• Die pseudo-likelihood (PL)von ω ist die Wahrscheinlichkeit des versteckten Teils (syntaktische Struktur) von ω angesichts seines sichtbaren Teils (Wortkette) y=Y(ω) (Besag 1974)

Page 10: Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Parameterabschätzung durch pseudo-likelihood

Page 11: Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Zweites Verfahren:

Abschätzen maximaler Genauigkeit

Page 12: Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Abschätzung maximaler Genauigkeit

• Maßstab ist hier die Zahl der richtigen Parses im Vergleich zur Gesamtzahl aller Analysen

• man wählt θ so, daß Cθ(ω) der Anzahl der korrekten Analysen im Trainingskorpus entspricht:

maximum correct estimator (EM)

Page 13: Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Abschätzen maximaler Genauigkeit

• Der Haken dabei: Cθ(ω) ist schwer berechenbar, da sie nicht kontinuierlich zu θ verläuft

• benötigt viel Zeit zur Berechnung (deutlich schlechter als pseudo-likelihood)

Page 14: Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Pseudo-likelihood vs. likelihood

• Die Pseudo-Teilfunktion Zλ(y) ist einfacher zu berechnen als Zλ:

- Zλ benötigt eine Summe von Ω - Zλ(y) benötigt eine Summe von Ωy (Parses von y)

• Maximum likelihood (ML) schätzt eine gemeinsame Verteilung ab - lernt Verteilung aus Wortketten und Analysen

Page 15: Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Pseudo-likelihood vs. likelihood

• Maximum Pseudo-likelihood schätzt eine bedingte Verteilung

- lernt Verteilung aus Analysen- bedingte Verteilung ist

notwendig für Parsing

• die Maximierung von pseudo-likelihood maximiert nicht likelihood

Page 16: Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Anwendung

Page 17: Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Anwendung Verbmobil corpus Homecentre corpus

)(log )( )(log )( testtesttesttest PLCPLC

Baseline estimator 9.7% 533 15.2% 655Pseudo-likelihood estimator 58,7% 396 58,8% 583

Page 18: Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Ergebnisse der Anwendung

• C ist die Anzahl der korrekten maximalen likelihood Analysen

• 50% bis 75% der Parses sind korrekt (kombiniertes Verfahren)

Page 19: Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Vergleich

Page 20: Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Literatur

• http://odur.let.rug.nl/~malouf/esslli01/reader/02abney97.ps

• http://odur.let.rug.nl/~malouf/esslli01/reader/06johnson.ps

• http://acl.ldc.upenn.edu/J/J96/J96-1002.pdf

• http://www.cog.brown.edu/~mj/papers/lfg02-slides.pdf