Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Schätzfunktionen für stochastische Attribut-Wert-

Grammatiken

Universität Potsdam – Institut für Linguistik

Hauptseminar Stochastische Lernalgorithmen

Gerhard Jäger – Referent: Kai Zimmer

Überblick

• Bisherige Probleme

• Vorstellung zweier neuer Verfahren zur Parameter-Abschätzung von stochastischen Attribut-Wert-Grammatiken aus einem Trainingskorpus

• Anwendung zur Abschätzung

Definitionen:

• Ω alle grammatischen Analysen

• ω Grammatik (PFCG)

• fj Feature

• θ Parameter

Random Sampling

• Für die Erstellung von Gewichten für Merkmale notwendig

• Gesucht wird ein für ein Modell q repräsentatives Korpus:

• Anhand von q kann dieses Korpus nicht generiert werden, da die vorhandenen Merkmale nicht zwangsweise Regeln entsprechen

Random Sampling Metropolis Hastings Algorithmus• Aber: aus p0 (z.B. mit handerstellten Regeln)

lassen sich einzelne Bäume generieren

• je nach Übereinstimmung mit dem Modell q wird der Baum entweder in das Korpus aufgenommen oder verworfen

• Wird ein “schlechter” Baum verworfen, wird der zuvor erzeugte Baum ein weiteres Mal ins Korpus aufgenommen

Problem

Problem

• Für PCFGs ist λ kalkulierbar, aber generell sind αLD/αλj und Zλ nicht berechenbar

• Abney schlägt zur Annäherung die Monte-Carlo Berechnung vor, die aber bei großen Korpora nicht praktikabel ist (man benötigt zuviele Beispiele für eine genaue Annäherung)

Erstes Verfahren:

Parameterabschätzung durch Pseudo-likelihood

Parameterabschätzung durch pseudo-likelihood

• Die pseudo-likelihood (PL)von ω ist die Wahrscheinlichkeit des versteckten Teils (syntaktische Struktur) von ω angesichts seines sichtbaren Teils (Wortkette) y=Y(ω) (Besag 1974)

Parameterabschätzung durch pseudo-likelihood

Zweites Verfahren:

Abschätzen maximaler Genauigkeit

Abschätzung maximaler Genauigkeit

• Maßstab ist hier die Zahl der richtigen Parses im Vergleich zur Gesamtzahl aller Analysen

• man wählt θ so, daß Cθ(ω) der Anzahl der korrekten Analysen im Trainingskorpus entspricht:

maximum correct estimator (EM)

Abschätzen maximaler Genauigkeit

• Der Haken dabei: Cθ(ω) ist schwer berechenbar, da sie nicht kontinuierlich zu θ verläuft

• benötigt viel Zeit zur Berechnung (deutlich schlechter als pseudo-likelihood)

Pseudo-likelihood vs. likelihood

• Die Pseudo-Teilfunktion Zλ(y) ist einfacher zu berechnen als Zλ:

- Zλ benötigt eine Summe von Ω - Zλ(y) benötigt eine Summe von Ωy (Parses von y)

• Maximum likelihood (ML) schätzt eine gemeinsame Verteilung ab - lernt Verteilung aus Wortketten und Analysen

Pseudo-likelihood vs. likelihood

• Maximum Pseudo-likelihood schätzt eine bedingte Verteilung

- lernt Verteilung aus Analysen- bedingte Verteilung ist

notwendig für Parsing

• die Maximierung von pseudo-likelihood maximiert nicht likelihood

Anwendung

Anwendung Verbmobil corpus Homecentre corpus

)(log )( )(log )( testtesttesttest PLCPLC

Baseline estimator 9.7% 533 15.2% 655Pseudo-likelihood estimator 58,7% 396 58,8% 583

Ergebnisse der Anwendung

• C ist die Anzahl der korrekten maximalen likelihood Analysen

• 50% bis 75% der Parses sind korrekt (kombiniertes Verfahren)

Vergleich

Literatur

• http://odur.let.rug.nl/~malouf/esslli01/reader/02abney97.ps

• http://odur.let.rug.nl/~malouf/esslli01/reader/06johnson.ps

• http://acl.ldc.upenn.edu/J/J96/J96-1002.pdf

• http://www.cog.brown.edu/~mj/papers/lfg02-slides.pdf

Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Documents

Transcript of Schätzfunktionen für stochastische Attribut-Wert-Grammatiken