Schätzfunktionen für stochastische Attribut-Wert-Grammatiken
description
Transcript of Schätzfunktionen für stochastische Attribut-Wert-Grammatiken
Schätzfunktionen für stochastische Attribut-Wert-
Grammatiken
Universität Potsdam – Institut für Linguistik
Hauptseminar Stochastische Lernalgorithmen
Gerhard Jäger – Referent: Kai Zimmer
Überblick
• Bisherige Probleme
• Vorstellung zweier neuer Verfahren zur Parameter-Abschätzung von stochastischen Attribut-Wert-Grammatiken aus einem Trainingskorpus
• Anwendung zur Abschätzung
Definitionen:
• Ω alle grammatischen Analysen
• ω Grammatik (PFCG)
• fj Feature
• θ Parameter
Random Sampling
• Für die Erstellung von Gewichten für Merkmale notwendig
• Gesucht wird ein für ein Modell q repräsentatives Korpus:
• Anhand von q kann dieses Korpus nicht generiert werden, da die vorhandenen Merkmale nicht zwangsweise Regeln entsprechen
Random Sampling Metropolis Hastings Algorithmus• Aber: aus p0 (z.B. mit handerstellten Regeln)
lassen sich einzelne Bäume generieren
• je nach Übereinstimmung mit dem Modell q wird der Baum entweder in das Korpus aufgenommen oder verworfen
• Wird ein “schlechter” Baum verworfen, wird der zuvor erzeugte Baum ein weiteres Mal ins Korpus aufgenommen
Problem
Problem
• Für PCFGs ist λ kalkulierbar, aber generell sind αLD/αλj und Zλ nicht berechenbar
• Abney schlägt zur Annäherung die Monte-Carlo Berechnung vor, die aber bei großen Korpora nicht praktikabel ist (man benötigt zuviele Beispiele für eine genaue Annäherung)
Erstes Verfahren:
Parameterabschätzung durch Pseudo-likelihood
Parameterabschätzung durch pseudo-likelihood
• Die pseudo-likelihood (PL)von ω ist die Wahrscheinlichkeit des versteckten Teils (syntaktische Struktur) von ω angesichts seines sichtbaren Teils (Wortkette) y=Y(ω) (Besag 1974)
Parameterabschätzung durch pseudo-likelihood
Zweites Verfahren:
Abschätzen maximaler Genauigkeit
Abschätzung maximaler Genauigkeit
• Maßstab ist hier die Zahl der richtigen Parses im Vergleich zur Gesamtzahl aller Analysen
• man wählt θ so, daß Cθ(ω) der Anzahl der korrekten Analysen im Trainingskorpus entspricht:
maximum correct estimator (EM)
Abschätzen maximaler Genauigkeit
• Der Haken dabei: Cθ(ω) ist schwer berechenbar, da sie nicht kontinuierlich zu θ verläuft
• benötigt viel Zeit zur Berechnung (deutlich schlechter als pseudo-likelihood)
Pseudo-likelihood vs. likelihood
• Die Pseudo-Teilfunktion Zλ(y) ist einfacher zu berechnen als Zλ:
- Zλ benötigt eine Summe von Ω - Zλ(y) benötigt eine Summe von Ωy (Parses von y)
• Maximum likelihood (ML) schätzt eine gemeinsame Verteilung ab - lernt Verteilung aus Wortketten und Analysen
Pseudo-likelihood vs. likelihood
• Maximum Pseudo-likelihood schätzt eine bedingte Verteilung
- lernt Verteilung aus Analysen- bedingte Verteilung ist
notwendig für Parsing
• die Maximierung von pseudo-likelihood maximiert nicht likelihood
Anwendung
Anwendung Verbmobil corpus Homecentre corpus
)(log )( )(log )( testtesttesttest PLCPLC
Baseline estimator 9.7% 533 15.2% 655Pseudo-likelihood estimator 58,7% 396 58,8% 583
Ergebnisse der Anwendung
• C ist die Anzahl der korrekten maximalen likelihood Analysen
• 50% bis 75% der Parses sind korrekt (kombiniertes Verfahren)
Vergleich
Literatur
• http://odur.let.rug.nl/~malouf/esslli01/reader/02abney97.ps
• http://odur.let.rug.nl/~malouf/esslli01/reader/06johnson.ps
• http://acl.ldc.upenn.edu/J/J96/J96-1002.pdf
• http://www.cog.brown.edu/~mj/papers/lfg02-slides.pdf