Stochastische Attribut-Wert-Grammatiken

Universität Potsdam – Institut für Linguistik

Hauptseminar Stochastische Lernalgorithmen

Gerhard Jäger – Referent: Rainer Ludwig

Überblick

• Stochastische kontextfreie Grammatiken– Empirical Relative Frequency

• Übergang von (S)CFG zu (S)AVG

• Stochastische AVG– Random Fields– Improved Iterative Scaling

Stochastische CFG

1. S A A 1 = 1/22. S B 2 = 1/23. A a 3 = 2/34. A b 4 = 1/35. B a a 5 = 1/26. B b b 6 = 1/2

1)( 3311 xq

• Bestimmung der Werte der Gewichte i

• Diese sollen das Trainingskorpus bestmöglich reflektieren

Parameterabschätzung

• D. h.: Die Distribution q(x), die durch die i bestimmt wird, soll der Distribution im Trainingskorpus möglichst nahe kommen

Empirische Distribution in einem Korpus

x1 x2 x3 x4

c = 4x 2x 3x 3x

p~ 4/12 2/12 3/12 3/12

2/9 1/18 1/4 1/4q1 =

Kullback-Leibler-Divergenz

• Maß für die Unähnlichkeit zwischen Distributionen (≙ relative Entropie)

xpxpqpD

)(~ln)(~)||~(

Empirical Relative Frequency (ERF)

• Jede Regel i der Grammatik bekommt eine Häufigkeitsfunktion fi(x) zugewiesen

• p[f]: Erwartungswert von f unter Wahrscheinlichkeitsverteilung p, d. h.

xfxpfp )()(

i werden so gewählt, dass sie proportional zu sind ifp~

Empirical Relative Frequency (ERF)

• ERF ermittelt die besten Gewichte für eine gegebene CFG bei einer gegebenen empirischen Distribution

S -> AA S ->B A -> a A -> b B -> aa B -> bbp pf1 pf2 pf3 pf4 pf5 pf6

x1 1/3 1/3 0 2/3 0 0 0x2 1/6 1/6 0 0 1/3 0 0x3 1/4 0 1/4 0 0 1/4 0x4 1/4 0 1/4 0 0 0 1/4

p[f] = 1/2 1/2 2/3 1/3 1/4 1/4beta = 1/2 1/2 2/3 1/3 1/2 1/2

x1 x2 x3 x4

c = 4x 2x 3x 3x

p~ 4/12 2/12 3/12 3/12

2/9 1/18 1/4 1/4q1 =

1. S 1:A 2:A <1 1> = <2 1>2. S 1:B3. A 1:a4. A 1:b5. B 1:a6. B 1:b

Attribut-Wert-Grammatiken und DAGs

x1 x2 x3 x4

S 1:A 2:A <1 1> = <2 1> S 1:BA 1:a A 1:bB 1:a B 1:b

1. S 1:A 2:A <1 1> = <2 1> 1 = 1/22. S 1:B 2 = 1/23. A 1:a 3 = 2/34. A 1:b 4 = 1/35. B 1:a 5 = 1/26. B 1:b 6 = 1/2

Stochastische AVG

1)( 3312 x

)()( Allgemein:

x1 x2 x3 x4

c = 4x 2x 3x 3x

p~ 4/12 2/12 3/12 3/12

2/9 1/18 1/4 1/42 = Σ = 7/9

2/7 1/14 9/28 9/28q2 = Σ = 1

1. S 1:A 2:A <1 1> = <2 1>

2. S 1:B

3. A 1:a

4. A 1:b

5. B 1:a

6. B 1:b

Alternative Regelgewichte

226223

Wahrscheinlichkeitsverteilung mit den neuen Gewichten

x1 x2 x3 x4

c = 4x 2x 3x 3x

p~ 4/12 2/12 3/12 3/12

1/3 1/6 1/4 1/4q =

239 28

239 23

• Wahrscheinlichkeitsverteilung über Konfigurationen (hier DAGs)

• Gewicht einer Konfiguration ist das Produkt der Gewichte bestimmter Merkmale dieser Konfiguration

Random Fields

ix )()(

• Wahrscheinlichkeit einer Konfiguration ergibt sich aus der Normalisierung des Gewichts

Merkmale in Random Fields

• Merkmale können lokale Bäume (Regelanwendungen) sein, müssen aber nicht

• Keine Beschränkung für die Summe der Gewichte von Regeln mit gleicher LHS (vorher: =1)

Ein Beispiel für Merkmale

f1 = 2 0 0 0

2 1 3/2 3/2 =

0 0 1 1f2 =

1/3 1/6 1/4 1/4q =

Merkmale:

• Es müssen nicht mehr nur die Werte der Gewichte i bestimmt werden, sondern auch die Merkmale fi ausgewählt werden

• Ziel weiterhin: Minimierung der Kullback-Leibler-Divergenz

Parameterabschätzung

)||~( qpD

• Lösung: Improved Iterative Scaling

Improved Iterative Scaling (IIS)

1. Beginne mit dem Nullfeld, i. e. ohne Merkmale

2. Merkmalsauswahl. Wähle das beste Merkmal und füge es dem Feld hinzu.

3. Anpassen der Gewichte. Passe für alle Merkmale die Gewichte an.

4. Iteriere, bis das Feld nicht mehr besser wird.

Das Nullfeld

1 1 1 1 =

1/4 1/4 1/4 1/4q =

03,0)||~( qpD

p~ 1/3 1/6 1/4 1/4

Bestandteile eines Modells

1. Eine AVG G

2. Eine Menge von Initialgewichten θ für die Regeln in G Initialdistribution p0

3. Eine Menge von Merkmalen f1,..., fn mit Gewichten β1,..., βn

Felddistribution q

xq )(0 )(

Merkmalsauswahl

• Merkmale sind in unserem Beispiel Sub-DAGs• Diese werden aus atomaren Merkmalen (=

einzelnen DAG-Knoten) zusammengebaut• In Schritt 2 von IIS werden alle möglichen neuen

Merkmale mit ihrem jeweils besten Gewicht betrachtet

• Es wird dasjenige Merkmal ausgewählt, das die größte Reduktion der KLD bringt

Merkmalsauswahl – BeispielS

p~ 1/3 1/6 1/4 1/47/5 1 7/5 1a =

7/24 5/24 7/24 5/24qa =

1 1 1 1B =

1/4 1/4 1/4 1/4qB =

D = 0,01aq

p~lnp~ 0,04 0,05– 0,04– 0,04

D = 0,03Bq

p~lnp~ 0,10 00– 0,07

Auswahl des Gewichts für ein gewähltes Merkmal

• Das neue Gewicht β soll so gewählt werden, dass der Erwartungswert von f dem empirischen entspricht, also fpfq ~

• Wenn L(G) sehr groß (unendlich) ist, lässt sich die Gleichung nicht ohne weiteres lösen Random Sampling

Anpassen der Gewichte

• Nach dem Hinzufügen eines neuen Merkmals mit einem bestimmten Gewicht ist es i. a. nötig, die Gewichte (β1,..., βn) aller Merkmale anzupassen (Schritt 3 von IIS)

• D. h. gesucht sind Faktoren (δ1,...,δn), um die neuen Gewichte (δ1β1,...,δnβn) zu ermitteln

• Auch hier soll gelten:

xq )(0neu )(

ii fpfq ~neu

• Für qneu gilt:

)(alt )(

Annäherung: j

jxqxq )(altneu )()(

)(#alt )( xf

• Annäherungsformel für die Faktoren δi:

i fpfq ~#alt

• Iterieren, um die besten Gewichte zu erhalten

• Auch hier muss eventuell auf Sampling zurückgegriffen werden

Stochastische Attribut-Wert-Grammatiken

Documents

Transcript of Stochastische Attribut-Wert-Grammatiken

Formale Sprachen Teil 2 Klaus Becker 2006. 2 Theorie formaler Sprachen Komplexität von Grammatiken Automatenmodelle Zusammenhänge zwischen Grammatiken.

Benutzung und Benutzbarkeit von Grammatiken

PROSEMINAR COMPUTER VISION SEMINAR AUTOMATISCHE ... · Face Recognition durch Attribut- und Similie-Klassifikatoren Durch Attribut-Klassifikatoren wird für jede Person eine Belegung

Chomsky-Grammatiken - Uni · PDF fileChomsky-Grammatiken 17 Chomsky-Grammatik (Typ 0) G = (N,T,P,S) mit • N: endl. Menge nichtterminaler Zeichen, • T: endl. Menge terminaler Zeichen

L Formale Sprachen Grammatiken sind Konzepte, die eine ...home.uni-leipzig.de/heck/automat/webgrammar.pdf · Grammatiken Eine Grammatik besteht im wesentlichen aus einer endlichen

Monte-Carlo-Methoden, stochastische Schätzungen und · PDF fileRobert John 1 Hauptseminar Monte-Carlo-Methoden, stochastische Schätzungen und deren Unsicherheit 2.11.2011

V12 Stochastische Effekte 31. Januar 2013. Softwarewerkzeuge WS 12/13 – V12 2 Übersicht Stochastische Effekte => was sind das? => warum wichtig? => wie.

Stochastische Prozesse und ihre Anwendung in der Theorie ...978-3-8350-9027-9/1.pdf · Stochastische Prozesse und ihre Anwendung in der Theorie der Finanzmarkte Stochastische Prozesse,

3. Stochastische Prozesse und ARIMA-Modelle 3.1 Stochastische Prozesse und Stationarität Stochastischer Prozess TMenge der Zeitpunkte, für die der Prozess.

Klassifikations/Entscheidungsbaumstaab/lehre/ws0506/db1/Kapitel19data... · vielversprechendste Attribut ausgewählt (Greedy Algorithmus): verwende das Attribut, das am meisten Information

Lokale Grammatiken für Appositionen im rechten Kontext von ...

Die Dynamik von abgeleiteten Preisen Stochastische Differentialgleichungen.

SPRACHWISSENSCHAFT - ids-pub.bsz-bw.deœberlegungen+zum+Adverb_1979.pdf · Prädikatives Attribut zum Subjekt und prädikatives Attribut zum Ob jekt unterscheiden sich dadurch, daß

Pragmatische Aspekte in Grammatiken des Deutschen · Pragmatische Aspekte in Grammatiken des ... kommunikativen Kompetenz sowie durch eine Reihe anderer ... den (vgl. Searle: Sprechakte

STOCHASTISCHE PROZESSE - statsoz-neu.userweb.mwn.de · Institut f ur Statistik Ludwig-Maximilians-Universit at Ludwigstr. 33 80539 Munchen Skript zur Vorlesung STOCHASTISCHE PROZESSE

Stochastische Prozesse: Biologische Anwendungen Stochastische Mechanismen in der Genexpression Seminar Physik in der Biologie vom 16. Mai 2006 von Kathrin.

4 Stochastische Simulation und Monte-Carlo-Verfahren€¦ · 4 Stochastische Simulation und Monte-Carlo-Verfahren SimulationsverfahrenfürStichprobenvonWahrscheinlichkeitsverteilungengeheninderRegelvonderExis-

V12 Stochastische Effekte

Diplomarbeit Stochastische Modelle für … · - 1 - Prof. Dr. Dietmar Pfeifer Universität Hamburg Fachbereich Mathematik Institut für Mathematische Stochastik Diplomarbeit Stochastische

7. Übung, Theoretische Grundlagen der Informatik · Konstruktion von Grammatiken Chomsky-0-Grammatiken und DTMs Sprache der korrekten Klammerausdr ucke¨ Der Cocke-Younger-Kasami-Algorithmus