Korpuslinguistik für und mit Computerlinguistik

Korpuslinguistik für und mit Computerlinguistik

Seminar SS 2003

Sitzung 3: Statistik, Vektoren

Gerold Schneider

Gerold Schneider: Korpuslinguistik für Computerlinguistik, III

2

Übersicht

Wahrscheinlichkeitsrechnung Maximum Likelihood Estimation (MLE) Informationstheorie Statistische Tests Sprachmodelle Vektoren (Igor)


3

Bedingte Wahrscheinlichkeit

Zusatzinfo verändert Wahrscheinlichkeit Priori und posteriori Wahrscheinlichkeit Definition:

)(

)()|(

Bp

BApBAp

mehr B auch in A

mehr B ausser-halb A


6

Maximum Likelihood Estimation (MLE)

Eine einfache Methode, (bedingte) Wahrscheinlichkeiten aufgrund von empirischen Daten zu schätzen (estimate).

Wir kennen die „wirklichen“ Wahrscheinlichkeiten nicht, aber wir beobachten empirische Werte. Wir nehmen an, dass diese mit grösster Wahrscheinlichkeit (maximum likelihood) die „wirklichen“ Wahrscheinlichkeiten annähern.

Statt freq oft auch f oder # (number of) oder C (count)

)(

) ( tagging..,

)(

)(^

)(

)()|(

B

AB

tagf

tagtagfBz

Bfreq

BAfreq

Bp

BApBAp


7

Informationstheorie

„Information Theory is interested in the situation before the reception of a symbol, rather than the symbol itself“ (Oakes)

Information und Informatik: Binarität. Entropie H=Anzahl der nötigen Binärentscheidungen.

log2 aufgrund der Binarität. Es gilt:

Xx

xpxpXH )(log)()( 2

)(log32.3)2(log

)(log)(log 10

10

102 M

MM


8

Informationstheorie: Entropie

Spezialfall: Equiprobabilität (alle p(x) gleich: p(x)=1/X))

p * Baumtiefe B = log2 X = - log2 (1/X) drückt aus: 2B = X

B = # Binärentscheidungen=Pfadlänge=Baumtiefe

E.g. log2 256= - log2 (1/256) = 8

Bei Nicht-Equiprobabilität gewichtet mit p(x): „Tieferer Baum für seltenes, den tieferen Baum selten nehmen“ optimale Bitkürze

Perplexity(X) = 2H = Durchschnittliche Pfadlänge

)(log)(log)()( 22 xpxpxpXHXx


9

Informationstheorie: Co-occurrence, Statistische Tests („goodness of fit“)

Mutual Information:

Relative Entropie (Kullback-Leibler):

Xx xq

xpxpqpD

)(

)(log)()||( 2

)(

)|(log

)(

)|(log);( 22 ip

hip

hp

ihpihI


10

Statistische Tests: 2

Basiert nicht auf Informationstheorie, sondern eher auf Standardabweichung=s, Variance=s2:

Abweichung vom Schnitt im Quadrat, pro Anzahl Werte Chi-Quadrat= 2:

Abweichung vom Modell E im Quadrat, im Verhältnis zum jeweiligen Wert e

N

nn oo

ns

1

22 )(1

1

N

n n

nn

e

eo

1

22 )(


11

Statistische Tests: G2 = Log-likelihood

Dem 2 Test eng verwandt

Besonders erfolgreich für Kollokationen:

E =

N

nnnn eooG

1

2 )log(log2

O: w1 ¬w1

w2 a b

¬w2 c d

totalgrand

marginalcolumn totalrow

)log()(

)log()()log()(

)log()()log()(

loglogloglog(2log

dcbadcba

cacababa

cacababa

ddccbbaa


12

Sprachmodelle: Abhängigkeiten und Unabhängigkeitsannahmen I

In Bigramm-Tagger ist p(Tag) als abhängig modelliert nur vom vorhergehenden Tag: Wort: bzw.

)|( 1 nn TagTagp

)|( nn WortTagp )|( nn TagWortp


13

Sprachmodelle: Abhängigkeiten und Unabhängigkeitsannahmen II

Ein „vollständiges“ Sprachmodell berücksichtigte enorm viele weitere Abhängigkeiten: längere Distanz, Struktur,Prosodie,...

die ... sitzende Frau [die [...PP] sitzende Frau NP]

DIE ... sitzende Frau die auf der Bank sitzende Frau meine ich, nicht jene. Männer. Die auf der Bank sitzende Frau, auf sie wartend, suchen. Anno Domini 1712. Die auf der Bank sitzende Frau. Ora Cenae.


14

Sprachmodelle: Abhängigkeiten, Komplexität, Auftretenshäufigkeit

Mit zunehmender Feinheit des Sprachmodells verschlimmern sich zwei Probleme:

Grösse des Suchraumes: kann schon für ein Bigramm-Modell enorm sein cutoff, dynamische Programmierung (Viterbi). Vgl. Zeitaufwand fürs Training des Brill-Taggers.

Seltenes Auftreten (sparse data): schon bei Bigrammen ein Problem für p(Wort|Tag) falls Wort unbekannt. Bei Trigrammen wird ein backoff zu Bigrammen verwendet. Quadrigramme sind so sparse, dass sie keine Taggingverbesserung mehr bringen.

Korpuslinguistik für und mit Computerlinguistik

Documents

Transcript of Korpuslinguistik für und mit Computerlinguistik