Automatische Akquisition linguistischen Wissens

WS 05/06 Automatische Akquisition linguistischen Wissens 1

Automatische Akquisition linguistischen Wissens

Extraktion Morphologischen Wissens II

1. Semantikbasierte Ansätze

2. Letter successor variety basierte Ansätze

3. Kombinierte Ansätze

• Referat: Schone und Jurafskys papers und Algorithmus

• Referat 2: Baronis Ansatz


1. Allgemein Semantikbasierte Ansätze

• Hier ist Idee darauf basiert, dass inhaltlich ähnliche Wortformen (mit einem der vielen bereits vorgestellten Verfahren als inhaltlich ähnlich berechnet) auch grammatisch ähnlich sein sollten

• Das würde bedeuten, dass in der Liste der als ähnlich berechneten Wortformen– Wortformen mit dem gleichen Stamm, oder– Wortformen mit einer gleichen grammatischen Markierung

auftreten– Z.B. glücklich, witzig, unglücklich, Glück

• Danach ließe sich ja eine Gruppe von Wortformen, die besonders ähnlich– Problematisch sind z.B. Alternationen und sehr kurze Stämme

• Diese Sorte von Ansätzen soll in Referaten vorgestellt werden


1.1. Alternativ eine Art Konstituentenanalyse

• Konstituentenanalyse würde bedeuten, dass man heraussucht, welche andere Wörter in eine Menge von gleichartigen Kontexten passt: Beispiel Wort glückliche– … war es eine glückliche/gute/traurige/schlechte Entscheidung

– … saß die glückliche/gute/traurige Mutter

• Vereinfachtes Modell davon ist Nachbarschaftskookkurrenzbasierte Ähnlichkeitsberechnung:– Berechne signifikante Nachbarn

– Finde entsprechend den Nachbarn ähnliche Wörter

– Wende danach Letter Successor Variety von Harris an


2. Letter successor variety• Letter successor variety: Harris (55)

where word-splitting occurs if the number of distinct letters that follows a given sequence of characters surpasses the threshold.

• Es soll also gemessen werden, wie viele verschiedene Buchstaben nach jedem möglichen Wortanfang folgen (und umgekehrt)

• Die Idee dabei ist, dass nach Wortstämmen die Anzahl von Buchstaben „explodiert“, da danach ja viele verschiedene Endungen möglich sind

• Hafer & Weiss 74 haben das als erste implementiert und in einem IR System verwendet, um nicht jede Wortform, sondern nur Wortstämme zu indexieren

• Beispiel Wortform witzige (vom Beginn und dann vom Ende):– w 42 e– wi 31 ge– wit 17 ige– witz 15 zige– witzi 4 tzige– witzig 6 itzige– witzige 6 witzige


2.1. Probleme bei LSV

• Bereits bei Hafer & Weiss 74 gabe es Probleme, da die Ergebnisse nicht wie erhofft waren und LSV recht viele Fehler produziert, insbesondere an Beginnen und Enden von Wörtern, aber auch bei überrepräsentativen Wortenden

• Es schien auch so zu sein, dass je länger die Wortliste, umso mehr Rauschen tritt ein und Peaks schlechter erkennbar

• Sie experimentieren eine Weile mit verschiedenen Strategien wie z.B. plötzliches Gefälle statt Peaks oder Plateaus

• Schlussfolgering ist, dass Fehler nicht so schlimm, solange Indexierung besser und messen in der Tat leicht bessere Ergebnisse beim Information Retrieval task


3. Kombinierter Ansatz

Überblick:

• Nutze kontextuelle Information und berechne Nachbarschaftskookkurrenzen pro Eingabewort

– Frequenz von word A and B ist nA und nB

– Frequenz von gemeinsamen Auftreten von A mit B ist nAB– Korpus Größe ist n

– Signifikanzberechnung ist eine Poisson Approximation des log-likelihood (Dunning 93) (Quasthoff & Wolff 02)

1 , ln ln A B A Bpoiss AB AB

n n n nsig A B n n

n n


Nachbarn von “glückliche“

Signifikanteste linke Nachbarn

wunschlos

besonders

welch

sehr

Lauter

überaus

sonderlich

Kinogängern

wahrhaft

unendlich

Signifikanteste rechte Nachbarn

Fügung

Hand

Ehe

Kindheit

Gewinner

Gewinnerin

Figur

Familie

Wendung

Heimkehr

glückliche


3.1. Kombinierter Ansatz

Überblick:


• Nutze berechnete Nachbarn, um mit anderen Wörtern zu vergleichen und ähnliche zu finden → sie tragen mit größter Wahrscheinlichkeit gleiche grammatische Markierung


Ähnliche Wortformen für “glückliche“


wunschlos

besonders

welch

sehr

Lauter

überaus

sonderlich

Kinogängern

wahrhaft

unendlich


Fügung

Hand

Ehe

Kindheit

Gewinner

Gewinnerin

Figur

Familie

Wendung

Heimkehr

…allmählicheunglücklichetraurigeglücklicheglücklicherwitzigergemütlicherWirkliche…



Overview:


• Nutze berechnete Nachbarn, um mit anderen Wörtern zu vergleichen und ähnliche zu finden → sie tragen mit größter Wahrscheinlichkeit gleiche grammatische Markierung

• Sortiere diese nach Editierabstand und behalte nur 150 ähnlichste → weil weitere nur zusätzliches Rauschen beinhalten


Ähnliche Wörter zu “glückliche“ nach Editierdistanz


wunschlos

besonders

welch

sehr

Lauter

überaus

sonderlich

Kinogängern

wahrhaft

unendlich


Fügung

Hand

Ehe

Kindheit

Gewinner

Gewinnerin

Figur

Familie

Wendung

Heimkehr

Sortierte Liste

glücklicheglücklichenglücklicherGlücklicheunglücklicheglücklichglücklichstenunglücklichenunglücklicherunglücklichschreckliche…möglichenpersönlichen

persönlicher



Overview:• Nutze kontextuelle Information und berechne

Nachbarschaftskookkurrenzen pro Eingabewort• Nutze berechnete Nachbarn, um mit anderen Wörtern zu

vergleichen und ähnliche zu finden → sie tragen mit größter Wahrscheinlichkeit gleiche grammatische Markierung

• Sortiere diese nach Editierabstand und behalte nur 150 ähnlichste → weil weitere nur zusätzliches Rauschen beinhalten

• Berechne letter successor variety für jede Transition zwischen zwei BuchstabenMelde alle Stellen als Morphemgrenzen, wo LSV größer als Schwellwert


3.2.2. Overlap Faktor zur Balanzierung

• Es gibt Problem mit plötzlichen Frequenzverschiebungen (von Teilstrings) mitten im Wort

• Die Frequenzverschiebung kann gemessen und als Gewichtungsfaktor genommen werden: wenn 140 von 150 mit –n# enden, dann ist Gewicht 140/150

• Aber wenn (wie mit glückliche) nur 16 von 150 mit #g- beginnen, dann ist Gewicht nur 16/150

g l ü c k l i c h e 150 16 5 4 4 4 4 4 4 4 3 3 3 4 15 17 36 39 129 150 0.1 0.3 0.8 1 1 1 1 1 1 von links 1 1 3/4 0.3 0.9 0.5 0.9 0.3 0.9 von rechts


3.2.3. Beispielrechnung

Berechne letter split variety: # g l ü c k l i c h e # 6 2 1 1 1 1 1 1 2 2, 1, 1, 2, 7 2 4 3Berechne overlap factor: # g l ü c k l i c h e #150 16 5 4 4 4 4 4 4 4 3 3 3 4 15 17 36 39 129 150 also overlap faktoren: 0.1 0.3 0.8 1 1 1 1 1 1 1 1 3/4 0.3 0.9 0.5 0.9 0.3 0.9

Multipliziere LSV mit OF: 0.6 0.6 1 1 1 1 1 1 2 3 1 3/4 1.2 6 1 3 1 15Summiere links- und rechtswerte: # g l ü c k l i c h e # 0.6 3.6 2 1.8 2.2 7 2 4 3 15

Schwellwert: 7Resultat: glück-lich-e


3.2.4. Problem #1: Unbekannte Affixverteilungen

• Verteilung von Prä- und Suffixen ist unbekannt

• Daher bekommen frequente Endungen wie –e# besonders hohe Werte, da sie nach praktisch allem vorkommen

• In seltenen Fällen sind sie jedoch nicht Endungen (z.B. Junge)

• Daher einfach vorläufige “normalisierung” durch Multiplikation von erster und zweiter Stelle von vorne und von hinten mit Gewichten 0.3 und 0.6 jeweils:

s1 s2 s3 … sn-2 sn-1 sn

0.3 0.6 1.0 … 1.0 0.6 0.3

• Das benachteiligt stark kurze Affixe an Rändern von Wortformen, die Hoffnung ist aber, dass sie dennoch häufig genug vorkommen, um in einem folgenden Lernschritt hilfreich zu sein


3.2.6. Problem #2: Multiletter Grapheme (Grenzen vorher und danach)

• Problem: Zwei oder mehr Buchstaben repräsentieren ein Graphem und “verschleppen” den Nenner beim overlap faktor:

Letter split variety: # s c h l i m m e 7 1 7 2 1 1 2 2 1 1 1 2 4 15 Berechne overlap factor: 150 27 18 18 6 5 5 5 2 2 2 2 3 7 105 150 ^ also ist LSV 7 und OL Gewicht1 (18/18), aber

weil sch ein Graphem ist, sollte es eher 18/150 sein!

• Lösung: Ranking von Bi- und Trigrammen, höchster bekommt Gewicht von 1.0

• Overlap faktor wird als gewichtetes Mittel zwischen normalem und verschlepptem berechnet, wobei Gewicht vom Ranking das Gewicht im Mittel bestimmt:


3.2.5. Problem #3: Multiletter Grapheme (Grenzen in der Mitte)

• Multiletter Grapheme sollten natürlich auch nie getrennt werden

• Zum Beispiel das –th– im Englischen sollte niemals getrennt werden

• Lösung ist wieder das Bigramrankung, welches direkt ein Gewicht für die Multiplikation mit LSV abgibt: 0.1 Gewicht für die am höchsten gerankten und 1.0 für die niedrigsten.


3.2.3. Beispielrechnung IIFinales LSV mit OF von vorhergehenden Schritten: # g l ü c k l i c h e # 6 2 1 1 1 1 1 1 2 2, 1, 1, 2, 7 2 4 3 16Berechne overlap factor: # g l ü c k l i c h e #150 16 5 4 4 4 4 4 4 4 3 3 3 4 15 17 36 39 129 150Problem #1: Unbekannte Affixverteilung: 0.3 0.6 1.0 1.0 1.0 1.0 1.0 1.0 0.6 0.3Problem #2: Multiletter Bi- und Trigramm Gewichte: 0.0 0.0 0.0 0.1 0.0 0.2 0.2 0.6 0.0 0.0 0.0 0.0 0.0 0.1 0.3 0.0 0.0 0.0 0.1 0.0 0.0 0.2 0.6 0.2 0.0 0.0 0.0 0.0 0.0 0.1 0.3 0.5Problem #3: Bigrammgewicht: 1.0 1.0 1.0 0.9 1.0 0.8 0.8 0.3 0.7Summiere Links- und Rechtswerte: # g l ü c k l i c h e # 2.0 1.0 0.8 0.5 6.3 0.7 2.2 0.2 3.0

Beispiel i-c von rechts: 4*(36/39 + 0.6*36/129)/(1.0+0.6)*0.8 = 2.18

Schwellwert: 3Finales Resultat: glück-lich-e-lich und –e# sind Suffixe, weil LSV score von rechts war


3.3. Morphemklassifikation

• Simple Klassifikation von Morphemen in Präfixe, Stämme und Suffixe möglich– Wenn LSV score von rechts, dann Suffix, sonst Präfix

– Wenn Suffix länger als die Hälfte des Wortes, dann verdopple den Schwellwert, z.B.: 40-jähr-ig-er (Stamm 40)

– Was zwischen Suffix und Präfix übrig bleibt, ist Stamm

• Probleme zum Beispiel: – Komposita und verbindende Morpheme

– Alternationen, Löschungen usw.

• Da wäre ein komplexerer Ansatz nötig

• Könnte kombiniert werden mit Klassifikation in freie und gebundene Morpheme


3.4. Freie Parameter

Es bleiben allerdings arbiträre einzustellende Parameter, die möglicherweise Sprachabhängig sind (kleine Änderungen haben allerdings kaum Effekt):

• 150 ähnlichste Wörter – hängt vermutlich von Flektivität der Sprache ab

• Schwellwert zwischen 3 und 7• Schwellwert scheint vor allem von Anzahl der möglichen Buchstaben

einer Sprache abzuhängen (einschliesslich multiletter Grapheme!)• Weitere weniger wichtige Parameter:

– cooccscue 200 nicht wirklich jedes Wort mit jedem vergleichen– cooccsfeature 50 Beim vergleichen nur max 50 Wörter nehmen– minsig 4 Minimum significanz 4– maxresults 70 Maximal 70 resultate aufheben– minanzahl 2 Profile müssen mindestens 2 Wörter gemeinsam

haben


Zusammenfassung

• Momentan leidglich Morphemgrenzen finden

• Selbst dabei unklar, wie Sprachunabhängig das wirklich ist

• Weitere Analysen (Klassifizieren von freien vs. Gebunden Morphemen z.B.) nächster Schritt


Referate

• Referate sollen semantikbasierte Ansätze genauer beschreiben und evtl. vorführen

• Erstes Referat ist über Schone & Jurafskys Idee beschreiben

• Zweites Referat ist über Baronis Ansatz

Automatische Akquisition linguistischen Wissens

Documents

Transcript of Automatische Akquisition linguistischen Wissens