WS 05/06Automatische Akquisition linguistischen Wissens1 Das Ambiguitätsproblem, bzw. Polysemie...

WS 05/06 Automatische Akquisition linguistischen Wissens 1

Automatische Akquisition linguistischen Wissens

Das Ambiguitätsproblem, bzw. Polysemie

1. Zweiseitigkeit der Polysemie• Benutzen von Ressourcen, um Mehrdeutigkeiten aufzulösen

• Erstellen von Ressourcen

2. Anwendungen

3. Algorithmen für Auflösung von Polysemie – WSD

4. Algorithmen für Erstellung von Ressourcen – WSI

Bemerkung: Dieses Seminar ist teilweise Inhaltsgleich mit entspr. Vorlesung in Modelle und Methoden der ASV

• Referat: ClusterSuite + Bordags paper für Erstellung

• Optionales Referat: SenseClusters + Pedersons paper


1. Polysemie: ein Problem mit zwei Seiten

After breaking the lock …• Welche Bedeutung hat hier lock?

… he overthrew his enemy.… they proceeded into the room.… the water flooded the lower parts.… he knew the gun wouldn’t do any more damage.

• Offenbar ist korrekte Interpretation abhängig vom Kontext, geschieht beim Menschen fast immer unbewusst und automatisch

• Damit zwei Dinge notwendig:– Wissen über Bedeutungen des Wortes– Interpretation des Kontexts für Auflösung der Mehrdeutigkeit

• Ist auch relevant für Dependenzgrammatiken: Er sah den Mann mit dem Hammer – Syntaktisch gibt es zwei Lesweisen (Er sah den Mann mit dem Fernrohr)– semantisch ergibt sich nur eine Lesweise, da man mit Hämmern nichts

sieht


1.1. Wissen über Mehrdeutigkeiten

• Wie kann Wissen über mehrere Bedeutungen eines Wortes aussehen?– Im Gehirn vermutlich assoziative Vernetzung: verschiedene

Konzepte sind mit gleichem Lemma assoziiert– Im Wörterbuch (möglicherweise frequenzsortierte) Liste von

Bedeutungen– In Programm zur Auflösung

• ebenfalls Liste • oder Links zu anderen Konzepten• oder Klassifizierung in verschiedene Sachgebiete

• Wie kann dieses Wissen erstellt werden?– Manuell: sehr subjektiv, selten so, wie es im Korpus vorkommt– Automatisch: evtl. zu Korpusspezifisch, selten annähernd

vollständig


1.1.1. Wissensquellen

• Ein WSD Algorithmus kann mehrere verschiedene Quellen für Bedeutungsunterscheidungen nutzen:1. Kategorien in Rogets Thesaurus – ist ein Wort in zwei Kategorien,

stellen diese die zwei Bedeutungen dar

2. Wörterbucheinträge (Webster, WordNet glosses)

3. Semantische Wortnetze (WordNet, GermaNet)

4. LSI für Clustering von Topics in einem Korpos – ist ein Wort Bestandteil mehrerer Topics, sind diese die Bedeutungen des Wortes

5. Automatisch berechnete Bedeutungen eines Wortes

• Er sollte mit allen zurechtkommen und mit den herkömmlichen am besten (2. oder 3.)


2. Anwendungen

• Information Retrieval – query expansion

• Browsing of resultsets

• Grammar checkers

• Generell alle Applikationen, in denen Parser vorkommen


3.1. Auflösen von Mehrdeutigkeiten

• Der initiale Algorithmus, bzw. erste Idee, Mehrdeutigkeiten überhaupt automatisch aufzulösen kam angeblich von Lesk (86):

• Vergleiche Definitionen des aktuellen Wortes mit allen Definition aller anderen Wörter im Satz

• Wähle die Bedeutung mit den meisten matches aus

• Wortgruppe: … pine cone …– pine:

1. kind of evergreen tree with needle-shaped leaves

2. waste away through sorrow or illness

– cone

1. solid body wich narrows to a point

2. something of this shape whether solid or hollow

3. fruit of certain evergreen tree

• Algorithmus beachtet nicht die Auswahl von anderen Wörtern


3.1.1. Veranschaulichung von Lesk’s Algorithmus

• Jedes Wort (Anzahl) gewichtet gegen inverse document frequency (z.B. auch logirithmisch)– evergreen (152 -> lg(13871081)/lg(152) = 3.3)– tree (9332 -> lg(13871081)/ lg(9332) = 1.8)

• … pine cone …1. Schritt: für pine wähle Bedeutung aus:

1. kind(0) evergreen(1*3.3) tree(1*1.8) needle-shaped (0) leaves (0) -> 3.3+1.8 = 5.1

2. waste(0) sorrow(0) illness(0) -> 02. Schritt: für cone wähle Bedeutung aus:

1. solid (0) body (0) narrows (0) point(0) -> 02. something(0) shape(0) solid(0) hollow(0) -> 03. fruit(0) certain(0) evergreen(3.3) tree(1.8) -> 3.3+1.8 = 5.1

• So wurden unabhängig voneinander die richtigen Bedeutungen ausgewählt


3.1.2. Evaluierung von Lesk’s Algorithmus

• Die ursprüngliche Version ergibt Precision von 16%

• Erweiterte Version von Lesk, bei der nicht nur glosses sondern auch Beispielsätze aus WordNet zu jeder Bedeutung genutzt wurden, ergibt Precision von 23%

• Wie sich später herausstellt, ist baseline allerdings bei über 38%!

• wichtiger Parameter: window of context– Phrasen oder kurze Sätze (Originalpaper)

– 2*n + 1 um das Wort herum ( 1..n W n+1 … 2n ) (Bei Senseval) (Für grosse n sehr rechenintensiv)

• Wörter, die nicht definiert sind, fallen nicht in diese Regeln, ebenfalls Stoppwörter

Part of Speech Precision Recall F-MeasureLexical Sample 0.183 0.183 0.183Noun 0.258 0.258 0.258Verb 0.116 0.116 0.116Adjective 0.170 0.170 0.170


3.1. Gemeinsamkeiten

• Es gibt Begriffliche Äquivalenzen:– bootstrapping = iterative, converging process = clustering

– information acquisition bottleneck = circular definition

– word similarity = co-occurrence statistics = collocations

• Die meisten Algorithmen benutzen WordNet oder ein anderes MRD (Machine Readable Dictionary) für Bedeutungsdefinitionen

• Kontextbasiert: Jeder Algorithmus ist ausgelegt, eine Menge Kontext um das zu disambiguierende Wort herum zum disambiguieren zu nutzen

• Evaluierung war vor SENSEVAL ein großes Problem – ein und der gleiche Algorithmus kann je nach Bewertung 26% bis 97% Precision erhalten!


3.2. Überblick über Forschung insgesamt

• Lesk 86 – dictionary based• Veronis & Ide 90 – dictionary based• Guthrie et al. 91- dictionary based• Slator 91 – dictionary based• Hearst 91 – early Bootstrapping• Zernik 91 – Morphologie zur Disambiguierung• Schütze 92 – hierarchical clustering of word senses• Yarowsky 92 – Ausnutzung von Kategorien als Bedeutungen• Yarowsky 95 – Bootstrapping, bzw. clustering• Dagan & Itai 94 – co-occurrence statistics of two monolingual corpora of two

languages• Karov & Edelman 96 – Alternative zum Kollokationsmass• Wilks & Stevenson 97 – Kombinierung verschiedener Quellen für WSD• Pederson & Banarjee 02 – Hierarchie von WordNet ausnutzen,

Clustertechniken


3.3. Aktuelle Forschungsthemen

• Ted Pedersons Verbesserungen können im SenseClusters Projekt probiert werden: http://www.d.umn.edu/~tpederse/senseclusters.html1. Insgesamt größtes Problem: data sparseness – daher sind die

meisten Strategien darauf abgerichtet

• hier: nicht nur direkt im Satz vorkommende Wörter vergleichen, sondern auch mit denen Verbundene

2. Übereinstimmung von längeren Strings wie ‘evergreen tree’ wird als besser bewertet als ‘evergreen … tree’

3. Global disambiguation strategy (Einbeziehen bereits disambiguierter Wörter)

• Evaluierung nach strengen Richtlinien und genauer Anpassung an SENSEVAL-2


3.3.1. Weitere Informationsquellen

Lösung des data sparseness Problems:

• Anstatt schlicht die Definitionen der Wörter zu verwenden für jede Definition mehr Daten beschaffen:

• Dabei Ober- und Unterbegriffe mit einbeziehen

• Teil-von Relation mit einbeziehen

• Jeweils deren Definitionen miteinbeziehen

• Je weiter weg vom ursprünglichen Wort, umso geringer Gewicht, da umso grösser Gefahr in komplett unrelatierte Gebiete abzuweichen

Clustertechniken:

• Um zu vorhandenen Daten weitere hinzuzugenerieren (Ähnliche Wörter usw.)


3.3.2. Bessere Vergleichsfunktion

• higher count for multitoken overlaps S. 35 – Übereinstimmung von längeren Strings wie ‘evergreen tree’ wird als besser bewertet als ‘evergreen … tree’

• Overlaps dürfen nicht mit Funktionswörtern anfangen oder aufhören, damit entfallen “and the” oder “on the” automatisch, da sie kaum dem Disambiguierungsprozess helfen können.

• Ausserdem wird dann aus “the United States of A.” “United States of A.”

• Entsprechend dem Zipfschen Gesetz lohnt es sich auch, matchlaengenbewertungen zu quadrieren, da sie seltener auftreten und damit je länger, umso höher bewertet werden sollten.

• Beispiel: zwei einzelne Wörter und eine 3 Wörter lange Wortgruppe match, score: 1 + 1 + 3*3 = 11


3.3.3. Globale Disambiguierungsstrategie

• Einbeziehen bereits disambiguierter Wörter

• Berechnen von Bewertung für eine Kombination von Bedeutungszuweisungen – wenn für Wort w bereits Bedeutung n zugewiesen wurde, kann für Wort x nicht Bedeutung n+1 des Wortes w als Matchkandidat dienen.

• Das hat mindestens den Vorteil, dass sich die Entscheidungen dieses Algorithmus seltener selbst widersprechen würden.– Während von einem Wort die technische Bedeutung gewählt wird, kann

nicht gleich vom nächsten Wort eine z.Bsp. Pflanzenbedeutung gewählt werden.

• Größtes Problem hier ist der exponentiell steigende Rechenaufwand


3.4. Beispiel

• gloss(sentence#n#1) = a string of words satisfying the grammatical rules

• of a language• gloss(sentence#n#2) = the final judgment of guilty in

criminal cases and• the punishment that is imposed• gloss(bench#n#1) = a long seat for more than one person• gloss(bench#n#2) = persons who hear cases in a court of

law• gloss(offender#n#1) = a person who transgresses law

• Combination 1: sentence#n#1 – bench#n#1 – offender#n#1• Combination 2: sentence#n#1 – bench#n#2 – offender#n#1• Combination 3: sentence#n#2 – bench#n#1 – offender#n#1• Combination 4: sentence#n#2 – bench#n#2 – offender#n#1


3.4.1. Beispiel II

First Gloss Second Gloss Overlap String Norm. Score

hype(sentence#n#2) bench#n#2 court of law, case 10

sentence#n#2 bench#n#2 cases 1

hype(sentence#n#2) offender#n#1 law 1

sentence#n#2 hypo(offender#n#1) criminal 1

hype(bench#n#2) hype(offender#n#1) person 1

hype(bench#n#2) offender#n#1 person 1

hype(bench#n#2) hype(offender#n#1) person 1

bench#n#2 hype(offender#n#1) person 1

bench#n#2 offender#n#1 person, law 2

bench#n#2 hypo(offender#n#1) person 1

Total score for sentence#n#2 – bench#n#2 – offender#n#1 20


3.5. Evaluierung

• Vier unterscheidbare Probleme, mit denen Evaluierungen zu kämpfen haben:1. Anwenden auf ein grosses Korpus oder nur auf ein paar wenige ‘gute’

Wörter

2. Anwendbarkeit von WSD ueberhaupt (Kilgariff 93), da es Probleme gibt, eine und nur eine Bedeutung zuzuweisen (vor allem bei Theoretisch von Linguisten ausgedachten!)

3. Erscheinen von neuen Bedeutungen, die gar nicht definiert sind, führt zu garantiert Fehlentscheidungen und ist schwer Quantifizierbar

4. Gibt es eventuell Quellen, die zu theoretische Bedeutungsunterscheidungen treffen?


3.5.1. Evaluierung: SENSEVAL-2

• Grosse Mengen Text, mit WordNet 1.7 senses per Hand getaggt zum Testen von WSD Algorithmen– English lexical sample

• training set• test set

– 73 tasks, wobei

– all-words-test

• Im Test set hat jeder Task– eine Menge von Beobachtungen jeweils eines Wortes ist, welche

disambiguiert werden sollen– jede Beobachtung ist von der gleichen Wortklasse– ein Wort kann mit mehreren verschiedenen senses getaggt sein– zu einem Wort existiert bereits die Information über die Wortklasse


3.5.2. Evaluierung SENSEVAL-2

• SENSEVAL-1: http://www.itri.brighton.ac.uk/events/senseval/ARCHIVE/index.html

• SENSEVAL-2: http://www.sle.sharp.co.uk/senseval2/

• Senseval Daten sind frei verfügbar und als Referenz gemeint

• Jeder kann eigenen Algorithmus implementieren und Anerkennung einer Arbeit über diesen steigt deutlich, wenn sie diesen anhand von SENSEVAL misst

• SENSEVAL Daten sind nicht prefekt, aber ein Vergleich ist noch wichtiger


3.5.3. SENSEVAL-2 Vergleich

Team Name Precision Recall F-Measure

UNED-LS-U 0.402 0.401 0.401

WordNet 1st sense 0.383 0.383 0.383

ITRI-WASPS-Workbench

0.581 0.319 0.412

Banarjee 0.301 0.301 0.301

CL-Research-DIMAP

0.293 0.293 0.293

IIT 2 ( R ) 0.247 0.244 0.245

IIT 1 ( R ) 0.243 0.239 0.241

IIT 2 0.233 0.232 0.232

IIT 1 0.220 0.220 0.220

Random 0.141 0.141 0.141


3.5.5. SENSEVAL-2 Bemerkungen

• 1st sense ist auch daher so gut, weil die 1 Bedeutung aus einem grossen Korpus extrahiert wurde (SemCor, manualles Sensetagging für sehr viele Sätze) – und damit eher einen supervised Algorithmus darstellt

• Ausserdem sind die Bedeutungen oft weit von der Gebrauchswirklichkeit entfernt: – #13: [v] build locks in order to facilitate the navigation of vessels – #14: [v] hold fast (in a certain state); "He was locked in a laughing fit" – #15: [v] pass by means through a lock in a waterway

• Die wenigen tatsächlich gebrauchten Bedeutungen sind auch noch teils extrem unbalanciert – Vermutung: Zipfsches Gesetz in Verteilung von Bedeutungsgebrauch


4. Word Sense Induction

• Ambiguität kann auf mehreren Ebenen vorkommen:– lexikalische Ebene: Ball – Ball

– semantische Ebene (oder auch Strukturelle oder auch kompositionell-semantische): Jeder Mann tanzte mit einer Frau

– syntaktische Ebene: Mann mit dem Fernrohr sehen Phonemebene: Miene – Mine

– morphologische Ebene: Staubecken – Staubecken

– …

• Der Ambiguität liegen etymologische Entwicklungen zugrunde, semantische Zusammenhänge, der Gebrauch von Metaphern und v. a.


4.1. Sorten von Bedeutungsdefinitionen

• Definitionen der einzelnen Bedeutungen eines Wortes können konstruktiv, beschreibend oder differenzierend sein– Es gibt keine wirklich vollständigen konstruktiven Definitionen

– Beschreibende Definitionen: Der Begriff wird kurz, in ein einem oder zwei Sätzen für einen durchschnittlichen Menschen verständlich erläutert

– Differenzierende Definitionen: Es werden für jede Bedeutung soviele Begriffe gegeben, dass die konkrete Bedeutung klar von allen anderen abgrenzbar wird.

• Die Definitionen sind für verschiedene Zwecke ausgelegt:– Beschreibende für den Menschen, als Nachschlagemöglichkeit.

– Differenzierende auch für Menschen nutzbar, aber besser für Algorithmen geeignet (Da Beschreibungen meist zu kurz).


4.2. Beispiele

• WordNet (insgesamt 15):1. [n] any wrestling hold in which some part of the opponent's body is

twisted or pressured

2. [n] a fastener fitted to a door or drawer to keep it firmly closed

3. [n] a restraint incorporated into the ignition switch to prevent the use of a vehicle by persons who do not have the key

4. [n] enclosure consisting of a section of canal that can be closed to control the water level; used to raise or lower vessels that pass through it

5. [n] a mechanism that detonates the charge of a gun

• Webster 19131. A tuft of hair; a flock or small quantity of wool, hay, or other like substance

2. the fastening of a door (Hier 8 weitere Unterbedeutungen!)

3. to lock (6 weitere Unterbedeutungen)


4.3. Berechnung von Bedeutungen

• “Berechnung” von Beschreibungen soweit nicht bekannt, dazu müßten ungefähr folgende Komponenten existieren1. Semantik, um zu beschreibenden Inhalt formalisieren zu können

2. Algorithmen, die Inhalte in diese Semantik bringen können

3. Algorithmen, die diese Inhalte in natürliche Sprache bringen können

• Andere, unzuverlässige und bislang ebenfalls nicht erprobte Methode wäre Auswahl von Sätzen mit Definitionen:1. Clustere alle Sätze eines Wortes nach Bedeutungen

2. Wähle die Sätze/Satzteile aus, die wie Definitionen aussehen

• Schließlich Methode der Berechnung von Kookkurrenzen / Wortassoziationen und Clustering dieser für lediglich distinktive Definition von Bedeutungen


4.4. Erste Algorithmen

1. SIGIL Verfahren von Daniel B. Neill• Sense Induction by Greedy Iterative Labeling

• Kookkurrenzen berechnen und clustern

2. Unabhängigkeitsanalyse von R. Rapp Kookkurrenzmatrix erstellen (Korpus: BNC) Hauptkomponentenanalyse (PCA) Vektorähnlichkeiten berechnen

3. Clusteringverfahren von S. Bordag• Kookkurrenzen berechnen

• Lokales Clustern auf Schnittmengenbasis

• Bislang keine vergleichende oder allgemeine Evaluierungen


Referat

• Zwei Referate,

• SenseClusters von Ted Pederson erklären und vorführen

• einen der Bedeutungsberechnenden Algorithmen erklären und vorführen

WS 05/06Automatische Akquisition linguistischen Wissens1 Das Ambiguitätsproblem, bzw. Polysemie...

Documents

Transcript of WS 05/06Automatische Akquisition linguistischen Wissens1 Das Ambiguitätsproblem, bzw. Polysemie...