1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora...

21
1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann Universität Leipzig Rainer Osswald FernUniversität Hagen

Transcript of 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora...

Page 1: 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

1

Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora

1. April 2005

GLDV-05 Frühjahrstagung, Bonn

Chris BiemannUniversität Leipzig

Rainer OsswaldFernUniversität Hagen

Page 2: 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

2

Gliederung

• Motivation: Lexikonerweiterung für semantisches Parsen

• Von Kookkurrenzen zu Adjektivprofilen von Nomen

• Verebungsmechanismus für semantische Eigenschaften

• Ergebnisse: komplexe semantische Klassen

• Ergebnisse: Kombination von binären Einzelmerkmalen

• Diskussion

Page 3: 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

3

Motivation

• Semantisches Parsen versucht, eine semantische Repräsentation für geparste Sätze zu finden

• Notwendig hierzu sind semantische Eigenschaften von Wörtern

• Diese semantischen Eigenschaften werden manuell in ein Lexikon codiert (zeitaufwändig und teuer)

• Hypothese: Gegeben ein manuell erstelltes Lexikon mittlerer Größe sollte es möglich sein, Klassifizierer zu trainieren, die neue Einträge findne können.

Page 4: 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

4

HaGenLex: Semantisches Lexikon

semantic class

Größe: 22‘700 Lemmasdavon: 11‘300 Nomen, 6‘700 Verben

WORT SEMANTISCHE KLASSEAggressivität nonment-dyn-abs-situationAgonie nonment-stat-abs-situationAgrarprodukt nat-discreteÄgypter human-objectAhn human-objectAhndung nonment-dyn-abs-situationÄhnlichkeit relationAirbag nonax-mov-art-discreteAirbus mov-nonanimate-con-potagAirport art-con-geogrAjatollah human-objectAkademiker human-objectAkademisierung nonment-dyn-abs-situationAkkordeon nonax-mov-art-discreteAkkreditierung nonment-dyn-abs-situationAkku ax-mov-art-discreteAkquisition nonment-dyn-abs-situationAkrobat human-object... ...

Page 5: 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

5

Semantische Klassen in HaGenLex

Insgesamt 50 semantische Klassen für Nomen werden gebildet aus erlaubten Kombinationen von

• 16 semantischen Features (binär): HUMAN+, ARTIFICIAL- • 17 ontologischen Sorten, z.B. concrete, abstract-situation...

Sorte (Hierarchie)

semantische Features

semantische Klassen

Page 6: 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

6

Anwendung: WOCADI-Parser

„Welche Bücher von Peter Jackson über Expertensysteme wurden bei Addison-Wesley seit 1985 veröffentlicht?“

Page 7: 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

7

Annahmen

• Harris 1968: Distributional HypothesisSemantische Ähnlichkeit ist eine Funktion über globale Kontexte von Wörtern. Je ähnlicher die Kontexte, desto ähnlicher die Wörter

• Dies projiziert auf Nomen und Adjektive: Nomen mit denselben semantischen Klassen werden typischerweise von denselben Adjektiven modifiziert

• Die Nachbarschaftskookkurrenzbeziehung zwischen Adjektiven (links) und Nomen (rechts) approximiert typische Head-Modifier-Strukturen

Page 8: 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

8

Nachbarschaftskookkurrenzen und -profile

• Signifikante Kookkurrenzen spiegeln Relationen zwischen Wörtern wieder. Um zu ermitteln, welche Kookkurrenzen (gemeinsame Auftreten) signifikant sind, wird ein Signifikanzmaß benötigt (hier log-likelihood)

• Im Folgenden werden Adjektive, die signifikant häufig (sprich typischerweise) links von Nomen auftreten, sowie Nomen, die signifikant rechts von Adjektiven auftreten

• Die Menge on Adjektiven, die signifikant häufig links von Nomen beobachtet werden, heisst Adjektivprofil des Nomens (Analog: Nomenprofil für Adjektive)

• Für Experimente benutzen wir den Deutschen Korpus Version 2003 des „Projekt Deutscher Wortschatz“, 500 Millionen Tokens

Page 9: 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

9

Beispiel Nachbarschaftsprofile ... von ganz erlegten Käsebüchern

Datenbasis: grundformreduzierte Nachbarschaftskookkurrenzen.

Umfang: 125‘000 Substantive, 25‘000 Adjektive

Wort Adjektiv- bzw. Substantivprofil

Buch neu, erschienen, erst, neuest, jüngst, gut, geschrieben, letzt, zweit, vorliegend, gleichnamig, herausgegeben, nächst, dick, veröffentlicht, ...

Käse gerieben, überbacken, kleinkariert, fett, französisch, fettarm, löchrig, holländisch, handgemacht, grün, würzig, selbstgemacht, produziert, schimmelig,

Camembert gebacken, fettarm, reif

überbacken Schweinesteak, Aubergine, Blumenkohl, Käse

erlegt Tier, Wild, Reh, Stück, Beute, Großwild, Wildkatzen, Büffel, Rehbock, Beutetier, Wal, Hirsch, Hase, Grizzly, Wildschwein, Thier, Eber, Bär, Mücke,

ganz Leben, Bündel, Stück, Volk, Wesen, Vermögen, Herz, Heer, Arsenal, Dorf, Land, Können, Berufsleben, Paket, Kapitel, Stadtviertel, Rudel, Jahrzehnt, ...

Page 10: 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

10

Vererbungsmechanismus

Algorithmus:Initialisieren der Adjektiv- und Substantivprofile;Initialisieren der Startmenge;Solange noch neue Substantive klassifiziert werden {

Berechnung der Klassenwahrscheinlichkeiten der Adjektive;Für alle noch unklassifizierten Substantive s {

Multipliziere die Klassenwahrscheinlichkeit für jede Klasse; Weise die Klasse mit der höchsten Wahrscheinlichkeit s zu;

} }

Welche Klasse bekommt S4 im nächsten Schritt?

Klassenwahrscheinlichkeiten pro Adjektiv:• Zähle Klassenanzahlen• Normiere auf Anteil der Klasse in bekannten Substantiven• Normiere auf 1

Page 11: 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

11

Beispiel: TopfKlassenanzahlen für Adjektive:angebrannt: {nat-substance=1, art-substance=1, ax-mov-art-discrete=1}Suppe art_substanceZigarette ax-mov-art-discreteMilch nat-substance

zerbeult: {nonmov-art-discrete=1, mov-nonanimate-con-potag=2, nonax-mov-art-discrete=1, ax-mov-art-discrete=3}Wagen, Auto mov-nonanimate-con-potagFahrzeug, Mountainbike, Posaune ax-mov-art-discreteMantel nonax-mov-art-discreteDach nonmov-art-discrete

irden: {art-con-geogr=1, nonax-mov-art-discrete=1, ax-mov-art-discrete=9}Schal nonax-mov-art-discreteHafen art-con-geogrTeller, Flasche, Schüssel, Becher, Geschirr, Vase, Krug, Gefäß, Napf ax-mov-art-discrete

tönern: {ax-mov-art-discrete=1, prot-discrete=1}Fuß prot-discreteGefäß ax-mov-art-discrete

übervoll: {nonmov-art-discrete=3, art-con-geogr=1, nonment-dyn-abbs-situation=1, nonax-mov-art-discrete=1}Zimmer, Saal, Lager nonmov-art-discreteStall art-con-geogrVorlesung nonment-dyn-abs-situationTablett nonax-mov-art-discrete

Adjektivprofil von Topf = ax-mov-art-discrete: angebrannt(X) heiß(-) ehern(-) fremd(-) divers(-) zerbeult(X) brodelnd(-) staatlich(-) gußeisern(-) tönern(X) gemeinsam(-) groß(-) irden(X) verschieden(-) verschlossen(-) anonym(-) rund(-) flach(-) Bremer(-) geschlossen(-) passend(-) gesondert(-) andere(-) riesig(-) Golden(-) eisern(-) europäisch(-) viel(-) öffentlich(-) mehr(-) golden(-) leer(-) klein(-) getrennt(-) möglich(-) speziell(-) übervoll(X) dampfend(-) gleich(-) gefüllt(-)

Klassenwahrscheinlichkeiten (unnormiert): {mov-nonanimate-con-potag=2.8E-25, ax-mov-art-discrete=5.8E-8, art-con-geogr=1.5E-20,nonax-mov-art-discrete=2.1E-15, nat-substance=3.3E-25, nonment-dyn-abs-situation=1.6E-25,prot-discrete=5.0E-25, art-substance=3.3E-25, nonmov-art-discrete=7.1E-20}

Page 12: 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

12

Parameter• Mindestanzahl Adjektive: minAdj

Ein Substantiv wird erst dann klassifiziert, wenn mindestens minAdj klassifizierende Adjektive vorhanden sindVermeidung von statistischem Rauschen und Häufigkeitsschwelle.

• Maximalanzahl Klassen für Adjektive: maxClassEin Adjektiv wird nur dann zum Klassifizieren verwendet, wenn es für höchstens maxClass verschiedene Klassen sprichtunspezifische Adjektive können Ergebnis nicht verzerren

Page 13: 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

13

Datenbasis Experimente

Verteilung der semantischen Klassen (gesamt: 6045)

nonment-dyn-abs-situationhuman-objectprot-theor-concept

nonoper-attributeax-mov-art-discretenonment-stat-abs-situationanimal-object

nonmov-art-discretement-stat-abs-situationnonax-mov-art-discretetem-abstractum

mov-nonanimate-con-potagart-con-geograbs-infoart-substance

nat-discretenat-substanceprot-discretenat-con-geogr

prot-substancemov-art-discretemeas-unitoper-attribute

institutionment-dyn-abs-situationplant-objectmov-nat-discretecon-info

con-geogrcon-objectanimate-objectprot-method

dyn-abs-situationobjectnonmov-nonanimate-con-potagabs-geogr

stat-abs-situationmodalityrelationcon-potag

prot-con-objectnonmov-nat-discretenoninstit-abs-potagthc-relation

nonanimate-con-potagabs-situationabs-potag

Davon erfüllen 4726 Substantive minAdj=5, d.h. maximaler Recall=78,2%

Page 14: 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

14

Ergebnisse globaler Klassifikator• Klassifiziert wurde direkt nach semantischer Klasse• Verschiedene Messpunkte entsprechen Parameterbelegungen

minAdj in {5,10,15,20}, maxClass in {2, 5, 50}• Ergebnisse zu schlecht

Precision/Recall für globalen Klassifikator

00,10,20,30,40,50,60,70,80,9

1

0 0,2 0,4 0,6 0,8 1

Precision

Recall

Page 15: 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

15

EinzelklassifikatorenArchitektur: Binäre Klassifikatoren für Einzelmerkmale, dann

zusammenführen. Parameter: minAdj=5, maxClass=2

ANIMAL +/-ANIMATE +/-ARTIF +/-AXIAL +/-... (16 Stück)

... (17 Stück)

ab +/-abs +/-ad +/-as +/-

Auswahl:Kompatible semantische

Klassen, die minimal bzgl. Hierarchie sind, sowie eindeutig.

Ergebnisklasseoder

Verweigern

Page 16: 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

16

Evaluation semantische Features

• Für Bias >0,05 gute bis sehr gute Precision• Precision gesamt: 93,8% (86,8% für Eigenschaft +)• Recall gesamt: 70,7% (69,2% für Eigenschaft +)

Precision/Recall vs. Bias semantische Merkmale

0,00

0,20

0,40

0,60

0,80

1,00

0,00 0,10 0,20 0,30 0,40 0,50

Bias Datenbasis

Pre

cisi

on

/Rec

all

total Prec, Prec +, total Rec, Rec +

Name Anzahl + - Bias

method 6004 12 5992 0,0020

instit 6032 39 5993 0,0065

mental 9008 162 8846 0,0180

info 6015 119 5896 0,0198

animal 5995 143 5852 0,0239

geogr 6015 188 5827 0,0313

thconc 6028 518 5510 0,0859

instru 5932 969 4963 0,1634

human 5995 1313 4682 0,2190

legper 6009 1352 4657 0,2250

animate 6010 1505 4505 0,2504

potag 6015 1664 4351 0,2766

artif 5864 2204 3660 0,3759

axial 5892 2260 3632 0,3836

movable 5827 2345 3482 0,4024

spatial 6033 2910 3123 0,4823

Page 17: 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

17

Evaluation ontologische Sorten

• Für Bias >0,10 gute bis sehr gute Precision• Precision gesamt: 94,1% (89,5% für Eigenschaft +)• Recall gesamt: 73,6% (69,6% für Eigenschaft +)

Precision/Recall vs. Bias ontologische Sorten

0,00

0,20

0,40

0,60

0,80

1,00

0,00 0,10 0,20 0,30 0,40 0,50

Bias Datenbasis

Pre

cisi

on

/Rec

all

total Prec, Prec +, total Rec, Rec +

Name Anzahl + - Bias

re 6033 7 6026 0,0012

mo 6033 8 6025 0,0013

o- 6033 5994 39 0,0065

oa 6045 41 6004 0,0068

me 6045 41 6004 0,0068

qn 6045 41 6004 0,0068

ta 6033 107 5926 0,0177

s 6010 224 5786 0,0373

as 6031 363 5668 0,0602

na 6033 411 5622 0,0681

at 6033 450 5583 0,0746

io 6033 664 5369 0,1101

ad 6031 1481 4550 0,2456

abs 6033 1846 4187 0,3060

d 6010 2663 3347 0,4431

co 6033 2910 3123 0,4823

ab- 6033 3082 2951 0,4891

Page 18: 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

18

Eval. komplexe sem. Klassen

• Aussage für Bias schwierig• Precision gesamt: 80,2%• Recall gesamt: 34,2%, es wurden 6649 neue Substantive klassifiziert

Precision/Recall in % vs. Anzahl semantische Klassen

0

20

40

60

80

100

0 250 500 750 1000 1250 1500

Anzahl in Trainingsmenge

Pre

cis

ion

/Recall in

%

%Recall %Precision

Klasse

Anz. Prec Rec nonment-dyn-abs-situation 1421 89,19 34,27

human-object 1313 96,82 69,54

prot-theor-concept 516 53,71 18,22

nonoper-attribute 411 0,00 0,00

ax-mov-art-discrete 362 55,64 40,88

nonment-stat-abs-situation 226 36,84 6,19

animal-object 143 100,0 26,57

nonmov-art-discrete 133 57,41 23,31

ment-stat-abs-situation 126 51,28 15,87

nonax-mov-art-discrete 108 31,48 15,74

tem-abstractum 107 96,77 28,04

mov-nonanimate-con-potag 98 70,45 31,63

art-con-geogr 96 58,70 28,12

abs-info 94 42,31 11,70

art-substance 88 60,47 29,55

nat-discrete 88 100,0 31,82

nat-substance 86 57,14 9,30prot-discrete 73 100,0 57,53

nat-con-geogr 63 65,00 20,63

prot-substance 50 100,0 40,00

mov-art-discrete 45 100,0 37,78

meas-unit 41 90,91 24,39

oper-attribute 39 0,00 0,00Institution 39 0,00 0,00ment-dyn-abs-situation 36 0,00 0,00plant-object 34 100,0 8,82mov-nat-discrete 27 22,22 22,22

con-info 25 40,00 8,00Rest 157 39,24 19,75

Page 19: 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

19

Einige FehlerPflanze animal-object anstatt plant-objectzart, fleischfressend, fressend, verändert, genmanipuliert, transgen, exotisch, selten, giftig, stinkend,

wachsend...

Nachwuchs human-object anstatt animal-objectwissenschaftlich, qualifiziert, akademisch, eigen, talentiert, weiblich, hoffnungsvoll, geeignet, begabt,

journalistisch...

Café art-con-geogr anstatt nonmov-art-discrete (vgl. Restaurant)Wiener, klein, türkisch, kurdisch, romanisch, cyber, philosophisch, besucht, traditionsreich, schnieke,

gutbesucht, ...

Neger animal-object anstatt human-objectweiß, dreckig, gefangen, faul, alt, schwarz, nackt, lieb, gut, brav

aber:Skinhead human-object (richtig){16,17,18,19,20,21,22,23,30}ährig, gleichaltrig, zusammengeprügelt, rechtsradikal, brutal

Wegen zu weniger Adjektive zurückgewiesen:

Leberkäse human-objectbayerisch, warm

Page 20: 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

20

Ausblicke

• ‚Schwierigste‘ semantische Klasse: nonoper-attributez.B. Anfälligkeit, Angemessenheit, Ängstlichkeit, Beiläufigkeit, da typische Adjektive zu unspezifisch:erhöht, besonders, gering, hoch, extrem, größer, notorisch, gewisse,

übertrieben, völlig, stärker, übergroß, scheinbar, bedingt ...., jedoch enden die meisten auf {k|h}eit....

• Andere syntaktische Beziehungen ausnutzen• Polyseme Wörter behandeln:

- Disambiguierung: Mehrere Adjektivprofile pro Substantiv- Vereinigung von Substantivnachbarn eigenschaftsspezifischer Adjektive können Hinweise auf mehrere Klassen liefern

Page 21: 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

21

Fragen?

Danke für die Aufmerksamkeit!