Kann man systematische Polysemie kontextuell (automatisch ...

16

Click here to load reader

Transcript of Kann man systematische Polysemie kontextuell (automatisch ...

Page 1: Kann man systematische Polysemie kontextuell (automatisch ...

1

Kann man systematische Polysemie kontextuell (automatisch) bestimmen?

Jana DrescherEmil KroymannAnne Urbschat

Arbeitsgruppe Miniprojekt 1: Lexikalische Semantik

1. Systematische Polysemie2. Vorgehensweise3. Auswertung4. Fazit

Gliederung

1. Systematische Polysemie2. Vorgehensweise3. Auswertung4. Fazit

Gliederung

Homonymie

Lexem hat mindestens zwei Bedeutungen, zwischendenen kein Zusammenhang feststellbar ist.

Es muss davon ausgegangen werden, dass es sich ummehrere Lexeme gleicher Ausdrucksform und unterschiedlicher Herkunft handelt.

(1) Die Bank hat eine Lehne.(2) Die Bank hat geschlossen.

1. Systematische Polysemie

Metonymie

Ersatz eine Ausdrucks durch eine sachlich verwandte Bezeichnung:

(3) Peter ist ein kluger Kopf.(4) Hans hört gerne Mozart.(5) Rostock darf sich nicht wiederholen.

1. Systematische Polysemie

Metonymie

Ersatz eine Ausdrucks durch eine sachlich verwandte Bezeichnung:

(3) Peter ist ein kluger Kopf. > Teil für Ganzes(4) Hans hört gerne Mozart. > Produzent für Produkt(5) Rostock darf sich nicht wiederholen. > Ort für Ereignis

1. Systematische Polysemie

Page 2: Kann man systematische Polysemie kontextuell (automatisch ...

2

Polysemie

Lexem hat mindestens zwei Bedeutungen, bei denen sich Gemeinsamkeiten feststellen lassen

Keine der Bedeutungsvarianten ist als abgeleitet gegenüber einer anderen anzusehen

(6) Die Bank hat eine neue Direktorin.(7) Die Bank hat drei Etagen.

1. Systematische Polysemie

Systematische Polysemie gilt stets für eine Klasse von Ausdrücken:

(1) Schule, Theater, Kirche, Universität, Museum, Parlament, Bank, Akademie, Klinik, Gefängnis

(2) Buch, Roman, Novelle, Vorwort, Brief, Flugblatt, Statut, Zeitung, Stadtplan, Grundriss

(3) Sonate, Symphonie, Ouvertüre, Oper, Drama, Akt, Lied, Szene, Schlager, Oratorium, Duett

1. Systematische Polysemie

systematische Polysemie gilt stets für eine Klasse von Ausdrücken:

(1) Schule, Theater, Kirche, Universität, Museum, Parlament, Bank, Akademie, Klinik, Gefängnis

(2) Buch, Roman, Novelle, Vorwort, Brief, Flugblatt, Statut, Zeitung, Stadtplan, Grundriss

(3) Sonate, Symphonie, Ouvertüre, Oper, Drama, Akt, Lied, Szene, Schlager, Oratorium, Duett

1. Systematische Polysemie

Bedeutungsvarianten für Klasse (1):

Die Schule…

...wurde gerade rekonstruiert.

...muss sparen.

...beginnt um 8.

1. Systematische Polysemie

Bedeutungsvarianten für Klasse (1):

Die Schule…

...wurde gerade rekonstruiert. = GEBÄUDE

...muss sparen. = INSTITUTION

...beginnt um 8. = PROZESS

1. Systematische Polysemie

Frage

Ist die semantische Repräsentation lexikalischerEinheiten die (im wesentlichen) vollständigeSpezifizierung ihrer primären (wörtlichen) Bedeutung?

1. Systematische Polysemie

Page 3: Kann man systematische Polysemie kontextuell (automatisch ...

3

Zwei-Ebenen-Semantik

Repräsentation der Bedeutung einer Äußerung erfolgt auf zwei Ebenen:

Semantische Form

Konzeptuelle Struktur

1. Systematische Polysemie (Bierwisch 1983)

Zwei-Ebenen-Semantik

Semantische Form/Struktur:

Teil des Kenntnissystems der Sprache

Repräsentiert die rein sprachlich determinierte Bedeutung einer Äußerung

Enthält lediglich ein Gerüst an Informationen

Bedarf im Verstehensprozess bestimmter Ergänzungen durch Rückgriff auf enzyklopädisches und anderes Wissen

1. Systematische Polysemie (Bierwisch 1983)

Zwei-Ebenen-Semantik

Konzeptuelle Struktur

Gedankliche Einheiten und Operationen

repräsentiert die kontextuell spezifizierte Bedeutung einer Äußerung

Teil des für die Konzeptualisierung der Umwelterfahrung zuständigen Systems

1. Systematische Polysemie (Bierwisch 1983)

Zwei-Ebenen-Semantik

Die semantische Interpretation eines Ausdrucks A derSprache L im Kontext ct ist die Abbildung seinersemantischen Form (SF) auf die Ebene der konzeptuellen Struktur (CS), so daß SF(A) im Kontextct den Wert m erhält:

SF(A,ct) = m

1. Systematische Polysemie (Bierwisch 1983)

Zwei-Ebenen-Semantik

Antwort

Die semantische Repräsentation lexikalischerEinheiten ist die Invariante der verschiedenenkontextbedingten Varianten, die erst durch Fixierungfreier Parameter in jeweils bestimmte Bedeutungen übergeht.

1. Systematische Polysemie (Bierwisch 1983) 1. Systematische Polysemie (Bierwisch 1983)

Zwei-Ebenen-Semantik

Fixierung freier Parameter:

Kontext

Durch die Determination des Kontextes auf der konzeptuellen Ebene erfolgt die Determination der Äußerungsbedeutung.

Page 4: Kann man systematische Polysemie kontextuell (automatisch ...

4

Zwei-Ebenen-Semantik

Lexikoneinträge sind unterspezifiziert und erhalten über kognitive Prozesse (konzeptionelle Verschiebung) ihre jeweilige Äußerungsbedeutung in Abhängigkeit vom Kontext.

1. Systematische Polysemie (Bierwisch 1983)

Bedeutungsvarianten für Klasse (1):

Die Schule…

...wurde gerade rekonstruiert. = GEBÄUDE(SEM(x))

...muss sparen. = INSTITUTION(SEM(x))

...beginnt um 8. = PROZESS(SEM(x))

1. Systematische Polysemie (Bierwisch 1983)

Bedeutungsvarianten für Klasse (1):

Die Schule…

...wurde gerade rekonstruiert. = GEBÄUDE(SEM(x))

...muss sparen. = INSTITUTION(SEM(x))

...beginnt um 8. = PROZESS(SEM(x))

SEM(Schule) = LEHREN UND LERNEN

1. Systematische Polysemie (Bierwisch 1983)

Bedeutungsvarianten für Klasse (1):

Die Schule/das Theater/die Kirche…

...wurde gerade rekonstruiert. = GEBÄUDE(SEM(x))

...muss sparen. = INSTITUTION(SEM(x))

...beginnt um 8. = PROZESS(SEM(x))

SEM(Schule) = LEHREN UND LERNENSEM(Theater) = AUFFÜHREN UND ANSEHENSEM(Kirche) = PREDIGEN UND ZUHÖREN

1. Systematische Polysemie (Bierwisch 1983)

Schule = INSTITUTION (SEM(x))Theater = INSTITUTION (SEM(x))Kirche = INSTITUTION (SEM(x))

Schule = GEBÄUDE (SEM(x))Theater = GEBÄUDE (SEM(x))Kirche = GEBÄUDE (SEM(x))

Schule = PROZESS (SEM(x))Theater = PROZESS (SEM(x))Kirche = PROZESS (SEM(x))

1. Systematische Polysemie (Bierwisch 1983)

Bedeutungsvarianten für Klasse (1):

Bank = INSTITUTION (SEM(x))Klinik = INSTITUTION (SEM(x))Parlament = INSTITUTION (SEM(x))

Bank = GEBÄUDE (SEM(x))Klinik = GEBÄUDE (SEM(x))Parlament = GEBÄUDE (SEM(x))

Bank = PROZESS (SEM(x))Klinik = PROZESS (SEM(x))Parlament = PROZESS (SEM(x))

1. Systematische Polysemie (Bierwisch 1983)

Bedeutungsvarianten für Klasse (1):

Page 5: Kann man systematische Polysemie kontextuell (automatisch ...

5

Die Schule wird renoviert und macht einen Ausflug.

1. Systematische Polysemie (Bierwisch 1983)

Möglichkeit: Chomskys Selektionsrestriktionen

1. Systematische Polysemie

Möglichkeit: Chomskys Selektionsrestriktionen

Aber:

LexemungebundenProduktivität der Klasse

1. Systematische Polysemie

Semantische Sorten und sortale Restriktionen

Ausgangspunkt:

Feststellung, dass sprachliche Ausdrücke in bestimmte semantische Sorten unterschieden werden können und zwar in Abhängigkeit davon, auf welche Sorten von Entitäten sich die Ausdrücke jeweils beziehenDie Einteilung in semantische Sorten ist als sprachliches Gegenstück zu einer im kognitiven Modell der Welt (im konzeptuellen System) vorgenommenen kategoriellen Gliederung zu verstehen

1. Systematische Polysemie

Aufgrund dieser Analyse menschlichen Wissens (deskonzeptuelle Systems) Annahme einer

Ontologie:

Beinhaltet Grundinventar an begrifflichen Entitäten

Wird strukturiert durch Sortenrestriktionen (beziehen sich auf begriffliche Wohlgeformtheit)

1. Systematische Polysemie

Ontologische Sortenstruktur (nach Dölling 1995):

2 Domänen: Arten, ObjekteZu jeder Domäne: 6 Klassen von NominaÜber die Nomina-Klassen variierend: Singularindividuenund Pluralindividuen

Im mentalen Lexikon vermerkt:

Sortenbeschränkungen für Prädikate(z.B. rekonstruieren verlangt ein Argument der Sorte Dingobjekt, sparen verlangt ein Argument der Sorte Soziales Objekt)

1. Systematische Polysemie (Dölling 1995)

Page 6: Kann man systematische Polysemie kontextuell (automatisch ...

6

1. Systematische Polysemie (Bierwisch 1983)

Äußerungsbedeutung wird determiniert durchSortenrestriktion des Prädikats

Mit einer geeigneten Ontologie und Kenntnissen der Sortenbeschränkungen der Prädikate müssten dieLesarten gut bestimmbar sein.

1. Systematische Polysemie (Bierwisch 1983)

1. Systematische Polysemie2. Vorgehensweise2.1 Lesartenannotation2.2 Voruntersuchung2.3 Hauptuntersuchung3. Auswertung4. Fazit

Gliederung

• Aus unseren theoretischen Vorüberlegungen schliessenwir, daß sich Lesarten durch den Kontext bestimmen lassen.

• Daher wollen wir im weiteren eine Untersuchung des Kontextes vornehmen.

• Für eine solche Untersuchung ist es notwendig, die polysemen Token zu annotieren (zu taggen).

Lesartenannotation

2. Vorgehensweise

Lesartenannotation / sense tagging heißt:

Man ordnet einem Token ein Tag zu. Dieses Tag gibt die Lesart des Tokens an.

Dem Token Schule wird also je nach Kontext die Lesart INSTITUTION, GEBÄUDE oder PROZEß zugeordnet.

2. Vorgehensweise

Beispiel: Kindergarten

• Außerdem verdanken über 50 Kindergarten/INSTITUTION dem Verein ihre Entstehung.

• Kinder einen neuen, VII. Kindergarten/GEBÄUDE zu errichten.

2. Vorgehensweise

Page 7: Kann man systematische Polysemie kontextuell (automatisch ...

7

Beispiel: Oper

• Wird Ihre Oper/WERK bereits geprobt?

• Von der Frankfurter Oper/INSTITUTION. Unser Korrespondent schreibt uns aus

2. Vorgehensweise

1. Systematische Polysemie2. Vorgehensweise2.1 Lesartenannotation 2.2 Voruntersuchung2.3 Hauptuntersuchung3. Auswertung4. Fazit

Gliederung

Voruntersuchung

1. Auswahl von 100 Vorkommen von Schule aus dem Mannheimer Korpus 1

2. Vorgehensweise

Beim ersten Anschauen der Belege habenwir festgestellt:

Oft treffen mehrere Lesarten zu.

• Das war wahrscheinlich der Augenblick, in dem ich die Schule so sehr gehaßt habe wie nie zuvor.

• Ich glaube, ich sagte schon, daß sie diese ganze Schule sehr wichtig nahmen.

Manche Kontexte lassen mehrere Lesarten zu.

2. Vorgehensweise

Oft trifft keine der angenommenen Lesarten zu:

[...] seinen Vorsatz zu beherzigen, daß „Geschichte nur unsere Schule“ sein könne [...]

Manche Kontexte lassen keinen Schluß auf eine Lesart zu.

2. Vorgehensweise

Kollokationen, Idiome

• Das Beispiel machte Schule.

• Sozialisten alter Schule sagen nach wie vor ...

• Neue Frauen, alte Schule – wie Männer mit Charme das schaffen.

• In diesen Ländern spielte die Tradition der „Wiener Schule“ vielfach ein große Rolle.

2. Vorgehensweise

Page 8: Kann man systematische Polysemie kontextuell (automatisch ...

8

Vorkommen mit idiomatischer, kollokativer Verwendungoder Verwendung in Eigennamen müssen eigentlich ausder Analyse bzw. der Auswertung herausgenommenwerden.

Grund:Solche Wendungen haben als Ganzes eine Bedeutung.

Leider haben wir solche Fälle nicht systematischaussortiert.

2. Vorgehensweise

Voruntersuchung

2. Annotation dieser 100 Vorkommen durch alle drei Gruppenmitglieder nach Bierwisch mit den Lesarten:

• INSTITUTION• GEBÄUDE• PROZESS• Zusätzlich: UNBEKANNT für Fälle in denen

der Annotator keine von den drei Lesarten für anwendbar hält

Es konnten für einen Beleg auch mehrereLesarten annotiert werden

2. Vorgehensweise

Unser Beispiel: Schule

%%1%% 17 22579: sagte er , "was war das mit der Schule ?

%%1%%%%3%% 18 22604: die Sache hat nichts mit Schule zu tun

2. Vorgehensweise

Voruntersuchung

3. Vergleich der Annotationen

Orientierung an den übereinstimmenden Belegen bei

der eigentlichen Annotation

2. Vorgehensweise

Auswertung der Voruntersuchung

Problem: Scheinbar geringe Übereinstimmung derversch. Annotationen.

Übereinstimmung ist aber wichtig: Indikator für die Anwendbarkeit von Bierwischs Lesarten

Wie kann man Übereinstimmung messen?

2. Vorgehensweise

Inter-Annotator Agreement

Inter-Annotator Agreement: Übereinstimmung zwischenunterschiedlichen menschlichen Annotatoren

Jean Véronis: a study of polysemy judgements and inter-annotator agreement.

Methode zur Einschätzung der Übereinstimmung vonAnnotatoren.

2. Vorgehensweise

Page 9: Kann man systematische Polysemie kontextuell (automatisch ...

9

Maße für Inter-Annotator Agreement

Véronis schlägt versch. Maße vor:

Volle Übereinstimmung: Minimal: Annotatoren stimmen bei allen annotierten Lesarten übereinMaximal: Annotatoren stimmen bei einer annotierten Lesart überein

Paarweise Übereinstimmung:MinimalMaximalGewichtet mit Dice-Koeffizient

2. Vorgehensweise

Zufällige Übereinstimmung

Wenn man die Annotatoren die Lesarten zufälligauswählen ließe,...

...ergäbe sich auch ein gewisser Anteil an übereinstimmenden Annotationen,...... der die Übereinstimmungsmaße verfälscht

Deshalb muss man die erwartete zufälligeÜbereinstimmung herausrechnen.Dazu dient ...

2. Vorgehensweise

Die κ-Statistik

Das Maß für die Übereinstimmung muss gegenüberzufälliger Übereinstimmung abgegrenzt werden.

Dazu dient die sog. κ-Statistik(siehe Cohen 1960, auch Carletta 1996)

Pzufällig hängt von den tatsächlich auftretenden Lesartenund der Anzahl der Annotatoren ab

zufällig

zufälligbeobachtet

PPP

−=

2. Vorgehensweise

Interpretation der κ-Statistik

κ nimmt Werte im zwischen 0 und 1 an

• Bereich κ > 0,8: gute Übereinstimmung

• Bereich 0,67 < κ < 0,8: tendenzielle Aussagen möglich

• Weniger: keine Aussagen möglich

2. Vorgehensweise

Inter-Annotator-Agreement: Anwendung

Am Beispiel Schule aus dem Mannheimer Korpus

• Wir haben 100 Belege annotiert

• Davon 30 Belege in für alle Lesarten übereinstimmend

• Also Minimale Übereinstimmung = 30 / 100 = 0,3

2. Vorgehensweise

κ-Statistik: Anwendung

Beispiel für Minimale Übereinstimmung (vorige Seite):

• Minimale Übereinstimmung beträgt 0,3

• Erwartete zufällige Übereinstimmung wird errechnet aus den Anteilen der von uns vergebenen Lesartenkombinationen: Sie beträgt 0,11

22,011,0111,03,0(min) ≈

−−

2. Vorgehensweise

Page 10: Kann man systematische Polysemie kontextuell (automatisch ...

10

Übereinstimmung in der Voruntersuchung

0,30

0,50

0,22

0,44

00,10,20,30,40,50,6

min max k(min) k(max)

2. Vorgehensweise

Die Auswertung der Voruntersuchung zeigt:

Sehr geringe Übereinstimmung unserer Annotationen

⇒ Keine Orientierung für weitere Annotationen⇒ Wir sollten andere Lexeme betrachten⇒ Wir müssen mehr Belege sammeln

2. Vorgehensweise

1. Systematische Polysemie2. Vorgehensweise2.1 Lesartenannotation 2.2 Voruntersuchung2.3 Hauptuntersuchung3. Auswertung4. Fazit

Gliederung

Auswahl des Korpus

Kriterium: Größe

Möglichkeiten: Akademie-KorpusUni-Korpora

Beide wollten wir probieren, angefangen haben wir mit demAkademie-Korpus.

2. Vorgehensweise

Akademiekorpus

Kernkorpus: ca. 100 Millionen Textwörter, ausgewogen

Login-Korpus: Kernkorpus – rechtlich geschützte Texte +

frei erhältliche Zeitungs-CDs etc.

opportunistisch

2. Vorgehensweise

Abfrage: Schule, Kirche, Klinik

so viele Belege wie möglichletzte Dekade (1990 – 2000) des 20.Jh.

2. Vorgehensweise

Page 11: Kann man systematische Polysemie kontextuell (automatisch ...

11

Abfrage: Schule, Kirche, Klinik

so viele Belege wie möglichletzte Dekade (1990 – 2000) des 20.Jh.

Auswahl von Belegen mit genügend großem Kontext (>10 Wörter)

2. Vorgehensweise

Abfrage: Schule, Kirche, Klinik

so viele Belege wie möglichletzte Dekade (1990 – 2000) des 20.Jh.

Auswahl von Belegen mit genügend großem Kontext (>10 Wörter):

• Schule: 887• Kirche: 842• Klinik: 79• Theater: 501

2. Vorgehensweise

2. Vorgehensweise

1. Systematische Polysemie2. Vorgehensweise3. Auswertung4. Fazit

Gliederung

Annotation des Belegkorpus: Auswertung

Wir haben wieder die Inter-Annotator-Agreement-Maße

• Minimale Übereinstimmung• Maximale Übereinstimmung

angewendet und die zufällige Übereinstimmungherausgerechnet.

3. Auswertung

Inter-Annotator-Agreement

0,580,53

0,750,81

0,73

0,530,48

0,710,74

0,79 0,820,84

00,10,20,30,40,50,60,70,80,9

min max k(min) k(max)

SchuleKircheKlinik

3. Auswertung

Page 12: Kann man systematische Polysemie kontextuell (automatisch ...

12

Interpretation der Übereinstimmungswerte

Die gemessene Übereinstimmung ist diesmal näher an der Grenze zu guter Übereinstimmung

Warum ist die Übereinstimmung besser als in derVoruntersuchung? Möglichkeiten:

1. In der Voruntersuchung wurden zu wenig Daten betrachtet

2. Wir haben unbewusst anders annotiert.

3. Auswertung

Anzahl annotierter Lesarten im Durchschnitt

1,28

1,09

1

1,05

1,1

1,15

1,2

1,25

1,3

Voruntersuchung Hauptuntersuchung

3. Auswertung

Interpretation des Diagramms:

Zwei Möglichkeiten:

• Die Auswahl der Belege aus dem Mannheimer Korpus war nicht repräsentativ

• Jeder von uns hat seine subjektiven Definitionen der Bierwisch-Lesarten zwischen den Zeitpunkten der Annotationen konkretisiert

Für die zweite Möglichkeit spricht, dass dieÜbereinstimmung höher war.

Deshalb: Auswertung der Kontexte versuchen.

3. Auswertung

Erste Beobachtung

Die Lexeme tendieren zu unterschiedlichen Lesarten.

Kirche: GEBÄUDE, INSTITUTIONKlinik: INSTITUTION, GEBÄUDESchule: INSTITUTION, UNBEKANNT, GEBÄUDE,

PROZESS

3. Auswertung

3. Auswertung

Verteilung der Lesarten für Schule

7%

66%

7%

20%

GebäudeInstitutionProzessUnbekannt

3. Auswertung

Verteilung der Lesarten für Kirche

59%

41%GebäudeInstitution

Page 13: Kann man systematische Polysemie kontextuell (automatisch ...

13

3. Auswertung

Verteilung der Lesarten für Klinik

14%

86%

GebäudeInstitution

Auswertung der Kontexte

1. Belege auswählen: Nur mit höchster Übereinstimmung annotierte Belege

2. Kontextdefinition

3. Quantitatives Verfahren zur Auswertung des Kontexts

3. Auswertung

Kontextdefinition:

Unser Belegkorpus enthält keine linguistischenAnnotationen.

⇒ Also ist nur die Definition Fenster möglich.

Kontext wird definiert als Fenster von n Wortformen links und rechts um die untersuchte Wortform.

...dem Lettnereinbau in Andernach kurz nach 1200 und seiner Beteiligung an den Portalen derselben Kirche könnte er sich zwischen 1200 und 1210 in Maria Laach aufgehalten..Beispiel: Fenster +/- 2 Wörter

3. Auswertung

Quantitative Auswertung des Kontexts

Unsere Fragestellung ist: Was unterscheidet dieKontexte der verschiedenen Lesarten?

Wir wollen diese Fragestellung quantitativ beantworten.

⇒ Also suchen wir ein quantitatives Maß für die Unterschiede der Kontexte.

3. Auswertung

Kontextvektor

30renoviert ...

10groß....

25die...

3blau0Ausflug

Schule1 (Gebäude): Schule2 (Institution):

0renoviert ...

10groß....

25die...

0blau10Ausflug

3. Auswertung

Kontextvektor: Abstand

Ein Kontextvektor beschreibt einen Punkt in einem Raum

Also kann man zwischen zwei Kontextvektoren einenAbstand berechnen

Das mathematische Verfahren um einen solchen Abstand zu berechnen nennt man Abstandsmetrik

3. Auswertung

Page 14: Kann man systematische Polysemie kontextuell (automatisch ...

14

Abstandsmetriken:

Die Wahl der Abstandsmetrik für Kontextvektoren wirdvon zwei Faktoren bestimmt

• Jede Abstandsmetrik macht Annahmen über den Raum in dem die Punkte liegen deren Abstand berechnet werden soll

Die Annahmen über den Raum, führen zu Annahmen über die Art der Daten, die er beschreibt.Beispiel: statistische Verteilung der Daten.

• Die Abstandsmetrik muss auch definiert sein wenn einige Einträge des Kontextvektors 0 sind.

3. Auswertung

Auswahl der Abstandsmetrik:

Cosinus: Berechnet den Winkel zwischen zwei Vektoren

• Der Cosinus ist auch für 0 - Einträge definiert. • Aber: Geht von statistisch normalverteilten Daten

aus.

Die Abstandsmetrik sollte keine Annahmen über dieVerteilung der Daten machen.

3. Auswertung

Wahl der Abstandsmetrik:

L1 Norm: Berechnet wie hoch der Anteil verschiedenerWörter in den verglichenen Kontextvektoren ist.

Diese Metrik macht keine Annahmen über die Verteilungder Wörter die ein Kontextvektor beschreibtSie ist definiert für Kontextvektoren mit 0 Einträgen

⇒ Für unsere Zwecke geeignet

3. Auswertung

Ergebnisse gibt es (noch) nicht.

Nächste Schritte:

• Größe des Kontextfensters festlegen

• Kontextvektoren berechnen

• Werte vergleichen– Unterschiede zwischen den Lesarten?– Unterschiede zwischen den Lexemen?

3. Auswertung

Durchschnittlicher Abstand der Lesarten für Schule

0

0,10,2

0,30,4

0,50,6

-3 -2 -1 1 2 3

3. Auswertung

1. Systematische Polysemie2. Vorgehensweise3. Auswertung4. Fazit

Gliederung

Page 15: Kann man systematische Polysemie kontextuell (automatisch ...

15

Kann man systematische Polysemiekontextuell (automatisch) bestimmen?

• Geringe Übereinstimmung zwischen drei Annotatoren bei manueller Annotation

• Aber: Es gibt übereinstimmend annotierte Beispiele

⇒ Automatische Bestimmung nur mit großem Aufwand möglich, wenn nicht gar unmöglich.

4. Fazit

Was kann man besser machen?

4. Fazit

Was kann man besser machen?

• qualitative/syntaktische Kontextanalyse

4. Fazit

Was kann man besser machen?

• qualitative/syntaktische Kontextanalyse• mehr Belege

4. Fazit

Was kann man besser machen?

• qualitative/syntaktische Kontextanalyse• mehr Belege• Belege besser auswählen

4. Fazit

Was kann man besser machen?

• qualitative/syntaktische Kontextanalyse• mehr Belege• Belege besser auswählen • Kollokationen systematisch aussortieren

4. Fazit

Page 16: Kann man systematische Polysemie kontextuell (automatisch ...

16

Was kann man besser machen?

• qualitative/syntaktische Kontextanalyse• mehr Belege• Belege besser auswählen • Kollokationen systematisch aussortieren• idiomatisierte Wendungen systematisch aussortieren

4. Fazit

• M. Bierwisch, Semantische und konzeptuelle Repräsentation lexikalischer Einheiten, in: R. Ruzicka, W. Motsch (Hrsg.), Untersuchungen zur Semantik, Berlin 1983, S. 61-101 (=Studia grammatica XXII)

• P. Bosch, Meanings and Contextual Concepts, in: M. Bierwisch & P. Bosch (Hrsg.): Semantic and Conceptual Knowledge. Papers from a jointworkshop of the Max Planck Arbeitsgruppe 'Strukturelle Grammatik' and theIBM Institute for Logic and Linguistics. (= Arbeitspapiere des Sonderforschungsbereichs 340, Vol. 71), Tübingen 1995.

• J. Carletta(1996), Assessing agreement on classification tasks: thekappastatistics. Computational Linguistics 22(2), 249-254

• J. Cohen(1960), A coefficient of agreement for nominal scales. Educationaland Psychological Measurement, 20, 37-46

Literatur

• J. Dölling, Flexible Interpretationen durch Sortenverschiebung, in: I. Zimmermann & A. Strigin(Hrg.): Fügungspotenzen, Berlin 1992, S. 23-62(= Studia grammatica XXXIV).

• J. Dölling, Ontological Domains, Semantic Sorts, and Systematic Ambiguity, in: ders., Systematische Bedeutungsvariationen: Semantische Form und kontextuelle Interpretation, S. 71-92, Leipzig 2001

• J.Dölling: Sortale Selektionsbeschränkungen und systematische Bedeutungsvariationen, in: M. Schwarz (Hrsg.), Kognitive Semantik/ Cognitive Semantics. Ergebnisse, Probleme, Perspektiven, Tübingen 1994

• E. Lang, Semantische vs. konzeptuelle Struktur: Unterscheidung und Überschneidung, in: M. Schwarz (Hrsg.), Kognitive Semantik/CognitiveSemantics. Ergebnisse, Probleme, Perspektiven, Tübingen 1994

Literatur

• G.-A. Levow (1997): Corpus-based techniques for Word Sense Disambiguation, ftp://publications.ai.mit.edu/ai-publications/pdf/AIM-1637.pdf

• C. Manning, H. Schütze, Foundations of statistical natural languageprocessing, Cambridge, London 2000

• N. Ide/J. Véronis (1998): Word Sense Disambigutation: The State of the Art, http://www.up.univ-mrs.fr/~veronis/pdf/1998wsd.pdf

• J. Véronis(1998), A study of polysemy judgements and inter-annotatoragreement, http://www.up.univ-mrs.fr/~veronis/pdf/1998senseval.pdf

• J. Véronis(2001), Does sense-tagging make sense?, http://www.up.univ-mrs.fr/~veronis/pdf/2001-lancaster-sense.pdf

• Verwendetes Korpus: www.dwdscorpus.de

Literatur