Kann man systematische Polysemie kontextuell (automatisch ...
Click here to load reader
Transcript of Kann man systematische Polysemie kontextuell (automatisch ...
![Page 1: Kann man systematische Polysemie kontextuell (automatisch ...](https://reader038.fdokument.com/reader038/viewer/2022100805/589d8f901a28abb84a8bb795/html5/thumbnails/1.jpg)
1
Kann man systematische Polysemie kontextuell (automatisch) bestimmen?
Jana DrescherEmil KroymannAnne Urbschat
Arbeitsgruppe Miniprojekt 1: Lexikalische Semantik
1. Systematische Polysemie2. Vorgehensweise3. Auswertung4. Fazit
Gliederung
1. Systematische Polysemie2. Vorgehensweise3. Auswertung4. Fazit
Gliederung
Homonymie
Lexem hat mindestens zwei Bedeutungen, zwischendenen kein Zusammenhang feststellbar ist.
Es muss davon ausgegangen werden, dass es sich ummehrere Lexeme gleicher Ausdrucksform und unterschiedlicher Herkunft handelt.
(1) Die Bank hat eine Lehne.(2) Die Bank hat geschlossen.
1. Systematische Polysemie
Metonymie
Ersatz eine Ausdrucks durch eine sachlich verwandte Bezeichnung:
(3) Peter ist ein kluger Kopf.(4) Hans hört gerne Mozart.(5) Rostock darf sich nicht wiederholen.
1. Systematische Polysemie
Metonymie
Ersatz eine Ausdrucks durch eine sachlich verwandte Bezeichnung:
(3) Peter ist ein kluger Kopf. > Teil für Ganzes(4) Hans hört gerne Mozart. > Produzent für Produkt(5) Rostock darf sich nicht wiederholen. > Ort für Ereignis
1. Systematische Polysemie
![Page 2: Kann man systematische Polysemie kontextuell (automatisch ...](https://reader038.fdokument.com/reader038/viewer/2022100805/589d8f901a28abb84a8bb795/html5/thumbnails/2.jpg)
2
Polysemie
Lexem hat mindestens zwei Bedeutungen, bei denen sich Gemeinsamkeiten feststellen lassen
Keine der Bedeutungsvarianten ist als abgeleitet gegenüber einer anderen anzusehen
(6) Die Bank hat eine neue Direktorin.(7) Die Bank hat drei Etagen.
1. Systematische Polysemie
Systematische Polysemie gilt stets für eine Klasse von Ausdrücken:
(1) Schule, Theater, Kirche, Universität, Museum, Parlament, Bank, Akademie, Klinik, Gefängnis
(2) Buch, Roman, Novelle, Vorwort, Brief, Flugblatt, Statut, Zeitung, Stadtplan, Grundriss
(3) Sonate, Symphonie, Ouvertüre, Oper, Drama, Akt, Lied, Szene, Schlager, Oratorium, Duett
1. Systematische Polysemie
systematische Polysemie gilt stets für eine Klasse von Ausdrücken:
(1) Schule, Theater, Kirche, Universität, Museum, Parlament, Bank, Akademie, Klinik, Gefängnis
(2) Buch, Roman, Novelle, Vorwort, Brief, Flugblatt, Statut, Zeitung, Stadtplan, Grundriss
(3) Sonate, Symphonie, Ouvertüre, Oper, Drama, Akt, Lied, Szene, Schlager, Oratorium, Duett
1. Systematische Polysemie
Bedeutungsvarianten für Klasse (1):
Die Schule…
...wurde gerade rekonstruiert.
...muss sparen.
...beginnt um 8.
1. Systematische Polysemie
Bedeutungsvarianten für Klasse (1):
Die Schule…
...wurde gerade rekonstruiert. = GEBÄUDE
...muss sparen. = INSTITUTION
...beginnt um 8. = PROZESS
1. Systematische Polysemie
Frage
Ist die semantische Repräsentation lexikalischerEinheiten die (im wesentlichen) vollständigeSpezifizierung ihrer primären (wörtlichen) Bedeutung?
1. Systematische Polysemie
![Page 3: Kann man systematische Polysemie kontextuell (automatisch ...](https://reader038.fdokument.com/reader038/viewer/2022100805/589d8f901a28abb84a8bb795/html5/thumbnails/3.jpg)
3
Zwei-Ebenen-Semantik
Repräsentation der Bedeutung einer Äußerung erfolgt auf zwei Ebenen:
Semantische Form
Konzeptuelle Struktur
1. Systematische Polysemie (Bierwisch 1983)
Zwei-Ebenen-Semantik
Semantische Form/Struktur:
Teil des Kenntnissystems der Sprache
Repräsentiert die rein sprachlich determinierte Bedeutung einer Äußerung
Enthält lediglich ein Gerüst an Informationen
Bedarf im Verstehensprozess bestimmter Ergänzungen durch Rückgriff auf enzyklopädisches und anderes Wissen
1. Systematische Polysemie (Bierwisch 1983)
Zwei-Ebenen-Semantik
Konzeptuelle Struktur
Gedankliche Einheiten und Operationen
repräsentiert die kontextuell spezifizierte Bedeutung einer Äußerung
Teil des für die Konzeptualisierung der Umwelterfahrung zuständigen Systems
1. Systematische Polysemie (Bierwisch 1983)
Zwei-Ebenen-Semantik
Die semantische Interpretation eines Ausdrucks A derSprache L im Kontext ct ist die Abbildung seinersemantischen Form (SF) auf die Ebene der konzeptuellen Struktur (CS), so daß SF(A) im Kontextct den Wert m erhält:
SF(A,ct) = m
1. Systematische Polysemie (Bierwisch 1983)
Zwei-Ebenen-Semantik
Antwort
Die semantische Repräsentation lexikalischerEinheiten ist die Invariante der verschiedenenkontextbedingten Varianten, die erst durch Fixierungfreier Parameter in jeweils bestimmte Bedeutungen übergeht.
1. Systematische Polysemie (Bierwisch 1983) 1. Systematische Polysemie (Bierwisch 1983)
Zwei-Ebenen-Semantik
Fixierung freier Parameter:
Kontext
Durch die Determination des Kontextes auf der konzeptuellen Ebene erfolgt die Determination der Äußerungsbedeutung.
![Page 4: Kann man systematische Polysemie kontextuell (automatisch ...](https://reader038.fdokument.com/reader038/viewer/2022100805/589d8f901a28abb84a8bb795/html5/thumbnails/4.jpg)
4
Zwei-Ebenen-Semantik
Lexikoneinträge sind unterspezifiziert und erhalten über kognitive Prozesse (konzeptionelle Verschiebung) ihre jeweilige Äußerungsbedeutung in Abhängigkeit vom Kontext.
1. Systematische Polysemie (Bierwisch 1983)
Bedeutungsvarianten für Klasse (1):
Die Schule…
...wurde gerade rekonstruiert. = GEBÄUDE(SEM(x))
...muss sparen. = INSTITUTION(SEM(x))
...beginnt um 8. = PROZESS(SEM(x))
1. Systematische Polysemie (Bierwisch 1983)
Bedeutungsvarianten für Klasse (1):
Die Schule…
...wurde gerade rekonstruiert. = GEBÄUDE(SEM(x))
...muss sparen. = INSTITUTION(SEM(x))
...beginnt um 8. = PROZESS(SEM(x))
SEM(Schule) = LEHREN UND LERNEN
1. Systematische Polysemie (Bierwisch 1983)
Bedeutungsvarianten für Klasse (1):
Die Schule/das Theater/die Kirche…
...wurde gerade rekonstruiert. = GEBÄUDE(SEM(x))
...muss sparen. = INSTITUTION(SEM(x))
...beginnt um 8. = PROZESS(SEM(x))
SEM(Schule) = LEHREN UND LERNENSEM(Theater) = AUFFÜHREN UND ANSEHENSEM(Kirche) = PREDIGEN UND ZUHÖREN
1. Systematische Polysemie (Bierwisch 1983)
Schule = INSTITUTION (SEM(x))Theater = INSTITUTION (SEM(x))Kirche = INSTITUTION (SEM(x))
Schule = GEBÄUDE (SEM(x))Theater = GEBÄUDE (SEM(x))Kirche = GEBÄUDE (SEM(x))
Schule = PROZESS (SEM(x))Theater = PROZESS (SEM(x))Kirche = PROZESS (SEM(x))
1. Systematische Polysemie (Bierwisch 1983)
Bedeutungsvarianten für Klasse (1):
Bank = INSTITUTION (SEM(x))Klinik = INSTITUTION (SEM(x))Parlament = INSTITUTION (SEM(x))
Bank = GEBÄUDE (SEM(x))Klinik = GEBÄUDE (SEM(x))Parlament = GEBÄUDE (SEM(x))
Bank = PROZESS (SEM(x))Klinik = PROZESS (SEM(x))Parlament = PROZESS (SEM(x))
1. Systematische Polysemie (Bierwisch 1983)
Bedeutungsvarianten für Klasse (1):
![Page 5: Kann man systematische Polysemie kontextuell (automatisch ...](https://reader038.fdokument.com/reader038/viewer/2022100805/589d8f901a28abb84a8bb795/html5/thumbnails/5.jpg)
5
Die Schule wird renoviert und macht einen Ausflug.
1. Systematische Polysemie (Bierwisch 1983)
Möglichkeit: Chomskys Selektionsrestriktionen
1. Systematische Polysemie
Möglichkeit: Chomskys Selektionsrestriktionen
Aber:
LexemungebundenProduktivität der Klasse
1. Systematische Polysemie
Semantische Sorten und sortale Restriktionen
Ausgangspunkt:
Feststellung, dass sprachliche Ausdrücke in bestimmte semantische Sorten unterschieden werden können und zwar in Abhängigkeit davon, auf welche Sorten von Entitäten sich die Ausdrücke jeweils beziehenDie Einteilung in semantische Sorten ist als sprachliches Gegenstück zu einer im kognitiven Modell der Welt (im konzeptuellen System) vorgenommenen kategoriellen Gliederung zu verstehen
1. Systematische Polysemie
Aufgrund dieser Analyse menschlichen Wissens (deskonzeptuelle Systems) Annahme einer
Ontologie:
Beinhaltet Grundinventar an begrifflichen Entitäten
Wird strukturiert durch Sortenrestriktionen (beziehen sich auf begriffliche Wohlgeformtheit)
1. Systematische Polysemie
Ontologische Sortenstruktur (nach Dölling 1995):
2 Domänen: Arten, ObjekteZu jeder Domäne: 6 Klassen von NominaÜber die Nomina-Klassen variierend: Singularindividuenund Pluralindividuen
Im mentalen Lexikon vermerkt:
Sortenbeschränkungen für Prädikate(z.B. rekonstruieren verlangt ein Argument der Sorte Dingobjekt, sparen verlangt ein Argument der Sorte Soziales Objekt)
1. Systematische Polysemie (Dölling 1995)
![Page 6: Kann man systematische Polysemie kontextuell (automatisch ...](https://reader038.fdokument.com/reader038/viewer/2022100805/589d8f901a28abb84a8bb795/html5/thumbnails/6.jpg)
6
1. Systematische Polysemie (Bierwisch 1983)
Äußerungsbedeutung wird determiniert durchSortenrestriktion des Prädikats
Mit einer geeigneten Ontologie und Kenntnissen der Sortenbeschränkungen der Prädikate müssten dieLesarten gut bestimmbar sein.
1. Systematische Polysemie (Bierwisch 1983)
1. Systematische Polysemie2. Vorgehensweise2.1 Lesartenannotation2.2 Voruntersuchung2.3 Hauptuntersuchung3. Auswertung4. Fazit
Gliederung
• Aus unseren theoretischen Vorüberlegungen schliessenwir, daß sich Lesarten durch den Kontext bestimmen lassen.
• Daher wollen wir im weiteren eine Untersuchung des Kontextes vornehmen.
• Für eine solche Untersuchung ist es notwendig, die polysemen Token zu annotieren (zu taggen).
Lesartenannotation
2. Vorgehensweise
Lesartenannotation / sense tagging heißt:
Man ordnet einem Token ein Tag zu. Dieses Tag gibt die Lesart des Tokens an.
Dem Token Schule wird also je nach Kontext die Lesart INSTITUTION, GEBÄUDE oder PROZEß zugeordnet.
2. Vorgehensweise
Beispiel: Kindergarten
• Außerdem verdanken über 50 Kindergarten/INSTITUTION dem Verein ihre Entstehung.
• Kinder einen neuen, VII. Kindergarten/GEBÄUDE zu errichten.
2. Vorgehensweise
![Page 7: Kann man systematische Polysemie kontextuell (automatisch ...](https://reader038.fdokument.com/reader038/viewer/2022100805/589d8f901a28abb84a8bb795/html5/thumbnails/7.jpg)
7
Beispiel: Oper
• Wird Ihre Oper/WERK bereits geprobt?
• Von der Frankfurter Oper/INSTITUTION. Unser Korrespondent schreibt uns aus
2. Vorgehensweise
1. Systematische Polysemie2. Vorgehensweise2.1 Lesartenannotation 2.2 Voruntersuchung2.3 Hauptuntersuchung3. Auswertung4. Fazit
Gliederung
Voruntersuchung
1. Auswahl von 100 Vorkommen von Schule aus dem Mannheimer Korpus 1
2. Vorgehensweise
Beim ersten Anschauen der Belege habenwir festgestellt:
Oft treffen mehrere Lesarten zu.
• Das war wahrscheinlich der Augenblick, in dem ich die Schule so sehr gehaßt habe wie nie zuvor.
• Ich glaube, ich sagte schon, daß sie diese ganze Schule sehr wichtig nahmen.
Manche Kontexte lassen mehrere Lesarten zu.
2. Vorgehensweise
Oft trifft keine der angenommenen Lesarten zu:
[...] seinen Vorsatz zu beherzigen, daß „Geschichte nur unsere Schule“ sein könne [...]
Manche Kontexte lassen keinen Schluß auf eine Lesart zu.
2. Vorgehensweise
Kollokationen, Idiome
• Das Beispiel machte Schule.
• Sozialisten alter Schule sagen nach wie vor ...
• Neue Frauen, alte Schule – wie Männer mit Charme das schaffen.
• In diesen Ländern spielte die Tradition der „Wiener Schule“ vielfach ein große Rolle.
2. Vorgehensweise
![Page 8: Kann man systematische Polysemie kontextuell (automatisch ...](https://reader038.fdokument.com/reader038/viewer/2022100805/589d8f901a28abb84a8bb795/html5/thumbnails/8.jpg)
8
Vorkommen mit idiomatischer, kollokativer Verwendungoder Verwendung in Eigennamen müssen eigentlich ausder Analyse bzw. der Auswertung herausgenommenwerden.
Grund:Solche Wendungen haben als Ganzes eine Bedeutung.
Leider haben wir solche Fälle nicht systematischaussortiert.
2. Vorgehensweise
Voruntersuchung
2. Annotation dieser 100 Vorkommen durch alle drei Gruppenmitglieder nach Bierwisch mit den Lesarten:
• INSTITUTION• GEBÄUDE• PROZESS• Zusätzlich: UNBEKANNT für Fälle in denen
der Annotator keine von den drei Lesarten für anwendbar hält
Es konnten für einen Beleg auch mehrereLesarten annotiert werden
2. Vorgehensweise
Unser Beispiel: Schule
%%1%% 17 22579: sagte er , "was war das mit der Schule ?
%%1%%%%3%% 18 22604: die Sache hat nichts mit Schule zu tun
2. Vorgehensweise
Voruntersuchung
3. Vergleich der Annotationen
Orientierung an den übereinstimmenden Belegen bei
der eigentlichen Annotation
2. Vorgehensweise
Auswertung der Voruntersuchung
Problem: Scheinbar geringe Übereinstimmung derversch. Annotationen.
Übereinstimmung ist aber wichtig: Indikator für die Anwendbarkeit von Bierwischs Lesarten
Wie kann man Übereinstimmung messen?
2. Vorgehensweise
Inter-Annotator Agreement
Inter-Annotator Agreement: Übereinstimmung zwischenunterschiedlichen menschlichen Annotatoren
Jean Véronis: a study of polysemy judgements and inter-annotator agreement.
Methode zur Einschätzung der Übereinstimmung vonAnnotatoren.
2. Vorgehensweise
![Page 9: Kann man systematische Polysemie kontextuell (automatisch ...](https://reader038.fdokument.com/reader038/viewer/2022100805/589d8f901a28abb84a8bb795/html5/thumbnails/9.jpg)
9
Maße für Inter-Annotator Agreement
Véronis schlägt versch. Maße vor:
Volle Übereinstimmung: Minimal: Annotatoren stimmen bei allen annotierten Lesarten übereinMaximal: Annotatoren stimmen bei einer annotierten Lesart überein
Paarweise Übereinstimmung:MinimalMaximalGewichtet mit Dice-Koeffizient
2. Vorgehensweise
Zufällige Übereinstimmung
Wenn man die Annotatoren die Lesarten zufälligauswählen ließe,...
...ergäbe sich auch ein gewisser Anteil an übereinstimmenden Annotationen,...... der die Übereinstimmungsmaße verfälscht
Deshalb muss man die erwartete zufälligeÜbereinstimmung herausrechnen.Dazu dient ...
2. Vorgehensweise
Die κ-Statistik
Das Maß für die Übereinstimmung muss gegenüberzufälliger Übereinstimmung abgegrenzt werden.
Dazu dient die sog. κ-Statistik(siehe Cohen 1960, auch Carletta 1996)
Pzufällig hängt von den tatsächlich auftretenden Lesartenund der Anzahl der Annotatoren ab
zufällig
zufälligbeobachtet
PPP
−
−=
1κ
2. Vorgehensweise
Interpretation der κ-Statistik
κ nimmt Werte im zwischen 0 und 1 an
• Bereich κ > 0,8: gute Übereinstimmung
• Bereich 0,67 < κ < 0,8: tendenzielle Aussagen möglich
• Weniger: keine Aussagen möglich
2. Vorgehensweise
Inter-Annotator-Agreement: Anwendung
Am Beispiel Schule aus dem Mannheimer Korpus
• Wir haben 100 Belege annotiert
• Davon 30 Belege in für alle Lesarten übereinstimmend
• Also Minimale Übereinstimmung = 30 / 100 = 0,3
2. Vorgehensweise
κ-Statistik: Anwendung
Beispiel für Minimale Übereinstimmung (vorige Seite):
• Minimale Übereinstimmung beträgt 0,3
• Erwartete zufällige Übereinstimmung wird errechnet aus den Anteilen der von uns vergebenen Lesartenkombinationen: Sie beträgt 0,11
22,011,0111,03,0(min) ≈
−−
=κ
2. Vorgehensweise
![Page 10: Kann man systematische Polysemie kontextuell (automatisch ...](https://reader038.fdokument.com/reader038/viewer/2022100805/589d8f901a28abb84a8bb795/html5/thumbnails/10.jpg)
10
Übereinstimmung in der Voruntersuchung
0,30
0,50
0,22
0,44
00,10,20,30,40,50,6
min max k(min) k(max)
2. Vorgehensweise
Die Auswertung der Voruntersuchung zeigt:
Sehr geringe Übereinstimmung unserer Annotationen
⇒ Keine Orientierung für weitere Annotationen⇒ Wir sollten andere Lexeme betrachten⇒ Wir müssen mehr Belege sammeln
2. Vorgehensweise
1. Systematische Polysemie2. Vorgehensweise2.1 Lesartenannotation 2.2 Voruntersuchung2.3 Hauptuntersuchung3. Auswertung4. Fazit
Gliederung
Auswahl des Korpus
Kriterium: Größe
Möglichkeiten: Akademie-KorpusUni-Korpora
Beide wollten wir probieren, angefangen haben wir mit demAkademie-Korpus.
2. Vorgehensweise
Akademiekorpus
Kernkorpus: ca. 100 Millionen Textwörter, ausgewogen
Login-Korpus: Kernkorpus – rechtlich geschützte Texte +
frei erhältliche Zeitungs-CDs etc.
opportunistisch
2. Vorgehensweise
Abfrage: Schule, Kirche, Klinik
so viele Belege wie möglichletzte Dekade (1990 – 2000) des 20.Jh.
2. Vorgehensweise
![Page 11: Kann man systematische Polysemie kontextuell (automatisch ...](https://reader038.fdokument.com/reader038/viewer/2022100805/589d8f901a28abb84a8bb795/html5/thumbnails/11.jpg)
11
Abfrage: Schule, Kirche, Klinik
so viele Belege wie möglichletzte Dekade (1990 – 2000) des 20.Jh.
Auswahl von Belegen mit genügend großem Kontext (>10 Wörter)
2. Vorgehensweise
Abfrage: Schule, Kirche, Klinik
so viele Belege wie möglichletzte Dekade (1990 – 2000) des 20.Jh.
Auswahl von Belegen mit genügend großem Kontext (>10 Wörter):
• Schule: 887• Kirche: 842• Klinik: 79• Theater: 501
2. Vorgehensweise
2. Vorgehensweise
1. Systematische Polysemie2. Vorgehensweise3. Auswertung4. Fazit
Gliederung
Annotation des Belegkorpus: Auswertung
Wir haben wieder die Inter-Annotator-Agreement-Maße
• Minimale Übereinstimmung• Maximale Übereinstimmung
angewendet und die zufällige Übereinstimmungherausgerechnet.
3. Auswertung
Inter-Annotator-Agreement
0,580,53
0,750,81
0,73
0,530,48
0,710,74
0,79 0,820,84
00,10,20,30,40,50,60,70,80,9
min max k(min) k(max)
SchuleKircheKlinik
3. Auswertung
![Page 12: Kann man systematische Polysemie kontextuell (automatisch ...](https://reader038.fdokument.com/reader038/viewer/2022100805/589d8f901a28abb84a8bb795/html5/thumbnails/12.jpg)
12
Interpretation der Übereinstimmungswerte
Die gemessene Übereinstimmung ist diesmal näher an der Grenze zu guter Übereinstimmung
Warum ist die Übereinstimmung besser als in derVoruntersuchung? Möglichkeiten:
1. In der Voruntersuchung wurden zu wenig Daten betrachtet
2. Wir haben unbewusst anders annotiert.
3. Auswertung
Anzahl annotierter Lesarten im Durchschnitt
1,28
1,09
1
1,05
1,1
1,15
1,2
1,25
1,3
Voruntersuchung Hauptuntersuchung
3. Auswertung
Interpretation des Diagramms:
Zwei Möglichkeiten:
• Die Auswahl der Belege aus dem Mannheimer Korpus war nicht repräsentativ
• Jeder von uns hat seine subjektiven Definitionen der Bierwisch-Lesarten zwischen den Zeitpunkten der Annotationen konkretisiert
Für die zweite Möglichkeit spricht, dass dieÜbereinstimmung höher war.
Deshalb: Auswertung der Kontexte versuchen.
3. Auswertung
Erste Beobachtung
Die Lexeme tendieren zu unterschiedlichen Lesarten.
Kirche: GEBÄUDE, INSTITUTIONKlinik: INSTITUTION, GEBÄUDESchule: INSTITUTION, UNBEKANNT, GEBÄUDE,
PROZESS
3. Auswertung
3. Auswertung
Verteilung der Lesarten für Schule
7%
66%
7%
20%
GebäudeInstitutionProzessUnbekannt
3. Auswertung
Verteilung der Lesarten für Kirche
59%
41%GebäudeInstitution
![Page 13: Kann man systematische Polysemie kontextuell (automatisch ...](https://reader038.fdokument.com/reader038/viewer/2022100805/589d8f901a28abb84a8bb795/html5/thumbnails/13.jpg)
13
3. Auswertung
Verteilung der Lesarten für Klinik
14%
86%
GebäudeInstitution
Auswertung der Kontexte
1. Belege auswählen: Nur mit höchster Übereinstimmung annotierte Belege
2. Kontextdefinition
3. Quantitatives Verfahren zur Auswertung des Kontexts
3. Auswertung
Kontextdefinition:
Unser Belegkorpus enthält keine linguistischenAnnotationen.
⇒ Also ist nur die Definition Fenster möglich.
Kontext wird definiert als Fenster von n Wortformen links und rechts um die untersuchte Wortform.
...dem Lettnereinbau in Andernach kurz nach 1200 und seiner Beteiligung an den Portalen derselben Kirche könnte er sich zwischen 1200 und 1210 in Maria Laach aufgehalten..Beispiel: Fenster +/- 2 Wörter
3. Auswertung
Quantitative Auswertung des Kontexts
Unsere Fragestellung ist: Was unterscheidet dieKontexte der verschiedenen Lesarten?
Wir wollen diese Fragestellung quantitativ beantworten.
⇒ Also suchen wir ein quantitatives Maß für die Unterschiede der Kontexte.
3. Auswertung
Kontextvektor
30renoviert ...
10groß....
25die...
3blau0Ausflug
Schule1 (Gebäude): Schule2 (Institution):
0renoviert ...
10groß....
25die...
0blau10Ausflug
3. Auswertung
Kontextvektor: Abstand
Ein Kontextvektor beschreibt einen Punkt in einem Raum
Also kann man zwischen zwei Kontextvektoren einenAbstand berechnen
Das mathematische Verfahren um einen solchen Abstand zu berechnen nennt man Abstandsmetrik
3. Auswertung
![Page 14: Kann man systematische Polysemie kontextuell (automatisch ...](https://reader038.fdokument.com/reader038/viewer/2022100805/589d8f901a28abb84a8bb795/html5/thumbnails/14.jpg)
14
Abstandsmetriken:
Die Wahl der Abstandsmetrik für Kontextvektoren wirdvon zwei Faktoren bestimmt
• Jede Abstandsmetrik macht Annahmen über den Raum in dem die Punkte liegen deren Abstand berechnet werden soll
Die Annahmen über den Raum, führen zu Annahmen über die Art der Daten, die er beschreibt.Beispiel: statistische Verteilung der Daten.
• Die Abstandsmetrik muss auch definiert sein wenn einige Einträge des Kontextvektors 0 sind.
3. Auswertung
Auswahl der Abstandsmetrik:
Cosinus: Berechnet den Winkel zwischen zwei Vektoren
• Der Cosinus ist auch für 0 - Einträge definiert. • Aber: Geht von statistisch normalverteilten Daten
aus.
Die Abstandsmetrik sollte keine Annahmen über dieVerteilung der Daten machen.
3. Auswertung
Wahl der Abstandsmetrik:
L1 Norm: Berechnet wie hoch der Anteil verschiedenerWörter in den verglichenen Kontextvektoren ist.
Diese Metrik macht keine Annahmen über die Verteilungder Wörter die ein Kontextvektor beschreibtSie ist definiert für Kontextvektoren mit 0 Einträgen
⇒ Für unsere Zwecke geeignet
3. Auswertung
Ergebnisse gibt es (noch) nicht.
Nächste Schritte:
• Größe des Kontextfensters festlegen
• Kontextvektoren berechnen
• Werte vergleichen– Unterschiede zwischen den Lesarten?– Unterschiede zwischen den Lexemen?
3. Auswertung
Durchschnittlicher Abstand der Lesarten für Schule
0
0,10,2
0,30,4
0,50,6
-3 -2 -1 1 2 3
3. Auswertung
1. Systematische Polysemie2. Vorgehensweise3. Auswertung4. Fazit
Gliederung
![Page 15: Kann man systematische Polysemie kontextuell (automatisch ...](https://reader038.fdokument.com/reader038/viewer/2022100805/589d8f901a28abb84a8bb795/html5/thumbnails/15.jpg)
15
Kann man systematische Polysemiekontextuell (automatisch) bestimmen?
• Geringe Übereinstimmung zwischen drei Annotatoren bei manueller Annotation
• Aber: Es gibt übereinstimmend annotierte Beispiele
⇒ Automatische Bestimmung nur mit großem Aufwand möglich, wenn nicht gar unmöglich.
4. Fazit
Was kann man besser machen?
4. Fazit
Was kann man besser machen?
• qualitative/syntaktische Kontextanalyse
4. Fazit
Was kann man besser machen?
• qualitative/syntaktische Kontextanalyse• mehr Belege
4. Fazit
Was kann man besser machen?
• qualitative/syntaktische Kontextanalyse• mehr Belege• Belege besser auswählen
4. Fazit
Was kann man besser machen?
• qualitative/syntaktische Kontextanalyse• mehr Belege• Belege besser auswählen • Kollokationen systematisch aussortieren
4. Fazit
![Page 16: Kann man systematische Polysemie kontextuell (automatisch ...](https://reader038.fdokument.com/reader038/viewer/2022100805/589d8f901a28abb84a8bb795/html5/thumbnails/16.jpg)
16
Was kann man besser machen?
• qualitative/syntaktische Kontextanalyse• mehr Belege• Belege besser auswählen • Kollokationen systematisch aussortieren• idiomatisierte Wendungen systematisch aussortieren
4. Fazit
• M. Bierwisch, Semantische und konzeptuelle Repräsentation lexikalischer Einheiten, in: R. Ruzicka, W. Motsch (Hrsg.), Untersuchungen zur Semantik, Berlin 1983, S. 61-101 (=Studia grammatica XXII)
• P. Bosch, Meanings and Contextual Concepts, in: M. Bierwisch & P. Bosch (Hrsg.): Semantic and Conceptual Knowledge. Papers from a jointworkshop of the Max Planck Arbeitsgruppe 'Strukturelle Grammatik' and theIBM Institute for Logic and Linguistics. (= Arbeitspapiere des Sonderforschungsbereichs 340, Vol. 71), Tübingen 1995.
• J. Carletta(1996), Assessing agreement on classification tasks: thekappastatistics. Computational Linguistics 22(2), 249-254
• J. Cohen(1960), A coefficient of agreement for nominal scales. Educationaland Psychological Measurement, 20, 37-46
Literatur
• J. Dölling, Flexible Interpretationen durch Sortenverschiebung, in: I. Zimmermann & A. Strigin(Hrg.): Fügungspotenzen, Berlin 1992, S. 23-62(= Studia grammatica XXXIV).
• J. Dölling, Ontological Domains, Semantic Sorts, and Systematic Ambiguity, in: ders., Systematische Bedeutungsvariationen: Semantische Form und kontextuelle Interpretation, S. 71-92, Leipzig 2001
• J.Dölling: Sortale Selektionsbeschränkungen und systematische Bedeutungsvariationen, in: M. Schwarz (Hrsg.), Kognitive Semantik/ Cognitive Semantics. Ergebnisse, Probleme, Perspektiven, Tübingen 1994
• E. Lang, Semantische vs. konzeptuelle Struktur: Unterscheidung und Überschneidung, in: M. Schwarz (Hrsg.), Kognitive Semantik/CognitiveSemantics. Ergebnisse, Probleme, Perspektiven, Tübingen 1994
Literatur
• G.-A. Levow (1997): Corpus-based techniques for Word Sense Disambiguation, ftp://publications.ai.mit.edu/ai-publications/pdf/AIM-1637.pdf
• C. Manning, H. Schütze, Foundations of statistical natural languageprocessing, Cambridge, London 2000
• N. Ide/J. Véronis (1998): Word Sense Disambigutation: The State of the Art, http://www.up.univ-mrs.fr/~veronis/pdf/1998wsd.pdf
• J. Véronis(1998), A study of polysemy judgements and inter-annotatoragreement, http://www.up.univ-mrs.fr/~veronis/pdf/1998senseval.pdf
• J. Véronis(2001), Does sense-tagging make sense?, http://www.up.univ-mrs.fr/~veronis/pdf/2001-lancaster-sense.pdf
• Verwendetes Korpus: www.dwdscorpus.de
Literatur