Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex...

73
Einführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20 Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität Referenz Zangenfeind: Semantik 1 / 80

Transcript of Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex...

Page 1: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Einführung in die ComputerlinguistikSemantik

Alex Fraser / Robert Zangenfeind

Center for Information and Language Processing

2019-11-20

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 1 / 80

Page 2: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Die Grundfassung dieses Foliensatzes wurde von Dr. AnnemarieFriedrich (unter Zuhilfenahme von Materialien von Prof. Dr.Manfred Pinkal und Prof. Dr. Vera Demberg) erstellt. Fehler undMängel sind ausschließlich meine Verantwortung.

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 2 / 80

Page 3: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Outline

1 Intro

2 Lexikalische Semantik

3 Textähnlichkeit

4 Logik

5 Zeit & Aspekt

6 Kompositionalität

7 Referenz

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 3 / 80

Page 4: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Der Begriff “Semantik”

griechisch sēmantikós = bezeichnend, zu: sēmaínein =bezeichnengriechisch sẽma = Zeichen, Merkmal

⇒ Lehre von der Bedeutung

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 5 / 80

Page 5: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Levels of Language

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 6 / 80

Page 6: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Kaffee machen

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 7 / 80

Page 7: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Motivation (1)

Machen Sie mirbitte

eine Tasse Kaffee!

Sprache/Text

VerarbeitungDarstellung

⇒Aktion

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 8 / 80

Page 8: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Motivation (2)

Machen Sie mirbitte

eine Tasse Kaffee!

Sprache/Text

VerarbeitungDarstellung

⇒Aktion

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 9 / 80

Page 9: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Verarbeitung/Darstellung,um Aktion einleiten zu können:Wie?

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 10 / 80

Page 10: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Konstituenten-Baum?

S

VP

NP

NP

N

Kaffee

N

Tasse

Det

eine

V

macht

NP

N

Barmann

Det

Der

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 11 / 80

Page 11: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Dependenz-Baum?

Der Barmann macht eine Tasse Kaffee

det nsubj

obj

det nmod

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 12 / 80

Page 12: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Konstituenz/Dependenz:⇒ nur Syntax.⇒ auch Semantik wird benötigt.

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 13 / 80

Page 13: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Semantikrepräsentation: WordNet

WordNet: coffee<noun.food>S: (n)coffee#1,java#2(a beverage consisting of an infusion of ground coffee beans)“he ordered a cup of coffee”[…]

https://wordnet.princeton.edu/

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 14 / 80

Page 14: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Semantikrepräsentation: Semantische Rollen

PropBankagree.01Arg0: AgreerArg1: PropositionEx: [Arg0 The goup] agreed [Arg1 it wouldn’t make an offer … ]

Palmer, M., Gildea, D., & Kingsbury, P. (2005). The proposition bank:An annotated corpus of semantic roles. Computational linguistics, 31(1),71–106.http://propbank.github.io

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 15 / 80

Page 15: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Semantikrepräsentation: FrameNet

Cooking_creationThis frame describes food and meal preparation. A Cook creates aProduced_food from (raw) Ingredients. The Heating_Instrumentand/or the Container may also be specified.Caitlin baked some cookies from the pre-packaged dough.

https://framenet.icsi.berkeley.edu/fndrupal

Page 16: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Semantikrepräsentation: Abstract MeaningRepresentations (AMR)

“Can you please make me a mug of coffee?”(m / make-01 :polite + :mode imperative:ARG0 (y / you):ARG1 (c / coffee:quant (v / volume-quantity :quant 1:unit (m / mug))):ARG3 (i / i))

http://amr.isi.edu

Example: Thanks to Tim O’Gorman.

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 17 / 80

Page 17: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Anforderung an Semantikrepräsentationen (1)

VerifizierbarkeitEs muss möglich sein, eine Aussage mit einem Zustand der Welt zuverbinden, sodass überprüft werden können, ob ein Satz wahr ist.

Das Flugzeug hat einen Propeller.⇓

Repräsentation: part-of(Propeller, Flugzeug)⇓

Kommt dies in der Wissensbasis (knowledge base) vor?

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 18 / 80

Page 18: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Anforderung an Semantikrepräsentationen (2)

Eindeutigkeit = Nicht ambigSprache ist ambig, aber eine eindeutige Semantikrepräsentation istwichtig.

Hans sah den Mann mit der Lupe.

Zum Beispiel hier: hält(Mann,Lupe)und nicht: hält(Hans,Lupe)

schwierige Entscheidung welche Repräsentation (automatisch)gewählt wird

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 19 / 80

Page 19: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Anforderung an Semantikrepräsentationen (3)

Kanonische FormAlle Sätze, die das Gleiche bedeuten, sollen gleich repräsentiertwerden.Gibt es im Restaurant Almaz vegane Speisen?Bietet Almaz auch veganes Essen an?Kann man bei Almaz vegan essen?

⇒ Egal, wie die Frage gestellt wird, es soll eine Repräsentation fürdie Datenbankabfrage geben.

Zum Beispiel: BietetAn(Almaz,VeganesEssen) → true/false?

⇒ Paraphrasen erkennen

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 20 / 80

Page 20: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Anforderung an Semantikrepräsentationen (4)

InferenzenAlle Dackel sind Hunde.Alle Hunde mögen Wurst.Fiffi ist ein Dackel.⇒ Fiffi mag Wurst. wahr oder falsch?

Es soll nicht nur das direkt Gesagte repräsentiert werden, sondernauch neue Aussagen / neues Wissen daraus abgeleitet werdenkönnen.

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 21 / 80

Page 21: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Anforderung an Semantikrepräsentationen (5)

Question AnsweringWer hat Dracula geschrieben?Antwort: Bram Stoker

https://www.youtube.com/watch?v=P18EdAKuC1USTART-System: http://start.csail.mit.edu/index.php

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 22 / 80

Page 22: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Wortbedeutungs-Relationen (1)

BeispielWort: Bank

Konzepte:

Homonym = ein Wort, steht für verschiedeneBegriffe/Konzepte

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 24 / 80

Page 23: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Wortbedeutungs-Relationen (2)

Weitere Relationen zwischen Konzepten ( ̸= zwischen Wörtern)

(1) Synonymie: zwei Begriffe mit derselbenBedeutung

(2) Hyperonymie: ein Begriff ist einOberbegriff eines anderen

(3) Hyponymie: ein Begriff ist einUnterbegriff eines anderen

(4) Homophonie: zwei Begriffe sindgleichlautend, haben aber unterschiedlicheBedeutung

(5) Meronymie: Teil-Ganzes-Relation(6) Holonymie: Umkehrung der Meronymie

VerschiedeneBeispiele:(a) Dach – Haus(b) Hand – Finger(c) Mensch –

Lebewesen(d) Leere – Lehre(e) Geige –

Violine(f) Kuchen –

Nusskuchen

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 25 / 80

Page 24: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

WordNet (1)

Große lexikalisch-semantische RessourceNetzwerk aus semantischen Relationen zwischen Konzepten;Hyponymie-Relation als KernKonzepte werden als Synsets repräsentiert: Mengen vonsynonymen Wörtern, die sich gegenseitig disambiguierenUmschreibungen (glosses) für alle Synsets + Beispielsätze

Synsets für car.nounS: (n) car, auto, automobile, machine, motorcar (a motorvehicle with four wheels; usually propelled by an internalcombustion engine), he needs a car to get to workS: (n) car, railcar, railway car, railroad car (a wheeled vehicleadapted to the rails of railroad), three cars had jumped therails...

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 26 / 80

Page 25: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

WordNet (2)

170.000 lexikalische Einträge (Wörter)120.000 SynsetsWordNet-Versionen für etwa 45 SprachenNutzung in vielen sprach- und informationstechnologischenAnwendungen, insbesondere als Grundlage für Inferenz

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 27 / 80

Page 26: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Word Sense Disambiguation (WSD)

Wortbedeutung im Kontext(1) Schwester Maria sprach ein Gebet.(2) Meine Schwester ärgert oft meinen kleinen Bruder.Woher weiß man, welche “Schwester” gemeint ist?

Methoden in der Computerlinguistik für WSDStatistische ModellierungAnnotation aller Zielwort-Instanzen im Trainingskorpus miteiner WortbedeutungAnnotationsschema: Wortbedeutungen aus einem Wörterbuch/ Thesaurus (Standard: WordNet-Synsets)

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 28 / 80

Page 27: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Word Sense Disambiguation: Trainingskorpus (1)

Bank #1: Bank #2:(1) Für diejenigen, denen Komfort wichtig ist, haben wir eine

Bank mit leicht schwingender Rückenlehne entwickelt. …(2) … Ich suche noch eine Bank für meinen Garten und sondiere

deshalb gerade Angebote. …(3) … Habe im März 2000 einen höheren Betrag bei einer Bank

angelegt. …(4) … Beim Test Anlageberatung der Banken löste kein Institut die

einfache Frage nach einer sicheren Anlage wirklich gut. …

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 29 / 80

Page 28: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Word Sense Disambiguation: Trainingskorpus (2)

Bank #1: Bank #2:(1) Für diejenigen, denen Komfort wichtig ist, haben wir eine Bank

[bank1] mit leicht schwingender Rückenlehne entwickelt. …(2) … Ich suche noch eine Bank [bank1] für meinen Garten und

sondiere deshalb gerade Angebote. …(3) … Habe im März 2000 einen höheren Betrag bei einer Bank

[bank2] angelegt. …(4) … Beim Test Anlageberatung der Banken [bank2] löste kein

Institut die einfache Frage nach einer sicheren Anlage wirklichgut. …

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 30 / 80

Page 29: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Word Sense Disambiguation: MerkmalsspezifikationKontext: Satz Beim Test Anlageberatung der

Banken [bank2] löste kein In-stitut die einfache Frage nacheiner sicheren Anlage wirklichgut.

Merkmale: Kontextwörter Anlageberatung, löste, sicherenAnlage, …

Merkmalsvektor: Eintragfür jedes Wort im Vokabular

Angebot: 0, Anlage: 1, Anlage-beratung: 1, Garten: 0, löste:1, Rückenlehne: 0, schwingend:0, sicheren: 1, …

⇓Maschinelles LernenAlgorithmus entscheidet, ob ein Vektor mehr wie derjenige fürbank1 oder der für bank2 aussieht.

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 31 / 80

Page 30: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

WSD: Lesk-Algorithmus (Lesk, 1986)

Given: (i) context of an ambiguous word(e.g., honey is yellow)Given: (ii) lexicon definitions of the senses of the ambiguouswordExample:(synset1) honey (a sweet yellow liquid produced by bees)(synset2) beloved, dear, dearest, honey, love (a belovedperson; used as terms of endearment)Count the overlap (number of common words) of eachdefinition with the sentence, e.g.,synset1: overlap of one word (yellow)synset2: overlap of zero wordsSelect the sense with the greatest overlap

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 32 / 80

Page 31: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

WSD: Pfad-basierte Algorithmen (WordNet-basiert)Ähnlichkeit zwischen zwei Konzepten ∝ Distanz im Graph

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 33 / 80

Page 32: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

WSD: Distributionelle Methoden

Wörter ( ̸= Konzepte) werden als Vektoren dargestelltDimensionen: Anzahl Wörter des VokabularsEinträge mit Vorkommenshäufigkeit von Kontextwörtern (evtl.lemmatisiert)Ähnlichkeit von Wörtern: Winkel zwischen den Vektoren (jekleiner der Winkel, desto ähnlicher)

schmusen essenKatze 35 10Hund 25 15Apfel 4 40… … …… … …… … …… … …

Hund

Katze

Apfel

schmusen

essenIntro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 34 / 80

Page 33: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Textähnlichkeitsmaß: Jaccard (Vorbetrachtung)

Grundidee des Lesk-Algorithmus: diejenige Definition einesLexems auswählen, die zum Kontext des Lexems die größteÄhnlichkeit hat.Maß für Ähnlichkeit: word overlapNachteile von word overlap?

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 36 / 80

Page 34: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Jaccard coefficient

A commonly used measure of overlap of two setsLet A and B be two setsJaccard coefficient:

jaccard(A,B) = |A ∩ B||A ∪ B|

(A ̸= ∅ or B ̸= ∅)jaccard(A,A) = 1jaccard(A,B) = 0 if A ∩ B = 0A and B don’t have to be the same size.Always assigns a number between 0 and 1.

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 37 / 80

Page 35: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Jaccard coefficient: Example

What is the query-document match score that the Jaccardcoefficient computes for:

Query: ides of MarchDocument: Caesar died in March

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 38 / 80

Page 36: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Nachteile von Jaccard?

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 39 / 80

Page 37: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Warum Logik?

1 Theorie / Formalisierung der Semantik:Bedeutung = Wahrheitsbedingungen

2 Inferenz / Logisches Schließen:Aus bestehendem Wissen/Beobachtungenneues Wissen ableiten.Beispiel question answering:Liegt Hamburg in Europa?Vielleicht sagt das keine Quelle (Text, Datenbank) direkt.Aber es folgt aus Hamburg liegt in Deutschland undDeutschland liegt in Europa

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 41 / 80

Page 38: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Wahrheitsbedingungen-Semantik

Bedeutung = WahrheitsbedingungenBedeutung eines Satzes wird mit seinenWahrheitsbedingungen identifiziert,d.h. mit Bedingungen, die die Welt erfüllen muss.Sätze sind synonym, wenn sie dieselbenWahrheitsbedingungen haben.Einen Satz verstehen, heißt, angeben können, ob er in einergegebenen Situation wahr oder falsch ist.Ursprung:

Gottlob FregeLudwig WittgensteinMathematische Logik: Alfred Tarski, Rudolf Carnap

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 42 / 80

Page 39: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Aussagenlogik (AL)

Aussagesatz (Proposition) → Wahrheitswert

BeispieleSchnee ist weiß. = T (true / wahr)Ein Junggeselle ist verheiratet. = F (false / falsch)

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 43 / 80

Page 40: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Syntax der Aussagenlogik

Satzbuchstaben: Ausdrücke, die ganzen Sätzen entsprechenBeispiele: p, q, r5 Satzoperatoren (Junktoren, logische Zeichen von AL):

Negation (nicht) ¬Konjunktion (und) ∧Disjunktion (nicht ausschließendes oder) ∨Implikation (wenn, dann) →Äquivalenz (genau dann, wenn) ↔

Hilfszeichen: ( )A ist ein Satz von AL, wenn eine der folgenden Bedingungenerfüllt ist:(i) A ist ein Satzbuchstabe(ii) B und C sind Sätze von AL und A ist:¬B, (B ∧ C), (B ∨ C), (B → C) oder (B ↔ C)

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 44 / 80

Page 41: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Semantik der Aussagenlogik

Die Semantik einer Aussage ist ihr Wahrheitswert.Die Semantik einer komplexen Aussage wird rekursiv aus derSemantik der Junktoren und der Teilaussagen berechnet.Semantik der Junktoren: Wahrheitstabelle

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 45 / 80

Page 42: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Konjunktion: “und”Tim mag Kaffee. p T T F FAnna mag Tee. q T F T FTim mag Kaffee und Anna mag Tee. p ∧ q T F F F

T = wahr / true F = falsch / false

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 46 / 80

Page 43: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Negation: “nicht”, “kein”Tim mag Kaffee. p T FTim mag keinen Kaffee. ¬p F T

bzw.

Tim ist in Italien. p T FTim ist nicht in Italien. ¬p F T

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 47 / 80

Page 44: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Disjunktion: “oder”Tim mag Kaffee. p T T F FTim mag Tee. q T F T FTim mag Kaffee oder Tim mag Tee. p ∨ q T T T F

nicht ausschließendes ‘oder’ (vs. ausschließendes ‘oder’)

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 48 / 80

Page 45: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Implikation: (kein perfekt passendes deutsches Wort)Anna trinkt Kaffee. p T T F FTim kocht. q T F T FWenn Anna Kaffee trinkt, dann kocht Tim. p → q T F T T

Wenn p, dann muss q auch eintreten.Aber q kann auch ohne p eintreten → d.h. kein Rückschlussmöglich.

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 49 / 80

Page 46: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Äquivalenz: “genau dann wenn”Tim trinkt Kaffee. p T T F FAnna kocht Tee. q T F T FAnna kocht Tee genau dann,wenn Tim Kaffee trinkt. p ↔ q T F F T

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 50 / 80

Page 47: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Kontravalenz / Exclusive Or: “entweder … oder”Tim rennt. p T T F FAnna kocht. q T F T FEntweder rennt Tim oder Anna kocht. ¬(p ↔ q) F T T F

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 51 / 80

Page 48: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Prädikatenlogik (erster Stufe) – First-Order Logic (1)

(Aussagenlogik:Aussagen werden als nicht analysierbare Einheiten behandelt.)Prädikatenlogik (PL):Darstellung auch der internen Struktur von Aussagen.

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 52 / 80

Page 49: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Prädikatenlogik (erster Stufe) – First-Order Logic (2)

IndividuenkonstantenHans, Maria, das Buch, 'Dracula' usw.

Prädikate und ArgumenteHans ist ein Kind. kind(Hans)Einstelliges Prädikat ≈ EigenschaftHans mag Maria. mögen(Hans, Maria)Zweistelliges Prädikat ≈ Relation

Individuenvariablenmögen(x, y)Ein Wert (Hans, Maria, … ) wird x und y zugewiesen, dannkann der Wahrheitswert berechnet werden.

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 53 / 80

Page 50: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Prädikatenlogik (erster Stufe) – First-Order Logic (3)

Existenzquantor ∃∃x (kind(x) ∧ mögen(x, Maria))Es gibt ein x, für das gilt: x ist ein Kind und x mag Maria.Ein (irgendein nicht näher bestimmtes) Kind mag Maria.

Allquantor ∀∀x mögen(x, Maria)Für jedes x gilt: x mag Maria.Alle mögen Maria.

∀x (kind(x) → mögen(x, Maria))Für jedes x, das ein Kind ist, gilt: x mag Maria.Alle Kinder mögen Maria.

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 54 / 80

Page 51: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Syntax der Prädikatenlogik (vereinfacht)

Term: Variable oder Individuenkonstanteatomare Formel: P(t1, . . . , tn)(ti sind Terme, P ist ein Prädikatsymbol)oft wird als atomare Formel auch zugelassen:(ti = tj)

A ist eine Formel von PL, wenn eine der folgendenBedingungen erfüllt ist:(i) A ist eine atomare Formel(ii) B und C sind Formeln von PL und A ist:¬B, (B ∧ C), (B ∨ C), (B → C) (B ↔ C),∀xA, ∃xA

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 55 / 80

Page 52: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Semantik-KonstruktionEntlang derKonstituentenstrukturwerden komplexesemantische Ausdrücke“kompositionell” auseinfacheren Ausdrückenzusammengesetzt.

Zu jedemLexikoneintrag undjeder syntaktischenRegel wird einesemantischeKomponentehinzugefügt.

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 56 / 80

Page 53: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Semantik-Konstruktion: Herausforderung

Jede Teilnehmerin präsentiert ein Papier.

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 57 / 80

Page 54: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Zum Aspekt

Verbklassen bei Vendler: innere temporale Struktur von Verben(Zeno Vendler: Verbs and times. In: The Philosophical Review, Vol. 66,No. 2 (Apr., 1957), S. 143-160.)

State: ZustandIch wohnte in München.Activity: Aktivität ohne bestimmten EndpunktSie fuhr Fahrrad.Accomplishment: Aktivität mit bestimmtem EndpunktEr flog nach New York.Achievement: Ereignis geschieht “in einem Moment”.Er erreichte New York.

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 59 / 80

Page 55: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Interpretation von Tempus: Präsens

(nach H. Reichenbach: Elements of symbolic logic. New York 1947)

Sprechzeit S (speech time)Referenzzeit R (reference time)Ereigniszeit E (event time)

PräsensAnna kocht (gerade) einen Tee.

SRE

E = R = S

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 60 / 80

Page 56: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Interpretation von Tempus: Präteritum

Sprechzeit S (speech time)Referenzzeit R (reference time)Ereigniszeit E (event time)

PräteritumAnna kochte einen Tee.

SRE

E = R < S

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 61 / 80

Page 57: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Interpretation von Tempus: Plusquamperfekt

Sprechzeit S (speech time)Referenzzeit R (reference time)Ereigniszeit E (event time)

PlusquamperfektAnna hatte einen Tee gekocht.

SRE E < R < S

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 62 / 80

Page 58: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Kompositionalität

Kompositionalitätsprinzip (Gottlob Frege, 1848-1925)Die Bedeutung eines komplexen Ausdrucks ist eine Funktion derBedeutungen seiner Teile und der Art ihrer Kombination.

BeispielDer Hund biss den Mann.

Bedeutung setzt sich zusammen aus:

+ +Semantikkonstruktion …wird benötigt, um die genaue Art der Zusammensetzung zubestimmen.

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 64 / 80

Page 59: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Vollverb vs. Stützverbkonstruktion

VollverbSemantik klar, Bedeutung ist eine Hauptbedeutung aus demWörterbuch, kompositionell

Beispiel:Susi nimmt einen Keks. → Susi + nehmen + Keks

Stützverbkonstruktion (mit Stützverb, “Funktionsverb”, engl.light verb, support verb und prädikativem Wort)Bedeutung des Verbs: keine bzw. “schwach”, Nomen (Argument)muss miteinbezogen werden.

Beispiel:Susi nimmt ein Bad. ̸= Susi + nehmen + Bad

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 65 / 80

Page 60: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

IdiomWortverbindung, deren Gesamtbedeutung sich nicht aus denBedeutungen der einzelnen Wörter ableiten lässt (alsmorphologisches Idiom auch bei Komposita)

Beispiele:rotes Tuch, die Rechnung ohne den Wirt machen, Hochzeit[morphologisches Idiom]Idiome sind nicht kompositionell.

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 66 / 80

Page 61: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Diverse BeispieleIdiom? Stützverbkonstruktion? Vollverb?

1 mit dem Bus fahren2 aus der Haut fahren3 in Kontakt treten4 etw. zur Sprache bringen5 eine Sprache lernen6 jdn. auf die Palme bringen

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 67 / 80

Page 62: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Anaphorische Referenz

aus dem Altgriechischen ana = zurück phero = tragenAnaphorische Ausdrücke zeigen auf Referenten, die imsprachlichen Kontext schon eingeführt wurden:Maria … sie … die(se) Frau …Zwei Arten von anaphorischer Referenz:

Koreferenz (bei identischem Referenten)Bridging (assoziative Beziehung zwischen den Referenten)

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 69 / 80

Page 63: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Anaphorische Referenz: Koreferenz (1)

Koreferenz = identischer Referenttypischerweise durch Pronomen oder definite Nominalphrasen

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 70 / 80

Page 64: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Anaphorische Referenz: Koreferenz (2)

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 71 / 80

Page 65: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Anaphorische Referenz: Bridging (1)

Bridging = Assoziative Referenz:der Referent der Anapher ist inferierbar aus dem Antezedensauf Grund einer assoziativen Beziehung (z.B Teil-Ganzes,Eigenschaften etc.).typischerweise durch definite Nominalphrasen

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 72 / 80

Page 66: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Anaphorische Referenz: Bridging (2)

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 73 / 80

Page 67: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

SingletonA mention referring to a referent is called a singleton if thisreferent is not mentioned again in the text. (= single reference tothis referent)

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 74 / 80

Page 68: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Anaphernauflösung = coreference resolution

Automatische Anaphernauflösung ist eine Herausforderung fürdie automatische Sprachverarbeitung.Wichtig für viele Anwendungsgebiete:

Information RetrievalSummarizationMachine translationDialogue Systems

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 75 / 80

Page 69: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Methoden zur Koreferenzauflösung

Korpusannotation: Erstellen von Trainings- undTestdatensätzen (z.B. OntoNotes)Statistische Ansätze (z.B. Berkeley’s System)

Nomen und Pronomen werden mit Hilfe von MerkmalenbeschriebenMention-Pair Models: Algorithmus (maschinelles Lernen) wirdtrainiert, um zu entscheiden, ob sich zwei Nominalphasen aufdasselbe Objekt beziehen → Kettenbildung als 2. Schritt

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 76 / 80

Page 70: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Koreferenzauflösung: Regelbasierter Ansatz (Lee et al. 2013)

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 77 / 80

Page 71: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Koreferenzauflösung: Beispiel (1)

Nochmal die Terminologie: Anapher (sie), Antezedent (Alice)

KoreferenzkettenAlice fing an sich zu langweilen; sie saß schon lange bei ihrerSchwester am Ufer und hatte nichts zu tun. Das Buch, das ihreSchwester las, gefiel ihr nicht; denn es waren weder Bilder nochGespräche darin. “Und was nützen Bücher,” dachte Alice, “ohneBilder und Gespräche?”

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 78 / 80

Page 72: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Koreferenzauflösung: Beispiel (2)

Nochmal die Terminolgie: Anapher (sie), Antezedent (Alice)

KoreferenzkettenAlice fing an sich zu langweilen; sie saß schon lange bei ihrerSchwester am Ufer und hatte nichts zu tun. Das Buch , dasihre Schwester las, gefiel ihr nicht; denn es waren weder Bildernoch Gespräche darin. “Und was nützen Bücher ,” dachteAlice, “ohne Bilder und Gespräche?”Schwierigkeit: generische Ausdrücke (Buch - Bücher?)

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 79 / 80

Page 73: Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Zum Schluss: Besonders klausurrelevant

Wortbedeutungs-Relationen, WordNetWord sense disambiguation, Lesk-AlgorithmusJaccardWahrheitsbedingungensemantikSyntax der AussagenlogikNegation, Konjunktion, Disjunktion, Implikation, ÄquivalenzPrädikatenlogik:Prädikate, Variablen, Existenzquantor, AllquantorÜbersetzung:

deutscher/englischer Satz in die Aussagenlogikdeutscher/englischer Satz in die Prädikatenlogik

KompositionalitätsprinzipVollverb, Stützverbkonstruktion, IdiomAnaphorische Referenz: Koreferenz, BridgingCoreference resolution

Intro Lexikalische Semantik Textähnlichkeit Logik Zeit & Aspekt Kompositionalität ReferenzZangenfeind: Semantik 80 / 80