Ve rbOze a n - coli.uni-saarland.deregneri/docs/BSc_MR.pdf · Zus a mmenfass ung In di eser A rb...

Universität des SaarlandesFachrichtung 4.7 Allgemeine LinguistikComputerlinguistik

VerbOzeanMaschinelles Lernen von semantischen Relationen

zwischen deutschen Verben

Bachelorarbeit

Angefertigt unter der Leitung vonAlexander Koller &

Sabine Schulte im Walde

Michaela Regneri Homburg, den 9. September [email protected]

Hiermit erkläre ich, dass ich die vorliegende Arbeit selbstständig verfasst und keineanderen als die angegebenen Hilfsmittel verwendet habe.

Homburg, 9. September 2006

Michaela Regneri

Zusammenfassung

In dieser Arbeit präsentieren wir VerbOzean, ein webbasiertes System,das automatisch semantische Relation zwischen Verben lernt. Wir gehenvon der Architektur von VerbOcean (Chklovski und Pantel 2004) ausdie wir für deutsche Verben angepasst haben, wobei wir uns auf die Re-lation zeitliches Folgen beschränkten. Die Daten-Grundlage für unser Sys-tem bildeten Verbpaare aus einem Assoziationsexperiment. Wir entwarfenlexikalisch-syntaktische Oberflächen-Muster, die typischerweise die Relationzeitliches Folgen zwischen zwei Verben signalisieren und testeten, welche un-serer Verbpaare mit diesen Patterns stark genug assoziiert sind, um zwischenden beiden Verben zeitliches Folgen anzunehmen. Zum Messen der Assozia-tion verwendeten wir ein Maß, das sich von Mutual Information ableitet. DiePerformanz des Systems evaluierten wir mit Hilfe menschlicher Annotatorenund zeigten, dass Präzision und Recall ähnliche Werte erzielen wie andereSysteme vergleichbarer Art. Nach Vorstellung unseres Systems diskutierenwir abschließend einige Teilaspekte der Konzeption von VerbOzean undzeigen Ansatzpunkte für mögliche Fortsetzungen der Arbeit.

Herzlichen Dank an.... . . meinen Betreuer Alexander Koller, der zusammen mit Katrin Erk das Haupt-

seminar leitete, aus dem das Thema für diese Arbeit hervor ging. Ich dankeAlexander für die ständige Unterstützung und Motivation während der Ent-stehung dieser Arbeit, für das Lesen zahlreicher Entwürfe und die vielendetaillierten Anmerkungen dazu, für das Vermitteln elementarer Konzeptedes wissenschaftlichen Schreibens, für die unzähligen wichtigen und faszinie-renden Dinge, die er mir während und vor dieser Arbeit beigebracht hat, fürall die Zeit und Geduld, die er dabei aufbrachte, und für seine Freundlichkeitund seinen Humor, durch die das alles eine Menge Spaß gemacht hat.

. . . meine Betreuerin Sabine Schulte im Walde, die mir Zugang zu Korpora ver-scha!t und mir Daten aus ihren Experimenten zur Verfügung gestellt hat,ohne die diese Arbeit nicht hätte entstehen können. Weiterhin danke ichSabine für ihre kreativen und klar vermittelten Ideen zur Nutzung von lin-guistischen Ressourcen, für ihre wichtige, realistische Einschätzung der Mög-lichkeiten, die im Rahmen von Zeit und Konzept machbar waren, für ihreprofessionelle Hilfe zum Evaluieren von VerbOzean, für das Sortieren undReorganisieren einiger chaotischer Gedankengänge in dieser Arbeit und fürihr o!enes Ohr und ihre freundlichen Antworten für jede Art von Fragen.

. . . Manfred Pinkal, der mit seinem Lehrstuhl eine vielfältige und anregende For-schungsumgebung gescha!en hat, in der ich sowohl als studentische Hilfskraftan der Projektarbeit teilnehmen als auch diese Arbeit anfertigen durfte. ImSpeziellen danke ich dem Lehrstuhl für die Investition in das DeWac-Korpus,das eine der Grundlagen dieser Arbeit war.

. . . Sabine Schulte im Walde & Alexander Koller für die Daten aus ihrem Verb-Annotations-Experiment.

. . . Gerd Fliedner für die morphologischen Daten aus Gertwol, die er für Verb-Ozean generiert und zur Verfügung gestellt hat.

. . . Sabine Hunsicker, Sabrina Wolter, Dirk Baldes, Niko Felger und BenjaminRoth für die Annotation zur. Evaluation von VerbOzean

. . . Elena Jahnke und Dirk Baldes für aufmerksames und kritisches Korrektur-lesen.

. . . meine Familie und Benjamin, für all die Ermutigungen, das Ertragen meinerGereiztheit, das Teilen meiner Freude, und die Ruhe, die ich in den letztenMonaten dringend brauchte.

VerbOzean Michaela Regneri

Inhaltsverzeichnis1 Einleitung 1

1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2 VerbOcean – Das Vorbild 22.1 Extraktion von Verben mit hohem Assoziationsgrad . . . . . . . . . 32.2 Lexikalisch-Syntaktische Patterns . . . . . . . . . . . . . . . . . . . 52.3 Prüfen auf eine semantische Relation . . . . . . . . . . . . . . . . . 52.4 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3 VerbOzean 103.1 Zeitliches Folgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.2 Extraktion von Verben mit hohem Assoziationsgrad . . . . . . . . . 123.3 Lexikalisch-Syntaktische Patterns . . . . . . . . . . . . . . . . . . . 133.4 Prüfen auf eine semantische Relation . . . . . . . . . . . . . . . . . 163.5 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4 Diskussion 274.1 Evaluation durch Annotation . . . . . . . . . . . . . . . . . . . . . 274.2 Definition der Relation zeitliches Folgen . . . . . . . . . . . . . . . 294.3 Das Web als Korpus . . . . . . . . . . . . . . . . . . . . . . . . . . 314.4 Mutual Information als Assoziationsmaß . . . . . . . . . . . . . . . 32

5 Zusammenfassung und Schlussgedanken 335.1 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335.2 Ansätze für weitergehende Arbeit . . . . . . . . . . . . . . . . . . . 34

Literaturverzeichnis


1 Einleitung

1.1 Motivation

Lexikalische Ressourcen wie WordNet (Miller 1995), die Weltwissen für linguisti-sche Aufgabenstellungen nutzbar machen, werden in Gebieten wie Informations-Extraktion, Question-Answering und automatischer Textzusammenfassung immerwichtiger. Die manuelle Erstellung von Wissensbasen, die einen mit WordNet ver-gleichbaren Umfang haben, kostet jedoch enormen Aufwand. Um diesen Prozesse"zienter und mächtiger in Bezug auf Vielfalt der Relationen und der Sprachen zugestalten, enstanden in den letzten Jahren zahlreiche Ansätze zur automatischenExtraktion von semantischem Wissen, z.B. Systeme zum Lernen von Hyponymie(Hearst 1992), Meronymie (Girju, Badulescu und Moldovan 2006), Verbklassen(Stevenson und Joanis 2003) oder Kausal-Relationen (Girju und Moldovan 2002).Ein Ansatz zum Lernen von semantischen Verbrelationen für das Englische istVerbOcean (Chklovski und Pantel 2004). VerbOcean benutzt das Web alsKorpus, auf das es über die Suchmaschine Google1 zugreift. Die oberflächennahenMethoden dieses Systems benötigen keine Vorverarbeitung der Web-Texte, sondernarbeiten nur mit den Möglichkeiten, die Google bietet.Mit dem Internet verwendet VerbOcean das größte zur Verfügung stehende Kor-pus: Eine Schätzung von 2004 (Chklovski und Pantel 2004) gibt an, die in Googleindexierten Dokumente enthielten etwa 7, 2 ! 1011 Worte; man kann davon ausge-hen, dass die tatsächliche, aktuelle Anzahl noch größer ist. Im Vergleich hierzu istdas Gigaword-Korpus (Liu und Curran 2006), das größte aufbereitete Korpus fürEnglisch, mit 10 Milliarden Wörtern noch mindestens zehn Mal kleiner. Wir inter-essieren uns auch deshalb für VerbOcean, weil es als webbasierter Ansatz einemultilinguale Grundlage hat. Somit können wir den Ansatz auf eine andere Spra-che übertragen, ohne nach neuen, gleichwertigen Ressourcen suchen zu müssen.Mit VerbOzean präsentieren wir ein System, das das Konzept von VerbOceanaufgreift und für deutsche Verben neu implementiert.Ziel dieser Arbeit ist es, das webbasierte Lernkonzept von VerbOcean vorzu-stellen und zu zeigen, welche Anpassungen notwendig waren, um diese automati-sche Wissensextraktion für deutschsprachige Texte zu benutzen. Wir beschränktenuns hierbei auf die Relation zeitliches Folgen. Unser wichtigster Beitrag bestehtin unterschiedlichen System-Modifikationen zur Handhabung der Morphologie imDeutschen und im Finden von deutschen Oberflächen-Mustern für die von uns be-trachtete Relation. Als Ergebnis präsentieren wir das System VerbOzean, des-

1http://www.google.com

1


sen Funktionsweise wir erläutern, um anschließend seine Performanz zu analysierenund aufzuzeigen, wie es als konzeptuelle Grundlage für weitere Arbeit dienen kann.

1.2 Überblick

Kapitel 2 gibt einen Überblick über das System VerbOcean. Zunächst beschrei-ben wir die Extraktion von Verbpaaren als Datengrundlage (Abschnitt 2.1) sowieAufbau und Zweck von relationstypischen Oberflächenmustern (Abschnitt 2.2).Anschließend leiten wir von dem Assoziationsmaß Mutual Information die Berech-nung für den Zusammenhang von Verbpaaren und Patterns ab (Abschnitt 2.3).Ein Überblick über die Evaluation von VerbOcean (Abschnitt 2.4) schließt dasKapitel ab.Kapitel 3 stellt unser System VerbOzean vor. Nach Beschreibung der Unterschie-de zu VerbOcean erläutern wir Funktionsweise und Architektur unseres Systems:Zunächst definieren wir die von uns betrachtete Relation zeitliches Folgen (Ab-schnitt 3.1) und erklären anschließend die Verbpaar-Extraktion zur Bescha!ungder Datengrundlage (Abschnitt 3.2) und die Entstehung der Patterns für unsereRelation (Abschnitt 3.3). Im folgenden Abschnitt (3.4) gehen wir auf Berechnungder Assoziation zwischen Patterns und Verbpaaren ein und legen unsere Abschät-zungen von Verb- und Patternfrequenzen sowie die technische Ausführung vonSuchanfragen dar. Abschließend stellen wir die Ergebnisse eines System-Durchlaufsvor (Abschnitt 3.5), evaluieren diese auf der Basis von Annotation durch menschli-che Annotatoren und vergleichen unsere Ergebnisse mit denen von VerbOcean.Kapitel 4 diskutiert einige Aspekte der Gesamtarchitektur, die man für eventuelleSystem-Verbesserungen in Betracht ziehen muss. Hierbei betrachten wir kritischunseren Ansatz zur Evaluation (Abschnitt 4.1), unsere Definition der Relationzeitliches Folgen (Abschnitt 4.2), das Web als Korpus (Abschnitt 4.3) und dasAssoziationsmaß Mutual Information (Abschnitt 4.4).Kapitel 5 zeigt Ansätze für weitergehende Arbeit und enthält eine kurze Zusam-menfassung.

2 VerbOcean – Das Vorbild

VerbOcean (Chklovski und Pantel 2004) ist ein webbasierter Ansatz zur Be-stimmung von semantischen Relationen zwischen Verben, wobei die ausgewähltenRelationen (similarity, strength, antonymy, enablement, happens-before) andereUnterscheidungen tre!en als z.B. WordNet. Die Vorgehensweise gestaltet sich da-bei wie folgt:

2


Paraphrase Dependenz-PfadX finds a solution to Y N:subj:V" find# V:obj:N # solution # N:to:N

X solves Y N:subj:V" solve# V:obj:N

Tabelle 1: Zwei Dependenz-Pfade aus DIRT

1. Verbpaare, zwischen denen eine semantische Relation zu erwarten ist, werdengesammelt (ein Beispiel aus VerbOcean wäre roast - fry).

2. Mehrere lexikalisch-syntaktische Patterns werden für jede Relation entworfen(z.B. either V1 or V2 für Antonymie).

3. Die Patterns werden nacheinander mit den Verbpaaren instantiiert (z.B. eit-her roast or fry) und die Instanzen als Suchanfrage an Google geschickt.

4. Die Anzahl der Suchtre!er, die Google zurück gibt, wird ausgewertet undfestgestellt, ob die Tre!eranzahl groß genug ist, um eine signifikante Asso-ziation von Verbpaar und Pattern anzunehmen. Ist dies der Fall, wird dasVerbpaar zu der Relation zugeordnet, zu der das entsprechende Pattern ge-hört.

2.1 Extraktion von Verben mit hohem Assoziationsgrad

Um den Suchraum für Patterninstanzen einzugrenzen, extrahierten Chklovski &Pantel zunächst in hohem Maße assoziierte Verbpaare. Hierzu verwendeten sieden Algorithmus DIRT (Lin und Pantel 2001), der automatisch Paraphrasen ausKorpora erlernt.Die Idee von DIRT basiert auf der distributionellen Hypothese (Harris 1954), diebesagt, dass Worte, die oft im gleichen Kontext auftreten, ähnliche Bedeutungenhaben. Bei DIRT wurde die Hypothese auf Pfade in Dependenzbäumen erwei-tert und angenommen, dass Pfade, die oft in ähnlichem Kontext stehen, Phrasenmit ähnlichen Bedeutungen repräsentieren. „Kontext“ bedeutet im Falle von DIRTSubstantive, die an den Enden der betrachteten Dependenz-Pfade stehen.Tabelle 1 zeigt ein Beispiel für zwei Dependenzpfade, die DIRT aus einem Korpusextrahiert hat. Die Pfade sind hier in einer flachen Darstellung und zusammen mitihrer Klartext-Übersetzung angegeben. Die in DIRT betrachteten Pfade beginnenund enden jeweils mit einem Slot für ein Nomen (das erste und das letzte N derPfade, gekennzeichnet mit X und Y in der ausformulierten Phrase). Um festzu-

3


stellen, ob es sich um ein Paraphrasen-Paar handelt, verglichen Lin & Pantel dieDependenzpfade daraufhin, mit welchen Nomen als „Slot-Füllern“ sie auftauchten.

X finds a solution to Y X solves YSlot X Slot Y Slot X Slot Y

commission strike committee problemcommittee civil war clout crisiscommittee crisis government problemgovernment crisis he mysterygovernment problem she problem

he problem petition woelegislator budget deficit researcher mysterysheri! dispute sheri! murder

Tabelle 2: Slot-Füller für Tabelle 1

Tabelle 2 zeigt die möglichen Slot-Füller für die Pfade aus Tabelle 1. Die mög-lichen Ergänzungen für Slot X und Slot Y in den beiden Pfaden überschneidensich deutlich (vgl. Auftreten von commitee und sheri! in Slot X sowie crisis undproblem in Slot Y ). DIRT betrachtet keine möglichen Abhängigkeiten zwischenden beiden Slots. Um die Ähnlichkeit zweier Pfade zu berechnen, vergleicht derAlgorithmus die Füller für sich entsprechende Slots (im Beispiel Slot X im erstenmit Slot X im zweiten Pfad, analog der Vergleich für Slot Y ). Pfade, die über-durchschnittlich oft die gleichen Slot-Füller in korrespondierenden Slots haben,werden als Paraphrasen klassifiziert.Laut Lin & Pantel sind „viele“ der Pfad-Paare, die DIRT so ermittelt, korrekteParaphrasen, demnach jedoch nicht alle. So finden sich unter den Paraphrasen fürX solves Y beispielsweise auch X tries to solve Y, X seeks a solution to Y oderX makes Y worse. Keine der drei Phrasen ist gleichbedeutend mit X solves Y, dieletztere beschreibt sogar das Gegenteil. Lin & Pantel bezeichnen das Ausschlie-ßen von Pfaden mit gegenteiliger Bedeutung als Gegenstand zukünftiger Arbeit;gleichzeitig weisen sie darauf hin, dass die Extraktion von Pfaden mit ähnlicher,aber inverser Bedeutung für manche Anwendungen nützlich sein kann (vgl. Linund Pantel 2001, Abschnitt 6).Während Chklovski & Pantel (2004) das nicht explizit erwähnen, gehen wir davonaus, dass sie sich unter anderem diese Eigenschaft von DIRT zu Nutze machten:Für VerbOcean benötigten sie Verben mit ähnlicher Bedeutung, wobei sie u.a.für Verbpaare in gegenteiliger oder schwächerer Bedeutung Relationen bestimmthaben (antonymy bzw. strength). Wir nehmen an, dass Chklovski & Pantel davonausgingen, DIRT liefete Dependenz-Pfade mit verwandten Bedeutungen zurück,

4


ohne dass deren Relationen ohne weitere Analyse vorhersehbar (also auch nichtunbedingt Paraphrasen) seien.Die von DIRT zurückgelieferten assoziierten Phrasen-Paare ohne genau determi-nierte semantische Relation waren Grundlage für VerbOcean: DIRT ermittelteaus einem 1.5 GB Korpus aus Zeitungstexten bedeutungsverwandte Pfade derForm Subjekt-Verb-Objekt, aus denen Chklovski & Pantel für die Zwecke vonVerbOcean die Verben extrahierten. Aus dem Phrasen-Paar X solves Y – Xovercomes Y wurden z.B. die Verbpaare solve - overcome und overcome - solve.Die 29165 so insgesamt entstandenen Verbpaare nahmen Chklovski & Pantel alsAusgangspunkt für Relations-Bestimmungen.

2.2 Lexikalisch-Syntaktische Patterns

Die Oberflächenmuster entwickelten Chklovski & Pantel durch Betrachtung vonVerben in bekannten Relationen und durch Analyse von Kontexten, in denendiese Verben typischerweise auftreten (z.B. to X and later Y für die Relationhappens-before). Später optimierten sie die Patterns, um Tre!er mit falschen Wort-arten oder Verben in falschen Relationen zu vermeiden. Insgesamt betrachtetenChklovski & Pantel hierzu 50 Verben, mit denen sie 35 Patterns ermittelten (sieheTabelle 3).Die Patterns restringieren die Zeit-Formen, die sie akzeptieren (z.B. Xed für pastparticiple) – ggf. werden unregelmäßige Formen eingefügt (Xed and Yed wird mitdem Verbpaar sing – dance zu sung and danced). Tabelle 3 zeigt alle Patterns ausVerbOcean. Die Spalte „Hitsest für Pattern“ gibt die geschätzten Zahlen für dasAuftreten der Patterns im Web an, aufsummiert über alle Patterns einer Relation(zur Entstehung dieser Zahlen vgl. Abschnitt 2.3).

2.3 Prüfen auf eine semantische Relation

Um die Zugehörigkeit eines Verbpaares zu einer Relation zu bestimmen, instanti-ierten Chklovski & Pantel jedes Pattern mit dem Verbpaar in der Flexionsform,die das Pattern vorgibt. Beispielsweise entstand aus dem Verbpaar shock – outrageund dem Pattern X even Y die Instanz shock even outrage. Die so instantiiertenPatterns wurden in Google gesucht und die Tre!eranzahl gespeichert.Die absolute Tre!eranzahl sagt wenig aus, da Patterninstanzen mit häufigen Ver-ben viele Tre!er erzielen, und Instanzen mit seltenen Verben entsprechend seltenerauftauchen. Daher überprüften Chklovski & Pantel mit Hilfe von Mutual Infor-mation, wie viel häufiger eine Patterninstanz vorkam, als man es bei statistischer

5


Semantische Relation Oberflächen-Pattern Hitsest für Patternnarrowsimilarity

X ie Y 219 480Xed ie Yed

broad similarity Xed and Yed 154 518 326to X and Y

strength

X even Y

1 016 905

Xed even YedX and even YXed and even YedY or at least XYed or at least Xednot only Xed but Yednot just Xed but Yed

enablement

Xed * by Ying the

2 348 392Xed by Ying orto X * by Ying theto X * by Ying or

antonymy

either X or Y

18 040 916

either Xs or Yseither Xed or Yedeither Xing or Yingwhether to X or YXed * but Yedto X * but Y

happens-before

to X and then Y

8 288 871

to X * and then YXed and then YedXed * and then Yedto X and later YXed and later Yedto X and subsequently YXed and subsequently Yedto X and eventually XXd and eventually Yed

Tabelle 3: Patterns in VerbOcean

6


Unabhängigkeit von Paar und Pattern erwartet hätte. Anschließend addierten siedie Mutual-Information-Faktoren für alle Patterns der gleichen Relation auf. EinVerbpaar wurde zu einer Relation zugeordnet, wenn die Summe seiner Mutual-Information-Faktoren für alle zu dieser Relation gehörenden Patterns einen vorge-gebenen Cut-O! überschritt.

Mutual-Information von Patterns und Verbpaaren

Der Begri! Mutual Information („Transinformation“, im Folgenden MI) stammtaus der Informationstheorie. Die „punktweise“ MI (im Folgenden PMI) verwende-ten Chklovski & Pantel als Assoziationsmaß.

PMI(x, y) = log2p(x, y)

p(x)p(y)(1)

Formel 1 beschreibt die Berechnung der PMI zweier Ereignisse x und y. Der WertPMI(x,y) gibt an, wie viel das Auftreten von x über ein mögliches Auftreten vony aussagt (Manning und Schütze 1999). Nimmt man an, dass x und y unabhän-gig voneinander auftreten, erhält man eine PMI von 0. Treten x und y häufigergemeinsam auf, als man bei statistischer Unabhängigkeit erwarten würde, ergibtdie Berechnung einen positiven PMI-Wert, der mit der Wahrscheinlichkeit für eingleichzeitiges Au"nden von x und y wächst. Treten x und y seltener auf als beistatistischer Unabhängigkeit, erhält man einen negativen PMI-Wert.In Anlehnung an PMI maßen Chklovski & Pantel die Assoziationsstärke von Verb-paaren mit einem bestimmten Pattern. Die Formel zur Berechnung erweiterten siedazu für drei Variablen und arbeiteten mit dem Wert des Quotienten, ohne denLogarithmus zu ziehen. Die Assoziationsstärke SPat(V1, V2) eines Verbpaares (V1,V2) mit einem Pattern Pat berechnet sich wie in Formel 2:

SPat(V1, V2) =p(V1, Pat, V2)

p(Pat) ! p(V1) ! p(V2)(2)

Abschätzung einzelner Wahrscheinlichkeiten

Chkolvski & Pantel schätzten die einzelnen Wahrscheinlichkeiten wie folgt ab:

p(V1, Pat, V2) $hits(V1, Pat, V2)

N(3)

Die Wahrscheinlichkeit p(V1, Pat, V2) für das gemeinsame Auftreten eines Verb-paares mit einem Pattern errechnet sich aus den Google-Suchtre!ern für die Pat-terninstanz, die aus Paar und Pattern entsteht. Dies entspricht der Anzahl der

7


gefundenen Dokumente, die die Patterninstanz enthalten. Der Divisor N bezeich-net die geschätzte Anzahl aller Wörter, die in Google indexiert sind. Die Anzahlder Google-Tre!er ist proportional zur tatsächlichen Häufigkeit der Patterninstanz(Zhu und Rosenfield 2001). Da Suchmaschinentre!er leichter zu ermitteln sind alstatsächliche Frequenzen (das würde das Durchsuchen der gefundenen Dokumen-te erfordern), rechnen die meisten webbasierten Ansätze mit solchen Suchtre!er-Anzahlen (Keller 2003).

p(Vx) $hits(“toVx“) ! Cv

N(4)

Die Frequenzen der Verben schätzten Chklovski & Pantel mit den Google-Tre!ernfür deren „To-Infinitiv“. Die Tre!er für „to V“ multiplizierten sie mit einem Kor-rekturfaktor Cv, um das Vorkommen des vollständigen Verb-Lexems zu schätzen.(Ihr Schätzwert für Cv beträgt 8,5.)

p(Pat) $ hitsest(Pat)

N(5)

Um die Häufigkeit der Patterns abzuschätzen, benutzten Chklovski & Pantel einPOS-getaggtes Korpus mit 500 Millionen Wörtern. Im Gegensatz zu Google er-laubt es die Korpus-Suche, nach einem Pattern wie V1 even V2 zu suchen, indemman die Platzhalter bei der Suche auf Verben einschränkt. (Schematisch dargestelltwäre die Suchanfrage für obiges Pattern also [pos=VV] even [pos=VV]).hitsest(Pat) bezeichnet die geschätzte Anzahl von Suchtre!ern für ein Pattern Patim Web. Die Korpus-Tre!erzahl haben Chklovski & Pantel, analog zu den Verb-frequenzen, mit einem Korrekturfaktor multipliziert, um hitsest(Pat) zu schätzen.Der hierfür benutzte Korrekturfaktor entspricht dem Quotienten von geschätzterWortanzahl in Google und der Wortanzahl des Korpus.

Berrechnungen für symmetrische und asymmetrische Relationen

Bei der Berechnung der MI unterschieden Chklovski & Pantel zwischen symmetri-schen (similarity und antonymy) und asymmetrischen Relationen (happens-before,strength und enablement). Für asymmetrische Relationen berechnet sich der MI-Faktor wie folgt:

SPat(V1, V2) $hits(V1,Pat,V2)

Nhitsest(Pat)

N ! hits(!!toV !!1 )!Cv


N

(6)

Für symmetrische Relationen wurde die Berechnung angepasst (siehe Formel 7).Die Symmetrie in einer Relation wie Antonymie bedeutet, dass die Reihenfolge

8


der beiden Verben keine Rolle spielt, da die Relation in beide Richtungen gilt.Ermittelt man etwa für das Verbpaar begin – end eine Evidenz für Antonymie,spricht das auch für Antonymie des Paares end – begin, und umgekehrt.


N + hits(V2,Pat,V1)N

hitsest(Pat)N ! hits(!!toV !!

1 )!Cv


N

(7)

Cut-O! und Antisymmetrie

Zu jeder Relation gehört eine bestimmte Menge von Patterns (vgl. Tabelle 3).Um festzustellen, ob ein Verbpaar zu einer Relation gehört oder nicht, berechnetman die MI-Faktoren mit allen Patterns dieser Relation und summiert sie auf.Das Verbpaar gehört dann zu der Relation, wenn diese Summe einen bestimmtenCut-O! überschreitet. VerbOcean ordnet also ein Verbpaar V1 % V2 dann einerRelation zu, wenn es unter Betrachtung aller Pattern Pat dieser Relation Formel5 erfüllt. !

Pat

SPat(V1, V2) > C1 (8)

Die Summe der MI-Faktoren für ein Verbpaar mit allen Pattern einer Relation"Pat SPat(V1, V2) bezeichnen wir im Folgenden als Assoziations-Grad eines Verb-

paares mit einer Relation. Aufgrund von Tests auf einem Trainingsset von 50Verbpaaren legten Chkolvski & Pantel einen Cut-O! C1 von 8,5 fest.Als zusätzliche Bedingung für asymmetrische Relationen forderten Chklovski &Pantel eine Präferenz für eine bestimmte Richtung. Damit erfolgte die Zuordnungeines Verbpaares (V1, V2) zu einer asymmetrischen Relation genau dann, wenn derAssoziations-Grad dieses Verbpaares mit der Relation über dem Cut-O! lag undweiterhin Formel 9 erfüllt wurde:

!

Pat

SPat(V1, V2)

!

Pat

SPat(V2, V1)=

!

Pat

hits(V1, Pat, V2)

!

Pat

hits(V2, Pat, V1)> C2 (9)

Nach Auswertung der Ergebnisse aus dem Trainingsset bestimmten Chklovski &Pantel einen Wert von C2 = 5.Alle Verbpaare, für die auf diese Art keine Relation zugeordnet werden konnte,klassifizierte VerbOcean als „ohne Relation“.

2.4 Evaluation

Zur Evaluation von VerbOcean bewerteten zwei menschliche Annotatoren einezufällig ausgewählte Stichprobe von Verbpaaren und deren vom System erkannten

9


Relationen. Die Annotatoren sollten entscheiden, ob sie die automatisch zugeord-neten Relationen akzeptierten und weiterhin für jedes Verbpaar angeben, welcheRelation sie selbst diesem Paar am ehesten zugeordnet hätten.Zur Bestimmung der Präzision nahmen Chklovski & Pantel als Baseline die Zu-ordnung der häufigsten Relation (Similarity) an. Die Gesamtauswertung für dasExperiment gibt Tabelle 4 wieder. Insgesamt ergab sich eine Präzision von durch-schnittlich 65,5%, was der Mittelwert für die Beurteilung beider Annotatoren ist.Damit lag die Präzision deutlich über der gewählten Baseline (22%). Weiterhinerkannte das System in 53% der Fälle die Relation, die die Annotatoren als bevor-zugte Relation angaben.

Relation bevorz. Baselinekorrekt Relation Correct

Annotator 1 66% 54% 24%Annotator 2 65& 52% 20%Durchschnitt 65,5% 53% 22%

Tabelle 4: Präzision von VerbOcean

Zusätzlich bestimmten Chklovski & Pantel die Übereinstimmung des Systems mitden Annotatoren über die Kappa-Statistik (Siegel und Castellan 1998). Das Er-gebnis lag bei k = 0, 78, was nach Cohen (1960) bereits signifikante Rückschlüsseauf die Verlässlichkeit der Daten erlaubt. Chklovski & Pantel geben nicht an, obdies ein Mittelwert der System-Übereinstimmungen mit jeweils einem Annotatorwar (analog zu Präzision), ob sie aus beiden Annotatoren einen Gold-Standard er-mittelten oder ob sie eine erweiterte Kappa-Formel für drei Annotatoren benutzthaben. Interessant wäre außerdem ein Vergleich mit dem Inter-Annotator-Agree-ment; hierüber finden sich lediglich Angaben über die Gesamt-Übereinstimmungvon 73%, aber kein Kappa-Wert.

3 VerbOzean

VerbOzean ist ein System zum automatischen Erkennen von Verbrelationen zwi-schen deutschen Verben, das auf der Architektur von VerbOcean basiert. DieAnwendung des Algorithmus auf die deutsche Sprache brachte einige Herausfor-derungen und einige Änderungen gegenüber VerbOcean mit sich:

1. Für das Deutsche existiert kein System wie DIRT, das zur Verbpaar-Extraktionbenutzt werden könnte, also benötigten wir hierfür eine Alternative.

10


2. Die deutschen Verb-Lexeme haben eine wesentlich reichere Morphologie alsdie englischen. Eine einfache Enkodierung der Morphologie in den Patternsreichte also nicht aus.

3. Die Verbfrequenzen für deutsche Verben mussten wir ausreichend präzisebestimmen. Die Google-Suche nach Zu-Infinitiven (analog zu VerbOcean)erwies sich hier als unzureichend (vgl. Abschnitt 3.3.2).

Vorerst beschränkten wir uns auf die Relation zeitliches Folgen (parallel zu happens-before in VerbOcean). Die Architektur, die wir dafür aufgebaut haben, lässtsich problemlos um zusätzliche Relationen erweitern – der Hauptaufwand bestün-de hierbei in der Entwicklung entsprechender Patterns. Die Hauptunterschiede inder Realisierung von VerbOzean im Vergleich zu seinem Vorbild VerbOceanzeigt Tabelle 5.

Baustein VerbOcean VerbOzean

Relationensimilarity, strength, zeitliches Folgen

antonymy, enablement, (&= happens-before)happens-before

Verbpaar-Extraktion automatisch mit DIRT menschliche Verbassoziationen(Kap. 2.1) (Kap. 3.2)

Morphologie in Patterns enkodiert von Patterns restringiert(Kap. 2.2) (Kap. 3.3)

Verbfrequenzen Google-Tre!er für „to V“ Lemma-Häufigkeit auf(Kap. 2.3) Korpus (Kap. 3.3.2)

Tabelle 5: Unterschiede zwischen VerbOcean und VerbOzean

3.1 Zeitliches Folgen

Für das weitere Vorgehen definieren wir die Relation zeitliches Folgen wie folgt,wobei Pfeile dazu benutzt werden, die zeitliche Reihenfolge verkürzt darzustellen(„x # y“ entspricht „x geht y zeitlich voraus“):Zeitliches Folgen:Ein Verbpaar v1 - v2 gehört dann zu der Relation zeitliches Folgen, wenn beimgemeinsamen Auftreten von v1 und v2 das Verb v2 typischerweise (nicht zwin-gend notwendigerweise) nach v1 passiert. Hierbei dürfen die Verben verschiedeneArgumente haben (wie z.B. vergiften - töten). Wenn eine chronologische Relationvon v1 und v2 in beide Richtungen vorstellbar ist (sowohl v1 # v2 als auch

11


v2 # v1), liegt nur dann zeitliches Folgen vor, wenn in einem Handlungsablaufpräferiert v1 vor v2 passiert.Wir interessierten uns aus zwei Gründen gerade für zeitliches Folgen: Zum Einenenthält weder GermaNet (Hamp und Feldwig 1997) noch eine andere große Wis-sensbasis diese Relation, und ein automatischer Ansatz wäre ein e"zienter Wegdafür, diese Lücke zu füllen. Weiterhin gingen wir von der Arbeitshypothese aus,dass zeitliches Folgen klarer definiert und eingegrenzt werden kann als die anderennicht in WordNet (bzw. GermaNet) enthaltenen Relationen aus VerbOcean,da wir typische chronologische Abläufe für intuitiv eindeutig erkennbar hielten.Ergebnisse einer Annotation von 127 Verbpaaren aus einem Verbassoziations-Experiment (Schulte im Walde und Melinger 2005) unterstützten diese Annah-me: Bei dieser Annotation erhielten für jede der 22 betrachteten Relation zweiAnnotatoren die gleichen 127 Paare und sollten entscheiden, ob die Relation vor-liegt oder nicht. Dass Inter-Annotator-Agreement lag durchschnittlich bei einemKappa-Wert von 0,275, für die Relation zeitliches Folgen wurde ein Kappa von0,597 erreicht – die höchste Übereinstimmung unter allen annotierten Relationen.

3.2 Extraktion von Verben mit hohem Assoziationsgrad

Einen Algorithmus wie DIRT (vgl. Abschnitt 2.1) konnten wir zur Verbpaarex-traktion nicht verwenden, da es keine Implementierung für das Deutsche gibt undeine Reimplementierung nicht ohne Weiteres möglich gewesen wäre. Daher ver-wendeten wir Paare aus einem Experiment für Verb-Assoziationen (Schulte imWalde und Melinger 2005). Dieses Experiment basierte auf 330 Verben, wobei aufeine ausgewogene Verteilung der Verbklassen (Levin 1993) und auf eine gleicheVerteilung von hoch-, mittel- und niedrigfrequenten Verben Wert gelegt wurde.Von diesen Verben bekamen 299 deutsche Muttersprachler jeweils eine hinsichtlichVerbklassen und Häufigkeit der Verben balancierte Liste von 55 Verb-Stimuli. DieAnnotatoren sollten in einem festen Zeitrahmen von 30 Sekunden pro Verb so vieleAssoziationen wie möglich auflisten. Die einzige Einschränkung für die Assoziatio-nen bestand darin, dass zu möglichst vielen Ein-Wort-Assoziationen ermuntert undweiterhin gebeten wurde, Nomen durch Großschreibung zu kennzeichnen.Aus den entstandenen Assoziationspaaren extrahierten Schulte im Walde & Melin-ger für weitere Untersuchungen alle Verbpaare, d.h. Kombinationen aus Stimulusund Assoziation, bei denen die Assoziation ein Verb war. Für VerbOzean verwen-deten wir davon die Verbpaare, bei denen das assoziierte Verb zu seinem Stimulusmindestens zwei Mal im Assoziationsexperiment annotiert wurde. Da wir uns imHinblick auf VerbOzean nicht für die Reihenfolge von Stimulus und assoziiertemVerb interessierten, nahmen wir die Paare zusätzlich in umgekehrter Reihenfolge

12


(also sowohl Stimulus-Assoziation als auch Assoziation-Stimulus). Somit entstandeine Grundlage von 4824 verschiedenen Verbpaaren, bestehend aus 1286 unter-schiedlichen Verben.

3.3 Lexikalisch-Syntaktische Patterns

Nach Oberflächenmustern für die Relation zeitliches Folgen suchten wir durchKorpusanalyse und intuitive Überlegungen, die wir wiederum mit Hilfe des Kor-pus verifizierten. Für das Erarbeiten der Patterns sowie für alle weiteren Korpus-Analysen in VerbOzean benutzten wir das DeWac-Korpus (Baroni und Kilgar-ri! 2006).

DeWac-Korpus

Das „Dewac-Korpus“ ist ein deutsches Korpus von 1.7 Milliarden Wörtern, lemma-tisiert und mit POS-Tags eines automatischen Taggers (Schmid 1994) markiert.Das Korpus besteht aus Dokumenten, die Baroni & Kilgarri! im Internet gefundenund anschließend gefiltert haben:

• Balanciertheit des Korpus war ein wichtiger Aspekt, daher wurden die Do-kumente mit Suchbegri!en aus unterschiedlichsten Domain-Zuordnungen re-cherchiert.

• Die Texte wurden gefiltert, um tatsächlich nur Fließtext zu erhalten. Aus-geschlossen haben Baroni & Kilgarri! Seiten, die eine oder mehrere der fol-genden Bedingungen erfüllten:

– Seiten in häufig auftretenden Standard-Formaten (wie Gästebücher,Formulare)

– Extrem kurze (häufig Wörterbucheinträge etc.) und extrem lange Do-kumente (häufig lange Listen, z.B. Kataloge)

– Seiten, die in der gleichen Form mehr als ein Mal vorkamen– Seiten mit einer für Fließtext zu niedrigen Frequenz von Funktionswör-

tern– Seiten, die ein dafür konzipierter Pornografie-Filter au"ng, da lt. Baroni

& Kilgarri! Pornos dazu tendieren, unzusammenhängende Wortlistenzu enthalten

13


• „Near duplicates“ wurden nach dem Filtern entfernt, d.h. es wurden Do-kumente ausgeschlossen, die mit mindestens einem anderen Dokument einesignifikante Zahl von N-Grammen teilen.

Laut Baroni & Kilgarri! entstand so ein Abbild des deutschen Internets in Minia-turformat. Korpusanfragen können Benutzer u.a. in der Anfragesprache von CQP2

formulieren, was eine Anfrage über reguläre Ausdrücke ermöglicht.

Patterns

Die Patterns entstanden weitgehend durch Intuition, teilweise auch in Anlehnungbzw. durch Übersetzung der Patterns aus VerbOcean. Gefundene Muster such-ten wir im DeWac-Korpus und beurteilten sie danach, wieviele Suchtre!er sieergaben und wie hoch die Präzision der Tre!er war. Eine Nachahmung der inVerbOcean beschriebenen Methode zum Finden von Patterns erwies sich nichtals ergiebig: Aus der Suche nach mehreren unterschiedlichen Verbpaaren, die ein-deutig in der Relation zeitliches Folgen stehen (wie kauen – schlucken) konntenwir keine wiederkehrenden, allgemeingültigen Muster entnehmen.Anders als im Englischen ist es für das Deutsche nicht angebracht, für unter-schiedliche Flexionsendungen grundsätzlich unterschiedliche Patterns zu erstellen.Während im Englischen für regelmäßige Formen lediglich die 3. Person Plural unddas Partizip vom Infinitiv abweichen und einfach generiert werden können (vgl.„Xed“ und „Xs“ in VerbOcean), hat das Deutsche eine wesentlich reichere Mor-phologie. Um dem zu begegnen, waren unsere Patterns der Morphologie gegenüberzunächst neutral, wobei es die Infrastruktur erlaubte, die Morphologie beider Ver-ben näher einzuschränken. Mit jedem Pattern speicherten wir solche zusätzlichenEinschränkungen.Die letztendlich verwendeten Patterns finden sich in Tabelle 6. Die mit „PPP“gekennzeichneten Patterns sind auf Verbformen im Partizip Perfekt restringiert(vgl. Formen mit „Xed“ in VerbOcean), um ihre Präzision zu erhöhen. Die Kenn-zeichnung „v1 || v2“ markiert Kongruenz der Verben v1 und v2. Die flektiertenVerbformen, mit denen die Patterns instantiiert wurden, generierten wir mit Hilfedes Gertwol-Generieres (Haapalainen und Majorin 1994).

Morphologie-Restriktionen

Beim Erstellen der Patterns nahmen wir vorerst keine Restriktion der Morphologiean, d.h. auf Flexion beider Verben oder deren Kongruenz achteten wir nicht. Bei

2http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/CQPSyntax.html

14


Oberflächen-Pattern Restriktion Korpus-Tre!erv1 und schließlich v2

v1 ' v2

1515v1 und später v2 814zuerst v1 und dann v2 95v1 und anschließend v2 1576v1 und bereits v2

v1: PPP, v2:PPP

76v1 und bald v2 39v1 und sofort v2 241v1 und dann v2 1866

Tabelle 6: Patterns in VerbOzean

Betrachtung der Korpus-Tre!er für die Patterns fiel auf, dass einige der Mustereine geringe Präzision hatten, die wir aber durch Einschränkung auf Verbformenim Partizip Perfekt deutlich verbessern konnten. Als Beispiel hierfür zeigt Tabelle 7Suchtre!er für das Pattern v1 und dann v2. Die ersten zehn Tre!er für das Patternmit Verben in beliebiger Flexionsform stehen in der linken Tabellenhälfte, dieersten zehn Tre!er mit der Einschränkung auf Verben im Partizip Perfekt stehenin der rechten. Die Suchergebnisse, bei denen wir kein zeitliches Folgen zwischenden Verben akzeptieren konnten, sind fett gedruckt. Für die Patterns, für diewir zunächst keine Restriktionen annahmen, mussten wir ebenfalls eine passendeRegelung für die Morphologie-Einschränkung der Verben finden, um die Laufzeitdes Systems auf ein tragbares Maß einzuschränken. Wenn die Kombinationen vonflektierten Formen in einem Pattern ohne Einschränkung geblieben wären, hätteman pro Verbpaar bis zu 324 Suchanfragen benötigt (bei bis zu 18 verschiedenenflektierten Formen pro Verb und jeder möglichen Kombination aus Zweien davonin einem Pattern). Bei einer geschätzten Laufzeit von zwei Sekunden pro Google-Anfrage hätte somit ein kompletter Durchgang für alle Verbpaare über einen Monatgebraucht.Intuitiv entschieden wir zunächst, als einzige Restriktion vollständige Kongruenzbeider Verben zu fordern. Spätere Testdurchläufe mit einer kleinen Teilmenge derVerbpaare ergaben, dass eine völlige Aufhebung der Morphologie-Restriktion nurVerschlechterung der Präzision, aber keinen besseren Recall gebracht hätte, wasunsere Intuition für die Einschränkung auf kongruente Verbpaare bestätigte.

15


„v1 und dann v2“keine Restriktion v1/v2 im Partizip Perfekt

kommen und dann stellt angeschaut und dann entschiedenspielen und dann verurteilt gemacht und dann vernichtet

aufgesammelt und dann ging’s erstellt und dann weitergereichtangeschaut und dann entschieden gemacht und dann angefangengemacht und dann vernichtet geboren und dann importiert

ölen und dann wachsen angefahren und dann durchgezogensalzen und dann kochen geschrieben und dann abgesendet

erstarrt und dann kamen beleidigt und dann angegri!enbringen und dann geht geschrieben und dann abgegebengemacht und dann kam umstellt und dann durchsucht

Tabelle 7: Korpus-Suchtre!er für „v1 und bald v2“

3.4 Prüfen auf eine semantische Relation

3.4.1 Mutual-Information von Patterns und Verbpaaren

Die Berechnung der Assoziationsstärke zwischen Verbpaaren und Patterns basiert,wie in VerbOcean, auf dem Konzept der MI. Als Ausgangspunkt nahmen wirdie gleiche Abwandlung der punktweisen MI wie Chklovski & Pantel, nochmalswiedergegeben in Formel 10 (vgl. Formel 2).

SPat(V1, V2) =p(V1, Pat, V2)

p(Pat) ! p(V1) ! p(V2)(10)

Die einzelnen Wahrscheinlichkeiten schätzten wir wie folgt:

p(V1, Pat, V2) $hits(V1, Pat, V2)

N(11)

Die Abschätzung der Wahrscheinlichkeit p(V1, Pat, V2) für das gemeinsame Auf-treten eines Verbpaares mit einem Pattern erfolgte analog zu VerbOcean (vgl.Formel 3). hits bezeichnet die Anzahl der Suchtre!er, die Google liefert (vgl. Ab-schnitt 3.4.3).

p(Vx) $count(Vx) ! Cv

N(12)

16


Die Verbfrequenzen schätzten wir korpusbasiert (vgl. Abschnitt 3.4.3). count(Vx)steht für die Häufigkeit des Lemmas von Vx im DeWac-Korpus. Cv ist ein Korrek-turfaktor, um die Häufigkeit des Lemmas im Web zu schätzen.

p(Pat) $ count(Pat) ! CPat

N(13)

Wie Chklovski & Pantel schätzten wir auch die Pattern-Frequenzen korpusbasiert(vgl. Abschnitt 3.4.3). Dem hitsest aus der entsprechenden Formel in VerbOcean(vgl. Formel 5) entspricht count(Pat) !CPat mit CPat als Korrekturfaktor für Pat-ternfrequenzen, analog zum Korrekturfaktor Cv für Verbfrequenzen.In Anlehnung an die VerbOcean-Formel für asymmetrische Relationen (vgl. For-mel 6) ergab sich also die Berechnung des MI-Faktors wie folgt:


Ncount(Pat)!CPat

N ! count(V1)!Cv

N ! count(V2)!Cv

N

(14)

Formel 15 resultiert direkt durch Umstellen und Kürzen aus Formel 14:

SPat(V1, V2) $hits(V1, Pat, V2)

count(Pat) ! count(V1) ! count(V2)! N2

C2v ! CPat

(15)

Die Anzahl der bei Google indexierten Wörter (N) und die Korrekturfaktoren(Cv und CPat) betrachteten wir als Konstanten. Den konstanten Faktor K (vgl.Formel 16) müssen wir daher nicht berechnen, und damit weder N noch Cv undCPat.

N2

C2v ! CPat

(16)

Unsere MI-Faktoren zur Berechnung der Assoziations-Grade enthielten daher nurabsolute Tre!erzahlen:

S "Pat(V1, V2) $

hits(V1, Pat, V2)

count(Pat) ! count(V1) ! count(V2)(17)

Absolut betrachtet fiel im Vergleich zu VerbOcean ein Faktor von ungefähr N2

weg (N schätzten Chklovski & Pantel auf 7.2 ! 1011, vgl. Formel 2), wodurchunsere Zahlen und damit auch unser Cut-O! deutlich kleiner waren als die inVerbOcean.

3.4.2 Bestimmung des Cut-O! und Antisymmetrie

Ein Verbpaar gehört zu einer Relation, wenn sein Assoziations-Grad (die Summealler MI-Faktoren) mit der Relation einen bestimmten Cut-O! überschreitet (sieheauch Formel 6): !

Pat

S "Pat(V1, V2) > C1 (18)

17


Zur Berechnung des Assoziaions-Grades für ein Verbpaar addierten wir alle MI-Faktoren für die vorhandenen Pattern auf und lasen an der erhaltenen Summe dieRelationszugehörigkeit ab. Die Summe musste größer sein als der Cut-O! C1. ZurBestimmung von C1 erstellten wir ein zufälliges Entwicklungsset von 30 Verben,für die unser System einen Assoziaions-Grad größer 0 errechnet hatte. Tabelle 8zeigt dieses Entwicklungsset.Alle Paare dieser Stichprobe überprüften wir auf das Vorliegen der Relation zeit-liches Folgen hin. Die Verbpaare, die wir nicht als zeitliches Folgen akzeptierenkonnten, sind fett gedruckt. Die Spalte „Präz.“ gibt die Präzision an, die man er-halten hätte, wenn man den Cut-O! nach dem Verbpaar der entsprechenden Spaltegesetzt hätte. (Beispielsweise ist die Präzision bei dem Paar denken – handeln bei80%, da wir von den bis dahin betrachteten fünf Verbpaaren vier als korrekt ak-zeptiert haben.) Den Cut-O! setzten wir dort, wo die Präzision zu sinken begann,unseren Daten zufolge also nach dem Paar testen - herausfinden bei 10#12. AllePaare dieses Entwicklungssets schlossen wir von der späteren Evaluation aus (vgl.Abschnit 3.5).Da zeitliches Folgen eine asymmetrische Relation ist, übernahmen wir die zusätzli-chen Anforderungen für asymmetrische Relationen aus VerbOzean. Damit unserSystem ein Verbpaar als zeitliches Folgen klassifizierte, musste der Assoziations-Grad dieses Paares mit zeitlichem Folgen deutlich größer sein als der des inversenPaares. Die Erfüllung dieser Bedingung berechneten wir mit Formel 19.

!

Pat

hits(V1, Pat, V2)

!

Pat

hits(V2, Pat, V1)> C2 (19)

Zur Ermittlung eines adäquaten C2 erstellten wir ein weiteres Entwicklungssetaus 30 zufälligen Verbpaaren, deren Assoziations-Grad über unserem Cut-O! von10#12 lag. Der in VerbOcean verwendete Wert von C2 = 5 erwies sich auch fürunsere Daten als geeignet. Ausgeschlossen haben wir mit diesem Cut-O! für eineRichtungspräferenz insgesamt 14 Paare, darunter z.B. lieben – hassen oder weinen– lachen (jeweils in beiden möglichen Reihenfolgen).

3.4.3 Häufigkeiten von Verben und Patterns

Die Häufigkeiten für Verben und Patterns bestimmten wir mit Hilfe des DeWac-Korpus. Wie auch in VerbOcean ermittelten wir die Tre!er für Patterns, indemwir ihre Platzhalter bei der Suche auf Verben restringierten (z.B. [pos=VV] undanschließend [pos=VV]).

18


Verb 1 Verb 2 Assoziations-Grad Präz. [%]kneten essen 1.0153e-10 0kneten formen 5.4014e-11 50

anfangen aufhören 2.5422e-11 66,67mischen backen 3.7497e-12 75denken handeln 3.4968e-12 80

schneiden kochen 3.1664e-12 83,33rennen fliehen 2.8776e-12 85,71

beginnen enden 1.8315e-12 87,5untersuchen feststellen 1.0584e-12 88,89

testen herausfinden 1.0019e-12 90feststellen bemerken 9.4887e-13 81,82beobachten kontrollieren 8.8994e-13 75

ausprobieren versuchen 5.6040e-13 69,23leben sterben 2.0266e-13 71,43lesen wissen 1.7436e-13 73,33

beraten helfen 1.5461e-13 75teilen trennen 1.1811e-13 70,59finden herausfinden 4.7606e-14 66,67lernen wissen 3.5833e-14 68,42

entwickeln fördern 2.9842e-14 65bemerken sehen 1.8986e-14 61,9verstehen erklären 1.6035e-14 63,64

lernen verstehen 1.3908e-14 65,22können wissen 1.3180e-14 62,5erklären beschreiben 1.3164e-14 60erkennen wissen 8.6777e-15 57,69

tun versuchen 4.4594e-15 55,56sprechen sagen 2.4619e-15 53,57liegen setzen 2.3342e-15 51,72wollen müssen 8.1989e-16 50

Tabelle 8: Entwicklungsset zum Ermitteln des Cut-O!

19


Zwei Tests zur Verbfrequenz-Bestimmung mit Google zeigten, dass sich die inVerbOcean verwendete Methode für unsere Zwecke nicht eignete:

• Infinitive erzielten viele falsche Tre!er aufgrund von POS-Ambiguitäten. Ei-nes der häufigsten Verben nach dieser Frequenzbestimmung wäre etwa dasVerb preisen, dessen Suchtre!er in Google meistens zur Plural-Form des No-mens Preis gehörten.

• Zu-Infinitive, wie Chklovski & Pantel sie benutzten, lösten das POS-Problemnicht. Für trennbare Verben gab es ähnlich schlechte Ergebnisse wie mit derInfinitiv-Suche (vgl. zu preisen).

Wegen der morphologischen (POS-)Problematik im Deutschen entschieden wiruns, die Verben auf dem DeWac-Korpus zu suchen und die so ermittelte Häu-figkeit ihres Lemmas in unsere Berechnungen zu übernehmen. Damit riskiertenwir ein Sparse-Data-Problem, was wir allerdings den unpräzisen Daten auf Basisder Google-Suche vorzogen. Tatsächlich enthält DeWac Lemmata für fast alle vonuns verwendeten Verben. Die wenigen Ausnahmen3 berücksichtigten wir für weite-re Berechnungen nicht und behandelten MI-Faktoren mit diesen Verben als gleichNull.

3.4.4 Google-Anfragen und Extraktion von Tre!erzahlen

Um die Tre!erzahlen für eine Pattern-Instanz zu ermitteln, benutzten wir Google.Google bietet zwar eine API für automatische Suchanfragen, allerdings enthältdiese API eine Einschränkung auf 10 000 Anfragen pro Tag. Da wir für einenDurchlauf mit unseren Verbpaaren ca. 500 000 Google-Anfragen senden mussten,hätte ein Programm auf Basis der Google-API zu lange gebraucht (fast zwei Mo-nate).Als Alternative, um auf Google zuzugreifen, erstellten wir ein Skript (geschriebenin Perl), das die Einträge zu Pattern, Morphologie und Verbpaaren aus einer Da-tenbank auslas und daraus die Suchanfragen generierte und ausführte. Da Googlenormalerweise Robots keinen Zugri! gewährt, musste das Skript als Web-Crawlereine bekannte Browserkennung mitsenden, wodurch die Zugri!e wie über einen ge-wöhnlichen Web-Browser erfolgen konnten. Im Prinzip kann jede Browser-Kennungverwendet werden, wir benutzten die von Mozilla 5.0.

3Von unseren Verben in DeWac nicht lemmatisiert: abspecken, anpirschen, aufborgen, einflö-ßen, falzen, flektieren, killen, leasen, malochen, mü!eln, oxidieren, pieksen, pürieren, relaxen,schwanen, sinnieren, verarschen, walken, wehtun, zurren

20


Die URLs der Ergebnis-Seiten von Google folgen immer einem bestimmten Musterund erlauben somit Anfragen über schematisch generierte Links. Eine URL für eineSuchanfrage über die indexierten deutschen Seiten in Google konstruiert man wiefolgt:

http://www.google.de/search?hl=de&q=%22+ Anfragetext +

%22&btnG=Google-Suche&meta=

Zeilenumbrüche dienen hier lediglich der Übersichtlichkeit, im tatsächlichen Linkfolgen die hier angegebenen Zeilen ohne Leerzeichen direkt nacheinander. Die Zu-sammensetzung des Anfragetextes muss „+“ anstelle von Leerzeichen enthalten.Das angegebene Schema enthält die Einschränkung auf Dokumente in deutscherSprache („hl=de“) und die Restriktion auf exakte Suchtre!er (entsprechend derAnführungszeichen in der manuellen Suche, „%22“).Um von Google eine präzisere Tre!er-Anzahl zu erhalten (Patrick Pantel, p.c.),schlossen wir bei der Suche ein Wort aus (Attribut „-“ in der Suchmaske), das al-leine gesucht keine Tre!er erzielte. Durch Ausschluss eines solchen Begri!s zwan-gen wir Google dazu, die Schätzung der zurückgegebenen Tre!er-Anzahl genauernachzurechnen. Eine komplette Suchanfrage über die Online-Suchmaske unter Aus-schluss des Wortes „unau"ndbarekatze“ könnte so aussehen wie in Abbildung 1.Dem entspräche die automatisch generierbare Anfrage über den folgenden Link:

http://www.google.de/search?hl=de&q=%22beginnen+und+später+enden%22

+-unauffindbarekatze&btnG=Suche&meta=

Aus der HTML-Seite, die Google zurückgibt, mussten wir die Tre!erzahl extrahie-ren. Für eine deutsche Ergebnisseite kann hierzu der folgende reguläre Ausdruckbenutzt werden:

Ergebnisse.*von ungef.*b.((\d+\.)*(\d+))..b..Seiten auf..b.Deutsch

Google trennt die Tre!er-Zahlen mit Punkten, die wir entfernen mussten, um dietatsächliche Tre!erzahl zu erhalten. Wenn es keine Übereinstimmung mit demregulären Ausdruck in der Ergebnisseite gab, behandelten wir die Tre!erzahl alsgleich Null.

21


Abbildung 1: Anfrage über die Google-Suchmaske

3.5 Ergebnisse

3.5.1 System-Ausgabe

Von den 4824 Paaren, die wir als System-Eingabe benutzten, klassifizierte unserSystem 66 als zeitliches Folgen. Für insgesamt 255 stellte es einen Assoziations-Grad größer Null fest, wobei dieser für 189 Paare unter dem Cut-O! lag. Fürdie übrigen 4569 Paare gab es keine Google-Tre!er mit unseren Patterns. Die 20Verbpaare, für die unser System die höchsten Assoziations-Grade mit zeitlichemFolgen ermittelt hat, finden sich in Tabelle 9.Da zeitliches Folgen eine transitive Relation ist, können wir die erkannten Verb-paare zu größeren Handlungssträngen zusammenfügen. Abbildung 2 zeigt hierfürein Beispiel. Die Kanten des gerichteten Graphen zeigen die zeitliche Richtungan. Markiert sind die Kanten mit Gewichtungen, die den Assoziations-Graden derVerbpaare entsprechen, deren Knoten sie verbinden. Der dargestellte Graph istder größte zusammenhängende Graph, der sich aus den von unserem System alszeitliches Folgen erkannten Verbpaaren zusammensetzen ließ.

22


Abbildung 2: Chronologisch zusammengesetzter Handlungsablauf

23


Verb 1 Verb 2 Asso.-Grad Verb 1 Verb 2 Asso.-Gradverloben verheiraten 1.8650e-08 entladen laden 8.1223e-11einfrieren auftauen 1.3201e-09 leihen zurückgeben 7.4881e-11verdauen ausscheiden 6.7800e-10 kochen backen 7.2997e-11waschen trocknen 4.8027e-10 mieten kaufen 7.1313e-11erhitzen abkühlen 4.7253e-10 rauchen aufhören 5.7857e-11kauen schlucken 3.22593e-10 kneten formen 5.4014e-11

pachten kaufen 1.6920e-10 schneien frieren 5.3413e-11trennen scheiden 1.4449e-10 basteln bemalen 4.8182e-11kneten essen 1.0153e-10 kaufen bezahlen 4.5731e-11

schwimmen paddeln 8.4481e-11 biegen verformen 4.4455e-11

Tabelle 9: 20 Verbpaare mit höchster Evidenz für zeitliches Folgen

3.5.2 Evaluation

Präzision

Zur Evaluation der Präzision erhielten fünf menschliche Annotatoren ein Eva-luationsset aus 60 Verbpaaren. Alle Paare, die wir zur Bestimmung des Cut-O!verwendet haben, waren vom Evaluationsset ausgeschlossen. Von den übrigen nah-men wir die 30 Verbpaare mit den höchsten Assoziations-Graden, die laut unseremSystem zur Relation zeitliches Folgen gehörten. Von den übrigen 30 Paaren desEvaluationssets gab es für 15 einen Assoziations-Grad mit zeitlichem Folgen überNull, aber unter dem Cut-O!. Für die verbleibenden 15 Paare gab es in keinerPatterninstanz Google-Tre!er und somit einen Assoziations-Grad von 0.Die Annotations-Richtlinien entsprachen unserer Relations-Definition (vgl. Ab-schnitt 3.1); die Annotatoren sollten angeben, ob beim gemeinsamen Auftretender Verben eines Verbpaares das erste Verb typischerweise vor dem zweiten auf-tritt (und damit zeitliches Folgen vorliegt).Tabelle 10 zeigt das Gesamt-Ergebnis der Annotation, absteigend geordnet nachden Assoziatons-Graden der Verbpaare mit zeitlichem Folgen, die unser Systemerrechnet hat. Die linke Hälfte der Tabelle besteht aus Verben, die das System alszeitliches Folgen erkannte, in der rechten Hälfte stehen die Paare, deren Assozia-tions-Grade unter dem Cut-O! liegen. Die Spalte „Anno.“ gibt an, wie viele derfünf Annotatoren das jeweilige Verbpaar als zeitliches Folgen eingeordnet haben.Die fünf Annotatoren hatten im Schnitt ein Inter-Annotator-Agreement von Kap-pa = 0,54. Dieser Wert ist der Mittelwert aus den paarweise bestimmten Kappa-Werten, die von 0,35 bis 0,75 reichen. Während der Wert von 0,54 laut der Cohen-

24


Skala (Cohen 1960) auf unzuverlässige Daten schließen lässt, deckt sich diesesInter-Annotator-Agreement mit dem Ergebnissen aus anderen Experimenten fürsemantische Annotation. Bei einem ähnlichen Experiment zur Annotation unter-schiedlicher Verbrelationen (vgl. Abschnitt 3.1 und Evaluation des Recalls) lag derdurchschnittliche Kappa-Wert bei 0,28, der für zeitliches Folgen bei 0,6.Wir entschieden uns dafür, unseren Gold-Standard nach Mehrheitsentscheidungender Annotatoren aufzubauen. Jedes Verbpaar, das drei Mal oder öfter als zeitlichesFolgen annotiert wurde, zählten wir zu dieser Relation, alle anderen gehörten nachdieser Definition nicht dazu.Im Vergleich mit dem Gold-Standard erreichte unser System eine Präzision von50%, berechnet wie in Formel 20 angegeben. zf steht hier für die Paare, die alszeitliches Folgen klassifiziert wurden. Sys gibt an, dass das System die Paare soklassifiziert hat, Gold steht für die Klassifizierung im Gold-Standard.

Pr. =zf (Sys & Gold)

zf(Sys)(20)

Kappa

Wie Chklovski & Pantel haben auch wir unser System zusätzlich evaluiert, indemwir die Übereinstimmung mit den Annotatoren über die Kappa-Statistik bestimmthaben. Verglichen mit unserem Gold-Standard ergibt sich ein Kappa-Wert von0,33. Nach Cohen müssten wir diesen Wert, ohne Kontext, als schlecht betrachten.Bedenkt man, dass die beiden „uneinigsten“ Annotatoren nur einen Kappa von0,35 erreichten, relativiert das die Cohen-Skala in diesem Falle etwas – zumindestkönnen wir feststellen, dass das Ergebnis mit der Übereinstimmung menschlicherAnnotatoren für das Zuordnen semantischer Relationen vergleichbar ist.

Recall

Den Recall eines Systems zu ermitteln ist typischerweise problematisch, wenn fürdie Aufgabenstellung des Systems keine annotierten Daten vorliegen. Somit wardie Art der Berechnung des Recalls auch für VerbOzean nicht klar. Einen „abso-luten“ Recall anzulegen scheiterte bereits daran, dass unsere Liste mit Verbpaarennicht alle denkbaren assoziierten Verbpaare enthielt und wir sie auch nicht auf Voll-ständigkeit überprüfen konnten. Hilfsweise betrachteten wir Recall als Verhältnisvon den Verbpaaren, die unser System aus einer Menge von Paaren als zeitlichesFolgen erkennt und den Paaren, die Menschen aus der gleichen Menge von Paarenals zeitliches Folgen akzeptieren. Das Evaluationsset, das wir zur Ermittlung der

25


Präzision benutzt haben, ist hierfür allerdings ungeeignet, da wir den Anteil anvom System erkannten Verbpaaren absichtlich groß wählten.Wir verglichen die System-Ergebnisse mit einem zufällig zusammengestellten An-notationsset aus 127 Verbpaaren, die aus dem gleichen Assoziationsexperimentstammen wie die, die wir für VerbOzean benutzten (Schulte im Walde undMelinger 2005). Die Verbpaare des Sets untersuchten zwei Annotatoren auf dasVorliegen von zeitlichem Folgen hin. Da diese Annotation nicht direkt aus un-seren Versuchen stammte, entsprachen die Annotations-Richtlinien nicht genauunserer Relationsdefinition, z.B. spielte die Präferenz für eine bestimmte Richtungder Relation nur bei uns eine Rolle. Die beiden Annotatoren erreichten ein Inter-Annotator-Agreement von Kappa = 0,59 (vgl. Abschnitt 3.1).

Recall =zf (Sys & Gold)

zf(Gold)(21)

Für den Gold-Standard zählten wir die 38 Paare, die beide Annotatoren als zeit-liches Folgen akzeptieren, zu der Relation. Der Recall berechnete sich daraus wiein Formel 21 beschrieben und lag bei 5%.

Vergleich mit VerbOcean

Chklovski & Pantel bestimmten die Präzision von VerbOcean durch Abgleichder Systemergebnisse mit jedem einzelnen Annotator und anschließender Bildungdes Mittelwertes (vgl. Abschnitt 2.4). Diese Methode erschien uns nur für sehr ho-hes Inter-Annotator-Agreement geeignet. Angenommen, ein Annotator würde diePräzision des Systems als 100% evaluieren, ein anderer nur als 40%, wäre die end-gültige Präzision bei 70%, wobei der Annotator, der alles als richtig akzeptiert hat,möglicherweise nicht als verlässlich eingestuft werden und der direkte Abgleich mitdem zweiten Annotator erfolgen sollte. Nach unserer Methode würde das Systemhier mit einer Präzision von 40% evaluiert.Um unsere Ergebnisse mit VerbOcean vergleichen zu können, berechneten wirdie Präzision nochmals so wie Chklovski & Pantel für ihre Ergebnisse. Bezogen aufdie Evaluation einzelner Annotatoren reichten die Präzisions-Werte von Verb-Ozean von 40% bis 63,3%, der Mittelwert aus allen fünf Annotationen lag bei51%.Die Durchschnitts-Präzision für die Relation happens-before in VerbOcean lagbei 67,6%, wobei für das Inter-Annotator-Agreement kein Kappa als Vergleichswertvorliegt. In der Evaluation von VerbOcean bewerteten die Annotatoren 17 alshappens-before markierte Paare (im Vergleich zu 30 Paaren in VerbOzean, wasfast die Hälfte der von unserem System erkannten Paare ausmacht). Die Ergebnisse

26


sind also durchaus in einem ähnlichen Rahmen. Da Chklovski & Pantel keinenäheren Angaben zu der Enstehung der Kappa-Werte in VerbOcean machen,konnten wir die Kappa-Werte nicht vergleichen.Zu Recall äußern sich Chklovski & Pantel nicht. Um unser Ergebnis von 5% ein-ordnen zu können, betrachteten wir hilfsweise die Evaluation des Systems ES-PRESSO (Pantel und Pennacchiotti 2006), die unterschiedliche, auf Oberflächen-Patterns basierende Systeme zum Erlernen von semantischen Relationen miteinan-der vergleicht. Alle bewerteten Systeme implementieren unterschiedliche Algorith-men zum automatischen Erlernen von Patterns. Pantel & Pennacchiotti berechne-ten keinen absoluten Recall, sondern verwendeten ein System als „Baseline“ undgeben an, um welchen Faktor der Recall der anderen Systeme besser (bzw. schlech-ter) war. Dieser „relative Recall“ reichte bei den drei evaluierten Systemen von 0,23bis zu 577,22. Durch bessere Heuristiken zum Lernen von Patterns erzielten dieAlgorithmen also einen bis zu 577-fach besseren Recall – der Ausgangs-Recall mussdemnach kleiner gewesen sein als 0,17%. Vor dem Hintergrund, dass die Systemeneben wenigen manuell erstellten Patterns fast ausschließlich automatisch erlerntePatterns benutzen, wäre ein besseres Ergebnis als 5% für unser System ungewöhn-lich hoch.

4 Diskussion

Im Folgenden diskutieren wir einige Aspekte unseres Systems, die man sowohlzur Einordnung unserer Ergebnisse als auch für mögliche Systemverbesserungenberücksichtigen sollte. Wir betrachten kritisch die Evaluation durch menschlicheAnnotatoren, unsere Relationsdefinition, das Web als Korpus-Grundlage für einSystem und Mutual Information als Assoziationsmaß.

4.1 Evaluation durch Annotation

Semantische Relationen sind Relationen zwischen Wortbedeutungen, nicht zwi-schen Wort-Types. Unser System unterscheidet aber nicht zwischen einzelnen Wort-bedeutungen, sondern gibt nur Wort-Types zurück. Die Annotatoren erhaltenebenfalls Listen mit Wort-Types und müssen die zugehörigen Wortbedeutungenrekonstruieren. Zwei Probleme entstehen dabei durch Ambiguitäten:

• Ein Annotator kann annehmen, die Relation müsse zwischen allen Bedeutun-gen der Worte vorliegen. Nach dieser Richtlinie hätte man z.B. für verdauen

27


Vom

Syst

emal

sze

itlic

hes

Folg

enkl

assi

fizie

rtVom

Syst

emni

cht

als

zeitl

iche

sFo

lgen

klas

sifiz

iert

Ver

b1

Ver

b2

Ann

o.A

sso.

-Gra

dVe

rb1

Verb

2A

nno.

Ass

o.-G

rad

verlob

enve

rhei

rate

n5

1.86

49e-

08su

chen

frag

en4

9.29

01e-

13ei

nfrier

enau

ftau

en5

1.32

01e-

09ve

rans

chau

liche

nbe

schr

eibe

n1

7.04

50e-

13ve

rdau

enau

ssch

eide

n5

6.78

10e-

10fin

den

bem

erke

n1

5.08

40e-

13w

asch

entr

ockn

en5

4.80

27e-

10fr

esse

ntö

ten

03.

6893

e-13

erhi

tzen

abkü

hlen

54.

7253

e-10

able

gen

lege

n1

1.81

77e-

13ka

uen

schl

ucke

n5

3.22

59e-

10ve

ränd

ern

verb

esse

rn1

9.11

34e-

14pa

chte

nka

ufen

21.

6920

e-10

fahr

enge

hen

04.

1903

e-14

tren

nen

sche

iden

31.

4449

e-10

guck

ense

hen

03.

7923

e-14

schw

imm

enpa

ddel

n0

8.44

81e-

11st

ehen

häng

en2

3.62

27e-

14en

tlad

enla

den

18.

1223

e-11

dien

enhe

lfen

03.

0976

e-14

leih

enzu

rück

gebe

n5

7.48

81e-

11bi

tten

frag

en0

2.78

34e-

14ko

chen

back

en0

7.29

97e-

11w

isse

nve

rges

sen

41.

7473

e-14

mie

ten

kauf

en3

7.13

13e-

11da

rste

llen

zeig

en1

1.12

49e-

14ra

uche

nau

fhör

en5

5.78

57e-

11w

arte

nst

ehen

05.

8452

e-15

schn

eien

frie

ren

15.

3413

e-11

erkl

ären

sage

n0

2.01

33e-

15pf

eife

nsi

ngen

04.

7203

e-12

bitt

enhe

lfen

50

mal

enba

stel

n0

4.48

48e-

12qu

iets

chen

ölen

50

bela

sten

entlas

ten

33.

9728

e-12

bew

unde

rnve

rehr

en3

0ve

rgift

entö

ten

23.

2081

e-12

erm

ange

lnbr

auch

en2

0lie

ben

vert

raue

n1

3.14

88e-

12gl

aube

nve

rtra

uen

20

spring

enla

ufen

03.

0990

e-12

antw

orte

nbe

antw

orte

n1

0m

erke

nno

tier

en3

3.07

90e-

12un

terr

icht

enle

rnen

10

mot

ivie

ren

bege

iste

rn2

2.71

09e-

12ve

rlei

hen

sche

nken

10

erm

ahne

ndr

ohen

42.

0441

e-12

zurü

ckbe

kom

men

verlei

hen

10

bege

iste

rnüb

erze

ugen

21.

9395

e-12

back

enm

isch

en0

0au

ftei

len

tren

nen

11.

9388

e-12

bedr

ohen

droh

en0

0le

sen

schr

eibe

n0

1.88

87e-

12en

twic

keln

nach

denk

en0

0st

olpe

rnfa

llen

51.

8446

e-12

raus

gehe

nve

rlas

sen

00

erla

uben

verb

iete

n0

1.13

72e-

12re

isen

weg

fahr

en0

0er

kenn

enan

alys

iere

n4

1.03

00e-

12ve

rges

sen

verd

räng

en0

0

Tabelle 10: Evaluationsset

28


– ausscheiden kein zeitliches Folgen: Ausscheiden in den Bedeutungen „eineTätigkeit aufgeben und eine Gruppe verlassen“, „nicht mehr an einem Wett-bewerb teilnehmen dürfen“ oder „etwas Unbrauchbares aussortieren“ steht inkeinem zeitlichen Verhältnis zu verdauen im organischen Sinne. Die Bedeu-tung des körperlichen Vorgangs ausscheiden bildet jedoch mit verdauen einPaar mit starker Präferenz für zeitliches Folgen.

• Ein umgekehrtes Problem entsteht, da die Annotatoren nicht immer an alleWortbedeutungen denken können. Wenn sich ein Annotator für ‚nein‘ ent-scheidet, heißt das, dass die Verben in keiner von ihm beachteten Lesart inder zu annotierenden Relation stehen. Beispielsweise hat nur ein Annotatorschneien – frieren als zeitliches Folgen markiert. Als Begründung gegen dieRelationszuordnung gaben Annotatoren oft an, dass Personen auch Kältespüren könnten bevor es schneie. Bedenkt man aber, dass frieren sich nichtauf Personen beziehen muss, sondern dass z.B. die Straße und deren Eisbe-deckung gemeint sein kann, erhält man eine viel stärkere Präferenz für einezeitliche Abfolge.

Eine system-basierte Evaluation, etwa den Einfluss von VerbOzean-Daten aufInformation-Retrieval-Systeme oder für automatische Textzusammenfassung, wäreinteressant. Die Bedingungen für solche Tests herauszuarbeiten und zu scha!enkönnte Gegenstand zukünftiger Arbeit sein.

4.2 Definition der Relation zeitliches Folgen

Für unser System führen wir eine Definition von zeitlichem Folgen ein (vgl. Ab-schnitt 3.1). Diese Definition ist möglicherweise nicht vollständig und eindeutiggenug.

4.2.1 Eindeutigkeit

Unsere Definition von zeitlichem Folgen besagt, dass ein Verbpaar v1 – v2 dann zudieser Relation gehört, wenn beim gemeinsamen Auftreten der beiden Verben v2typischerweise nach v1 passiert. Hierbei lassen wir o!en, was typischerweise genaubedeutet und überlassen dies der Intuition – eine Definition hiervon wäre aller-dings wichtig, um unser System zu beurteilen, zumal die Grenzen des „Typischen“fließend sind.Laut unserem System hat z.B. das Verbpaar kochen – backen einen hohen Assozia-tions-Grad mit zeitlichem Folgen, was keiner der Annotatoren als richtig akzeptier-te. Ausnahmslos alle Dokumente, die Tre!er für dieses Paar enthaielten, beschrie-

29


ben Rezepte für Bagels. Dieses Gebäck wird tatsächlich zuerst gekocht und danngebacken, demnach ist kochen # backen eine für diesen Vorgang charakteristischezeitliche Abfolge. Dennoch sehen wir in diesem Paar keinen typischen zeitlichenHandlungsablauf, da diese Abfolge nur in diesem speziellen Kontext vorkommt.Möglicherweise würden wir diese Meinung aber ändern, wenn es mehr Rezeptegäbe, in denen man Teig zuerst kocht und dann bäckt.Wo hier die Grenze liegt, können wir nur intuitiv abschätzen. Um das Systemzu optimieren, müsste man diese Intuition konkret formalisieren. Beispielsweisekönnte man festlegen, dass ein Verbpaar wie kochen – backen, das nur in einemeinzigen Handlungs-Kontext als zeitliches Folgen auftaucht, nicht zu der Relationgehört. Um das zu implementieren, müsste VerbOcean Ähnlichkeiten zwischenSuchtre!ern erkennen und solche Paare ausschließen, deren Tre!er alle aus demselben (ggf. seltenen) Kontext stammen.

4.2.2 Vollständigkeit

Für die Definition von zeitlichem Folgen haben wir, in Anlehnung an VerbOcean,deutliche Anti-Symmetrie gefordert, d.h. wir verlangen eine klare Präferenz für einebestimmte zeitliche Reihenfolge der beiden Verben. Ob wir damit alle Verbpaareerfassen, in denen eine typische zeitliche Abfolge vorliegt, bleibt fraglich – vor allemfür Verben, die in ständigen Zyklen auftreten.Für das Verbpaar blitzen – donnern sowie für das inverse Paar donnern – blitzenstellte unser System keine chronologische Relation fest, weil es keine Präferenz füreine bestimmte Reihenfolge gab (der Assoziations-Grad für beide Paare war etwagleich hoch). Dennoch würde man wohl für den Ablauf eines Gewitters entschei-den, dass blitzen und donnern in einer zeitlichen Abfolge stehen. Hierbei spielteine Präferenz keine Rolle (unhabhängig von den physikalischen Gegebenheiten):Intuitiv weiß man, dass das Auftreten eines der beiden wahrscheinlich das anderenach sich ziehen wird.Ähnliches gilt für Reversive. Nach (Cruse 1986) sind Reversive solche Verbpaare,die eine Bewegung oder einen Zustandswechsel in gegensätzliche Richtungen be-zeichnen (z.B. ö!nen – schließen). „Abhängige Reversive“ (Restitutive) sind Verb-paare, bei denen zwangsläufig das erste Verb vor dem zweiten passieren muss.Diese Reversive sind ein Spezialfall unserer Definition von zeitlichem Folgen: Wiebei beschädigen – reparieren geschieht typischerweise die erste Handlung vor derzweiten – bevor man etwas reparieren kann, muss es zunächst beschädigt werden(und nicht umgekehrt).Anders verhält es sich mit „unabhängigen Reversiven“: Für manche davon existiertzwar eine intuitiv präferierte zeitliche Reihenfolge, laut (Cruse 1986) eine starke

30


pragmatische Erwartung (z.B. beladen # entladen), allerdings wäre erstens derumgekehrte Ablauf als zeitliche Folge ebenso plausibel und zweitens jeder Vorgangauch ohne das Vorausgehen des anderen denkbar. Solche Verbpaare gehören nachunserer Definition zu zeitlichem Folgen – allerdings gibt es keinen Konsens darüber,was eine „starke pragmatische Erwartung“ ausmacht (vgl. Abschnitt 4.2.1), weshalbeine eindeutige Relationszuordnung scheitert.Für manche Reversive gibt es gar keine pragmatische Erwartung (beugen – stre-cken), womit dann Gleiches gilt wie für den Ablauf von donnern – blitzen: Diebeiden Vorgänge können zyklisch auftreten, ohne eine bevorzugte Reihenfolge,passieren dennoch häufig zeitlich nacheinander. Solche Reversive umfasst unsereDefinition von zeitlichem Folgen nicht.

4.3 Das Web als Korpus

Das Internet wird als linguistische Ressource immer populärer: Neben diversenPublikationen der letzten Jahre existiert auch seit 2005 der internationale „Web asCorpus Workshop“ und seit 2006 die „Special Interest Group Web as Corpus“ (SIG-WAC) der Association for Computational Linguistics. Wie unter anderem mit die-ser Arbeit bewiesen, bietet das Internet viel Potential dafür, bekannte Ressourcen-Probleme in der Korpuslinguistik zu bekämpfen:

• Das Internet ist multilingual, es bietet Daten für eine Vielzahl von Sprachen.Eine deutsche Version von VerbOcean kann unter anderem deswegen ent-stehen, weil wir mit Google die gleiche Ressource wie Chklovski & Pantelnutzen können, ohne über einen deutschsprachigen Ersatz des Korpus derenglischen Vorlage nachdenken zu müssen.

• Das Sparse-Data-Problem, das bei üblichen Korpora immer wieder auftritt,kann durch die Nutzung des Internets begrenzt werden, da es die größte ver-fügbare Textressource ist. Selbst vergleichsweise große Korpora wie das vonuns verwendete DeWac-Korpus (Baroni und Kilgarri! 2006) können in dieserHinsicht nicht mit dem Internet konkurrieren: Diverse Testläufe mit unserenDaten zeigen, dass unser System auf Grundlage des DeWac-Korpus für keineeinzige Pattern-Instanz Suchtre!er (und damit positive Assoziations-Grade)erzielen würde.

• Das Internet ist frei zugänglich. Zwar muss man auch für Internet-Texte ggf.Copyright-Fragen klären, aber für eine reine Datensammlung wie in demvorliegenden Ansatz kann der Zugri! auf die gesamte Datenmenge ohne Ein-schränkungen durch Lizenzen oder Kosten erfolgen.

31


Für die Nutzung der enormen Datenfülle des Webs muss man allerdings auf mancheSuchmöglichkeiten verzichten, die linguistisch aufgearbeitete Korpora bieten:

• Internet-Suchmaschinen bieten keine linguistischen Informationen wie POS-Tags oder Lemmata. Wo diese Information benötigt wird, muss man entwederdie abgerufenen Daten nachbearbeiten oder die Suche mit oberflächennahenMethoden (vgl. Verbfrequenz-Bestimmung in VerbOcean) weit genug ein-schränken – je nach Sprache und Aufgabenstellung gestaltet sich aber vorallem Letzteres möglicherweise als äußerst komplex und damit auch fehler-trächtig. Eben diese Problematik war z.B. für uns der Anlass, Verbfrequen-zen auf einem Korpus zu bestimmen und dadurch das Sparse-Data-Problemeinem POS-Disambiguierungs-Problem vorzuziehen (vgl. Kap. 3.4.2).

• Google rechnet aus der Suchergebnis-Anzahl keine Duplikate heraus. Wäh-rend bei der Suche über die Internet-Suchmaske sehr ähnliche Tre!er nichtsofort angezeigt werden, zählt Google diese versteckten Duplikate in derSchätzung der Suchtre!er-Anzahl dennoch mit.Die Suchanfrage für die Patterninstanz kannst und später weißt liefert z.B.43 Seiten laut Google. Die Online-Suchmaske zeigt davon nur vier an undversteckt zunächst die anderen als ähnliche Tre!er. Tatsächlich stammenalle 43 Suchergebnisse aus exakt dem gleichen Kontext4, was die tatsächlicheHäufigkeit der Pattern-Instanz stark verzerrt.

• Die Vereinfachungen der Suchanfragen, die Google vornimmt, bringen wei-tere Einschränkungen mit sich:

– Eine Suche nach Satzzeichen ist nicht möglich. Für viele Oberflächen-Patterns wäre diese Option jedoch wünschenswert, um (Neben-) Satz-grenzen zu erkennen.

– Groß- und Kleinschreibung beachtet Google nicht. Dies nimmt demBenutzer z.B. Möglichkeiten für die Erkennung von Substantiven durchoberflächennahe Methoden.

4.4 Mutual Information als Assoziationsmaß

PMI ist bekannt dafür, dass sie die Assoziationsstärke für selten auftretende Ereig-nisse überschätzt (Manning und Schütze 1999). Für unser System bedeutet das,

4„Die meisten dieser Manager Games oder manager spiele sind in English und Deutsch, washeisst, das du dich in den spielen mit internationalen Mitspielern messen kannst und späterweisst, wer die Manager spiel am besten drauf hat.“ (sic!)

32


dass die Assoziations-Grade für seltene Verben zu einer Relation höher sind alsdie für häufigere Verben, bei denen wir intuitiv einen ähnlichen Assoziations-Gradvermuten würden.Beispielsweise findet unser System für das Verbpaar schwimmen - paddeln ins-gesamt lediglich drei Suchtre!er. Die beiden Verben tauchen im DeWac-Korpusvergleichsweise selten auf: Bei einem Durchschnitt von 105786 Korpus-Tre!ernpro Verb findet sich paddeln 1065 Mal, schwimmen 22009 Mal im Korpus. Listetman alle Verbpaare, die unser System als zeitliches Folgen akzeptiert, absteigendnach ihrem Assoziations-Grad auf, steht das Paar schwimmen - paddeln an zehnterStelle. Zum Vergleich: Das Verbpaar kaufen - bezahlen besitzt einen Assoziations-Grad, der halb so groß ist wie der von schwimmen - paddeln, während die Summealler Google-Tre!er hier 216 beträgt.Gegenstand weiterer Arbeit könnte es sein, unterschiedliche Assoziationsmaße fürdas System zu testen; die Aussagekraft einiger davon wurde z.B. von Dunning(1993) evaluiert oder kürzlich von Evert (2005).

5 Zusammenfassung und Schlussgedanken

5.1 Zusammenfassung

Wir haben VerbOzean präsentiert, ein webbasiertes System, das automatischsemantische Verbrelationen erkennt. Für VerbOzean haben wir die Architekturdes Systems VerbOcean übernommen und für das Deutsche angepasst. UnserSystem haben wir zunächst auf die Relation zeitliches Folgen beschränkt, aberdie Architektur für die Erweiterung um andere Relationen ausgelegt. Lexikalisch-syntaktische Patterns, die typisch für die Relation zeitliches Folgen sind, habenwir mit Verbpaaren aus einem Assoziationsexperiment instantiiert und die Google-Tre!er für jede Paar-Pattern-Kombination gezählt. Mit Hilfe eines von PMI abge-leiteten Assoziationsmaßes haben wir festgestellt, ob ein Pattern und ein Verbpaarhäufiger zusammen auftreten, als man bei statistischer Unabhängigkeit erwartethätte. Jedes Verbpaar, das einen festgelegten Cut-O! für die Assoziationsstärkeüberschreitet, hat unser System der Relation zeitliches Folgen zugeordnet. DieEvaluation durch fünf Annotatoren ergab eine Präzision von 50%, eine Abschät-zung des Recall ergab einen Wert von 5%. Abschließend haben wir einige Aspekteunseres Ansatzes und des Systems von VerbOcean allgemein diskutiert.

33


5.2 Ansätze für weitergehende Arbeit

Nächste Schritte zum Ausbau von VerbOcean müssten besonders an folgendenStellen ansetzen:

1. Präzisere Berechnung des Assoziationsmaßes:Um aussagekräftigere Informationen über die Assoziationsstärke von Verbenund Patterns zu bekommen, müsste man sowohl eine Alternative zu Mutu-al Information finden als auch die Abschätzung der Suchmaschinen-Tre!erverbessern. Duplikate dürften für die Tre!er-Anzahl nicht berücksichtigt wer-den. Hierfür müsste man alle von Google zurück gelieferten Tre!er betrach-ten und feststellen, ob die Patterninstanzen mehrmals in sehr ähnlichem odergleichem Kontext auftauchen.

2. Erweiterung um neue Relationen:Durch Bestimmen neuer Relationen und zugehöriger Patterns könnte Verb-Ozean ein größeres Spektrum für Verbrelationen abdecken. Die vorhandeneArchitektur haben wir bereits darauf ausgerichtet.

3. Automatische Extraktion von Verbpaaren:Um mit mehr Ausgangsdaten arbeiten zu können, sollte man einen Weg fin-den, um Verbpaare automatisch zu extrahieren. Ein Ansatz hierfür wäre, inAnlehnung an (Lin und Pantel 2001) einen auf Dependenzbäumen operie-renden Algorithmus für Deutsch zu implementieren.

4. Sammeln von mehr lexikalisch-syntaktischen Patterns:Zur Verbesserung des Recalls braucht das System mehr Patterns. Neben wei-terem manuellem Sammeln könnte man auch den bereits existierenden Al-gorithmus „ESPRESSO“ (Pantel und Pennacchiotti 2006) aufgreifen und fürDeutsch neu implementieren. Espresso benutzt ein Bootstrapping-Verfahren,das ausgehend von einigen Verbpaaren in bekannter Relation Patterns fürdiese Relation extrahiert und diesen Prozess zyklisch fortsetzt. Das Systemordnet jedem Pattern ein Verlässlichkeitsmaß zu, das auf Präzision und Re-call basiert; Patterns mit hohem Recall und kleiner Präzision werden zurExtraktion neuer Instanzen verwendet, und die Instanzen danach unter Ver-wendung von Patterns mit hoher Präzision verifiziert oder verworfen.

5. Verfeinerung der Morphologie-Restriktionen: Um die Patterns möglichst prä-zise zu machen und gleichzeitig möglichst hohen Recall zu erreichen, könnteeine feinere Einschränkung der Morphologie in den Patterns helfen. Unter-suchen könnte man auch typische Konstellationen von Tempora und Modi.Unsere Einschränkungen auf Partizip Perfekt bzw. Kongruenz erschienen

34


uns weitgehend adäquat. Möglicherweise wäre aber z.B. die Bedingung, dassbeide Verben in einer Pattern-Instanz kongruent sein müssen, auch ausrei-chend für die Präzisions-Verbesserung der Patterns, die wir auf Partizip Per-fekt einschränken. Da wir beide Restriktionen unabhängig voneinander undin unterschiedlicher Motivation einführten, haben wir zunächst nicht über-prüft, ob die Beschränkung auf Partizipien die Präzision gegenüber kongru-enten Verbpaaren wirklich signifikant verbessert – dafür wären ausführlichereKorpus-Analysen notwendig, als es der Rahmen dieser Arbeit erlaubte.

6. Integration in bestehende Ontologien:Die von VerbOzean produzierten Daten sollten in bestehende Ontologienwie GermaNet integriert werden können. Voraussetzung hierfür wäre auchein geeigneter Umgang mit der Unterscheidung von Wortbedeutungen (WordSense Disambiguation). Generische Ansätze zum Kombinieren von automa-tischen Ansätzen zur Wissensextraktion und bestehenden Ontologien findensich beispielsweise bei Snow, Jurafsky und Ng (2006) und Pennacchiotti undPantel (2006).

35


Literatur

Baroni, Marco und Kilgarri!, Adam: Large linguistically-processed Web Cor-pora for multiple languages. In Proceedings of EACL-2006. 2006

Chklovski, Timothy und Pantel, Patrick: VerbOcean: Mining the Web forFine-Grained Semantic Verb Relations. In Proceedings of EMNLP-04. 2004

Cohen, James: A Coe"cient of Agreement for Nominal Scales. Educational andPsychological Measurement, 20 1960, 47–46

Cruse, D.A. (Hrsg.): Kap. 10.5 Opposites II: directional opposition In LexicalSemantics. Cambridge University Press, 1986

Dunning, Ted: Accurate methods for the statistics of surprise and coincidence.Computational Linguistics, 19 1993, Nr. 1, 61–74, ISSN 0891–2017

Evert, Stefan: The statistics of word cooccurrences : word pairs and collocati-ons. Dissertation, Institut für maschinelle Sprachverarbeitung, University ofStuttgart, 2005

Girju, Roxana, Badulescu, Adriana und Moldovan, Dan: Automatic Dis-covery of Part-Whole Relations. Computational Linguistics, 32 2006, Nr. 1,83–135

Girju, Roxana und Moldovan, Dan I.: Text Mining for Causal Relations. InFLAIRS Conference. 2002, 360–364

Haapalainen, Mariikka und Majorin, Ari: GERTWOL: Ein System zurautomatischen Wortformerkennung deutscher Wörter. Online einsehbar,http://www.ifi.unizh.ch/CL/volk/LexMorphVorl/Lexikon04.Gertwol.html,1994

Hamp, Birgit und Feldwig, Helmut: GermaNet — A Lexical-Semantic Net forGerman. In Vossen, Piek et al. (Hrsg.): Automatic Information Extracti-on and Building of Lexical Semantic Resources for NLP Applications. NewBrunswick, New Jersey: Association for Computational Linguistics, 1997,9–15

Harris, Zellig: Distributional Structure. Word 10 1954

Hearst, Marti A.: Automatic Acquisition of Hyponyms from Large Text Cor-pora. In Proceedings of 14th International Conference on ComputationalLinguistics. 1992

36


Keller, Frank: Using the Web to Obtain Frequencies for Unseen Bigrams. Com-putational Linguistics, 29 2003, Nr. 3, 459–484

Levin, Beth: English verb classes and alternations: A preliminary investigation.Band XVIII, Chicago: University of Chicago Press, 1993

Lin, Dekang und Pantel, Patrick: DIRT – Discovery of Inference Rules fromText. In Proceedings of ACM Conference on Knowledge Discovery and DataMining KDD-01. 2001

Liu, Vinci und Curran, James R.: Web Text Corpus for Natural LanguageProcessing. In Proceedings of EACL-2006. 2006

Manning, Christopher und Schütze, Hinrich: Kap. 5.4 In Foundations ofStatistical Natural Language Processing. MIT Press, 1999

Miller, George A.: WordNet: a lexical database for English. Commun. ACM,38 1995, Nr. 11, 39–41

Pantel, Patrick und Pennacchiotti, Marco: Espresso: Leveraging GenericPatterns for Automatically Harvesting Semantic Relations. In Proceedingsof COLING/ACL-06. Sydney, Australia, 2006

Pennacchiotti, Marco und Pantel, Patrick: Ontologizing Semantic Relations.In Proceedings of COLING/ACL-06. Sydney, Australia, 2006

Schmid, Helmut: Probabilistic Part-of-Speech Tagging Using Decision Trees.In International Conference on New Methods in Language Proces-sing. Manchester, UK, 1994, Online einsehbar unter http://www.ims.uni-stuttgart.de/projekte/corpley/TreeTagger, 44–49

Schulte im Walde, Sabine und Melinger, Alissa: Identifying Semantic Rela-tions and Functional Properties of Human Verb Associations. In Proceedingsof the joint Conference on Human Language Technology and Empirial Me-thods in Natural Language Processing. Vancouver, Canada, 2005, 612–619

Siegel, Sidney und Castellan, N. John Jr.: Nonparametric Statistics for theBehavioral Sciences. McGraw-Hill Education, 1998

Snow, Rion, Jurafsky, Daniel und Ng, Andrew Y.: Semantic TaxonomyInduction from Heterogenous Evidence. In Proceedings of COLING/ACL-06. Sydney, Australia, 2006

37


Stevenson, Suzanne und Joanis, Eric: Semi-supervised Verb Class Discove-ry Using Noisy Features. In Daelemans, Walter und Osborne, Miles(Hrsg.): Proceedings of CoNLL-2003. Edmonton, Canada, 2003, 71–78

Zhu, X. und Rosenfield, R.: Improving Trigram Language Modeling With TheWorld Wide Web. In Proceedings of ICASSP. 2001

38

Ve rbOze a n - coli.uni-saarland.deregneri/docs/BSc_MR.pdf · Zus a mmenfass ung In di eser A rb...

Documents

Transcript of Ve rbOze a n - coli.uni-saarland.deregneri/docs/BSc_MR.pdf · Zus a mmenfass ung In di eser A rb...