Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer...

35
Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund

Transcript of Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer...

Page 1: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

Analyse thematischer Strukturen: Annotation und Automation

Irene Cramer und Angelika Storrer

Institut für deutsche Sprache und LiteraturUniversität Dortmund

Page 2: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 2

Inhaltsübersicht

• Motivation und Projektkontext

• Darstellung thematischer Strukturen auf der Basis lexikalischer Ketten– Automatische Berechnung: GLexi– 3 Annotationsexperimente

Page 3: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 3

Projektkontext

• Projekt HyTex:HyTex: „HyHypertextualisierung auf textextgrammatischer Grundlage“; Teilprojekt der DFG-Forschergruppe Texttechnologische Informations-modellierung

• Hypertextualisierung …Hypertextualisierung …Aufbereitung von linear organisierten Dokumenten für die selektiven, interaktiven Nutzungsformen in einem Hypertextsystem.

• … … auf textgrammatischer Grundlageauf textgrammatischer Grundlagekeine einfache 1:1-Konversion, sondern Erzeugung von Hypertextsichten auf der Basis textgrammatischer Annotationen, die die Vorteile (Mehrwerte) von Hypermedien bei der selektiven Lektüre ausschöpfen.

Page 4: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 4

Miguel de Cervantes Saavedra Geboren am 29.09.1547 in Alcalá de Henares, gestorben am 23.04.1616 in Madrid.

Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf. 1569 geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden.Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil.

Literarisches SchaffenSein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach.Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt. 1604 geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote.

Miguel de Cervantes Saavedra stirbt 1616 in Madrid.

Thematische Strukturen

xxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Page 5: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 5

Miguel de Cervantes Saavedra Geboren am 29.09.1547 in Alcalá de Henares, gestorben am 23.04.1616 in Madrid.

Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf. 1569 geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden.Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil.

Literarisches SchaffenSein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach.Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt. 1604 geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote.

Miguel de Cervantes Saavedra stirbt 1616 in Madrid.

Thematische Strukturen

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Inhalt

Kapitel 1

Kapitel 2

Kapitel 2.1

Kapitel n

Page 6: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 6

Miguel de Cervantes Saavedra Geboren am 29.09.1547 in Alcalá de Henares, gestorben am 23.04.1616 in Madrid.

Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf. 1569 geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden.Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil.

Literarisches SchaffenSein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach.Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt. 1604 geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote.

Miguel de Cervantes Saavedra stirbt 1616 in Madrid.

Thematische Strukturen

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Inhalt

Kapitel 1 Themenbezeichner

Kapitel 2 Themenbezeichner

Kapitel 2.1 Themenbezeichner 1 und 2

Kapitel n Themenbezeichner

Page 7: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 7

Thematische Strukturen (cont.)

• Erweiterung des Prototyps aus Phase I (vgl. www.hytex.info) u.a. um Themenkarten

• Themenkarte:Themenkarte:– ausgehend von Themenketten bzw. lexikalischen

Ketten– Darstellung als Themenkarte (~thematischer Index)– thematisch motivierte Verlinkung von

Themenbezeichnern

• Idee: Verbesserung der Orientierung für Rezipient

Page 8: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 8

Inhaltsübersicht

• Motivation und Projektkontext

• Darstellung thematischer Strukturen auf der Basis lexikalischer Ketten– Automatische Berechnung: GLexi– 3 Annotationsexperimente

Page 9: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 9

Lexikalische Ketten - Beispiel

Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.

Page 10: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 10

Lexikalische Ketten - Beispiel

Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.

Page 11: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 11

Lexikalische Ketten – Beispiel

Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.

Page 12: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 12

Lexikalische Ketten – Beispiel

Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.

Page 13: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 13

Lexikalische Ketten – Beispiel

Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.

Kette1: sitzen – ausruhen – müde – einschlafenKette2: Weide – Blatt – Blättern

Page 14: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 14

Lexikalische Ketten

• Entspricht partieller Textrepräsentation,• eingeführt von Halliday & Hasan (Cohesion in English,

1976),• technisch zuerst realisiert in CoLi durch Hirst & StOnge

(1998) für englische Text,• nützlich für verschiedene Anwendungen:

– Textzusammenfassung, Dialogmodellierung etc.

• u.W.n. bisher nur zwei Systeme für deutsche Texte, mit Unterschieden in Methodenwahl und Ressourcen – Mehler (2006)– Cramer & Finthammer (2007)

Page 15: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 15

Lexikalische Ketten

Berechnung von Themenkarten für Korpora:

Wähle Themenbezeichner pro Modul –

Merkmale für die Auswahl – starke, lange lexikalische Ketten enthalten

Themenbezeichner– Häufigkeit, Position im Text, Markup – …

Page 16: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 16

Berechnung lexikalischer Ketten

Module unseres Chainers GLexi:

– Vorverarbeitung der Texte Ergebnis: Chainkandidaten

– Chainer-Kernmodul – semantische Suche (in GermaNet) Ergebnis: Meta-Chains

– Ausgabeerzeugung Ergebnis: z.B. visuelle Darstellung oder XML Ausgabe

Page 17: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 17

Berechnung lexikalischer Ketten

Page 18: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 18

Berechnung lexikalischer Ketten

Page 19: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 19

Annotation lexikalischer Ketten

• Qualitätsbewertung der Chains problematisch: Evaluationsdaten notwendig!

• Erstellung von Evaluationsdaten: Annotation von lexikalischen Ketten in Korpora

• Experimente zur manuellen Annotation – Organisation und Durchführung

Page 20: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 20

Inhaltsübersicht

• Motivation und Projektkontext

• Darstellung thematischer Strukturen auf der Basis lexikalischer Ketten– Automatische Berechnung: GLexi– 3 Annotationsexperimente

Page 21: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 21

Annotation lexikalischer Ketten

• 3 Annotationsexperimente:

– Experiment 1: manuelle Annotation lexikalischer Ketten

– Experiment 2: lexikalische Relationen für Chainkandidaten in GermaNet ermitteln

– Experiment 3: lexikalische Ketten als Mindmaps

(Außerdem: einfache Annotation lexikalischer Ketten als Grundlage für Experimente zur Interaktion lexikalische Ketten - Anaphern/Koreferenz bzw. RST-Annotation.)

Page 22: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 22

Annotation lexikalischer KettenExperiment 1 – Rahmen: • ca.10 Versuchspersonen• 3 Texte („Fallschirmspringer überlebt freien Fall aus 3600 Metern Höhe“ aus

FAZ.net vom 13. Februar 2007, „Traumberuf Unternehmensberater“ aus Unicum.de und „Großes Artesisches Becken“ aus deutsche Wikipedia)

• Versuchsaufbau: – Liste aller Substantive in den 3 Texten,– Bewertungsfragebogen (Relevanz der Substantive für Textverständnis –

Skala 1-7),– Schablone für Ketten (Linearisierung!),– Liste erlaubter semantischer Relationen– Feedbackfragebogen,

• 1 Stunde für Lesen und Annotieren, danach Abbruch ( Test: Zeitaufwand?)

Page 23: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 23

Annotation lexikalischer Ketten

Page 24: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 24

Annotation lexikalischer KettenExperiment 1 – Ergebnisse: • fast alle Versuchspersonen brachen ihre Arbeit vor Ende der

Versuchszeit ab!

• Kritikpunkte:– Linearisierung der Annotation nicht möglich!– Eher Netzstruktur zur Annotation sinnvoll?! (Mindmap)– Viele Substantive nicht „unterbringbar“– Erlaubte semantische Relationen nicht ausreichend

• Inter-Annotator Agreement sehr gering! (Korrelation unter 0,4) entspricht Ergebnissen für das Englische von Morris & Hirst (2004, 2005) sowie Beigman Klebanov (2005)

Page 25: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 25

Annotation lexikalischer Ketten

Experiment 1 – Konsequenzen: • Annotation muss in einfache Teilaufgaben untergliedert

werden• Bisher erzwungene Linearisierung ersetzen durch

Netzstruktur (Mindmapping)• Ausschluss einzelner Substantive aus Chaining

erlauben, ergänzend Substantivgruppen / Phrasen als Chainkandidaten zulassen

• Aufgabe in 2 Teilaufgaben zergliedern:– Manuelle Ermittlung / Annotation semantischer Relationen

(Experiment 2)– Manuelle Konstruktion „Mindmap-Chains“ (Experiment 3)

Page 26: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 26

Annotation lexikalischer Ketten

Experiment 2 – Rahmen:

• 3 Versuchspersonen

• Grundlage für Teilaufgabe 1 (Bestimmung von semantischen Relationen) Implementierung von GermaNet Viewer

• Aufgabe: Finde „Pfade“ zwischen Substantiven in GermaNet

Page 27: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 27

Annotation lexikalischer Ketten

Implementierung: Marc Finthammer

Page 28: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 28

Annotation lexikalischer Ketten

Page 29: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 29

Annotation lexikalischer Ketten

Experiment 2 – Ergebnisse: • Beobachtete Konstellationen:

– Eine Verbindung ist in GermaNet leicht zu finden und ist sinnvoll;– es gibt gefühlsmäßig eine Verbindungen, aber keinen sinnvollen

Weg bzw. nur in die Leere laufende Wege in GermaNet;– es gibt gefühlsmäßig keine Verbindungen, aber einen kurzen

Pfad in GermaNet;– es gibt gefühlsmäßig keine Verbindung, und entsprechend in

GermaNet nur einen langen oder gar keinen Pfad.

• Generell ist der Aufwand der Navigation in GermaNet trotz Viewer extrem hoch.

Page 30: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 30

Annotation lexikalischer KettenExperiment 2 – Konsequenzen: • Selbst die manuelle Bestimmung von Relationen ist nur schwer

möglich

• Alternativer Weg: Human-Judgment Experiment ähnlich der Arbeiten Rubenstein & Goodenough (1965) sowie Miller & Charles (1991) für das Deutsche

• Bewertung von semantischer Nähe für Liste von Substantivpaaren (vgl. Cramer & Finthammer, Ergebnisse und Substantivliste auf www.hytex.info zu finden!)

diese Ergebnisse als Grundlage für Evaluation von semantischer Nähe innerhalb von lexikalischen Ketten

Page 31: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 31

Annotation lexikalischer Ketten

Experiment 3 – Rahmen:

• 2 Versuchspersonen

• Als Grundlage für Entwicklung von Themenkarten gedacht "netzartige" Chains

• Aufgabe: Strukturiere (relevante) Wörter in Text als Mindmap

Page 32: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 32

Annotation lexikalischer Ketten

Page 33: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 33

Annotation lexikalischer Ketten

Experiment 3 – Beobachtungen: • Strukturierung der Substantive um ein Themenzentrum

herum wurde im Vergleich zum Chaining als einfacher wahrgenommen;

• Es bleibt zu beachten:– Reihenfolge beibehalten?– Häufigkeit der Substantive berücksichtigen?– Mehrworteinheiten?– Relationstypen?

Einsatz dieser Technik erfordert hohen Aufwand bei der Annotation, als Hilfestellung für die Entwicklung gerechtfertigt – als gold standard fragwürdig

Page 34: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 34

Konsequenzen der Experimente

• Methode zur Evaluation von GLexi notwendig!

• Unser Vorschlag: Evaluiere Performanz des Systems auf allen relevanten Ebenen separat.– Abdeckung des Chainers– Disambiguierungsqualität– Qualität der Berechnung semantischer Nähe– Anwendungsorientierte Evaluation

Page 35: Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

Vielen Dank!