ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer...

82
ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos [email protected]

Transcript of ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer...

Page 1: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

ANNIS und SPLICR

Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen

Christian [email protected]

Page 2: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

Großflächige Akzeptanz und Ausweitung empirischer, v.a. korpusbasierter Arbeiten in den letzten 20 Jahren.

„There‘s no data like more data.“

Neue technische und methodische Anforderungen für die Arbeit mit linguistischen Datensammlungen

Page 3: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

Probleme bei der Arbeit mit Korpora

• Aufbau und Wartung von Datensammlungen sind zeitaufwändig und teuer Nachhaltige Archivierung und Dokumentation ?

• Die Vielfalt linguistischer Annotationen nimmt immer mehr zu Zusammenführung verschiedener Annotationen, die

mit verschiedenen Spezialwerkzeugen geschaffen wurden ?

• Es existiert eine Kluft zwischen praktischer Annotation und linguistischer Intuition Wie kann Otto Normallinguist vor Fehlschlüssen

bewahrt werden ?

Page 4: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

Probleme bei der Arbeit mit Korpora

• Aufbau und Wartung von Datensammlungen sind zeitaufwändig und teuer Nachhaltige Archivierung und Dokumentation ?

• Die Vielfalt linguistischer Annotationen nimmt immer mehr zu Zusammenführung verschiedener Annotationen, die

mit verschiedenen Spezialwerkzeugen geschaffen wurden ?

• Es existiert eine Kluft zwischen praktischer Annotation und linguistischer Intuition Wie kann Otto Normallinguist vor Fehlschlüssen

bewahrt werden ?

Ontologienlinguistischer Annotationen

OLiA

Datenbank der Annotationen

zur Informationsstruktur

ANNIS

Sustainability Platform for Linguistic

Corpora and Resources

SPLICR

Page 5: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

Probleme bei der Arbeit mit Korpora

Ontologienlinguistischer Annotationen

OLiA

Datenbank der Annotationen

zur Informationsstruktur

ANNIS

Sustainability Platform for Linguistic

Corpora and Resources

SPLICR

SFB 632 Information Structure

Page 6: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

ANNIS & SPLICR

• ANNIS (SFB632 „Informationsstruktur“)– Querying und Visualisierung von

Mehrebenenannotationen• SPLICR (SFB441 „Linguistische Datenstrukturen“)

– Nachhaltige Archivierung linguistischer Daten• Ontologien linguistischer Annotationen

... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen

• Schlussworte

Page 7: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

ANNIS

• SFB 632 „Informationsstruktur“Potsdam, HU Berlin

• Projekt „Linguistische Datenbank“ (Stede/Lüdeling)

• Datenbank für die dort aufgebautenAnnotationen zur Informationsstruktur

– 10 Datenprojekte unterschiedlicher linguistischer Disziplinen

Typologie, Historische Sprachwissenschaft, Korpuslinguistik, Computerlinguistik

Page 8: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

ANNISBesondere Anforderungen

Mehrebenenannotation• Diskursphänomene erfordern die Betrachtung

unterschiedlicher linguistischer Beschreibungsebenen– Morphologie und Syntax– Semantik– Phonologie und Prosodie– Anaphorik– Diskursstruktur– Informationsstruktur und Informationsstatus

Page 9: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

ANNISBesondere Anforderungen

Mehrebenenannotation• Annotation von Diskursphänomenen erfordert

unterschiedliche spezialisierte Werkzeuge – Toolbox/Shoebox– Exmaralda/ELAN– Annotate/Synpathy– MMAX/Palinka– RSTTool

Page 10: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

ANNISBesondere Anforderungen

Mehrebenenannotation• Annotation von Diskursphänomenen erfordert

unterschiedliche spezialisierte Werkzeuge• Keines dieser Werkzeuge erlaubt, auf andere

Annotationsebenen zuzugreifen oder diese angemessen darzustellen

Integration der Daten in einer einzigen DatenbankAnfragen über mehrere Annotationsebenen hinweg

Page 11: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

MehrebenenannotationSyntaxannotation

Annotate, Synpathy

NK

NP

NK NK

Die einstige Fußball-WeltmachtART ADJA NN

Page 12: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

MehrebenenannotationAnaphorik

MMAX

Page 13: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

MehrebenenannotationDiskursstruktur

RST Tool

Page 14: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

MehrebenenannotationPartitur-Annotation

Exmaralda

Page 15: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

ANNIS

Annotierte Daten

Morphologie, Syntax, Anaphorik, Diskursstruktur, Partitur-Annotationen Gemeinsames

Datenformat

ANNISLinguistische Datenbank

Suche, Visualisierung, Export

PAULAPotsdamer Austauschformat für linguistische Annotationen

Page 16: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

ANNISBesondere Anforderungen

• Anfragen über mehrere Annotationsebenen hinweg

• Gemeinsames Datenbankformat für unterschiedliche Daten

• Direkter Einsatz in der empirischen Forschung– Komfortable und mächtige Suchmöglichkeiten– Statistische Funktionalität

Page 17: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

ANNISANNIS 1 (2003-2006)

• entwickelt 2003-2006• Anfragesprache ANNIS-QL• Partituransicht• reine Hauptspeicherlösung• im Browser zu benutzen

– lokale Installation möglich– kann auf Anfrage zugänglich gemacht werden

Page 18: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

ANNISSuchfenster, Textansicht, Partituransicht (ANNIS 1)

Page 19: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

ANNISAnfragesprache ANNIS-QL

• Anfragen über mehrere Annotationsschichten– ... um Wechselwirkungen zu studierengivenness=‘giv‘ & syncat=‘pp‘ & rhetrel=‘contrast‘

– ... um abweichende Annotationsentscheidungen zu identifizierenann1::givenness=‘new‘ & ann2::givenness=‘giv‘ & #1 _=_ #2

– ... um Annotationen auf Vollständigkeit zu prüfenaboutness=‘ref‘ & givenness=‘‘ & #1 _=_ #2

Page 20: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

ANNISANNIS 2 (seit 2006)

• entwickelt seit Mitte 2006 – in Kooperation mit Ulf Leser, HU Berlin

• Weiterentwicklung von ANNIS 1– graphischer Editor für ANNIS-QL-Anfragen– relationale DB (PostGreS)– Erweiterung von ANNIS-QL– differenzierte Visualisierung für

unterschiedliche Datentypen– reine Serveranwendung

Page 21: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

ANNIS 2Baumsuche*

* Mehrfache Vorfeldbesetzung (TIGER)

Page 22: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

ANNIS 2Ergebnisliste*

* Mehrfache Vorfeldbesetzung (TIGER)

Page 23: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

ANNIS 2Ergebnispräsentation: Baumansicht

Page 24: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

ANNIS 2Ergebnispräsentation: Koreferenz-Ansicht

Page 25: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

ANNIS 2Aktueller Status

• momentan ein Forschungsprototyp– „Erprobungsphase“ mit interessierten

Kooperationspartnern– offizielles Release Anfang 2009 geplant

• Testzugänge dann möglich– soll langfristig quelloffen zur Verfügung gestellt

werden• aktuelle Entwicklungen

– Verbesserung der Stabilität und Performanz– Erweiterung der Datenbasis– verbesserte statistische Funktionalität

• Export einer Trefferliste in einem Tabellenformat

Page 26: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

ANNIS & SPLICR

• ANNIS– Querying und Visualisierung von

Mehrebenenannotationen• SPLICR

– Nachhaltige Archivierung linguistischer Daten• Ontologien linguistischer Annotationen

... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen

• Schlussworte

Page 27: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

SPLICRInfrastruktur für ein Nachhaltigkeitsarchiv

• Sustainability Platform for Linguistic Corpora and Resources

• Kooperationsprojekt „Nachhaltigkeit linguistischer Daten“ (Reis/Hinrichs)

• Datenbank für die nachhaltige Archivierung der Daten aller beteiligten SFBs– SFB 441 „Linguistische Datenstrukturen“, Tübingen– SFB 538 „Mehrsprachigkeit“, Hamburg– SFB 632 „Informationsstruktur“, Potsdam/HU Berlin

Page 28: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

SPLICRBesondere Anforderungen

• Nachhaltige Archivierung– Daten sollen langfristig zugänglich gemacht

werden– Entscheidungshilfe dafür, welche Korpora ein

Nutzer anfordern sollte– Daten sollen sich dem Nutzer ohne

langwieriges Studium der Dokumentation erschließen

– Direkt lesbares Datenformat (XML)

Page 29: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

SPLICRBesondere Anforderungen

• SPLICR dient zum Nachweis und zur Erhaltung existierender Ressourcen– heterogene Datenbasis

• Daten werden nur so weit verändert, wie für die Datenbankrepräsentation notwendig

– Vorlagen-basierte Anfragen– auf Robustheit optimiert

weniger auf Performanz– keine Statistikfunktionalität– Abfragen für jeweils nur eine Ressource und eine

Annotationsebene

Page 30: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

SPLICRRessourcenüberblick und -auswahl

Page 31: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

SPLICRSuchfunktionalität

• Volltextsuche– Suche nach Zeichenfolgen in den Originaldaten

• Konzeptsuche– Suche nach Annotationen mit Hilfe kurzer

konzeptueller BeschreibungenRückgabekontext

„Clause“ statt //ntNode[@cat=‘S‘]Annotationsschicht

„Parts of Speech“ statt //*/pos/@genau:valueAnnotationswert

„Auxilliary Verb, finite“ statt //*/pos[@genau:value=‘VAFIN‘]

• Baumsuche– sucht nach Annotationen oder Annotationskonzepten– erweitert Konzeptsuche um Dominanz- und

Präzedenzrelationen

Page 32: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

SPLICRKonzeptsuche

Page 33: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

SPLICRBaumsuche

Page 34: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

SPLICRPräsentation der Suchergebnisse

• verschiedene Visualisierungen der XML-Struktur der Daten– Textansicht

• alle Annotationen ausgeblendet– Boxansicht

• ähnlich der ANNIS-Partituransicht– Baumansicht

• Visualisierung des XML-Baumes nicht notwendigerweise ein Baum im linguistischen Sinne

– XML• formatierte Ausgabe der XML-Daten

Page 35: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

SPLICRErgebnisansicht: Boxansicht

Page 36: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

SPLICRErgebnisansicht: Baumansicht

Page 37: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

SPLICR

• wird nach Beendigung des Nachhaltigkeitsprojektes (Dezember 2008) in Betrieb genommen

• erfasst die Daten und Metadaten der erfassten Ressourcen

• die Konzeptsuche erfordert zusätzlich, die Annotationen und das Korpusformat auf bestimmte Weise zu dokumentieren Ontologien linguistischer Annotationen

Page 38: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

ANNIS & SPLICR

• ANNIS– Querying und Visualisierung von

Mehrebenenannotationen• SPLICR

– Nachhaltige Archivierung linguistischer Daten• Ontologien linguistischer Annotationen

... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen

• Schlussworte

Page 39: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiAMotivation

• Überwindung der Kluft zwischen real existierender Annotation und den Intuitionen ihrer Nutzer– verbesserte Aufbereitung

• konzeptbasierte Suche– gesteigerte Transparenz

• Dokumentation von Annotationen• Formalisierung von Annotationsschemata• Abbildung zwischen Annotationen auf eine

wohldefinierte Basisterminologie

Page 40: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiAMotivation: Annotation vs. Intuition

• Annotationsschemata erzwingen eine eindeutige Kategorisierung sämtlicher Phänomene

• Neben theoretischen Überlegungen gehen aber auch pragmatische Designentscheidungen in Annotationsschemata ein– in unterschiedlichen Korpora/Annotationsschemata

abweichend• „Otto Normallinguist“ muss Strategien

entwickeln, Tag-Definitionen schnell zu erfassen, um mit den Daten arbeiten zu können

Page 41: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiAMotivation: Annotation vs. Intuition

• Strategien zum Deuten von linguistischen Annotationen– Die „intuitive“ Methode

• Was sich wie „Hilfsverb“ anhört, meint das sicher auch.

– Die Analogie-Methode• Aus meinem Lieblingstagset weiß ich, wie dort Hilfsverben

definiert werden. Das ist hier sicherlich genauso.

– Die „Schau-mer-mal“-Methode• Was war doch gleich das Tag für Hilfsverben im Korpus ?

– Die „richtige“ Methode• Was sagt eigentlich die Dokumentation ?

Page 42: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiAMotivation: Annotation vs. Intuition

• Strategien zum Deuten von linguistischen Annotationen– Die „intuitive“ Methode

• Was sich wie „Hilfsverb“ anhört, meint das sicher auch.

– Die Analogie-Methode• Aus meinem Lieblingstagset weiß ich, wie dort Hilfsverben

definiert werden. Das ist hier sicherlich genauso.

– Die „Schau-mer-mal“-Methode• Was war doch gleich das Tag für Hilfsverben im Korpus ?

– Die „richtige“ Methode• Was sagt eigentlich die Dokumentation ?

MinimalerAufwand

MaximalerAufwand

Page 43: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiAAnnotation vs. Intuition

• Die „intuitive“ Methode– Was sich wie „Hilfsverb“ anhört, meint das

sicher auch– Naja, nicht bei Morphy*

– Und auch nicht bei STTS**

* http://www.wolfganglezius.de/doku.php?id=public:cl:morphy (15.10.08)** Schiller et al. (1999), S.29

Page 44: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiAAnnotation vs. Intuition

• Die Analogie-Methode– „Hilfsverb“ bezeichnet also eigentlich

potentielle Hilfsverben– Naja, nicht im Connexor-Tagset*

* http://www.connexor.eu/technology/machinese/demo/syntax/ (15.10.08)

Aber glaub mir, das ist nicht das Ende, denn das ist noch lange nicht gekommen.

Page 45: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

• Die „Schau-mer-mal“-Methode– Was war doch gleich das Tag für Hilfsverben

im Korpus ?– erster Beleg in TIGERSampler: VAFIN

OLiAAnnotation vs. Intuition

Page 46: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

• Die „richtige“ Methode– Was sagt eigentlich die Dokumentation ?– Manchmal etwas zu viel

• TüBa-D/Z: 146 Seiten*• Susanne: 483 Seiten**

– Manchmal etwas zu wenig• Z.B. als reine Tag-Liste

– Vor allem aber: Jedes Annotationsschema auf seine eigene Weise

OLiAAnnotation vs. Intuition

??* H. Telljohann et al. (2006), Stylebook for the Tübingen Treebank of Written German (TüBa-D/Z)** G. Sampson (1996), The Susanne corpus and analytic scheme

Page 47: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiADie Idee

• Formale Modellierung der linguistischen Basisterminologie

„Referenzmodell“*• Formale Spezifikation der Terminologie jedes

einzelnen Annotationsschemas„Annotationsmodell“

• Annotationskonzepte werden als Subkonzepte von Referenzkonzepten spezifiziert

„Linking“• kann komplex sein**

BABABAC ,,

* Bezogen auf die in SPLICR und ANNIS vorliegenden Annotationen** Annotationskonzept C, Referenzkonzepte A,B

Page 48: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiADie Idee

• FormalisierungAbweichungen von Referenzdefinitionen klar

herausgestelltHilfsverben in STTS:

• explizit und eindeutig kompakte Repräsentation

• XML-basierte Formalismen leicht in menschenlesbare Darstellung konvertierbar

HTML-Dokumentation

• OWL/DL

)( ModalVerbbLexicalVererbAuxiliaryVVAFIN

Page 49: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiADie Idee

• FormalisierungAbweichungen von Referenzdefinitionen klar

herausgestelltHilfsverben in STTS:

• explizit und eindeutig kompakte Repräsentation

• XML-basierte Formalismen leicht in menschenlesbare Darstellung konvertierbar

HTML-Dokumentation

• Formalisierung als Ontologie (OWL/DL)

)( ModalVerbbLexicalVererbAuxiliaryVVAFIN

Page 50: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiAOntologien in der Informationsverarbeitung

• Ontologie– Konzeptualisierung einer bestimmten Domäne

• z.B. eine Taxonomie linguistischer Termini

– hierarchisch und relational strukturiert• OWL (Web Ontology Language)*

– formale Beschreibungssprache für Ontologien– XML-basiert– Semantic Web

* Web Ontology Language, http://www.w3.org/2004/OWL/ (10.10.08)

Page 51: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiAProjekte zur linguistischen Terminologie: EAGLES

• Expert Advisory Group on Language Engineering*– Standardisierungsprojekt der EU (1993 – 1996)

• Empfehlungen für Annotationschemata– v.a. Wortarten, Morphologie, Syntax; Lexika– ausgehend von existierenden Schemata

• Identifizierung sich wiederholender Begriffe

– kein nennenswerter theoretischer Unterbau• keine Referenzdefinitionen

* http://www.ilc.cnr.it/EAGLES96/home.html (06.09.2008)

Page 52: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiAProjekte zur linguistischen Terminologie: GOLD

• General Ontology for Linguistic Description*– im Rahmen des E-MELD-Projektes zur

Dokumentation bedrohter Sprachen entwickelt (2001-2006)

• auf der Basis v.a. typologischer Literatur– Schwerpunkt auf Morphosyntax– OWL/DL

* http://www.linguistics-ontology.org/ (06.09.2007)** Electronic Metastructure for Endangered Languages Data (http://www.emeld.org/index.cfm, 06.09.2007)

Page 53: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiAWeitere Projekte zur linguistischen Terminologie (Auswahl)

• Data Category Registry (Ide 2003)*– Weiterentwicklung der EAGLES-Empfehlungen,

erweitert um Definitionen• OntoTag (de Cea et al. 2003)

– Ontologie morphosyntaktischer Annotationen des Spanischen

• Typological Database System Ontology (Dimitriadis et al., 2005)**– OWL-Ontologie der Terminologie typologischer

Datensammlungen

* http://www.isocat.org/ (15.10.08)** http://languagelink.let.uu.nl/tds/main.html (15.10.08)

Page 54: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiAWeitere Projekte zur linguistischen Terminologie (Auswahl)

• IDS-Ontologie (Schneider 2007)– Terminologie zur Grammatikbeschreibung im

Deutschen• G. Wilcock (2008)

– OWL-Ontologie für HPSG als Erweiterung von GOLD• A. Burchardt et al. (2008)

– OWL-Formalisierung annotierter Korpora und ihrer Annotation

Die OliA-Ontologien sollen modular strukturiert sein, um diese Ontologien als externe Wissensquellen einbinden zu können.

Page 55: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiAStrukturkomponenten

• Annotationsmodell10 Annotationsmodelle zu mehreren Europäischen und Außereuropäischen SprachenWortarten, Morphologie, Syntax, Koreferenz, Informationsstruktur

• OLiA ReferenzmodellGeneralisiert über die AnnotationsmodelleBasiert u.a. auf EAGLES und GOLD

• LinkingErweiterbare ArchitekturAnbindung externer Referenzmodels (GOLD, OntoTag, Data Category Registry) möglich

reference.owl

stts.owl

importiert

stts-link.rdf

susanne.owl

susanne-link.rdf

russ.owl

russ-link.rdfmodel.owl

OLiA Referenzmodel

Ontologie, die übrige Komponenten importiert

Page 56: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiAAnnotationsmodell, Referenzmodell und Linking: Beispiel

Page 57: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiAOntologieerstellung mit Protégé: Konzepthierarchie

Die Konzepthierarchie definiert eine Taxonomie von Basiskonzepten fürdas Referenzmodell (e-eagles.owl) wieauch Annotationsmodelle (z.B. stts.owl)

Page 58: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiAOntologieerstellung mit Protégé: Relationen

Relationen (Properties) ordnen Konzept-Instanzen andere Konzeptinstanzen zu,z.B. einem LinguisticElement einGrammaticalFeature

Page 59: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiAOntologieerstellung mit Protégé: Individuen

Individuen sind durch die Zugehörigkeitzu einem oder mehreren Konzepten undbestimmte Merkmalswerte/Relationencharakterisiert.Individuen der Unterkonzepte von LinguisticElement wird ein Annotations-wert zugeordnet.

Page 60: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiADokumentation

• anwendungs-spezifischer HTML-Export– Konzepte sind mittels

Hyperlinks verbunden

• in SPLICR zu Dokumentations-zwecken eingesetzt

• Annotationsmodelle sind den Korpora mit entsprechenden Annotationen zugeordnet

Referenzkonzepte

Konzepte des STTSAnnotationsmodells

Page 61: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiAAnwendung jenseits der Dokumentation

• Dokumentation von Annotationsschemata(SPLICR)– kompakte und einheitliche Darstellungsweise

erleichtert das Auffinden relevanter Informationen über die Annotation

• Suchfunktionalität– SPLICR: Ausgangsdaten für Konzeptsuche– OntoClient: direkte Übersetzung ontologischer

Beschreibungen in konkrete Tags

Page 62: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiAMetadaten und Konzeptsuche in SPLICR

Korpus

Manifest

annotation-concepts.xml

annotation-structures.xml

annotation-values.xml

eTEI Metadaten

Registriert und spezifiziert die zu einem Korpus gehörigen Daten

Metadaten, die Primärdaten und die Annotation betreffend

Sammlung von XML-DokumentenPrimärdaten und Annotationen

Metadaten für die SucheDefinieren Rückgabekontexte

(Clause, Sentence)

Metadaten für das XML-FormatDefinieren, wie Attribut-Wert-Paarein einem Korpus dargestellt werden

Metadaten für die SucheDefinieren mögliche

Attribut-Wert-Paare in einem Korpus

Page 63: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiAOntologien und Metadaten in SPLICR

Korpus

Manifest

annotation-concepts.xml

annotation-structures.xml

annotation-values.xml

eTEI Metadaten

Registriert und spezifiziert die zu einem Korpus gehörigen Daten

Metadaten, die Primärdaten und die Annotation betreffend

Sammlung von XML-DokumentenPrimärdaten und Annotationen

Metadaten für die SucheDefinieren Rückgabekontexte

(Clause, Sentence)

Metadaten für das XML-FormatDefinieren, wie Attribut-Wert-Paarein einem Korpus dargestellt werden

Metadaten für die SucheDefinieren mögliche

Attribut-Wert-Paare in einem Korpus

OLiA Ontologien

Ordnen einner Annotation ein OLiA Annotationsmodell zu

Metadaten für konzeptbasierte Suche

sind aus OLiA-Ontologien extrahierbar

ermöglicht die Anwendung des OntoClient für die ontologie-

basierte Suche

Page 64: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiAOntologiebasierte Suche

Suchanfrage ... pos in { Noun \ Nominal } & cat = ...

Konsultation der Ontologie1. ermittle Tags für jedes

angefragte Ontologie-Konzept

2. wende Operatoren an

Noun

ProperNoun

MassNoun CountableNoun

CommonNoun

Nominal

VerbalNoun

Substantive

tibet:ProperNoun

tibet:InanimateNoun

tibet:AnimateNoun

tibet:Person

tibet:CommonNoun

NOM_inan

NOM_anim_lqNOM_inan_lq

NOM_persNOM_pers_anim

NAME

NOM_anim

Referenzmodell

Annotationsmodell

Linking

Ausgabe der erweiterten Anfrage

... pos = NOM_inan | NOM_inan_lq | NOM_anim | NOM_anim_lq | NOM_anim_pers | NOM_pers | NAME & cat = ...

Page 65: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiAOntoClient

• OntoClient– JAVA-Bibliothek– erweitert beliebige Korpusanfragesprachen

um ontologiebasierte Suche• Beispielanwendungen

– Ontologie-basierte Suche für CQP– Ontologie-basierte Suche in ANNIS 1

• wird in SPLICR und ANNIS 2 integriert

Page 66: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiAOntoClient + ANNIS 1

ontologische Beschreibung

generierte ANNIS-QL-Anfrage

Page 67: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

OLiA

• unterstützt die konsistente Dokumentation von Annotationen– HTML-Darstellung

• ermöglicht Nutzern, schnell annotierte Korpora zu konsultieren– ohne auf die vollständige Dokumentation

zurückgreifen zu müssen– SPLICR Konzeptsuche / OntoClient

• ermöglicht Anfragen über unterschiedlich annotierte Korpora hinweg– OntoClient

Page 68: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

ANNIS & SPLICR

• ANNIS– Querying und Visualisierung von

Mehrebenenannotationen• SPLICR

– Nachhaltige Archivierung linguistischer Daten• Ontologien linguistischer Annotationen

... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen

• Schlussworte

Page 69: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

Vergleich von ANNIS und SPLICR

• komplexes Datenformat• Datenkonvertierung

mittels existierender Konverter

• geringer Aufbereitungsaufwand

neben der unmittelbaren Konvertierung

empirische Arbeit mit Mehrebenen-annotationen

• relativ einfaches Datenformat

• eigene Konverter leicht zu entwickeln

• hoher Aufbereitungsaufwand

neben der unmittelbaren Konvertierung

nachhaltige Archivierung von Datensammlungen

ANNIS SPLICR

Page 70: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

Verfügbarkeit

• ANNIS 1– Zugang zur Potsdamer Installation kann auf

Wunsch bereitgestellt werden– lokale Installation kann auf Anfrage bei

[email protected] bereitgestellt werden

– Datenkonverter sind über ein Webformular erreichbar

Page 71: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

Verfügbarkeit

• ANNIS 2– befindet sich momentan noch in der

Erprobungsphase– Veröffentlichung wird momentan vorbereitet

und ist für 2009 zu erwarten• Anfang 2009 sollen Nutzer freie Testzugänge

erhalten können– Mittelfristig ist eine Veröffentlichung des

Quellcodes geplant• Lizenz noch unklar, aber quelloffen

Page 72: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

Verfügbarkeit

• SPLICR– wird nach Beendigung des Projekts

„Nachhaltigkeit linguistischer Daten“ (Dezember 2008) der Öffentlichkeit zugänglich gemacht

– momentan werden die SFB-Korpora in die Plattform integriert

• Daten und Metadaten (z.B. zur Zugänglichkeit)– Veröffentlichung des Quellcodes unter einer

quelloffenen Lizenz geplant

Page 73: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

Verfügbarkeit

• OLiA-Ontologien– werden in den Releases von ANNIS 2 und

SPLICR enthalten sein– über das Internet zugänglich

• http://nachhalt.sfb632.uni-potsdam.de/owl/all.rdf (in Protégé zu öffnen)

– Werkzeuge• HTML-Visualisierung• OntoClient

Page 74: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

Vielen Dank für Ihre Aufmerksamkeit

Page 75: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

Beteiligte Kollegen

• ANNIS-Team (U Potsdam, HU Berlin)Manfred Stede, Anke Lüdeling, Ulf Leser, Stefanie Dipper, Michael Götze, Julia Ritz, Amir Zeldes, Florian Zipser, Viktor Rosenfeld, Karsten Hütter, Thomas Krause, Tilman Wegst (extern)

• SPLICR-Team (U Tübingen, U Hamburg)Erhard Hinrichs, Marga Reis, Andreas Witt, Georg Rehm, Timm Lehmberg, Oliver Schonefeld, Richard Eckart (TU Darmstadt), Johannes Dellert, Kilian Evang, Magdalena Leshtanska

• OLiA-Team (U Potsdam)Angelika Adam, Alexander Becker, Johannes Bubenzer, Thomas Augustin

Page 76: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

Diskussionspunkte

• weitere Aspekte (Auswahl)– Technische Details zu den Datenbanken– Wahrung von Urheber- und Nutzungsrechten

an Daten und Annotationen– Beispielpipelines für konkrete Datensätze– Erstellung und Wartung von Ontologien– Statistische Funktionalität

Page 77: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

AnhangTechnische Details zu ANNIS & SPLICR

• Client-Server-Architekturen– Inkrementeller Datenabruf– Unicode

• Datenbank– SPLICR

• XML-Datenbank– eXist / Annolab– optimiert für hierarchische Annotationen

• SQL-Datenbank– Metadaten

– ANNIS• Relationale Datenbank

– PostGreS– erlaubt Umgang mit hierarchischen und graph-basierten Annotationen

Page 78: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

AnhangArchitektur ANNIS 2

BackendBaumsucheANNIS-QL-Suche

Page 79: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

AnhangArchitektur SPLICR

SQL DatenbankMetadaten

XML Datenbankaufbereitete Korpusdaten

XQuerySQL

DateisystemOriginaldaten

OLiA-OntologienAnnotationsschemata

Anfrageobjekte

diverse Anfragemodi

Formulardaten

BackendXML (Daten)JSON (Visualisierung)

Page 80: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

AnhangANNIS und WEKA

ANNIS

TIGER XMLExmaralda

RST ToolMMAX

• POS, morph, syntax• Informationsstruktur• Diskursstruktur• KoreferenzKonvertierung

nach PAULA

• Integration unterschiedlicher Annotationen desselben Satzes von Dokumenten

Konvertierungnach ARFF

WEKA • WEKA* Arbeitsumgebung für Statistikanalysenstatistische, neuronale, symbolische Klassifikatoren

* http://sourceforge.net/projects/weka/

• Extrahierung von MerkmalstabellenANNIS 2 wird Standardroutinen dafür enthalten

Page 81: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

AnhangWEKA

Vorverarbeitung:Auswahl relevanterMerkmale aus einer

ARFF-Tabelle

Page 82: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de.

AnhangWEKA

Beispielanalyse(Entscheidungsbaum)

Informationsstatus und referentielle Ausdrücke im Deutschen (Potsdamer Kommentarkorpus)