ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer...

Post on 06-Apr-2016

231 views 4 download

Transcript of ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer...

ANNIS und SPLICR

Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen

Christian Chiarcoschiarcos@uni-potsdam.de

Großflächige Akzeptanz und Ausweitung empirischer, v.a. korpusbasierter Arbeiten in den letzten 20 Jahren.

„There‘s no data like more data.“

Neue technische und methodische Anforderungen für die Arbeit mit linguistischen Datensammlungen

Probleme bei der Arbeit mit Korpora

• Aufbau und Wartung von Datensammlungen sind zeitaufwändig und teuer Nachhaltige Archivierung und Dokumentation ?

• Die Vielfalt linguistischer Annotationen nimmt immer mehr zu Zusammenführung verschiedener Annotationen, die

mit verschiedenen Spezialwerkzeugen geschaffen wurden ?

• Es existiert eine Kluft zwischen praktischer Annotation und linguistischer Intuition Wie kann Otto Normallinguist vor Fehlschlüssen

bewahrt werden ?

Probleme bei der Arbeit mit Korpora

• Aufbau und Wartung von Datensammlungen sind zeitaufwändig und teuer Nachhaltige Archivierung und Dokumentation ?

• Die Vielfalt linguistischer Annotationen nimmt immer mehr zu Zusammenführung verschiedener Annotationen, die

mit verschiedenen Spezialwerkzeugen geschaffen wurden ?

• Es existiert eine Kluft zwischen praktischer Annotation und linguistischer Intuition Wie kann Otto Normallinguist vor Fehlschlüssen

bewahrt werden ?

Ontologienlinguistischer Annotationen

OLiA

Datenbank der Annotationen

zur Informationsstruktur

ANNIS

Sustainability Platform for Linguistic

Corpora and Resources

SPLICR

Probleme bei der Arbeit mit Korpora

Ontologienlinguistischer Annotationen

OLiA

Datenbank der Annotationen

zur Informationsstruktur

ANNIS

Sustainability Platform for Linguistic

Corpora and Resources

SPLICR

SFB 632 Information Structure

ANNIS & SPLICR

• ANNIS (SFB632 „Informationsstruktur“)– Querying und Visualisierung von

Mehrebenenannotationen• SPLICR (SFB441 „Linguistische Datenstrukturen“)

– Nachhaltige Archivierung linguistischer Daten• Ontologien linguistischer Annotationen

... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen

• Schlussworte

ANNIS

• SFB 632 „Informationsstruktur“Potsdam, HU Berlin

• Projekt „Linguistische Datenbank“ (Stede/Lüdeling)

• Datenbank für die dort aufgebautenAnnotationen zur Informationsstruktur

– 10 Datenprojekte unterschiedlicher linguistischer Disziplinen

Typologie, Historische Sprachwissenschaft, Korpuslinguistik, Computerlinguistik

ANNISBesondere Anforderungen

Mehrebenenannotation• Diskursphänomene erfordern die Betrachtung

unterschiedlicher linguistischer Beschreibungsebenen– Morphologie und Syntax– Semantik– Phonologie und Prosodie– Anaphorik– Diskursstruktur– Informationsstruktur und Informationsstatus

ANNISBesondere Anforderungen

Mehrebenenannotation• Annotation von Diskursphänomenen erfordert

unterschiedliche spezialisierte Werkzeuge – Toolbox/Shoebox– Exmaralda/ELAN– Annotate/Synpathy– MMAX/Palinka– RSTTool

ANNISBesondere Anforderungen

Mehrebenenannotation• Annotation von Diskursphänomenen erfordert

unterschiedliche spezialisierte Werkzeuge• Keines dieser Werkzeuge erlaubt, auf andere

Annotationsebenen zuzugreifen oder diese angemessen darzustellen

Integration der Daten in einer einzigen DatenbankAnfragen über mehrere Annotationsebenen hinweg

MehrebenenannotationSyntaxannotation

Annotate, Synpathy

NK

NP

NK NK

Die einstige Fußball-WeltmachtART ADJA NN

MehrebenenannotationAnaphorik

MMAX

MehrebenenannotationDiskursstruktur

RST Tool

MehrebenenannotationPartitur-Annotation

Exmaralda

ANNIS

Annotierte Daten

Morphologie, Syntax, Anaphorik, Diskursstruktur, Partitur-Annotationen Gemeinsames

Datenformat

ANNISLinguistische Datenbank

Suche, Visualisierung, Export

PAULAPotsdamer Austauschformat für linguistische Annotationen

ANNISBesondere Anforderungen

• Anfragen über mehrere Annotationsebenen hinweg

• Gemeinsames Datenbankformat für unterschiedliche Daten

• Direkter Einsatz in der empirischen Forschung– Komfortable und mächtige Suchmöglichkeiten– Statistische Funktionalität

ANNISANNIS 1 (2003-2006)

• entwickelt 2003-2006• Anfragesprache ANNIS-QL• Partituransicht• reine Hauptspeicherlösung• im Browser zu benutzen

– lokale Installation möglich– kann auf Anfrage zugänglich gemacht werden

ANNISSuchfenster, Textansicht, Partituransicht (ANNIS 1)

ANNISAnfragesprache ANNIS-QL

• Anfragen über mehrere Annotationsschichten– ... um Wechselwirkungen zu studierengivenness=‘giv‘ & syncat=‘pp‘ & rhetrel=‘contrast‘

– ... um abweichende Annotationsentscheidungen zu identifizierenann1::givenness=‘new‘ & ann2::givenness=‘giv‘ & #1 _=_ #2

– ... um Annotationen auf Vollständigkeit zu prüfenaboutness=‘ref‘ & givenness=‘‘ & #1 _=_ #2

ANNISANNIS 2 (seit 2006)

• entwickelt seit Mitte 2006 – in Kooperation mit Ulf Leser, HU Berlin

• Weiterentwicklung von ANNIS 1– graphischer Editor für ANNIS-QL-Anfragen– relationale DB (PostGreS)– Erweiterung von ANNIS-QL– differenzierte Visualisierung für

unterschiedliche Datentypen– reine Serveranwendung

ANNIS 2Baumsuche*

* Mehrfache Vorfeldbesetzung (TIGER)

ANNIS 2Ergebnisliste*

* Mehrfache Vorfeldbesetzung (TIGER)

ANNIS 2Ergebnispräsentation: Baumansicht

ANNIS 2Ergebnispräsentation: Koreferenz-Ansicht

ANNIS 2Aktueller Status

• momentan ein Forschungsprototyp– „Erprobungsphase“ mit interessierten

Kooperationspartnern– offizielles Release Anfang 2009 geplant

• Testzugänge dann möglich– soll langfristig quelloffen zur Verfügung gestellt

werden• aktuelle Entwicklungen

– Verbesserung der Stabilität und Performanz– Erweiterung der Datenbasis– verbesserte statistische Funktionalität

• Export einer Trefferliste in einem Tabellenformat

ANNIS & SPLICR

• ANNIS– Querying und Visualisierung von

Mehrebenenannotationen• SPLICR

– Nachhaltige Archivierung linguistischer Daten• Ontologien linguistischer Annotationen

... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen

• Schlussworte

SPLICRInfrastruktur für ein Nachhaltigkeitsarchiv

• Sustainability Platform for Linguistic Corpora and Resources

• Kooperationsprojekt „Nachhaltigkeit linguistischer Daten“ (Reis/Hinrichs)

• Datenbank für die nachhaltige Archivierung der Daten aller beteiligten SFBs– SFB 441 „Linguistische Datenstrukturen“, Tübingen– SFB 538 „Mehrsprachigkeit“, Hamburg– SFB 632 „Informationsstruktur“, Potsdam/HU Berlin

SPLICRBesondere Anforderungen

• Nachhaltige Archivierung– Daten sollen langfristig zugänglich gemacht

werden– Entscheidungshilfe dafür, welche Korpora ein

Nutzer anfordern sollte– Daten sollen sich dem Nutzer ohne

langwieriges Studium der Dokumentation erschließen

– Direkt lesbares Datenformat (XML)

SPLICRBesondere Anforderungen

• SPLICR dient zum Nachweis und zur Erhaltung existierender Ressourcen– heterogene Datenbasis

• Daten werden nur so weit verändert, wie für die Datenbankrepräsentation notwendig

– Vorlagen-basierte Anfragen– auf Robustheit optimiert

weniger auf Performanz– keine Statistikfunktionalität– Abfragen für jeweils nur eine Ressource und eine

Annotationsebene

SPLICRRessourcenüberblick und -auswahl

SPLICRSuchfunktionalität

• Volltextsuche– Suche nach Zeichenfolgen in den Originaldaten

• Konzeptsuche– Suche nach Annotationen mit Hilfe kurzer

konzeptueller BeschreibungenRückgabekontext

„Clause“ statt //ntNode[@cat=‘S‘]Annotationsschicht

„Parts of Speech“ statt //*/pos/@genau:valueAnnotationswert

„Auxilliary Verb, finite“ statt //*/pos[@genau:value=‘VAFIN‘]

• Baumsuche– sucht nach Annotationen oder Annotationskonzepten– erweitert Konzeptsuche um Dominanz- und

Präzedenzrelationen

SPLICRKonzeptsuche

SPLICRBaumsuche

SPLICRPräsentation der Suchergebnisse

• verschiedene Visualisierungen der XML-Struktur der Daten– Textansicht

• alle Annotationen ausgeblendet– Boxansicht

• ähnlich der ANNIS-Partituransicht– Baumansicht

• Visualisierung des XML-Baumes nicht notwendigerweise ein Baum im linguistischen Sinne

– XML• formatierte Ausgabe der XML-Daten

SPLICRErgebnisansicht: Boxansicht

SPLICRErgebnisansicht: Baumansicht

SPLICR

• wird nach Beendigung des Nachhaltigkeitsprojektes (Dezember 2008) in Betrieb genommen

• erfasst die Daten und Metadaten der erfassten Ressourcen

• die Konzeptsuche erfordert zusätzlich, die Annotationen und das Korpusformat auf bestimmte Weise zu dokumentieren Ontologien linguistischer Annotationen

ANNIS & SPLICR

• ANNIS– Querying und Visualisierung von

Mehrebenenannotationen• SPLICR

– Nachhaltige Archivierung linguistischer Daten• Ontologien linguistischer Annotationen

... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen

• Schlussworte

OLiAMotivation

• Überwindung der Kluft zwischen real existierender Annotation und den Intuitionen ihrer Nutzer– verbesserte Aufbereitung

• konzeptbasierte Suche– gesteigerte Transparenz

• Dokumentation von Annotationen• Formalisierung von Annotationsschemata• Abbildung zwischen Annotationen auf eine

wohldefinierte Basisterminologie

OLiAMotivation: Annotation vs. Intuition

• Annotationsschemata erzwingen eine eindeutige Kategorisierung sämtlicher Phänomene

• Neben theoretischen Überlegungen gehen aber auch pragmatische Designentscheidungen in Annotationsschemata ein– in unterschiedlichen Korpora/Annotationsschemata

abweichend• „Otto Normallinguist“ muss Strategien

entwickeln, Tag-Definitionen schnell zu erfassen, um mit den Daten arbeiten zu können

OLiAMotivation: Annotation vs. Intuition

• Strategien zum Deuten von linguistischen Annotationen– Die „intuitive“ Methode

• Was sich wie „Hilfsverb“ anhört, meint das sicher auch.

– Die Analogie-Methode• Aus meinem Lieblingstagset weiß ich, wie dort Hilfsverben

definiert werden. Das ist hier sicherlich genauso.

– Die „Schau-mer-mal“-Methode• Was war doch gleich das Tag für Hilfsverben im Korpus ?

– Die „richtige“ Methode• Was sagt eigentlich die Dokumentation ?

OLiAMotivation: Annotation vs. Intuition

• Strategien zum Deuten von linguistischen Annotationen– Die „intuitive“ Methode

• Was sich wie „Hilfsverb“ anhört, meint das sicher auch.

– Die Analogie-Methode• Aus meinem Lieblingstagset weiß ich, wie dort Hilfsverben

definiert werden. Das ist hier sicherlich genauso.

– Die „Schau-mer-mal“-Methode• Was war doch gleich das Tag für Hilfsverben im Korpus ?

– Die „richtige“ Methode• Was sagt eigentlich die Dokumentation ?

MinimalerAufwand

MaximalerAufwand

OLiAAnnotation vs. Intuition

• Die „intuitive“ Methode– Was sich wie „Hilfsverb“ anhört, meint das

sicher auch– Naja, nicht bei Morphy*

– Und auch nicht bei STTS**

* http://www.wolfganglezius.de/doku.php?id=public:cl:morphy (15.10.08)** Schiller et al. (1999), S.29

OLiAAnnotation vs. Intuition

• Die Analogie-Methode– „Hilfsverb“ bezeichnet also eigentlich

potentielle Hilfsverben– Naja, nicht im Connexor-Tagset*

* http://www.connexor.eu/technology/machinese/demo/syntax/ (15.10.08)

Aber glaub mir, das ist nicht das Ende, denn das ist noch lange nicht gekommen.

• Die „Schau-mer-mal“-Methode– Was war doch gleich das Tag für Hilfsverben

im Korpus ?– erster Beleg in TIGERSampler: VAFIN

OLiAAnnotation vs. Intuition

• Die „richtige“ Methode– Was sagt eigentlich die Dokumentation ?– Manchmal etwas zu viel

• TüBa-D/Z: 146 Seiten*• Susanne: 483 Seiten**

– Manchmal etwas zu wenig• Z.B. als reine Tag-Liste

– Vor allem aber: Jedes Annotationsschema auf seine eigene Weise

OLiAAnnotation vs. Intuition

??* H. Telljohann et al. (2006), Stylebook for the Tübingen Treebank of Written German (TüBa-D/Z)** G. Sampson (1996), The Susanne corpus and analytic scheme

OLiADie Idee

• Formale Modellierung der linguistischen Basisterminologie

„Referenzmodell“*• Formale Spezifikation der Terminologie jedes

einzelnen Annotationsschemas„Annotationsmodell“

• Annotationskonzepte werden als Subkonzepte von Referenzkonzepten spezifiziert

„Linking“• kann komplex sein**

BABABAC ,,

* Bezogen auf die in SPLICR und ANNIS vorliegenden Annotationen** Annotationskonzept C, Referenzkonzepte A,B

OLiADie Idee

• FormalisierungAbweichungen von Referenzdefinitionen klar

herausgestelltHilfsverben in STTS:

• explizit und eindeutig kompakte Repräsentation

• XML-basierte Formalismen leicht in menschenlesbare Darstellung konvertierbar

HTML-Dokumentation

• OWL/DL

)( ModalVerbbLexicalVererbAuxiliaryVVAFIN

OLiADie Idee

• FormalisierungAbweichungen von Referenzdefinitionen klar

herausgestelltHilfsverben in STTS:

• explizit und eindeutig kompakte Repräsentation

• XML-basierte Formalismen leicht in menschenlesbare Darstellung konvertierbar

HTML-Dokumentation

• Formalisierung als Ontologie (OWL/DL)

)( ModalVerbbLexicalVererbAuxiliaryVVAFIN

OLiAOntologien in der Informationsverarbeitung

• Ontologie– Konzeptualisierung einer bestimmten Domäne

• z.B. eine Taxonomie linguistischer Termini

– hierarchisch und relational strukturiert• OWL (Web Ontology Language)*

– formale Beschreibungssprache für Ontologien– XML-basiert– Semantic Web

* Web Ontology Language, http://www.w3.org/2004/OWL/ (10.10.08)

OLiAProjekte zur linguistischen Terminologie: EAGLES

• Expert Advisory Group on Language Engineering*– Standardisierungsprojekt der EU (1993 – 1996)

• Empfehlungen für Annotationschemata– v.a. Wortarten, Morphologie, Syntax; Lexika– ausgehend von existierenden Schemata

• Identifizierung sich wiederholender Begriffe

– kein nennenswerter theoretischer Unterbau• keine Referenzdefinitionen

* http://www.ilc.cnr.it/EAGLES96/home.html (06.09.2008)

OLiAProjekte zur linguistischen Terminologie: GOLD

• General Ontology for Linguistic Description*– im Rahmen des E-MELD-Projektes zur

Dokumentation bedrohter Sprachen entwickelt (2001-2006)

• auf der Basis v.a. typologischer Literatur– Schwerpunkt auf Morphosyntax– OWL/DL

* http://www.linguistics-ontology.org/ (06.09.2007)** Electronic Metastructure for Endangered Languages Data (http://www.emeld.org/index.cfm, 06.09.2007)

OLiAWeitere Projekte zur linguistischen Terminologie (Auswahl)

• Data Category Registry (Ide 2003)*– Weiterentwicklung der EAGLES-Empfehlungen,

erweitert um Definitionen• OntoTag (de Cea et al. 2003)

– Ontologie morphosyntaktischer Annotationen des Spanischen

• Typological Database System Ontology (Dimitriadis et al., 2005)**– OWL-Ontologie der Terminologie typologischer

Datensammlungen

* http://www.isocat.org/ (15.10.08)** http://languagelink.let.uu.nl/tds/main.html (15.10.08)

OLiAWeitere Projekte zur linguistischen Terminologie (Auswahl)

• IDS-Ontologie (Schneider 2007)– Terminologie zur Grammatikbeschreibung im

Deutschen• G. Wilcock (2008)

– OWL-Ontologie für HPSG als Erweiterung von GOLD• A. Burchardt et al. (2008)

– OWL-Formalisierung annotierter Korpora und ihrer Annotation

Die OliA-Ontologien sollen modular strukturiert sein, um diese Ontologien als externe Wissensquellen einbinden zu können.

OLiAStrukturkomponenten

• Annotationsmodell10 Annotationsmodelle zu mehreren Europäischen und Außereuropäischen SprachenWortarten, Morphologie, Syntax, Koreferenz, Informationsstruktur

• OLiA ReferenzmodellGeneralisiert über die AnnotationsmodelleBasiert u.a. auf EAGLES und GOLD

• LinkingErweiterbare ArchitekturAnbindung externer Referenzmodels (GOLD, OntoTag, Data Category Registry) möglich

reference.owl

stts.owl

importiert

stts-link.rdf

susanne.owl

susanne-link.rdf

russ.owl

russ-link.rdfmodel.owl

OLiA Referenzmodel

Ontologie, die übrige Komponenten importiert

OLiAAnnotationsmodell, Referenzmodell und Linking: Beispiel

OLiAOntologieerstellung mit Protégé: Konzepthierarchie

Die Konzepthierarchie definiert eine Taxonomie von Basiskonzepten fürdas Referenzmodell (e-eagles.owl) wieauch Annotationsmodelle (z.B. stts.owl)

OLiAOntologieerstellung mit Protégé: Relationen

Relationen (Properties) ordnen Konzept-Instanzen andere Konzeptinstanzen zu,z.B. einem LinguisticElement einGrammaticalFeature

OLiAOntologieerstellung mit Protégé: Individuen

Individuen sind durch die Zugehörigkeitzu einem oder mehreren Konzepten undbestimmte Merkmalswerte/Relationencharakterisiert.Individuen der Unterkonzepte von LinguisticElement wird ein Annotations-wert zugeordnet.

OLiADokumentation

• anwendungs-spezifischer HTML-Export– Konzepte sind mittels

Hyperlinks verbunden

• in SPLICR zu Dokumentations-zwecken eingesetzt

• Annotationsmodelle sind den Korpora mit entsprechenden Annotationen zugeordnet

Referenzkonzepte

Konzepte des STTSAnnotationsmodells

OLiAAnwendung jenseits der Dokumentation

• Dokumentation von Annotationsschemata(SPLICR)– kompakte und einheitliche Darstellungsweise

erleichtert das Auffinden relevanter Informationen über die Annotation

• Suchfunktionalität– SPLICR: Ausgangsdaten für Konzeptsuche– OntoClient: direkte Übersetzung ontologischer

Beschreibungen in konkrete Tags

OLiAMetadaten und Konzeptsuche in SPLICR

Korpus

Manifest

annotation-concepts.xml

annotation-structures.xml

annotation-values.xml

eTEI Metadaten

Registriert und spezifiziert die zu einem Korpus gehörigen Daten

Metadaten, die Primärdaten und die Annotation betreffend

Sammlung von XML-DokumentenPrimärdaten und Annotationen

Metadaten für die SucheDefinieren Rückgabekontexte

(Clause, Sentence)

Metadaten für das XML-FormatDefinieren, wie Attribut-Wert-Paarein einem Korpus dargestellt werden

Metadaten für die SucheDefinieren mögliche

Attribut-Wert-Paare in einem Korpus

OLiAOntologien und Metadaten in SPLICR

Korpus

Manifest

annotation-concepts.xml

annotation-structures.xml

annotation-values.xml

eTEI Metadaten

Registriert und spezifiziert die zu einem Korpus gehörigen Daten

Metadaten, die Primärdaten und die Annotation betreffend

Sammlung von XML-DokumentenPrimärdaten und Annotationen

Metadaten für die SucheDefinieren Rückgabekontexte

(Clause, Sentence)

Metadaten für das XML-FormatDefinieren, wie Attribut-Wert-Paarein einem Korpus dargestellt werden

Metadaten für die SucheDefinieren mögliche

Attribut-Wert-Paare in einem Korpus

OLiA Ontologien

Ordnen einner Annotation ein OLiA Annotationsmodell zu

Metadaten für konzeptbasierte Suche

sind aus OLiA-Ontologien extrahierbar

ermöglicht die Anwendung des OntoClient für die ontologie-

basierte Suche

OLiAOntologiebasierte Suche

Suchanfrage ... pos in { Noun \ Nominal } & cat = ...

Konsultation der Ontologie1. ermittle Tags für jedes

angefragte Ontologie-Konzept

2. wende Operatoren an

Noun

ProperNoun

MassNoun CountableNoun

CommonNoun

Nominal

VerbalNoun

Substantive

tibet:ProperNoun

tibet:InanimateNoun

tibet:AnimateNoun

tibet:Person

tibet:CommonNoun

NOM_inan

NOM_anim_lqNOM_inan_lq

NOM_persNOM_pers_anim

NAME

NOM_anim

Referenzmodell

Annotationsmodell

Linking

Ausgabe der erweiterten Anfrage

... pos = NOM_inan | NOM_inan_lq | NOM_anim | NOM_anim_lq | NOM_anim_pers | NOM_pers | NAME & cat = ...

OLiAOntoClient

• OntoClient– JAVA-Bibliothek– erweitert beliebige Korpusanfragesprachen

um ontologiebasierte Suche• Beispielanwendungen

– Ontologie-basierte Suche für CQP– Ontologie-basierte Suche in ANNIS 1

• wird in SPLICR und ANNIS 2 integriert

OLiAOntoClient + ANNIS 1

ontologische Beschreibung

generierte ANNIS-QL-Anfrage

OLiA

• unterstützt die konsistente Dokumentation von Annotationen– HTML-Darstellung

• ermöglicht Nutzern, schnell annotierte Korpora zu konsultieren– ohne auf die vollständige Dokumentation

zurückgreifen zu müssen– SPLICR Konzeptsuche / OntoClient

• ermöglicht Anfragen über unterschiedlich annotierte Korpora hinweg– OntoClient

ANNIS & SPLICR

• ANNIS– Querying und Visualisierung von

Mehrebenenannotationen• SPLICR

– Nachhaltige Archivierung linguistischer Daten• Ontologien linguistischer Annotationen

... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen

• Schlussworte

Vergleich von ANNIS und SPLICR

• komplexes Datenformat• Datenkonvertierung

mittels existierender Konverter

• geringer Aufbereitungsaufwand

neben der unmittelbaren Konvertierung

empirische Arbeit mit Mehrebenen-annotationen

• relativ einfaches Datenformat

• eigene Konverter leicht zu entwickeln

• hoher Aufbereitungsaufwand

neben der unmittelbaren Konvertierung

nachhaltige Archivierung von Datensammlungen

ANNIS SPLICR

Verfügbarkeit

• ANNIS 1– Zugang zur Potsdamer Installation kann auf

Wunsch bereitgestellt werden– lokale Installation kann auf Anfrage bei

chiarcos@uni-potsdam.de bereitgestellt werden

– Datenkonverter sind über ein Webformular erreichbar

Verfügbarkeit

• ANNIS 2– befindet sich momentan noch in der

Erprobungsphase– Veröffentlichung wird momentan vorbereitet

und ist für 2009 zu erwarten• Anfang 2009 sollen Nutzer freie Testzugänge

erhalten können– Mittelfristig ist eine Veröffentlichung des

Quellcodes geplant• Lizenz noch unklar, aber quelloffen

Verfügbarkeit

• SPLICR– wird nach Beendigung des Projekts

„Nachhaltigkeit linguistischer Daten“ (Dezember 2008) der Öffentlichkeit zugänglich gemacht

– momentan werden die SFB-Korpora in die Plattform integriert

• Daten und Metadaten (z.B. zur Zugänglichkeit)– Veröffentlichung des Quellcodes unter einer

quelloffenen Lizenz geplant

Verfügbarkeit

• OLiA-Ontologien– werden in den Releases von ANNIS 2 und

SPLICR enthalten sein– über das Internet zugänglich

• http://nachhalt.sfb632.uni-potsdam.de/owl/all.rdf (in Protégé zu öffnen)

– Werkzeuge• HTML-Visualisierung• OntoClient

Vielen Dank für Ihre Aufmerksamkeit

Beteiligte Kollegen

• ANNIS-Team (U Potsdam, HU Berlin)Manfred Stede, Anke Lüdeling, Ulf Leser, Stefanie Dipper, Michael Götze, Julia Ritz, Amir Zeldes, Florian Zipser, Viktor Rosenfeld, Karsten Hütter, Thomas Krause, Tilman Wegst (extern)

• SPLICR-Team (U Tübingen, U Hamburg)Erhard Hinrichs, Marga Reis, Andreas Witt, Georg Rehm, Timm Lehmberg, Oliver Schonefeld, Richard Eckart (TU Darmstadt), Johannes Dellert, Kilian Evang, Magdalena Leshtanska

• OLiA-Team (U Potsdam)Angelika Adam, Alexander Becker, Johannes Bubenzer, Thomas Augustin

Diskussionspunkte

• weitere Aspekte (Auswahl)– Technische Details zu den Datenbanken– Wahrung von Urheber- und Nutzungsrechten

an Daten und Annotationen– Beispielpipelines für konkrete Datensätze– Erstellung und Wartung von Ontologien– Statistische Funktionalität

AnhangTechnische Details zu ANNIS & SPLICR

• Client-Server-Architekturen– Inkrementeller Datenabruf– Unicode

• Datenbank– SPLICR

• XML-Datenbank– eXist / Annolab– optimiert für hierarchische Annotationen

• SQL-Datenbank– Metadaten

– ANNIS• Relationale Datenbank

– PostGreS– erlaubt Umgang mit hierarchischen und graph-basierten Annotationen

AnhangArchitektur ANNIS 2

BackendBaumsucheANNIS-QL-Suche

AnhangArchitektur SPLICR

SQL DatenbankMetadaten

XML Datenbankaufbereitete Korpusdaten

XQuerySQL

DateisystemOriginaldaten

OLiA-OntologienAnnotationsschemata

Anfrageobjekte

diverse Anfragemodi

Formulardaten

BackendXML (Daten)JSON (Visualisierung)

AnhangANNIS und WEKA

ANNIS

TIGER XMLExmaralda

RST ToolMMAX

• POS, morph, syntax• Informationsstruktur• Diskursstruktur• KoreferenzKonvertierung

nach PAULA

• Integration unterschiedlicher Annotationen desselben Satzes von Dokumenten

Konvertierungnach ARFF

WEKA • WEKA* Arbeitsumgebung für Statistikanalysenstatistische, neuronale, symbolische Klassifikatoren

* http://sourceforge.net/projects/weka/

• Extrahierung von MerkmalstabellenANNIS 2 wird Standardroutinen dafür enthalten

AnhangWEKA

Vorverarbeitung:Auswahl relevanterMerkmale aus einer

ARFF-Tabelle

AnhangWEKA

Beispielanalyse(Entscheidungsbaum)

Informationsstatus und referentielle Ausdrücke im Deutschen (Potsdamer Kommentarkorpus)