ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer...
-
Upload
waldobert-geerdes -
Category
Documents
-
view
231 -
download
4
Transcript of ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer...
ANNIS und SPLICR
Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen
Christian [email protected]
Großflächige Akzeptanz und Ausweitung empirischer, v.a. korpusbasierter Arbeiten in den letzten 20 Jahren.
„There‘s no data like more data.“
Neue technische und methodische Anforderungen für die Arbeit mit linguistischen Datensammlungen
Probleme bei der Arbeit mit Korpora
• Aufbau und Wartung von Datensammlungen sind zeitaufwändig und teuer Nachhaltige Archivierung und Dokumentation ?
• Die Vielfalt linguistischer Annotationen nimmt immer mehr zu Zusammenführung verschiedener Annotationen, die
mit verschiedenen Spezialwerkzeugen geschaffen wurden ?
• Es existiert eine Kluft zwischen praktischer Annotation und linguistischer Intuition Wie kann Otto Normallinguist vor Fehlschlüssen
bewahrt werden ?
Probleme bei der Arbeit mit Korpora
• Aufbau und Wartung von Datensammlungen sind zeitaufwändig und teuer Nachhaltige Archivierung und Dokumentation ?
• Die Vielfalt linguistischer Annotationen nimmt immer mehr zu Zusammenführung verschiedener Annotationen, die
mit verschiedenen Spezialwerkzeugen geschaffen wurden ?
• Es existiert eine Kluft zwischen praktischer Annotation und linguistischer Intuition Wie kann Otto Normallinguist vor Fehlschlüssen
bewahrt werden ?
Ontologienlinguistischer Annotationen
OLiA
Datenbank der Annotationen
zur Informationsstruktur
ANNIS
Sustainability Platform for Linguistic
Corpora and Resources
SPLICR
Probleme bei der Arbeit mit Korpora
Ontologienlinguistischer Annotationen
OLiA
Datenbank der Annotationen
zur Informationsstruktur
ANNIS
Sustainability Platform for Linguistic
Corpora and Resources
SPLICR
SFB 632 Information Structure
ANNIS & SPLICR
• ANNIS (SFB632 „Informationsstruktur“)– Querying und Visualisierung von
Mehrebenenannotationen• SPLICR (SFB441 „Linguistische Datenstrukturen“)
– Nachhaltige Archivierung linguistischer Daten• Ontologien linguistischer Annotationen
... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen
• Schlussworte
ANNIS
• SFB 632 „Informationsstruktur“Potsdam, HU Berlin
• Projekt „Linguistische Datenbank“ (Stede/Lüdeling)
• Datenbank für die dort aufgebautenAnnotationen zur Informationsstruktur
– 10 Datenprojekte unterschiedlicher linguistischer Disziplinen
Typologie, Historische Sprachwissenschaft, Korpuslinguistik, Computerlinguistik
ANNISBesondere Anforderungen
Mehrebenenannotation• Diskursphänomene erfordern die Betrachtung
unterschiedlicher linguistischer Beschreibungsebenen– Morphologie und Syntax– Semantik– Phonologie und Prosodie– Anaphorik– Diskursstruktur– Informationsstruktur und Informationsstatus
ANNISBesondere Anforderungen
Mehrebenenannotation• Annotation von Diskursphänomenen erfordert
unterschiedliche spezialisierte Werkzeuge – Toolbox/Shoebox– Exmaralda/ELAN– Annotate/Synpathy– MMAX/Palinka– RSTTool
ANNISBesondere Anforderungen
Mehrebenenannotation• Annotation von Diskursphänomenen erfordert
unterschiedliche spezialisierte Werkzeuge• Keines dieser Werkzeuge erlaubt, auf andere
Annotationsebenen zuzugreifen oder diese angemessen darzustellen
Integration der Daten in einer einzigen DatenbankAnfragen über mehrere Annotationsebenen hinweg
MehrebenenannotationSyntaxannotation
Annotate, Synpathy
NK
NP
NK NK
Die einstige Fußball-WeltmachtART ADJA NN
MehrebenenannotationAnaphorik
MMAX
MehrebenenannotationDiskursstruktur
RST Tool
MehrebenenannotationPartitur-Annotation
Exmaralda
ANNIS
Annotierte Daten
Morphologie, Syntax, Anaphorik, Diskursstruktur, Partitur-Annotationen Gemeinsames
Datenformat
ANNISLinguistische Datenbank
Suche, Visualisierung, Export
PAULAPotsdamer Austauschformat für linguistische Annotationen
ANNISBesondere Anforderungen
• Anfragen über mehrere Annotationsebenen hinweg
• Gemeinsames Datenbankformat für unterschiedliche Daten
• Direkter Einsatz in der empirischen Forschung– Komfortable und mächtige Suchmöglichkeiten– Statistische Funktionalität
ANNISANNIS 1 (2003-2006)
• entwickelt 2003-2006• Anfragesprache ANNIS-QL• Partituransicht• reine Hauptspeicherlösung• im Browser zu benutzen
– lokale Installation möglich– kann auf Anfrage zugänglich gemacht werden
ANNISSuchfenster, Textansicht, Partituransicht (ANNIS 1)
ANNISAnfragesprache ANNIS-QL
• Anfragen über mehrere Annotationsschichten– ... um Wechselwirkungen zu studierengivenness=‘giv‘ & syncat=‘pp‘ & rhetrel=‘contrast‘
– ... um abweichende Annotationsentscheidungen zu identifizierenann1::givenness=‘new‘ & ann2::givenness=‘giv‘ & #1 _=_ #2
– ... um Annotationen auf Vollständigkeit zu prüfenaboutness=‘ref‘ & givenness=‘‘ & #1 _=_ #2
ANNISANNIS 2 (seit 2006)
• entwickelt seit Mitte 2006 – in Kooperation mit Ulf Leser, HU Berlin
• Weiterentwicklung von ANNIS 1– graphischer Editor für ANNIS-QL-Anfragen– relationale DB (PostGreS)– Erweiterung von ANNIS-QL– differenzierte Visualisierung für
unterschiedliche Datentypen– reine Serveranwendung
ANNIS 2Baumsuche*
* Mehrfache Vorfeldbesetzung (TIGER)
ANNIS 2Ergebnisliste*
* Mehrfache Vorfeldbesetzung (TIGER)
ANNIS 2Ergebnispräsentation: Baumansicht
ANNIS 2Ergebnispräsentation: Koreferenz-Ansicht
ANNIS 2Aktueller Status
• momentan ein Forschungsprototyp– „Erprobungsphase“ mit interessierten
Kooperationspartnern– offizielles Release Anfang 2009 geplant
• Testzugänge dann möglich– soll langfristig quelloffen zur Verfügung gestellt
werden• aktuelle Entwicklungen
– Verbesserung der Stabilität und Performanz– Erweiterung der Datenbasis– verbesserte statistische Funktionalität
• Export einer Trefferliste in einem Tabellenformat
ANNIS & SPLICR
• ANNIS– Querying und Visualisierung von
Mehrebenenannotationen• SPLICR
– Nachhaltige Archivierung linguistischer Daten• Ontologien linguistischer Annotationen
... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen
• Schlussworte
SPLICRInfrastruktur für ein Nachhaltigkeitsarchiv
• Sustainability Platform for Linguistic Corpora and Resources
• Kooperationsprojekt „Nachhaltigkeit linguistischer Daten“ (Reis/Hinrichs)
• Datenbank für die nachhaltige Archivierung der Daten aller beteiligten SFBs– SFB 441 „Linguistische Datenstrukturen“, Tübingen– SFB 538 „Mehrsprachigkeit“, Hamburg– SFB 632 „Informationsstruktur“, Potsdam/HU Berlin
SPLICRBesondere Anforderungen
• Nachhaltige Archivierung– Daten sollen langfristig zugänglich gemacht
werden– Entscheidungshilfe dafür, welche Korpora ein
Nutzer anfordern sollte– Daten sollen sich dem Nutzer ohne
langwieriges Studium der Dokumentation erschließen
– Direkt lesbares Datenformat (XML)
SPLICRBesondere Anforderungen
• SPLICR dient zum Nachweis und zur Erhaltung existierender Ressourcen– heterogene Datenbasis
• Daten werden nur so weit verändert, wie für die Datenbankrepräsentation notwendig
– Vorlagen-basierte Anfragen– auf Robustheit optimiert
weniger auf Performanz– keine Statistikfunktionalität– Abfragen für jeweils nur eine Ressource und eine
Annotationsebene
SPLICRRessourcenüberblick und -auswahl
SPLICRSuchfunktionalität
• Volltextsuche– Suche nach Zeichenfolgen in den Originaldaten
• Konzeptsuche– Suche nach Annotationen mit Hilfe kurzer
konzeptueller BeschreibungenRückgabekontext
„Clause“ statt //ntNode[@cat=‘S‘]Annotationsschicht
„Parts of Speech“ statt //*/pos/@genau:valueAnnotationswert
„Auxilliary Verb, finite“ statt //*/pos[@genau:value=‘VAFIN‘]
• Baumsuche– sucht nach Annotationen oder Annotationskonzepten– erweitert Konzeptsuche um Dominanz- und
Präzedenzrelationen
SPLICRKonzeptsuche
SPLICRBaumsuche
SPLICRPräsentation der Suchergebnisse
• verschiedene Visualisierungen der XML-Struktur der Daten– Textansicht
• alle Annotationen ausgeblendet– Boxansicht
• ähnlich der ANNIS-Partituransicht– Baumansicht
• Visualisierung des XML-Baumes nicht notwendigerweise ein Baum im linguistischen Sinne
– XML• formatierte Ausgabe der XML-Daten
SPLICRErgebnisansicht: Boxansicht
SPLICRErgebnisansicht: Baumansicht
SPLICR
• wird nach Beendigung des Nachhaltigkeitsprojektes (Dezember 2008) in Betrieb genommen
• erfasst die Daten und Metadaten der erfassten Ressourcen
• die Konzeptsuche erfordert zusätzlich, die Annotationen und das Korpusformat auf bestimmte Weise zu dokumentieren Ontologien linguistischer Annotationen
ANNIS & SPLICR
• ANNIS– Querying und Visualisierung von
Mehrebenenannotationen• SPLICR
– Nachhaltige Archivierung linguistischer Daten• Ontologien linguistischer Annotationen
... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen
• Schlussworte
OLiAMotivation
• Überwindung der Kluft zwischen real existierender Annotation und den Intuitionen ihrer Nutzer– verbesserte Aufbereitung
• konzeptbasierte Suche– gesteigerte Transparenz
• Dokumentation von Annotationen• Formalisierung von Annotationsschemata• Abbildung zwischen Annotationen auf eine
wohldefinierte Basisterminologie
OLiAMotivation: Annotation vs. Intuition
• Annotationsschemata erzwingen eine eindeutige Kategorisierung sämtlicher Phänomene
• Neben theoretischen Überlegungen gehen aber auch pragmatische Designentscheidungen in Annotationsschemata ein– in unterschiedlichen Korpora/Annotationsschemata
abweichend• „Otto Normallinguist“ muss Strategien
entwickeln, Tag-Definitionen schnell zu erfassen, um mit den Daten arbeiten zu können
OLiAMotivation: Annotation vs. Intuition
• Strategien zum Deuten von linguistischen Annotationen– Die „intuitive“ Methode
• Was sich wie „Hilfsverb“ anhört, meint das sicher auch.
– Die Analogie-Methode• Aus meinem Lieblingstagset weiß ich, wie dort Hilfsverben
definiert werden. Das ist hier sicherlich genauso.
– Die „Schau-mer-mal“-Methode• Was war doch gleich das Tag für Hilfsverben im Korpus ?
– Die „richtige“ Methode• Was sagt eigentlich die Dokumentation ?
OLiAMotivation: Annotation vs. Intuition
• Strategien zum Deuten von linguistischen Annotationen– Die „intuitive“ Methode
• Was sich wie „Hilfsverb“ anhört, meint das sicher auch.
– Die Analogie-Methode• Aus meinem Lieblingstagset weiß ich, wie dort Hilfsverben
definiert werden. Das ist hier sicherlich genauso.
– Die „Schau-mer-mal“-Methode• Was war doch gleich das Tag für Hilfsverben im Korpus ?
– Die „richtige“ Methode• Was sagt eigentlich die Dokumentation ?
MinimalerAufwand
MaximalerAufwand
OLiAAnnotation vs. Intuition
• Die „intuitive“ Methode– Was sich wie „Hilfsverb“ anhört, meint das
sicher auch– Naja, nicht bei Morphy*
– Und auch nicht bei STTS**
* http://www.wolfganglezius.de/doku.php?id=public:cl:morphy (15.10.08)** Schiller et al. (1999), S.29
OLiAAnnotation vs. Intuition
• Die Analogie-Methode– „Hilfsverb“ bezeichnet also eigentlich
potentielle Hilfsverben– Naja, nicht im Connexor-Tagset*
* http://www.connexor.eu/technology/machinese/demo/syntax/ (15.10.08)
Aber glaub mir, das ist nicht das Ende, denn das ist noch lange nicht gekommen.
• Die „Schau-mer-mal“-Methode– Was war doch gleich das Tag für Hilfsverben
im Korpus ?– erster Beleg in TIGERSampler: VAFIN
OLiAAnnotation vs. Intuition
• Die „richtige“ Methode– Was sagt eigentlich die Dokumentation ?– Manchmal etwas zu viel
• TüBa-D/Z: 146 Seiten*• Susanne: 483 Seiten**
– Manchmal etwas zu wenig• Z.B. als reine Tag-Liste
– Vor allem aber: Jedes Annotationsschema auf seine eigene Weise
OLiAAnnotation vs. Intuition
??* H. Telljohann et al. (2006), Stylebook for the Tübingen Treebank of Written German (TüBa-D/Z)** G. Sampson (1996), The Susanne corpus and analytic scheme
OLiADie Idee
• Formale Modellierung der linguistischen Basisterminologie
„Referenzmodell“*• Formale Spezifikation der Terminologie jedes
einzelnen Annotationsschemas„Annotationsmodell“
• Annotationskonzepte werden als Subkonzepte von Referenzkonzepten spezifiziert
„Linking“• kann komplex sein**
BABABAC ,,
* Bezogen auf die in SPLICR und ANNIS vorliegenden Annotationen** Annotationskonzept C, Referenzkonzepte A,B
OLiADie Idee
• FormalisierungAbweichungen von Referenzdefinitionen klar
herausgestelltHilfsverben in STTS:
• explizit und eindeutig kompakte Repräsentation
• XML-basierte Formalismen leicht in menschenlesbare Darstellung konvertierbar
HTML-Dokumentation
• OWL/DL
)( ModalVerbbLexicalVererbAuxiliaryVVAFIN
OLiADie Idee
• FormalisierungAbweichungen von Referenzdefinitionen klar
herausgestelltHilfsverben in STTS:
• explizit und eindeutig kompakte Repräsentation
• XML-basierte Formalismen leicht in menschenlesbare Darstellung konvertierbar
HTML-Dokumentation
• Formalisierung als Ontologie (OWL/DL)
)( ModalVerbbLexicalVererbAuxiliaryVVAFIN
OLiAOntologien in der Informationsverarbeitung
• Ontologie– Konzeptualisierung einer bestimmten Domäne
• z.B. eine Taxonomie linguistischer Termini
– hierarchisch und relational strukturiert• OWL (Web Ontology Language)*
– formale Beschreibungssprache für Ontologien– XML-basiert– Semantic Web
* Web Ontology Language, http://www.w3.org/2004/OWL/ (10.10.08)
OLiAProjekte zur linguistischen Terminologie: EAGLES
• Expert Advisory Group on Language Engineering*– Standardisierungsprojekt der EU (1993 – 1996)
• Empfehlungen für Annotationschemata– v.a. Wortarten, Morphologie, Syntax; Lexika– ausgehend von existierenden Schemata
• Identifizierung sich wiederholender Begriffe
– kein nennenswerter theoretischer Unterbau• keine Referenzdefinitionen
* http://www.ilc.cnr.it/EAGLES96/home.html (06.09.2008)
OLiAProjekte zur linguistischen Terminologie: GOLD
• General Ontology for Linguistic Description*– im Rahmen des E-MELD-Projektes zur
Dokumentation bedrohter Sprachen entwickelt (2001-2006)
• auf der Basis v.a. typologischer Literatur– Schwerpunkt auf Morphosyntax– OWL/DL
* http://www.linguistics-ontology.org/ (06.09.2007)** Electronic Metastructure for Endangered Languages Data (http://www.emeld.org/index.cfm, 06.09.2007)
OLiAWeitere Projekte zur linguistischen Terminologie (Auswahl)
• Data Category Registry (Ide 2003)*– Weiterentwicklung der EAGLES-Empfehlungen,
erweitert um Definitionen• OntoTag (de Cea et al. 2003)
– Ontologie morphosyntaktischer Annotationen des Spanischen
• Typological Database System Ontology (Dimitriadis et al., 2005)**– OWL-Ontologie der Terminologie typologischer
Datensammlungen
* http://www.isocat.org/ (15.10.08)** http://languagelink.let.uu.nl/tds/main.html (15.10.08)
OLiAWeitere Projekte zur linguistischen Terminologie (Auswahl)
• IDS-Ontologie (Schneider 2007)– Terminologie zur Grammatikbeschreibung im
Deutschen• G. Wilcock (2008)
– OWL-Ontologie für HPSG als Erweiterung von GOLD• A. Burchardt et al. (2008)
– OWL-Formalisierung annotierter Korpora und ihrer Annotation
Die OliA-Ontologien sollen modular strukturiert sein, um diese Ontologien als externe Wissensquellen einbinden zu können.
OLiAStrukturkomponenten
• Annotationsmodell10 Annotationsmodelle zu mehreren Europäischen und Außereuropäischen SprachenWortarten, Morphologie, Syntax, Koreferenz, Informationsstruktur
• OLiA ReferenzmodellGeneralisiert über die AnnotationsmodelleBasiert u.a. auf EAGLES und GOLD
• LinkingErweiterbare ArchitekturAnbindung externer Referenzmodels (GOLD, OntoTag, Data Category Registry) möglich
reference.owl
stts.owl
importiert
stts-link.rdf
susanne.owl
susanne-link.rdf
russ.owl
russ-link.rdfmodel.owl
OLiA Referenzmodel
Ontologie, die übrige Komponenten importiert
OLiAAnnotationsmodell, Referenzmodell und Linking: Beispiel
OLiAOntologieerstellung mit Protégé: Konzepthierarchie
Die Konzepthierarchie definiert eine Taxonomie von Basiskonzepten fürdas Referenzmodell (e-eagles.owl) wieauch Annotationsmodelle (z.B. stts.owl)
OLiAOntologieerstellung mit Protégé: Relationen
Relationen (Properties) ordnen Konzept-Instanzen andere Konzeptinstanzen zu,z.B. einem LinguisticElement einGrammaticalFeature
OLiAOntologieerstellung mit Protégé: Individuen
Individuen sind durch die Zugehörigkeitzu einem oder mehreren Konzepten undbestimmte Merkmalswerte/Relationencharakterisiert.Individuen der Unterkonzepte von LinguisticElement wird ein Annotations-wert zugeordnet.
OLiADokumentation
• anwendungs-spezifischer HTML-Export– Konzepte sind mittels
Hyperlinks verbunden
• in SPLICR zu Dokumentations-zwecken eingesetzt
• Annotationsmodelle sind den Korpora mit entsprechenden Annotationen zugeordnet
Referenzkonzepte
Konzepte des STTSAnnotationsmodells
OLiAAnwendung jenseits der Dokumentation
• Dokumentation von Annotationsschemata(SPLICR)– kompakte und einheitliche Darstellungsweise
erleichtert das Auffinden relevanter Informationen über die Annotation
• Suchfunktionalität– SPLICR: Ausgangsdaten für Konzeptsuche– OntoClient: direkte Übersetzung ontologischer
Beschreibungen in konkrete Tags
OLiAMetadaten und Konzeptsuche in SPLICR
Korpus
Manifest
annotation-concepts.xml
annotation-structures.xml
annotation-values.xml
eTEI Metadaten
Registriert und spezifiziert die zu einem Korpus gehörigen Daten
Metadaten, die Primärdaten und die Annotation betreffend
Sammlung von XML-DokumentenPrimärdaten und Annotationen
Metadaten für die SucheDefinieren Rückgabekontexte
(Clause, Sentence)
Metadaten für das XML-FormatDefinieren, wie Attribut-Wert-Paarein einem Korpus dargestellt werden
Metadaten für die SucheDefinieren mögliche
Attribut-Wert-Paare in einem Korpus
OLiAOntologien und Metadaten in SPLICR
Korpus
Manifest
annotation-concepts.xml
annotation-structures.xml
annotation-values.xml
eTEI Metadaten
Registriert und spezifiziert die zu einem Korpus gehörigen Daten
Metadaten, die Primärdaten und die Annotation betreffend
Sammlung von XML-DokumentenPrimärdaten und Annotationen
Metadaten für die SucheDefinieren Rückgabekontexte
(Clause, Sentence)
Metadaten für das XML-FormatDefinieren, wie Attribut-Wert-Paarein einem Korpus dargestellt werden
Metadaten für die SucheDefinieren mögliche
Attribut-Wert-Paare in einem Korpus
OLiA Ontologien
Ordnen einner Annotation ein OLiA Annotationsmodell zu
Metadaten für konzeptbasierte Suche
sind aus OLiA-Ontologien extrahierbar
ermöglicht die Anwendung des OntoClient für die ontologie-
basierte Suche
OLiAOntologiebasierte Suche
Suchanfrage ... pos in { Noun \ Nominal } & cat = ...
Konsultation der Ontologie1. ermittle Tags für jedes
angefragte Ontologie-Konzept
2. wende Operatoren an
Noun
ProperNoun
MassNoun CountableNoun
CommonNoun
Nominal
VerbalNoun
Substantive
tibet:ProperNoun
tibet:InanimateNoun
tibet:AnimateNoun
tibet:Person
tibet:CommonNoun
NOM_inan
NOM_anim_lqNOM_inan_lq
NOM_persNOM_pers_anim
NAME
NOM_anim
Referenzmodell
Annotationsmodell
Linking
Ausgabe der erweiterten Anfrage
... pos = NOM_inan | NOM_inan_lq | NOM_anim | NOM_anim_lq | NOM_anim_pers | NOM_pers | NAME & cat = ...
OLiAOntoClient
• OntoClient– JAVA-Bibliothek– erweitert beliebige Korpusanfragesprachen
um ontologiebasierte Suche• Beispielanwendungen
– Ontologie-basierte Suche für CQP– Ontologie-basierte Suche in ANNIS 1
• wird in SPLICR und ANNIS 2 integriert
OLiAOntoClient + ANNIS 1
ontologische Beschreibung
generierte ANNIS-QL-Anfrage
OLiA
• unterstützt die konsistente Dokumentation von Annotationen– HTML-Darstellung
• ermöglicht Nutzern, schnell annotierte Korpora zu konsultieren– ohne auf die vollständige Dokumentation
zurückgreifen zu müssen– SPLICR Konzeptsuche / OntoClient
• ermöglicht Anfragen über unterschiedlich annotierte Korpora hinweg– OntoClient
ANNIS & SPLICR
• ANNIS– Querying und Visualisierung von
Mehrebenenannotationen• SPLICR
– Nachhaltige Archivierung linguistischer Daten• Ontologien linguistischer Annotationen
... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen
• Schlussworte
Vergleich von ANNIS und SPLICR
• komplexes Datenformat• Datenkonvertierung
mittels existierender Konverter
• geringer Aufbereitungsaufwand
neben der unmittelbaren Konvertierung
empirische Arbeit mit Mehrebenen-annotationen
• relativ einfaches Datenformat
• eigene Konverter leicht zu entwickeln
• hoher Aufbereitungsaufwand
neben der unmittelbaren Konvertierung
nachhaltige Archivierung von Datensammlungen
ANNIS SPLICR
Verfügbarkeit
• ANNIS 1– Zugang zur Potsdamer Installation kann auf
Wunsch bereitgestellt werden– lokale Installation kann auf Anfrage bei
[email protected] bereitgestellt werden
– Datenkonverter sind über ein Webformular erreichbar
Verfügbarkeit
• ANNIS 2– befindet sich momentan noch in der
Erprobungsphase– Veröffentlichung wird momentan vorbereitet
und ist für 2009 zu erwarten• Anfang 2009 sollen Nutzer freie Testzugänge
erhalten können– Mittelfristig ist eine Veröffentlichung des
Quellcodes geplant• Lizenz noch unklar, aber quelloffen
Verfügbarkeit
• SPLICR– wird nach Beendigung des Projekts
„Nachhaltigkeit linguistischer Daten“ (Dezember 2008) der Öffentlichkeit zugänglich gemacht
– momentan werden die SFB-Korpora in die Plattform integriert
• Daten und Metadaten (z.B. zur Zugänglichkeit)– Veröffentlichung des Quellcodes unter einer
quelloffenen Lizenz geplant
Verfügbarkeit
• OLiA-Ontologien– werden in den Releases von ANNIS 2 und
SPLICR enthalten sein– über das Internet zugänglich
• http://nachhalt.sfb632.uni-potsdam.de/owl/all.rdf (in Protégé zu öffnen)
– Werkzeuge• HTML-Visualisierung• OntoClient
Vielen Dank für Ihre Aufmerksamkeit
Beteiligte Kollegen
• ANNIS-Team (U Potsdam, HU Berlin)Manfred Stede, Anke Lüdeling, Ulf Leser, Stefanie Dipper, Michael Götze, Julia Ritz, Amir Zeldes, Florian Zipser, Viktor Rosenfeld, Karsten Hütter, Thomas Krause, Tilman Wegst (extern)
• SPLICR-Team (U Tübingen, U Hamburg)Erhard Hinrichs, Marga Reis, Andreas Witt, Georg Rehm, Timm Lehmberg, Oliver Schonefeld, Richard Eckart (TU Darmstadt), Johannes Dellert, Kilian Evang, Magdalena Leshtanska
• OLiA-Team (U Potsdam)Angelika Adam, Alexander Becker, Johannes Bubenzer, Thomas Augustin
Diskussionspunkte
• weitere Aspekte (Auswahl)– Technische Details zu den Datenbanken– Wahrung von Urheber- und Nutzungsrechten
an Daten und Annotationen– Beispielpipelines für konkrete Datensätze– Erstellung und Wartung von Ontologien– Statistische Funktionalität
AnhangTechnische Details zu ANNIS & SPLICR
• Client-Server-Architekturen– Inkrementeller Datenabruf– Unicode
• Datenbank– SPLICR
• XML-Datenbank– eXist / Annolab– optimiert für hierarchische Annotationen
• SQL-Datenbank– Metadaten
– ANNIS• Relationale Datenbank
– PostGreS– erlaubt Umgang mit hierarchischen und graph-basierten Annotationen
AnhangArchitektur ANNIS 2
BackendBaumsucheANNIS-QL-Suche
AnhangArchitektur SPLICR
SQL DatenbankMetadaten
XML Datenbankaufbereitete Korpusdaten
XQuerySQL
DateisystemOriginaldaten
OLiA-OntologienAnnotationsschemata
Anfrageobjekte
diverse Anfragemodi
Formulardaten
BackendXML (Daten)JSON (Visualisierung)
AnhangANNIS und WEKA
ANNIS
TIGER XMLExmaralda
RST ToolMMAX
• POS, morph, syntax• Informationsstruktur• Diskursstruktur• KoreferenzKonvertierung
nach PAULA
• Integration unterschiedlicher Annotationen desselben Satzes von Dokumenten
Konvertierungnach ARFF
WEKA • WEKA* Arbeitsumgebung für Statistikanalysenstatistische, neuronale, symbolische Klassifikatoren
* http://sourceforge.net/projects/weka/
• Extrahierung von MerkmalstabellenANNIS 2 wird Standardroutinen dafür enthalten
AnhangWEKA
Vorverarbeitung:Auswahl relevanterMerkmale aus einer
ARFF-Tabelle
AnhangWEKA
Beispielanalyse(Entscheidungsbaum)
Informationsstatus und referentielle Ausdrücke im Deutschen (Potsdamer Kommentarkorpus)