Das LeaP Korpus und Pacx - eine Plattform für annotierte Korpora in XML Ulrike Gut
description
Transcript of Das LeaP Korpus und Pacx - eine Plattform für annotierte Korpora in XML Ulrike Gut
Das LeaP Korpus undPacx -
eine Plattform für annotierte Korpora in XML
Ulrike Gut UNIVERSITÄT AUGSBURG
LeaP Korpus
►erstellt 2001 bis 2003; Universität Bielefeld; Learning Prosody Projekt
►Lernerkorpus: L2 Englisch und L2 Deutsch (plus einige Muttersprachler)
►Gesamtgröße: 12 h; 131 Sprecher mit 32 unterschiedlichen L1s; vier Sprechstile
►vielfältige Annotationen und Metadaten (IMDI Format); Text-Ton-aligniert
►Datenformat XML-basiert (TASX)
http://www.philhist.uni-augsburg.de/lehrstuehle/anglistik/applied/Research/leap/
Annotationen im LeaP Korpus
► 8 tiers
► Intonationsphrasen und nicht-sprachliche Ereignisse
► orthographische Transkription von Wörtern
► phonemische Transkription in SAMPA von Silben
► Segmente (Konsonanten und Vokale)
► Intonation (ToBI), Tonumfang
► Lemmata, POS
► Reliabilität der manuellen Annotationen überprüft (Gut & Bayerl 2004)
Pacx – Platform for annotated corpora in XML
► Integrierte Plattform zur Korpusannotation (in XML), -suche und -distribution
► Eclipse, Vex, Versionskontrolle (Subversion)► Spezifikation von Annotationsschema ► Annotation mit XML-Editor Vex► Build-Corpus-Skript: führt Anfragen und Tests durch,
erzeugt Korpus und Webpage mit Links zu Rohdaten und Transkriptionen
► Integration von ELAN geplant (Annotation von gesprochener Sprache)
http://pacx.sourceforge.net/