Das LeaP Korpus und Pacx - eine Plattform für annotierte Korpora in XML Ulrike Gut

4
Das LeaP Korpus und Pacx - eine Plattform für annotierte Korpora in XML Ulrike Gut UNIVERSITÄT AUGSBURG

description

Das LeaP Korpus und Pacx - eine Plattform für annotierte Korpora in XML Ulrike Gut UNIVERSITÄT AUGSBURG. LeaP Korpus. erstellt 2001 bis 2003; Universität Bielefeld; Learning Prosody Projekt Lernerkorpus: L2 Englisch und L2 Deutsch (plus einige Muttersprachler) - PowerPoint PPT Presentation

Transcript of Das LeaP Korpus und Pacx - eine Plattform für annotierte Korpora in XML Ulrike Gut

Page 1: Das LeaP Korpus und Pacx  - eine Plattform für annotierte Korpora in XML Ulrike Gut

Das LeaP Korpus undPacx -

eine Plattform für annotierte Korpora in XML

Ulrike Gut UNIVERSITÄT AUGSBURG

Page 2: Das LeaP Korpus und Pacx  - eine Plattform für annotierte Korpora in XML Ulrike Gut

LeaP Korpus

►erstellt 2001 bis 2003; Universität Bielefeld; Learning Prosody Projekt

►Lernerkorpus: L2 Englisch und L2 Deutsch (plus einige Muttersprachler)

►Gesamtgröße: 12 h; 131 Sprecher mit 32 unterschiedlichen L1s; vier Sprechstile

►vielfältige Annotationen und Metadaten (IMDI Format); Text-Ton-aligniert

►Datenformat XML-basiert (TASX)

http://www.philhist.uni-augsburg.de/lehrstuehle/anglistik/applied/Research/leap/

Page 3: Das LeaP Korpus und Pacx  - eine Plattform für annotierte Korpora in XML Ulrike Gut

Annotationen im LeaP Korpus

► 8 tiers

► Intonationsphrasen und nicht-sprachliche Ereignisse

► orthographische Transkription von Wörtern

► phonemische Transkription in SAMPA von Silben

► Segmente (Konsonanten und Vokale)

► Intonation (ToBI), Tonumfang

► Lemmata, POS

► Reliabilität der manuellen Annotationen überprüft (Gut & Bayerl 2004)

Page 4: Das LeaP Korpus und Pacx  - eine Plattform für annotierte Korpora in XML Ulrike Gut

Pacx – Platform for annotated corpora in XML

► Integrierte Plattform zur Korpusannotation (in XML), -suche und -distribution

► Eclipse, Vex, Versionskontrolle (Subversion)► Spezifikation von Annotationsschema ► Annotation mit XML-Editor Vex► Build-Corpus-Skript: führt Anfragen und Tests durch,

erzeugt Korpus und Webpage mit Links zu Rohdaten und Transkriptionen

► Integration von ELAN geplant (Annotation von gesprochener Sprache)

http://pacx.sourceforge.net/