EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538...
-
Upload
kasimira-strahle -
Category
Documents
-
view
103 -
download
0
Transcript of EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538...
EXMARaLDA -ein System zur
Diskurstranskriptionauf dem Computer
Thomas Schmidt • SFB 538 „Mehrsprachigkeit“ • Universität Hamburg
Projekt „Mehrsprachige Datenbank“Ziel: Bündeln der am SFB 538 vorhandenen Daten
(zunächst:Transkriptionen gesprochener Sprache):• Vortragsdiskurse / Expertendiskurse (japanisch / deutsch)• Interviews (englisch / Luganda / deutsch)• gedolmetschte Diskurse (deutsch / englisch /
portugiesisch / türkisch / japanisch / französisch)• „freie“ Diskurse (skandinavische Sprachen)• Spracherwerbsdaten (deutsch / französisch / portugiesisch /
baskisch / italienisch / türkisch / spanisch)
Projekt „Mehrsprachige Datenbank“Probleme:
• „variety of tools and formats“• Mischbetrieb (Windows / MAC OS 9.x / Linux)• veraltete Systeme (dBase, DOS-Programme)• stark unterschiedliche Zielsetzungen / theoretische
Hintergründe (generative Grammatik, funktionale Pragmatik etc.)
SyncWriter
• Editor für interlinearen Text („Partitur rein, Partitur raus“)• binäres Dateiformat kaum Export- / Importmöglichkeiten• „Hausgemachte“ Lösung für „Sonderzeichen“ (Schriftsatz
HIAT-Times)• Nur unter MAC OS 9.x und früher
HIAT-DOS
• Partitur-Editor• Darstellungsorientierte Text-Dateien Export- / Import
schwierig• Festbreitenschriftsatz, keine „Sonderzeichen“ (ANSI)• Nur unter DOS
Verbmobil
• Einfache Textdateien „Sonderzeichen“ problematisch (ANSI)• keine „fortgeschrittenen“ Darstellungsmöglichkeiten (z.B.
Partitur)
ACCESS / LAPSUS (dBase)
• Äußerungsdatenbanken• unkomfortable Eingabe (in Datenbank-Masken)• keine „fortgeschrittenen“ Darstellungsmöglichkeiten (z.B.
Partitur)• Erweiterung / Anpassung schwierig
Datenbank „Mehrsprachigkeit“
SyncWriter
HIAT-DOS
Verbmobil
SQL-Datenbank
?
ACCESS / dBase
Datenbank „Mehrsprachigkeit“
SyncWriter
HIAT-DOS
Verbmobil
SQL-Datenbank
EXMARaLDA-Basis-
Transkription
Eingabe:Partitur-Editor
ACCESS / dBase
Ausgabe:Partitur in
HTML /RTF
Datenbank „Mehrsprachigkeit“
SyncWriter
HIAT-DOS
Verbmobil
SQL-Datenbank
ACCESS / dBase
Eingabe:Text-Editor
EXMARaLDA-Listen-
Transkription
Ausgabe:
HTML /RTF
EXMARaLDA-Basis-
Transkription
EXMARaLDA - Segmentierte Transkription
Datenbank „Mehrsprachigkeit“
SyncWriter
HIAT-DOS
Verbmobil
SQL-Datenbank
ACCESS / dBase
EXMARaLDA-Listen-
Transkription
EXMARaLDA-Basis-
Transkription
Zusätzliche Annotation
Anforderungen an EXMARaLDA
1. Mindestens: Ersetzen der vorhandenen Systeme, also: Eingabemöglichkeiten: Partitur, Liste Ausgabemöglichkeiten: Partitur, Liste (jeweils auf
Drucker und Bildschirm) Annotationen auf Wort-/Äußerungsebene
(Übersetzung, morphologische Glossen, Phrasenstruktur, ...)
Integration von Audio-/Videodaten Suche auf Annotationen
2. Sprach-/ Software-/ und Plattformunabhängigkeit, Erweiterbarkeit, deshalb: UNICODE, XML, JAVA
Anforderungen an EXMARaLDA
Mindestanforderungen erlauben kaum theoretische Beschränkungen bzgl. des Modells. „universelles“ Modell für Diskurstranskriptionen Annotationsgraphen (Bird/Liberman) zusätzliche Möglichkeiten durch Schnittstellen zu:
anderen Tools, die XML-Daten produzieren (z.B. Transcriber, ANVIL)
anderen Transkriptionssystemen (z.B. GAT, CHAT)
anderen „generischen“ Systemen (z.B. MATE, Talkbank)
EXMARaLDA: bisher fertiggestellte KomponentenDefinition der XML-Kodierung (DTDs):
Basis-Transkription (zeitliche Strukturierung Grundlage für Partitur-Ein-/ und Ausgabe)
Listen-Transkription (zeitliche Strukturierung + Strukturierung nach Sprecherbeiträgen Grundlage für Listen-Ein-/ und Ausgabe)
Segmentierte Transkription (zeitliche + beliebige sprachliche Strukturierung Grundlage für Annotation und zur Archivierung)
Basis-Transkription Listen-Transkription segmentierte Transkription
EXMARaLDA: bisher fertiggestellte KomponentenJAVA-Tools zur Bearbeitung von EXMARaLDA-Daten:
Konvertierung zwischen Basis-/ Listen- und segmentierter Transkription
automatische Segmentierung nach Turns, Äußerungen, Wörtern
JAVA-Tools zur Ausgabe von EXMARaLDA-Daten: Ausgabe als Partitur in HTML oder RTF ( mit
Zeilenumbruch) Ausgabe als Liste
EXMARaLDA: bisher fertiggestellte KomponentenJAVA-Tools zur Eingabe von EXMARaLDA-Daten:
Eingabe als Liste in einer Textdatei (Simple EXMARaLDA)
Import in eine Listen-TranskriptionWeiterbearbeitung mit EXMARaLDA-Tools
Bearbeitung, Ausgabe, Eingabe (Tools ohne GUI) Basis-JAVA-API JAVA-Kommandozeilentools
EXMARaLDA: in Arbeit
JAVA-Tool zur Eingabe von EXMARaLDA-Daten:
Partitur-Editor
EXMARaLDA: in Arbeit
GUI-Tool
Java-Swing API
EXMARaLDA: Ausblick
• Fertigstellung des Partitur-Editors bis Dezember 2001
• Importfilter für syncWriter- und HIAT-DOS-Daten
• Exportfilter für CHAT-Daten
•Annotationstool(s)
• ...
BEISPIEL:
Transkription im PartiturEditor
EXMARaLDA: BASIC-TRANSCRIPTION
AnnotationEXMARaLDA: SEGMENTED-TRANSCRIPTION
EXMARaLDA: LIST-TRANSCRIPTION
CHILDESBearbeiten mit CLAN
Ausgabe als Partitur in RTF
Archivierung in Datenbank
Ausgabe als Liste in HTML
EXMARaLDA -ein System zur
Diskurstranskriptionauf dem Computer
Thomas Schmidt • SFB 538 „Mehrsprachigkeit“ • Universität Hamburg