EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538...

21
EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt • SFB 538 „Mehrsprachigkeit“ • Universität Ham

Transcript of EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538...

Page 1: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg.

EXMARaLDA -ein System zur

Diskurstranskriptionauf dem Computer

Thomas Schmidt • SFB 538 „Mehrsprachigkeit“ • Universität Hamburg

Page 2: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg.

Projekt „Mehrsprachige Datenbank“Ziel: Bündeln der am SFB 538 vorhandenen Daten

(zunächst:Transkriptionen gesprochener Sprache):• Vortragsdiskurse / Expertendiskurse (japanisch / deutsch)• Interviews (englisch / Luganda / deutsch)• gedolmetschte Diskurse (deutsch / englisch /

portugiesisch / türkisch / japanisch / französisch)• „freie“ Diskurse (skandinavische Sprachen)• Spracherwerbsdaten (deutsch / französisch / portugiesisch /

baskisch / italienisch / türkisch / spanisch)

Page 3: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg.

Projekt „Mehrsprachige Datenbank“Probleme:

• „variety of tools and formats“• Mischbetrieb (Windows / MAC OS 9.x / Linux)• veraltete Systeme (dBase, DOS-Programme)• stark unterschiedliche Zielsetzungen / theoretische

Hintergründe (generative Grammatik, funktionale Pragmatik etc.)

Page 4: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg.

SyncWriter

• Editor für interlinearen Text („Partitur rein, Partitur raus“)• binäres Dateiformat kaum Export- / Importmöglichkeiten• „Hausgemachte“ Lösung für „Sonderzeichen“ (Schriftsatz

HIAT-Times)• Nur unter MAC OS 9.x und früher

Page 5: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg.

HIAT-DOS

• Partitur-Editor• Darstellungsorientierte Text-Dateien Export- / Import

schwierig• Festbreitenschriftsatz, keine „Sonderzeichen“ (ANSI)• Nur unter DOS

Page 6: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg.

Verbmobil

• Einfache Textdateien „Sonderzeichen“ problematisch (ANSI)• keine „fortgeschrittenen“ Darstellungsmöglichkeiten (z.B.

Partitur)

Page 7: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg.

ACCESS / LAPSUS (dBase)

• Äußerungsdatenbanken• unkomfortable Eingabe (in Datenbank-Masken)• keine „fortgeschrittenen“ Darstellungsmöglichkeiten (z.B.

Partitur)• Erweiterung / Anpassung schwierig

Page 8: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg.

Datenbank „Mehrsprachigkeit“

SyncWriter

HIAT-DOS

Verbmobil

SQL-Datenbank

?

ACCESS / dBase

Page 9: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg.

Datenbank „Mehrsprachigkeit“

SyncWriter

HIAT-DOS

Verbmobil

SQL-Datenbank

EXMARaLDA-Basis-

Transkription

Eingabe:Partitur-Editor

ACCESS / dBase

Ausgabe:Partitur in

HTML /RTF

Page 10: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg.

Datenbank „Mehrsprachigkeit“

SyncWriter

HIAT-DOS

Verbmobil

SQL-Datenbank

ACCESS / dBase

Eingabe:Text-Editor

EXMARaLDA-Listen-

Transkription

Ausgabe:

HTML /RTF

EXMARaLDA-Basis-

Transkription

Page 11: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg.

EXMARaLDA - Segmentierte Transkription

Datenbank „Mehrsprachigkeit“

SyncWriter

HIAT-DOS

Verbmobil

SQL-Datenbank

ACCESS / dBase

EXMARaLDA-Listen-

Transkription

EXMARaLDA-Basis-

Transkription

Zusätzliche Annotation

Page 12: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg.

Anforderungen an EXMARaLDA

1. Mindestens: Ersetzen der vorhandenen Systeme, also: Eingabemöglichkeiten: Partitur, Liste Ausgabemöglichkeiten: Partitur, Liste (jeweils auf

Drucker und Bildschirm) Annotationen auf Wort-/Äußerungsebene

(Übersetzung, morphologische Glossen, Phrasenstruktur, ...)

Integration von Audio-/Videodaten Suche auf Annotationen

2. Sprach-/ Software-/ und Plattformunabhängigkeit, Erweiterbarkeit, deshalb: UNICODE, XML, JAVA

Page 13: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg.

Anforderungen an EXMARaLDA

Mindestanforderungen erlauben kaum theoretische Beschränkungen bzgl. des Modells. „universelles“ Modell für Diskurstranskriptionen Annotationsgraphen (Bird/Liberman) zusätzliche Möglichkeiten durch Schnittstellen zu:

anderen Tools, die XML-Daten produzieren (z.B. Transcriber, ANVIL)

anderen Transkriptionssystemen (z.B. GAT, CHAT)

anderen „generischen“ Systemen (z.B. MATE, Talkbank)

Page 14: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg.

EXMARaLDA: bisher fertiggestellte KomponentenDefinition der XML-Kodierung (DTDs):

Basis-Transkription (zeitliche Strukturierung Grundlage für Partitur-Ein-/ und Ausgabe)

Listen-Transkription (zeitliche Strukturierung + Strukturierung nach Sprecherbeiträgen Grundlage für Listen-Ein-/ und Ausgabe)

Segmentierte Transkription (zeitliche + beliebige sprachliche Strukturierung Grundlage für Annotation und zur Archivierung)

Basis-Transkription Listen-Transkription segmentierte Transkription

Page 15: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg.

EXMARaLDA: bisher fertiggestellte KomponentenJAVA-Tools zur Bearbeitung von EXMARaLDA-Daten:

Konvertierung zwischen Basis-/ Listen- und segmentierter Transkription

automatische Segmentierung nach Turns, Äußerungen, Wörtern

JAVA-Tools zur Ausgabe von EXMARaLDA-Daten: Ausgabe als Partitur in HTML oder RTF ( mit

Zeilenumbruch) Ausgabe als Liste

Page 16: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg.

EXMARaLDA: bisher fertiggestellte KomponentenJAVA-Tools zur Eingabe von EXMARaLDA-Daten:

Eingabe als Liste in einer Textdatei (Simple EXMARaLDA)

Import in eine Listen-TranskriptionWeiterbearbeitung mit EXMARaLDA-Tools

Bearbeitung, Ausgabe, Eingabe (Tools ohne GUI) Basis-JAVA-API JAVA-Kommandozeilentools

Page 17: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg.

EXMARaLDA: in Arbeit

JAVA-Tool zur Eingabe von EXMARaLDA-Daten:

Partitur-Editor

Page 18: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg.

EXMARaLDA: in Arbeit

GUI-Tool

Java-Swing API

Page 19: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg.

EXMARaLDA: Ausblick

• Fertigstellung des Partitur-Editors bis Dezember 2001

• Importfilter für syncWriter- und HIAT-DOS-Daten

• Exportfilter für CHAT-Daten

•Annotationstool(s)

• ...

Page 20: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg.

BEISPIEL:

Transkription im PartiturEditor

EXMARaLDA: BASIC-TRANSCRIPTION

AnnotationEXMARaLDA: SEGMENTED-TRANSCRIPTION

EXMARaLDA: LIST-TRANSCRIPTION

CHILDESBearbeiten mit CLAN

Ausgabe als Partitur in RTF

Archivierung in Datenbank

Ausgabe als Liste in HTML

Page 21: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg.

EXMARaLDA -ein System zur

Diskurstranskriptionauf dem Computer

Thomas Schmidt • SFB 538 „Mehrsprachigkeit“ • Universität Hamburg