EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt,...

Post on 06-Apr-2015

105 views 0 download

Transcript of EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt,...

EXMARaLDA - ein System zur Diskurstranskription und -

annotation auf dem ComputerThomas Schmidt,

SFB ‚Mehrsprachigkeit‘, Hamburg

syncWritersyncWriter-Daten(binär)

Grafik(umg. Partitur)

Segmentliste

syncWritersyncWriter-Daten(binär)

Grafik(umg. Partitur)

Segmentliste

andere Werkzeuge

syncWritersyncWriter-Daten(binär)

Grafik(umg. Partitur)

Segmentliste

andere Werkzeuge andere Datenformate

syncWritersyncWriter-Daten(binär)

Grafik(umg. Partitur)

Segmentliste

andere Werkzeuge andere Datenformate andere Betriebssysteme

syncWritersyncWriter-Daten(binär)

Grafik(umg. Partitur)

Segmentliste

andere Werkzeuge andere Datenformate andere Betriebssysteme

?

vertikale Eingabe

Spalten-Eingabe

Partitur-Eingabe

...

vertikale Darstellung: RTF

Spalten-Darstellung: HTML

Partitur-Darstellung: PDF

...

andere Transkriptionsformate Datenbank

andere Werkzeuge

(XML)-Datenformat

„Single Source, Multiple Targets“

t0 t1 t2 t3

MAX / v / „Du fällst mir immer“ MAX / v / „ins Wort“

MAX / nv / „gestikuliert“

TOM / v / „Stimmt ja“ TOM / v / „wohl gar nicht.“

TOM / nv / „grinst.“

Bird / Liberman: ANNOTATION GRAPHS

Struktur einer Diskurstranskription:Zeitachse und Ereignisse

e t(e)Ereignis Sprecher Start Ende Kategorie symbolische Beschreibunge1 Max t0 t1 verbal Du fällst mir immere2 Max t1 t2 verbal ins Wort.e3 Max t0 t2 non-verbal gestikulierte4 Tom t1 t2 verbal Stimmt jae5 Tom t2 t3 verbal wohl gar nicht.e6 Tom t1 t3 non-verbal grinste7 Max t3 t4 verbal ((1 sec)) Siehst Du, Du hast es schone8 Max t4 t5 verbal wieder getan.e9 Max t3 t5 non-verbal Schlägt die Hände vors Gesichte10 Mia t4 t5 verbal Er hat schone11 Mia t5 t6 verbal recht, Tom.e12 NN t1 t6 non-verbal Telefon klingelt

t0 < t1 < t2 < t3 < t4 < t5 < t6

Ereignis Sprecher Start Ende Kategorie symbolische Beschreibunge1 Max t0 t1 verbal Du fällst mir immere2 Max t1 t2 verbal ins Wort.e3 Max t0 t2 non-verbal gestikuliert... ... ... ... ... ...

Ereignis Sprecher Start Ende Kategorie symbolische Beschreibunge1 Max t0 t1 verbal Du fällst mir immere2 Max t1 t2 verbal ins Wort.e3 Max t0 t2 non-verbal gestikuliert... ... ... ... ... ...

MAX (v) : Du fällst mir immer ins Wort. ((1 sec)) Siehst Du, Du hast es schon wieder getan. (nv): ------- gestikuliert -------- ---------- schlägt die Hände vors Gesicht ---------

TOM (v) : Stimmt ja wohl gar nicht. (nv): -------- grinst --------

MIA (v) : Er hat schon recht, Tom.

NN (nv): ---------------------------------- Telefon klingelt ------------------------------------

Ereignis Sprecher Start Ende Kategorie symbolische Beschreibunge1 Max t0 t1 verbal Du fällst mir immere2 Max t1 t2 verbal ins Wort.e3 Max t0 t2 non-verbal gestikuliert... ... ... ... ... ...

Ereignis Sprecher Start Ende Kategorie symbolische Beschreibunge1 Max t0 t1 verbal Du fällst mir immere2 Max t1 t2 verbal ins Wort.e3 Max t0 t2 non-verbal gestikuliert... ... ... ... ... ...

MAX: [gestikuliert] Du fällst mir immer <ins Wort>1.TOM: [grinst] <Stimmt ja>1 wohl gar nicht.MAX: [schlägt die Hände vors Gesicht]

((1 sec)) Siehst Du, Du hast es schon <wieder getan>2.MIA: <Er hat schon>2 recht, Tom.

Ereigniskategorien und -typenHIAT• verbale Kommunikation

• non-verbale Kommunikation

• interlineare Übersetzung

• morphologische Transliteration

• „Bildspur“

• ...

CHILDES• main tier (verbal)

• %gpx (gestural-proxemic)

• %act (action)

• %add (addressee)

• %alt (alternate transcription)

• %cod (coding)

• %coh (cohesion)

• %com (comment)

• %eng (english rendition)

• %err (errors)

• %exp (explanation)

• %flo (flowing version)

• %gls (gloss)

• ....

Ereigniskategorien und -typen

beliebige Kategorien, fünf Typen:

• Typ ‚T‘ (transcription) - segmentier-, kombinierbar, interne Zeitordnung:

‚Du fällst mir immer‘ + ‚ins Wort‘ ‚Du fällst mir immer ins Wort‘

‚Du fällst mir immer‘ ‚Du fällst‘ + ‚mir immer‘• Typ ‚D‘ (description) - atomar, keine interne Zeitordnung

‚geht zur Tür‘ + ‚geht zur Tür‘ ‚geht zur Tür‘

‚geht zur Tür‘ ‚geht zur‘ + ‚Tür‘• Typ ‚A‘ (annotation) - unmittelbarer Bezug auf ein Ereignis vom Typ ‚T‘,

nur mittelbarer Bezug auf die Zeitachse

• Typ ‚L‘ (link) - spezielle Verarbeitung bei der Ausgabe (Hyperlinks)• Typ ‚UD‘ (user-defined) - ‚Müllkategorie‘

Ereigniskategorien und -typen

beliebige Kategorien, fünf Typen:

• Typ ‚T‘ (transcription) - verbale Kommunikation (HIAT)

main tier (CHILDES)

• Typ ‚D‘ (description) - non-verbale Kommunikation (HIAT)

%act, %gpx, ... (CHILDES)

• Typ ‚A‘ (annotation) - interlineare Übers., morph. Transl. (HIAT)

%add, %cod, %eng, ... (CHILDES)

• Typ ‚L‘ (link) - Bildspur (HIAT), %mov, %snd (CHILDES)

• Typ ‚UD‘ (user-defined) - ‚Müllkategorie‘

Zeitliche und sprachliche Struktur• Transkription, Partiturdarstellung zeitliche

Einheiten („Ereignisse“)

• vertikale Darstellung Äußerungen• Übersetzung Äußerungen, Wörter• POS-Tagging Wörter• morphologische Transliteration Wörter• Lemmatisierung Wörter• Wortlisten Wörter• MLU Wörter / Äußerungen

sprachliche Struktur

0 1 2 3 4

E Du fällst mir immer ins Wort. Siehst Du, Du hast es schon wieder getan.

Ereignisse

0 1 2 3 4

E Du fällst mir immer ins Wort. Siehst Du, Du hast es schon wieder getan.U Du fällst mir immer ins Wort. Siehst Du, Du hast es schon wieder getan.

UTT1 UTT2

Ereignisse,Äußerungen

0 a b c 1 d 2 3 f g h i j 4 k

E Du fällst mir immer ins Wort. Siehst Du, Du hast es schon wieder getan.U Du fällst mir immer ins Wort. Siehst Du, Du hast es schon wieder getan.

UTT1 UTT2W Du fällst mir immer ins Wort Siehst Du Du hast es schon wieder getan

W1 W2 W3 W4 W5 W6 W7 W8 W9 W10 W11 W12 W13 W14

Ereignisse,Äußerungen,Wörter

0 a b c 1 d 2 3 f g h i j 4 k

E Du fällst mir immer ins Wort. Siehst Du, Du hast es schon wieder getan.U Du fällst mir immer ins Wort. Siehst Du, Du hast es schon wieder getan.

UTT1 UTT2W Du fällst mir immer ins Wort Siehst Du Du hast es schon wieder getan

W1 W2 W3 W4 W5 W6 W7 W8 W9 W10 W11 W12 W13 W14

Ereignisse,Äußerungen,Wörter

Annotationen

POS(W1) = PROPOS(W2) = VPOS(W3) = PROPOS(W4) = ADV...

ENG(UTT1) = You‘re always interrupting me.ENG(UTT2) = You see, you did it again.

L(W1) = duL(W2) = fallenL(W3) = ichL(W4) = immer... Phrase(W1) = NP

Phrase(W2..W6) = VPPhrase(W7) = VPPhrase(W8) = NP...

XML: SEGMENTED-TRANSCRIPTION

XML: LIST-TRANSCRIPTION

RTF: PARTITUR-DARSTELLUNG

XML: BASIC-TRANSCRIPTION

HTML: PARTITUR-DARSTELLUNG

RTF: SPALTEN-DARSTELLUNG

HTML: SPALTEN-DARSTELLUNG

RTF: VERTIKALE DARSTELLUNG

HTML: VERTIKALE DARSTELLUNG

“INHALT” DARSTELLUNG

AUSTAUSCH,COMPUTER

AUSGABE,MENSCH

primär zeit-orientiert,zwei-dimensionale Darstellung (eine

gemeinsame Zeitachse)

primär segment –orientiert,ein-dimensionale Darstellung (eine

gemeinsame Zeitachse)

segment- und zeit-orientiert,

keine Darstellung (mehrere, sich teilweise

überschneidende Zeitachsen)

XML

: TIE

RFO

RM

AT

XML

: T

IER

FOR

MA

T

XML: SEGMENTED-TRANSCRIPTION

XML: LIST-TRANSCRIPTION

XML: BASIC-TRANSCRIPTION

HIAT-DOS data

syncWriter data

LAPSUS data

CHILDES data

AG data

MATE annotation

Partitur-Editor

List-Editor

Database / Corpus

Wordlist Statistic Evaluation

Tools

XXX Annotation

Annotation Tools

BEISPIEL:

Transkription im PartiturEditor

BEISPIEL:

Transkription im PartiturEditor

XML: BASIC-TRANSCRIPTION

BEISPIEL:

Transkription im PartiturEditor

XML: BASIC-TRANSCRIPTION

Ausgabe als Partitur in RTF

BEISPIEL:

Transkription im PartiturEditor

XML: BASIC-TRANSCRIPTION

Ausgabe als Partitur in RTF

XML: SEGMENTED-TRANSCRIPTION

BEISPIEL:

Transkription im PartiturEditor

XML: BASIC-TRANSCRIPTION

Ausgabe als Partitur in RTF

XML: SEGMENTED-TRANSCRIPTION

Annotation

BEISPIEL:

Transkription im PartiturEditor

XML: BASIC-TRANSCRIPTION

Ausgabe als Partitur in RTF

XML: SEGMENTED-TRANSCRIPTION

AnnotationArchivierung in

Datenbank

BEISPIEL:

Transkription im PartiturEditor

XML: BASIC-TRANSCRIPTION

Ausgabe als Partitur in RTF

XML: SEGMENTED-TRANSCRIPTION

AnnotationArchivierung in

Datenbank

XML: LIST-TRANSCRIPTION

BEISPIEL:

Transkription im PartiturEditor

XML: BASIC-TRANSCRIPTION

Ausgabe als Partitur in RTF

XML: SEGMENTED-TRANSCRIPTION

AnnotationArchivierung in

Datenbank

XML: LIST-TRANSCRIPTION

Ausgabe als Liste in HTML

BEISPIEL:

Transkription im PartiturEditor

XML: BASIC-TRANSCRIPTION

Ausgabe als Partitur in RTF

XML: SEGMENTED-TRANSCRIPTION

AnnotationArchivierung in

Datenbank

XML: LIST-TRANSCRIPTION

Ausgabe als Liste in HTML

CHILDES

BEISPIEL:

Transkription im PartiturEditor

XML: BASIC-TRANSCRIPTION

Ausgabe als Partitur in RTF

XML: SEGMENTED-TRANSCRIPTION

AnnotationArchivierung in

Datenbank

XML: LIST-TRANSCRIPTION

Ausgabe als Liste in HTML

CHILDESBearbeiten mit CLAN