EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt,...

33
EXMARaLDA - ein System zur Diskurstranskription und -annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg

Transcript of EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt,...

Page 1: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

EXMARaLDA - ein System zur Diskurstranskription und -

annotation auf dem ComputerThomas Schmidt,

SFB ‚Mehrsprachigkeit‘, Hamburg

Page 2: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

syncWritersyncWriter-Daten(binär)

Grafik(umg. Partitur)

Segmentliste

Page 3: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

syncWritersyncWriter-Daten(binär)

Grafik(umg. Partitur)

Segmentliste

andere Werkzeuge

Page 4: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

syncWritersyncWriter-Daten(binär)

Grafik(umg. Partitur)

Segmentliste

andere Werkzeuge andere Datenformate

Page 5: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

syncWritersyncWriter-Daten(binär)

Grafik(umg. Partitur)

Segmentliste

andere Werkzeuge andere Datenformate andere Betriebssysteme

Page 6: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

syncWritersyncWriter-Daten(binär)

Grafik(umg. Partitur)

Segmentliste

andere Werkzeuge andere Datenformate andere Betriebssysteme

?

Page 7: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

vertikale Eingabe

Spalten-Eingabe

Partitur-Eingabe

...

vertikale Darstellung: RTF

Spalten-Darstellung: HTML

Partitur-Darstellung: PDF

...

andere Transkriptionsformate Datenbank

andere Werkzeuge

(XML)-Datenformat

„Single Source, Multiple Targets“

Page 8: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

t0 t1 t2 t3

MAX / v / „Du fällst mir immer“ MAX / v / „ins Wort“

MAX / nv / „gestikuliert“

TOM / v / „Stimmt ja“ TOM / v / „wohl gar nicht.“

TOM / nv / „grinst.“

Bird / Liberman: ANNOTATION GRAPHS

Page 9: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

Struktur einer Diskurstranskription:Zeitachse und Ereignisse

e t(e)Ereignis Sprecher Start Ende Kategorie symbolische Beschreibunge1 Max t0 t1 verbal Du fällst mir immere2 Max t1 t2 verbal ins Wort.e3 Max t0 t2 non-verbal gestikulierte4 Tom t1 t2 verbal Stimmt jae5 Tom t2 t3 verbal wohl gar nicht.e6 Tom t1 t3 non-verbal grinste7 Max t3 t4 verbal ((1 sec)) Siehst Du, Du hast es schone8 Max t4 t5 verbal wieder getan.e9 Max t3 t5 non-verbal Schlägt die Hände vors Gesichte10 Mia t4 t5 verbal Er hat schone11 Mia t5 t6 verbal recht, Tom.e12 NN t1 t6 non-verbal Telefon klingelt

t0 < t1 < t2 < t3 < t4 < t5 < t6

Page 10: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

Ereignis Sprecher Start Ende Kategorie symbolische Beschreibunge1 Max t0 t1 verbal Du fällst mir immere2 Max t1 t2 verbal ins Wort.e3 Max t0 t2 non-verbal gestikuliert... ... ... ... ... ...

Page 11: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

Ereignis Sprecher Start Ende Kategorie symbolische Beschreibunge1 Max t0 t1 verbal Du fällst mir immere2 Max t1 t2 verbal ins Wort.e3 Max t0 t2 non-verbal gestikuliert... ... ... ... ... ...

MAX (v) : Du fällst mir immer ins Wort. ((1 sec)) Siehst Du, Du hast es schon wieder getan. (nv): ------- gestikuliert -------- ---------- schlägt die Hände vors Gesicht ---------

TOM (v) : Stimmt ja wohl gar nicht. (nv): -------- grinst --------

MIA (v) : Er hat schon recht, Tom.

NN (nv): ---------------------------------- Telefon klingelt ------------------------------------

Page 12: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

Ereignis Sprecher Start Ende Kategorie symbolische Beschreibunge1 Max t0 t1 verbal Du fällst mir immere2 Max t1 t2 verbal ins Wort.e3 Max t0 t2 non-verbal gestikuliert... ... ... ... ... ...

Page 13: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

Ereignis Sprecher Start Ende Kategorie symbolische Beschreibunge1 Max t0 t1 verbal Du fällst mir immere2 Max t1 t2 verbal ins Wort.e3 Max t0 t2 non-verbal gestikuliert... ... ... ... ... ...

MAX: [gestikuliert] Du fällst mir immer <ins Wort>1.TOM: [grinst] <Stimmt ja>1 wohl gar nicht.MAX: [schlägt die Hände vors Gesicht]

((1 sec)) Siehst Du, Du hast es schon <wieder getan>2.MIA: <Er hat schon>2 recht, Tom.

Page 14: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

Ereigniskategorien und -typenHIAT• verbale Kommunikation

• non-verbale Kommunikation

• interlineare Übersetzung

• morphologische Transliteration

• „Bildspur“

• ...

CHILDES• main tier (verbal)

• %gpx (gestural-proxemic)

• %act (action)

• %add (addressee)

• %alt (alternate transcription)

• %cod (coding)

• %coh (cohesion)

• %com (comment)

• %eng (english rendition)

• %err (errors)

• %exp (explanation)

• %flo (flowing version)

• %gls (gloss)

• ....

Page 15: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

Ereigniskategorien und -typen

beliebige Kategorien, fünf Typen:

• Typ ‚T‘ (transcription) - segmentier-, kombinierbar, interne Zeitordnung:

‚Du fällst mir immer‘ + ‚ins Wort‘ ‚Du fällst mir immer ins Wort‘

‚Du fällst mir immer‘ ‚Du fällst‘ + ‚mir immer‘• Typ ‚D‘ (description) - atomar, keine interne Zeitordnung

‚geht zur Tür‘ + ‚geht zur Tür‘ ‚geht zur Tür‘

‚geht zur Tür‘ ‚geht zur‘ + ‚Tür‘• Typ ‚A‘ (annotation) - unmittelbarer Bezug auf ein Ereignis vom Typ ‚T‘,

nur mittelbarer Bezug auf die Zeitachse

• Typ ‚L‘ (link) - spezielle Verarbeitung bei der Ausgabe (Hyperlinks)• Typ ‚UD‘ (user-defined) - ‚Müllkategorie‘

Page 16: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

Ereigniskategorien und -typen

beliebige Kategorien, fünf Typen:

• Typ ‚T‘ (transcription) - verbale Kommunikation (HIAT)

main tier (CHILDES)

• Typ ‚D‘ (description) - non-verbale Kommunikation (HIAT)

%act, %gpx, ... (CHILDES)

• Typ ‚A‘ (annotation) - interlineare Übers., morph. Transl. (HIAT)

%add, %cod, %eng, ... (CHILDES)

• Typ ‚L‘ (link) - Bildspur (HIAT), %mov, %snd (CHILDES)

• Typ ‚UD‘ (user-defined) - ‚Müllkategorie‘

Page 17: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

Zeitliche und sprachliche Struktur• Transkription, Partiturdarstellung zeitliche

Einheiten („Ereignisse“)

• vertikale Darstellung Äußerungen• Übersetzung Äußerungen, Wörter• POS-Tagging Wörter• morphologische Transliteration Wörter• Lemmatisierung Wörter• Wortlisten Wörter• MLU Wörter / Äußerungen

sprachliche Struktur

Page 18: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

0 1 2 3 4

E Du fällst mir immer ins Wort. Siehst Du, Du hast es schon wieder getan.

Ereignisse

Page 19: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

0 1 2 3 4

E Du fällst mir immer ins Wort. Siehst Du, Du hast es schon wieder getan.U Du fällst mir immer ins Wort. Siehst Du, Du hast es schon wieder getan.

UTT1 UTT2

Ereignisse,Äußerungen

Page 20: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

0 a b c 1 d 2 3 f g h i j 4 k

E Du fällst mir immer ins Wort. Siehst Du, Du hast es schon wieder getan.U Du fällst mir immer ins Wort. Siehst Du, Du hast es schon wieder getan.

UTT1 UTT2W Du fällst mir immer ins Wort Siehst Du Du hast es schon wieder getan

W1 W2 W3 W4 W5 W6 W7 W8 W9 W10 W11 W12 W13 W14

Ereignisse,Äußerungen,Wörter

Page 21: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

0 a b c 1 d 2 3 f g h i j 4 k

E Du fällst mir immer ins Wort. Siehst Du, Du hast es schon wieder getan.U Du fällst mir immer ins Wort. Siehst Du, Du hast es schon wieder getan.

UTT1 UTT2W Du fällst mir immer ins Wort Siehst Du Du hast es schon wieder getan

W1 W2 W3 W4 W5 W6 W7 W8 W9 W10 W11 W12 W13 W14

Ereignisse,Äußerungen,Wörter

Annotationen

POS(W1) = PROPOS(W2) = VPOS(W3) = PROPOS(W4) = ADV...

ENG(UTT1) = You‘re always interrupting me.ENG(UTT2) = You see, you did it again.

L(W1) = duL(W2) = fallenL(W3) = ichL(W4) = immer... Phrase(W1) = NP

Phrase(W2..W6) = VPPhrase(W7) = VPPhrase(W8) = NP...

Page 22: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

XML: SEGMENTED-TRANSCRIPTION

XML: LIST-TRANSCRIPTION

RTF: PARTITUR-DARSTELLUNG

XML: BASIC-TRANSCRIPTION

HTML: PARTITUR-DARSTELLUNG

RTF: SPALTEN-DARSTELLUNG

HTML: SPALTEN-DARSTELLUNG

RTF: VERTIKALE DARSTELLUNG

HTML: VERTIKALE DARSTELLUNG

“INHALT” DARSTELLUNG

AUSTAUSCH,COMPUTER

AUSGABE,MENSCH

primär zeit-orientiert,zwei-dimensionale Darstellung (eine

gemeinsame Zeitachse)

primär segment –orientiert,ein-dimensionale Darstellung (eine

gemeinsame Zeitachse)

segment- und zeit-orientiert,

keine Darstellung (mehrere, sich teilweise

überschneidende Zeitachsen)

XML

: TIE

RFO

RM

AT

XML

: T

IER

FOR

MA

T

Page 23: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

XML: SEGMENTED-TRANSCRIPTION

XML: LIST-TRANSCRIPTION

XML: BASIC-TRANSCRIPTION

HIAT-DOS data

syncWriter data

LAPSUS data

CHILDES data

AG data

MATE annotation

Partitur-Editor

List-Editor

Database / Corpus

Wordlist Statistic Evaluation

Tools

XXX Annotation

Annotation Tools

Page 24: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

BEISPIEL:

Transkription im PartiturEditor

Page 25: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

BEISPIEL:

Transkription im PartiturEditor

XML: BASIC-TRANSCRIPTION

Page 26: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

BEISPIEL:

Transkription im PartiturEditor

XML: BASIC-TRANSCRIPTION

Ausgabe als Partitur in RTF

Page 27: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

BEISPIEL:

Transkription im PartiturEditor

XML: BASIC-TRANSCRIPTION

Ausgabe als Partitur in RTF

XML: SEGMENTED-TRANSCRIPTION

Page 28: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

BEISPIEL:

Transkription im PartiturEditor

XML: BASIC-TRANSCRIPTION

Ausgabe als Partitur in RTF

XML: SEGMENTED-TRANSCRIPTION

Annotation

Page 29: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

BEISPIEL:

Transkription im PartiturEditor

XML: BASIC-TRANSCRIPTION

Ausgabe als Partitur in RTF

XML: SEGMENTED-TRANSCRIPTION

AnnotationArchivierung in

Datenbank

Page 30: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

BEISPIEL:

Transkription im PartiturEditor

XML: BASIC-TRANSCRIPTION

Ausgabe als Partitur in RTF

XML: SEGMENTED-TRANSCRIPTION

AnnotationArchivierung in

Datenbank

XML: LIST-TRANSCRIPTION

Page 31: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

BEISPIEL:

Transkription im PartiturEditor

XML: BASIC-TRANSCRIPTION

Ausgabe als Partitur in RTF

XML: SEGMENTED-TRANSCRIPTION

AnnotationArchivierung in

Datenbank

XML: LIST-TRANSCRIPTION

Ausgabe als Liste in HTML

Page 32: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

BEISPIEL:

Transkription im PartiturEditor

XML: BASIC-TRANSCRIPTION

Ausgabe als Partitur in RTF

XML: SEGMENTED-TRANSCRIPTION

AnnotationArchivierung in

Datenbank

XML: LIST-TRANSCRIPTION

Ausgabe als Liste in HTML

CHILDES

Page 33: EXMARaLDA - ein System zur Diskurstranskription und - annotation auf dem Computer Thomas Schmidt, SFB ‚Mehrsprachigkeit‘, Hamburg.

BEISPIEL:

Transkription im PartiturEditor

XML: BASIC-TRANSCRIPTION

Ausgabe als Partitur in RTF

XML: SEGMENTED-TRANSCRIPTION

AnnotationArchivierung in

Datenbank

XML: LIST-TRANSCRIPTION

Ausgabe als Liste in HTML

CHILDESBearbeiten mit CLAN