SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte...

25
29.07.2004 SFB 538 Mehrsprachigkeit Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten

Transcript of SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte...

Page 1: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

29.07.2004

SFB 538 Mehrsprachigkeit

Thomas Schmidt / Kai Wörner (Projekt Zb):

Computergestützte Erfassungs- und

Analysemethoden multilingualer Daten

Page 2: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 2/25

Danke

Annette HerkenrathImme Kuchenbrandt

Bernd Meyer

Galia DatchevaAnnette Schnieder

Tülay Selçuk

Page 3: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 3/25

Gliederung

1. Projektantrag und Projektziele2. Bericht über die Projektarbeit

• Daten am SFB• Softwareentwicklung in Projekt Zb• „Rest der Welt“

3. Offene Fragen / Ausblick

Page 4: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 4/25

Projektanträge

Juli 2000: Projektskizze Juli 2002: kurzer „Antrag“ im SFB-

Antrag Juli 2003: Antrag im Rahmen der

Qualitätsoffensive der UHH

Page 5: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 5/25

Projektziele

1. Überführung/Umstellung EXMARaLDA2. Weiterentwicklung und Anpassung

vorhandener Ein- und Ausgabewerkzeuge3. „Datenbank“: Verwaltung, Suche,

Auswertung von Korpora4. Kooperation / Austausch mit anderen

Projekten

Page 6: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 6/25

Daten am SFB 538

(K2, E5, E3, K5, K1)

Page 7: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 7/25

Projekt K2

• Vollständige Überführung „Aufklärungsgespräche“ DEMO • Überführung restlicher Daten im Gange• Synchronisierung Audio / Transkription im Gange DEMO • Überarbeitetes HIAT-Handbuch (veröffentlicht!)• Keyboard für HIAT / Türkisch / Portugiesisch• Erfassung neuer Daten mit EXMARaLDA Partitur-Editor

Page 8: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 8/25

Projekt E5

• Vollständige Überführung „Maulwurfkorpus“ (+ Audio-Digitalisierung) • Überführung von ENDFAS und SKOBI im Gange• Vollständige Überführung HcTT-Daten ( CoMa)

- SKOBI: 489 Kommunikationen / 197 Sprecher- ENDFAS: 265 Kommunikationen / 205 Sprecher

• Erfassung neuer Daten mit EXMARaLDA Partitur-Editor

Page 9: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 9/25

Projekt E3

• Überführung PAIDUS-Daten begonnen• Manuelle Nachbearbeitung: PAIDUS-Editor• Digitalisieren der Aufnahmen• Überführung der bilingualen Daten ab August• Erfassung neuer Daten mit EXMARaLDA Partitur-Editor

Page 10: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 10/25

Projekt E3

• Automatische Berechnung der Silbenstruktur• Ausgabe in Spaltennotation („Transkriptbögen“)• Keyboard für Unicode-IPA (nach SIL IPA-Schriftsätzen)

Page 11: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 11/25

Projekt K5

• Überführung von HIAT-DOS-Daten abgeschlossen• Erfassung neuer Daten mit Praat und EXMARaLDA Partitur-Editor

Projekt K1

• Überführung von syncWriter-Daten begonnen• Erfassung neuer Daten mit EXMARaLDA Partitur-Editor

Page 12: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 12/25

Softwareentwicklung in Z2 Partitur-Editor

– Stylesheets (Demo)– Segmentierung– Kommunikation mit Praat (Demo)

CoMa (Demo) SQUIRREL Workflow

Page 13: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 13/25

Weiterentwicklung Partitur-Editor: Stylesheets

• Parametrisierung automatisierbarer Aufgaben• Ausgabe: Meta-Daten, Spaltennotation, Zeilennotation, Multimediale Formate (SMIL)• Konvertierung (Excel?)• Anlegen von Spuren (HIAT, DIDA)• Formatieren von Spuren (HIAT, DIDA)

Page 14: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 14/25

Weiterentwicklung Partitur-Editor: Segmentierung

• Segmentieren sprachlicher Einheiten aus implizitiem Markup („Tokenising“)• Voraussetzung für fortgeschrittene Analyse• Parametrisierbarer Algorithmus (Finite State Transducers)• Für HIAT, DIDA, GAT, CHAT

Page 15: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 15/25

Weiterentwicklung Partitur-Editor: Kommunikation mit Praat

•Praat Partitur-Editor: Synchronisieren von digitalen Aufnahmen mit der Transkription •Partitur-Editor Praat:

• Rückgriff auf die Aufnahme während des Transkribierens• Phonetische Analysen DEMO

Page 16: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 16/25

Nächste Schritte für CoMa Zuordnung von Transkriptionen und Aufnahmen (digitale Daten)

zu den Kommunikationen Import von Kopfdaten aus EXMARaLDA-Transkriptionen XPath-basierte Suche Übergabe von Teilkorpora an Partitur-Editor und SQUIRREL

DEMO

Page 17: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 17/25

Search and QUery InstRument foR ExmaraLdaOperiert auf CoMa-Teilkorpora• Suche nach: Strings, Regulären Ausdrücken, XPath-Ausdrücken• Suchergebnisse: KWIC-Liste Transkription Aufnahme

Page 18: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 18/25

Workflow

Daten

Neue Daten(Aufnahmen)

Alte Daten(HIAT-Dos, syncWriter, …)

Transkribieren imPartitur-Editor

EXMARaLDAImportfilter

+ manuelle Nachbearbeitung

EXMARaLDATranskription

Page 19: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 19/25

Ausgabe(Partiturnotation,

Spaltennotation, …)Segmentierung

METADATEN

Workflow

EXMARaLDATranskription

Kopfdaten via CoMa

Importfilter

Eingabe d.Metadatenmit CoMa

CoMa-Corpus

SegmentierteTranskription

Ausgabe(Partitur, Spalten,

Wort/Äußerungslisten, …)

Export(Chat, GAT, HIAT-Äußerungslisten)

Page 20: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 20/25

METADATEN

Workflow

CoMa-CorpusSegmentierteTranskription

Ausgabe(Partitur, Spalten,

Wort/Äußerungslisten, …)

Suche über MetadatenCoMa-Teilkorpus

(aus Suche/Selektion)

SQUIRREL(Suche nach sprachl.

Phänomenen)

Page 21: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 21/25

TASX-Annotator

ELAN

MATE TableTrans

CHILDES

ESFSHOEBOX

Animal Communication

Classroom Discourse

syncWriterX-Waves

Verbmobil

Partitur-Editor

syncWriter HIAT-DOS dBASE Verbmobil

PRAAT DIDA

CLANREST DER WELT

Page 22: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 22/25

• ELAN (MPI Nijmegen), TASX (Uni Bielefeld), Praat (Uni Amsterdam)- Strukturell ähnliche Datenmodelle („Single timeline, multiple tiers“)- Import- / Exportfunktionalität / Kommunikation Partitur-Editor Praat- Gemeinsamkeiten / Erweiterungen der Datenmodelle Texttechnologische Grundlage

• IDS Mannheim (DIDA)- Seit November 2003: Einsatz von EXMARaLDA

• CHILDES / Talkbank- Import in EXMARaLDA: automatisch für Einzelkorpora- Export aus EXMARaLDA: Segmentierungsalgorithmus- „Collaborative Commentary“ (Panel LREC 2004)

• Text Encoding Initiative- TEI P5: „Time-Based Data Models and the TEI“

Andere Projekte

Page 23: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 23/25

Agder University (Norwegen)ETH ZürichIDS MannheimFU BerlinGK “Bildungsgangforschung” (Uni Hamburg)HU BerlinNational University of ColombiaRice UniversitySFB 632 (Potsdam)Studien CD LinguistikUni BarcelonaUni BaselUni BayreuthUni BielefeldUni BolognaUni Bonn

Uni ChemnitzUni Dortmund (Uta Quasthoff)Uni HalleUni HamburgUni HeidelbergUni KarlsruheUni KasselUni KölnUni LeipzigUni Mannheim (Rosemarie Tracy)Uni MünchenUni MünsterUni RegensburgUni SaarbrückenUni WienUniversity of Southampton

Einsatz von EXMARaLDA

Page 24: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 24/25

„Mehrsprachige Datenbank“? cf. „Relationale Datenbank“?

Zentrale Verwaltung / Abfrage von Daten? Client/Server-Architektur? Relationale Datenstrukturen?

cf. „CHILDES-Datenbank“? Öffentlich zugängliches Datenarchiv („Multilingual Language Data Exchange System“)?

„Computergestützte Erfassungs- und Analysemethoden multilingualer Daten“

Offene Fragen 1

Page 25: SFB 538 Mehrsprachigkeit 29.07.2004 Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten.

Computergestützte Erfassungs- und Analysemethoden multilingualer Daten 25/25

Werkzeuge– Weiterentwicklung vorhandener Werkzeuge– Annotationswerkzeuge (flache / hierarchische Annotation)

Daten– Neue Projekte

Texttechnologische Grundlagen– Verschiedene zeitbasierte Datenmodelle (EXMARaLDA, TASX, EAF, AG):

Harmonisierung und Weiterentwicklung

Methodische Grundlagen– Gesprächsanalyse / Spracherwerbsforschung und computergestützte

Methoden

Infrastrukturen– dauerhafte Archivierung von Daten / Pflege von Software

Offene Fragen 2