Computergestützte Erstellung und Auswertung von Korpora gesprochener Sprache mit EXMARaLDA Thomas...

of 46 /46
Computergestützte Erstellung und Auswertung von Korpora gesprochener Sprache mit EXMARaLDA Thomas Schmidt, Projekt Z2 "Computergestützte Erfassungs- und Analysemethoden multilingualer Daten" SFB 538 'Mehrsprachigkeit' Universität Hamburg

Embed Size (px)

Transcript of Computergestützte Erstellung und Auswertung von Korpora gesprochener Sprache mit EXMARaLDA Thomas...

  • Folie 1
  • Computergesttzte Erstellung und Auswertung von Korpora gesprochener Sprache mit EXMARaLDA Thomas Schmidt, Projekt Z2 "Computergesttzte Erfassungs- und Analysemethoden multilingualer Daten" SFB 538 'Mehrsprachigkeit' Universitt Hamburg
  • Folie 2
  • Gliederung Teil 1: Arbeiten mit EXMARaLDA Datenmodell Datenformat Software-Werkzeuge Nutzer Teil 2: Offene Fragen Datenmodelle fr Mehrebenenannotation Software-Bausteine
  • Folie 3
  • Datenbank 'Mehrsprachigkeit' Datenprojekt am SFB 538 'Mehrsprachigkeit' Ziele: Rettung von Datenbestnden Archivierung Gemeinsamer berbau fr heterogene Datenbestnde Zeitgeme Transkriptionswerkzeuge Korpusverwaltung Auswertung
  • Folie 4
  • Systemarchitektur
  • Folie 5
  • EXMARaLDA Datenzentrierte Lsung Zeitbasiertes Datenmodell XML-basierte Datenformate Java-basierte Werkzeuge Interoperabilitt Import/Export: Praat, TASX, ELAN, AIF Ausgabe: RTF, HTML, CSV, SVG
  • Folie 6
  • Datenmodell
  • Folie 7
  • Strukturelle Beziehungen: 1. Zeitliches Nacheinander
  • Folie 8
  • Datenmodell Strukturelle Beziehungen: 1. Zeitliches Nacheinander 2. Gleichzeitigkeit
  • Folie 9
  • Datenmodell Strukturelle Beziehungen: 1. Zeitliches Nacheinander 2. Gleichzeitigkeit 3. quivalenz ('flache' Annotation)
  • Folie 10
  • Datenmodell
  • Folie 11
  • "Single timeline, multiple tiers"
  • Folie 12
  • TYPES: T(ranscription) D(escription) A(nnotation) T D A
  • Folie 13
  • Datenformat
  • Folie 14
  • Folie 15
  • Werkzeuge Partitur-Editor Eingabe, Ausgabe von Transkriptionen Corpus-Manager (CoMa) Verwaltung, Durchsuchen von Korpus- Metadaten Suchwerkzeug (Zecke, Squirrel) Suche, Auswertung von Transkriptionskorpora
  • Folie 16
  • Partitur-Editor
  • Folie 17
  • Transkribieren 1.direkt im Partitur-Editor Sprechertabelle bearbeiten Partitur L&F Spuren anlegen, umstellen, lschen, aus-/einblenden Ereignisse beschreiben 2. mit anderen Software-Werkzeugen (Import-Funktionen) mit Praat mit TASX oder ELAN in einer Textdatei ("Simple Exmaralda"-Konventionen)
  • Folie 18
  • Partitur-Editor Synchronisieren ber das Audio/Video-Panel - Audio/Video ber JMF wav, mp3, avi, mpeg ber das Praat-Panel - Audio mit diversen Visualisierungen Oszillogramm, Spektrogramm, etc.
  • Folie 19
  • Partitur-Editor Verknpfen einzelne Ereignisse......mit Audio-/Video-Ausschnitten...mit Bildern Realisierung in der Ausgabe als Hyperlinks
  • Folie 20
  • Partitur-Editor Ausgabe Als umgebrochene Partitur in RTF, HTML, SVG, Drucker (PDF) ber XSLT-Transformationen Zustzliche Ausgabemglichkeiten durch Segmentierung
  • Folie 21
  • Partitur-Editor Segmentierung Tokenization: Unterteilung in uerungen, Wrter etc. Zeitliche Struktur Sprachliche Struktur Automatisch mit Hilfe von Finite State Machines (FSM) Abhngig von Transkriptionskonventionen FSMs fr HIAT, GAT, DIDA, CHAT
  • Folie 22
  • Partitur-Editor Segmentierung Weitere Ausgabeformen - uerungslisten - Wortlisten Basis fr weitere Auswertung - Quantifizierung - Suche
  • Folie 23
  • Corpus-Manager
  • Folie 24
  • Kommunikationen Nacherzhlung 1 Nacherzhlung 2 Freie Konversation 1 Personen Franz Dagobert Donald Aufnahmen nacherz1.wav nacherz1.mov konvers1.mp3 Transkriptionen nacherz1_A.xml nacherz1_B.xml nacherz2.xml n:m1:n Eingabe von Meta-Daten zu Kommunikationen (z.B. Ort, Zeit) Personen (z.B. Name, Alter) Zuordnen von Transkriptionen, Aufnahmen und Sprechern zu Kommunikationen Suche auf Meta-Daten Teilkorpora
  • Folie 25
  • Workflow
  • Folie 26
  • Suchwerkzeug
  • Folie 27
  • 1. ZECKE Prototyp (Ziemlich EinfaChes Konkordanzwerkzeug fr Exmaralda) "Volltextsuche" in Transkriptionen ber regulre Ausdrcke KWIC-Konkordanz Transkription (Partitur, Meta-Daten) Aufnahme 2. SQUIRREL Search and QUery InstRument foR ExmaraLda "Volltextsuche" in Transkriptionen ber regulre Ausdrcke Suche auf Annotiertem (nicht Transkribierten) XPath-Suchausdrcke KWIC-Konkordanz Transkription (Partitur, Meta-Daten) Aufnahme
  • Folie 28
  • EXMARaLDA: Nutzer Diskursforschung / Spracherwerbsforschung / Mehrsprachigkeitsforschung Am SFB 538 'Mehrsprachigkeit' 5 Projekte in der laufenden + 3 in der kommenden Phase Am Institut fr Deutsche Sprache (IDS) in Mannheim In mehreren DFG-Projekten (Uni Dortmund, Uni Mannheim, Uni Flensburg) In mehreren Dissertationsprojekten In Lehrveranstaltungen an zahlreichen deutschen Universitten vereinzelt im Ausland (Schweiz, USA, UK, Frankreich, Italien) Erziehungs- / Kommunikationsforschung Am GK 'Bildungsgangforschung' in Hamburg In der Mathematik-Didaktik in Kln, Kassel, Agder University (N) Annotation geschriebener Sprache Am SFB 632 'Informationsstrukturen' in Potsdam Am Lehrstuhl 'Korpuslinguistik' der HU Berlin Multimodale Kommunikation
  • Folie 29
  • EXMARaLDA: Korpora SFB-Korpora Spracherwerb deutsch-trkisch bilingualer Kinder Spracherwerb deutsch-spanisch bilingualer Kinder Skandinavische (dnisch/schwedisch/norwegische) Semikommunikation Japanisch/Deutsche Expertendiskussion Dolmetschen (Deutsch/Portugiesisch/Trkisch) im Krankenhaus Dnisch/Frische Zweisprachigkeit Spanisch/Katalanische Zweisprachigkeit Simultandolmetschen Portugiesisch/Deutsch Korpus "Divergierender bilingualer Sprachgebrauch bei Jugendlichen", Uni Flensburg Korpus "Frhe Mehrsprachigkeit", Uni Mannheim Korpus "Interviews mit Israelis deutscher Primrsprache", Uni Dortmund Korpora am IDS?...?
  • Folie 30
  • Teil 2: Offene Fragen
  • Folie 31
  • Varianten von "Single timeline, multiple tiers"
  • Folie 32
  • EXMARaLDATASXPraatELAN Tier classification Types, Categories and speakers Tier names Stereotypes, Linguistic Types and Participants Timeline Relative and/or absolute Absolute Relative and/or absolute Overlap within tier NoYesNoYes (Bulldozer mode) Link to media Optional (Audio only) Required (Video and Audio) Required (Audio only) Optional (Video and Audio) ExtensionsSegmented Transcription TASX Level 2NoneSymbolic subdivisions, symbolic associations Varianten von "Single timeline, multiple tiers"
  • Folie 33
  • EXMARaLDA Basic-Transcription
  • Folie 34
  • Verzweigende Zeitachse / partiell geordnete Graphen
  • Folie 35
  • Folie 36
  • TEI
  • Folie 37
  • Standoff
  • Folie 38
  • Datenmodelle, Datenformate, Markuptechniken? EXMARaLDA Basic Transcription TASX Level 1 PRAAT ELAN Abstract Corpus Model EXMARaLDA Segmented Transcription TASX Level 2 ? Annotation graphs ? ??? Zeitbasiert (DAG) Standoff- Annotation NITE Object Model TEI Markup-basiert (OHCO+) Mehrfachannotation (Witt 2002) ???
  • Folie 39
  • Software-Bausteine Source Code vorhandener Anwendungen TASX ELAN Praat EXMARaLDA Bibliotheken (APIs) AGLIB (Anwendung: AGTK) NITE XML Toolkit (Anwendung: "We intend shortly to release three end user GUIs", Jan 05)
  • Folie 40
  • Software-Bausteine fr Interlinearen Text Fr die Eingabe:
  • Folie 41
  • Software-Bausteine fr Interlinearen Text Fr die Ausgabe: usw.
  • Folie 42
  • Software-Bausteine fr Interlinearen Text "Linearer" Text
  • Folie 43
  • Software-Bausteine fr Interlinearen Text Interlinearer Text
  • Folie 44
  • Folie 45
  • IT-Prozessor in EXMARaLDA Eingabe: IT-Dokument (berechnet. z.B. aus EXMARaLDA Basic-Transcription) Formatierungsparameter (z.B. Seitenbreite, "word wrap") Berechnung: absolute Koordinaten Umbrche Ausgabe: HTML-, SVG-, RTF-Dokument, Grafik an Drucker Probleme: Berechnung absoluter Koordinaten: lineares Ungleichungssystem Berechnung von Umbrchen: Typographische Feinheiten, z.B.Ausgleichsverfahren ("Widow-Orphan-Control" etc.) Ausgabe: XSL Formatting Objects, PDF
  • Folie 46
  • Weitere Software-Bausteine Audio-/Video-Player (fr Linguisten!) "Plattformunabhngigkeit"? JMF, QT Java, javax.sound,... Audio-/Video-Player-GUI Navigation in der Aufnahme Waveform Display