Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann 1, Dagmar Jung 2 & Doris Mücke 1...
-
Upload
bartolomaeus-stoeckle -
Category
Documents
-
view
227 -
download
7
Transcript of Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann 1, Dagmar Jung 2 & Doris Mücke 1...
Digitalisierung undAufbereitung von Sprachdaten
Stefan Baumann1, Dagmar Jung2 & Doris Mücke1
IfL Phonetik1
IfL Allgemeine Sprachwissenschaft2
Universität zu Köln
2Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
CCeH Workshop
IT-bezogene Lehre an der Philosophischen Fakultät– Studierende des BA Fachs Linguistik und
Phonetik lernen:
Aufnahme von Sprachdaten (meist digital)
Aufbereitung & Annotation von Sprachdaten
im Labor
im Feld
3Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
IT-bezogene Kurse BA Linguistik & Phonetik
– Laboratory Phonology (Projektseminar)– Akustische Phonetik (Praxisseminar)– Prosodische Analyse (Grundkurs)– Signalgestütze Transkription (Übung)– Einführung in die Allgemeine
Sprachwissenschaft (Seminar)– Sprachdokumentation (Proseminar)– Diskursanalyse (Hauptseminar)
4Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
IT-bezogene Kurse zusätzlich:
– Statistik-Kurse in regelmäßigen Abständen (in ASW und Phonetik)
– Programme: R und SPSS
5Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Sprachaufnahmen Labor I Akustik
– Nutzung von digitalen Aufnahmemöglichkeiten
– Wandlung in verschiedene Datei-Formate• u.a. wav, SSFF
– Pre-processing• Schneiden und Ordnen von Akustik-Dateien• Optimierung für Frequenzanalysen
– Abtastrate: Downsampling (44.1kHz, 20kHz)– Filtern, z.B. Noise-Reduction
6Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke 6Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Sprachverarbeitung Parametrisierung Resynthese als Analysetechnik sprachverarbeitende Software
– Cool Edit, Audacity, PRAAT, EMU– Articulate Assistant, Custom Software
7Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Beispiel Formantanalyse
richtig
fehlerhaft, F1 wird nicht gefunden
b e n e nn e
8Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Sprachaufnahmen Labor II Aufnahme von Artikulationsdaten
Elektromagnetische Artikulographie
Elektropalatographie
9Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Annotation EPG hingeben
– Labeln von Bewegungs-plateaus (Bsp. für partielle Assimilation)
1 23 4
10Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Annotation EMMA
11Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke 11Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Sprachaufnahmen „im Feld“– Mikrophonierung (nach Aufnahmesituation,
Monolog vs. Konversation, auch wireless)– digitale Aufnahmeformate (Audio und Video)– Aufnahme von „natürlichen Daten“ ->
Unterschiede gesprochene vs. geschriebene Sprache wird durch Transkription und Annotation sichtbar gemacht
– Erstelllung von Annotationen und Korpus z.B. durch ELAN und Toolbox
12Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke 12Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
ELAN
13Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke 13Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Toolbox Datenbank
Textanalyse durch Parsen
Erstellung von Morphemlisten/ Wortlisten/Wörterbüchern
Datenaustausch mit ELAN (Bezug zu Mediadateien bleibt dadurch erhalten)
14Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke 14Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Toolbox
15Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Zwischen Labor- und Feldforschung Annotation verschiedener Datentypen (auch
Spontansprache)
mehrere linguistische Beschreibungsebenen
– (Morpho-)Syntax: Wortstellung, Part-of-Speech, Definitheit, Satztyp, Fokusoperatoren…
– Semantik/Pragmatik: Fokustyp, Informationsstatus (Referenz- u. lexikalische Ebene)…
– Phonetik/Phonologie: Akzente und Grenztöne, Tonhöhenumfang, Dauern von Silben und Wörtern…
16Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Zwischen Labor- und Feldforschung
Annotationstool für Darstellung der verschiedenen Ebenen:
EMU Speech Database System (http://emu.sourceforge.net/)
Beispiel Spontansprache:
17Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Zwischen Labor- und Feldforschung
18Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Fächerübergreifende Zusammenarbeit Neues DFG-Projekt von Phonetik (Grice)
und Germanistik (Lohnstein); ab 2010
Ein Ziel: Erweiterung der Fokus-DB um mehrebenen-annotierte Daten inklusive Tondateien und Bereitstellung zu Forschungszwecken
– Demo-Version: www.fokus-db.de, Benutzer: „Besucher“, Passwort: „Demo“