Mit dem Auto oder mit dem Zug? Ich fahre lieber…….. mit dem Auto.
…EXMARaLDA TutorialDas EXMARaLDA Analyse- und Konkordanztool ist ein Werkzeug, mit dem Korpora...
Transcript of …EXMARaLDA TutorialDas EXMARaLDA Analyse- und Konkordanztool ist ein Werkzeug, mit dem Korpora...
…EXMARaLDAどTutorial
Yael Dilger, Fideniz Ercan ど 22.11.2012, 52. StuTS Berlin
Herzlich Willkommen zum...
Ablauf
• Vorstellung
• EXMARaLDA Grundlagen und Grundbegriffe Partitur EditorCorpus Manager
EXAKT
• Nützliche Hinweise
EXMARaLDA
seit 2011
http://www.corpora.uniどhamburg.de
Projekt Z2 „Computergestützte Erfassungsど und Analysemethoden multilingualer Daten“ am SFB 538 (Uni HH) „Mehrsprachigkeit“ (2000 ど 2011)
EXMARaLDA
• Extensible Markup Language for Discourse Annotation
o System zum Erstellen, Verwalten, Auswerten, Publizieren von Korpora gesprochener Sprache
o frei verfügbar unter http://www.exmaralda.org
o ursprünglich: Unterstützung für SFBどProjekte bei der Verarbeitung / Aufbereitung ihrer Korpora
o heute: viele Nutzer außerhalb des SFB
Anwendungsbereiche
• Funktionale Pragmatik
• Konversationsど/ Diskursanalyse• Spracherwerbsforschung
• Dialektologie
• Phonetik / Phonologie• Untersuchung von Multimodalität
• Annotation geschriebener Sprache• außerhalb der Linguistik: empirische Bildungsforschung, Sprachtechnologie
Musikalische Partitur
Zeit
Gleichzeitigkeit
Klarinette
Oboe
Fagott
Korpus workflow
Rudi Völler ど Wutausbruch
Partitur Editor(Video)
Transkriptionskonventionen
• Einheitlichkeit / Konsistenz Verständlichkeit
systematisches Suchen, Analysierenautomatische Verarbeitung (Segmentieren, Wortliste)
• Abhängig vom Untersuchungsinteresse / vom theoretischen Hintergrund z.B. Syntaxerwerb vs. GesprächsstrukturenAusblenden von Irrelevantem
HIAT (Halbinterpretative Arbeitstranskriptionen)
•Literarische Umschrift, z.B. ham für haben•Paraverbales ((lacht))• Intonation, Akzent etc. •Unverständliches ((unverst.))•schwer Verständl. Das is sicherlich (nich) in Ordnung.•Nonverbales (Gestik, Mimik...) winkt •Abbrüche … Reparaturen ob das/ ob wir•Pausen: geschätzt • / •• / ••• od. gemessen ((0,7s))•Ausschreiben: Abkürzungen, Zahlen, z.B. null null• Interpunktion gemäß Orthographie
Corpus Manager(Video)
HAMATAC (Hamburg MapTask Corpus)
• Oktober 2009 – September 2010 im SFB Mehrsprachigkeit, Teilprojekt Z2
• Ziel: Aufzeigen der Möglichkeiten von EXMARaLDA insb. im Hinblick aufs Annotieren und den Austausch von Daten
• TN: 24 fortgeschrittene Deutschlerner mit unterschiedlicher L1 zw. 17 und 40 Jahren
• MapTask: 2 Kartensets mit Abbildungen von Objekten (regionale Varietäten: Vokabeln u. Aussprache)
EXAKT(Video)
Nützliche Hinweise
• Zum Herunterladen der EXMARaLDAどSoftware und für Hilfe und Dokumentationen:
http://www.exmaralda.org/
exmaraldaどsupport@uniどhamburg.de
• Zugang zu Korpora des Sonderforschungsbereichs 538 Mehrsprachigkeit: http://www.corpora.uniどhamburg.de/sfb538/de_overview.html
corpora@uniどhamburg.de
Vielen Dank!
http://www.corpora.uniどhamburg.de
Transkribieren mit dem EXMARaLDA PartiturどEditor
A. Vorbereitende Schritte
In einzelnen Schritten:
1. Neue Transkription anlegen
Datei Neu...
2. Metadaten eingeben
Transkript ion Meta-Information...
3. Audio-/Video-Datei(en) zuordnen
Transkript ion Aufnahmen...
Hinzufügen der Audio-/Video-Datei(en) durch Klick auf die Schaltfläche
die Audio-Datei wird als Oszillogramm angezeigt und vom Player geladen1
die Video-Datei wird im Audio-/Video-Panel angezeigt; dafür muss das Panel zu-
nächst über Ansicht Audio-/Video-Werkzeug eingeblendet werden2
4. Sprechertabelle anlegen
Transkript ion Sprechertabelle…
Anlegen neuer Sprecher durch Klick auf die Schaltfläche
Sprecherkürzel im Feld Namenskürzel ändern
5. Für jeden Sprecher eine Spur anlegen
Spur Spur anfügen...
In einem Schritt mit dem Assistenten:
Datei Neu aus Assistent ...
B. Transkribieren
1. Die zu transkribierende Passage im Oszillogramm markieren
Blaue Auswahlgrenzen: Auswahl ist mit Zeitpunkten in der Transkription nicht verbunden
1 Ein Oszillogramm wird nur bei Dateien im Waveformat (Dateiendung *.wav) erzeugt. 2 Das Audio-/Video-Panel wählt jeweils die oberste Datei in der Liste (im Fenster „Edit media files“).
2. Auswahl abspielen und die Markierungen ggf. durch Verschieben der Auswahlgren-
zen (durch Ziehen oder mit Mausrad) korrigieren
(Grüne und rote Auswahlgrenzen: Auswahl ist mit Zeitpunkten in der Transkription verbunden)
3. Transkriptionstext einfügen
Es existieren zwei Modi für die Eingabe von Transkriptionstext:
a)
… für das Erstellen neuer Ereignisse, bei denen noch kein vorangehendes Ereignis
existiert oder für das Transkribieren von Simultanpassagen.
Nach Klick auf die Schaltfläche wird ein neues Ereignis angelegt.
die entsprechende Transkriptionsspur auswählen
in der Partitur wird automatisch ein zugehöriges Intervall in der Zeitachse angelegt
in der ausgewählten Spur wird ein leeres Ereignis angelegt
Transkriptionstext im betreffenden Ereignis eingeben
b)
… für das Erstellen unmittelbar folgender Ereignisse.
Nach Klick auf die Schaltfläche wird ein neues Intervall im unmittelbaren Anschluss
an das bisher Transkribierte angehängt und automatisch mit einem Abschnitt in der
Aufnahme von zwei Sekunden Dauer aligniert.
im Oszillogramm wird dieser Ausschnitt automatisch ausgewählt
die rechte Auswahlgrenze geeignet verschieben (s. Abschnitt 2)
die rechte Intervallgrenze in der Partitur passt sich automatisch an
den Transkriptionstext in der betreffenden Spur der Partitur eingeben
ggf. ein weiteres angrenzendes Intervall auf dieselbe Weise erstellen
Auswahl abspielen Auswahl als Loop abspielen
Letzte Sekunde
der Auswahl
abspielen
Sekunde vor der
Auswahl abspielen
Erste Sekunde der
Auswahl abspielen
Sekunde nach
der Auswahl
abspielen
(1) Partitur
(2) Oszillogramm
(3) Cursorposition im
Oszillogramm
(4) Linke Auswahl-
grenze im Oszillo-
gramm (a) und in
der Partitur (b)
(5) Rechte Auswahl-
grenze im Oszillo-
gramm (a) und in
der Partitur (b)
2
1
3 4a 5a
4b5b
Zeitachse
(timeline)
Spur
(tier)
Spurlabel
(tier label)
Intervall/Zeitpunkt
(timeline item)
Ereignis
(event)
1
Arbeiten mit Coma1
A. Coma-Metadatentypen 1. Kommunikation: alle Daten über ein Gesprächsereignis (wie Ort, Zeit, besondere
Umstände, beteiligte Sprachen etc.); an Kommunikationen nehmen typischerweise Sprecher teil, es kann Aufnahmen und Transkriptionen zu den Kommunikationen geben (im Datenmodell können Aufnahmen, Transkriptionen und Sprecher diesen Kommunikationen zugeordnet sein)
2. Sprecher: alle Daten über eine Person/ einen Sprecher (wie Geburtsort/ -datum, biographische Angaben, gesprochene Sprachen und ihr Status etc.); möglichst keine kommunikationsbezogenen Daten erfassen, um Sprechern mehrere Kommunikationen zuordnen zu können
3. Description: Daten, die über freie Schlüssel-Wert-Paare erfasst werden (vorher projektintern festes Inventar an Descriptions-Schlüsseln zur Vereinheitlichung des Vokabulars festlegen); Descriptions existieren für fast alle Datentypen in Coma
4. Location: spezieller Datentyp, ein Ort/ eine Lebensstation zu einer best. Zeit 5. Aufnahme: Aufnahmen lassen sich nur anlegen, wenn bereits eine
Kommunikation existiert, der sie sich zuordnen lassen 6. Transkription: in Transkriptionen werden Verknüpfungen zu EXMARaLDA-Transkrip-
tionen gespeichert; sie sind ebenfalls mit einer Kommunikation verknüpft, da sie sich ohne diese nicht verwalten lassen
7. Verknüpfte Dateien (z.B. Fragebögen etc.)
B. Speichern und Umbenennen einer Coma-Datei 1. Speichern einer Coma-Datei:
Datei > Dokument speichern als... Dateinamen eingeben und auf Speichern klicken. 2. Vorhandenes Korpus öffnen bzw. umbenennen:
Datei > Dokument öffnen... Coma-Datei auswählen und auf Öffnen klicken. Korpus kann im Reiter Korpus rechts über die Schaltfläche ändern umbenannt werden.
C. Eingabe von Sprechern und Sprecherinformationen 1. Im Register Daten befindet sich auf der rechten Seite eine Liste der Sprecher. Zum
Hinzufügen weiterer Sprecher einfach einen Sprecher anklicken und unten auf das Symbol (Person hinzufügen) klicken.
Oder: Einen Sprecher aus der Sprecherliste anklicken, und über (Person klonen) duplizieren, Änderungen über das Notizblock-Symbol vornehmen. (Vorteil: ggf. Templates (s. F) vorhanden, Werte können angepasst/ geändert werden.)
2. Über das Notizblok-Symbol neben Speaker im mittleren Fenster können Sigle, Pseudonym und Geschlecht geändert bzw. eingetragen werden.
1 Für detaillierte Informationen zum Arbeiten mit Coma s. Coma-Handbuch.
2
3. Zum Eingeben von Sprecherinformationen auf das Notizblock-Symbol neben
Description (Speaker) klicken. Hier können Schlüssel und Werte eingetragen und geändert werden. Speichern durch Klick auf OK.
4. Zum Eingeben bzw. Ändern von Sprachen: Auf Plus-Symbol
klicken und Sprache aus der Liste im Feld Name suchen. Durch Anklicken der entsprechenden Sprache wird der ISO 639-9 Code übernommen. Als Typ wird eingegeben L1, L2 etc. Ggf. wiederholen, um weitere Sprachen hinzuzufügen.
5. Zum Anlegen von Locations: Klick auf
Plus-Symbol Location-Template auswählen oder manuell eingeben, anschließend Ort und Zeit hinzufügen. Durch Klick auf OK speichern. Ggf. weitere Locations hinzufügen.
D. Eingabe von Kommunikationen 1. Im Register Daten befindet sich auf der linken Seite eine Liste der Kommunikationen.
Zum Hinzufügen weiterer Kommunikationen einfach eine auswählen und unten auf (Kommunikation hinzufügen) oder
(Kommunikation klonen) klicken und entsprechende Änderungen über das Notizblock-Symbol im mittleren Fenster neben Description (Communication)
vornehmen.
2. Der Name einer Kommunikation kann über das Notizblock-Symbol neben Communica-tion im mittleren Fenster geändert bzw. eingegeben werden.
3. Eingabe bzw. Änderung von Descriptions, Locations, Sprachen und Settings der
Kommunikationen erfolgt über das jeweilige Notizblock- und Plus-Symbol (s. C. Schritte 3. – 4.).
4. Aufnahmen zur Kommunikation hinzufügen über das Plus-
Symbol neben Recordings. 5. Hinzufügen von Transkriptionen erfolgt über das Plus-
Symbol neben Transcriptions. 6. Über das Plus-Symbol neben der Büroklammer können der
Kommunikation weitere Dateien hinzugefügt werden.
3
E. Verknüpfen von Sprechern und Kommunikationen 1. Aus der linken Spalte Kommunikation auswählen.
2. Aus der rechten Spalte Sprecher auswählen. 3. Über das Kettensymbol Kommunikation und Sprecher verknüpfen. Es erscheint jeweils
eine Büroklammer vor Sprecher bzw. Kommunikation. (Eine Verknüpfung lässt sich über das „reißende“ Kettensymbol wieder lösen .)
F. Anlegen von Templates Für häufig benötigte Datensätze lassen sich in Coma Templates anlegen. Die Datentypen, für die Templates zur Verfügung stehen, erkennt man an dem standardisierter Template‐Balken am oberen Rand des Eingabefensters. 1. Die angelegten Templates lassen sich über Datei >
abspeichern und wieder öffnen. Hier (sowie im Menü Bearbeiten > Einstellungen) lässt sich auch festlegen, dass eine bestimmte Template‐Datei beim Start des Corpus‐Managers automatisch geöffnet wird.
2. Mit einem Klick auf den Plus‐Button werden die Daten, die im Eingabefenster eingegeben wurden, in ein neues Template übernommen. In dem erscheinenden Eingabefenster kann dem Template ein Name zugeordnet werden. So lassen sich Datensätze desselben Datentyps (also z.B. für Kommunikationen oder Descriptions) automatisch mit diesen Schlüssel-Wert-Paaren übernehmen, indem aus dem Dropdown‐Menü das Template mit dem vergebenen Namen ausgewählt wird.
3. Ein Klick auf die Minus‐Schaltfläche löscht das im Dropdown‐Menü ausgewählte Template wieder.
1
Arbeiten mit EXAKT 1 A. Funktionen Das EXMARaLDA Analyse- und Konkordanztool ist ein Werkzeug, mit dem Korpora gesprochener Sprache, die mit dem Partitur Editor und dem Corpus Manager erstellt worden sind, analysiert und durchsucht werden können: - Suchen auf verschiedenen Ebenen (Transkription, Metadaten, Annotationen...) - KWIC-Konkordanzen - Generieren von und Arbeiten mit Wortlisten - Filtern, Kategorisieren, Quantifizieren von Suchergebnissen (+ Metadaten) - Exportieren von Suchergebnissen in Excel - Generieren von Korpusstatistiken B. Korpus öffnen/Wortliste generieren 1. Korpus2 öffnen über File > Open corpus… und Coma-Datei auswählen.
2. Wenn das Korpus nach Wörtern segmentiert
worden ist, erscheint ein Dialogfenster zur Erstellung einer Wortliste. Mit Ja beantworten, falls eine Wortliste generiert werden bzw. damit gearbeitet werden soll.
3. Alle Wortlisten sind in der linken Spalte unter Word
lists aufgeführt. Durch einen Doppelklick auf einen Eintrag wird eine Liste aller Wortformen mit ihrer Häufigkeit, wie sie im Korpus vorkommen, auf-gerufen. Sie kann alphabetisch oder nach Häufigkeit angeordnet werden.
Save w ordlist… speichert Liste als *.txt oder *.html Dateien ab. Mit der Filter- funktion können über reguläre Ausdrücke Wörter gefiltert werden. Über Doppelklick oder Plus/Minus können Wörter in die rechte Spalte gewählt werden. Weiteres s. Manual.
1 Für detaillierte Informationen zum Arbeiten mit EXAKT s. EXAKT Manual 2 Zum Erstellen eines Korpus s. How to create a corpus from a set of transcriptions
2
C. KWIC-Konkordanz
1. Spur, die durchsucht werden soll, über Dropdown-Menü auswählen und rechts ins Search-Feld Suchbegriff eingeben. Anschließend auf klicken.
2. Bei einer Konkordanzsuche, hier am Bsp. von nicht werden in EXAKT sowohl die linken
als auch dir rechten Kontexte angezeigt (s. Abb.), die mit den Symbolen (show more bzw. less context ) erweitert oder verkürzt werden können.
3. Durch Doppelklick auf ein Suchergebnis wird die entsprechende Stelle in der Transkription im Partiturbereich des Fensters (unten) angezeigt. Hierin lässt sich navigieren und, sofern eine Alignierung mit einer Audio-/Videodatei vorliegt, die entsprechende Stelle über den Play-Button auch abspielen.
4. Für eine Konkordanzsuche mit regulären Ausdrücken, können diese ebenfalls direkt ins
Suchfeld eingegeben werden. EXAKT bietet hierzu auch Hilfestellungen an: Rechtsklick im Suchfeld listet einige gängige reguläre Ausdrücke, die durch
Anklicken übernommen werden können Klick auf Search bietet eine Hilfestellung zur Formulierung üblicher Ausdrücke
3
Unter RegEx > Regex Library Dialog findet man verschiedene regular expression
libraries, u.a. EXMARaLDA Regex Library, welche in EXAKT eingebaut ist und gängige Suchmuster für verschiedene Sprachen und Transkriptionskonventionen enthält
D. Filtern und Kategorisieren von Suchergebnissen
a) Konkordanz um Metadaten erweitern
Grundprinzip: Alle Inhalte werden in Spaltenform angezeigt und können durchsucht, sortiert und gefiltert werden. 1. Klick auf 2. Metadatenfelder auswählen 3. ggf. Reihenfolge festlegen 4.
b) Konkordanz filtern
1. Klick auf - manuelle Eingabe des Filters
oder - Klick auf - Klick auf das Register Types - Wert(e) auswählen > -
2. Die Checkbox (links) zeigt Filterresultat an 3. ggf. durch klick auf abgewählte Einträge aus Konkordanz entfernen
E. Analysen hinzufügen 1. Analysen bestehen aus Annotationen von Konkordanzeinträgen 2. Klick auf > Titel und Typ der Analyse festlegen > Im Fall von „Closed Category
list“ Kategorien eingeben > 3. Es kann auf dieselbe Weise gefiltert und sortiert werden wie bei Metadateneinträgen
4
Konkordanzliste
Wortliste
Korpusliste
KWIC Konkordanz
Suchen
Filtern
Metadaten anzeigen
Auswahlkästchen
Analysen hinzufügen Kopieren
Nicht ausgewählte Ergebnisse entfernen
Ansicht ak-tualisieren
Kontext vergrößern/ verkleinern
rechter Kontext linker Kontext
Trefferanzahl
Abspielen
Partitur im Browser öffnen
HTML-Ausgabe
Suchbegriff
Partituransicht
Listenansicht
HTML-Ansicht