Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität...

35
Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013

Transcript of Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität...

Page 1: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus

Hagen Hirschmann (HU Berlin)Universität Hamburg, 28.11.2013

Page 2: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Plan

• Lernerkorpora• Besonderheiten gegenüber anderen

Korpora• Analysemethoden

• Ziele des Falko-Korpus• Datenaufbereitung (motiviert an Fallbeispiel)

• Analyse grammatischer Strukturen• Fehleranalyse

• Ausblick, weiterführende Ziele, Wünsche

2

Page 3: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Lernerkorpora

• Learner corpora have all the characteristics commonly attributed to corpora (…), the only difference being that the data come from language learners.(Granger 2008, S. 259)

• Unterscheidungen von Lernertypen:• L1-Lernerkorpora• 'X'aF-Korpora• 'X'aZ-Korpora• Wichtige Parameter:

Sprachstand, L1, Erwerbsbiographie (Metadaten)

3

Page 4: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Lernerkorpora – Aufbau

• Verschiedenste Erhebungen: Aufgaben (Bildbeschreibungen, Fragestellungen) vs. 'authentische' Gespräche

Unterschiedlichste Texttypen (Essays, Berichte, Antworten auf Textverständnisfragen, Zusammenfassungen, …)

Verschiedene Korpusdesigns• Erhebungskontext und Probandendaten

dokumentiert (Aufgaben, Sprachstand, Geschlecht, …) - Metadaten

• Problem: Größe, Ausgewogenheit (L1, Textsorten, …)

• Vergleichsdaten?4

Page 5: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Lernerkorpora – Annotation

• Problem: Nichtstandard-Realisierungen führen zu Analyseschwierigkeiten auf allen grammatischen Ebenen

Fehlerannotation• Aber: Fehler nur in Bezug auf 'Nicht-Fehler'

sinnvoll Wunsch: Ungrammatische und

grammatische Strukturen annotieren• Grammatische Analysen wie bei L1-Korpora

5

Page 6: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Lernerkorpora – gesprochenes Deutsch

• DaF-Korpora: • HAMATAC (Hamburg Map Task Corpus;

www1.uni-hamburg.de/exmaralda/files/z2-hamatac/public/) (Universität Hamburg)

• BEMATAC (Berlin Map Task Corpus; www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/bematac) (bislang L1; L2-Daten werden noch veröffentlicht) (Humboldt-Universität Berlin)

• GeWiss (Gesprochene Wissenschaftssprache; https://gewiss.uni-leipzig.de/) (Universität Leipzig)

• Leap Corpus (http://www.philhist.uni-augsburg.de/de/lehrstuehle/anglistik/angewandte_sprachwissenschaft/Forschung/leap/

) (Ulrike Gut, Universität Augsburg)

6

Page 7: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Lernerkorpora – gesprochenes Deutsch

• DaZ-Korpora:• Längste Tradition der Nutzung von Lernerdaten

(Untersuchung des ungesteuerten Spracherwerbs von MigrantInnen)

• Viele 'Privatsammlungen', aber kaum nutzbare Daten• Kiezdeutsch-Korpus (http://www.kiezdeutschkorpus.de/)

(Heike Wiese, Sören Schalowski, Ines Rehbein et al.; Universität Potsdam) (Daten nicht verfügbar)

• ESF-Korpora (http://corpus1.mpi.nl/ds/imdi_browser/) (MPI Nijmegen)

• L1-Korpus:• Deutsche Childes-Daten (http://childes.psy.cmu.edu/)

(Carnegie Mellon University and the University of Pennsylvania)7

Page 8: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Lernerkorpora – geschriebenes Deutsch

• DaF-Korpora: • ALeSKo (http://

ling.uni-konstanz.de/pages/home/zinsmeister/alesko.html) (Universität Konstanz)

• Kobalt-DaF-Korpus (www.kobalt-daf.de/) (DFG-Verbundsprojekt; im Aufbau)

• FALKO (http://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/falko) (Humboldt-Universität Berlin)

• KanDel (http://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/falko)

(Kansas University)

• L1-Korpora:• Viele nicht-zugängliche Schülerdaten für

Orthographiekompentenzstudien• KoKo (http://www.korpus-suedtirol.it/bildungssprache_de.htm

) (Europäische Akademie Bozen (EURAC)) (im Aufbau)

8

Page 9: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Auswertung von Lernerkorpora:Grundlegende Strategien

• Zwei grundlegende Wege zur Auswertung von Lernerkorpora (ähnlich wie Typ-A- vs. Typ-B-Studien):

• EA (Error Analysis) vs. CIA (Contrastive Interlanguage Analysis) (vgl. z. B. Granger 2002 oder 2008)• EA:

• Fehler=Abweichungen von der Zielsprache 'Misuse'

• CIA:• Vergleich zielsprachlicher (grammatischer) Strukturen

in L2 und L1 'Overuse'/'Underuse'

Page 10: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Das Falko-KorpusEckdaten

10

• "Fehlerannotiertes Lernerkorpus"www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/falko

• Handbuch: Reznicek et al. 2012 • Frei nutzbar (ANNIS-Suchinterface) unter

https://korpling.german.hu-berlin.de/falko-suche/

• Essaykorpora L2 (144619) und L1 (70615)• Zusammenfassungen L2 (40638) und L1

(21211)• Alle Lerner fortgeschritten und aus

gesteuertem Erwerb

Page 11: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Daten – Falko-Essays

• Vier kontroverse Themen (in Anlehnung an ICLE; Kriminalität, Entlohnung, Jugend, Studium)

• Erhebungsbedingungen:90 Minuten, keine Hilfsmittel, z.T. handschriftlich, die meisten Texte digital

• Derzeit 248 Lernertexte, 95 Muttersprachlertexte• Lernerdaten: diverse Muttersprachen; größte

Gruppen: Englisch, Polnisch, Russisch, Französisch (Metadaten)

• Weitere Metadaten: L1, weitere L2, Alter, Geschlecht, …

11

Page 12: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Falko: Ziele

• Jedem Korpus muss ein Forschungsziel bzw. eine übergeordnete Fragestellung zugrunde liegen

• Auswahl der Primärdaten, der Annotationen und des Korpusdesigns gemäß dieser Fragestellung

• Falko: Untersuchung fortgeschrittener DaF-Lernender auf bislang ungeklärte Erwerbsphänomene• Erwerbslimitierende Faktoren im DaF?• Komplexität in fortgeschrittener Lernersprache• Modifikation in fortgeschrittener Lernersprache• …

12

Page 13: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Motivation/Fallbeispiel: Präpositional-objekte im fortgeschrittenen DaF

• Studenten darum beklagen , dass ihr Studium sie nicht für die wirkliche Welt und ihre berufliche Zukunft vorbereitet .(fk006_2006_08)

Präpositionalobjekte stellen eine besondere Herausforderung für den Lernprozess dar (Präposition schlecht antizipierbar, semantisch keine homogene Objektklasse, …)

• Fragestellung: Wie zielsprachlich ist die Verwendung von Präpositionalobjekten bei fortgeschrittenen Lernenden des DaF? 13

Page 14: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Fallstudie:Welche Annotationen?

• 1. Teilfrage: Wie viele (grammatische!) Präpositionalobjekte werden von den Lernenden überhaupt verwendet (CIA, quantitativ/qualitativ)? Annotation von Präpositionen, PPn, Präpositionalobjekten

in L2- und L1-Daten (Vergleichsdaten) Taggen (Treetagger; Schmid 1994; manuelle Korrekturen in

EXMARaLDA; Schmidt 2004)• Parsen (Malt Parser; http://www.maltparser.org/; Schema: Foth 2006)

Manuelle Korrekturen in Arborator; http://gerdes.fr/) Problem: Zusammenführung der Daten

(Treetagger-Output/EXMARaLDA-xml und Malt/Arborator-Output: conll); gemeinsame Durchsuchbarkeit

Converter-framework 'Salt'n Pepper' (Zipser&Romary 2010) und ANNIS (http://www.sfb632.uni-potsdam.de/annis/)

14

Page 15: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

15

Beispiel: Präpositionalobjekt in ANNIS-Darstellung

• Falko Essays L2, cbs001_2006_09

Page 16: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Lernerdaten: Konzeptionelle Probleme

• Z. B. hat man oft über Greenpeace gehört (cbs001_2007_10)

• Sie haben sich dazu gewöhnt (...) (cbs014_2007_10)

• Viel mehr achtet der Arbeitgeber ___, ob der Student , die relevante Arbeitserfahrung hat (cbs006_2007_10)

• Da die Studenten einen grossen Teil ihres Studiums an die Theorien wittmen muss (…) (cbs011_2006_09)

• Man denke an den unterschiedlichen Gruppen (…) (cbs001_2007_10)

16

Page 17: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Grammatisch: Status 'Präpositionalobjekt' bei ungrammatischen Strukturen interpretationsabhängig:• „Eigentlich wollte der Lerner sagen: …“ Zielhypothese (ZH); ohne ZH keine

Analysemöglichkeit ungrammatischer Strukturen

Technisch: Ungrammatische Strukturen von Parser meistens nicht gemäß der ZH interpretiert (z. B. Präpositionalobjekte nicht erkannt)

Lernerdaten: Konzeptionelle Probleme

17

Page 18: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Lösung: Fehlerkennzeichnung und –korrektur durch Zielhypothesen

18

cbs011_2006_09

Fehleranalyse strukturell oder grammatisch (Lennon 1991, 182)

• Jede Fehleranalyse impliziert alternative Zielstruktur (Zielhypothese)

Page 19: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

19

cbs011_2006_09

Fehleranalyse strukturell oder grammatisch (Lennon 1991, 182)

• Jede Fehleranalyse impliziert alternative Zielstruktur (Zielhypothese)

Lösung: Fehlerkennzeichnung und –korrektur durch Zielhypothesen

Page 20: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

20

cbs011_2006_09

Fehleranalyse strukturell oder grammatisch (Lennon 1991, 182)

• Jede Fehleranalyse impliziert alternative Zielstruktur (Zielhypothese)

Lösung: Fehlerkennzeichnung und –korrektur durch Zielhypothesen

Page 21: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Annotationen: Fehler• Zielhypothese in ANNIS-Ansicht

21

Page 22: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Gewinn durch Zielhypothesen-Ansatz• Alle Strukturen suchbar/trennbar, bei denen ein

oder kein Grammatikalitätsproblem vorliegt• Fehler sind markiert und erhalten strukturelle

Klassen (edit tags: INS, DEL, CHA, MOVE)• Zielhypothesen werden anstelle von

ungrammatischen Strukturen interpretiert (getaggt, geparst) und in die Analyse einbezogen Mehrebenenarchitektur notwendig Spannen notwendig; Unabhängigkeit der

Ebenen erforderlich (standoff xml) EXMARaLDA-xml als geeignetes

Speicherformat; EXMARaLDA Partitur Editor als Annotationswerkzeug

22

Page 23: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Zur Fallstudie:Kontrastive Analyse - Ergebnisse

• Anzahl der in den grammatischen Strukturen vorhandenen Präpositionalobjekte: L2=3,52 / 100 VVFINL1=3,70 / 100 VVFIN

• Type-Token-Ratio (Verb-PP-Kombinationen):L1=0,69 (184 Typen, 266 Token)L2=0,47 (124 Typen, 266 Token)

23

Page 24: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Fallstudie:Welche Annotationen?

• 2. Teilfrage: Wie häufig werden bei der Verwendung von Präpositionalobjekten Fehler produziert? Markierung ungrammatischer Strukturen,

deren Zielhypothese ein Präpositionalobjekt oder anstelle einer PP ein alternatives Objekt istAufbereitung der Zielhypothesen analog

zur Aufbereitung der grammatischen Lerneräußerungen

24

Page 25: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Fehlertypen - Beispiele

1. Typ: Falsche Präposition• Ergänzung inhaltlich korrekt, formal fehlerhaft

„CHA“

cbs014_2007_10

25

Page 26: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

2. Typ: Präposition fehlt• Verb erfordert Ergänzung, die nicht realisiert

wird

„INS“

cbs009_2006_09

26

Fehlertypen - Beispiele

Page 27: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

3. Typ: Präposition ist ungrammatisch• Ergänzung inhaltlich korrekt, formal fehlerhaft

„DEL“

cbs011_2006_09

27

Fehlertypen - Beispiele

Page 28: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

4. Typ: Präpositionsergänzung im falschen Kasus• Präpositionalobjekt korrekt, Subsystem der

präpositionalen Rektion fehlerhaft„CHA“ an Artikel/Adjektiv

cbs001_2007_10

28

Fehlertypen - Beispiele

Page 29: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Zur Fallstudie:Fehleranalyse - Ergebnisse

1. Falsche Präpositionen: 50 11% pro P-Objekte insgesamt

2. Hinzugefügte P-Objekte: 33 7% pro P-Objekte insgesamt

3. Getilgte P-Objekte: 33 7% pro P-Objekte insgesamt

4. Falsche Kasus an der Nomen-Ergänzung: 327% pro P-Objekte insgesamt

29

Page 30: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Zur Fallstudie:Fehleranalyse - Ergebnisse

• Häufigster Fehler: falsche Präposition• Ca. jedes zehnte Präpositionalobjekt mit

falscher Präposition (falsche Form)• Alle Fehlertypen:

32% aller Präpositionalobjekte sind fehlerhaft

• Die Anzahl der fälschlich gesetzten Präpositionalobjekte ist gleich der Anzahl der fehlenden Präpositionalobjekte

30

Page 31: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Zusammenfassung: Annotationen in Falko und verwendete Tools

31

Annotation Annotationswerkzeug

pos-Annotation,Lemmatisierung von Lerneräußerung und Zielhypothesen

Treetagger,manuelle Korrekturen in EXMARaLDA

Zielhypothesen manuelle Annotation in EXMARaLDA

Parsing von Zielhypothesen Malt Parser,manuelle Korrekturen in Arborator

• Zusammenführung der Annotationen mit Salt'n Pepper

• Importierung der Daten ins Suchsystem ANNIS

Page 32: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Ausblick, weiterführende Ziele, Wünsche

• Hinzufügung topologischer Annotation (semi-automatisch mit Berkeley Parser und manueller Korrektur in EXMARaLDA) Weitere EXMARaLDA-Spannen

• Erweiterung der Fehlerklassifikation um grammatische Kategorien (ICLE-Tagset?)

• Weiterentwicklung von Annis: Statistik, besserer Export, Vereinfachung&Ausbau der Anfragesyntax

• Wunsch: Werkzeug zur Annotation von Konstituentenbäumen

32

Page 33: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

33

Vielen Dank!

Kontakt:[email protected]

Page 34: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

Hanna AckeTorsten AndreasJia Wei ChanSeanna DolittleEmil KroymannCedric KrummesAnke Lüdeling ( Boss)Vicktoria OketchMarc Reznicek ( Keeper of the holy data)Karin SchmidtFranziska SchwantuschkeMaik WalterAmir Zeldes

34

An Falko arbeite(te)n auch:

Page 35: Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013.

35

Literatur• Biber, Douglas; Jones, James K. (2009): Quantitative methods in corpus linguistics. In: Lüdeling, Anke; Kytö, Merja

(Hg.): Corpus Linguistics. An International Handbook. Vol. 2. Berlin: Mouton de Gruyter, S. 1286-1304.

• Corder, Steven Pit (1981): Error Analysis and Interlanguage. Oxford; Oxford University Press.

• Diaz-Negrillo, Ana; Fernandez-Dominguez, Jesus (2006): Error tagging systems for learner corpora. In: RESLA 19, S. 83-102.

• Ellis, Rod (1994): The Study of Second Language Acquisition. Oxford; Oxford University Press.

• Granger, Sylviane (2008): Learner corpora. In: Lüdeling, Anke; Kytö, Merja (Hg.): CorpusLinguistics. An International Handbook. Vol 1. Berlin; de Gruyter, S. 259-275.

• Granger, Sylviane. (2002): A Bird's-eye View of Computer Learner Corpus Research. In: Granger S., Computer Learner Corpora, Second Language Acquisition and Foreign Language Teaching (Language Learning and Language Teaching; 6). Amsterdam & Philadelphia; John Benjamins, S. 3-33.

• Labov, William (2004): Quantitative Reasoning in Linguistics. In: Ammon, Ulrich; Dittmar, Norbert; Mattheier, Klaus J.; Trudgill, Peter (Hg.). HSK Sociolinguistics/Soziolinguistik. Vol I. Berlin; de Gruyter, S. 6-21.

• Lemnitzer, Lothar; Zinsmeister, Heike (2006): Korpuslinguistik – Eine Einführung.Tübingen; Gunter Narr Verlag.

• Lennon, Paul (1991): Error: Some problems of definition, identification and distinction. In: Applied Linguistics 12/2, S. 180-196.

• Lüdeling, Anke; Doolittle, Seanna; Hirschmann, Hagen; Schmidt, Karin & Walter, Maik (2008): Das Lernerkorpus

Falko. In: Deutsch als Fremdsprache 2(2008), S. 67-73.

• Reznicek, Marc; Lüdeling, Anke; Krummes, Cedric; Schwantuschke, Franziska; Walter, Maik; Schmidt, Karin;

Hirschmann, Hagen; Andreas, Torsten (2012): Das Falko-Handbuch. Korpusaufbau und Annotationen Version 2.01

• Schmidt, Karin (2011): Lernerkorpora: Ressourcen für die Deutsch-als-Fremdsprache-Forschung. In: Türkischer Internationaler Germanistik Kongress, 20.-22. Mai 2009. Tagungsbeiträge. Izmir, S. 555-573.