bubenhofer korpuslinguistik in der Lehre ...g91254/dspin-workshop-lehre/DSPIN... · chi quadrat...

18
semtracks Noah Bubenhofer Korpuslinguistik in der linguistischen Lehre Erfolge und Misserfolge Noah Bubenhofer 18. Januar 2011 D-Spin Workshop, BBAW, Berlin semtracks Noah Bubenhofer Inhalt Ideen und Resultate Hoffnungen und Enttäuschungen Bedürfnisse und Probleme Ausblick und Wünsche

Transcript of bubenhofer korpuslinguistik in der Lehre ...g91254/dspin-workshop-lehre/DSPIN... · chi quadrat...

semtracks

Noah Bubenhofer

Korpuslinguistik in der linguistischen

LehreErfolge und Misserfolge

Noah Bubenhofer

18. Januar 2011D-Spin Workshop, BBAW, Berlin

semtracks

Noah Bubenhofer

Inhalt

• Ideen und Resultate

• Hoffnungen und Enttäuschungen

• Bedürfnisse und Probleme

• Ausblick und Wünsche

semtracks

Noah Bubenhofer

Ideen und Resultate

semtracks

Noah Bubenhofer

Eckpunkte Korpuslinguistik in der Lehre

• Belege sammeln

• Muster finden

• statistische Auswertungen machen

• bestehende Korpora nutzen

• eigene Korpora erstellen

• Nutzer mit wenig technischem Know-how

• Nutzer mit viel technischem Know-how

semtracks

Noah Bubenhofer

Typischer Seminarplan

• Grundlagen: Begriffsklärung, korpuslinguistische Denkweise (Arm-Chair Linguist vs. Corpus Linguist), Anwendungen

• Empirisches Arbeiten: Thesenbildung, Operationalisierung

• Korpusaufbau, Korpustypen: Repräsentativität, Korpusgröße, Typen, Annotation

• Bestehende Korpora nutzen: DeReKo, DWDS, Baumbanken

• Methoden: KWiC, Kollokationen, n-Gramme, statistische Auswertungen

• Eigene Korpora aufbauen

semtracks

Noah Bubenhofer

Beispiele für studentische Projekte

semtracks

Noah Bubenhofer

David Papst: klein und winzig. Eine Korpusuntersuchung zur Synonymie

• Korpus: DWDS

• Zufallsauswahl von Belegen (Excel-Script zur Generierung von Zahlen)

• manuelle Kategorisierung der Belege

• keine weiteren Hilfsmittel (Kollokationen etc.)

semtracks

Noah Bubenhofer

Igor Matic: Konzeptuelle Metaphern der Wirtschaftskrise in der NZZ am Sonntag

• Korpus: 53 Zeitungsartikel aus Datenbank

• Kategorisierung von Metaphern

• Frequenzvergleiche der Metaphern

• Software: AntConc

semtracks

Noah Bubenhofer

AntConc

semtracks

Noah Bubenhofer

Paul Rauber: Intellektuelle im Diskurs.Zwischen Hybris und Machtkritik

• Eigenes Korpus: Tages-Anzeiger-Artikel (AntConc)

• Bestehende Korpora:

- DeReKo/COSMAS II: Frankfurter Rundschau

- DWDS

- Wortschatz Leipzig

• Kollokationsanalysen im Vergleich

semtracks

Noah Bubenhofer

Verena Casana: Homosexualität. Analyse der Paradigmengruppe homosexuell – gleichgeschlechtlich anhand der taz

• taz-Korpora 1994-2008 mit Schlagwort

• Software: AntConc

• KWiC-Analyse, sortiert (Kontexte links/rechts etc.)

• Kollokationen

• sehr detailreiche Analysen, aber Standards Datenpräsentation nicht eingehalten

semtracks

Noah Bubenhofer

Tamara Weibel: Mieterinnen oder Mieter – Schweizervolk oder Ausländer? Parteispezifische Personen- und Personengruppenbezeichnungen der SP und SVP im Schweizer Parlament

• Korpus: Parlamentsprotokolle, aufgearbeitet von Kommilitone

• Software: AntConc

• Methoden:

- Keywords

- Kollokationen

- manuelle Kategorisierung/Systematisierung

semtracks

Noah Bubenhofer

Sara Baertschi: Der Berg ruft. Sprachgebrauchsmuster von 1920-1945 in der Literatur des Schweizer Alpen-Clubs

• Korpus: Nutzung des Text+Berg-Korpus

• Theoretische Einbettung: Diskurs-/Kulturanalyse und sprachliche Oberfläche ! Korpuslinguistik als empirische Methode

• Methode; Nutzung von AntConc:

- Evaluation/Kategorisierung von Belegen

- Kollokationen

- statistische Signifikanztests

semtracks

Noah Bubenhofer

Angela Fahrni: Regelmässigkeiten in Kundenrezensionen auf Amazon

• Korpuserstellung: 39.063 Kundenrezensionen mit eigenem Perl-Script von amazon.de heruntergeladen; Filterung, XML Metadaten

• Tokenisierung, Lemmatisierung, Tagging: TreeTagger; Ergänzung um eigene Tags (Emoticons)

• Analyse:

- n-Gramme: Perl-Script, Statistik (Signifikanztests)

- Kookkurrenzen: XAIRA

- Clusteranalyse: gCluto

semtracks

Noah Bubenhofer

Xaira

semtracks

Noah Bubenhofer

Madeleine Ehrensperger: Geschlechts- und Altersspezifisches Sprachverhalten

• Erstellung eines Fragebogens, bei dem Fragen beantwortet werden sollen

• 60 Versuchspersonen (Männer/Frauen, unterschiedliches Alter)

• Untersuchung verschiedener Parameter:

- Satzlänge

- Ich-Aussagen

- Satzklammern

- Abkürzungen

- Ausrufe- und Fragezeichen

• keine technischen Hilfsmittel

semtracks

Noah Bubenhofer

Hoffnungen und Enttäuschungen

semtracks

Noah Bubenhofer

sssssssssssssssssssssesssssssssss

semtracks

Noah Bubenhofer

Hoffnungen und Enttäuschungen

• Hoffnungen

- empirisches Arbeiten mit realen Daten

- Anwendung, nicht primär Theorie

- Bedürfnis nach „wissenschaftlichen Methoden“ der Analyse von Sprachdaten

- schnell zu Ergebnissen kommen

• Enttäuschungen

- technische Hürden und großer Aufwand

- Problem der Operationalisierung von Hypothesen

- (vermeintlich) beschränkte Aussagekraft von korpuslinguistischen Analyseresultaten

semtracks

Noah Bubenhofer

Bedürfnisse und Probleme

semtracks

Noah Bubenhofer

Die Probleme und Bedürfnisse der Nutzerinnen/Nutzer

semtracks

Noah Bubenhofer

Online-Kurs Korpuslinguistik

www.bubenhofer.com/korpuslinguistik/

2010:14.158 Besuche43.319 Seitenaufrufe

Zugriffsquellen:qg q34% direkte Zugriffe21% Verweise45% Suchmaschinen

semtracks

Noah Bubenhofer

Korpuslinguistik-Kurs: Hits (2010)Start

Einführung

Unix-Befehle

Definition

Korpustypen

DeReKo/COSMAS II

Signifikanz 1

Annotation

Möglichkeiten (Visualisierung)

Erstellung (Korpora)

AntConc

Anwendungen (Webkorpora)

Daten analysieren

Web als Korpus

Forschungsprozess

Abfragesysteme

Software

Daten aufbereiten

0 1.500 3.000 4.500 6.000

semtracks

Noah Bubenhofer

Korpuslinguistik-Kurs: Verweildauer

RegExp

Kookkurrenzen

Definition

Unix-Befehle

AntConc

Software

Annotation

Signifikanz 1

IDS gesprochen

Daten aufbereiten

WWW-Interface

CSV-Formatierung

Diskursanalyse

COSMAS II Abfragesprache

Literatur

Korpustypen

0 Min. 1 Min. 2 Min. 3 Min. 4 Min.

semtracks

Noah Bubenhofer

Korpuslinguistik-Kurs: Suchbegriffeantconc

unix-befehle namethemen korpuslinguistik

tagsetkorpuslinguistik tageszeitungen

korpus erstellenkookkurrenzen

log likelihood testkonkordanzprogramme

anwendungsgebiete korpuslinguistikkorpuslinguistik copyright

diskursanalysekorpuslinguistik software

tiger corpustiger korpus

cosmas iilog likelihood testantconc download

dwdskookkurrenzanalyse

treetagger betriebssystemkookkurrenzprofilkorpus definition

annotation korpuslinguistikdefinition korpus

kontingenztabelle signifikanz

0 60 120 180 240 300

semtracks

Noah Bubenhofer

Suchbegriffe: Inhalte

themen korpuslinguistik 130anwendungsgebiete korpuslinguistik 26diskursanalyse 21korpuslinguistik diskursanaylse 11probleme der korpuslinguistik 5

semtracks

Noah Bubenhofer

Suchbegriffe: Software

konkordanzprogramm 5konkordanzprogramm download 5concordance-programme zur analyse von korpora 5korpuslinguistik tools 7konkordanzprogramme 28simple concordance program 12korpuslinguistik software 21textdatei importieren per script filemaker 13

antconc 277antconc anleitung 7antconc regex 6cluster antconc 5t-score antconc 5

treetagger betriebssystem 15

graphviz 12graphviz beispiele 7graphviz dot 7graphviz gui 5

kfngram 12filemaker 8

tigersearch 8tiger search 6

corpus workbench windows 7

regexp 5reguläre ausdrücke antconc 5

software berechnung signifikanz 5

semtracks

Noah Bubenhofer

Suchbegriffe: Korpus(erstellung)

korpus definition 14korpora definition 9definition korpus 13korpuslinguistik tageszeitungen 43korpus erstellen 34filemaker datenbank erstellen 9korpuslinguistik copyright 25textkorpus erstellen download 12deutschsprachige korpora 6korpustyp 6baumbanken 5daten aufbereiten 5erstellung ein korpus 5wie erstelle ich einen korpus 5

tiger corpus 21tiger korpus 20

cosmas ii 19cosmas 2 7ids korpus 9funktionen cosmas 6dereko 5

dwds 15lexis nexis korpus 7

semtracks

Noah Bubenhofer

Suchbegriffe: Annotation

annotation korpuslinguistik 13annotierte korpora 12korpuslinguistik annotation 10korpuslinguistik tagging 5pos tagger online 7tagset 54korpulinguistik tag sets 5dependenz parser 5

semtracks

Noah Bubenhofer

Suchbegriffe: Unix

unix-befehle name 174unix befehle 13unix mehrere befehle 13unix befehle datei erstellen 8unix befehle pipe 5unix befehle übersicht 5wie oft ein wort in eine datei vorkommt unix 8unix befehle mac os x 7unix befehle mac 5mac os x terminal befehle 9mac os befehle 6mac unix befehle 5

semtracks

Noah Bubenhofer

Suchbegriffe: Statistik

kookkurrenzen 32kookkurrenzanalyse 15kookkurrenzprofil 14kookkurrenz 13

log likelihood test 30log-likelihood 10llr wert 8log likelihood-wert 7log likelihood tabelle 6chi quadrat test signifikant 5signifikanz 8signifikanztest excel 8kontingenztabelle signifikanz 13

darstellungsoptionen konkordanz korpuslinguistik 8

semtracks

Noah Bubenhofer

Nutzerwünsche Fazit

• Suche nach Tools für…

- die Recherche in Korpora

- das Erstellen von Korpora

- das Verwalten von Korpora

- die statistische Analyse

- das Tagging

- die Visualisierung von Daten

• Suche nach Hilfen für die Bedienung der Tools

• Suche nach Ideen und Beispielen für korpuslinguistische Analysen

semtracks

Noah Bubenhofer

Ausblick und Wünsche

semtracks

Noah Bubenhofer

Meine Wünsche (als Dozent)

• Software-Module für unterschiedliche Anwendungen in der Korpuslinguistik

- Korpuserstellung (Textaufbereitung, Web-Download etc.), Verwaltung, Annotation, Analyse, Darstellung

- einheitliche Schnittstellen

- unter Windows/Mac/Unix/Browser lauffähig

- GUI

! „Excel“ für die Korpuslinguistik?

- statistische Analysen

- Unix-Funktionen grep, cat, sort, uniq etc.

semtracks

Noah Bubenhofer

Wichtig

• Studierende motivieren, korpuslinguistisch zu arbeiten

• Angst vor technischen Hürden nehmen

• ermutigen, mit statistischen Methoden zu arbeiten, ohne deswegen Statistik-Guru werden zu müssen

• zeigen, was State-of-the-Art ist, ohne Unrealistisches zu fordern

• anschauliche Beispiele für korpuslinguistische Methoden in unterschiedlichen Bereichen geben

• aber, grundlegend: von Hypothese/Operationalisierung ausgehen und dann prüfen, wie das technisch umgesetzt werden kann

semtracks

Noah Bubenhofer

Kontakt

[email protected]

www.bubenhofer.com

www.semtracks.org