Korpuslinguistik

43
Korpuslinguistik Ulrich Kaiser- Kaplaner

description

Korpuslinguistik. Ulrich Kaiser-Kaplaner. Was ist Korpuslinguistik?. Korpuslinguistik ist Linguistik basierend auf einer großen Textsammlung = Korpus KL ist ein Bindeglied zwischen klassischer Linguistik und CL. Viele CL Anwendungen basieren auf KL - PowerPoint PPT Presentation

Transcript of Korpuslinguistik

Page 1: Korpuslinguistik

Korpuslinguistik

Ulrich Kaiser-Kaplaner

Page 2: Korpuslinguistik

Was ist Korpuslinguistik?

Korpuslinguistik ist Linguistik basierend auf einer großen Textsammlung = Korpus

KL ist ein Bindeglied zwischen klassischer Linguistik und CL.

Viele CL Anwendungen basieren auf KL KL liefert statistische Informationen für CL

(z.B. für Disambiguierung)

Page 3: Korpuslinguistik

Zwei Forschertypen: 1. Der Denker

Er verbringt die meiste Zeit in seinem Sessel und denkt nach.

Seine Sprachtheorie wird durch Beispiele, die unmittelbar seiner Sprachkompetenz entspringen, bestätigt oder widerlegt.

Page 4: Korpuslinguistik

Zwei Forschertypen: 1. Der Denker

Das Urteil kompetenter Sprecher ist bedeutend (z.B. Aufbau der Grammatik)

Herzlich wenig Interesse für Äußerungen, die tagtäglich produziert werden. Sie sind wenig erleuchtend für seine Theorie.

Noam Chomsky: Scharfsinniger Theoretiker (Universalgrammatik)

Page 5: Korpuslinguistik

Kompetenz vs Performanz

Unter Sprachkompetenz versteht man die Fähigkeit eines Sprechers, wohlgeformte Sätze aufgrund von Sprachregeln zu bilden. Chomsky spricht auch von I(nternalisierter) Sprache und

versteht darunter ein Regelsystem (z. B. Phrasenstrukturregeln und Transformationen), das alle grammatischen Sätze generieren kann und alle ungrammatischen Sätze zurückweist.

Möglichkeit: eine unendliche Menge von Äußerungen hervorzubringen.

Page 6: Korpuslinguistik

Kompetenz vs Performanz

Unter Performanz versteht man die Summe der Sprachäußerungen, die ein Sprecher einer Sprache von sich gibt.

Noam Chomsky spricht auch von E(xternalisierter) Sprache, eine extrem lange Auflistung aller Sätze, die in irgendeinem Kontext je geäußert wurden.

Kompetenz wird auch als Langue, Performanz auch als Parole bezeichnet. (Ferdinand de Saussure)

Page 7: Korpuslinguistik

Zwei Forschertypen: 2. Der Beobachter

Der Beobachter ist an

authentischen Sprachdaten

interessiert:

Je mehr Daten, desto besser. Die Theorien, die er entwickelt, sind auf

Beobachtung dieser Daten gestützt. Großes Interesse an Phänomenen, die in

unserem alltäglichen Sprachgebrauch vorkommen.

Page 8: Korpuslinguistik

Theorie und Empirie

Theoretische Linguisten: Noam Chomsky bezeichnet das Werk der Korpuslinguistik als irrelevant und nutzlos.

Empirisch arbeitende Linguisten: Wer Korpuslinguistik betreibt, dem geht es in erster Linie um das Beobachten und Beschreiben sprachlicher Phänomene.

Page 9: Korpuslinguistik

Definition: Korpus

Ein Korpus ist eine Sammlung schriftlicher oder gesprochener Äußerungen. Die Daten des Korpus sind typischerweise digitalisiert.

Bestandteile: Texte Metadaten (Auskunft über Autoren,Sprecher) linguistische Annotationen (gramm.Funktion)

Page 10: Korpuslinguistik

Definition: Korpuslinguistik

Beschreibung von Äußerungen natürlicher Sprachen, ihrer Elemente und Strukturen

Theoriebildung auf der Grundlage von Analysen authentischer Texte

Gebiete: Sprachunterricht, Sprachdokumentation, Lexikographie etc.

W. Labov (1966): The Social Stratification of English in New York City

Page 11: Korpuslinguistik

Kritik am Wert von Korpusdaten

Repräsentativität Relevanz der Daten unvollständige Datenabdeckung Verlässlichkeit der Daten Wie geht man mit der Existenz nicht

wohlgeformter Äußerungen und mit dem Fehlen wohlgeformter Äußerungen um?

-> Sprecherbefragungen

Page 12: Korpuslinguistik

Kontextualismus

Linguistische Erkenntnis geht vom Sprachgebrauch aus

John Sinclair: ehemaliger Chefredakteur des Collins Cobuild English Dictionary

Ko- und Kontext spielen für die Untersuchung sprachlicher Handlungen eine zentrale Rolle

John Rupert Firth (1890-1960)

Page 13: Korpuslinguistik

Ko- und Kontext: John Rupert Firth Ko- und Kontext: John Rupert Firth

Kontext: Summe der unmittelbaren Rahmenbedingungen einer Sprachhandlung

Kultureller Kontext: steuert die Art und Weise, wie Sprecher sprachliche Handlungen wahrnehmen.

Situativer Kontext: determiniert die Funktion einer konkreten sprachlichen Handlung: Ort, Zeit und die Beteiligten

Page 14: Korpuslinguistik

Der Kotext einer linguistischen Einheit ist die Menge der linguistischen Einheiten, die im gleichen Text verwendet wurden.

Firth: Kotext von Wörtern und Sätzen auf vier Ebenen untersucht:

Phonetik u. Phonologie, Morphologie, Syntax und Lexik.

Kollokation: das faktische Miteinandervorkommen zweier oder mehrerer beliebiger Wörter W+W

Ko- und Kontext: John Rupert Firth Ko- und Kontext: John Rupert Firth

Page 15: Korpuslinguistik

Korpusbasierte Ansätze

Wir unterscheiden drei Ansätze in der Korpusanalyse

Der korpusbasierte, quantitative Ansatz Kein Theoretischer Rahmen Extrem empirisch Korpus in Rohform Verarbeitung gesprochener Sprache,

statistische Sprachmodelle (Landauer, Jelinek)

Page 16: Korpuslinguistik

Korpusbasierte Ansätze

Korpusbasiert, quantitativ und qualitativ: Theoretischer Rahmen: Kontextualismus

(Firth und Sinclair) Korpus in Rohform (nicht linguistisch

annotiert) Kollokator-Paare -> Semantik Anwendungsgebiet: Lexikographie,

Sprachunterricht, Übersetzungswissenschaft

Page 17: Korpuslinguistik

Korpusbasierte Ansätze

Korpusgestütz: Strukturalismus (Saussure), Generative

Grammatik (Chomsky), rationalistisch Linguistisch annotiertes Korpus Von den theoretischen Aussagen ausgehend Domäne: Syntax Anwendung: Lexikographie, theoretische L.

Page 18: Korpuslinguistik

Korpuslinguistik in der Praxis

Erstellen eines Korpus Vorhandene Korpora: British National Corpus Wahl der Texte:

Welche Texte nehme ich? -> Qualität:gemeinsames Thema, gemeinsames Medium,

Wieviele Texte brauche ich? ->Quantität

Page 19: Korpuslinguistik

Textdateien

Dateien sollte in Textdateine umgewandelt werden. MS Word Dateien (*.DOC) sollten vermieden werden.

*.TXT Dateien erstellen: MS Word öffnen, dann unter „Datei“->“Speichern unter“ und „Nur Text“ auswählen -> Name eingeben und speichern.

Texte separat abspeichern (um Teile einzeln analysieren zu können -> qualitativ)

Page 20: Korpuslinguistik

Textdateien

Page 21: Korpuslinguistik

Erstellen eines Korpus

Texte aus dem Internet: Kopieren und Einfügen in MS Word. Bilder und Graphiken können ignoriert werden, weil sie beim Umwandeln in *TEXT ohnehin verloren gehen.

Gedruckte Texte einscannen mit Hilfe von OCR-Software (Optical Character Recognition)

Page 22: Korpuslinguistik

Text annotieren

Annotationen werden als solche vom Programm markiert: nicht zugehörig zum regulären Text

Beginn eines Absatzes mit: <p> markieren Ende eines Absatzes mit: </p> markieren Italics: <i> und </i> Überschriften: <t> und </t> Zitate: <q> und </q>

Page 23: Korpuslinguistik

Text annotieren

Zusätzliche Infos : <head> und </head> (z.B. Herkunft und Alter des Autors)

Page 24: Korpuslinguistik

WORD SMITH 3.0

Programm zur Analyse elektronischer Textkorpora, liefert Infos über die wichtigsten und meistverwendeten Wörter und über die Umgebung, in der sie vorkommen

Wordlister: Alle Wörter eines Korpus werden aufgelistet, Statistische Informationen

Page 25: Korpuslinguistik

Word Smith 3.0

Um zu starten: Auf das grüne Licht klicken und dann „Choose texts“. Das folgende Fenster wird geöffnet:

Page 26: Korpuslinguistik

Word Smith 3.0 Choose Texts

Page 27: Korpuslinguistik

Klicken auf „Make a word list now“

Page 28: Korpuslinguistik

Word list: alphabetisch geordnet

Page 29: Korpuslinguistik

Word list geordnet nach Frequenz

Page 30: Korpuslinguistik

Word list: statistische Information

Page 31: Korpuslinguistik

Word Smith 3.0 Word list [S]

Types: unterschiedliche Wörter Tokens: einzelne Vorkommen eines Wortes Die Reihe love love love beinhaltet

beispielsweise 1 Type und 3 Tokens Ein Wort wird als eine Aneinanderreihung

von Buchstaben definiert: door und doors sind zwei unterschiedliche Wörter

Page 32: Korpuslinguistik

Stop List

Wie in der frequency list ersichtlich ist, sind die häufigsten Wörter gramatische Wörter, wie Artikel und Pronomen. Um sich auf Inhaltswörter konzentrieren zu können, gibt es Stop lists.

Stop Lists beinhalten alle Wörter, die vom Programm ignoriert werden sollen.

Klick auf „Settings“, „Stoplist“ dann „Browse“ um die Stop list zu lokalisieren, „Activated“ Box muss ein Hackerl haben und dann auf „Browse“

Page 33: Korpuslinguistik

Stop List

Page 34: Korpuslinguistik

Word list mit Inhaltswörtern (Verwendung einer stoplist)

Page 35: Korpuslinguistik

Clusters

„Settings“-> auf irgend ein Element klicken, dann auf den Tab mit Wordlist klicken,

-> dann auf CLUSTERS klicken: und die gesuchte Länge der Clusters eingeben: (hier im Beispiel 4)

Nun werden die häufigsten 4-Wort-Kombinationen angezeigt. „Activated box“ anklicken und auf „OK“ gehen.

Page 36: Korpuslinguistik

Clusters

Page 37: Korpuslinguistik

Clusters im Intelligent Design Corpus

Page 38: Korpuslinguistik

Wähle zuerst die Texte aus (wie im Word lister) und

gehe auf „Specify Search-Word“

Page 39: Korpuslinguistik

Welche Wörter kommen unmittelbar in der Umgebung des Suchwortes vor? Klick auf „Horizons, etc.

Page 40: Korpuslinguistik
Page 41: Korpuslinguistik

Presentation-Outline• Background information about the social

problems of African girls and HIV infection• African girls’ conception of HIV Risk • “Sugar daddy”: a conceptual metaphor• Indepth-Analysis of one text• Textual events• Text populations • Picture Analysis• Ideological functions and conclusions

Page 42: Korpuslinguistik

My “Rape myths” corpus

Number of texts

26

Tokens 15.562

Types 3.052

Type/Token Ratio Standardised

19,61

Page 43: Korpuslinguistik

Thank you for your attention!