Korpuslinguistik

Korpuslinguistik

Ulrich Kaiser-Kaplaner

Was ist Korpuslinguistik?

Korpuslinguistik ist Linguistik basierend auf einer großen Textsammlung = Korpus

KL ist ein Bindeglied zwischen klassischer Linguistik und CL.

Viele CL Anwendungen basieren auf KL KL liefert statistische Informationen für CL

(z.B. für Disambiguierung)

Zwei Forschertypen: 1. Der Denker

Er verbringt die meiste Zeit in seinem Sessel und denkt nach.

Seine Sprachtheorie wird durch Beispiele, die unmittelbar seiner Sprachkompetenz entspringen, bestätigt oder widerlegt.

Zwei Forschertypen: 1. Der Denker

Das Urteil kompetenter Sprecher ist bedeutend (z.B. Aufbau der Grammatik)

Herzlich wenig Interesse für Äußerungen, die tagtäglich produziert werden. Sie sind wenig erleuchtend für seine Theorie.

Noam Chomsky: Scharfsinniger Theoretiker (Universalgrammatik)

Kompetenz vs Performanz

Unter Sprachkompetenz versteht man die Fähigkeit eines Sprechers, wohlgeformte Sätze aufgrund von Sprachregeln zu bilden. Chomsky spricht auch von I(nternalisierter) Sprache und

versteht darunter ein Regelsystem (z. B. Phrasenstrukturregeln und Transformationen), das alle grammatischen Sätze generieren kann und alle ungrammatischen Sätze zurückweist.

Möglichkeit: eine unendliche Menge von Äußerungen hervorzubringen.

Kompetenz vs Performanz

Unter Performanz versteht man die Summe der Sprachäußerungen, die ein Sprecher einer Sprache von sich gibt.

Noam Chomsky spricht auch von E(xternalisierter) Sprache, eine extrem lange Auflistung aller Sätze, die in irgendeinem Kontext je geäußert wurden.

Kompetenz wird auch als Langue, Performanz auch als Parole bezeichnet. (Ferdinand de Saussure)

Zwei Forschertypen: 2. Der Beobachter

Der Beobachter ist an

authentischen Sprachdaten

interessiert:

Je mehr Daten, desto besser. Die Theorien, die er entwickelt, sind auf

Beobachtung dieser Daten gestützt. Großes Interesse an Phänomenen, die in

unserem alltäglichen Sprachgebrauch vorkommen.

Theorie und Empirie

Theoretische Linguisten: Noam Chomsky bezeichnet das Werk der Korpuslinguistik als irrelevant und nutzlos.

Empirisch arbeitende Linguisten: Wer Korpuslinguistik betreibt, dem geht es in erster Linie um das Beobachten und Beschreiben sprachlicher Phänomene.

Definition: Korpus

Ein Korpus ist eine Sammlung schriftlicher oder gesprochener Äußerungen. Die Daten des Korpus sind typischerweise digitalisiert.

Bestandteile: Texte Metadaten (Auskunft über Autoren,Sprecher) linguistische Annotationen (gramm.Funktion)

Definition: Korpuslinguistik

Beschreibung von Äußerungen natürlicher Sprachen, ihrer Elemente und Strukturen

Theoriebildung auf der Grundlage von Analysen authentischer Texte

Gebiete: Sprachunterricht, Sprachdokumentation, Lexikographie etc.

W. Labov (1966): The Social Stratification of English in New York City

Kritik am Wert von Korpusdaten

Repräsentativität Relevanz der Daten unvollständige Datenabdeckung Verlässlichkeit der Daten Wie geht man mit der Existenz nicht

wohlgeformter Äußerungen und mit dem Fehlen wohlgeformter Äußerungen um?

-> Sprecherbefragungen

Kontextualismus

Linguistische Erkenntnis geht vom Sprachgebrauch aus

John Sinclair: ehemaliger Chefredakteur des Collins Cobuild English Dictionary

Ko- und Kontext spielen für die Untersuchung sprachlicher Handlungen eine zentrale Rolle

John Rupert Firth (1890-1960)

Ko- und Kontext: John Rupert Firth Ko- und Kontext: John Rupert Firth

Kontext: Summe der unmittelbaren Rahmenbedingungen einer Sprachhandlung

Kultureller Kontext: steuert die Art und Weise, wie Sprecher sprachliche Handlungen wahrnehmen.

Situativer Kontext: determiniert die Funktion einer konkreten sprachlichen Handlung: Ort, Zeit und die Beteiligten

Der Kotext einer linguistischen Einheit ist die Menge der linguistischen Einheiten, die im gleichen Text verwendet wurden.

Firth: Kotext von Wörtern und Sätzen auf vier Ebenen untersucht:

Phonetik u. Phonologie, Morphologie, Syntax und Lexik.

Kollokation: das faktische Miteinandervorkommen zweier oder mehrerer beliebiger Wörter W+W

Ko- und Kontext: John Rupert Firth Ko- und Kontext: John Rupert Firth

Korpusbasierte Ansätze

Wir unterscheiden drei Ansätze in der Korpusanalyse

Der korpusbasierte, quantitative Ansatz Kein Theoretischer Rahmen Extrem empirisch Korpus in Rohform Verarbeitung gesprochener Sprache,

statistische Sprachmodelle (Landauer, Jelinek)


Korpusbasiert, quantitativ und qualitativ: Theoretischer Rahmen: Kontextualismus

(Firth und Sinclair) Korpus in Rohform (nicht linguistisch

annotiert) Kollokator-Paare -> Semantik Anwendungsgebiet: Lexikographie,

Sprachunterricht, Übersetzungswissenschaft


Korpusgestütz: Strukturalismus (Saussure), Generative

Grammatik (Chomsky), rationalistisch Linguistisch annotiertes Korpus Von den theoretischen Aussagen ausgehend Domäne: Syntax Anwendung: Lexikographie, theoretische L.

Korpuslinguistik in der Praxis

Erstellen eines Korpus Vorhandene Korpora: British National Corpus Wahl der Texte:

Welche Texte nehme ich? -> Qualität:gemeinsames Thema, gemeinsames Medium,

Wieviele Texte brauche ich? ->Quantität

Textdateien

Dateien sollte in Textdateine umgewandelt werden. MS Word Dateien (*.DOC) sollten vermieden werden.

*.TXT Dateien erstellen: MS Word öffnen, dann unter „Datei“->“Speichern unter“ und „Nur Text“ auswählen -> Name eingeben und speichern.

Texte separat abspeichern (um Teile einzeln analysieren zu können -> qualitativ)

Textdateien

Erstellen eines Korpus

Texte aus dem Internet: Kopieren und Einfügen in MS Word. Bilder und Graphiken können ignoriert werden, weil sie beim Umwandeln in *TEXT ohnehin verloren gehen.

Gedruckte Texte einscannen mit Hilfe von OCR-Software (Optical Character Recognition)

Text annotieren

Annotationen werden als solche vom Programm markiert: nicht zugehörig zum regulären Text

Beginn eines Absatzes mit: <p> markieren Ende eines Absatzes mit: </p> markieren Italics: <i> und </i> Überschriften: <t> und </t> Zitate: <q> und </q>

Text annotieren

Zusätzliche Infos : <head> und </head> (z.B. Herkunft und Alter des Autors)

WORD SMITH 3.0

Programm zur Analyse elektronischer Textkorpora, liefert Infos über die wichtigsten und meistverwendeten Wörter und über die Umgebung, in der sie vorkommen

Wordlister: Alle Wörter eines Korpus werden aufgelistet, Statistische Informationen

Word Smith 3.0

Um zu starten: Auf das grüne Licht klicken und dann „Choose texts“. Das folgende Fenster wird geöffnet:

Word Smith 3.0 Choose Texts

Klicken auf „Make a word list now“

Word list: alphabetisch geordnet

Word list geordnet nach Frequenz

Word list: statistische Information

Word Smith 3.0 Word list [S]

Types: unterschiedliche Wörter Tokens: einzelne Vorkommen eines Wortes Die Reihe love love love beinhaltet

beispielsweise 1 Type und 3 Tokens Ein Wort wird als eine Aneinanderreihung

von Buchstaben definiert: door und doors sind zwei unterschiedliche Wörter

Stop List

Wie in der frequency list ersichtlich ist, sind die häufigsten Wörter gramatische Wörter, wie Artikel und Pronomen. Um sich auf Inhaltswörter konzentrieren zu können, gibt es Stop lists.

Stop Lists beinhalten alle Wörter, die vom Programm ignoriert werden sollen.

Klick auf „Settings“, „Stoplist“ dann „Browse“ um die Stop list zu lokalisieren, „Activated“ Box muss ein Hackerl haben und dann auf „Browse“

Stop List

Word list mit Inhaltswörtern (Verwendung einer stoplist)

Clusters

„Settings“-> auf irgend ein Element klicken, dann auf den Tab mit Wordlist klicken,

-> dann auf CLUSTERS klicken: und die gesuchte Länge der Clusters eingeben: (hier im Beispiel 4)

Nun werden die häufigsten 4-Wort-Kombinationen angezeigt. „Activated box“ anklicken und auf „OK“ gehen.

Clusters

Clusters im Intelligent Design Corpus

Wähle zuerst die Texte aus (wie im Word lister) und

gehe auf „Specify Search-Word“

Welche Wörter kommen unmittelbar in der Umgebung des Suchwortes vor? Klick auf „Horizons, etc.

Presentation-Outline• Background information about the social

problems of African girls and HIV infection• African girls’ conception of HIV Risk • “Sugar daddy”: a conceptual metaphor• Indepth-Analysis of one text• Textual events• Text populations • Picture Analysis• Ideological functions and conclusions

My “Rape myths” corpus

Number of texts

26

Tokens 15.562

Types 3.052

Type/Token Ratio Standardised

19,61

Thank you for your attention!

Korpuslinguistik

Documents

Transcript of Korpuslinguistik