Korpuslinguistik
description
Transcript of Korpuslinguistik
Korpuslinguistik
Ulrich Kaiser-Kaplaner
Was ist Korpuslinguistik?
Korpuslinguistik ist Linguistik basierend auf einer großen Textsammlung = Korpus
KL ist ein Bindeglied zwischen klassischer Linguistik und CL.
Viele CL Anwendungen basieren auf KL KL liefert statistische Informationen für CL
(z.B. für Disambiguierung)
Zwei Forschertypen: 1. Der Denker
Er verbringt die meiste Zeit in seinem Sessel und denkt nach.
Seine Sprachtheorie wird durch Beispiele, die unmittelbar seiner Sprachkompetenz entspringen, bestätigt oder widerlegt.
Zwei Forschertypen: 1. Der Denker
Das Urteil kompetenter Sprecher ist bedeutend (z.B. Aufbau der Grammatik)
Herzlich wenig Interesse für Äußerungen, die tagtäglich produziert werden. Sie sind wenig erleuchtend für seine Theorie.
Noam Chomsky: Scharfsinniger Theoretiker (Universalgrammatik)
Kompetenz vs Performanz
Unter Sprachkompetenz versteht man die Fähigkeit eines Sprechers, wohlgeformte Sätze aufgrund von Sprachregeln zu bilden. Chomsky spricht auch von I(nternalisierter) Sprache und
versteht darunter ein Regelsystem (z. B. Phrasenstrukturregeln und Transformationen), das alle grammatischen Sätze generieren kann und alle ungrammatischen Sätze zurückweist.
Möglichkeit: eine unendliche Menge von Äußerungen hervorzubringen.
Kompetenz vs Performanz
Unter Performanz versteht man die Summe der Sprachäußerungen, die ein Sprecher einer Sprache von sich gibt.
Noam Chomsky spricht auch von E(xternalisierter) Sprache, eine extrem lange Auflistung aller Sätze, die in irgendeinem Kontext je geäußert wurden.
Kompetenz wird auch als Langue, Performanz auch als Parole bezeichnet. (Ferdinand de Saussure)
Zwei Forschertypen: 2. Der Beobachter
Der Beobachter ist an
authentischen Sprachdaten
interessiert:
Je mehr Daten, desto besser. Die Theorien, die er entwickelt, sind auf
Beobachtung dieser Daten gestützt. Großes Interesse an Phänomenen, die in
unserem alltäglichen Sprachgebrauch vorkommen.
Theorie und Empirie
Theoretische Linguisten: Noam Chomsky bezeichnet das Werk der Korpuslinguistik als irrelevant und nutzlos.
Empirisch arbeitende Linguisten: Wer Korpuslinguistik betreibt, dem geht es in erster Linie um das Beobachten und Beschreiben sprachlicher Phänomene.
Definition: Korpus
Ein Korpus ist eine Sammlung schriftlicher oder gesprochener Äußerungen. Die Daten des Korpus sind typischerweise digitalisiert.
Bestandteile: Texte Metadaten (Auskunft über Autoren,Sprecher) linguistische Annotationen (gramm.Funktion)
Definition: Korpuslinguistik
Beschreibung von Äußerungen natürlicher Sprachen, ihrer Elemente und Strukturen
Theoriebildung auf der Grundlage von Analysen authentischer Texte
Gebiete: Sprachunterricht, Sprachdokumentation, Lexikographie etc.
W. Labov (1966): The Social Stratification of English in New York City
Kritik am Wert von Korpusdaten
Repräsentativität Relevanz der Daten unvollständige Datenabdeckung Verlässlichkeit der Daten Wie geht man mit der Existenz nicht
wohlgeformter Äußerungen und mit dem Fehlen wohlgeformter Äußerungen um?
-> Sprecherbefragungen
Kontextualismus
Linguistische Erkenntnis geht vom Sprachgebrauch aus
John Sinclair: ehemaliger Chefredakteur des Collins Cobuild English Dictionary
Ko- und Kontext spielen für die Untersuchung sprachlicher Handlungen eine zentrale Rolle
John Rupert Firth (1890-1960)
Ko- und Kontext: John Rupert Firth Ko- und Kontext: John Rupert Firth
Kontext: Summe der unmittelbaren Rahmenbedingungen einer Sprachhandlung
Kultureller Kontext: steuert die Art und Weise, wie Sprecher sprachliche Handlungen wahrnehmen.
Situativer Kontext: determiniert die Funktion einer konkreten sprachlichen Handlung: Ort, Zeit und die Beteiligten
Der Kotext einer linguistischen Einheit ist die Menge der linguistischen Einheiten, die im gleichen Text verwendet wurden.
Firth: Kotext von Wörtern und Sätzen auf vier Ebenen untersucht:
Phonetik u. Phonologie, Morphologie, Syntax und Lexik.
Kollokation: das faktische Miteinandervorkommen zweier oder mehrerer beliebiger Wörter W+W
Ko- und Kontext: John Rupert Firth Ko- und Kontext: John Rupert Firth
Korpusbasierte Ansätze
Wir unterscheiden drei Ansätze in der Korpusanalyse
Der korpusbasierte, quantitative Ansatz Kein Theoretischer Rahmen Extrem empirisch Korpus in Rohform Verarbeitung gesprochener Sprache,
statistische Sprachmodelle (Landauer, Jelinek)
Korpusbasierte Ansätze
Korpusbasiert, quantitativ und qualitativ: Theoretischer Rahmen: Kontextualismus
(Firth und Sinclair) Korpus in Rohform (nicht linguistisch
annotiert) Kollokator-Paare -> Semantik Anwendungsgebiet: Lexikographie,
Sprachunterricht, Übersetzungswissenschaft
Korpusbasierte Ansätze
Korpusgestütz: Strukturalismus (Saussure), Generative
Grammatik (Chomsky), rationalistisch Linguistisch annotiertes Korpus Von den theoretischen Aussagen ausgehend Domäne: Syntax Anwendung: Lexikographie, theoretische L.
Korpuslinguistik in der Praxis
Erstellen eines Korpus Vorhandene Korpora: British National Corpus Wahl der Texte:
Welche Texte nehme ich? -> Qualität:gemeinsames Thema, gemeinsames Medium,
Wieviele Texte brauche ich? ->Quantität
Textdateien
Dateien sollte in Textdateine umgewandelt werden. MS Word Dateien (*.DOC) sollten vermieden werden.
*.TXT Dateien erstellen: MS Word öffnen, dann unter „Datei“->“Speichern unter“ und „Nur Text“ auswählen -> Name eingeben und speichern.
Texte separat abspeichern (um Teile einzeln analysieren zu können -> qualitativ)
Textdateien
Erstellen eines Korpus
Texte aus dem Internet: Kopieren und Einfügen in MS Word. Bilder und Graphiken können ignoriert werden, weil sie beim Umwandeln in *TEXT ohnehin verloren gehen.
Gedruckte Texte einscannen mit Hilfe von OCR-Software (Optical Character Recognition)
Text annotieren
Annotationen werden als solche vom Programm markiert: nicht zugehörig zum regulären Text
Beginn eines Absatzes mit: <p> markieren Ende eines Absatzes mit: </p> markieren Italics: <i> und </i> Überschriften: <t> und </t> Zitate: <q> und </q>
Text annotieren
Zusätzliche Infos : <head> und </head> (z.B. Herkunft und Alter des Autors)
WORD SMITH 3.0
Programm zur Analyse elektronischer Textkorpora, liefert Infos über die wichtigsten und meistverwendeten Wörter und über die Umgebung, in der sie vorkommen
Wordlister: Alle Wörter eines Korpus werden aufgelistet, Statistische Informationen
Word Smith 3.0
Um zu starten: Auf das grüne Licht klicken und dann „Choose texts“. Das folgende Fenster wird geöffnet:
Word Smith 3.0 Choose Texts
Klicken auf „Make a word list now“
Word list: alphabetisch geordnet
Word list geordnet nach Frequenz
Word list: statistische Information
Word Smith 3.0 Word list [S]
Types: unterschiedliche Wörter Tokens: einzelne Vorkommen eines Wortes Die Reihe love love love beinhaltet
beispielsweise 1 Type und 3 Tokens Ein Wort wird als eine Aneinanderreihung
von Buchstaben definiert: door und doors sind zwei unterschiedliche Wörter
Stop List
Wie in der frequency list ersichtlich ist, sind die häufigsten Wörter gramatische Wörter, wie Artikel und Pronomen. Um sich auf Inhaltswörter konzentrieren zu können, gibt es Stop lists.
Stop Lists beinhalten alle Wörter, die vom Programm ignoriert werden sollen.
Klick auf „Settings“, „Stoplist“ dann „Browse“ um die Stop list zu lokalisieren, „Activated“ Box muss ein Hackerl haben und dann auf „Browse“
Stop List
Word list mit Inhaltswörtern (Verwendung einer stoplist)
Clusters
„Settings“-> auf irgend ein Element klicken, dann auf den Tab mit Wordlist klicken,
-> dann auf CLUSTERS klicken: und die gesuchte Länge der Clusters eingeben: (hier im Beispiel 4)
Nun werden die häufigsten 4-Wort-Kombinationen angezeigt. „Activated box“ anklicken und auf „OK“ gehen.
Clusters
Clusters im Intelligent Design Corpus
Wähle zuerst die Texte aus (wie im Word lister) und
gehe auf „Specify Search-Word“
Welche Wörter kommen unmittelbar in der Umgebung des Suchwortes vor? Klick auf „Horizons, etc.
Presentation-Outline• Background information about the social
problems of African girls and HIV infection• African girls’ conception of HIV Risk • “Sugar daddy”: a conceptual metaphor• Indepth-Analysis of one text• Textual events• Text populations • Picture Analysis• Ideological functions and conclusions
My “Rape myths” corpus
Number of texts
26
Tokens 15.562
Types 3.052
Type/Token Ratio Standardised
19,61
Thank you for your attention!