Tübingen-Berlin Korpus Workshop 05.12dm/events/tueber11/slides/odebrecht.pdf · Carolin Odebrecht....

29
Tübingen-Berlin Korpus Workshop 05.12.2011 Lexical Bundles. Eine korpuslinguistische Untersuchung SoSe 2011 Masterarbeit Master of Arts, Linguistik Carolin Odebrecht

Transcript of Tübingen-Berlin Korpus Workshop 05.12dm/events/tueber11/slides/odebrecht.pdf · Carolin Odebrecht....

Tübingen-Berlin Korpus Workshop05.12.2011

Lexical Bundles. Eine korpuslinguistische Untersuchung

SoSe 2011MasterarbeitMaster of Arts, Linguistik

Carolin Odebrecht

Lexical Bundles. Eine korpuslinguistische Untersuchung

1. Einordnung

Lexical Bundle-Studien in der Registerforschung

Viele Studien dazu in der Korpuslinguistik:Biber et al. (1999), Conrad & Biber (2004), Biber,

Conrad & Cortes (2003, 2004), Cortes (2004), Biber (2006), Biber & Barbieri (2007), Tracy-Ventura, Cortes & Biber (2007) …

Fast alle Studien beziehen sich auf die Untersuchungssprache Englisch (Tracy-Ventura, Cortes & Biber (2007) Spanisch).

Lexical Bundles. Eine korpuslinguistische Untersuchung

1. Einordnung

Es wird davon ausgegangen,

'[...] that linguistic features are always functional when considered from a register perspective. That is, linguistic features tend to occur in a register because they are particularly well suited to the purposes and situational context of the register (Biber und Conrad 2009, 6).‘

Hier setzen ebenfalls die LB-Studien an.

Lexical Bundles. Eine korpuslinguistische Untersuchung

1. Einordnung

LB sind per Definition nach Biber et al. (1999, 990):-rekurrent/ frequent-unabhängig von Struktur-unabhängig vom idiomatischen Status-natürlich-sprachlich

� Es erfolgt aber keine Einbettung in eine linguistische Theorie! Was wird hier also untersucht?

Lexical Bundles. Eine korpuslinguistische Untersuchung

1. Einordnung

Forschungsfragen und Ziele der Masterarbeit:

Funktioniert das Konzept LB auch im Deutschen? (höhere Wortstellungsvarianz, Flexion etc.)

Wie lassen sich LB in eine linguistische Theorie einordnen?Besitzen LB Register-unterscheidende Funktionen im Deutschen?Welchen Erkenntnisgewinn über Sprache können LB liefern?

Lexical Bundles. Eine korpuslinguistische Untersuchung

2. Methode/ Datenerhebung

Datenerhebung und -analyse:

1. Datenerhebung 2. Ausschluss von Wortketten3. Strukturelle Klassifikation4. Funktionale Klassifikation5. Vergleich der Verteilungen von LB zwischen Registern

Lexical Bundles. Eine korpuslinguistische Untersuchung

2. Methode/ Datenerhebung

- Korpus-basiert- Token = orthografisches Wort = Einheit im ngram

(Klitika wie wirs gelten als ein Token) - keine Berücksichtigung von Interpunktion- Erhebung der ngrams inkl. Vorkommen (tok-Ebene) - Beschränkung auf Vier-Wortform-Ketten (4grams)- Erstellung von Frequenzlisten - Setzung eines cut-off: Eingrenzung der

Datenmenge, Relevanz

Lexical Bundles. Eine korpuslinguistische Untersuchung

2. Methode/ Datenerhebung

Eigene Datengrundlage:

Korpus aus Einträgen des Forums abgeordnetenwatch.de: 1.429 Texte, 513.759 Token

Korpus aus Redetexten der Plenarprotokolle des Deutschen Bundestages:35 Texte, 2.644.527 Token

- zufällige Auswahl der Texte(16. & 17. Legislaturperiode)- ohne Berücksichtigung thematischer Schwerpunkte oder ähnliches

- bereits für eine andere Fragestellung entworfen - hier nur Einträge von SPD-MdBs (16. & 17. Legislaturperiode)

Lexical Bundles. Eine korpuslinguistische Untersuchung

2. Methode/ Datenerhebung

Auf der anderen Seite (16F) Vereinbarkeit von Familie und (5F)

Es ist völlig klar (11P) eines Gesetztes über die (20P)

bin der festen Überzeugung (16P) werden Auch in diesem (7F)

vor dem Hintergrund der (17F) wird Mit freundlichen Grüßen (47F)

in den letzten Jahren (236P) die sich in der (11P)

an einem Strang ziehen (10P) dass es bei der (17P)

auf den Punkt gebracht (10P) auf Verlangen der Fraktion (26P)

vor allen Dingen auch (17P) so beschlossen Ich rufe (120P)

Eigene Daten mit Angabe des Vorkommens im jeweiligen Korpus, P=Plenarreden, F=Forum abgeordnetenwatch.de

Lexical Bundles. Eine korpuslinguistische Untersuchung

2. Methode/ Datenausschluss

Ausschluss von Satz übergreifenden LB:

werden Auch in diesem (7F)

Kontext: Diese müssen nach der EU-Richtlinie künftig ebenfalls gespeichert werden. Auch in diesem Bereich werden nur Daten über den Internetzugang und […] (Forum abgeordnetenwatch.de)

Lexical Bundles. Eine korpuslinguistische Untersuchung

2. Methode/ Datenausschluss

Ausschluss „lokale Wiederholungen“:

- Mehrwortketten, die direkt mit dem Thema eines Textes im Zusammenhang stehen und daher oft wiederholt werden

- Mehrwortketten, die aufgrund der Interaktion im Diskurs wiederholt werden

- nicht klar, in wie weit „lokal“ lokal ist- keine Dokumentation der Ausschlüsse

Lexical Bundles. Eine korpuslinguistische Untersuchung

2. Methode/ Datenausschluss

Auf der anderen Seite (16F) Vereinbarkeit von Familie und (5F)

Es ist völlig klar (11P) eines Gesetztes über die (20P)

bin der festen Überzeugung (16P) werden Auch in diesem (7F)

vor dem Hintergrund der (17F) wird Mit freundlichen Grüßen (47F)

in den letzten Jahren (236P) die sich in der (11P)

an einem Strang ziehen (10P) dass es bei der (17P)

auf den Punkt gebracht (10P) auf Verlangen der Fraktion (26P)

vor allen Dingen auch (17P) so beschlossen Ich rufe (120P)

Eigene Daten mit Angabe des Vorkommens im jewweiligen Korpus, P=Plenarreden, F=Forum abgeordnetenwatch.de

Lexical Bundles. Eine korpuslinguistische Untersuchung

2. Methode/ Datenausschluss

Vereinbarkeit von Familie und (5F)

eines Gesetzes über die (20P)

werden Auch in diesem (7F)

wird Mit freundlichen Grüßen (47F)

die sich in der (11P)

dass es bei der (17P)

auf Verlangen der Fraktion (26P)

so beschlossen Ich rufe (120P)

Satz-übergreifende Bundles können leicht identifiziert werden.

Der Begriff „lokale Wiederholung“ ist nicht klar genug umrissen, eine Zuordnung kann nur ungenau erfolgen.

Lexical Bundles. Eine korpuslinguistische Untersuchung

2. Methode/ Datenerhebung Überblick

Cut-off: Forum <5, Plenarreden <10Unter Struktureller Ausschluss fielen auch Zeichenfragmente u.ä..

Teilmenge ngram Politikforum Plenarprotokoll

4gram 1705 7403

Lokale Wiederholung

544 1787

StrukturellerAusschluss

702 4439

Lexical Bundle 459 1177

Lexical Bundles. Eine korpuslinguistische Untersuchung

3. Datenklassifikation - Strukturell

Strukturelle Klassifikation

In den verschiedenen Studien unterschiedlich feinkörnig klassifiziert.

Orientierung an grammatischen Korrelaten wie VP, PP, NP und CP.

Ein Blick auf die Daten von Biber, Conrad und Cortes (2004) …

Lexical Bundles. Eine korpuslinguistische Untersuchung

3. Datenklassifikation - Strukturell

I don‘t know if Incorp. dependent clause

if you want to Incorp. dependent clause

It is important to Incorp. VP-fragments

If you look at Incorp. dependent clause

In this chapter we Incorp. NP/PP-fragments

I want to do Incorp. VP-fragments

the nature of the Incorp. NP/PP-fragments

on the basis of the Incorp. NP/PP-fragments

Biber, Conrad und Cortes (2004, 384-388)

Problem: keine Dokumentation aller Zuordnungen nach diesem Klassifikationsschema.

Schwierig:In this chapter we – mehrere unabhängige Konstituenten.

Lexical Bundles. Eine korpuslinguistische Untersuchung

3. Datenklassifikation - Strukturell

I don‘t know if Incorp. dependent clause es sich hier um

if you want to Incorp. dependent clause dass es bei der

It is important to Incorp. VP-fragments an einem Strang ziehen

If you look at Incorp. dependent clause bin der festen Überzeugung

In this chapter we Incorp. NP/PP-fragments Auf der anderen Seite

I want to do Incorp. VP-fragments auf den Punkt gebracht

the nature of the Incorp. NP/PP-fragments vor allen Dingen auch

on the basis of the Incorp. NP/PP-fragments vor dem Hintergrund der

Ab welcher Länge ist ein LB ein LB? Vier-Wortketten? Konsolidierung der Daten?

Lexical Bundles. Eine korpuslinguistische Untersuchung

3. Datenklassifikation - Strukturell

Mittelfeld es sich hier um

CP dass es bei der

VP-based an einem Strang ziehen

VP-based bin der festen Überzeugung

NP-based Auf der anderen Seite

VP-based auf den Punkt gebracht

Mittelfeld vor allen Dingen auch

NP-based vor dem Hintergrund der

Strukturell wird auch zwischen Hauptsatz- und Nebensatzstrukturen sowie zwischen NP- und PP-basierten Wortketten unterschieden.

Lexical Bundles. Eine korpuslinguistische Untersuchung

3. Datenklassifikation - Strukturell

Das Type-Token-Verhältnis ist nicht klar.a) Groß- und Kleinschreibung/Flexion

b) Wortstellungsvarianz

im Zusammenhang mit dem (81P) im Hinblick auf die (187P)

im Zusammenhang mit der (77P) im Hinblick auf den (38P)

Im Zusammenhang mit dem (12P) im Hinblick auf das (26P)

es nicht möglich ist (6F) es ist nicht möglich (6F)

halte ich es für (13F) Ich halte es für (9F)

geht es um die (9F) Es geht um die (8F)

Analyse auf der Lemma-Ebene – Lexical Bundle v.s. Lemma-Bundle?

Varianz zusammenfassen? Funktion von Wortstellung!

Lexical Bundles. Eine korpuslinguistische Untersuchung

3. Datenklassifikation - Funktional

Funktionale Klassifikation

In den verschiedenen Studien unterschiedlich feinkörnig klassifiziert.

Bei fast allen aber drei bis vier Haupttypen:Stance Bundles I don‘t know ifReferential Bundles the nature of theDiscourse Organizer In this chapter weSpecial Conversation thank you very much

Ein weiterer Blick auf die Daten von Biber, Conrad und Cortes (2004) …

Lexical Bundles. Eine korpuslinguistische Untersuchung

3. Datenklassifikation - Funktional

I don‘t know if Stance Bundle, Epistemic, personal

I thought it was Stance Bundle, Epistemic, personal

if you want to Stance Bundle, Desire

It is important to Stance Bundle, Obligation, directive, impersonal

If you look at Discourse Organizer, Topic Introduction/focus

In this chapter we Discourse Organizer, Topic Introduction/focus

I want to do Discourse Organizer, Topic Introduction/focus

the nature of the Referential Bundle, intangible framing attribute

on the basis of the Referential Bundle, intangible framing attribute

was one of the Referential Bundle, Identification, Focus

the end of the Multifunctional Bundle

Frequenzen zwischen 10-100/Millionen Wörter abhängig von Register, Biber, Conrad & Cortes (2004, 384.388)

Lexical Bundles. Eine korpuslinguistische Untersuchung

3. Datenklassifikation - Funktional

es sich hier um ???

dass es bei der ???

an einem Strang ziehen ???

bin der festen Überzeugung Stance Bundle

Auf der anderen Seite Discourse Organizer

auf den Punkt gebracht ???

vor allen Dingen auch Referential Bundle ?

vor dem Hintergrund der Referential Bundle

Keine vollständige, konsistente Klassifikation.

Die Klassifikationen greifen nicht richtig.

Bundles, die schon bei der strukturellen Klassifikation problematisch sind, können hier ebenfalls nicht zugeordnet werden.

Lexical Bundles. Eine korpuslinguistische Untersuchung

3. Datenklassifikation - Funktional

�Topik und Fokus werden bei Biber und Kollegen nicht klar definiert und nur in der Kategorie ‚DiscourseOrganizer‘ diskutiert.

Dennoch:- Referential Bundle Vor dem Hintergrund der

Kontext: Vor dem Hintergrund der Anfragen und der Antworten ist mir heute etwas unverständlich, warum Sie diesen Antrag vorlegen (Plenarprotokoll).

Hier kann das LB auch Topik ausdrücken (vgl. Jacobs 2001).

Lexical Bundles. Eine korpuslinguistische Untersuchung

3. Datenklassifikation - Funktional

�Fokus-sensitive Gradpartikeln werden in den Analysen nicht berücksichtigt.

z.B.: auch im Hinblick auf (klass. Referential Bundle)

Referential Bundle-Funktion: Satz/Phrasen Discourse Organizer-Funktion: Text/globaler Diskurs

Beide können informationsstrukturelle Funktionen besitzen. Möglichkeit: Hierarchische/Domänen-orientierte Klassifikation der Funktionen

Lexical Bundles. Eine korpuslinguistische Untersuchung

4. Diskussion

Eine Reproduktion der LB-Studien ist nicht gelungen.�nicht ausreichend definiertes Konzept von LB, mangelnde Transparenz/Dokumentation

LB sind:

rekurrent/ frequent vor allen Dingen auch (17P)

unabhängig von Struktur ?? die sich in der (11P)

unabhängig von idiomatischen Status ?? an einem Strang ziehen (10P)

natürlich-sprachlicher Natur bin der festen Überzeugung (16P)

Lexical Bundles. Eine korpuslinguistische Untersuchung

4. Diskussion

Wie viel kann über den theoretischen Status von LB ausgesagt werden?Ohne theoretische Einbettung wenig aussagekräftig, was hier eigentlich untersucht wird.

�Konstruktionsgrammatik (u.a. Goldberg 1995, 2006)LB als hoch frequente Form-Bedeutungspaare�Kookkurrenz von LB, Kollokationsbeziehungen� Daten für syntaktische Produktivitätsstudien (Zeldes 2011)� Wissen über LB wichtig für Lerner?! (vgl. Cortes 2004)

Lexical Bundles. Eine korpuslinguistische Untersuchung

Vielen Dank für die Aufmerksamkeit!

Lexical Bundles. Eine korpuslinguistische Untersuchung

Literatur

Literatur:Biber, Douglas (2006). University Language. John Benjamins, Amsterdam [u.a.]..Biber, Douglas und Barbieri, Federica (2007). Lexical bundles in university spoken and

written registers. English for Specic Purposes 26: 263-286.Biber, Douglas und Conrad, Susan (2006). Register, Genre, and Style. Cambridge

University Press, Cambridge [u.a.].Biber, Douglas/ Conrad, Susan und Cortes, Viviana (2004). If you look at ... Lexical Bundles

in University Teaching and Textbooks. Applied Linguistics 25/3: 371-405.Biber, Douglas/ Johansson, Stig/ Leech Georey/ Conrad, Susan und Finegan, Edward

(1999). The Longman Student Grammar of Spoken and Written English. Longman, Harlow.

Conrad, Susan und Biber, Douglas (2004). The Frequency and Use of Lexical Bundles inConversation and Academic Prose. Lexicographica 20: 56-71.

Cortes, Viviana (2004). Lexical Bundles in published and student disciplinary writing.Examples from history and biology. English for Specic Purposes 23: 397-423.

Lexical Bundles. Eine korpuslinguistische Untersuchung

Literatur

Goldberg, Adele (1995). Constructions. A Construction Grammar Approach to Argument Structure. The University of Chicago Press, Chicago [u.a.].

Goldberg, Adele (2006). Constructions at Work. The Nature of Generalization in Language. Oxford University Press, Oxford [u.a.].

Jacobs, Joachim (2001). The dimensions of topic-comment. Linguistics 39: 641-681.Tracy-Ventura, Nicole/ Cortes, Viviana und Biber, Douglas (2007). Lexical bundles in

speech and writing. In Parodi, Giovanni (Hg.). Working with Spanish Corpora. Continuum, London [u.a.]. 217-231.

Zeldes, Amir (2011), On the Productivity and Variability of the Slots in German ComparativeCorrelative Constructions. In Konopka, Marek et al. (Hg.). Grammar and Corpora.Grammatik und Korpora 2009. Third International Conference. Mannheim, 22.-24.09.2009. Tübingen, Narr. 429-449.

Deutscher Bundestag/ Plenarprotokolle:http://www.bundestag.de/dokumente/protokolle/plenarprotokolle/index.htmlForum abgeordnetenwatch.de:http://www.abgeordnetenwatch.de/