KOHTPACTHBHblE HCCJIE^OBAHMB rPAMMATMHECKHX … · KOHTPACTHBHblE HCCJIE^OBAHMB rPAMMATMHECKHX...

KOHTPACTHBHblE HCCJIE^OBAHMB rPAMMATMHECKHX KATErOPHH

Trawinski B. Messung der Distanz, zwischen grammatischen Kategorien im sprachübergreifenden Kontext

AuHomaifi/x. B npononweHHe anci<yccnn o npuMeHeHHH tj)opManbHbix rpaMMaTHHecKHx KareropHH b conocTaBHTeabHOM H3yueHnn H3biK0B (cm . XacnejibMaT 2007, 2010a,6 h HbioMeaep 2007, 2010) b CTaTbe CTaBHTCH Bonpoc o HajiMHHH BceoxBaTbiBatomax rpaMMaTHHecKHx KaTeropnu (BepHee, Bbipa>KeHHH KaTeropnä), hh mm h cnoBaMH, B3anM03aMeHneMbi ji h nojiHOLieHHO rpaMMaTrmecKHe KaxeropHH KOHKperabix h 3ukob ripn h x conocTaBJieHHH, HacKOJibKO o h h c x o >k h h jih pa3JiHMHbi. I (cabio cTaTbH HBiuieTcsi npeflCTaBHTb Mcroa onpeaeneHHH cTeneHH 3KBHBajieHTHOCTH rpaMMaTHHeCKHX KaTerOpHH B pa3JIHMHbIX H3bIKaX, HTO noKa3biBaeTCH Ha npHMepe HMnepaTMBa b h cm c u k o m, aHrjiHHCKOM, nojTbCKOM h HeillCKOM H iblK'aX.

K.voueebie cjioea: CTeneHb 3KBHBajieHTHOCTH, BceoxBaTbiBaroiuHerpaMMaTHHecKne KaTeropua, rpaMMaTHHecae KaTeropHH KOHKpeTHbix H3biKOB, B3biKOBoe cpaBHeHHe.

Zusammenfassung. Der Aufsatz knüpft an die Diskussion zur Verwendung von formalen grammatischen Kategorien im Sprachvergleich an (vgl. insbesondere Haspelmath 2007, 2010a, b und Newmeyer 2007, 2010). Es wird dabei nicht danach gefragt, ob sprachübergreifende grammatische Kategorien (oder genauer gesagt Kategorienausprägungen) existieren oder nicht bzw. ob einzelsprachliche grammatische Kategorien im Sprachvergleich sinnvoll einsetzbar sind, sondern wie ähnlich bzw. unterschiedlich einzelsprachliche Kategorien bzw. Kategorisierungen sind. Das Ziel ist damit, eine Methode zur Messung des Äquivalenzgrades von grammatischen Kategorien in verschiedenen Sprachen zu präsentieren; dies wird am Beispiel des IMPERATIVS im Deutschen, Englischen, Polnischen und Tschechischen illustriert.

Schlüsselwörter: Äquivalenzgrad, sprachübergreifende grammatische Kategorien, einzelsprachliche Kategorien, Sprachvergleich.

1. EinführungDer vorliegende Aufsatz knüpft an die Diskussion zur Verwendung von formalen

grammatischen Kategorien im Sprachvergleich an (vgl. insbesondere Haspelmath 2007. 2010a, b und Newmeyer 2007, 2010). Es wird dabei nicht danach gefragt, ob sprachübergreifende grammatische Kategorien (oder genauer gesagt Kategorienausprägungen) existieren oder nicht bzw. ob einzelsprachliche grammatische Kategorien im Sprachvergleich sinnvoll einsetzbar sind, sondern wie ähnlich bzw. unterschiedlich einzelsprachliche Kategorien bzw. Kategorisierungen sind. Das Ziel ist damit, eine Methode zur Messung des Äquivalenzgrades von grammatischen Kategorien in verschiedenen Sprachen zu präsentieren; dies wird am

116

Erschienen in: Grammatičeskie kategorii v kontrastivnom aspekte: Sbornik naučnych statej po materialam meždunarodnoj konferencii (11-14 maja 2016 g.). V 2. č. Č. 1. – M.: MGPU, 2016. S.

116 - 120.

Beispiel des IMPERATIVS im Deutschen, Englischen, Polnischen und Tschechischen illustriert.2. Die konzeptionellen und methodischen Annahmen

Der hier vorgeschlagene gebrauchsbasierte Ansatz stützt sich auf die sogenannteDistributionshypothese, die besagt, dass sprachliche Einheiten (herkömmlich Wörter), die in den gleichen Kontexten Vorkommen bzw. verwendet werden (das heißt, die gleiche Distribution aufweisen), eine ähnliche Bedeutung bzw. Funktion haben (Wittgenstein 1953, Firth 1957, Harris 1954). Aufbauend auf der Distributionshypothese werden grammatische Kategorien mittels ihrer Kookkurenz mit lexikalischem und grammatischem Material beschrieben. DieKookkurenzkontexte können potentiell im Bezug auf eine beliebige sprachliche Ebene definiert werden; hier wird die Wortform als die zugrundeliegende kontextuelle Domäne festgelegt. Somit wird die Funktion einer grammatischen Kategorie (im Sinne von syntagmatischen Relationen) als die Häufigkeit des Vorkommens dieser Kategorie mit Lexemen und mit anderen grammatischen Kategorien innerhalb einzelner Wortformen operationalisiert. Das Distributionsprofil einer grammatischen Kategorie wird als ein Vektor in einem multidimensionalen Raum repräsentiert. Die Dimension des Vektorraumes selbst ist durch die Anzahl der Kookkurenzkontexte determiniert. Wenn zwei oder mehr Vektoren in einem n- dimensionalen Raum vorhanden sind, kann mithilfe von Techniken und Algorithmen aus der Geometrie und der linearen Algebra der Abstand zwischen den Vektoren gemessen werden. Basierend auf geeigneten Messverfahren können schließlich die Daten geclustert und interpretiert werden. Das Beispiel einer Fallstudie illustriert das Verfahren zur Messung der Ähnlichkeiten zwischen grammatischen Kategorien, angewendet auf die Kategorie IMPERATIV.3. Fallstudie zur Kategorie IMPERATIV

Im Folgenden vergleichen wir die Kategorie des IMPERATIVS im Deutschen,Englischen, Polnischen und Tschechischen und gehen der Fragestellung nach, wie ähnlich bzw. unterschiedlich (im distributioneilen Sinne) die einzelsprachlichen IMPERATIVE sind. Die Sprachenauswahl ist dabei nicht zufällig, sondern durch die Möglichkeit bedingt, zwei Paare von eng verwanden Sprachen und vier Paare von weniger eng verwandten Sprachen einem Vergleich unterziehen zu können. Die Erwartung ist, dass die Ähnlichkeit zwischen den IMPERATIVEN in den enger verwandten Sprachen größer ist als die Ähnlichkeit zwischen den IMPERATIVEN in den weniger eng verwandten Sprachen.

Der IMPERATIV gehört zum Modusparadigma der hier untersuchten Sprachen, kann aber sowohl am Verb grammatikalisiert (synthetische Verbform) oder periphrastisch (analytische Verbform) (vgl. die /et-Konstruktionen im Englischen, /assew-Konstruktion im Deutschen, «/ec/;-Konstruktionen im Polnischen und necht’- Konstruktionen im Tschechischen) ausgedrückt werden. Darüber hinaus gibt es syntaktisch komplexe imperativische Höflichkeitsformen, wie z.B. das deutsche Kommen Sie! oder dessen polnische Entsprechung Pros:% przyjsc! Diese Studie konzentriert sich ausschließlich auf IMPERATI V-Formen, die am Verb grammatikalisiert und damit synthetische Verbformen sind.

Die Distribution des IMPERATIVS variiert zwischen einem (im Englischen)

117

und acht (im Tschechischen) grammatischen Kontexten (auf der Wortformebene), die die folgenden Kategorien umfassen: Singular (SG), Plural (PL), 1. Person (IP), 2. Person (2P), Perfektiv (PF), Imperfektiv (IMPF), Affirmativ (AFF) und Negativ (NEG). Die Gesamtheit der grammatischen Kontexte zusammen mit den lexikalischen Kontexten schaffen eine Grundlage für die hier vorzustellende distributioneile Analyse. Als Datenquelle wurde das Parallelkorpus InterCorp (Cermäk und Rosen 2012) verwendet. Mithilfe des Abfragesystems KonText wurde für jede Sprache ein Subkorpus mit Originaltexten erstellt, aus dem Daten mit CQL- Abfragen extrahiert wurden. Das Ergebnis zeigte, dass es keine statistisch signifikanten Unterschiede zwischen dem Anteil von imperativen Wortformen im Verhältnis zu allen Verb-Tokens in den jeweiligen Korpora gibt.

Die Analyse der Verteilung von IMPERATIVEN Uber die grammatischen Kontexte ergab, dass der einzige Kontext, in dem die IMPERATIVE aller vier Sprache vergleichbar häufig Vorkommen, ist 2. Person. Um die Verteilung der IMPERATIVE über die lexikalischen Kontexte zu bestimmen, wurden für jede Sprache die 50 häufigsten Lemmata, die mit IMPERATIV Vorkommen, identifiziert. Alle identifizierte Lemmata wurden basierend auf dem Frame Index des FrameNel- Projekts (https://framenet.icsi.berkeley.edu) auf abstrakte Konzepte, wie z.B. COMMUNICATION, MOTION oder PERCEPTION, abgebildet, was eine sprachübergreifende Analyse ermöglicht. Die Verteilung der IMPERATIVE über die jeweiligen identifizierten Konzepte stellt sich folgendermaßen dar: Während die Kontexte für die Konzepte PERCEPTION, COMMUNICATION, MOTION and GIVING/TAKING weniger Unterschiede bezüglich der Distribution von deutschen, englischen, polnischen wie tschechischen IMPERATIVEN aufweisen, zeigen die restlichen Kontexte stärkere Differenzen.

Führt man die grammatische und die lexikalische Verteilung zu einer Kookkurenzmatrize zusammen, wird ein 20-dimensionaler Vektorraum erzeugt. Die vollständigen Distributionsprofile der IMPERATIVE in den jeweiligen Sprachen werden dann durch die Kontextvektoren in diesem 20-dimensionalen Raum repräsentiert. Die IMPERATIVE in den jeweiligen Sprachen können nun durch den Vergleich von Kontextvektoren miteinander verglichen werden. Die Ähnlichkeit zwischen den Vektoren wird durch die Messung der Nähe bzw. Distanz zwischen den Vektoren evaluiert. Basierend auf diesen Metriken können hierarchische Cluster gebildet werden, die die IMPERATIVE im Deutschen, Englischen, Polnischen und Tschechischen nach ihrer Ähnlichkeit gruppieren. Die Clusteranalyse wird darüber hinaus auch auf die Kookkurenzkontexte angewendet.

Die folgende Abbildung zeigt nun die hierarchische Clusteranalyse in einer Heatmap-Visualisierung von IMPERATIVEN im Deutschen, Englischen, Polnischen und Tschechischen (Reihen-Dendrogramm) und deren Kookkurenzkontexte (Säulen- Dendrogramm). Aus der Darstellung lässt sich vor allem erkennen, dass der IMPERATIV im Deutschen und Polnischen die geringste Distanz aufweist, während der IMEPRATIV im Tschechischen den abweichenden Fall darstellt. Die Heatmap- Visualisierung erlaubt ferner, die Korrelation zwischen den einzelnen Kontexten zu erkennen und zu analysieren (je höher der Häufigkeitswert desto heller die Zellenfarbe).

118

https://framenet.icsi.berkeley.edu

4. Zusammenfassung und FazitAusgehend von der Diskussion über die (Nicht-)Existenz bzw. Annahme von

sprachübergreifenden grammatischen Kategorien und darüber, ob einzelsprachliche grammatische Kategorien im Sprachvergleich brauchbar sind, wurde hier vorgeschlagen, nach dem Äquivalenzgrad einzelsprachlicher Kategorien zu fragen. Es wurde eine Methode zur Messung des Äquivalenzgrades präsentiert, die von der Distributionshypothese ausgeht und gängige Verfahren statistischer Analyse einsetzt. Die Ergebnisse einer Fallstudie zur Kategorie IMPERATIV zeigen, dass eine auf der Basis von distributionellen Profilen erzeugte Clusterstruktur für einzelsprachliche grammatische Kategorien - entgegen der Erwartung - nicht zwangsläufig mit der genetischen Sprachklassifikation korrelieren muss. Als Fazit lässt sich konstatieren, dass einzelsprachliche grammatische Kategorien im Sprachvergleich nicht verworfen werden müssen, insbesondere im Vergleich von Sprachen, für die es (große) annotierte Textkorpora gibt.

Bibliographie1. Cermäk F., Rosen A. The case of InterCorp, a multilingual parallel corpus //

International Journal of Corpus Linguistics 17(3), 2012. - S. 411-427.2. Firth John R. Papers in Linguistics 1934-1951. Oxford University Press:

London 1957.

119

3. Harris Z. Distributional structure // Word 10(2-3), 1954. - S. 146-162.4. Haspelmath M. Pre-established Categories don't Exist: Consequences for

Language Description and Typology // Linguistic Typology 11, 2007. - S. 119-132.5. Haspelmath M. Comparative concepts and descriptive categories in

crosslinguistic studies// Language 86(3), 2010a. - S. 663-687.6. Haspelmath M. The Interplay between Comparative Concepts and Descriptive

Categories (Reply to Newmeyer) // Language 86(3), 2010b. - S. 696-699.7. Newmeyer F. J.: Linguistic typology requires crosslinguistic formal categories //

Linguistic Typology 11, 2007. - S. 133-157.8. Newmeyer F J.On Comparative Concepts and Descriptive Categories: A Reply

to Haspelmath // Language 86(3), 2010. - S. 688-695.9. Wittgenstein L. Philosophische Untersuchungen. Fankfurt-am-Main:

Suhrkamp, 1984.

HHOtOPlVlAmi« OB ABTOPETrawinski Beala -aoKTop (|)h j io j io i hu , HttcTHTyT HeMeitKoro snbixa (r. MamtreitM,

TepMaHHH).

120

KOHTPACTHBHblE HCCJIE^OBAHMB rPAMMATMHECKHX … · KOHTPACTHBHblE HCCJIE^OBAHMB rPAMMATMHECKHX...

Documents

Transcript of KOHTPACTHBHblE HCCJIE^OBAHMB rPAMMATMHECKHX … · KOHTPACTHBHblE HCCJIE^OBAHMB rPAMMATMHECKHX...