Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

33
Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003

Transcript of Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Page 1: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Computergestützte Analyse multilingualer Korpora

Elke Teich

3. Februar 2003

Page 2: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

• Wozu Korpora? – empirische Grundlage bei linguistischen Fragestellungen– Grundlage für computerlinguistische Modellierung: Trainieren

statistischer Verfahren, machine learning (z.B. Parser, Grammatiken)

• Was will man an multilingualen Korpora untersuchen? Beispiele:– Sprachunterschiede unter Berücksichtigung von

Gebrauchsbedingungen (Sprachtypologie, Texttypologie)– L2-Lehr/Lernmaterialien (kontrastive Linguistik) – Maße für Übersetzungsqualität (Übersetzungswissenschaft)– translation memories (Maschinelle Übersetzung)

• Wie geht man dabei vor?– viele Daten (> zig tausend Wörter): computergestützte

Analyse

Page 3: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Übersetzungen

• Was ist daran interessant? Textsorte,- an der wir Multilingualität (z.B. Sprachtypologie, kontrastive Linguistik) „in action“ sehen können- die wir im Alltag ständig antreffen

• Übersetzungen haben etwas „Spezielles“, das sie von Texten unterscheidet, die keine Übersetzungen sind. Wie kann man dieses „Spezielle“ herausarbeiten?

- Beobachtungen formulieren,- an multilingualem Korpus überprüfen,- computerlinguistische Techniken einsetzen.

Page 4: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

The secret strength of hydrogenÜbersetzung: Alta Vista (Systran)

Aller chemischen Elemente ist Wasserstoff in der Struktur und zuerst in der Verschiedenartigkeit seines chemischen Verhaltens das einfachste.Das Element selbst besteht als das Molekül H2, das als das hellstealler Gase weithin bekannt ist. Obgleich Industrie dieses Gas auf einer großen Skala benutzt, wird sie selten im täglichen Leben aus-genommen angetroffen, um Ballone zu füllen. Gleichwohl in 25 Jahren Zeit festsetzen sie, kann dieses das Gas sein, das in unsere Häuser zu den Kraftstoffdampfkesseln und -kochern geleitet wird – einmal haben wir herauf Versorgungsmaterialien des natürlichen Methangases verwendet, CH4. Wasserstoff brennt, um Wasser zu bilden, und ist folglich sauberer als die Gase, die Carbon enthalten.

SyntaxLexik

leichteste

Gasgeräten

Hydrogen burns to form water

Page 5: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

The secret strength of hydrogenOriginal: Scientific American

Of all the chemical elements, hydrogen is the simplest in structure, and first in the diversity of its chemical behaviour. The element Itself exists as the molecule H2 which is well known as the lightestof all gases. Although industry uses this gas on a large scale it is rarely encountered in everyday life except to fill balloons. Howeverin 25 years time this may be the gas which is piped into our homes to fuel boilers and cookers - once we have used up supplies of natural methane gas, CH4. Hydrogen burns to form water, and hence is cleaner than gases containing carbon.

[Handout]

Page 6: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Die geheime Kraft des WasserstoffsÜbersetzung: Spektrum der Wissenschaft

Wasserstoff ist seinem Aufbau nach das einfachste, aber seinem Verhalten nach das vielseitigste von allen chemischen Elementen. Es existiert als Molekül H2, das als das leichteste aller Gase allgemein bekannt ist. Obwohl es industriell in großem Umfang genutzt wird, kommt es im täglichen Leben – außer beim Füllen von Ballons – kaum vor. Doch könnte gerade dieses Gas in einem Vierteljahrhundert, wenn die Vorräte an natürlichem Methangas, CH4, aufgebraucht sind, in den Gasgeräten unserer Haushalte Verwendung finden. Wasserstoff verbrennt zu Wasser und ist Somit weniger umweltbelastend als Gase, die Kohlenstoff enthalten.

[Handout]

Page 7: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Art Spiegelman, Maus IÜbersetzung: Christine Brinck, Josef Joffe

Page 8: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Übersetzungen & ihre spezifischen Eigenschaften

• (Auch gute) Übersetzungen haben spezifische Eigenschaften, die sie von Texten in derselben Sprache wie der Zielsprache (ZS) unterscheiden (vgl. Baker 95, 96; Toury 95, Teich 01)

• Spezifischen Produktionsbedingungen von Übersetzungen: induziert durch quellsprachlichen Text, zielsprachenorientiert; Hypothesen:– Übersetzungen lassen die Quellsprache (QS) durchscheinen shining

through– Übersetzungen gehorchen der ZS-Norm mehr als vergleichbare ZS-

Originaltexte normalization– andere: explicitation, simplification, levelling-out

• Was ist denn „normal“? Was kann übertrieben normal gemacht werden? Was kann durchscheinen?

Page 9: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Scientific American/Systran/Spektrum der Wissenschaft(Original: Englisch)

Hydrogen burns to form water, and hence is cleaner than gases containing carbon.

Wasserstoff brennt, um Wasser zu bilden, und ist folglich sauberer als die Gase, die Carbon enthalten.

Wasserstoff verbrennt zu Wasser und ist somit weniger umweltbelastend als Gase, die Kohlenstoff enthalten.

(vgl. Doherty 93; Hawkins 84)

Sprachtypologie (System)

Page 10: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Englisch: To draw a polyline.

Deutsch: So zeichnen Sie eine Polylinie.

(Eine Polylinie zeichnen.)

Russisch: Chtoby narisovatj poliliniju.

IN-ORDER-TO DRAW POLYLINE

Bulgarisch: Chertane na polilinija.

DRAWING OF POLYLINE

CAD/CAM User Manual; AutoCad(Original: Englisch)

(vgl. Copernicus Project AGILE)

to-Infinitiv

Nominalisierung

um zu + Infinitiv

Texttypologie (Register)

finiter Satz, deklarativ

Page 11: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Hypothesen & ihre Herleitung

• Sprachenpaar Englisch-Deutsch, Register populärwissenschaftlicher Texte

• Sprachtypologie (System): Prä/Postmodifikation der NP (E: Postmodifikation, D: Prämodifikation), Themaoptionen (E: grammatical word order, D: pragmatic word order), Transitivität (D: transitiv; E: ergativ)

• Texttypologie (registerspezifisch): Passiv, Nomina, komplexe Nominalgruppen, einfache Satzstruktur (relationale Prädikate)

Page 12: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Beispiele Sprachtypologie• Transitivität

(1) E: A material known as ionophore, which binds to membranes...

(2) D: Eine Substanz, die als Ionophor wirkt. Sie setzt sich an der Membran fest. (3) E: Thus in water the hydrogen atoms exchange billions of times per

second. (4) D: In Wasser etwa werden die Wasserstoffatome Milliardenmale pro

Sekunde ausgetauscht.

• Prä/Postmodifikation

(5) E: The voltages that would be expected to be produced in the cytoplasm of Fucus embryos, only 0.1 mm in length, would unfortunately be too close to the limits of microelectrode sensitivity to be measurable.

(6) D: Die zu erwartenden Spannungen im Zellplasma würden bei den 0.1 mm lange Fucusembryonen leider schon unterhalb der für

Mikroelektroden messbaren Grenze liegen.

Page 13: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Beispiele Texttypologie• Einfache Satzstruktur, komplexe Nominalgruppen

(1) E: So in Fucus, one of the events that translates asymmetry in the environment into asymmetry in the embryo is a polarised pumping of electric current, in the form of Ca++ ions.(2) D: Beim Fucus ist damit einer der Prozesse, der eine Asymmetrie aus der Umgebung in eine Asymmetrie des Embryos umsetzt, ein polarisierter elektrischer Strom von Ca++-Ionen.

• Nicht agentivische Darstellung (z.B. Passiv)(3) E: The behavior of acids is generally observed in water.

(4) D: Gewöhnlich untersucht man das Verhalten von Säuren in Wasser. (5) D: Somit lassen sich auch bei diesen Spielen verschiedene Strategien in einer

Auszahlungsmatrix gegenüberstellen und bewerten. (6) D: Dabei ist eine sehr bemerkenswerte Verlagerung zu verzeichnen.

(7) D: In Lehrbüchern wird dieser Prozess oft durch die Gleichung HCl H++ Cl- dargestellt. (8) E: Text books often write this process as HCl H++ Cl-.

(9) E: Thus in water the hydrogen atoms exchange billions of times per second.

Page 14: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Beispiel Passiv/PassivalternativenG-ORI – E-ORI Subkorpus

passive 79 165

passive 146 64 alternatives

E-ORI G-ORI

2 = 62.1; Signifikanz: 0.001 (1 df > 10.83)

79

389

165 passive

278 active

E-ORI

2 = 45.5; Signifikanz: 0.001 (1 df > 10.83)

G-ORI

Passiv typischer für E als für D

Passivalternativen typischer für D als für E

Page 15: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Hypothesen & ihre Herleitung: Passiv/Passivalternativen

• Hypothesenformulierung E-ORI—G-TL• In Übersetzungen vom Englischen ins Deutsche liegt

shining-through im Passivbereich vor, wenn in G-TL signifikant mehr Passive auftreten als in vergleichbaren deutschen Texten (G-ORI)

• In Übersetzungen vom Englischen ins Deutsche liegt normalization im Passivbereich vor, wenn in G-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren deutschen Texten (G-ORI)

Page 16: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Hypothesen & ihre Herleitung: Passiv/Passivalternativen

• Hypothesenformulierung G-ORI—E-TL• In Übersetzungen vom Deutschen ins Englische

liegt shining-through im Passivbereich vor, wenn in E-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren englischen Texten (E-ORI)

• In Übersetzungen vom Deutschen ins Englische liegt normalization im Passivbereich vor, wenn in E-TL signifikant mehr Passive auftreten als in vergleichbaren englischen Texten (E-ORI)

Page 17: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Korpus

Englishoriginal texts

German translations

English translations

German original texts

monolingually comparable corpus

monolingually comparable corpus

multilingually comparable corpus

parallel corpus

parallel corpus

(Register: populärwissenschaftliche Prosa; ca. 10 000 Wörter pro Subkorpus)

Page 18: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Analysetechniken & Methoden

• Korpusanreicherung: PoS (Part-of-Speech) tagging• Korpusquery: reguläre Ausdrücke• Resultate und Interpretation:

– Paare von Merkmalen, Chi-Quadrat– Bewertung im Sinne von shining through,

normalization

Page 19: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Techniken: Korpusanreicherung

• PoS-tagging: TnT (Brants 2000); Englisch (Susanne; Sampson 95), Deutsch (STTS; Hinrichs et al. 95)

• TnT output: CS

RRAT1JJYCRRJJYCNN1VBZVVNYCPN1VMVB0VVNYF

Ifhoweverarapid,preferablyinstant,effectisdesired,strophanthinwillbeneeded.

Passiv:VB* ... VVN

Page 20: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Techniken: Korpusquery• Extraktion von Instanzen der ausgewählten lexiko-

grammatischen Merkmale: CQP/ XKWIC (Christ 94)

• Query-Syntax: reguläre Ausdrücke

Query

Konkordanz

Page 21: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Resultate & Interpretation

schwaches shining-through (Passiv) in G-TL

165

278

E-ORI

79 100passive

389 357active

G-ORI G-TL

G-ORI – G-TL: 2 = 3.6; Signifikanz: 0.10 (1 df > 2.71)

165

64

E-ORI

79 100passive

146 163 passive

alternatives

G-ORI G-TL

G-ORI – G-TL: 2 = 0.0; nicht signifikant

kein normalization-Effekt (Passivalternativen) in G-TL

Page 22: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Resultate & Interpretation

normalization (Passiv) in E-TL

79

389

G-ORI

165 186passive

278 218active

E-ORI E-TL

E-ORI – E-TL: 2 = 7.9; Signifikanz: 0.01 (1 df > 6.64)

79

146

G-ORI

165 186passive

64 62passive

alternatives

E-ORI E-TL

E-ORI – E-TL: 2 = 0.1; nicht signifikant

kein shining-through-Effekt (Passivalternativen) in E-TL

Page 23: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Resultate & Interpretation E-TL G-TL

1) passive vs. active normalization shining through

2) passive vs. passive alternatives --- ---

3) material vs. relational (other factor) (other factor)

4) attributive vs. predicative normalization normalization

5) premod vs. postmod shining through shining through

6) full relative vs. dense postmod --- normalization

7) full relative vs. dense mod --- (other factor)

8) effective vs. middle --- (other factor)

9) unmarked vs. marked theme normalization shining through

Effekte: komplementär (1, 9), bidirektional (4, 5), unidirektional (6) mehr Effekte in G-TL; mehr shining through in G-TL, mehr normalization in E-TL Effekte, die nicht auf normalization/shining through zurückzuführen sind (3, 7, 8)

Page 24: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Resultate & Interpretation• E-TL normalisiert mehr, G-TL lässt mehr durchscheinen(1) E-ORI: Thus, in water the hydrogen atoms exchange billions of times per

second. G-TL: In Wasser etwa werden die Wasserstoffatome Milliardenmale pro

Sekunde ausgetauscht.(2) E-ORI: ... this choice minimizes the risk of errors during translation G-TL: ...und damit die Gefahr von Übermittlungsfehlern verringert wird.(3) G-ORI: Für den praktischen Gebrauch benötigt man große Zahlen. E-TL: ...for practical application large numbers are needed.(4) G-ORI: Die Übermittlung einer Nachricht mit öffentlichen und geheimen

Schlüsseln lässt sich auch in der Kryptologie verwircklichen. E-TL: Transmission of a signal with public and secret keys can be realized

also in cryptology. „habituelle“ Übersetzung

• TL kann Durchscheinen aus typologischen Gründen verkraften (TL-System macht spezifischere Unterscheidungen)

• TL muss aus typologischen Gründen kompensieren (geringere Spezifik des TL-Systems) – Normalisierung

Page 25: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

• Übersetzungen „zwischen den Stühlen“: lassen QS durchscheinen, versuchen gleichzeitig ganz „normal“ für die ZS zu sein

• Anwendungen: Übersetzerische „Intuitionen“ beschreiben differenzierte Maße für Übersetzungsqualität, Einfluß von Übersetzungen im Sprachwandel

• Theorie, z.B. Was ist „normal“? Registertheorie (Systemic Functional Linguistics; Halliday 85); wichtig für Hypothesen & Interpretation!

• Methoden/Techniken: Sprachtypologie, Texttypologie, Computerlinguistik, Korpuslinguistik

Zusammenfassung und Ausblick

Page 26: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

• Methodologie zum Korpusvergleich; Beispiele:– Abgrenzung verschiedener Register/Fachsprachen– Entwicklung von Maßen für Textqualität in Abhängigkeit von

Register/Genre

• multi-layer annotierte Korpora – längerfristiges Potenzial für Forschung und Lehre– Linguistik: Theorie und Deskription auf Grundlage großer

Datenmengen– Informatik: Linguistische Datenbanken – Repräsentation und

Abfrage– Computerlinguistik: Training statistischer Verfahren auf Basis

von annotierten Referenzkorpora (tree banks)– Interdisziplinär: Anwendungen an der Schnittstelle

Linguistik/Computerlinguistik/Informatik (content syndication, z.B. Informationsextraktion)

Zusammenfassung und Ausblick

Page 27: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Grammatik

Sprache Text

Sprachtypologie Texttypologie

Übersetzungen, ML Texte

Methoden: multi-layer annotierte Korpora, computerlinguistische Techniken

Page 28: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Thank you for your attention!

Page 29: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Literatur

(Baker 95) M. Baker, Corpora in translation studies: An overview and some suggestions for future research, Target 7(2):223-245.(Baker 96) M. Baker, Corpus-based translation studies: the challenges that lie ahead. In H. Somers (ed.), Terminology, LSP and Translation: Studies in Language Engineering in Honour of Juan C. Sager, Benjamins, Amsterdam, pp. 175-186.(Brants 00) T. Brants, TnT – A statistical part-of-speech tagger, Proceedings of the 6th Applied Natural Language Processing Conference (ANLP) 2000, Seattle, WA.(Christ 94) O. Christ, The IMS Corpus Workbench Technical Manual, Technical report, Institut für maschinelle Sprachverarbeitung, Universität Stuttgart.(Doherty 93) M. Doherty, Parametrisierte Perspektive, Zeitschrift für Sprach- wissenschaft 12(1):3-38.(Halliday 85) MAK Halliday, An Introduction to Functional Grammar. Edward Arnold, London.(Hawkins 84) J.A. Hawkins, A comparative typology of English and German. Croom Helm, London and Sydney.

[Handout]

Page 30: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Literatur

(Hinrichs et al 95) E. Hinrichs, Feldweg, H., Boyle-Hinrichs, M. and Hauser, R. Abschlußbericht ELWIS. Korpusunterstützte Entwicklung lexikalischer Wissens- basen für die Computerlinguistik, Technical report, Universität Tübingen.(Sampson 95) G. Sampson, English for the Computer. Oxford University Press, Oxford.(Teich 01) E. Teich, Contrast and commonality between English and German in system and text. A methodology for the investigation of cross-linguistic variation in translations and multilingually comparable texts. Habilitationsschrift, Universität des Saarlandes, Saarbrücken.(Toury 95) G. Toury, Descriptive translation studies and beyond. Benjamins, Amsterdam.

[Handout]

Page 31: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

English translations

German original textsA

n z

a h

l

T o

k e

n s

T y p

e – T o

k e n R

a t i o

[Handout]

Page 32: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

KorpusvergleichG-ORI E-TL E-ORI

sentence length 11.55 12.54 15.36

number of sentences 544 588 366

text length 10442 11051 10460

type-token ratio 49.24 38.66 39.61

E-ORI G-TL G-ORI

sentence length 15.36 13.26 11.55

number of sentences 366 411 544

text length 10460 9927 10442

type-token ratio 39.61 47.24 49.24

maxmin

E-TL: länger, geringere Vokabularvariation G-TL: „dazwischen“

[Handout]

Page 33: Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.

Resultate & Interpretation• Andere Effekte: explicitation, z.B. bei dense modification vs. full

relative clauses E-ORI: At the heart of Rivest‘s asymmetric cypher is a one-way function based

on the sort of modular functions described earlier... G-TL: Kern der asymmetrischen Verschlüsselung von Rivest ist eine

Einwegfunktion, die auf oben beschriebenen Modulfunktionen beruht. G-TL: Kern der asymmetrischen Verschlüsselung von Rivest ist eine auf den

oben beschriebenen Modulfunktionen beruhende Einwegfunktion.

• Effekte, die nur in Übersetzungen auftreten (nicht in G-ORI – E-ORI)

E-ORI: Thus, the history of bioelectricity produced a discontinuity in scientific history.

G-TL: So kam es, dass die Wissenschaftsgeschichte der Bioelektrizität diskontinuierlich verlaufen ist.

G-TL: So produzierte die Geschichte der Bioelektrizität eine Diskontinuität in der Wissenschaftsgeschichte. (ungewollte Personifizierung!)

• bidirektionale Effekte: Kandidaten für universelle Merkmale? Übersetzungsprozessbedingte Erklärungen?