Analyse multilingualer Korpora für übersetzungswissenschaftliche Fragestellungen Elke Teich FR...
-
Upload
albrecht-reichart -
Category
Documents
-
view
106 -
download
1
Embed Size (px)
Transcript of Analyse multilingualer Korpora für übersetzungswissenschaftliche Fragestellungen Elke Teich FR...

Analyse multilingualer Korpora für übersetzungswissenschaftliche
Fragestellungen
Elke TeichFR 4.6, Angewandte Sprachwissenschaft, UdS
Kolloquium „Exploitation of natural language corpora“ 12/7/02

Hintergrund I• Gegenstand: Spezifische, möglicherweise universelle
Eigenschaften von Übersetzungen/ Verdolmetschungen• Hermeneutik: law of interference, law of growing
standardization (Toury 95)• Übersetzungswissenschaft: normalization, sanitization,
simplification, explicitation, levelling out (Baker 95, 96; Kenny 95)
• Linguistik: Informationsdichte/Informationsverteilung (Fabricius-Hansen 96, Doherty 91, 93, 96, 99)
• Psycholinguistik: Verarbeitungsprozesse (Krings 86, Lörscher 91)

Hintergrund II
• Gegenstand: Interaktion Intonation und Grammatik– Korrelationen bestimmter Tonhöhenverläufe mit
bestimmten grammatischen Konstruktionen (z.B. continuation tone)
– Verhältnis stress und Informationsfokus– Prosodiephänomene in Verdolmetschungen (z.B.
Segmentierung im Dolmetschprodukt, Implikationen für die Sprachverarbeitung)
• Datenbanken gesprochener Sprache– Einzelsätze: ToBI, SFG; EMU – Dialoge: SFG (Dialogstruktur, Grammatik, Prosodie);
EMU

Ziele des Vortrags
• Methodologie zur Untersuchung der spezifischen Eigenschaften von Übersetzungen
• Techniken der Korpusanreicherung und Extraktion/Query; Probleme: Abfragbarkeit des annotierten Korpus

Korpusbasierte Übersetzungswissenschaft
• Beobachtungen & Hypothesen: Übersetzungen– sind länger (Anzahl der tokens/Wörter) als ihre QS-Texte
explicitation– haben kürzere Sätze (Anzahl der tokens/Wörter pro Satz) als
vergleichbare ZS-Originaltexte– haben mehr Sätze als vergleichbare ZS-Originaltexte– haben eine niedrigere type-token ratio als vergleich- bare ZS-
Originaltexte– haben eine geringere lexikalische Dichte als vergleich- bare ZS-
Originaltexte– sind „normaler“ als vergleichbare ZS-Originaltexte
normalization, standardization– lassen QS durchscheinen interference, shining-through
• Korpusdesign: comparable corpus, z.B. englische Übersetzungen und englische Originaltexte
simplification

Beispiel Übersetzungen D-E, E-D
G-ORI E-TL E-ORI
sentence length 11.55 12.54 15.36
number of sentences 544 588 366
type-token ratio 49.24 38.66 39.61
E-ORI G-TL G-ORI
sentence length 15.36 13.26 11.55
number of sentences 366 411 544
type-token ratio 39.61 47.24 49.24
maxmin
Effekte: zielsprachenspezifisch? quellsprachenabhängig?

Beispiel Übersetzung E-D
BEDS come in all sizes –Single or double,Cot-size or cradle,King-size or trundle.
Most Beds are BedsFor sleeping or resting,But the best Beds are muchMore interesting!
BETTEN gibt‘s in allen Größen –Einzel oder DoppelFeldbett oder WiegeRiesig oder rollend.
Meist sind Betten: BettenFür den Schlaf und für die RuhDie besten Betten aber sind:Viel interessanter – hör mal zu!
Übersetzung ist länger (E: 30 W/42 S, D: 36 W/55 S) Interpretation? Erklärung?
Sprachtypologie Genre (+Register)
(Silvia Plath, Das Bett-Buch; Übersetzung: Eva Demski)

Kritikpunkte, Schlußfolgerungen• andere ZS: Beobachtungen teilweise nicht bestätigt• Ebene der Beobachtungen bei Baker et al. sehr shallow –
Interpretation? Erklärungen?• Alternativer Ansatz: Basis Kontrastive Linguistik
– Ebenen der Beobachtungen: Lexikogrammatik, Semantik, Text– Theorie: Sprachtypologie, Kontrastive Registertheorie,
(Verarbeitungsprozesse)– Methoden: Korpusdesign
+ multilingual vergleichbares Korpus von Originaltexten
+ Parallelkorpus– Techniken: automatische und halbautomatische
Korpusanreicherung und Extraktion/Query

Methode: Korpus
Englishoriginal texts
German translations
English translations
German original texts
monolingually comparable corpus
monolingually comparable corpus
multilingually comparable corpus
parallel corpus
parallel corpus

Beispiel Korpusuntersuchung• Übersetzungen von populärwissenschaftlichen Texten E-D,
D-E– Scientific American/Spektrum der Wissenschaft („Doherty-
Korpus“) und populärwissenschaftliche Buchpublikationen – ein Register: verschiedene fields, tenor: Experte – Laie
Vergleichbarkeit– „gute“ Übersetzungen– pro Subkorpus: 10 samples à 1000 Wörter (ca. 10 000
Wörter); expositorisch
• Hypothesen & ihre Herleitung: Beispiel normalization, shining through – Wie „normal“ definieren?
• Resultate & Interpretation• Techniken der Analyse

Theorie: Sprachtypologie, Registertheorie
• Sprachtypologie (cf. Hawkins 84, Doherty 91), z.B.
E-ORI: Clinical experiments have also compared the mixture of interferons produced by white blood cells with single interferons produced by bacteria.
G-TL1: Klinische Versuche haben auch das Interferongemisch der weißen Blutkörperchen mit den einzelnen bakteriellen Interferonarten verglichen.
G-TL2: In klinischen Versuchen wurde auch das Interferongemisch der weißen Blutkörperchen mit den einzelnen bakteriellen Interferonarten verglichen.
• Kontrastive Registertheorie, z.B. Biber 95; Halliday 85, 88, 98; Fluck 90:– relative Häufigkeit bestimmter lexikogrammatischer Merkmale
(signifikant)– z.B. in (populär)wissenschaftlichen Texten Passiv+Passivalternativen,
komplexe Nominalgruppen, einfache Satzstruktur (relationale Prädikate)

Beispiel Passiv/Passivalternativen
79
389
165 passive
278 active
E-ORI
2 = 45.5; Signifikanz: 0.001 (1 df > 10.83)
G-ORI
G-ORI – E-ORI Subkorpus
passive 79 165
passive 146 64alternatives
E-ORI G-ORI
2 = 62.1; Signifikanz: 0.001 (1 df > 10.83)

Hypothesen & ihre Herleitung: Passiv/Passivalternativen
• Hypothesenformulierung E-ORI—G-TL• In Übersetzungen vom Englischen ins Deutsche liegt
shining-through im Passivbereich vor, wenn in G-TL signifikant mehr Passive auftreten als in vergleichbaren deutschen Texten (G-ORI)
• In Übersetzungen vom Deutschen ins Englische liegt normalization im Passivbereich vor, wenn in G-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren deutschen Texten (G-ORI)

Hypothesen & ihre Herleitung: Passiv/Passivalternativen
• Hypothesenformulierung G-ORI—E-TL• In Übersetzungen vom Deutschen ins Englische
liegt shining-through im Passivbereich vor, wenn in E-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren englischen Texten (E-ORI)
• In Übersetzungen vom Deutschen ins Englische liegt normalization im Passivbereich vor, wenn in E-TL signifikant mehr Passive auftreten als in vergleichbaren englischen Texten (E-ORI)

Resultate & Interpretation
schwaches shining-through (Passiv) in G-TL
165
278
E-ORI
79 100passive
389 357active
G-ORI G-TL
G-ORI – G-TL: 2 = 3.6; Signifikanz: 0.10 (1 df > 2.71)
165
64
E-ORI
79 100passive
146 163 passive
alternatives
G-ORI G-TL
G-ORI – G-TL: 2 = 0.0; nicht signifikant
kein normalization-Effekt (Passivalternativen) in G-TL

Resultate & Interpretation
normalization (Passiv) in E-TL
79
389
G-ORI
165 186passive
278 218active
E-ORI E-TL
E-ORI – E-TL: 2 = 7.9; Signifikanz: 0.01 (1 df > 6.64)
79
146
G-ORI
165 186passive
64 62passive
alternatives
E-ORI E-TL
E-ORI – E-TL: 2 = 0.1; nicht signifikant
kein shining-through-Effekt (Passivalternativen) in E-TL

Resultate & Interpretation E-TL G-TL
1) passive vs. active normalization shining through
2) passive vs. passive alternatives --- ---
3) material vs. relational (other factor) (other factor)
4) attributive vs. predicative normalization normalization
5) premod vs. postmod shining through shining through
6) full relative vs. dense postmod --- normalization
7) full relative vs. dense mod --- (other factor)
8) effective vs. middle --- (other factor)
9) unmarked vs. marked theme normalization shining through
mehr Effekte in G-TL: mehr shining through in G-TL weniger Effekte in E-TL: mehr normalization in E-TL Effekte: komplementär (1, 9), bidirektional (4, 5), unidirektional (6) Effekte, die nicht auf normalization/shining through zurückzuführen sind (3, 7, 8)

English translations
German original texts
T e
x t
/ S
a t
z l
ä n
g e
, S
a t
z a
n z
a h
lT
y p e – T
o k e n
R a t i o
Techniken: Basis

Techniken: Korpusannotation I• PoS-tagging: TnT (Brants 2000); Englisch (Susanne; Sampson 95), Deutsch (STTS; Hinrichs et al. 95)• TnT output (TSV):
If CS however RR a AT1 rapid JJ , YC preferably RR instant JJ , YC effect NN1 is VBZ desired VVN , YC strophanthin PN1 will VM be VB0 needed VVN . YF

Techniken: Korpusquerying• Extraktion von Instanzen der ausgewählten lexiko-
grammatischen Merkmale: CQP/ XKWIC (Christ 94)
• Query-Syntax: reguläre Ausdrücke
Query
Konkordanz

Techniken: Korpusannotation II• Abstraktere Merkmale, z.B. funktional-grammatische
Prädikatstypen (SFG: process types)• Special/general-purpose tools wie TATOE (Alexa &
Rostek 99), Coder (O‘Donnell 95)<codings> <header> <scheme file="D:/Elke/Coder3.4.1/Schemes/transitivity-g.scheme"></scheme> </header> <body> <segment features="clause relational circumstantial attributive" >Wo sind eigentlich die Organismen geblieben?</segment> <segment features="clause material middle-nonranged doing creative nonbenefactive" >In den letzten Jahren hat sich in der Biologie etwas sehr Sonderbares und Interessantes ereignet:</segment> <segment features="clause relational circumstantial attributive" >Die Organismen als Grundeinheiten des Lebens sind auf der Strecke geblieben.</segment> <segment features="clause material effective-nonranged doing dispositive nonbenefactive" >Sie wurden von den Genen abgelöst,</segment> <segment features="clause material effective-nonranged doing creative nonbenefactive" >die sämtliche Grundmerkmale annahmen,</segment>...</body>

Techniken: Korpusquerying

Probleme
• Verschiedene Annotationen nicht gemeinsam querybar: heterogene Informationsquellen– verschiedene Formate
– verschiedene Datenstrukturen
• Integrierte Repräsentation, z.B. XML• Aber: Problem Query

Beispiel Our-XML<?xml version="1.0" encoding="UTF-16"?><words> <word pos="NN2" start="1" end="10">Textbooks</word> <word pos="VV0" start="12" end="16">write</word> <word pos="DD1" start="18" end="21">this</word> <word pos="NN1" start="23" end="29">process</word> <word pos="II" start="31" end="32">as</word> <word pos="NP1" start="34" end="45">HCl H++ Cl-</word> <word pos="YC" start="46" end="46">.</word></words>
<?xml version="1.0" encoding="UTF-16"?><clause semfeat="verbal"> <phrase synform="NP" synfunc="SB" start="1" end="10"> Textbooks</phrase> <phrase synform="VP" synfunc="HD" start="12" end="16"> write</phrase> <phrase synform="NP" synfunc="OA" start="18" end="29"> this process</phrase> <phrase synform="PP" synfunc="MO" start="31" end="45"> as HCl H++ Cl-</phrase> <text start="46" end="46">.</text></clause> (Teich et al. 2001)

Probleme• Integrierte Repräsentation verschiedener Annotationen (cf.
multi-layer Problematik): Skripts: z.B. XML, Ags – aber query?– CQP (Christ 94)– TigerSearch (König & Lezius 2002)– GSearch (Corley et al., 2001)– Mate (Heid & Mengel, 99; McKelvie et al., 2001), aber:
skaliert nicht (Stand: 2001); Nachfolgeprojekt: Nite (Bernsen et al., 2002)?
– Relationale DBMS, z.B. EMU (Cassidy & Harrington 2001); SQL
– Semistrukturierte Daten: XSLT, XQuery
• Intersecting hierarchies – ok; aber: overlapping segments?– annotation graphs (Bird & Liberman 2001)– Mate, stand-off markup (Thompson & McKelvie97), Our-XML– aber: Query? AGs: ? (Scott & Bird 2001); XML: XQuery?
specialpurpose
generalpurpose

Zusammenfassung und Ausblick• Annotierte Korpora als linguistische Datenbanken:
– Linguistik • Welche Arten von Beziehungen? Dominanz, lineare
Abfolge, binding, Kohäsion, semantische Relationen...• Verschiedene Perspektiven auf ein Korpus
– Abfragen auf mehreren Annotierungsschichten– Vergleich verschiedener Annotierungen desselben Korpus
– Informatische Techniken• superimposed information• Querysprachen
• Tool kit:– Skripts „externe“ tools (TSV, Baum, AG, your-XML) –
our-XML– Definition von Querytypen (XQuery; XSLT)– zusätzliche layers; mehr Daten