Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.
of 33
/33
-
Author
eldrich-schlender -
Category
Documents
-
view
111 -
download
5
Embed Size (px)
Transcript of Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003.
- Folie 1
- Computergesttzte Analyse multilingualer Korpora Elke Teich 3. Februar 2003
- Folie 2
- Wozu Korpora? empirische Grundlage bei linguistischen Fragestellungen Grundlage fr computerlinguistische Modellierung: Trainieren statistischer Verfahren, machine learning (z.B. Parser, Grammatiken) Was will man an multilingualen Korpora untersuchen? Beispiele: Sprachunterschiede unter Bercksichtigung von Gebrauchsbedingungen (Sprachtypologie, Texttypologie) L2-Lehr/Lernmaterialien (kontrastive Linguistik) Mae fr bersetzungsqualitt (bersetzungswissenschaft) translation memories (Maschinelle bersetzung) Wie geht man dabei vor? viele Daten (> zig tausend Wrter): computergesttzte Analyse
- Folie 3
- bersetzungen Was ist daran interessant? Textsorte, - an der wir Multilingualitt (z.B. Sprachtypologie, kontrastive Linguistik) in action sehen knnen - die wir im Alltag stndig antreffen bersetzungen haben etwas Spezielles, das sie von Texten unterscheidet, die keine bersetzungen sind. Wie kann man dieses Spezielle herausarbeiten? - Beobachtungen formulieren, - an multilingualem Korpus berprfen, - computerlinguistische Techniken einsetzen.
- Folie 4
- The secret strength of hydrogen bersetzung: Alta Vista (Systran) Aller chemischen Elemente ist Wasserstoff in der Struktur und zuerst in der Verschiedenartigkeit seines chemischen Verhaltens das einfachste. Das Element selbst besteht als das Molekl H2, das als das hellste aller Gase weithin bekannt ist. Obgleich Industrie dieses Gas auf einer groen Skala benutzt, wird sie selten im tglichen Leben aus- genommen angetroffen, um Ballone zu fllen. Gleichwohl in 25 Jahren Zeit festsetzen sie, kann dieses das Gas sein, das in unsere Huser zu den Kraftstoffdampfkesseln und -kochern geleitet wird einmal haben wir herauf Versorgungsmaterialien des natrlichen Methangases verwendet, CH4. Wasserstoff brennt, um Wasser zu bilden, und ist folglich sauberer als die Gase, die Carbon enthalten. Syntax Lexik leichteste Gasgerten Hydrogen burns to form water
- Folie 5
- The secret strength of hydrogen Original: Scientific American Of all the chemical elements, hydrogen is the simplest in structure, and first in the diversity of its chemical behaviour. The element Itself exists as the molecule H2 which is well known as the lightest of all gases. Although industry uses this gas on a large scale it is rarely encountered in everyday life except to fill balloons. However in 25 years time this may be the gas which is piped into our homes to fuel boilers and cookers - once we have used up supplies of natural methane gas, CH4. Hydrogen burns to form water, and hence is cleaner than gases containing carbon. [Handout]
- Folie 6
- Die geheime Kraft des Wasserstoffs bersetzung: Spektrum der Wissenschaft Wasserstoff ist seinem Aufbau nach das einfachste, aber seinem Verhalten nach das vielseitigste von allen chemischen Elementen. Es existiert als Molekl H2, das als das leichteste aller Gase allgemein bekannt ist. Obwohl es industriell in groem Umfang genutzt wird, kommt es im tglichen Leben auer beim Fllen von Ballons kaum vor. Doch knnte gerade dieses Gas in einem Vierteljahrhundert, wenn die Vorrte an natrlichem Methangas, CH4, aufgebraucht sind, in den Gasgerten unserer Haushalte Verwendung finden. Wasserstoff verbrennt zu Wasser und ist Somit weniger umweltbelastend als Gase, die Kohlenstoff enthalten. [Handout]
- Folie 7
- Art Spiegelman, Maus I bersetzung: Christine Brinck, Josef Joffe
- Folie 8
- bersetzungen & ihre spezifischen Eigenschaften (Auch gute) bersetzungen haben spezifische Eigenschaften, die sie von Texten in derselben Sprache wie der Zielsprache (ZS) unterscheiden (vgl. Baker 95, 96; Toury 95, Teich 01) Spezifischen Produktionsbedingungen von bersetzungen: induziert durch quellsprachlichen Text, zielsprachenorientiert; Hypothesen: bersetzungen lassen die Quellsprache (QS) durchscheinen shining through bersetzungen gehorchen der ZS-Norm mehr als vergleichbare ZS-Originaltexte normalization andere: explicitation, simplification, levelling-out Was ist denn normal? Was kann bertrieben normal gemacht werden? Was kann durchscheinen?
- Folie 9
- Scientific American/Systran/ Spektrum der Wissenschaft (Original: Englisch) Hydrogen burns to form water, and hence is cleaner than gases containing carbon. Wasserstoff brennt, um Wasser zu bilden, und ist folglich sauberer als die Gase, die Carbon enthalten. Wasserstoff verbrennt zu Wasser und ist somit weniger umweltbelastend als Gase, die Kohlenstoff enthalten. (vgl. Doherty 93; Hawkins 84) Sprachtypologie (System)
- Folie 10
- Englisch: To draw a polyline. Deutsch: So zeichnen Sie eine Polylinie. (Eine Polylinie zeichnen.) Russisch: Chtoby narisovatj poliliniju. IN-ORDER-TO DRAW POLYLINE Bulgarisch: Chertane na polilinija. DRAWING OF POLYLINE CAD/CAM User Manual; AutoCad (Original: Englisch) (vgl. Copernicus Project AGILE) to-Infinitiv Nominalisierung um zu + Infinitiv Texttypologie (Register) finiter Satz, deklarativ
- Folie 11
- Hypothesen & ihre Herleitung Sprachenpaar Englisch-Deutsch, Register populrwissenschaftlicher Texte Sprachtypologie (System): Pr/Postmodifikation der NP (E: Postmodifikation, D: Prmodifikation), Themaoptionen (E: grammatical word order, D: pragmatic word order), Transitivitt (D: transitiv; E: ergativ) Texttypologie (registerspezifisch): Passiv, Nomina, komplexe Nominalgruppen, einfache Satzstruktur (relationale Prdikate)
- Folie 12
- Beispiele Sprachtypologie Transitivitt (1) E: A material known as ionophore, which binds to membranes... (2) D: Eine Substanz, die als Ionophor wirkt. Sie setzt sich an der Membran fest. (3) E: Thus in water the hydrogen atoms exchange billions of times per second. (4) D: In Wasser etwa werden die Wasserstoffatome Milliardenmale pro Sekunde ausgetauscht. Pr/Postmodifikation (5) E: The voltages that would be expected to be produced in the cytoplasm of Fucus embryos, only 0.1 mm in length, would unfortunately be too close to the limits of microelectrode sensitivity to be measurable. (6) D: Die zu erwartenden Spannungen im Zellplasma wrden bei den 0.1 mm lange Fucusembryonen leider schon unterhalb der fr Mikroelektroden messbaren Grenze liegen.
- Folie 13
- Beispiele Texttypologie Einfache Satzstruktur, komplexe Nominalgruppen (1) E: So in Fucus, one of the events that translates asymmetry in the environment into asymmetry in the embryo is a polarised pumping of electric current, in the form of Ca++ ions. (2) D: Beim Fucus ist damit einer der Prozesse, der eine Asymmetrie aus der Umgebung in eine Asymmetrie des Embryos umsetzt, ein polarisierter elektrischer Strom von Ca++-Ionen. Nicht agentivische Darstellung (z.B. Passiv) (3) E: The behavior of acids is generally observed in water. (4) D: Gewhnlich untersucht man das Verhalten von Suren in Wasser. (5) D: Somit lassen sich auch bei diesen Spielen verschiedene Strategien in einer Auszahlungsmatrix gegenberstellen und bewerten. (6) D: Dabei ist eine sehr bemerkenswerte Verlagerung zu verzeichnen. (7) D: In Lehrbchern wird dieser Prozess oft durch die Gleichung HCl H++ Cl- dargestellt. (8) E: Text books often write this process as HCl H++ Cl-. (9) E: Thus in water the hydrogen atoms exchange billions of times per second.
- Folie 14
- Beispiel Passiv/Passivalternativen G-ORI E-ORI Subkorpus passive 79 165 passive 146 64 alternatives E-ORI G-ORI 2 = 62.1; Signifikanz: 0.001 (1 df > 10.83) 79 389 165 passive 278 active E-ORI 2 = 45.5; Signifikanz: 0.001 (1 df > 10.83) G-ORI Passiv typischer fr E als fr D Passivalternativen typischer fr D als fr E
- Folie 15
- Hypothesen & ihre Herleitung: Passiv/Passivalternativen Hypothesenformulierung E-ORIG-TL In bersetzungen vom Englischen ins Deutsche liegt shining-through im Passivbereich vor, wenn in G-TL signifikant mehr Passive auftreten als in vergleichbaren deutschen Texten (G-ORI) In bersetzungen vom Englischen ins Deutsche liegt normalization im Passivbereich vor, wenn in G-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren deutschen Texten (G-ORI)
- Folie 16
- Hypothesen & ihre Herleitung: Passiv/Passivalternativen Hypothesenformulierung G-ORIE-TL In bersetzungen vom Deutschen ins Englische liegt shining-through im Passivbereich vor, wenn in E-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren englischen Texten (E-ORI) In bersetzungen vom Deutschen ins Englische liegt normalization im Passivbereich vor, wenn in E-TL signifikant mehr Passive auftreten als in vergleichbaren englischen Texten (E-ORI)
- Folie 17
- Korpus English original texts German translations English translations German original texts monolingually comparable corpus multilingually comparable corpus parallel corpus (Register: populrwissenschaftliche Prosa; ca. 10 000 Wrter pro Subkorpus)
- Folie 18
- Analysetechniken & Methoden Korpusanreicherung: PoS (Part-of-Speech) tagging Korpusquery: regulre Ausdrcke Resultate und Interpretation: Paare von Merkmalen, Chi-Quadrat Bewertung im Sinne von shining through, normalization
- Folie 19
- Techniken: Korpusanreicherung PoS-tagging: TnT (Brants 2000); Englisch (Susanne; Sampson 95), Deutsch (STTS; Hinrichs et al. 95) TnT output: CS RR AT1 JJ YC RR JJ YC NN1 VBZ VVN YC PN1 VM VB0 VVN YF If however a rapid, preferably instant, effect is desired, strophanthin will be needed. Passiv: VB*... VVN
- Folie 20
- Techniken: Korpusquery Extraktion von Instanzen der ausgewhlten lexiko- grammatischen Merkmale: CQP/ XKWIC (Christ 94) Query-Syntax: regulre Ausdrcke Query Konkordanz
- Folie 21
- Resultate & Interpretation schwaches shining-through (Passiv) in G-TL 165 278 E-ORI 79 100 passive 389 357 active G-ORI G-TL G-ORI G-TL: 2 = 3.6; Signifikanz: 0.10 (1 df > 2.71) 165 64 E-ORI 79 100 passive 146 163 passive alternatives G-ORI G-TL G-ORI G-TL: 2 = 0.0; nicht signifikant kein normalization-Effekt (Passivalternativen) in G-TL
- Folie 22
- Resultate & Interpretation normalization (Passiv) in E-TL 79 389 G-ORI 165 186 passive 278 218 active E-ORI E-TL E-ORI E-TL: 2 = 7.9; Signifikanz: 0.01 (1 df > 6.64) 79 146 G-ORI 165 186 passive 64 62 passive alternatives E-ORI E-TL E-ORI E-TL: 2 = 0.1; nicht signifikant kein shining-through-Effekt (Passivalternativen) in E-TL
- Folie 23
- Resultate & Interpretation E-TL G-TL 1) passive vs. active normalization shining through 2) passive vs. passive alternatives --- 3) material vs. relational (other factor) 4) attributive vs. predicative normalization 5) premod vs. postmod shining through 6) full relative vs. dense postmod --- normalization 7) full relative vs. dense mod --- (other factor) 8) effective vs. middle --- (other factor) 9) unmarked vs. marked theme normalization shining through Effekte: komplementr (1, 9), bidirektional (4, 5), unidirektional (6) mehr Effekte in G-TL; mehr shining through in G-TL, mehr normalization in E-TL Effekte, die nicht auf normalization/shining through zurckzufhren sind (3, 7, 8)
- Folie 24
- Resultate & Interpretation E-TL normalisiert mehr, G-TL lsst mehr durchscheinen (1) E-ORI: Thus, in water the hydrogen atoms exchange billions of times per second. G-TL: In Wasser etwa werden die Wasserstoffatome Milliardenmale pro Sekunde ausgetauscht. (2) E-ORI:... this choice minimizes the risk of errors during translation G-TL:...und damit die Gefahr von bermittlungsfehlern verringert wird. (3) G-ORI: Fr den praktischen Gebrauch bentigt man groe Zahlen. E-TL:...for practical application large numbers are needed. (4) G-ORI: Die bermittlung einer Nachricht mit ffentlichen und geheimen Schlsseln lsst sich auch in der Kryptologie verwircklichen. E-TL: Transmission of a signal with public and secret keys can be realized also in cryptology. habituelle bersetzung TL kann Durchscheinen aus typologischen Grnden verkraften (TL-System macht spezifischere Unterscheidungen) TL muss aus typologischen Grnden kompensieren (geringere Spezifik des TL-Systems) Normalisierung
- Folie 25
- bersetzungen zwischen den Sthlen: lassen QS durchscheinen, versuchen gleichzeitig ganz normal fr die ZS zu sein Anwendungen: bersetzerische Intuitionen beschreiben differenzierte Mae fr bersetzungsqualitt, Einflu von bersetzungen im Sprachwandel Theorie, z.B. Was ist normal? Registertheorie (Systemic Functional Linguistics; Halliday 85); wichtig fr Hypothesen & Interpretation! Methoden/Techniken: Sprachtypologie, Texttypologie, Computerlinguistik, Korpuslinguistik Zusammenfassung und Ausblick
- Folie 26
- Methodologie zum Korpusvergleich; Beispiele: Abgrenzung verschiedener Register/Fachsprachen Entwicklung von Maen fr Textqualitt in Abhngigkeit von Register/Genre multi-layer annotierte Korpora lngerfristiges Potenzial fr Forschung und Lehre Linguistik: Theorie und Deskription auf Grundlage groer Datenmengen Informatik: Linguistische Datenbanken Reprsentation und Abfrage Computerlinguistik: Training statistischer Verfahren auf Basis von annotierten Referenzkorpora (tree banks) Interdisziplinr: Anwendungen an der Schnittstelle Linguistik/Computerlinguistik/Informatik (content syndication, z.B. Informationsextraktion) Zusammenfassung und Ausblick
- Folie 27
- Grammatik Sprache Text Sprachtypologie Texttypologie bersetzungen, ML Texte Methoden: multi-layer annotierte Korpora, computerlinguistische Techniken
- Folie 28
- Thank you for your attention!
- Folie 29
- Literatur (Baker 95) M. Baker, Corpora in translation studies: An overview and some suggestions for future research, Target 7(2):223-245. (Baker 96) M. Baker, Corpus-based translation studies: the challenges that lie ahead. In H. Somers (ed.), Terminology, LSP and Translation: Studies in Language Engineering in Honour of Juan C. Sager, Benjamins, Amsterdam, pp. 175-186. (Brants 00) T. Brants, TnT A statistical part-of-speech tagger, Proceedings of the 6th Applied Natural Language Processing Conference (ANLP) 2000, Seattle, WA. (Christ 94) O. Christ, The IMS Corpus Workbench Technical Manual, Technical report, Institut fr maschinelle Sprachverarbeitung, Universitt Stuttgart. (Doherty 93) M. Doherty, Parametrisierte Perspektive, Zeitschrift fr Sprach- wissenschaft 12(1):3-38. (Halliday 85) MAK Halliday, An Introduction to Functional Grammar. Edward Arnold, London. (Hawkins 84) J.A. Hawkins, A comparative typology of English and German. Croom Helm, London and Sydney. [Handout]
- Folie 30
- Literatur (Hinrichs et al 95) E. Hinrichs, Feldweg, H., Boyle-Hinrichs, M. and Hauser, R. Abschlubericht ELWIS. Korpusuntersttzte Entwicklung lexikalischer Wissens- basen fr die Computerlinguistik, Technical report, Universitt Tbingen. (Sampson 95) G. Sampson, English for the Computer. Oxford University Press, Oxford. (Teich 01) E. Teich, Contrast and commonality between English and German in system and text. A methodology for the investigation of cross-linguistic variation in translations and multilingually comparable texts. Habilitationsschrift, Universitt des Saarlandes, Saarbrcken. (Toury 95) G. Toury, Descriptive translation studies and beyond. Benjamins, Amsterdam. [Handout]
- Folie 31
- English translations German original texts A n z a h l T o k e n s T y p e T o k e n R a t i o [Handout]
- Folie 32
- Korpusvergleich G-ORI E-TLE-ORI sentence length11.55 12.54 15.36 number of sentences544 588 366 text length10442 11051 10460 type-token ratio49.24 38.66 39.61 E-ORI G-TLG-ORI sentence length15.36 13.2611.55 number of sentences366 411544 text length10460 992710442 type-token ratio39.61 47.2449.24 max min E-TL: lnger, geringere Vokabularvariation G-TL: dazwischen [Handout]
- Folie 33
- Resultate & Interpretation Andere Effekte: explicitation, z.B. bei dense modification vs. full relative clauses E-ORI: At the heart of Rivests asymmetric cypher is a one-way function based on the sort of modular functions described earlier... G-TL: Kern der asymmetrischen Verschlsselung von Rivest ist eine Einwegfunktion, die auf oben beschriebenen Modulfunktionen beruht. G-TL: Kern der asymmetrischen Verschlsselung von Rivest ist eine auf den oben beschriebenen Modulfunktionen beruhende Einwegfunktion. Effekte, die nur in bersetzungen auftreten (nicht in G-ORI E-ORI) E-ORI: Thus, the history of bioelectricity produced a discontinuity in scientific history. G-TL: So kam es, dass die Wissenschaftsgeschichte der Bioelektrizitt diskontinuierlich verlaufen ist. G-TL: So produzierte die Geschichte der Bioelektrizitt eine Diskontinuitt in der Wissenschaftsgeschichte. (ungewollte Personifizierung!) bidirektionale Effekte: Kandidaten fr universelle Merkmale? bersetzungsprozessbedingte Erklrungen?