Syntactic mismatches in machine translation Igor Mel‘čuk, Leo Wanner

45
Syntactic mismatches in machine translation Igor Mel‘čuk, Leo Wanner Referentin: Hasti Feshangchi LMU München - CIS Proseminar „Paraphrasenbegriff“ WS 2007/08

description

Syntactic mismatches in machine translation Igor Mel‘čuk, Leo Wanner. Referentin: Hasti Feshangchi LMU München - CIS Proseminar „Paraphrasenbegriff“ WS 2007/08. - PowerPoint PPT Presentation

Transcript of Syntactic mismatches in machine translation Igor Mel‘čuk, Leo Wanner

Page 1: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

Syntactic mismatches in machine translation Igor Mel‘čuk, Leo Wanner

Referentin: Hasti FeshangchiLMU München - CIS

Proseminar „Paraphrasenbegriff“WS 2007/08

Page 2: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

2

„Syntactic mismtaches“: Ein zentrales Problem, das in der maschiniellen Übersetzung whärend der Übertragung von syntaktischen Struktur eines Satzes in der Ausgangssprache zu einer äquivalente Struktur in der Zielsprache auftaucht.

Dieser Beitrag wird „syntactic mismaches“ auf der

Übertragungsebene(Tiefenstrukturebene) während der ‚sentance to sentance‘ maschiniellen Übersetzung im Rahmen eines paradigmatischen Transfer betrachten.

Page 3: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

3

Die Übertragung(Transfer) auf syntaktischen Ebene hat mit der Übertragung 3 grossen Arten der linguistischen Informationen zu tun:

1. Lexikal units( lexical transfer)2. Grammemic transfer( inflectional meanings)3. Syntactic constructions( syntactic transfer)

Page 4: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

4

Problem der „syntactic mismaches“:

1. Interlinguistische und intralinguistische Natur der „syntactic mismaches“.

2. Relevante Aspekte von theoretical framework:“ The Meaning-Text Theory(MTT).

Page 5: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

5

Arten der „mismaches“( translation divergences) Dorr(1993,1994)

1. „Themtic divergence“: mismatches aufgrund der syntaktischen actant-permutation oder conversion.

I like this picture. Mne navritsja èta kartina.

Das englische syntaktische Subjekt I entspricht semantisch dem indirektem Objekt Mne im Russischen.

Page 6: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

6

2. „demotional/promotional divergence“: mismatches aufgrund der dependency Inversion oder head switsching.

I just learnd that. Je viens de la‘apprendre. ( I COME FROM THAT TO-LEARN)

Ich schwimme gern. I like swimming.

Die adverbialbestimmung Modifikator in dem ersten Satz jedes Paares entspricht semantisch dem finiten Verb des zweiten Satzes.

Page 7: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

7

3. „lexical conflational divergence“: mismatches aufgrund lexeme-phrase substitution oder lexical fission/fussion.

I stabbed John. Yo le di a John una puñalada. ( I TO-HIM GAVE TO JOHN A STAB)

I like Mary. Ich habe Mary gern.

Die verbale lexeme im ersten Satz vom jeden Paar entspricht einer verbalen Ausdruck im zweiten Satz.

Page 8: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

8

4. “categorial divergence”: Mismatches aufgrund part-of-speech Änderungen.

I am hungry. J’ai faim. (I HAVE HUNGER)

Die gleiche Bedeutung wird durch ein Adjektiv im Englischen und ein Substantiv im Französischen zum Ausdruck gebracht.

Page 9: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

9

5.”structural divergence”: Mismatches aufgrund function-word introduction/elimination

Je lirai.(I READ +fut+1st+person)I will read.

He entered the room.Er trat in das Zimmer ein.(HE STEPPED IN THE ROOM IN)

Die gleiche Bedeutung wird durch ein Aufix im Französischen und ein Auxiliary im Englischen, oder durch ein Verb ohne Präposition im Englischen und ein Verb mit Präposition, im Deutschen zum Ausdruck gebracht.

Page 10: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

10

Dorr's Typologie diente als Ausgangspunkt für eine Reihe von Untersuchungen über das Problem der syntactic mismatches im MT.

Mit Hilfe dieser Typologie versucht man einen universellen Kalkül der syntactic mismatches zwischen den Sprachen zu entwickeln und eine Methode für seine Abgabe in einer einheitlichen Art und Weise vorzuschlagen.

Page 11: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

11

Die intra und inter-linguistische Natur der syntactic mismaches:Das Phänomen der syntaktischen mismatches ist so viel interlinguistik wie intralinguistik. In anderen Worten, äquivalente Strukturen innerhalb einer Sprache(Paraphrasen), zeigen mismaches von der gleichen Art wie die Art zwischen äquivalent syntaktische Strukturen zwischen zwei verschiedenen Sprachen.

Page 12: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

12

Intralinguistische Beispiele:

1. Actant conversion mismatch:Ich mag das Bild.- Mir gefällt das Bild.

2. Head-switching mismatch:Ich mag schwimmen.- Ich schwimme gern.

3. lexical fission/fusion mismatch:Ich schuss auf john.- Ich gab auf john einen Schuss ab.

Page 13: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

13

4. Part-of-Speech mismatch:Ich bin hungrig.-Ich hab Hunger.

5. Functional word introduction/elimination mismatch.a. Er las.- Er hat gelesen.b. Er betrat das Zimmer.- Er trat in das Zimmer ein.c. Ja budu sobirat’sja zavtra.- Ja soberus’ zavtra.

Page 14: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

14

Deshalb können wir schließen, dass strukturelle mismatches zwischen semantisch äquivalenten Ausdrücken verschiedener Sprachen, einen bestimmten Fall von einem allgemeinen Phänomen repräsentieren:

Die Gründung der Entsprechungen zwischen semantisch äquivalente aber strukturell (= syntaktisch) divergierende Ausdrücke ist nichts als paraphrasieren.

Daher kann das Problem der structural mismaches im MT gelöst werden, indem einen allgemeinen Mechanismus zu paraphrasieren - sowohl intra- als auch interlinguistisch benutzt wird.

Page 15: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

15

MTT MTT bietet eine allgemeine intralinguistic

paraphrasingsystem(Žolkovskij 1967; Melčuk 1974, pp 149, 1988b, 1992; Milicevic 2003). Diese paraphrasingsystem ist früher, unter anderen Systemen, von Sanromán vilas ua. (1999) und Apresjan ua. (Im Druck), intralinguistisch an der Quell-Sprache Seite benutzt worden, um die Quellsprache-Strukturen zu den Zielsprache-Strukturen anzupassen. Wir nehmen dieses System in unserem Konzept für die interlinguistische Auflösung von Quell- und Zielsprache Structure-mismaches.

Page 16: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

16

Die theoretischen Rahmen(theoretical framework)

Angesichts der Komplexität der Aufgabe in MT, muss die Übertragungsphase so viel wie möglich verkürzt werden, und die intralinguistische Phenomene müssen an der Quell-Seite(=während der Analyse), oder an der Ziel-Seite(während der Synthese) behandelt werden.

Die Ebene, auf der die Übertragung erfolg ist, ist in MTT die Tifensyntaktischen Struktur.

Die TSyntS(DSyntS) ist abstrakt genug, um alle Arten von lexikalischen und syntaktischen divergences zu verhindern.

Page 17: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

17

General Schema der Übertragung

Page 18: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

18

Unser Ziel ist in diesem Beitrag ein zweifaches:

(i) eine Beschreibung aller logisch möglichen Arten von syntactic missmaches

(ii) zu definieren und zu zeigen, dass die Struktur der Universal-Transfer(paraphrasieren)-Regeln notwendig und ausreichend für die Zuordnung zwischen zwei beliebigen tief syntaktischen Strukturen sind, in denen mindestens ein „mismatches“ zu finden ist .

Der Vorschlag: Transfer als paraphrasieren

Page 19: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

19

The syntactic transfer engine(STE)

Die Natur dieser Regeln setzt eine besondere Architektur des Übertragung-Motors voraus, die in der Lage ist, mit syntactic mismatches zwischen den TsyntS-en umgehen zu können.(der syntaktische Transfer Engine, STE).

Page 20: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

20

STE muss die folgenden drei Hauptkomponenten haben:

1. Formalisierte einsprachige "erklärende kombinatorische Wörterbücher"(ECDs) für die Sprachen. Diese Lexika sind unabhängig von dem Paar-Sprachen und neutraler, in dem Sinne, dass jeder kann entweder als eine Quell- oder eine Zielsprache lexikon benutzt werden. Sie beinhalten unter anderem die lexikalische co-occurrence Informationen der Sprache, die in Bezug auf die lexikalischen Funktionen sind. (LFs) (vgl. Ziff. 3.1.1 und Mel'fuk 1996 für eine detaillierte Einführung in die LFs).

Page 21: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

21

2. Eine Reihe von lexikalischen zweisprachigen Korrespondenz Indizes für die Sprachpaare. Eine zweisprachige lexikalische Index (BLI), die für jedes Paar von Sprachen spezifisch ist und eine neutrale Liste von Paaren der translationale equivalent-LUs von LS und LT darstellt.

3. Eine Reihe von Transfer-Paraphrasing-Regeln, die die Zuordnung zwischen equivalent-syntaktischen Strukturen von LS und LT durchführen.

Page 22: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

22

Bilingual lexikalische Index BLI ist grundsätzlich auf tiefe LUs der Sprach-Paare beteiligt.

So, in der englischen Teil eines englischen BLI ist PAY nicht als in pay attention, sondern nur so beteiligt: ATTENTION:Pay ist eines der Elemente des Wertes LF Oper1 von ATTENTION.

Weder enthält er LAUNCH noch ATTACKN wie in launch an attack, sondern nur ATTACKV: ATTACKN ist ein Element des Wertes LF S0 auf ATTACKV. Und es ist weder HEAVY noch RAINN wie in heavy rain, aber nur RAINV.

Page 23: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

23

„regular u. irregular“ Äquivalenze Lexikalische Äquivalenzen in einer BLI lassen sich

in zwei großen Klassen aufteilen: "regular"Äquivalenze, die keine structural mismatches zeigen und können in Form von LU-Paare zum Ausdruck kommen, und "irregular"Äquivalenzen, die zu einer structural mismatches zeigen und eine spezifische Umwandlung erforderlich ist, um diese mismatches aufzulösen.

Page 24: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

24

„regulär“ Äquivalenzen Mit Bezug auf die regulär lexikalische Äquivalenzen, sind wieder

zwei Fälle zu unterscheiden:

1. LS hat mindestens eine semantisch voll passende Übersetzung, die LT entspricht. In diesem Fall erhält LS nur diese LT als seine Übersetzungsäquivalent und alle exakte und mehr spezielle Synonyme von LT sind nicht in der BLI, sondern in der Monolingual LT ECD zu finden, und werden bei der Synthese ausgesucht.

Beispiel: (DEEP, PROFOND)(CHAIR1, CHAISE) (CHAIR2, CHAIRE)

Page 25: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

25

2. LS verfügt nicht über eine voll passende Übersetzungsäquivalent, aber ein oder mehrere semantisch nicht genau passende Übersetzungsäquivalente, die kreuzende Synonyme von einander sind. In diesem Fall, LS erhält alle diese Synonyme als seine Übersetzungsäquivalente.

Beispiele:(ANSPRACHE, OBRAŠČENIE,

PRIZYV, VOZZVANIE)

Page 26: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

26

„irregulär“ Äquivalenzen Was als irregulär lexikalische Äquivalenzen betroffen sind, jede

Übersetzungsäquivalenz ist von der Form (LS, LT, Ψ), wo Ψ ein LF ist. Ψ(LS)= LT - Auf diese Weise, bestimmt Ψ eindeutig die Art des mismaches, die durch die Übersetzung LS zu LT auftaucht und auch ihre Resolution. (Anti, Conv21 und //Adv1 sind LFs, deren Werte sich in der entsprechenden einsprachige ECDs befinden.)

Beispiel:a. (SHALLOW, PROFOND, Anti) b. (LIKE, PLAIRE, Conv21) c. (SOLER, HABITUELLEMENT , //AdV1)  Julie likes Paul. ≡ Paul plait à Julie. Maria suele leer. ≡ Maria lit habituellement. "Maria usually reads."

Page 27: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

27

Transfer- paraphrasierungsregeln Drei verschiedene Arten von Transfer- paraphrasierungsregeln sind zu

unterscheiden:

1. Eine Reihe von elementaren lexikalischen Äquivalenzen ausgedrückt in der LFs. Sie sind universall.

2. Eine Reihe von elementaren syntaktischen Operationen, die den tief syntaktischen Baum in Zielsprache "durch die Anwendung einer lexikalischen Äquivalent darstellen. Die sind notwendig, um sicherzustellen, dass der Baum wohlgeformt und semantisch äquivalent zu dem tief syntaktischen Baum in Ausgangsprache ist.

3. Eine Reihe von syntaktischen Anpassungsoperationen, die sich um den Kontext kümmern.

Page 28: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

28

Definition von TsynS

Ld , Gsem und Rdsynt sind drei disjunkten Alphabeten der TsyntS, wo Ld die Menge der tiefenlexikalischen Einheiten (LU), Gsem die Menge der semantischen grammemes und Rdsynt die Menge der tiefensyntaktischen Beziehungen ist.

TsyntS ist eine Tupel über Ld U Gsem U Rdsynt.

Page 29: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

29

Ld: Deep lexical units (tiefenlexikalischen Einheiten):

Die Menge der tiefen LUs von L enthält alle LUs ( Lexeme und Idiome) von L mit folgenden Ergänzungen und Eliminierungen.Ergänzungen:(i) LF Sombole, (ii) fiktive lexeme

Eliminierungen: (i) strukturelle Wörter, (ii) Personalpronomen, (iii) Wert der LF

-Eine analytische Form: have been paid PAYind, pass, pres, perf, non-progr. -Alle propositionen und konjunktionen werden weggelassen:

Insists on departure: INSIST-ΙΙ → DEPARTUREQuarrel between friends: QUARREL-Ι → FRIENDS Know that she is sleeping:

KNOW- ΙΙ → SLEEPind, act, pres, non-perf, progr-Ι →SHE

Page 30: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

30

-All Personalpronomen(3rd person) werden durch ihre References ersetzt:

a. Taking the book, John put it on the table.b. Taking the book, John put THE BOOK on the table.-Ein Idiom wird als eine Knote repräsentiert:a. John got his second wind: JOHN ← Ι -[ GET- ONE’S- SECOND- WIND]b. John barks up the wrong tree: JOHN ← Ι -[BARK- UP- THE- WRONG- TREE ]

Page 31: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

31

LF LF lassen sich in zwei Arten aufteilen: Paradigmatische LF

und syntagmatische LF Paradigmatische LF vertreten lexikosemantische Ableitungen(

wie der Namen der Aktion, Prozess, etc.): Adverbial noun (S0) The name of the actant of an action, State, process, etc. (Si) The name of the characteristic property of the ith actant of an

action, state, process, etc. (Ai) The name of a conversiv of L (Convij) Syntagmatische LF: Magn, Operi, Reali, Son

Page 32: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

32

Page 33: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

33

Page 34: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

34

Der Wert eines syntagmatischen LF ist in den meisten Fällen zusammen mit L als einen syntaktischen Abhängigen oder „gouvernor“ von L zum Ausdruck gebracht. Aber in einigen Fällen, ein Element der Wert von f(L) drückt den Sinn des LF f zusammen mit der Bedeutung von L. Ein solches Element wird als „fused“ bezeichnet:

Heavy= Magn(RAIN)Downpour= //Magn(RAIN)

Spread=PreparReal1 (BUTTER)Butter= //PreparLabreal12 (BUTTER)

Page 35: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

35

In paradigmatischen LFs kann ein Lexem L1, der ein Element der Wert einer paradigmatischen LF f von dem Schlüsselwort L2 ist, in TsyntS durch die funktionale Notation ersetzt werden, nur wenn die drei folgenden Bedingungen gleichzeitig erfüllt sind:

- f steht nicht für eine Synonym, eine Antonym oder ein konversiv.- Die Bedeutung von L1 ist die genaue zusammensetzung der Bedeutung von L2 und f.- Die Bedeutung von L1 und L2 ist gleich und L2 ist semantisch die Grundlage(Basis) von L1:

V0(ATTACKN) erscheint nicht in der TsyntS. Der Nomen Attack ist nicht semantisch der Basis von den Verb attack aber die umgekehrte Form ist schon richtig: S0(ATTACKV)

Page 36: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

36

Gsem: deep grammemes( tief-grammemes): Geschlecht, case, verbal Person und Numerus

sind syntaktische grammemes und erscheinen nicht in OsyntS und TsyntS.

RTsynt: deep- syntactic relation (tiefensyntaktischen Beziehungen):

Die sechs actantial DsyntRels( Ι, ΙΙ, ...,VΙ) Attributive TsyntRel(ATTR) Coordinative TsyntRel(COORD) Appenditive TsyntRel(APPEND)

Page 37: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

37

Vier lexikalischen Elemente der TsyntS, die nicht in der OsyntS erscheinen:

Zero LUs (unpersönliche Pronomen):

Page 38: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

38

- LF Symbole - Elidierte Lus:

Duermo’I sleep’ erscheint in TsyntS als YO←Ι-DORMIRind,pres,non-perf,non-progr - Fiktive LUs, die Bedeutungen durch syntaktischen Konstruktionen

repräsentieren:

Page 39: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

39

Andere Tranfer-Repräsentationen Jackendoff’s(1990) Lexical Conceptual

Structures(LCSs) LFG’s f-structure (Bresnan 1982) Discourse Representation Theory (DRT)

( Kamp und Reyle 1993; Reyle 1993) Situation Semantics(Barwise und Perry

1983)

Page 40: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

40

Beispiel von TsyntS:

Page 41: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

41

Page 42: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

42

Pseudo-mismatches: Pseudo mismatches aufgrund

oberflächensyntaktischen Phänomene: Hilfsverben aller Art:

LIREfut - Ι →MOI ≡ READfut- Ι →Ι(French) le loup THE WOLF ↔(Romanian) lupul WOLF-def ‘the wolf’(English) more beautiful ↔ (German) schöner BEAUTIFUL-comp

Page 43: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

43

Präpositionen und Konjunktionen:

Page 44: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

44

Die Idiome(teilweise) Syntaktische Idiosyncrasies:

Page 45: Syntactic mismatches in machine translation  Igor Mel‘čuk, Leo Wanner

syntactic mismaches in machine translation

45

2- Pseudo mismatches aufgrund eingeschränkten lexikalischen co-accurrence: