Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script...

34
Extraktion von Preordering-Regeln ur Maschinelle ¨ Ubersetzung Gruppe4 -Otedama- Julian Hitschler, Benjamin K¨ orner, Mayumi Ohta Computerlinguistik Universit¨ at Heidelberg Softwareprojekt SS13

Transcript of Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script...

Page 1: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Extraktion von Preordering-Regelnfur Maschinelle Ubersetzung

Gruppe4 -Otedama-

Julian Hitschler, Benjamin Korner, Mayumi Ohta

ComputerlinguistikUniversitat HeidelbergSoftwareprojekt SS13

Page 2: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Ubersicht

1. Problemstellung

2. Review

3. Ergebnisse

4. Reflektion

Page 3: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Ubersicht

1. Problemstellung

2. Review

3. Ergebnisse

4. Reflektion

Page 4: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Problemstellung

Problem! IBM Modelle bestrafen Reordering im Zielsatz! Verursacht falsche Ubersetzungen bei Sprachpaaren mitdivergierender Syntax

! head-initial(Englisch) vs. head-final(Japanisch)

Ansatz! Reordering des Ausgangssatz als Preprocessing Step! Heuristik: Minimierung des Crossing Score

! Referenzpaper: Genzel, 2010[1]

Page 5: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

KorpusKyoto Wiki English-Japanese Parallel Corpus

! stammt von Wikipedia Artikeln uber die Stadt Kyoto! enthalt knapp halbe Million Satzpaare

set articles sentences en words ja wordsDev 15 1166 24309 24707Test 15 1160 26734 26279Train 14126 440286 11541358 10821659Train (clean) 14126 343617 6365202 6065075Tune 15 1235 30822 31409

Page 6: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Workflow

1) - 3) Preprocess

Page 7: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Workflowkyoto.xml -> kyoto.en & kyoto.ja

Page 8: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Workflow

4) generate trees

Page 9: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Workflowkyoto.en & kyoto.ja -> kyoto.en.trees & kyoto.ja.trees

Page 10: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Workflow

5) extract rules

Page 11: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Workflowkyoto.trees -> FINALE RULEBASE

Page 12: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Workflow

6) train and tune moses

Page 13: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

WorkflowFINALE RULEBASE -> moses.ini

Page 14: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Workflow

7) test and evaluate

Page 15: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Workflowmoses.ini -> test.out & test.grade

Page 16: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Systemarchitektur

Page 17: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Ubersicht

1. Problemstellung

2. Review

3. Ergebnisse

4. Reflektion

Page 18: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Algorithmus

Page 19: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Beispielregel

Page 20: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Beispielregel

Page 21: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

KorpusWas haben wir gleich und anders als Genzel gemacht?

Ubersetzungsrichtung

! Englisch! Japanisch als auch Japanisch! EnglischGenzel: nur Englisch! Japanisch (und andere Sprachpaare)

Umfang

! 6.3M Worter als TrainingssetGenzel: 28M - 260M Worter pro Sprache als Trainingsset

Page 22: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

RegelnWas haben wir gleich und anders als Genzel gemacht?

Generalisierung

! nur eine Regel pro IterationGenzel: top k Regeln mit der Elimination der Uberlappung

! enorme Vereinfachung des Algorithmus! großere Robustheit des gelernten Regelsets

Metrik

! Evaluation auf separatem Random Subset! kumulative Differenz zwischen vor und nach Umordnung! estimated BLEU Score nicht verfolgt

Matching

! weniger strenge Kriterien (nur bis 4 Features)Genzel: kleine Featuretabelle aber strengeres Matching

Page 23: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

BaumeWas haben wir gleich und anders als Genzel gemacht?

Features

! Stanford Dependency Types und POS fur das Englische! ausgewahlte Kasuslabels des KNParsers fur das Japanische

Alignments

! nur bis IBM Model 1

! weniger Bias zu Monotonizitat! unwahrscheinlichen Alignments nicht geloscht

! sprachspezifisch, Art des Kontext-Matchings?Umordnung

! mit Tiefensuche! nur bis 3 Kindknoten auf einmal (Fensterverschiebung)

Page 24: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Ubersicht

1. Problemstellung

2. Review

3. Ergebnisse

4. Reflektion

Page 25: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Ergebnisse: en! ja

n-gram distortion rule extraction rule tune en! ja en! jaorder limit trainset size size BLEU baseline3 0 50k 20 - 14.74 10.233 5 50k 20 - 14.74 12.403 -1 50k 20 - 15.09 12.523 -1 80k 20 - 14.44 12.523 5 80k 20 - 14.11 12.403 5 80k 30 - 14.29 12.403 5 80k 50 - 13.59 12.403 5 80k 100 - 13.78 12.403 5 80k 200 - 14.30 12.40

Page 26: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Ergebnisse: ja! en

n-gram distortion feature train rule tune en! ja en! jaorder limit size size size BLEU baseline3 0 4 80k 20 + 14.11 15.883 5 4 80k 20 + 15.72 17.213 -1 4 80k 20 + 16.81 18.923 0 4 80k 50 + 14.15 15.883 0 4 80k 100 + 14.14 15.883 0 4 80k 200 + 13.61 15.883 0 4 80k 500 + 13.74 15.883 0 8 80k 20 + 11.84 15.883 5 8 80k 20 + 13.66 17.213 -1 8 80k 20 + 14.95 18.92

Page 27: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Evaluation

Baseline (ohne Reordering)

Source:Output: dogen ( or ) in the early kamakura period ) was a zen monk .

Jenglish (mit Reordering)

Source:Output: the dogen ( genho was a zen monk in the early kamakura period.

Goldstandarddogen was a zen monk in the early kamakura period .

Page 28: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Fazit und Ausblick

! Algorithmus vereinfacht! Algorithmus funktioniert auch auf kleinem Datenset! Ausprobieren der Regelsets auf parellelen Korpora“handelsublicher” Große

! Ergebnisse JP - EN stehen noch aus! Vergleich Estimated BLEU / Crossing Score! Mehr Daten fur die Learning Curve! Ausprobieren von liberalerem / strengerem Kontext-Matching(3, 5 Features, etc.)

Page 29: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Ubersicht

1. Problemstellung

2. Review

3. Ergebnisse

4. Reflektion

Page 30: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Lessons Learned

Entwicklungsumgebung

! SVN/Google Code via Eclipse hat sich alsVersionskontrollsystem bewahrt

Kommunikation

! hat gut uber Email funtioniert! Foren / Wikis bei Projekten dieser Große nicht notig

Projektmanagement

! Arbeitseinteilung hat gut funktioniert und war angemessen! eventuell mehr Code Reviews / festere Deadlines

Page 31: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Ablauf

Plan AblaufMai Recherche, Planung Recherche, Planung

4. Juni Datentypen, Fileformate Datentypen, Fileformate11. Juni Vollstandiges System Vollstandiges System

- EN! JP mit CS - EN! JP mit CS18. Juni - EN! JP mit BLEU25. Juni - JP! EN - auf Pseudo-Hadoop2. Juli Weitere Sprachen - auf echtem Hadoop9. Juli Optimierung Workflow-Scripting16. Juli Experimente, Test JP! EN, Experimente23. Juli Dokumentation Dokumentation, Test30. Juli Abgabe Abgabe??

Page 32: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Special Thanks!

Graham Neubig (NAIST)hat ein tolles Moses-Script veroffentlicht!

Gruppe3hat netterweise ihr kompiliertes Moses auch fur unszur Verfugung gestellt!

Hiko Schamonihat uns vor allem bei Hadoop-Problemen geholfen!

Laura Jehlhat uns so umfassend betreut!

Page 33: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Literatur

D. Genzel.Automatically Learning Source-side Reordering Rules forLarge Scale Machine Translation.Proceedings of the 43rd Annual Meeting on Association forComputational Linguistics ACL 2010, (August):376-384, 2010.

M. Collins, et. al.Clause restructuring for statistical machine translation.Proceedings of the 43rd Annual Meeting on Association forComputational Linguistics ACL05, (June):531-540, 2005.

Page 34: Extraktion von Preordering-Regeln fur Maschinelle ... · hat ein tolles Moses-Script veroffentlicht!¨ Gruppe3 hat netterweise ihr kompiliertes Moses auch fur uns¨ zur Verfugung

Data & Tools

Kyoto Free Translation Task version 1.4http://www.phontron.com/kftt/index.html

Moses version 1.0http://www.statmt.org/moses/

SRILM version 1.7.0http://www.speech.sri.com/projects/srilm/

GIZA++ version 1.0.7https://code.google.com/p/giza-pp/

Stanford Parser version 2.0.5http://nlp.stanford.edu/software/lex-parser.shtml

KN Parser version 4.1http://nlp.ist.i.kyoto-u.ac.jp/EN/index.php?KNP