Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte...

23
Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle Übersetzung Dr. Anke Holler 07.07.2005

Transcript of Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte...

Page 1: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

Computergestützte Übersetzung

Evgenia Antokolskaya

Institut für Allgemeine und Angewandte SprachwissenschaftSeminar für ComputerlinguistikPS Maschinelle ÜbersetzungDr. Anke Holler07.07.2005

Page 2: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

Einleitung

Die Idee mit Hilfe eines Computers zu übersetzen wurde erst Die Idee mit Hilfe eines Computers zu übersetzen wurde erst 1980 von Martin Kay vorgeschlagen. 1980 von Martin Kay vorgeschlagen.

Die Möglichkeiten, die die maschinelle Übersetzung damals Die Möglichkeiten, die die maschinelle Übersetzung damals anbieten konnte, waren nicht vollständich. Nämlich hat die anbieten konnte, waren nicht vollständich. Nämlich hat die Zielsprache nach dem Übersetzen nicht immer perfekt Zielsprache nach dem Übersetzen nicht immer perfekt ausgesehen. Um das zu beseitigen könnte man sich an einen ausgesehen. Um das zu beseitigen könnte man sich an einen Menschen wenden.Menschen wenden.

Der Computer macht die mühsame Arbeit,Der Computer macht die mühsame Arbeit,der Mensch kontrolliert! Oder der Mensch kontrolliert! Oder umgekehrt umgekehrt

umgekehrt

Page 3: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

Computergestützte Übersetzung (Definition)

der Computerder Computer übersetzt, der Mensch übersetzt, der Mensch hilft dabei durch Vor- hilft dabei durch Vor- oder Nachbereitung des oder Nachbereitung des zu übersetzenden zu übersetzenden Materials (pre- bzw. Materials (pre- bzw. post-editing). Man post-editing). Man spricht hier von human-spricht hier von human-aided machine aided machine translation (HAMT). translation (HAMT).

der Menschder Mensch übersetzt, übersetzt, der Computer unterstützt ihn der Computer unterstützt ihn dabei durch automatisches dabei durch automatisches Nachschlagen von Nachschlagen von Terminologie (automatic Terminologie (automatic dictionary look-up), durch dictionary look-up), durch Vergleichen von Texten mit Vergleichen von Texten mit früheren Übersetzungen früheren Übersetzungen (translation memory) etc. (translation memory) etc. Man spricht dabei von Man spricht dabei von machine-aided human machine-aided human translation (MAHT).translation (MAHT).

Page 4: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

Translator´s Workbench

Die Idee von der Kontrolle eines Menschen über die Arbeit Die Idee von der Kontrolle eines Menschen über die Arbeit

eines Computers beim Übersetzen wurde weiter verfolgt.eines Computers beim Übersetzen wurde weiter verfolgt.

Man nennt das VerfahrenMan nennt das Verfahren ein ein Translator´s Work-Translator´s Work-

bench (TWB)bench (TWB) oder Translator´s Workstation. oder Translator´s Workstation.

Page 5: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

Translator´s Workbench Dokumentenverarbeitung

Mittel für die Arbeit mit einer Sprache (Monolingual resources)

Mittel für die Arbeit mit Sprachpaaren

(Bilingual resources)

MÜ-orientierte Mittel

Kommunikation

Administrative Unterstützung

Page 6: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

Translator´s Workbench

Die Integrierungsprobleme

Komplezierte Aufgaben, die ein TWB lösen mag, verlangen ein komplexes Interface

Das System hat aber auch negative Seiten:Das System hat aber auch negative Seiten:

Page 7: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

wichtige Komponente der CAT-Anwendungen

2)Bilingual Alignment

3)Subsentential Alignment

1)Translation Memory

TMTM

CATCAT

BABA SASA

Page 8: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

Weitere Komponente CAT

Eine Eine Terminologische DatenbankTerminologische Datenbank ist eine ist eine Datenbank,Datenbank, mit der mit der eine eine Terminologie Terminologie verwaltet werden kann. Dies ist vor allem für verwaltet werden kann. Dies ist vor allem für die die ÜbersetzungÜbersetzung sinnvoll. Die Anwendungszwecke können von sinnvoll. Die Anwendungszwecke können von einfachen einfachen WörterbüchernWörterbüchern und und GlossarenGlossaren bis hin zu strukturierten bis hin zu strukturierten ThesauriThesauri reichen. reichen.

FilterprogrammeFilterprogramme zur Anbindung an zur Anbindung an TextverarbeitungTextverarbeitung- und - und DTPDTP--Programme Programme

Page 9: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

Translation Memory (Übersetzungsarchiv)

die die Übersetzungen (in der Regel Übersetzungen (in der Regel "menschlicher" "menschlicher" ÜbersetzerÜbersetzer) und bietet dem ) und bietet dem BearbeitBearbeiter diese er diese bereits vorhandenen bereits vorhandenen ÜÜbersetzungen später zur bersetzungen später zur Wiederverwendung an. Hierbei können nicht nur identische, Wiederverwendung an. Hierbei können nicht nur identische, sondern auch ähnliche Ausgangstextsegmente erkannt werden.sondern auch ähnliche Ausgangstextsegmente erkannt werden.

Das TMDas TM speichert

Page 10: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

Translation Memory

Man braucht Man braucht eine Datenbankeine Datenbank, wo die vom Übersetzer , wo die vom Übersetzer bearbeiteten Sätze gespeichert werden.bearbeiteten Sätze gespeichert werden.

Die einzelnen Einheiten der Datenbank werden Die einzelnen Einheiten der Datenbank werden SegmenteSegmenteoderoder Translation Units (TUs) Translation Units (TUs) genannt. genannt.

Der Zugriff auf und die Arbeit mit Translation-MemoryDer Zugriff auf und die Arbeit mit Translation-Memoryerfolgt über erfolgt über TranslationTranslation MemoryMemory SystemeSysteme. .

Page 11: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

Translation Memory

Page 12: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

Translation Memory Similarity Measure – wie berechnet man die Ähnlichkeit der

Sätze?

Die vom System rausgesuchten und wiedergegebenen Sätze/Segmente sollen den vom Bearbeiter angewählten Sätzen semantisch und syntaktisch ähnlich sein. –

...eine sogar für den Menschen schwierige Aufgabe

Input:Input: Select one of the optionSelect one of the option

1.Choose one of the alternatives given1.Choose one of the alternatives given2.Select none of the options.2.Select none of the options.3.Make a selection.3.Make a selection.

Page 13: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

Translation Memory Similarity MeasureDas System sucht eigentlich aus der Datenbank diejenigen Das System sucht eigentlich aus der Datenbank diejenigen Sätze/Segmente raus, die die größte Anzahl von ähnlichen Sätze/Segmente raus, die die größte Anzahl von ähnlichen Worten haben.Worten haben.

Die Probleme:Die Probleme:

1.1. Die Länge des wiedergegebenen Segmentes kann zu groß sein.Die Länge des wiedergegebenen Segmentes kann zu groß sein.

2.2. Die Wortordnung.Die Wortordnung. ((the number formatthe number format oder format the number )format the number )3.3. Synonyme.Synonyme. ((enter a digit enter a digit oder type in a number from 0-9) type in a number from 0-9)

Page 14: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

Translation Memory Stoplists

String and Word Similarity; Stemming

Input:Input: Delete all the files in the folderDelete all the files in the folderTU-1: Put TU-1: Put all theall the cartridges cartridges in thein the safe. safe.TU-2: TU-2: Delete folder filesDelete folder files..

Delete: Delete: deletes, deleted, deleting, deletiondeletes, deleted, deleting, deletionRelation: Relation: relate, rationalrelate, rational

Page 15: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

Translation Memory Inverted Files

add

bookmark

click

menu

select

icon

a b

a(2) b

a c

a

b

c

a. To add a bookmark, click on the Bookmark menu.a. To add a bookmark, click on the Bookmark menu.b. Select „Add Bookmark“.b. Select „Add Bookmark“.c. Click on the icon.c. Click on the icon.

a: 5a: 5

b: 3b: 3

c: 2c: 2

Page 16: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

Translation Memory

Zwei wichtigste Parameter bei der Wiedergabe des Zwei wichtigste Parameter bei der Wiedergabe des Ergebnisses:Ergebnisses:

1.1. PrecisionPrecision2.2. RecallRecall

Page 17: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

TM System

Page 18: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

Bilingual AlignmentIIm m ÜbersetzungsprozessÜbersetzungsprozess versteht man darunter einen Vorgang, der versteht man darunter einen Vorgang, der darin besteht, einen Ausgangstext, Segment für Segment, mit darin besteht, einen Ausgangstext, Segment für Segment, mit einem entsprechenden Zieltext als Äquivalente zu paaren. Die so einem entsprechenden Zieltext als Äquivalente zu paaren. Die so entstehende entstehende ÄquivalenztabelleÄquivalenztabelle wird in der Folge als wird in der Folge als ÜÜbersetzungsbersetzungs--speicher (speicher (TMTM) genutzt. Durch das Alignment können Über) genutzt. Durch das Alignment können Über--setzungen genutzt werden, die zuvor ohne Computerhilfe übersetzt setzungen genutzt werden, die zuvor ohne Computerhilfe übersetzt wurden.wurden.

Page 19: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

Bilingual Alignment

Length-based alignment

Text-based alignment

Ein kurzer Satz in der Augangssprache wird an einen kurzen Satz Ein kurzer Satz in der Augangssprache wird an einen kurzen Satz in der Zielsprache angeordnet, ein langer – an einen langen. in der Zielsprache angeordnet, ein langer – an einen langen.

Es geht um die Vergleichung der Worte oder anderen Textkom-ponente, z. B. Figuren, Namen, Titel, Daten zwischen den beiden Texten.

Page 20: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

Subsentential AlignmentBeim Übersetzen gibt es manchmal sehr komplezierte technische Beim Übersetzen gibt es manchmal sehr komplezierte technische Termini, deren Übersetzung sogar ein kundiger Bearbeiter Termini, deren Übersetzung sogar ein kundiger Bearbeiter bezweifeln kann. bezweifeln kann. Als Lösung kann der Bearbeiter Als Lösung kann der Bearbeiter ein Fragmentein Fragment aus dem schon aus dem schon übersetzten ähnlichen Text bekommen, wo die notwendigenübersetzten ähnlichen Text bekommen, wo die notwendigenTermini betroffen sind. Man sieht gleich die gesuchten Worte, die Termini betroffen sind. Man sieht gleich die gesuchten Worte, die markiert sind, und den übrigen Kontext.markiert sind, und den übrigen Kontext.

...on your SCSI port....on your SCSI port. TheThe optical charakter reader optical charakter reader is detected byis detected by thethe operating system.operating system.El sistema operativoEl sistema operativo detecta el detecta el lector lector óóptico de carptico de caráácterescteres. Una ventana.... Una ventana...

The accuracy of anThe accuracy of an optical charakter reader optical charakter reader depends on the... depends on the...La precisiLa precisióón de unn de un lector lector óóptico de carptico de caráácterescteres depende de... depende de...

Page 21: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

Subsentential Alignment

Beim Beim Terminology AlignmentTerminology Alignment sucht das System in den beiden sucht das System in den beiden Sprachen nach den angewählten Fachausdrücken, erst danach Sprachen nach den angewählten Fachausdrücken, erst danach versucht es die Anordnung zu erstellen: versucht es die Anordnung zu erstellen:

1. 1. Schritt:Schritt: a monolingual terminology identification stepa monolingual terminology identification step. Nur die . Nur die gesuchten Termini werden beachtet und bearbeitet. gesuchten Termini werden beachtet und bearbeitet.

2. Schritt:Schritt: a bilingual step. a bilingual step. Das Alignment selber.Das Alignment selber.

Page 22: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

Subsentential AlignmentBeim Beim Word AlignmentWord Alignment wird nicht nur unser Fachausdruck wird nicht nur unser Fachausdruck an seine Übersetzung angeordnet, sondern auch jedes weitere an seine Übersetzung angeordnet, sondern auch jedes weitere Wort im Text. Word-Alignment-Algorithmus kann dann wie Wort im Text. Word-Alignment-Algorithmus kann dann wie ein ein Bilingual-WörterbuchBilingual-Wörterbuch mit entsprechend angeordneten mit entsprechend angeordneten Worten aussehen. Worten aussehen.

En: Start the En: Start the operatingoperating systemsystem. Launch the . Launch the programm programm via the keyboardvia the keyboard

Sp: Comenzar el Sp: Comenzar el sistemasistema operativooperativo. Empezar el . Empezar el programaprograma mediante el mediante el teclado.teclado.

Page 23: Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle.

Literaturverzeichnis Trujillo, A. (1999): Translation Engines: Techniques for

Machine Translation, Springer Verlag. http://de.wikipedia.org/wiki/Computer_Aided_Translation http://www.cogsci.uni-osnabrueck.de/~reinhard/MT/

MT06.pdf http://www.iro.umontreal.ca/~simardm/emnlp99/node3.html