Computerunterstützte Übersetzung

of 128/128
MARMARA UNIVERSITÄT Fakultät für Wirtschafts- und Verwaltungswissenschaften COMPUTERUNTERSTÜTZTE ÜBERSETZUNG Ozan Can Çalı 49 / 2010 Deutschsprachige Abteilung für Wirtschaftsinformatik Vorgelegt bei: PD. Dr. Ulrich Tamm
  • date post

    28-Jun-2015
  • Category

    Documents

  • view

    586
  • download

    0

Embed Size (px)

description

Meine Abschlussarbeit über computerunterstützte Übersetzung. Sie umfasst eine kurze Geschichte der Anwendungen von Computern für Übersetzungszwecke, und wie eine computerunterstützte Übersetzung gemacht wird, bereichert mit den Verwendungen der meist-benutzten Algorithmen, Beispielen aus der IT-Welt die schon aktiv verwendet werden und einer Fallstudie am Ende.

Transcript of Computerunterstützte Übersetzung

MARMARA UNIVERSITTFakultt fr Wirtschafts- und Verwaltungswissenschaften

COMPUTERUNTERSTTZTE BERSETZUNG

Ozan Can al49 / 2010

Deutschsprachige Abteilung fr Wirtschaftsinformatik

Vorgelegt bei: PD. Dr. Ulrich Tamm

MARMARA UNIVERSITTFakultt fr Wirtschafts- und Verwaltungswissenschaften

COMPUTERUNTERSTTZTE BERSETZUNG

Ozan Can al49 / 2010

Deutschsprachige Abteilung fr Wirtschaftsinformatik

Vorgelegt bei: PD. Dr. Ulrich Tamm

EHRENWRTLICHE ERKLRUNG Hiermit erklre ich, dass ich die vorliegende Arbeit selbststndig und ohne Benutzung anderer als der angegebenen Quellen und Hilfsmittel gefertigt habe. Alle Stellen, die wrtlich oder sinngemss aus verffentlichten und nicht verffentlichten Schriften entnommen wurden, wurden als solche kenntlich gemacht. Diese Arbeit wurde in gleicher oder hnlicher Form noch keiner anderen Prfungsbehrde vorgelegt. stanbul, 05.06.2010 Ozan Can ALI

Betreuer PD. Dr. Ulrich TAMM

Gutachter Dr. Ela Sibel Bayrak Meydanolu

ABSTRACTFrom the beginning of intercultural interactions between societies onwards, the science of translation enabling intercultural communication has been of great importance. In the course of time, the necessity of making a lot of translations of good quality in a short period of time and especially providing consistency in the translations of similar texts have become prominent.

By means of the developments in computer technologies in the twentieth century, computer translation systems can perform automatic machine translations; however these translations are usually of very low quality that they even cannot be understood at all. Therefore, computer-assisted translation systems that help translators instead of performing automatic translations have been developed. Today, the need of releasing the finished translations in a simple manner in order that other translators could use them for supporting their own translation processes is satisfied. By these systems, translations can be made and stored electronically and also old translations can be transferred to databases. Besides, translations can be accessed by more than one translator and thus, time and work-force can be greatly saved by using these translators in translation processes. Accordingly, consistency is provided both between the source text and its translation, and also between similar translations.

The aim of the present thesis is to analyze the technical details of computer-assisted translation and to introduce the operation principles and usage instructions of computerassisted translation systems. Moreover, a translation process implemented with SDL Trados Computer-Assisted Translation System is explained in the last chapter.

ZETToplumlararas etkileimin balad yllardan itibaren, kltrler ve dolaysyla diller arasndaki iletiimi salayan eviri bilimi byk nem kazanmtr. Zamanla eviri srelerinde, ksa srede ok eviri yaplmas ve zellikle benzer metinlerin evirilerinin tutarl bir ekilde yaplmas gereklilii ne kmtr. 20. yzylda bilgisayar teknolojileri alannda yaanan gelimeler sayesinde, bilgisayar eviri sistemleri otomatik eviri yapabilmektedirler, ancak yaplan evirilerin ou anlalabilecek dzeyde bile olmamaktadr. Bu nedenle, eviri yapmak yerine evirmenlere eviri srelerinde yardmc olan bilgisayar destekli eviri sistemleri gelitirilmitir. Gnmzde, yaplan evirilerin, ilgili evirmenlerin srelerinde yararlanabilmeleri iin gizlilik snrlar erevesinde kolay yollarla kullanma ak hle getirilmesi salanmtr. Bu sistemler sayesinde eviriler elektronik ortamda yaplabilmekte ve eski eviriler elektronik ortama aktarlarak veritabanlarnda saklanabilmektedir. Ayn zamanda evirilere birden ok evirmen tarafndan eriilebilmekte ve bu eviriler, eviri srelerinde kullanlarak zamandan ve igcnden yksek oranlarda tasarruf edilmektedir. Bylece hem kaynak metinle evirisi arasnda, hem de benzer eviriler arasnda tutarllk salanmaktadr. Bu bitirme tezinin amac, makine evirisiyle bilgisayar destekli eviri arasndaki farklar ortaya koyarak, bilgisayar destekli eviri sistemlerinin alma prensiplerinin ve nasl kullanldnn incelenmesidir. Ayn zamanda son blmde, SDL Trados Bilgisayar Destekli eviri Sistemiyle gerekletirilmi bir eviri sreci anlatlmtr.

INHALTSVERZEICHNISABBILDUNGSVERZEICHNIS .............................................................................................. VI

TABELLENVERZEICHNIS ................................................................................................ VIII

ABKRZUNGSVERZEICHNIS ............................................................................................ IX

1. EINLEITUNG ...................................................................................................................... 1

2. BERSETZUNG MIT COMPUTERN ............................................................................. 4 2.1. MASCHINELLE BERSETZUNG ............................................................................... 4 2.1.1 Erstauftritt der maschinellen bersetzung ................................................................. 4 2.1.2. Warum versagt die maschinelle bersetzung? ......................................................... 4 2.1.2.1. Mngel der maschinellen bersetzung .............................................................. 5 2.1.3. Hauptarten von maschineller bersetzung ............................................................... 8 2.1.3.1. Regelbasierte Maschinelle bersetzung (Rule Based Machine Translation) . 8 2.1.3.2. Beispielbasierte Maschinelle bersetzung (Example Based Machine Translation - EBMT) ....................................................................................................... 8 2.1.3.3. Verwendung eines Wrterbuches fr den bersetzungsprozess ....................... 9

2.2. COMPUTERUNTERSTTZTE BERSETZUNG ..................................................... 12 2.2.1. Geburt der Computeruntersttzten bersetzung .................................................... 12 2.2.2. bersetzungsprozess ohne CAT - System .............................................................. 13 2.2.3. bersetzung mit CAT - System .............................................................................. 13 2.2.4. Grundlagen von CAT - Systemen ........................................................................... 14 2.2.4.1. bersetzungsspeicher (TM).......................................................................... 15

I

2.2.4.1.1. Wofr sind bersetzungsspeicher geeignet? ............................................. 16 2.2.4.1.2. Erstellung von TM Projekten ................................................................. 17 2.2.4.1.3. Zeichenstze von bersetzungsspeichern ................................................. 19 2.2.4.1.3.1. Single Byte Character Set (SBCS) ...................................................... 19 2.2.4.1.3.2. Double Byte Character Set (DBCS) und Multi Byte Character Set (MBCS) .................................................................................................................. 20 2.2.4.1.3.3. Verwendung von unterschiedlichen Zeichenstzen in bersetzungsspeichern .......................................................................................... 20 2.2.4.1.4. Unterschiedliche Anstze zu bersetzungsspeichern ............................... 21 2.2.4.1.4.1. bersetzungsspeicher der ersten Generation ...................................... 21 2.2.4.1.4.2. bersetzungsspeicher der zweiten Generation ................................... 22 2.2.4.1.4.3. bersetzungsspeicher der dritten Generation ..................................... 24 2.2.4.1.4.4. Verwendungsgebiete von unterschiedlichen Anstzen ....................... 24 2.2.4.1.5. Systemarchitektur der bersetzungsspeicher ............................................ 26 2.2.4.1.5.1. Vorverarbeitung .................................................................................. 28 2.2.4.1.5.2. Morphologische Syntaxanalyse .......................................................... 29 2.2.4.1.5.3. Invertierte Datei Erzeugung ............................................................. 30 2.2.4.1.5.4. Bestimmung der Synonyme ................................................................ 32 2.2.4.1.5.5. Baumstruktur - Erzeugung .................................................................. 33 2.2.4.1.5.6. Algorithmen der hnlichkeitssuche ................................................... 34 2.2.4.1.5.7. Wort-Synonym-Morphem-hnlichkeit .............................................. 36 2.2.4.1.6. Algorithmus fr die bereinstimmung von hnlichen Segmenten auf mehrere Schichten ..................................................................................................... 37 2.2.4.1.6.1. TELA - Struktur .................................................................................. 37 2.2.4.1.6.2. Teilweise bereinstimmung (Fuzzy Match) ...................................... 39 2.2.4.1.6.3. Vollstndige bereinstimmung (Exhaustive match) .......................... 39 2.2.4.1.6.4. Verfolgung (Trace) ............................................................................. 40II

2.2.4.1.6.5. Edit Distanz Prozess ........................................................................ 41 2.2.4.1.6.5.1. Zurckverfolgungsalgorithmus .................................................... 42 2.2.4.1.6.5.2. Einfache Rechnung der Edit Distanz ........................................ 43 2.2.4.1.6.5.3. Anpassung der Edit Distanz Methode an CAT - Systeme ..... 46 2.2.4.1.6.5.4. Rechnung der Edit Distanz mit Vektoren ................................. 48 2.2.4.1.7. Speicherung und Austausch von bersetzungsspeicherinhalten............... 51 2.2.4.1.7.1. Das TMX - Format.............................................................................. 51 2.2.4.1.7.1.1. Wie ist TMX entstanden? ............................................................. 52 2.2.4.1.7.1.2. Wer entwickelt das TMX - Format? ............................................ 52 2.2.4.1.7.1.3. Wie scheint das TMX - Format? .................................................. 53 2.2.4.1.7.1.4. Wie gut funktioniert TMX?.......................................................... 56 2.2.4.1.7.2. SRX Der Neue Standard .................................................................. 58 2.2.5. Werkzeuge von CAT - Systemen ........................................................................... 60 2.2.5.1. bersetzungsspeicher - Werkzeuge ................................................................. 60 2.2.5.1.1. Ergnzung neuer bersetzungseinheiten zum bersetzungsspeicher....... 60 2.2.5.1.2. Anwendung von bersetzungsspeicher whrend der bersetzung .......... 61 2.2.5.1.3. Konkordanzsuche ...................................................................................... 62 2.2.5.2. Zuordnungswerkzeuge ..................................................................................... 62 2.2.5.2.1. Wie funktionieren die Zuordnungswerkzeuge? ......................................... 63 2.2.5.2.2. Ein Zuordnungsprozess - Beispiel ............................................................. 64 2.2.6. Vergleich von unterschiedlichen CAT Systemen ................................................ 70 2.2.6.1. Qualittsfaktoren fr CAT - Systeme............................................................... 70 2.2.6.2. Eigenschaften wichtigster CAT Systeme und ihre Vergleiche ..................... 71 2.2.7. CAT Werkzeuge als Web Dienste .................................................................... 74 2.2.7.1. Google Translator Toolkit ................................................................................ 74

III

2.2.7.1.1. Google Translator Toolkit gegen (oder besser gesagt mit) Google Translate .................................................................................................................... 74 2.2.7.1.2. Wie funktioniert Google Translator Toolkit? ............................................ 75 2.2.7.1.3. Arbeitsablauf von Google Translator Toolkit ........................................... 75 2.2.7.1.4. Diskussionen ber Google Translator Toolkit........................................... 82 2.2.7.2. MyMemory Worlds Largest TM .............................................................. 83 2.2.7.2.1. Was unterscheidet sich bei MyMemory? .................................................. 84 2.2.7.3. Integration von Web Diensten mit CAT - Systemen .................................... 86

3. FALLSTUDIE .................................................................................................................... 87 3.1. Erstellung der bersetzungsspeicher............................................................................. 87 3.2. Trados-Template-Plugin fr Texteditoren ..................................................................... 89 3.3. Whrend des bersetzungsprozesses ............................................................................ 91 3.4. Import zu bersetzungsspeichern ................................................................................. 98 3.5. Export der bersetzungsspeicher ................................................................................ 101 3.6. Batch-Tools ................................................................................................................. 102 3.7. MultiTerm .................................................................................................................... 102 3.8. Umgebungen fr Mehrere Benutzer ............................................................................ 103

4. SCHLUSSFOLGERUNG ................................................................................................ 104

ANHANG .............................................................................................................................. 105 ANHANG A - Journalists' Junket to the Netherlands Gets Lost in Translation ................ 106

IV

LITERATURVERZEICHNIS ............................................................................................... X Bcher und E-Bcher ............................................................................................................ X Artikel- und Zeitschriftquellen ............................................................................................. XI Masterarbeiten .....................................................................................................................XII Teilgenommenes Seminar ................................................................................................. XIII Internetquellen ................................................................................................................... XIII

V

ABBILDUNGSVERZEICHNISAbb. 1: bersetzen bei Google Translate .................................................................................. 7 Abb. 2: Einfacher bersetzungsspeicher - Prozess .................................................................. 15 Abb. 3: Funktionsschema einer TM Datenbank.................................................................... 16 Abb. 4: bersetzungsspeicher in dem Server (System: TM Workbench / SDL Trados) ..... 19 Abb. 5: Abweichende bereinstimmungsgrade zwischen Exact- und Fuzzy - Matching ....... 23 Abb. 6: Die Split-Methode bei C# und ihre Ausgabe .............................................................. 28 Abb. 7: Die ToLower-Methode bei C# und ihre Ausgabe ....................................................... 28 Abb. 8: Invertierte Datei Algorithmus fr die gebeugten Formen der Wrter im Pseudocode .................................................................................................................................................. 30 Abb. 9: die Menge fr den Satz what is it ............................................................................ 31 Abb. 10: Pseudocode fr das Erhalten der Synset-Angaben aus WordNet ............................. 33 Abb. 11: Darstellung unterschiedliche Bume mit mehreren Kanten und Knoten .................. 34 Abb. 12: Bildschirmabbild fr Fuzzy-Match-Suche ................................................................ 35 Abb. 13:Bildschirmabbild fr orthographische-hnlichkeit ................................................... 36 Abb. 14: Levenshtein dynamischer Algorithmus im Pseudocode ........................................ 42 Abb. 15: Levenshtein Backtrace Algorithmus im Pseudocode .......................................... 42 Abb. 16: bereinstimmung nur mit Gleichheiten und Lschungen ........................................ 47 Abb. 17: Anpassung des Algorithmus fr F Schichten ......................................................... 49 Abb. 18: Inhalt einer .tmx-Datei mit TM-Metadaten ( - Tag) und ........................... 55 Abb. 19: Darstellung von Formatierungsangaben in einer TMX Datei bei Trados .............. 56 Abb. 20: Zwei Texte auf Deutsch bzw. Englisch in zwei unterschiedlichen MS Word Dateien (.doc) ........................................................................................................................... 64 Abb. 21: Das New WinAlign Project Fenster fr Projekterstellung bei Trados .................. 65 Abb. 22: Das New WinAlign Project Fenster fr Projekterstellung bei Trados .................. 66 Abb. 23: Hinzufgung der Quell- und Zieldokumente zu dem Projekt zweites Tab ............ 66 Abb. 24: Zuordnung der Quell- und Zieltexte.......................................................................... 67 Abb. 25: Zusammenfgung von zwei Stzen........................................................................... 68 Abb. 26: Trennung einer Verknpfung .................................................................................... 68 Abb. 27: Formatierungsinformationen der Zuordnung ............................................................ 69

VI

Abb. 28: Verwendung der Formatierungsinformationen ......................................................... 69 Abb. 29: Das Einstellungen Fenster von Google Translator Toolkit .................................... 76 Abb. 30: Das Hochladen Fenster von Google Translator Toolkit......................................... 77 Abb. 31: Das Aktive bersetzungen Fenster von Google Translator Toolkit ................... 78 Abb. 32: Das TM-Workbench Fenster von Google Translator Toolkit ................................ 78 Abb. 33: Das TM-Workbench Fenster mit Toolkit angezeigt .............................................. 79 Abb. 34: Das Toolkit Fenster mit dem Suche nach benutzerdefinierter bersetzung - Tab angezeigt................................................................................................................................... 80 Abb. 35: Die mit Google Translator Toolkit gemachte bersetzung ...................................... 81 Abb. 36: Startseite von MyMemory ......................................................................................... 84 Abb. 37: Eine Ergebnisseite aus MyMemory .......................................................................... 85 Abb. 38: Erstellung von einem neuen bersetzungsspeicher .................................................. 88 Abb. 39: Informationen ber eine bersetzungseinheit........................................................... 89 Abb. 40: Die Trados-Leiste bei MS-Word 2007 ...................................................................... 89 Abb. 41: bersetzung eines Segments ..................................................................................... 91 Abb. 42: Clean-up-Funktion .................................................................................................... 93 Abb. 43: bersetzungsvorschlag (im gelben Kasten) fr einen Quellsatz (im grnen Kasten), mit einem bereinstimmungsgrad von 67 % ........................................................................... 94 Abb. 44: Unterschiede zwischen dem zu bersetzenden Quellsatz und dem Satz im bersetzungsspeicher mit Gelb hervorgehoben ....................................................................... 94 Abb. 45: bersetzungsvorschlag (im gelben Kasten) fr einen Quellsatz (im grnen Kasten), mit einem bereinstimmungsgrad von 78 % ........................................................................... 95 Abb. 46: manuelle Konkordanzsuche ...................................................................................... 95 Abb. 47: allgemeine Einstellungen fr den bersetzungsspeicher .......................................... 96 Abb. 48: Einstellungen fr die Konkordanzsuche ................................................................... 97 Abb. 49: Import zum bersetzungsspeicher Einstellungen .................................................. 99 Abb. 50: Import zum bersetzungsspeicher Dateiwahl........................................................ 99 Abb. 51: Ende des Importprozesses ....................................................................................... 100 Abb. 52: Konkordanzsuche und ihr Ergebnis nach dem Import ............................................ 100 Abb. 53: Export von dem bersetzungsspeicher ................................................................... 101 Abb. 54: Ende des Exportprozesses ....................................................................................... 101 Abb. 55: Zugriff unterschiedlicher Benutzer auf denselben bersetzungsspeicher .............. 103VII

TABELLENVERZEICHNISTab. 1: Systemarchitektur von CAT ........................................................................................ 27 Tab. 2: invertierte Datei-Index ................................................................................................. 31 Tab. 3: voll-invertierter Indexe fr jedes Wort ........................................................................ 32 Tab. 4: TELA Struktur .......................................................................................................... 39 Tab. 5: bereinstimmung von zwei Wrtern auf hhere Schichten ........................................ 40 Tab. 6: Vergleich von zwei Wrtern nach Levenshtein ........................................................... 43 Tab. 7: die fr die Bestimmung der Edit-Distanz ausgefhrten Operationen .......................... 44 Tab. 8: Die fr die Transformation ausgefhrten Operationen ................................................ 45 Tab. 9: Kostenrechnung bei der Transformation zweier Wrter mit der Edit-Distanz-Methode und die dafr ausgefhrten Operationen .................................................................................. 45 Tab. 10: Verschiedene Vorgehensweisen fr die Transformation zweier Wrter mit der EditDistanz-Methode ...................................................................................................................... 46 Tab. 11: Satzweise bereinstimmung mit der Edit-Distanz-Methode und deren Kostenrechnung ........................................................................................................................ 48 Tab. 12: Vektor der Scores fr Schichtengleichheit und Lschungen ..................................... 49 Tab. 13: Auswhlen des besten Pfads ...................................................................................... 51 Tab. 14: Standardeinstellungen fr Segmentierung bei einigen bekannten TM Systeme .... 57 Tab. 15: Verringerung der bereinstimmungsrate durch unterschiedliche Segmentierungsregeln .............................................................................................................. 57 Tab. 16: Teil einer SRX Datei mit Regeln ............................................................................ 59 Tab. 17: Vergleich von verschiedenen CAT Systemen ........................................................ 73

VIII

ABKRZUNGSVERZEICHNISAbb. ASCII bzw. C CAT d.h. doc DBCS EBMT HTML I LISA OSCAR MBCS MIT MT POS SBCS SQL SRX Synset Tab. TM TMX Txt u. a. usw. vgl. XML z.B. Abbildung American Standard Code for Information Interchange Beziehungsweise Candidate (Kandidat) Computer Aided Translation (Computeruntersttzte bersetzung) das heit Dateinamenserweiterung von Microsoft Word - Dokument Double Byte Character Set Example-Based Machine Translation (Beispielbasierte masch. bersetz.) Hypertext Markup Language Input (Eingabe) Localization Industry Standards Association Open Standards for Container/Content Allowing Reuse Multi Byte Character Set Massachusetts Institute of Technology Machine Translation (maschinelle bersetzung / Maschinenbersetzung) Part of Speech (Wortart) Single Byte Character Set Structured Query Language Segmentation Rules Exchange Synonym Set Tabelle Translation Memory (bersetzungsspeicher) Translation Memory eXchange Dateinamenserweiterung reiner Textdatei und andere und so weiter vergleiche Extensible Markup Language zum BeispielIX

1. EINLEITUNG

Technologie entwickelt sich mit einer erschreckenden Geschwindigkeit und die Nachfragen, die auf dem bersetzer gestellt werden, zeigen keine Zeichen des Herabsetzens. Tatschlich wird der bersetzer immer mehr abhngig auf Informationstechnologie und, wenn der bersetzer sich an die nderung nicht anpasst, wird er oder sie nicht mehr wettbewerbsfhig. Samuelsson Brown, Example-Based Machine Translation in the Pangloss System (1996)

Computer knnen dennoch nicht bersetzen, aber sie knnen dabei helfen. Ozan Can al

Um die Kommunikation und Informationsbertragung zwischen verschiedenen Zivilisationen und Kulturen zu schaffen, macht man seit Jahrhunderten mndliche und schriftliche bersetzungen. Der schriftliche bersetzungsprozess ist immer eine Last gewesen, besonders bei der bersetzung von langen und komplizierten Texten. Vor allem ist die bersetzung der sich wiederholenden Texte zeitaufwndig gewesen.

Mit der schnellen Entwicklung der Computertechnologie im zwanzigsten Jahrhundert hat die Integration der Rechner wie bei allen Feldern auch im bersetzungsfeld angefangen. Die ersten Entwicklungen waren mittels militrischer Forschungen whrend des kalten Krieges vorgesehen, und zwar in Folge von den Versuchen des USA-Militrs, die militrischen Dokumente der Sowjetunion schnell und effektiv zu bersetzen1.

1

vgl. Newton, John: Computers in Translation, A Practical Appraisal, S. 16

1

Zuerst wurde versucht, ein Computerprogramm zu erstellen, das die bersetzungen automatisch macht. Damals waren die Ergebnisse enttuschend, und immer noch sind sie. Sprachen sind so komplex, dass die Umwandlung zwischen zwei Sprachen immer auf viele Variablen basieren und die Maschinen sind noch nicht so intelligent. Deshalb ist es effizienter, Computer nur als Helfer zu menschlichen bersetzungen zu benutzen. Daraus ergab sich die Idee, computeruntersttzte bersetzungssysteme zu erstellen. Also wird eine bersetzungs-Software entworfen, um unabhngige bersetzer und Sprachfachleute in den bersetzungsabteilungen und bersetzungsfirmen zu untersttzen, nicht zu ersetzen2. bersetzen mithilfe von Computerprogrammen dient dazu, die Arbeitslast des bersetzers zu reduzieren und einen durchgngigen Stil sicherzustellen. Die Arbeitsweise eines computeruntersttzten bersetzungssystems kann so erklrt werden: Bereits bersetzte Satzpaare werden dabei in einer Datenbank gespeichert. Kommt beim bersetzen ein Satz vor, der einem bereits frher bersetzten hnlich oder mit ihm identisch ist, dann wird er als mgliche bersetzung vorgeschlagen. Der bersetzer hat dann die Mglichkeit, den Satz anzunehmen, zu bearbeiten oder abzulehnen3. Computeruntersttzte bersetzung steigert die Effizienz und gewhrleistet eine uniforme Terminologie, da vorangegangene bersetzungen wiederverwendet werden4. Da die CAT - Systeme berwiegend von Amerikaner entwickelt werden, alle angenommenen und genormten Begriffe darber sind auf Englisch. Deutsch ist eine flexible Sprache und enthlt auch viele Fremdwrter, besonders in technischen Gebieten. Dementsprechend benutzen auch die Deutsche oft die englischen computeruntersttzten bersetzungsbegriffe. So viel wie mglich versuchte ich allerdings, aus Quellen deutsche Begriffe herauszufinden und sie zu benutzen. Das Hauptziel dieser Arbeit ist, einen berblick auf die Arten der mithilfe der Technologie gemachten bersetzung, besonders auf die computeruntersttzte bersetzung zu verschaffen.2 3 4

vgl. http://www.gy.com/www/ww1/ww2/ibmt01.htm - Zugriff am 30.11.2009 vgl. http://www.ats-group.net/uebersetzung/computer-uebersetzung.html - Zugriff am 28.11.2009 vgl. http://www.soget.de/de/%C3%9Cbersetzung/78/Maschinelle-%C3%9Cbersetzung Zugriff am 27.11.2009

2

Die Studie umfasst einen theoretischen Teil und eine Fallstudie dazu. Der theoretische Teil besteht aus zwei Hauptkapiteln ber maschinelle bzw. computeruntersttzte bersetzung. In dem ersten Hauptkapitel werden allgemeine Informationen ber maschinelle bersetzung gegeben. Das zweite Hauptkapitel weist das Hauptthema dieser Studie auf und hier werden theoretische sowie praktische Angaben ber die Geschichte, Arbeitsweise und Anwendungen der computeruntersttzten bersetzung gemacht. In der Fallstudie wurde eine bersetzung mittels eines computeruntersttzten bersetzungssystems, nmlich SDL Trados, durchgefhrt.

3

2. BERSETZUNG MIT COMPUTERNSeit vielen Jahrhunderten ist die bersetzung groer Mengen von Dokumenten ein groes Problem, weil es lange dauert und einen groen Arbeitsaufwand und daher hohe Kosten verursacht. Die Forschungen fr schnelle und effiziente bersetzungsprozesse haben schon im siebzehnten Jahrhundert angefangen; allerdings wurde das moderne Konzept der automatischen bersetzung in den fnfziger Jahren mithilfe der schnellen Entwicklung der Rechnertechnologie eingefhrt.

2.1. MASCHINELLE BERSETZUNG 2.1.1 Erstauftritt der maschinellen bersetzung Die Grundlagen der Maschinenbersetzung wurden mit dem Weaver-Memorandum5 und der in Massachusetts Institute of Technology (MIT)6 stattgefundenen Konferenz im Jahre 1949 bzw. 1952 etabliert. Allerdings sind die Entwicklungen der Maschinenbersetzung im Vergleich zu anderen technologischen Entwicklungen seither sehr begrenzt und werden bei den verffentlichten Maschinenbersetzungswerkzeugen wie Systranet, Google Translate und Babelfish leicht ersichtlich, wobei die erwnschte bersetzungsqualitt nie erreicht wird. Im Anhang A finden Sie einen ernsten Fall, der durch eine fehlerhafte bersetzung von einem maschinellen bersetzungssystem verursacht wurde. 2.1.2. Warum versagt die maschinelle bersetzung? Die wichtigsten Grnde fr das Versagen der maschinellen bersetzung sind, dass den Rechnern die Vorstellungsfhigkeit und die Bercksichtigung der Semantik als Ganzes immer

5

vgl. MT News International, 22. Juli 1999, 5-6, 15: Warren Weaver Memorandum, July 1949 vgl. Newton, John: Computers in Translation, A Practical Appraisal, S. 14-16

6

4

noch fehlen; und folglich die wortgetreue bersetzung ohne diese Eigenschaften meistens sinnlos und falsch ist.

Die Sprache ist ein komplexes System, das nicht nur aus Regeln besteht, sondern auch aus Gefhlen, Stil und Interpretation. Computer knnen mit Regeln umgehen, sie verstehen jedoch den Zusammenhang nicht und knnen daher nicht entscheiden, welches Wort das richtige ist7. Der wichtigste Punkt fr die maschinelle bersetzung ist, dass Maschinen bzw. Computerprogramme es bercksichtigen sollen, dass Sprachen organische Einheiten sind, die ungeheuer anpassungsfhig sind und sich immer weiter entwickeln. Die Entwickler eines bersetzungssystems versucht, die Funktionsweise der Sprache zu modellieren, wobei sie die Regeln und Wissen benutzen, die berwiegend mithilfe der Statistik ber die Untersuchung groer Textmengen erworben werden. Das Ziel hier ist, das Verhalten eines bersetzers nachzubilden.

Da Sprachen so komplexe Einheiten sind, ist es noch nicht erreicht, ihre Funktionsweise vollstndig und przise zu beschreiben. Das fhrt zum Versagen des bersetzungssystems. 2.1.2.1. Mngel der maschinellen bersetzung Die Hauptschwierigkeit bei der maschinellen bersetzung ist die Mehrdeutigkeit sprachlicher uerungen, einzelner Wrter sowie ganzer Stze8. Ein groer Teil der Regeln in bersetzungssystemen beschreibt, unter welchen Bedingungen welche Bedeutung benutzt wird. Mit den folgenden Beispielen wird diese Mehrdeutigkeit verdeutlicht:

7 8

vgl. http://www.across.net/clipping/Habasit_Einsatz_across_0601.pdf - Zugriff am 14.11.2009 vgl. http://www.spiegel.de/spiegel/0,1518,691364,00.html - Zugriff am 07.05.2010

5

Der Kurs findet statt. Der Kurs fllt9. Hier kommen unterschiedliche Bedeutungen des Wortes Kurs vor. Whrend der erste Kurs sich auf eine Lehr-/Bildungsveranstaltung10 bezieht (eng. course), der zweite Kurs hat eine ganz unterschiedliche Bedeutung, und zwar: Preis von Wertpapieren, Devisen, Waren11 (eng. rate).

Brieftrger beien Hunde selten. In diesem Beispiel ist die Struktur des Satzes wegen der Flexibilitt der Satzstrukturierung in deutscher Sprache mehrdeutig: Es ist nicht klar, ob Brieftrger Objekt oder Subjekt ist, also ob die Brieftrger Hunde beien oder von den Hunden gebissen sind. In beiden Beispielen werden die Bedeutungen durch den Zusammenhang geklrt. Das ist eine einfache Aufgabe fr Menschen, denn sie knnen das Thema des verarbeiteten Textes im ganzen Ausma folgen, aber es ist schwierig, die Computerprogramme dieses Klarmachen zu lehren. Eine beispielhafte Maschinenbersetzung von Google Translate, vermutlich das beliebteste maschinelle bersetzungssystem der Welt, kann im Folgenden gesehen werden:

9

vgl.http://www.lingenio.de/Deutsch/Sprachtechnologie/Maschinelle-Uebersetzung.htm - Zugriff am 13.11.2010 vgl. http://de.wiktionary.org/wiki/Kurs - Zugriff am 14.11.2009 vgl. http://www.dwds.de/?kompakt=1&qu=kurs - Zugriff am 14.11.2009

10 11

6

Abb. 1: bersetzen bei Google Translate (Quelle: http://translate.google.com/#tr|en|Asl%C4%B1%20ip%20atl%C4%B1yor - Zugriff am: 05.11.2009)

Asl ist sowohl ein weiblicher Vorname als auch ein Gattungsname, der Original in trkischer Sprache bedeutet. Um zu verstehen, welche Bedeutung des Wortes hier gltig ist, muss der Satz als Ganzes betrachtet werden. Allerdings fehlt den Maschinen diese Fhigkeit. Das Google Translate Service entscheidet, dass Asl in diesem Satz als Gattungsname benutzt wird, und liefert ein seltsames Ergebnis (Original rope-jumping). Eigentlich knnen zu solchen Diensten menschliche bersetzungen per Hand beigetragen werden, damit aktualisiert der Dienst seine Datenbanken und liefert bessere bersetzungen. Jedoch wird der bersetzungsvorschlag (Asl is rope - jumping) ab dem 07.05.2010 noch nicht akzeptiert (6 Monate seit dem gemachten Vorschlag) und die bersetzung fr den beispielhaften Satz hat sich zu Original jumping rope12 entwickelt.

12

vgl. http://translate.google.com/#tr|en|Asl%C4%B1%20ip%20atl%C4%B1yor. Zugriff am 07.05.2010

7

Daher ist die maschinelle bersetzung eigentlich ein Algorithmus der knstlichen Intelligenz, der an den realistischen Problemen angewendet wird. Folgendes werden die Hauptarten der maschinellen bersetzung von Texten, sowie die anderen Hauptprobleme dabei mit neuen Beispielen erklrt13. Damit wird es auch besser betrachtet, warum es heutzutage noch unmglich ist, Maschinen als das Hauptinstrument fr die bersetzung zu verwenden und warum sie von dem bersetzer bestenfalls nur fr eine grobe Vorstellung des zu bersetzenden Textes benutzt werden muss.

2.1.3. Hauptarten von maschineller bersetzung 2.1.3.1. Regelbasierte Maschinelle bersetzung (Rule Based Machine Translation) Der grte Teil der bersetzungssysteme benutzen die sogenannte regelbasierte maschinelle bersetzung (Rule-Based Machine Translation). Bei diesem Verfahren wird der Ausgangstext meistens mithilfe eines Wrterbuchs und mit der Benutzung von Interlingua (eine konstruierte Plansprache, die Eigenschaften der romanischen Sprachen aufweist und von den Menschen verstanden wird, die diese Sprachen sprechen14) bersetzt. Zuerst wird der Ausgangstext analysiert und in eine bergangssprache, in die Interlingua, gelegt, mit der Anwendung von Grammatikregeln beziehend auf die Ausgangssprache sowie die Zielsprache. Von dieser Interlingua wird der Zieltext generiert. 2.1.3.2. Beispielbasierte Maschinelle bersetzung (Example Based Machine Translation - EBMT)

Neben dem Regel-basierten Verfahren gibt es auch die sogenannte beispielbasierte maschinelle bersetzung (example-based machine translation), die besonders von dem bersetzungsdienst von Google benutzt wird15. Bei diesem Verfahren wird eine groe Zahl

13 14 15

vgl. Champollion [2003] and OHagan and Ashworth [2002: 43] vgl.http://www.knowledgerush.com/kr/encyclopedia/Interlingua - Zugriff am 15.11.2009 vgl. http://translate.google.com/support/?hl=en Zugriff am 21.11.2009

8

der einsprachigen Texte in verschiedenen Sprachen miteinander abgeglichen, deren menschlichen bersetzungen miteinander bereinstimmen, und in einer Datenbank gespeichert. Wenn der Benutzer die bersetzung eines Textes von dem System angefordert, generiert das System die beste bersetzung mithilfe statistischer Methoden, mit den die am besten passenden Teile der Abgleichungen genommen werden16. Google benutzt diese Technik besonders um die Mehrdeutigkeit der Wrter und ihre Zusammenhnge mit den anderen Wrtern im selben Satz besser zu analysieren. Um z.B. den Satz Wir treffen uns im Schloss zu deuten, sucht das Programm in seiner Datenbank nach Texten, in denen treffen und Schloss nah beieinanderstehen. Dann sucht das Programm nach den bersetzungen dieser Texte durch und findet dort hufig das Wort castle. Damit liefert das System we meet in the castle als Ergebnis und nicht we meet in the lock17. Die grammatischen Regeln der Sprachen sind fr Stze formuliert, deshalb muss der Text erstens in Stze zerlegt werden und mssen die Satzgrenzen bestimmt werden. Die erste Schwierigkeit ist, dass es nicht leicht ist, fr den Computer zu unterscheiden, ob der Punkt das Satzende, eine Abkrzung, eine Ordnungszahl oder sogar eine E-Mail oder URL-Adresse kennzeichnet. Dieses Problem ist bei der computeruntersttzten bersetzung teilweise gelst18. 2.1.3.3. Verwendung eines Wrterbuches fr den bersetzungsprozess Jedes bersetzungssystem braucht ein Wrterbuch. Dieses Wrterbuch funktioniert wie ein konventionelles zweisprachiges Wrterbuch, also enthlt Wrter in einer Sprache und ihre bersetzungen in der anderen Sprache; darber hinaus stehen in diesem Wrterbuch noch alle Informationen, die fr die Analyse von Stzen gebraucht werden, zum Beispiel das grammatische Genus und die Art der Wrter, oder Angaben ber ihre Bedeutung.

16

vgl. http://en.wikipedia.org/wiki/Google_Translate Zugriff am 21.11.2009 http://www.spiegel.de/spiegel/0,1518,691364,00.html - Zugriff am 07.05.2010

17

18

Siehe Kapitel TMX

9

Ins Wrterbuch wird die Grundform (z.B. waschen) des Worts aufgenommen, und die einzelne Wortform wird auf diese Grundform zurckgefhrt. Dann wird die grammatische Funktion der vorliegenden Wortform mit der dort gefundenen Information bestimmt, zum Beispiel wschst --> 2. Person Singular Prsens. In dem nchsten Schritt wird die Satzstruktur erkennt. Jedem Wort und jeder Wortgruppe wird die passende Rolle im Satz zugeordnet, und dabei muss sehr genau darauf geachtet werden, welche Kombinationen mglich oder ausgeschlossen sind. Das bedeutet, dass das bersetzungssystem auch die Grammatik beherrscht. Die Genauigkeit dieser Regeln ist entscheidend fr die Qualitt der bersetzung.

Nicht nur der innerhalb des Satzes gegebene Zusammenhang beeinflusst die Bedeutung der Wrter, sondern auch Beziehungen zwischen den Stzen. Die Verwendung von Pronomen wie er, sie, es erschwert meistens die Interpretation eines Satzes. Ein Beispiel dazu ist der folgende Satz: Das Unternehmen stellt sie ein19. Das Verb einstellen kann beispielsweise auf Englisch unterschiedlich bersetzt werden (to stop, to hire, to adjust). Seine richtige bersetzung bezieht sich auf die Verwendungsweise des Wortes sie. Also hngt das davon ab, ob sie sich auf eine Person, eine Maschine oder die Produktion bezieht. Das bersetzungssystem soll also auch die anderen Stze des Ausgangstexts beachten. Jedem Wort und vielen Wortgruppen sind im Wrterbuch eine oder mehrere bersetzungen zugeordnet. Nachdem der Zusammenhang durch die Analyse eines Satzes bekannt gemacht wurde, knnen die jeweils passenden bersetzungen ausgewhlt werden.

19

vgl. http://www.lingenio.de/Deutsch/Sprachtechnologie/Maschinelle-Uebersetzung.htm 21.11.2009

-

Zugriff

am

10

Danach wird die Struktur der bersetzung mithilfe der Angleichung der Struktur des zu bersetzenden Satzes und der Struktur der ausgewhlten bersetzungen fr die einzelnen Wrter aufgebaut. Hier kann die bersetzung sich von dem Original stark unterscheiden. Zum Beispiel wird der englische Satz He washes his hands zu Er wscht sich die Hnde. Also, wegen der unterschiedlichen Satzstrukturen der Sprachen wird ein weiteres Pronomen (sich) bentigt. Whrend die korrekte Abfolge der Wrter in der bersetzung ermittelt wird, arbeitet das bersetzungssystem mit Grundformen der Wrter. Also wird das Wort wscht aus der Form wasch des vorigen Beispiels erstellt. In dem letzten Schritt wird die Information ber das Layout des Ausgangstextes, die im ersten Schritt ausgeblendet wurde, zu den bersetzungen wieder hinzugefgt, sodass schlielich ein neuer Text, der sogenannte Zieltext, entsteht, der weitgehend so aussieht wie der Ausgangstext. Wegen der genannten Grnde kann man sagen, dass die maschinelle bersetzung die verlangte Qualitt noch nicht erreicht hat. Sprachen sind lebendig; sie verndern sich und passen sich den Zeiten und den Menschen an. Sprachen sind wie ein Organ der Menschen, sie sind von den Menschen stndig mit einer groen Flexibilitt benutzt und trotz der ungewhnlichen Verwendung der Sprache, die oft geschehen, wird die Sprache von den anderen immer gut verstanden und interpretiert20. Es ist meistens nicht genug, die Struktur, alle grammatischen Regeln und die Wrter einer Sprache zu kennen, um sie verstehen zu knnen. Das bringt uns zu der Tatsache, dass die Maschinen nur dann wie Menschen bersetzen knnen, wenn sie menschliche Eigenschaften aufweisen. Entwicklung der maschinellen bersetzung ist ein Forschungsfeld der knstlichen Intelligenz; und die heutigen Entwicklungen und die Entwicklungsgeschwindigkeit dieses Feldes in der Geschichte zeigen uns, dass es kaum mglich ist, die Qualittsniveaus der maschinellen bersetzung und der bersetzung eines Menschen in absehbarer Zukunft vergleichen zu knnen.

20

vgl. http://pinnwand.ln-online.de/sprache-ist-lebendig-und-veraendert-sich/4363 - Zugriff am 16.11.2009

11

2.2. COMPUTERUNTERSTTZTE BERSETZUNG 2.2.1. Geburt der Computeruntersttzten bersetzung In Anbetracht dessen, dass die Maschinenbersetzung die gewnschte Qualitt nie verwirklichen kann, wurden die Versuche zur Erleichterung der Arbeit von menschlichen bersetzern seither vorangetrieben, die den sogenannten computeruntersttzten bersetzungsprozess (eng. CAT: Computer Assisted/Aided Translation) erzeugt haben. Die ursprngliche Idee fr einen computeruntersttzten bersetzungsprozess wird zu Martin Kay zugeschrieben21. In seiner Proper Place Arbeit (1980) hat er ohne Details erklrt, wie ein CAT System sein soll: Der bersetzer kann mit der Erteilung eines Befehls anfangen, der verursacht, dass das System alles im Laufwerk anzeigt, was relevant zu dem zu bersetzenden Text sein knnte. Bevor er [der bersetzer] weitergeht, kann er die vorherigen und zuknftigen Fragmente des Textes, die hnliches Material enthalten, berprfen. Daher darf computeruntersttzte bersetzung nicht mit der maschinellen bersetzung verwechselt werden. Ziel der maschinellen bersetzung ist, den menschlichen bersetzer durch eine Maschine zu ersetzen. Diese Technik erbringt in sekundenschnelle bersetzungen, die allerdings von geringer Qualitt und bisweilen sogar unverstndlich sind22. Es ist optimal, zunchst eine Entwurfsbersetzung mittels eines maschinellen bersetzungssystems zu machen, um eine allgemeine Beurteilung ber das Dokument zu erstellen, und danach die wirkliche bersetzung mithilfe eines CAT-Systems zu machen.

21

vgl. Somers, Harold (UMIST, Manchester) / Fernandez Diaz, Gabriela (Universidad de Sevilla); Translation vgl.http://www.soget.de/de/%C3%9Cbersetzung/78/Maschinelle-%C3%9Cbersetzung Zugriff am 27.11.2009

Memory vs. Example-based MT Whats the difference?22

12

2.2.2. bersetzungsprozess ohne CAT - System Der bersetzer geht den Text Schritt fr Schritt durch. Wenn ein gleicher oder hnlicher Satz noch einmal vorkommt, erinnert sich der bersetzer, dass er diesen Satz vorher schon bersetzt hat. Damit wird er manuell nachsuchen, wie er den Satz vorher bersetzt hat. Die damalige bersetzung wird, soweit mglich, weiter verwendet. Unbekannte Begriffe werden in Wortlisten, Wrterbchern oder Online-Lexika nachgeschlagen23. 2.2.3. bersetzung mit CAT - System Die Segmente werden dem bersetzer zur Bearbeitung angeboten und die Datenbank des CATSystems speichert Ausgangs- und Eingabesegmente ab. Jedes zu bersetzende Segment wird automatisch mit allen bereits bearbeiteten Segmenten in der Datenbank verglichen. Wenn das System das gleiche oder ein hnliches Segment findet, bietet es dem bersetzer die bersetzung des alten Segments als Vorschlag an. Der bersetzer entscheidet, ob die bersetzung verwendet, bearbeitet oder neu erstellt wird. Jeder Begriff des Quellsatzes wird automatisch in der Terminologie Datenbank des CAT Systems nachgeschlagen. Falls ein Begriff gefunden wird, wird seine bersetzung dem bersetzer vorgeschlagen. Die Prozesse hneln sich also sehr, nur mit dem Unterschied, dass das CAT - System auf jeden Fall jedes neue Segment mit allen bereits bersetzten Segmenten vergleicht und auch alle Begriffe automatisch nachschlgt. Dies hilft dem bersetzer konsistenter zu arbeiten und spart Zeit beim Nachschlagen alter bersetzungen24.

23

vgl.

http://www.transline.de/transline-tecNews/Translation-Memory-eine-Einfuehrung

-

-

Zugriff

am

23.11.200924

vgl. http://www.transline.de/transline-tecNews/Translation-Memory-eine-Einfuehrung - Zugriff am 23.11.2009

13

2.2.4. Grundlagen von CAT - Systemen Computeruntersttzte bersetzung ist ein Typ der bersetzung, worin der bersetzer Computerprogrammen benutzt, die den bersetzungsprozess untersttzt. Mit anderen Worten bezeichnet die Computeruntersttzte bersetzung den Einsatz geeigneter Softwares zur Untersttzung von bersetzern mit ihrer bersetzungen.

Ein CAT-System besteht meistens aus mehreren Teilsystemen, die sogenannten Anwendungskomponenten. Diese Komponenten knnen als Werkzeuge einer Software genannt werden. Ein bliches CAT-System umfasst die folgenden Werkzeuge: bersetzungsspeicher - Werkzeug Terminologie - Datenbanken Zuordnungswerkzeug Diese Werkzeuge knnen individuell betrieben werden oder mit den anderen Werkzeugen zusammenarbeiten, um die Effizienz des bersetzungsprozesses zu verbessern. Das wegen seines Versorgungsbereichs meistverwendete Werkzeug solches CAT Systems ist der sogenannte bersetzungsspeicher (eng. TM: Translation Memory). Nach Bowker25 ist das TM ein Behlter umfassend Ausgangstextsegmente die dazugehrigen Zieltextsegmente, worin die entsprechenden Textsegmente miteinander abgeglichen und gespeichert werden. Benutzte Segmenttypen der Texte sind gem den benutzten Werkzeugen unterschiedlich; bei TM werden meistens Stze benutzt und fr Terminologie - Datenbanken sind Wrter wnschenswert.

25

vgl. Lynne Bowker, 2002. Computer-Aided Translation Technology. A Practical Introduction. (Didactics of

Translation Series). Ottawa: University of Ottawa Press. S. 185

14

2.2.4.1. bersetzungsspeicher (TM) Beim bersetzen wird ein fixierter, also schriftlicher Ausgangstext aus einer Sprache in eine andere bertragen. Ausgangstext ist der Text, der von dem bersetzer in eine Zielsprache bersetzt wird. Zieltext ist das Ergebnis dieser bersetzung; also der Text, den von dem bersetzer in der Zielsprache erstellt wird. Im Prinzip ist ein bersetzungsspeicher eine Sprachdatenbank, in der die bersetzungen whrend der Arbeit kontinuierlich gespeichert werden, damit sie knftig fr neue Texte verwendet werden knnen.

Abb. 2: Einfacher bersetzungsspeicher - Prozess (Quelle: Lynn E. Webb, Advantages and Disadvantages of Translation Memory: A Cost/Benefit Analysis 1992 S. 7)

Alle bereits bersetzten Inhalte werden im bersetzungsspeicher gesammelt. Diese Inhalte werden in Form von Sprachpaaren aus Ausgangs- und Zieltext gespeichert. Ein solches Sprachpaar wird als bersetzungseinheit bezeichnet. Das zeigt den grundlegenden Aspekt eines TMs auf: Je mehr bersetzungseinheiten in einem TM gespeichert werden, desto schneller knnen knftige bersetzungen angefertigt werden, denn es wird in dem TM hchstwahrscheinlich mehrere Vorschlge fr die knftigen bersetzungen geben. Im Grunde ist dieser Aspekt gleichartig mit der Arbeitsweise der beispielbasierten maschinellen15

bersetzung. Jedoch mssen die bersetzungseinheiten in dem TM gut geordnet und periodisch gereinigt werden, ansonsten wird ein Gedrnge von noisy data verursacht.

Abb. 3: Funktionsschema einer TM Datenbank (Quelle: http://www.transline.de/transline-tecNews/Translation-Memory-eine-Einfuehrung Zugriff am: 07.12.2009)

Neben dieser Datenbank erstellen viele TM-Werkzeuge aufgrund des Inhalts dieser linguistischen Datenbank ein neuronales Netzwerk. Dieses Netzwerk ermglicht eine Suche, die als Fuzzy-Match-Suche genannt wird und die effizienter als der sogenannten Index-Suche ist. Die linguistische Datenbank und das dazugehrige neuronale Netzwerk werden gemeinsam als bersetzungsspeicher bezeichnet. Viele Vollversion-TM-Werkzeuge knnen an einem Netzwerk benutzt werden und damit sind sie fhig, die bersetzungen vorzuschlagen, die von anderen bersetzern anderswo in dem Dokument schon benutzt sind. Dadurch wird die Konsistenz im ganzen Dokument und sogar in allen Dokumenten von LSP (Language Service Provider) erhalten, die einer der wichtigsten Punkte des bersetzungsprozesses. 2.2.4.1.1. Wofr sind bersetzungsspeicher geeignet? Da TMs benutzt werden, um dem bersetzer Vorschlge aus den vorherigen bersetzungen zu bringen, sind sie am ntzlichsten, wenn sie mit den Texten benutzt werden, die viele Wiederholungen von Ausdrcken und Wrtern enthalten und die immer auf die gleiche Weise

16

bersetzt werden sollen. Software - Handbcher und technische Texte passen gut dazu, wohingegen umfassen Literatur- und Werbungstexten kaum Wiederholungen. Was noch dazu ist, dass der bersetzer solcher Texte mehr als ein Mittel fr die bersetzung ist; zustzlich zu anderen bersetzern der technischen Dokumente bereichert er den Text auf seine Art und bearbeitet ihn, damit der Text zu den kulturellen bzw. gesellschaftlichen Umstnden besser passt. Ein TM fr literarische bersetzung zu benutzen ist also keine gute Wahl, auch wenn es ein einsatzbereites TM gibt.

In der Tat finden die anderen es von Wert, auch die nicht - wiederholenden Texte in das TM zu addieren, denn sie helfen der Qualittssicherung, dass es keine leeren Segmente in der bersetzung gelassen werden, und den bereinstimmungssuchen fr die Festlegung der passenden Verwendung von Ausdrcken. Damit wird auch der berprfungsprozess erleichtert, da die Ausgangs- und Zielsegmente blicherweise immer zusammen gezeigt werden, whrend die Prfer die bersetzung bearbeiten26. Da mithilfe der TM-Systeme die bersetzer das Projekt in krzerer Zeit mit weniger Arbeitsaufwand fertigstellt, fordern viele Kunden Rabatte, wenn sie herausfinden, dass die bersetzer TM-Systeme bei ihren bersetzungen benutzen. Nach Experten sollen die Kunden allerdings sogar mehr bezahlen, da die TM-Systeme die Qualitt der bersetzung insbesondere bezglich der Konsistenz erheblich erhhen27. Diese Sichtweise von Experten betont den grten Vorteil der bersetzungen, die mit TM-Systemen gemacht werden, gegenber der konventionellen bersetzung. 2.2.4.1.2. Erstellung von TM Projekten Es ist vorteilhaft, einzelne TM - Projekte fr verschiedene bersetzungsfelder zu erstellen. Das verhindert die extensive Ausweitung eines einzigen TM, und damit werden die Durchsuchungen des TMs nicht verzgert und erscheinen die nutzlosen

26

vgl. Lynn E. Webb, Advantages and Disadvantages of Translation Memory: A Cost/Benefit Analysis 1992 S. vgl. LANTRA-L Mailing List for Translators, Survey.

7-827

17

bersetzungseinheiten nicht. Trotzdem ist es frderlich, wenn die bertragung der einzelnen bersetzungseinheiten von einem Projekt zu anderem, oder sogar die Zusammenfgung der Projekte untersttzt wird, denn es kann whrend der Arbeit bemerkt werden, dass die Sprachpaaren in einem anderen Projekt fr das vorhandene Projekt ntzlich wre.

Viele der TM-Werkzeuge speichern nicht nur Sprachpaare, sondern auch andere Attributen wie zum Beispiel das Erstellungsdatum der bersetzungseinheit, den Name des Erstellers und des bersetzers wenn es gibt, der das Sprachpaar benutzt hat, den Projektname und das Feld der bersetzung. Diese Angaben werden zusammen mit den Segmentpaaren in einer Datei (meistens in einer .tmx - Datei28) gespeichert. Fr jedes TM Projekt, also fr jeden bersetzungsspeicher wird eine neue Datei erzeugt. Wie vorher gesagt, die bersetzungsspeicher, die bersetzungen mit hnlichen Themen umfassen, knnen zusammengefgt werden.

28

Siehe Kapitel TMX

18

Abb. 4: bersetzungsspeicher in dem Server (System: TM Workbench / SDL Trados)

2.2.4.1.3. Zeichenstze von bersetzungsspeichern

2.2.4.1.3.1. Single Byte Character Set (SBCS)

Single Byte Character Set (SBCS) wird bei der Benennung der Zeichenkodierungen, die nur ein Byte zur Darstellung eines Zeichens brauchen, verwendet. Der ASCII-Code, der der ursprngliche Zeichensatz fr die Darstellung von am hufigsten-verwendeten Zeichen ist, ist ein Beispiel von SBCS: Bei dem herkmmlichen (nicht erweiterten) ASCII-Code wird jedem Zeichen ein Bitmuster aus 7 Bit (also eine Zahl, die aus sieben Ziffern besteht, wobei jede davon entweder 1 oder 0 ist) zugeordnet. Da jedes Bit zwei Werte annehmen kann, gibt es19

27 = 128 verschiedene Bitmuster. Diese Bitmuster bestehen aus 95 druckbaren und 33 nichtdruckbaren Zeichen, die das lateinische Alphabet in Gro- und Kleinschreibung, die zehn indische Ziffern und einige Steuer- und Satzzeichen umfassen; also sie entsprechen weitgehend einer Tastatur der englischen Sprache.

2.2.4.1.3.2. Double Byte Character Set (DBCS) und Multi Byte Character Set (MBCS) Natrlich sind 128 Bitmuster nicht genug fr die Darstellung aller Zeichen von unterschiedlichen Sprachen sowie aller Steuer- und Satzzeichen. In CJK (Chinesisch, Japanisch und Koreanisch) Computerwesen ist das Problem grer, denn die Menge der Schriftzeichen, die in der entsprechenden Sprachen benutzt werden, knnen bis zu 40000 erreichen29. Fr die Darstellung solcher Zeichen werden Double Byte Character Set (DBCS) verwendet, der maximal zwei Byte (216 = 65.536) nutzt. Soviel Bitmuster ist reichend fr die Darstellung fast jedes Zeichens aller Sprachen. DBCS ist ein Typ des Multibyte Character Sets (MBCS), die fr die Kodierung eines Zeichens -im Gegensatz zu SBCS- variable Anzahlen von Bytes verwenden. 2.2.4.1.3.3. Verwendung von unterschiedlichen Zeichenstzen in bersetzungsspeichern Um eine TM - Datenbank zu erzeugen, soll das TM fhig sein, es zu erkennen, mit welchen Elementen ein Satz gebildet ist. Die wichtigsten Elemente sind diejenige, die das Satzende zeigt (blicherweise der Punkt) und die sich nie am Satzende vorfinden (das Komma, das Semikolon und so weiter). Obwohl der Punkt meistens das Satzende zeigt, es soll nicht immer so sein, besonders wenn er mit Anreden und Abkrzungen kombiniert wird. Bei den TM Systems, die fr westliche Sprachen entwickelt sind, ist diese Unterscheidung leicht erkennbar, aber bei einer bersetzung zwischen den Sprachen, die unterschiedliche Zeichenstze benutzen, ist es schwierig: Viele westlichen TM - Systeme knnen DBCSZeichenketten in einem Ausgangstext nicht analysieren, denn sie sind nicht gelehrt, die Zeichen von DBCS zu erkennen. Das grte Problem dabei ist, dass viele westliche TM -

29

vgl. Doug Ewell, A survey of Unicode compression Stand 30.01.2004, S. 1-2

20

Systeme nicht festlegen knnen, wo das Satzende in einer Sprache mit double - byte Zeichen liegt. Die bersetzer, die mit double byte Quellsprachen (z.B. CJK - Sprachen) arbeiten, knnen manchmal erfahren, dass die bersetzungsspeicher mit DBCS Probleme verursachen und den bersetzungsprozess verzgern, anstatt der Erhhung der Produktivitt. Allerdings knnen die bersetzungsspeicher fr die bersetzung von einem Quelltext mit single - byte Zeichen in eine Sprache mit double byte Zeichen benutzt werden. Nmlich ist die Verwendung von bersetzungsspeichern lediglich fr die bersetzer, deren Zielsprache double byte Zeichen enthlt, am ntzlichsten30. 2.2.4.1.4. Unterschiedliche Anstze zu bersetzungsspeichern 2.2.4.1.4.1. bersetzungsspeicher der ersten Generation Ab dem Auftreten der Computeruntersttzten bersetzungstechnologie haben bisher drei Generationen der bersetzungsspeicher erschienen. bersetzungsspeicher der ersten Generation speichern zweisprachige Vollstze, und sie wenden lediglich die Vollsatzbereinstimmung an. Die Ausnahmen besttigen die Regel, bersetzungsspeicher umfassen wenige wiederholende Texte. Also auer Texten wie z.B. Bedienungsanleitungen, technischen Dokumentationen und Patenttexten, die Suchen bei den ersten-Generation-bersetzungsspeichern ergeben nur ein paar wenige Zielstze. Daher knnen bei meisten TM Suchen keine bereinstimmungen zurckgeliefert werden, wenn der ganze Zielsatz vollstndig im bersetzungsspeicher nicht gefunden wird.

30

vgl. Lynn E. Webb, Advantages and Disadvantages of Translation Memory: A Cost/Benefit Analysis 1992,

S. 24

21

Solche bersetzungsspeicher anwenden die Edit Distanz - Methode fr vollstndige Segment-bereinstimmung (Exact Segment Matching / Exhaustive Matching)31: Die Methode vergleicht jedes Zeichen des Ausgangstextes mit jedem Zeichen des Zieltextes nur auf Gleichheit. Deswegen bersieht das TM - Werkzeug die Kandidatstze, die Teilsegmente (sub-segments) aufweisen knnten. Diese Teilsegmente knnen sich in dem Zielsatz befinden und daher fr die bersetzung ntzlich werden. Aufgrund der Wichtigkeit von Teilsegmentbereinstimmung ist es vorteilhafter fr die bersetzungsspeicher, dass sie Teilsegmentbereinstimmungsmethode anwenden. 2.2.4.1.4.2. bersetzungsspeicher der zweiten Generation bersetzungsspeicher der zweiten Generation weichen leicht von denen der ersten Generation ab. Der einzige Unterschied dazwischen ist, dass die neueren bersetzungsspeicher einige unterschiedliche Zeichen bei der bereinstimmung erlauben. Daher mssen zwei Stze miteinander nicht hundertprozentig bereinstimmen, sondern werden die bereinstimmungen mit einem Verhltnis bis zu einem gewissen Grad auch angenommen. Dieser Typ der bereinstimmung heit Fuzzy Match, wie vorher genannt, und wird anstatt der vollstndigen bereinstimmung bevorzugt.

31

Siehe Kapitel Vollstndige bereinstimmung

22

Abb. 5: Abweichende bereinstimmungsgrade zwischen Exact- und Fuzzy - Matching (Quelle: Lynn E. Webb, Advantages and Disadvantages of Translation Memory: A Cost/Benefit Analysis 1992 S. 10)

23

Sowohl Exact Match als auch Fuzzy Match hngen von der orthographischen hnlichkeitssuche ab, und das ist der grte Nachteil einer solchen Suche. Blo die bereinstimmung der Zeichen liefern meistens schlechte Ergebnisse, denn ihnen fehlt die semantische Suche32. 2.2.4.1.4.3. bersetzungsspeicher der dritten Generation Wie ihr Vorgnger, die bersetzungsspeicher der dritten Generation fokussieren auf die Verbesserung der lteren TM-Systeme. Die Neuigkeiten bei diesen bersetzungsspeichern sind hauptschlich die Anwendung der Nominalphrasen und des Satzskeletts in Ausgangsund Zieltexte. Manche bersetzungsspeicher der dritten Generation wenden auch die semantische Gleichheit an. Jedoch ist ihre wichtigste Besonderheit die sogenannte Teilsegmentbereinstimmung33. Im Gegensatz zu den vorherigen Generationen kann der bersetzer mithilfe der Teilsegmentbereinstimmung sehr viele Suchergebnisse bekommen. Heutzutage werden die bersetzungsspeicher der dritten Generation benutzt, und die meisten Forschungen auf dem bersetzungstechnologiengebiet basieren auf die semantische Struktur und die Teilsegmentbereinstimmung34. 2.2.4.1.4.4. Verwendungsgebiete von unterschiedlichen Anstzen

Um

die

Leistung

zu

verbessern

wird

manchmal

mit

den

ersten-Generation-

bersetzungsspeichern gearbeitet. Das hilft besonders bei der bersetzung der repetitiven

32

vgl. Rapp, R., A Part-of-Speech-Based Search Algorithm for Translation Memories", LREC-2002: Third

International Conference on Language Resources and Evaluation, Proceedings, S. 470 - 471, Las Palmas de Gran Canaria, Spain, 27 Mai 2 Juni 199933

vgl. Gotti, F. u. a., A Third Generation Translation Memory", 3rd Computational Linguistics in the North-East

(CLiNE) Workshop, pp. 26 - 30, Gatineau, Quebec, August 2005.34

vgl. Somers, H., Review Article: Example-Based Machine Translation", Machine Translation 14, S. 113 - 158,

1999.

24

Texte und fr solche Texte wird diese alte Technik immer noch verwendet. Beispielsweise kann die bersetzung der Wetterberichte damit gemacht werden35. Ein anderer Ansatz fr die bersetzung mit Systemen ist die Integrierung der Maschinenbersetzung an die bersetzungen, die mit bersetzungsspeichern gemacht werden. Hier versucht die maschinelle bersetzung, die Fuzzy - Matches mit automatischer Nachbearbeitung (post-editing) zu verbessern36. Den bersetzern werden hierarchische bersetzungsspeicher Systeme als eine andere Mglichkeit zur Verfgung gestellt. Solche bersetzungsspeicher verwenden die sogenannte TELA Struktur37, die die Daten in dem bersetzungsspeicher in drei Schichten aufteilt. Die TELA Struktur beschreibt das hnlichkeitskonzept zwischen den Schichten mithilfe der Edit Distanz Methode und damit bringt das beste Ergebnis aus dem bersetzungsspeicher fr den Zielsatz unter der Leitung von dem dynamischen Programmierungsalgorithmus38. Wenn das gesamte Quellsegment in dem bersetzungsspeicher nicht gefunden werden kann, versucht das System mithilfe der Quellensatz-Ausdrcke eine bersetzung auf der Basis von der Edit Distanz Methode39 zu erstellen40.

Ein Zusatz zu solchen TM-Werkzeugen ist die sogenannte hilfsbereite Konkordanz-Suche. Mithilfe der Konkordanz knnen mehrere Angaben als der Schichten-bereinstimmung durch eine manuelle Suche in dem bersetzungsspeicher ermittelt werden.35

vgl.Thomas, L., L. Philippe, L. Guy; Weather Report Translation Using a Translation Memory." AMTA, vgl. Macklovitch, E., M. Simard, P. Langlais; TransSearch: A Free Translation Memory on the World Wide

Lecture Notes in Computer Science Vol. 3265, S. 154 - 163, Springer, 2004.36

Web", Second International Conference On Language Resources and Evaluation (LREC), Vol. 3, S. 1206, Athens Greece, June 2000.37 38

Siehe Kapitel TELA - Struktur vgl. Planas, E. / Furuse, O.; Formalizing Translation Memories": Machine Translation Summit VII , S. 331 vgl. Siehe Kapitel Edit-Distanz-Prozess vgl. Simard, M. und P. Langlais, Sub-sentential exploitation of translation memories": MT Summit VIII , S 19

339, Singapore, 199939 40

- 20, Santiago de Compostela, Spain, 18-22 September 2001

25

2.2.4.1.5. Systemarchitektur der bersetzungsspeicher Als Erstes wird der bersetzungsspeicher zur Verwendung vorbereitet. Diese Phase umfasst die Vorverarbeitung, morphologische Syntaxanalyse, invertierte Datei - Erzeugung und Bau der Baumstrukturen. Wenn ein Satz als Abfrage gegeben wird, wertet das System alle Stze des Textkorpus im bersetzungsspeicher aus und wendet einige Algorithmen fr Beseitigung an, um das beste Ergebnis heraufzubringen. Dieser Algorithmus der hnlichkeitssuche beinhaltet die hnlichkeitsarten wie Wort-Synonym-Morphem-hnlichkeit, Verbhnlichkeit und Form-hnlichkeit.

26

Tab. 1: Systemarchitektur von CAT (Quelle: Kavak, Pnar: Development of a Translation Memory System for Turkish to English, S. 10)

27

2.2.4.1.5.1. Vorverarbeitung Bei der Vorverarbeitungsphase wird der zu bersetzende Text zuerst in Stze segmentiert. Einige TM-Werkzeuge wie z.B. Trados machen die Segmentierung einer nach dem anderen, also wenn der bersetzer mit einem Satz fertig ist und dem Werkzeug die ffnung des nchsten Satzes befiehlt. Das trennende Zeichen kann aus den Optionen des Werkzeugs ausgewhlt werden; es kann Punkt, Komma, Kolon, Semikolon oder ein selbstgewhltes Zeichen sein, wobei das vorgegebene Zeichen immer Punkt ist. Diese Trennungsoperation wird mit einer Methode vorgesehen, die hnlich wie die Split-Methode der Programmierungssprachen sind. Folgendes kann man ein Beispiel der Split-Methode sehen:

Abb. 6: Die Split-Methode bei C# und ihre Ausgabe

Nach der Segmentierung werden alle Zeichen kleingeschrieben. Diese Operation kann mit der ToLower-Methode verglichen werden:

Abb. 7: Die ToLower-Methode bei C# und ihre Ausgabe

28

Als Letztes werden die unntigen Zeichen entfernt. Diese Zeichen enthalten meistens diejenige, die nicht transliteriert werden knnen, also z.B. die trkischen Zeichen , , , oder die Zeichen aus nicht-lateinischen Alphabeten. Natrlich wird diese Operation ausgefhrt, falls die bersetzung zwischen einem lateinischen und einem nicht-lateinischen Alphabet oder zwischen zwei Texte mit unvereinbaren Alphabeten gemacht wird.

2.2.4.1.5.2. Morphologische Syntaxanalyse Die morphologische Syntaxanalyse findet heraus, aus welchen Morphemen41 ein Wort gebaut ist. Das CAT System braucht morphologische Syntaxanalyse hauptschlich fr zwei Grnde: Der Algorithmus fr Wort-Synonym-Morphem-hnlichkeit braucht Morpheme fr die Auswertung. Falls der Kandidatsatz die gleichen Morpheme wie die Wrter aus dem Eingabesatz besitzt, dann sind die Bedeutungen beider Stze hchstwahrscheinlich gleich. Also die Morphem-bereinstimmung ist genauso wichtig wie eine vollstndige Schichtenbereinstimmung.

Um die Wortartangaben (POS: part of speech) jedes Wortes in dem Eingabesatz zu erhalten, braucht man eine morphologische Syntaxanalyse. Diese Angaben sind bei Verb- und Form-hnlichkeit-Algorithmen verwendet. Kennzeichnung von den POSAngaben jedes Wortes in dem Eingabesatz heit das Herausfinden von ihren Definitionen sowie ihren Wortarten im Rahmen von dem Satz und im Rahmen von ihren Beziehungen mit anderen Wrtern.

41

Morphem: die kleinste bedeutungstragende Einheit der Sprache auf der Inhalts- und Formebene im Sprachsystem; kleinste semantisch interpretierbare Konstituente eines Wortes (Quelle: http://de.wikipedia.org/wiki/Morphem - Zugriff am: 11.03.2010)

29

2.2.4.1.5.3. Invertierte Datei Erzeugung

In der Informationstechnologie bedeutet eine invertierte Datei eine Indexstruktur, die das sogenannte Mapping von einem Inhalt speichert. Dieser Inhalt kann die Wrter in mehreren Stzen sein, und das Mapping zeigt ihre Stellen in dem Satz sowie die Stelle dieses Satzes innerhalb anderer Stze. Mithilfe dieser Methode ist eine schnellere Volltextsuche mglich.

Abb. 8: Invertierte Datei Algorithmus fr die gebeugten Formen der Wrter im Pseudocode (Quelle: Kavak, Pnar: Development of a Translation Memory System for Turkish to English, S. 15) Folgendes sieht man ein Bespiel von einem Inversionsprozess42: Angegeben sind drei Stze: T0 = "it is what it is" T1 = "what is it" T2 = "it is a banana"42

http://en.wikipedia.org/wiki/Inverted_file - Zugriff am: 12.03.2010

30

Der Index der invertierten Datei sieht wie Folgendes aus:

Tab. 2: invertierte Datei-Index (Quelle: http://en.wikipedia.org/wiki/Inverted_file - Zugriff am: 12.03.2010)

Die Nummern in den geschweiften Klammern beziehen sich auf die tiefgestellten Zeichen der Textsymbole, nmlich T0, T1 und T2. Also z.B. befindet sich das Wort what nur in dem ersten und zweiten Satz, whrend is und it sich in allen Stzen befinden. Das IndexInteger fngt mit Null (0) an, wie bei der Programmierungslogik. Eine Begriffssuche fr den Satz what is it gibt die folgende Menge:

Abb. 9: die Menge fr den Satz what is it (Quelle: http://en.wikipedia.org/wiki/Inverted_file - Zugriff am: 12.03.2010)

Die Schnittmenge von den drei Wrtern {0, 1} zeigt, in welchen Stzen alle gesuchten Wrter erhalten sind. Diese Volltextsuche gibt also zwei Stze zurck; wir brauchen jedoch den Satz, die mit dem Eingabesatz hundertprozentig bereinstimmen. Als Lsung wird einen vollinvertierten Index vorbereitet. In einem voll-invertierten Index werden Paare von Textnummern und lokalen Wortnummern gespeichert.

31

Tab. 3: voll-invertierter Indexe fr jedes Wort (Quelle: http://en.wikipedia.org/wiki/Inverted_file - Zugriff am: 12.03.2010)

Beispielsweise steht das Wort a nur in dem dritten Satz (in dem Satz mit der Indexnummer 2), und war auf der dritten Stelle (auf der Stelle mit der Indexnummer 2) in diesem Satz, daher die Menge {(2, 2)}. Die fettgedruckten Indexe in Tab. 3 zeigen, dass der Eingabesatz what is it nur in dem Text mit der Indexnummer 1, nmlich in dem zweiten Text hintereinander auftritt.

2.2.4.1.5.4. Bestimmung der Synonyme Synonyme sind die Wrter, die die gleiche oder zumindest hnliche Bedeutung haben, jedoch mit verschiedenen sprachlichen Ausdrcken. Wenn ein Kandidatsatz ein Synonym der Wrter aus einem Eingabesatz enthlt, dann ist es auch ntzlich fr den bersetzer. Allerdings ist eine orthographische bereinstimmung bei Synonymen natrlich nicht mglich. Die Bercksichtigung der Synonyme kann mithilfe eines Wrterbuches vorgesehen werden. Zu diesem Zweck wird berwiegend WordNet eingesetzt, besonders wenn die

Ausgangssprache Englisch ist. WordNet ist ein Wortschatz der englischen Sprache und besteht aus einer lexikalischen Datenbank, die semantische und lexikalische Beziehungen zwischen den Wrtern enthlt43. WordNet gruppiert die Wrter nach ihrer Synonymie als Wortfelder, die als Synsets genannt werden.

43

http://wordnet.princeton.edu/ - Zugriff am: 11.03.2010

32

WordNet wird daher benutzt, um zu kontrollieren, ob es eine Synonymie zwischen den vergleichenden Wrtern gibt. Falls es gibt, dann werden auch die Synonyme dem bersetzer vorgeschlagen, obwohl es keine physikalische bereinstimmung der Wrter gibt. Der Pseudocode fr das Erhalten der Synset-Angaben aus WordNet wird in Abb. 10 aufgezeigt.

Abb. 10: Pseudocode fr das Erhalten der Synset-Angaben aus WordNet (Quelle: Kavak, Pnar: Development of a Translation Memory System for Turkish to English, S. 18)

2.2.4.1.5.5. Baumstruktur - Erzeugung Ein Baum ist eine Art von Graphen, die zur Darstellung einer (berwiegend hierarchischen) Struktur verwendet wird. In der Informatik heit ein Suchbaum eine Datenstruktur, in wessen Knoten Werte gespeichert werden knnen.

33

Abb. 11: Darstellung unterschiedliche Bume mit mehreren Kanten und Knoten (Quelle: http://de.wikipedia.org/wiki/Baumstruktur - Zugriff am: 12.04.2010)

In bersetzungsspeichern wird die Baumstruktur nicht fr die Darstellung einer Hierarchie verwendet, sondern werden in den Knoten die Wortangaben gespeichert. Damit wird den schnellen Zugang bei Bedarf vorgesehen.

Als Erstes werden die Angaben der invertierten Datei auf den Suchbaum geladen. Die Knoten enthalten dabei die Satznummern jedes Wortes. Ein hnlicher Suchbaum wird auch fr Synonyme dargestellt. Ein dritter Suchbaum enthlt die Wortartangaben in seinen Knoten. Diese drei Suchbume werden fr den einfachen Zugang zu den bentigten Angaben in dem Algorithmus der hnlichkeitssuche benutzt. Die Vorbereitung des bersetzungsspeichers ist mit der Errichtung der Baumstrukturen fertig. Dieser bersetzungsspeicher ist ein Beispiel fr die satzbasierten Strukturen. Obwohl Stze als Basis genommen werden, kann der bersetzer mithilfe anderer Verarbeitungen auch die Synonyme und Morpheme der Wrter bewerten. 2.2.4.1.5.6. Algorithmen der hnlichkeitssuche Wie oben erwhnt suchen bersetzungsspeicher nur nach

die

erste-Generation

orthographischer hnlichkeit durch. Die zweite-Generation bersetzungsspeicher entwickeln34

diese

Arbeitsweise

und

wenden

Fuzzy-Matching

an.

Die

dritte-Generation

bersetzungsspeicher, deren Arbeitsweise auf semantische Gleichheit basieren, sind die aktuellen Werkzeuge fr computeruntersttzte bersetzung. Diese bersetzungsspeicher unterscheiden sich von denen der lteren Generationen durch die Bercksichtigung der lexikalischen Eigenschaften von Stzen und durch die Bearbeitung der Satzteile anstatt der ganzen Stze.

Abb. 12: Bildschirmabbild fr Fuzzy-Match-Suche (Quelle: http://www.dict.cc/?s=search+tree+algorithm - Zugriff am: 26.04.2010)

Der

Algorithmus

der

hnlichkeitssuche,

der

von

den

dritte-Generation

bersetzungsspeichern angewendet wird, kann sich auch in unterschiedlichen Bereichen befinden: Abb. 12 ist ein Bildschirmabbild eines online-Wrterbuches. Es zeigt ein einfaches Beispiel fr die Arbeitsweise von dritte-Generation bersetzungsspeichern. Wenn man mehrere Wrter in dem Wrterbuch sucht und sie in der Datenbank des Wrterbuches nicht

35

gnzlich findet, sieht man die Benachrichtigung Full phrase not found. Allerdings ermglicht der Suchalgorithmus des Wrterbuches eine Fuzzy-Match-Suche und damit werden die gegebenen Wrter dieses Mal Stck fr Stck in der Datenbank gesucht. Dadurch wird die Mglichkeit, Ergebnisse zu bekommen, wesentlich erhht. Auf der Webseite werden diese Ergebnisse unter dem Titel Partial Matches (partielle bereinstimmungen) gezeigt.

Abb. 13:Bildschirmabbild fr orthographische-hnlichkeit (Quelle: http://www.dict.cc/?s=sub+title - Zugriff am: 26.04.2010)

Ein anderes Bildschirmabbild (Abb. 13) derselben Webseite zeigt, dass das System dem Benutzer bei Rechtschreibfehlern hilft. Wenn der Benutzer ein Wort falsch schreibt, wird er mit der Frage Did you mean ? (Meinten Sie ?) gewarnt, die auch die richtige Rechtschreibung des Wortes umfasst. Dieses ntzliche Suchergebnis wird mithilfe der orthographische-hnlichkeit-Algorithmen ermittelt.

2.2.4.1.5.7. Wort-Synonym-Morphem-hnlichkeit

Dieses Verfahren umfasst die drei unterschiedliche Vergleichsmethoden: Wort-hnlichkeit, Synonym-hnlichkeit und Morphem-hnlichkeit. Es zielt, eine lexikale und semantische Analyse auf dem Textkorpus auszufhren und damit den besten Kandidatsatz rauszufinden.

36

Zustzlich entfernt dieses Verfahren die unntigen Stze nach seinem Algorithmus, welches in die Verkleinerung des Textes und daher in die Zunahme der Systemleistung mndet. Nachdem all diese Operationen ausgefhrt wurden, um den Satz zu finden, der mit dem Eingabesatz am besten bereinstimmt, Punkte werden allen potentiell-bereinstimmenden Stzen in dem bersetzungsspeicher gegeben. Der Satz mit dem hchsten Punkt wird als der bereinstimmende Satz gewhlt. Die bersetzung des gewhlten Satzes wird dem bersetzer als ein Ergebnis zurckgegeben. Der bersetzer entweder akzeptiert es, ndert es oder lehnt es ab und nach dem zweitbesten Ergebnis fragt. 2.2.4.1.6. Algorithmus fr die bereinstimmung von hnlichen Segmenten auf mehrere Schichten Wie vorher erwhnt, fr die bereinstimmung von Quell- und Zieltext werden hnlichkeitsalgorithmen und daher eine Schichtenstruktur benutzt. Das Ziel dieses Verfahrens ist die Anpassung von zwei Wortsegmenten: Die Eingabe I und der Kandidat C. Die Eingabe I von der Lnge m wird nicht als ein einzelnes Teil aus gebeugter Form der Wrter, sondern als eine Gruppe aus Segmente mit F parallel Schichten If(1