Einführung in die Maschinelle Übersetzung - WebHome · Walther v.Hahn Universität ... nach...
Transcript of Einführung in die Maschinelle Übersetzung - WebHome · Walther v.Hahn Universität ... nach...
1
Einführung in dieMaschinelle Übersetzung
- Grundlagen, Probleme undLösungswege -
Walther v.HahnUniversität Hamburg • Fachbereich InformatikArbeitsbereich Natürlichsprachliche Systeme
WWW: http://nats-www.informatik.uni-hamburg.de/view/User/WaltherVHahn
E-Mail: vhahn@informatik, uni-hamburg.de
Projekt MÜ SoSe 07 • © v.Hahn2
Gliederung• Allgemeines• Technische Problemfelder
– Natürliche Sprachen sind komplex und nicht deterministisch– Sprachen unterschieden sich enorm
• Übersetzungstiefe• Methoden der Maschinellen Übersetzung
Vortrag Dr. Vertan: Die Technolgie der Maschinellen Übersetzung• Verfahren:
– Korpusbasiertes Paradigma• Beispielorierte Maschinelle Übersetzung• Statistische Maschinelle Übersetzung
• Algorithmen.• Der Stand der Kunst• Hybride Techniken
2
Projekt MÜ SoSe 07 • © v.Hahn3
Häufige Abkürzungen in der Literatur
MT Machine Translation Maschinelle Übersetzung MÜMT Machine Aided Computergestützte -
Translation Übersetzung -MAHT Machine Aided
Human TranslationHAMT Human aided
Machine TranslationSL Source Language Quellsprache QSTL Target Language Zielsprache ZS
Projekt MÜ SoSe 07 • © v.Hahn4
Maschinelle Übersetzung alsForschungsgebiet
MÜ ist kein isoliertes Forschungsgebiet, sondern eine Anwendung von Methodenaus mehreren Bereichen:
Linguistik Computer- Linguistik
Überset-zungstheorie Informatik
MÜ
3
Projekt MÜ SoSe 07 • © v.Hahn5
Warum brauchen wir Maschinelle Übersetzung?• Weltweit ist hat der Übersetzungsmarkt einen Wert von
1989 201990 5002003 2000 Million $.Das durchschnittliche jährliche Wachstum ist immer noch ca 20%
Schon 1986 waren es weltweit mehr als 500 Mio. übersetzte Seiten,davon mehr als 100 Mio. in Europa. Davon
1% > Belletristik30% offizielle (Staatliche) Seiten50% Industrie und Wirtschaft (meist technische Dokumentation)
• Die Zeiteinsparung durch die Benutzung des MT-Systems Systran warnach Kundenauskunft ca. 75%
• Dienstverbesserung durch MAT-Systeme (nach deutsche Airbus): 20%
Projekt MÜ SoSe 07 • © v.Hahn6
Europäische Union
• Systran hat schon 1994 140 000 Seiten an EU-Dokumenten übersetzt.80 % der EU-Dokumente zwischen Spanisch und Französisch sindautomatisch übersetzt.
• Man kann nicht so viele ÜbersetzerInnen/DolmetscherInnen ausbildenwie gebraucht werden
• Die Situation ist nach der EU-Erweiterung ist noch angespanntergeworden: Zur Zeit gibt es allein 23 EU Amtsprachen = 506Sprachpaare.
4
Projekt MÜ SoSe 07 • © v.Hahn7
Amtssprachen der EU
български (Bălgarski) - BG -Bulgarisch
Čeština - CS - TschechischDansk - DA - DänischDeutsch - DEEesti - ET - EstnischElinika - EL - GriechischEnglish - EN - EnglischEspañol - ES - SpanischFrançais - FR - FranzösischGaeilge - GA - IrischItaliano - IT - ItalienischLatviesu valoda - LV - Lettisch
Lietuviu kalba - LT - LitauischMagyar - HU - UngarischMalti - MT - MaltesischNederlands - NL - NiederländischPolski - PL - PolnischPortuguês - PT - PortugiesischRomână - RO - RumänischSlovenčina - SK - SlowakischSlovenščina - SL - SlowenischSuomi - FI - FinnischSvenska - SV - Schwedisch
Projekt MÜ SoSe 07 • © v.Hahn8
Funktionale Typologie für MÜ-Systeme
Translation
Translation for Assimilation
Translation for Dissemination
Scanning for Relevance
Data-Extraction
Indexing
Result analysis and trend recognition
Informal Interaction
Publicationsquality
High Volume per Domain
One of a Kind Document
©Carbonell
5
Projekt MÜ SoSe 07 • © v.Hahn9
Zwei Problemfelder
A. Grundsätzlich komplexe Eigenschaften natürlicher Sprachengegenüber formalen Sprachen müssen auf allen Ebenen (Wort,Syntax, Text, Kommunikation) behandelt werden.
B. Unterschiede zwischen den Sprachen müssen aufeinander abgebildetwerden.1. Lexikalische Wahl2. Syntaktische Struktur3. Begriffliches System4. Stilistische Regeln5. Kultureller Hintergrund
Projekt MÜ SoSe 07 • © v.Hahn10
A1. Typisch für natürliche Sprachen:Ambiguität
Ambiguitäten auf allen Ebenen:.
• Sprachsignal-Ambiguität ”Rat” vs. “Rad” “peak” vs. “peek”• lexikalische Ambiguität “Fahren sie zu der nächsten Bank!”• Syntaktische Ambiguität “I saw the Dacia-Service driving to the airport”• Pragmatische Ambiguität “Können Sie mir bitte die Anweisungen per SMS
schicken?” (Als Antwort nicht: “Ja, kann ich!”)• Referentielle Ambiguität “Nehmen Sie das Warndreieck aus dem Auto und
stellen Sie es sichtbar auf die Strasse• Ambiguität ist der Hauptunterschied zwischen formalen und natürlichen
Sprachen
6
Projekt MÜ SoSe 07 • © v.Hahn11
• Nichtkontinuerliche Komponenten (Der Kraftstoff, den Sie getankt haben,weicht wahrscheinlich von der Norm ab.)• Ellipsen (“Hier ebenso”)• Paraphrasen (“geht in Ordnung!” “ok!”)• Kohärenz “Es ist auch durchgebrannt”• Verstehen durch WeltwissenBei Fahrten in England oder ähnlichen Ländern blendet das asymmetrischeAbblendlicht den Gegenverkehr.
A2. Weitere Merkmale natürlicher Sprachen
• Fernbeziehung von KonstituentenEine bei allen Bedingungen einwandfrei arbeitende Abgasreinigungsanlage
Stellen Sie sich diesePhänomene einmal beiProgrammier-sprachen vor ...
d.h. anderen Ländernmit Linksverkehr
Projekt MÜ SoSe 07 • © v.Hahn12
B1. Unterschiede zwischen Sprachen:Lexikalische Wahl - 1 -
• Ein Wort in der Quellsprache muss durch mehrere einzelne Wörter oderMehrwortausdrücke in der Zielsprache übersetzt werden (dt. Senkkopfschraube engl. counter sunk bolt),
• Eins-zu-mehr Übersetzungen (Ein Wort in der Quellsprache hatkontextabhängig mehrere Übersetzungen)– QS: Wall (engl.) wird mit ZS Mauer (dt.) oder Wand (dt.) übersetzt,
abhängig davon, ob das Objekt innen oder aussen ist. In diesem Fall müssensemantische Merkmale verglichen werden müssen.
– Für die Übersetzung von “know” muss der grammatische Kontext bekanntsein:
I know him (engl.) → Ich kenne ihn (dt.)I know a solution (engl.) → Ich weiß eine Lösung (dt.)
• 50% der Übersetzungsfehler in der MÜ sind lexikalische Fehler
7
Projekt MÜ SoSe 07 • © v.Hahn13
B1. Unterschiede zwischen Sprachen:Lexikalische Wahl - 2 -
Mehr-zu-eins Übersetzung:
QS Herrenhaus (dt.) muß mit house (engl.) übersetzt werden, erzeugt in derZS aber die Ambiguität mit dt. Haus:
Haus housePalast palaceSchloss castleBurg mansionHerrenhaus
Die Gründe lexikalischer Unterschiede zwischen Sprachen sind:– Unterschiedliche Begriffe oder Begriffsteilung– Unterschiedliche Grammatikregeln– Unterschiedliche stilistische Regeln
Projekt MÜ SoSe 07 • © v.Hahn14
B1. Unterschiede zwischen Sprachen:Lexikalische Wahl - 3 -
Lexikalische Lücken - Einzelwörter/Konzepte in eine Sprache, die in derZielsprache nur umschrieben werden können, Z.B. abschleppen (dt.) =to take in tow (engl.)
Solche Probleme können nicht allein durch lexikalischen Transfer gelöstwerden, da es z.B. im Englischen Lexikon keinen Eintrag “to take intow” geben kann.
Lexical gaps betreffen nicht nur spezifische kulturelle Konzepte (e.g.HartzIV, Meldebescheinigung), letztere sind normalerweise aucheinfacher, da sie normalerweise unübersetzt bleiben.
8
Projekt MÜ SoSe 07 • © v.Hahn15
B2. Syntaktische Unterschiede zwischenSprachen
• Die syntaktische Strukturen in beiden Sprachen sind unterschiedlich
Dadurch [wird entlastet] die Bremsanlage
Adv V Det N
NP
VP
S
This relieves strain on the brake system
Pron V N Prep Art Adj N
NP
NP
PP
VP
VP
S
Projekt MÜ SoSe 07 • © v.Hahn16
B3. Begriffliche Unterschiede
Die Begrifflichkeit z.B. bei Verwandtschaftsbezeichnungen istunterschiedlich zwischen Kulturen:
dän. farbror (Bruder des Vaters)• dt. Onkel
dän. morbror (Bruder der Mutter)
• Dt. Walfisch engl. whale• Engl. ladybird dt. Schmetterling
9
Projekt MÜ SoSe 07 • © v.Hahn17
B4. Stilistische Unterschiede
Deutsches Duzen und Siezen:• “Sie”: Alle Vertreter einer Institution
Alle unbekannte Personen• “Du”: Erwachsene zu Kindern (bis zu ~15 Jahren)
Junge Leute unter sich (bis zu ~ 35), wie z.B. Schüler, Studenten
Informelle Gruppen (Sport, Ferien, Hobby)
• Unsicher:Gruppen am Arbeitsplatz,Verwandtschaft jenseits Cousins
Im Dänischen und Englischen duzt man generell
Projekt MÜ SoSe 07 • © v.Hahn18
B5. Kulturelle Unterschiede
• Höflichkeitsformeln sind extrem unterschiedlich z.B. zwischenAmerikanisch und Japanisch:
• Am. Engl.: „Hi, John, I am from the ‚Efficiency‘ group and I want toinform you, that ...“
• Jap.: „Verehrter Herr Watanabe, Ich bin sicher, dass ich Ihrewertvolle Zeit wegen einer Kleinigkeit in Anspruch nehme und sie vielewichtige Arbeiten zu tun haben. Könnten Sie mir bitte sagen, wann Sieeinige Minuten Zeit haben, um mit mir zu sprechen. ...“
• Männer und Frauen benutzen im Japanischen in Anhängigkeit vomGeschlecht und Rang des/r Angesprochenen unterschiedliche Sprache,bis in die Morphologie hinein
10
Projekt MÜ SoSe 07 • © v.Hahn19
Maschinelles Dolmetschen
• Neues Forschungs- und Technologiegebiet mit Anwendungen im:– Konsekutivdolmetschen– Simultandolmetschen– Dialogdolmetschen
• Ein hochinteressantes Gebiet, weil es Verbindungen zwischen– Signal-Ebenel ⇔ Phonetik und– Text-Ebene ⇔ Linguistik
erfordert.• Sehr relevant für die kognitive Linguistik wegen der
– Dolmetschenstrategie– Verstehen– Zeit- und Ortsverhältnisse– Erkennung von Sprechern und Sprachmerkmalen
Projekt MÜ SoSe 07 • © v.Hahn20
Welche der genannten Fragestellungentreten im Projekt auf?
• Übersetzung „1-zu mehr“: Lexikalischer Fall (Übersetzung von„Arbeitsbereichleiter“, „Prüfungsausschuss“ usw.)
• Übersetzung „1-zu-mehr“: Kontextfall (Übersetzen von „know“)• Lexikalische Lücken (Übersetzung von „Meldebescheinigung“,
„BaföG“, „Nebenfach“)• Syntaktische Unterschiede: Fragestruktur im Deutschen und
Englischen ist unterschiedlich:– Where can I obtain Information about....?– Wo kann ich Informationen über.... bekommen?
• Begriffliche Unterschiede - bei der Übersetzung von „Nebenfach“,„Seminar“, „Projekt“, usw.
• Stilistische Unterschiede sind hier einfach zu lösen: „you“ wird mit„Sie“ übersetzt
11
Projekt MÜ SoSe 07 • © v.Hahn21
Das MÜ-Dreieck
Quell- Text
Ziel-Text
Direkte Übersetzung
StatistischeÜbersetzung
Quell- Syntax
Ziel- Syntax
Transferübersetzung
Quell- Semantik
Ziel- Semantik
Tiefe Übersetzung
Interlingua
Projekt MÜ SoSe 07 • © v.Hahn22
3 sprachiges-Transfer-System
englisch-französischerTransfer
deutsch-englischerTransfer
englisch-deutscherTransfer
englischeGenerierung
englische
Analyse
französisch-englischerTransfer
französisch -deutscherTransfer
deutsch-französischerTransfer deutsche
Generierung
französischeGenerierung
französische
Analyse
deutsche
Analyse
12
Projekt MÜ SoSe 07 • © v.Hahn23
3 Sprachiges Interlingua-System
französischeGenerierung
deutscheGenerierung
Interlingua
französischeAnalyse
deutscheAnalyse
englischeGenerierung
englischeAnalyse
Projekt MÜ SoSe 07 • © v.Hahn24
Interlingua- vs. Transfer-Systeme
• Kein Modul ist von einer anderenAnalyse oder Generierungabhängig
• Zielsprachen haben kein Einflußauf dem Analyseprozeß.
• Für jede neue Sprache müssen nur2 neue Module implementiertwerden.
• „Rück-Übersetzung“ ist möglich(nützlich für Systemevaluation)
• Sehr komplizierte Repräsentation,selbst für Sprachen derselbeFamile)
• Sprachabhängig• Sprachpaarabhängig• Für jede Sprache muss ein große Zahl
von neuen Modulen implementiertwerden.(für n Sprachen: n×(n-1) Modulen)
• Klare Darstellung derTransformationen
• Lokale Definitionen.
13
Projekt MÜ SoSe 07 • © v.Hahn25
Standard-Architektur für regelbasierte MÜ-Systeme
Begriffs- undFachgebietswissen
Eingabe (SL) Ausgabe (TL)
Diskurs (ZS)
Grammatik (ZS)
Lexikon (ZS)
Transfer
Vorverarbeitung
Grammatik (QS)
Diskurs(QS)
Analyse
Nachbearbeitung
Generierung
Lexikon (SL)
Projekt MÜ SoSe 07 • © v.Hahn26
Architektur eines Direkten Systems
Eingabe (SL)
Lexikon (SL)
MorphologischeGenerierung
Ausgabe (TL)
Lexikon (TL)
Transfer
Vorverarbeitung
Morphologische Analyse
Nachbearbeitung
14
Projekt MÜ SoSe 07 • © v.Hahn27
Architektur von Transfersystemen
Eingabe (SL)
Syntaktische Analyse
Semantische Analyse
Lexikon(QS)
Grammatik(QS)
Morphologische Generierung
Syntaktische Generierung
Ausgabe(TL)
SemantischeGenerierung
Grammatik(ZS)
Lexikon(ZS)
Transfer
Vorverarbeitung
Morphologische Analyse
Nachbearbeitung
Projekt MÜ SoSe 07 • © v.Hahn28
Architektur eines InterlinguasystemsEingabe (SL)
Syntaktische Analyse
Semantische Analyse
Lexikon (QS)
Grammatik(QS)
MorphologischeGenerierung
SyntaktischeGenerierung
Ausgabe(TL)
Semantische Generierung
Grammatik (ZS)
Lexikon (ZS)
Vorverarbeitung
Morphologische Analyse
Nachbearbeitung
AbstrakteWissensReprä-
sentation
Konzept- und Fachgebietswissen
Diskurs (ZS)
Diskurs (QS)
15
Projekt MÜ SoSe 07 • © v.Hahn29
Architektur eines Korpusbasierten MT-Systems
Übersetzer
Suche und Rekombination
Vor-verarbeitung
Nach-bearbeitungText Übersetzung
Paralleles Korpus
Wissensquelle
Training
Projekt MÜ SoSe 07 • © v.Hahn30
Verbmobil-Architektur
16
Projekt MÜ SoSe 07 • © v.Hahn31
MÜ-spezifische Vorverarbeitung
• In den Quelltexten werden bekannte schwierige Bearbeitungsprobleme gesucht undwenn möglich ersetzt.
• Beispiele für solche Operationen:– Identifizierung von Eigennamen (“von Hahn”)– Markierung von grammatischen Kategorien von Homographen (“run”)– Markierung von eingebettete Äusserungen (“Er sagte: ’Ich gehe!’”)– Markierung von koordinierten Stukturen (“und, oder ...”)– Erstetzung von unbekannten Wörtern (“Landesvergabeverordnung”)– Extreme Form: Neuformulierung in einer kontrollierten Sprache
(manchmal in technischer Dokumentation)
Projekt MÜ SoSe 07 • © v.Hahn32
Nachbearbeitung
• Korrektur der Ausgabe nach einem vorher vereinbarten Standard (z.B.Firmensprache).– Minimal bei Übersetzung für Assimilation,– Sehr stark für Dissemination
• Häufige Operationen:– Ersetzung von Wörtern durch geeignete “Synonyme”,– Ersetzung von einzelnen Wörtern durch Idiome,– Syntaxkorrektur.
17
Projekt MÜ SoSe 07 • © v.Hahn33
Evaluation von MT-Systemen
• Im Gegensatz zu anderen Softwarewerkzeugen gibt es beiÜbersetzungen keine eindeutige Zielstruktur, keine “Musterlösung”,mit der die Lösung verglichen werden kann:
• Für eine Eingabe gibt es mehrere korrekte Übersetzungen• Die Evaluation eines MT-Systems ist von den Aufgaben des Systems
und den Anforderungen möglicher Nutzer abhängig.
Projekt MÜ SoSe 07 • © v.Hahn34
EvaluationsstrategienTestsuite vs. Testkorpus• Sorgfältig konstruierte
Beispielgruppen, die möglichstflächendeckend jeweils speziellesprachliche, linguistische oderstilistische Phänomene testen
• Problem: Dahinter steht dieAnname, dass man vonkonstruierten Beispielen auf allerealen Nutzungen schließen kann.
• Testsuite-Bewertungen sind u.a.wegen der Sprachunterschiedeuntereinander schwer vergleichbar
• Ein angemessenes reales Korpus ausder zukünftigen Nutzungsdomäne,
• Problem: Es werden typische undhäufige Fälle getestet, nichtsystematisch bestimmte sprachliche,linguistische oder stilistischeSchwierigkeiten.
• Vorhersagen über die Performanz desSystems in anderen Sachgebietenoder Nutzergruppen sind schwierig.
18
Projekt MÜ SoSe 07 • © v.Hahn35
GET
Evaluation
Projekt MÜ SoSe 07 • © v.Hahn36
Unterschiedliche MÜ-Methoden
• Regelbasierte MÜ• Wissensbasierte MÜ• Statistische MÜ• Beispielbasierte MÜ
Methoden für computergestützte Übersetzung:
• Maschinell unterstütze Humanübersetzung einschließlichVorbearbeitung und Nachbearbeitung
• Translation Memories (Translation Workbenches)
Hybride Systeme
++
+