Einführung in die Maschinelle Übersetzung - WebHome · Walther v.Hahn Universität ... nach...

18
1 Einführung in die Maschinelle Übersetzung - Grundlagen, Probleme und Lösungswege - Walther v.Hahn Universität Hamburg • Fachbereich Informatik Arbeitsbereich Natürlichsprachliche Systeme WWW: http://nats-www.informatik.uni- hamburg.de/view/User/WaltherVHahn E-Mail: vhahn@informatik, uni-hamburg.de Projekt MÜ SoSe 07 • © v.Hahn 2 Gliederung Allgemeines Technische Problemfelder Natürliche Sprachen sind komplex und nicht deterministisch Sprachen unterschieden sich enorm Übersetzungstiefe Methoden der Maschinellen Übersetzung Vortrag Dr. Vertan: Die Technolgie der Maschinellen Übersetzung Verfahren: Korpusbasiertes Paradigma Beispielorierte Maschinelle Übersetzung Statistische Maschinelle Übersetzung Algorithmen. Der Stand der Kunst Hybride Techniken

Transcript of Einführung in die Maschinelle Übersetzung - WebHome · Walther v.Hahn Universität ... nach...

1

Einführung in dieMaschinelle Übersetzung

- Grundlagen, Probleme undLösungswege -

Walther v.HahnUniversität Hamburg • Fachbereich InformatikArbeitsbereich Natürlichsprachliche Systeme

WWW: http://nats-www.informatik.uni-hamburg.de/view/User/WaltherVHahn

E-Mail: vhahn@informatik, uni-hamburg.de

Projekt MÜ SoSe 07 • © v.Hahn2

Gliederung• Allgemeines• Technische Problemfelder

– Natürliche Sprachen sind komplex und nicht deterministisch– Sprachen unterschieden sich enorm

• Übersetzungstiefe• Methoden der Maschinellen Übersetzung

Vortrag Dr. Vertan: Die Technolgie der Maschinellen Übersetzung• Verfahren:

– Korpusbasiertes Paradigma• Beispielorierte Maschinelle Übersetzung• Statistische Maschinelle Übersetzung

• Algorithmen.• Der Stand der Kunst• Hybride Techniken

2

Projekt MÜ SoSe 07 • © v.Hahn3

Häufige Abkürzungen in der Literatur

MT Machine Translation Maschinelle Übersetzung MÜMT Machine Aided Computergestützte -

Translation Übersetzung -MAHT Machine Aided

Human TranslationHAMT Human aided

Machine TranslationSL Source Language Quellsprache QSTL Target Language Zielsprache ZS

Projekt MÜ SoSe 07 • © v.Hahn4

Maschinelle Übersetzung alsForschungsgebiet

MÜ ist kein isoliertes Forschungsgebiet, sondern eine Anwendung von Methodenaus mehreren Bereichen:

Linguistik Computer- Linguistik

Überset-zungstheorie Informatik

3

Projekt MÜ SoSe 07 • © v.Hahn5

Warum brauchen wir Maschinelle Übersetzung?• Weltweit ist hat der Übersetzungsmarkt einen Wert von

1989 201990 5002003 2000 Million $.Das durchschnittliche jährliche Wachstum ist immer noch ca 20%

Schon 1986 waren es weltweit mehr als 500 Mio. übersetzte Seiten,davon mehr als 100 Mio. in Europa. Davon

1% > Belletristik30% offizielle (Staatliche) Seiten50% Industrie und Wirtschaft (meist technische Dokumentation)

• Die Zeiteinsparung durch die Benutzung des MT-Systems Systran warnach Kundenauskunft ca. 75%

• Dienstverbesserung durch MAT-Systeme (nach deutsche Airbus): 20%

Projekt MÜ SoSe 07 • © v.Hahn6

Europäische Union

• Systran hat schon 1994 140 000 Seiten an EU-Dokumenten übersetzt.80 % der EU-Dokumente zwischen Spanisch und Französisch sindautomatisch übersetzt.

• Man kann nicht so viele ÜbersetzerInnen/DolmetscherInnen ausbildenwie gebraucht werden

• Die Situation ist nach der EU-Erweiterung ist noch angespanntergeworden: Zur Zeit gibt es allein 23 EU Amtsprachen = 506Sprachpaare.

4

Projekt MÜ SoSe 07 • © v.Hahn7

Amtssprachen der EU

български (Bălgarski) - BG -Bulgarisch

Čeština - CS - TschechischDansk - DA - DänischDeutsch - DEEesti - ET - EstnischElinika - EL - GriechischEnglish - EN - EnglischEspañol - ES - SpanischFrançais - FR - FranzösischGaeilge - GA - IrischItaliano - IT - ItalienischLatviesu valoda - LV - Lettisch

Lietuviu kalba - LT - LitauischMagyar - HU - UngarischMalti - MT - MaltesischNederlands - NL - NiederländischPolski - PL - PolnischPortuguês - PT - PortugiesischRomână - RO - RumänischSlovenčina - SK - SlowakischSlovenščina - SL - SlowenischSuomi - FI - FinnischSvenska - SV - Schwedisch

Projekt MÜ SoSe 07 • © v.Hahn8

Funktionale Typologie für MÜ-Systeme

Translation

Translation for Assimilation

Translation for Dissemination

Scanning for Relevance

Data-Extraction

Indexing

Result analysis and trend recognition

Informal Interaction

Publicationsquality

High Volume per Domain

One of a Kind Document

©Carbonell

5

Projekt MÜ SoSe 07 • © v.Hahn9

Zwei Problemfelder

A. Grundsätzlich komplexe Eigenschaften natürlicher Sprachengegenüber formalen Sprachen müssen auf allen Ebenen (Wort,Syntax, Text, Kommunikation) behandelt werden.

B. Unterschiede zwischen den Sprachen müssen aufeinander abgebildetwerden.1. Lexikalische Wahl2. Syntaktische Struktur3. Begriffliches System4. Stilistische Regeln5. Kultureller Hintergrund

Projekt MÜ SoSe 07 • © v.Hahn10

A1. Typisch für natürliche Sprachen:Ambiguität

Ambiguitäten auf allen Ebenen:.

• Sprachsignal-Ambiguität ”Rat” vs. “Rad” “peak” vs. “peek”• lexikalische Ambiguität “Fahren sie zu der nächsten Bank!”• Syntaktische Ambiguität “I saw the Dacia-Service driving to the airport”• Pragmatische Ambiguität “Können Sie mir bitte die Anweisungen per SMS

schicken?” (Als Antwort nicht: “Ja, kann ich!”)• Referentielle Ambiguität “Nehmen Sie das Warndreieck aus dem Auto und

stellen Sie es sichtbar auf die Strasse• Ambiguität ist der Hauptunterschied zwischen formalen und natürlichen

Sprachen

6

Projekt MÜ SoSe 07 • © v.Hahn11

• Nichtkontinuerliche Komponenten (Der Kraftstoff, den Sie getankt haben,weicht wahrscheinlich von der Norm ab.)• Ellipsen (“Hier ebenso”)• Paraphrasen (“geht in Ordnung!” “ok!”)• Kohärenz “Es ist auch durchgebrannt”• Verstehen durch WeltwissenBei Fahrten in England oder ähnlichen Ländern blendet das asymmetrischeAbblendlicht den Gegenverkehr.

A2. Weitere Merkmale natürlicher Sprachen

• Fernbeziehung von KonstituentenEine bei allen Bedingungen einwandfrei arbeitende Abgasreinigungsanlage

Stellen Sie sich diesePhänomene einmal beiProgrammier-sprachen vor ...

d.h. anderen Ländernmit Linksverkehr

Projekt MÜ SoSe 07 • © v.Hahn12

B1. Unterschiede zwischen Sprachen:Lexikalische Wahl - 1 -

• Ein Wort in der Quellsprache muss durch mehrere einzelne Wörter oderMehrwortausdrücke in der Zielsprache übersetzt werden (dt. Senkkopfschraube engl. counter sunk bolt),

• Eins-zu-mehr Übersetzungen (Ein Wort in der Quellsprache hatkontextabhängig mehrere Übersetzungen)– QS: Wall (engl.) wird mit ZS Mauer (dt.) oder Wand (dt.) übersetzt,

abhängig davon, ob das Objekt innen oder aussen ist. In diesem Fall müssensemantische Merkmale verglichen werden müssen.

– Für die Übersetzung von “know” muss der grammatische Kontext bekanntsein:

I know him (engl.) → Ich kenne ihn (dt.)I know a solution (engl.) → Ich weiß eine Lösung (dt.)

• 50% der Übersetzungsfehler in der MÜ sind lexikalische Fehler

7

Projekt MÜ SoSe 07 • © v.Hahn13

B1. Unterschiede zwischen Sprachen:Lexikalische Wahl - 2 -

Mehr-zu-eins Übersetzung:

QS Herrenhaus (dt.) muß mit house (engl.) übersetzt werden, erzeugt in derZS aber die Ambiguität mit dt. Haus:

Haus housePalast palaceSchloss castleBurg mansionHerrenhaus

Die Gründe lexikalischer Unterschiede zwischen Sprachen sind:– Unterschiedliche Begriffe oder Begriffsteilung– Unterschiedliche Grammatikregeln– Unterschiedliche stilistische Regeln

Projekt MÜ SoSe 07 • © v.Hahn14

B1. Unterschiede zwischen Sprachen:Lexikalische Wahl - 3 -

Lexikalische Lücken - Einzelwörter/Konzepte in eine Sprache, die in derZielsprache nur umschrieben werden können, Z.B. abschleppen (dt.) =to take in tow (engl.)

Solche Probleme können nicht allein durch lexikalischen Transfer gelöstwerden, da es z.B. im Englischen Lexikon keinen Eintrag “to take intow” geben kann.

Lexical gaps betreffen nicht nur spezifische kulturelle Konzepte (e.g.HartzIV, Meldebescheinigung), letztere sind normalerweise aucheinfacher, da sie normalerweise unübersetzt bleiben.

8

Projekt MÜ SoSe 07 • © v.Hahn15

B2. Syntaktische Unterschiede zwischenSprachen

• Die syntaktische Strukturen in beiden Sprachen sind unterschiedlich

Dadurch [wird entlastet] die Bremsanlage

Adv V Det N

NP

VP

S

This relieves strain on the brake system

Pron V N Prep Art Adj N

NP

NP

PP

VP

VP

S

Projekt MÜ SoSe 07 • © v.Hahn16

B3. Begriffliche Unterschiede

Die Begrifflichkeit z.B. bei Verwandtschaftsbezeichnungen istunterschiedlich zwischen Kulturen:

dän. farbror (Bruder des Vaters)• dt. Onkel

dän. morbror (Bruder der Mutter)

• Dt. Walfisch engl. whale• Engl. ladybird dt. Schmetterling

9

Projekt MÜ SoSe 07 • © v.Hahn17

B4. Stilistische Unterschiede

Deutsches Duzen und Siezen:• “Sie”: Alle Vertreter einer Institution

Alle unbekannte Personen• “Du”: Erwachsene zu Kindern (bis zu ~15 Jahren)

Junge Leute unter sich (bis zu ~ 35), wie z.B. Schüler, Studenten

Informelle Gruppen (Sport, Ferien, Hobby)

• Unsicher:Gruppen am Arbeitsplatz,Verwandtschaft jenseits Cousins

Im Dänischen und Englischen duzt man generell

Projekt MÜ SoSe 07 • © v.Hahn18

B5. Kulturelle Unterschiede

• Höflichkeitsformeln sind extrem unterschiedlich z.B. zwischenAmerikanisch und Japanisch:

• Am. Engl.: „Hi, John, I am from the ‚Efficiency‘ group and I want toinform you, that ...“

• Jap.: „Verehrter Herr Watanabe, Ich bin sicher, dass ich Ihrewertvolle Zeit wegen einer Kleinigkeit in Anspruch nehme und sie vielewichtige Arbeiten zu tun haben. Könnten Sie mir bitte sagen, wann Sieeinige Minuten Zeit haben, um mit mir zu sprechen. ...“

• Männer und Frauen benutzen im Japanischen in Anhängigkeit vomGeschlecht und Rang des/r Angesprochenen unterschiedliche Sprache,bis in die Morphologie hinein

10

Projekt MÜ SoSe 07 • © v.Hahn19

Maschinelles Dolmetschen

• Neues Forschungs- und Technologiegebiet mit Anwendungen im:– Konsekutivdolmetschen– Simultandolmetschen– Dialogdolmetschen

• Ein hochinteressantes Gebiet, weil es Verbindungen zwischen– Signal-Ebenel ⇔ Phonetik und– Text-Ebene ⇔ Linguistik

erfordert.• Sehr relevant für die kognitive Linguistik wegen der

– Dolmetschenstrategie– Verstehen– Zeit- und Ortsverhältnisse– Erkennung von Sprechern und Sprachmerkmalen

Projekt MÜ SoSe 07 • © v.Hahn20

Welche der genannten Fragestellungentreten im Projekt auf?

• Übersetzung „1-zu mehr“: Lexikalischer Fall (Übersetzung von„Arbeitsbereichleiter“, „Prüfungsausschuss“ usw.)

• Übersetzung „1-zu-mehr“: Kontextfall (Übersetzen von „know“)• Lexikalische Lücken (Übersetzung von „Meldebescheinigung“,

„BaföG“, „Nebenfach“)• Syntaktische Unterschiede: Fragestruktur im Deutschen und

Englischen ist unterschiedlich:– Where can I obtain Information about....?– Wo kann ich Informationen über.... bekommen?

• Begriffliche Unterschiede - bei der Übersetzung von „Nebenfach“,„Seminar“, „Projekt“, usw.

• Stilistische Unterschiede sind hier einfach zu lösen: „you“ wird mit„Sie“ übersetzt

11

Projekt MÜ SoSe 07 • © v.Hahn21

Das MÜ-Dreieck

Quell- Text

Ziel-Text

Direkte Übersetzung

StatistischeÜbersetzung

Quell- Syntax

Ziel- Syntax

Transferübersetzung

Quell- Semantik

Ziel- Semantik

Tiefe Übersetzung

Interlingua

Projekt MÜ SoSe 07 • © v.Hahn22

3 sprachiges-Transfer-System

englisch-französischerTransfer

deutsch-englischerTransfer

englisch-deutscherTransfer

englischeGenerierung

englische

Analyse

französisch-englischerTransfer

französisch -deutscherTransfer

deutsch-französischerTransfer deutsche

Generierung

französischeGenerierung

französische

Analyse

deutsche

Analyse

12

Projekt MÜ SoSe 07 • © v.Hahn23

3 Sprachiges Interlingua-System

französischeGenerierung

deutscheGenerierung

Interlingua

französischeAnalyse

deutscheAnalyse

englischeGenerierung

englischeAnalyse

Projekt MÜ SoSe 07 • © v.Hahn24

Interlingua- vs. Transfer-Systeme

• Kein Modul ist von einer anderenAnalyse oder Generierungabhängig

• Zielsprachen haben kein Einflußauf dem Analyseprozeß.

• Für jede neue Sprache müssen nur2 neue Module implementiertwerden.

• „Rück-Übersetzung“ ist möglich(nützlich für Systemevaluation)

• Sehr komplizierte Repräsentation,selbst für Sprachen derselbeFamile)

• Sprachabhängig• Sprachpaarabhängig• Für jede Sprache muss ein große Zahl

von neuen Modulen implementiertwerden.(für n Sprachen: n×(n-1) Modulen)

• Klare Darstellung derTransformationen

• Lokale Definitionen.

13

Projekt MÜ SoSe 07 • © v.Hahn25

Standard-Architektur für regelbasierte MÜ-Systeme

Begriffs- undFachgebietswissen

Eingabe (SL) Ausgabe (TL)

Diskurs (ZS)

Grammatik (ZS)

Lexikon (ZS)

Transfer

Vorverarbeitung

Grammatik (QS)

Diskurs(QS)

Analyse

Nachbearbeitung

Generierung

Lexikon (SL)

Projekt MÜ SoSe 07 • © v.Hahn26

Architektur eines Direkten Systems

Eingabe (SL)

Lexikon (SL)

MorphologischeGenerierung

Ausgabe (TL)

Lexikon (TL)

Transfer

Vorverarbeitung

Morphologische Analyse

Nachbearbeitung

14

Projekt MÜ SoSe 07 • © v.Hahn27

Architektur von Transfersystemen

Eingabe (SL)

Syntaktische Analyse

Semantische Analyse

Lexikon(QS)

Grammatik(QS)

Morphologische Generierung

Syntaktische Generierung

Ausgabe(TL)

SemantischeGenerierung

Grammatik(ZS)

Lexikon(ZS)

Transfer

Vorverarbeitung

Morphologische Analyse

Nachbearbeitung

Projekt MÜ SoSe 07 • © v.Hahn28

Architektur eines InterlinguasystemsEingabe (SL)

Syntaktische Analyse

Semantische Analyse

Lexikon (QS)

Grammatik(QS)

MorphologischeGenerierung

SyntaktischeGenerierung

Ausgabe(TL)

Semantische Generierung

Grammatik (ZS)

Lexikon (ZS)

Vorverarbeitung

Morphologische Analyse

Nachbearbeitung

AbstrakteWissensReprä-

sentation

Konzept- und Fachgebietswissen

Diskurs (ZS)

Diskurs (QS)

15

Projekt MÜ SoSe 07 • © v.Hahn29

Architektur eines Korpusbasierten MT-Systems

Übersetzer

Suche und Rekombination

Vor-verarbeitung

Nach-bearbeitungText Übersetzung

Paralleles Korpus

Wissensquelle

Training

Projekt MÜ SoSe 07 • © v.Hahn30

Verbmobil-Architektur

16

Projekt MÜ SoSe 07 • © v.Hahn31

MÜ-spezifische Vorverarbeitung

• In den Quelltexten werden bekannte schwierige Bearbeitungsprobleme gesucht undwenn möglich ersetzt.

• Beispiele für solche Operationen:– Identifizierung von Eigennamen (“von Hahn”)– Markierung von grammatischen Kategorien von Homographen (“run”)– Markierung von eingebettete Äusserungen (“Er sagte: ’Ich gehe!’”)– Markierung von koordinierten Stukturen (“und, oder ...”)– Erstetzung von unbekannten Wörtern (“Landesvergabeverordnung”)– Extreme Form: Neuformulierung in einer kontrollierten Sprache

(manchmal in technischer Dokumentation)

Projekt MÜ SoSe 07 • © v.Hahn32

Nachbearbeitung

• Korrektur der Ausgabe nach einem vorher vereinbarten Standard (z.B.Firmensprache).– Minimal bei Übersetzung für Assimilation,– Sehr stark für Dissemination

• Häufige Operationen:– Ersetzung von Wörtern durch geeignete “Synonyme”,– Ersetzung von einzelnen Wörtern durch Idiome,– Syntaxkorrektur.

17

Projekt MÜ SoSe 07 • © v.Hahn33

Evaluation von MT-Systemen

• Im Gegensatz zu anderen Softwarewerkzeugen gibt es beiÜbersetzungen keine eindeutige Zielstruktur, keine “Musterlösung”,mit der die Lösung verglichen werden kann:

• Für eine Eingabe gibt es mehrere korrekte Übersetzungen• Die Evaluation eines MT-Systems ist von den Aufgaben des Systems

und den Anforderungen möglicher Nutzer abhängig.

Projekt MÜ SoSe 07 • © v.Hahn34

EvaluationsstrategienTestsuite vs. Testkorpus• Sorgfältig konstruierte

Beispielgruppen, die möglichstflächendeckend jeweils speziellesprachliche, linguistische oderstilistische Phänomene testen

• Problem: Dahinter steht dieAnname, dass man vonkonstruierten Beispielen auf allerealen Nutzungen schließen kann.

• Testsuite-Bewertungen sind u.a.wegen der Sprachunterschiedeuntereinander schwer vergleichbar

• Ein angemessenes reales Korpus ausder zukünftigen Nutzungsdomäne,

• Problem: Es werden typische undhäufige Fälle getestet, nichtsystematisch bestimmte sprachliche,linguistische oder stilistischeSchwierigkeiten.

• Vorhersagen über die Performanz desSystems in anderen Sachgebietenoder Nutzergruppen sind schwierig.

18

Projekt MÜ SoSe 07 • © v.Hahn35

GET

Evaluation

Projekt MÜ SoSe 07 • © v.Hahn36

Unterschiedliche MÜ-Methoden

• Regelbasierte MÜ• Wissensbasierte MÜ• Statistische MÜ• Beispielbasierte MÜ

Methoden für computergestützte Übersetzung:

• Maschinell unterstütze Humanübersetzung einschließlichVorbearbeitung und Nachbearbeitung

• Translation Memories (Translation Workbenches)

Hybride Systeme

++

+