Mehrsprachigkeit und semantische Technologien

Post on 18-Dec-2014

77 views 1 download

description

Felix Sasaki, Georg Rehm. Mehrsprachigkeit und semantische Technologien. Berlin, Germany. October 2014. October 06, 2014.

Transcript of Mehrsprachigkeit und semantische Technologien

Mehrsprachigkeit und semantische Technologien!

Felix Sasaki, Georg Rehm!DFKI GmbH!

Forschungsbereich Sprachtechnologie, Berlin!!

Statusmeeting Semantic Media Web – 6. Oktober 2014, Berlin!!

Mehrsprachigkeit – ein Problem?!

2!Mehrsprachige Technologien – 6. Oktober 2014!

Übersetzung: Ein Riesengeschäft!!

Kommerzielle Übersetzung: ein Markt von über 20 Milliarden Euro jährlich!!

Bereitstellung von Inhalten in dutzenden von Sprachen immer öfter unverzichtbar!

3!Mehrsprachige Technologien – 6. Oktober 2014!

Übersetzung: Ein Riesengeschäft!!

Wirtschaftlicher Vorteil;!Anforderung an öffentliche

Einrichtungen, insbesondere in Europa!

4!Mehrsprachige Technologien – 6. Oktober 2014!

Übersetzung – ein Potential in Europa:The Digital Single Market!!

•  51% der europäischen Einzelhändler verkaufen Waren über das Internet!

•  Nur 21% unterstützen grenzüberschreitende Transaktionen!

•  30% der Europäer haben bereits im Internet eingekauft!

•  Nur 7% haben einen Einkauf bei einem Händler aus einem anderen EU-Mitgliedsstaat getätigt!

5!

Vgl. „Flash Eurobarometer:!User language preferences online“!

Mehrsprachige Technologien – 6. Oktober 2014!

Die Sprachtechnologie-Community in Europa: META-NET!

•  Exzellenznetzwerk!•  60 Forschungseinrichtungen

in 34 Ländern!•  Ziel: technologische Basis

für das mehrsprachige Europa!

6!Mehrsprachige Technologien – 6. Oktober 2014!

7!

Übersetzung:Automatisierung ist unverzichtbar!!

Steigende Anforderungen!– Übersetzungsmenge!– Sprachabdeckung!– Geschwindigkeit!– Qualität!– Preisdruck!–  ...!

Mehrsprachige Technologien – 6. Oktober 2014!

Automatische Übersetzung für Jedermann?!

Online Übersetzungstool: Google Translate, Bing Translate, ...!

Meine Inhalte!

Alle Sprachen .... ?!

8!Mehrsprachige Technologien – 6. Oktober 2014!

Exkurs: Ansätze für MT!

9!

Regelbasierter Ansatz!–  Nutzt Grammatik,

Lexikon, Überset-zungsregeln!

–  Vorteil: leicht anpassbar an neue Bereiche!

–  Nachteil: sehr große Anzahl handgeschriebener Regeln nötig!

!

Mehrsprachige Technologien – 6. Oktober 2014!

Exkurs: Ansätze für MT!

Statistischer Ansatz!–  Nutzt Trainingsdaten von existierenden

Übersetzungen!–  Vorteil: Neue Zielsprachen sind mit

Trainingsdaten schnell implementiert!–  Nachteil: Anpassung in speziellen Domänen

wegen fehlender Trainingsdaten oft schwierig!

10!

Ich mag meine Katze || I like my cat || 7!Ich mag meine Katze || I love my cat || 3!P (“I like my cat” || “Ich mag meine Katze“) = 0.7!

Mehrsprachige Technologien – 6. Oktober 2014!

Online MT Services!

•  Basis: typischerweise statistischer Ansatz!•  Ergebnisse sind schnell verfügbar!•  Qualität oft schlecht – Gist-Translation!–  Ziel: grob Inhalte erfassen!

11!Mehrsprachige Technologien – 6. Oktober 2014!

WAS BRAUCHEN KMU UM MT ERFOLGREICH EINZUSETZEN?!

12!Mehrsprachige Technologien – 6. Oktober 2014!

1. Eigene Übersetzungssysteme!•  System anpassen via

entsprechender Trainingsdaten!– Verfügbarkeit variiert

stark je nach Sprachpaar!– Vgl. die META-NET

Language White Paper Serie!

13!Mehrsprachige Technologien – 6. Oktober 2014!

1. Eigene Übersetzungssysteme!•  System anpassen via entsprechender

Trainingsdaten!– Anpassung an Domänen!

14!

...  

Mehrsprachige Technologien – 6. Oktober 2014!

1. Eigene Übersetzungssysteme!•  System anpassen via entsprechender

Trainingsdaten!– Eigene Terminologie: (Firmen) spezifische

Übersetzungsrichtlinien!

15!

„Auto > car“!„Auto > vehicle“!„Auto > ...“!

Mehrsprachige Technologien – 6. Oktober 2014!

1. Eigene Übersetzungssysteme!•  Leichte Integration in

Digital Content Management!– Workflows zwischen

CMS, DMS, Enterprise CM, Web CMS, ...!

•  Schnittstellen!

16!Mehrsprachige Technologien – 6. Oktober 2014!

2. Qualität!•  Übersetzungsqualität: Was ist das?!– Beispiel: Text verständlich, Layout kaputt –

Zeitersparnis durch Übersetzungssystem geht verloren!

•  Maße für Maschinen und den Menschen!– Qualität = Ähnlichkeit der Sätze mit

Beispielübersetzungen!– Qualität = passend zu den Anforderungen im

jeweiligen Übersetzungsauftrag!

17!Mehrsprachige Technologien – 6. Oktober 2014!

3. Integration in Workflows!•  Inhaltserstellung!•  Übersetzung!•  Korrektur durch menschliche Übersetzer

(Post-Editing)!•  Qualitätsüberprüfung in mehreren

Zyklen ...!•  Fertigstellung!

18!Mehrsprachige Technologien – 6. Oktober 2014!

4. Nutzung existierender, mehrsprachiger Daten!

•  Beispieldatenquelle: Wikipedia/DBpedia!– Sprachübergreifende Links!

•  Herausforderung: Datenqualität!– Sprachabdeckung!– Verifizierung der Übersetzungen!– Verfügbarkeit!

19!Mehrsprachige Technologien – 6. Oktober 2014!

FORSCHUNGSERGEBNISSE!

20!Mehrsprachige Technologien – 6. Oktober 2014!

Forschungsergebnisse 1: MOSES!

•  Open-Source-Übersetzungssystem!•  Übersetzungssysteme im Eigenbau!– Trainingsdaten!– Terminologie!–  ... fertig J!

•  Achtung: Trainingsdaten sind teuer!!– Je mehr Qualität, desto mehr Daten nötig!

21!Mehrsprachige Technologien – 6. Oktober 2014!

Forschungsergebnisse 2: MQM!•  Multidimensional Quality Metrics (MQM)!•  Metamodell zur Definition von Metriken,

entwickelt im QTLaunchPad Projekt!•  Modell wird in konkreten Projekten

instanziiert, in Abhängigkeit von den Anforderungen!– Beispiel: Layout mehr oder weniger relevant!

22!Mehrsprachige Technologien – 6. Oktober 2014!

Forschungsergebnisse 2: MQM!•  Multidimensional Quality Metrics (MQM)!•  META-Modell zur Definition von Metriken!•  Modell wird in konkreten Projekten

instanziiert, in Abhängigkeit von den Anforderungen!– Beispiel: Layout mehr oder weniger relevant!

Forschungsergebnisse 3: ITS 2.0!

•  Internationalization Tag Set (ITS) 2.0!•  Metadaten („data categories“) für

Übersetzungsworkflows!•  Beispiel: „Translate“!– Ausgewählte Zeichenketten markieren

als „nicht zu übersetzen“!•  Mehrwert!– Qualität steigt!– Zahl von (manuellen) Korrekturen sinkt

Geschwindigkeit wird erhöht!

24!Mehrsprachige Technologien – 6. Oktober 2014!

ITS 2.0 Metadaten und automatische Qualitätskontrolle!

25!

<its:domainRule .../>!<its:translateRule .../>!<its:storageSizeRule ... storageSize="30"/>!

<td class="totrans">!Canyon X and the Land of the Navajo</td>!

<target ... its:storageSize="30" its:locQualityIssueComment="Number of bytes in the target (using UTF-8) is: 32. Number allowed: 30." ... <mrk...>Canyon X et la terre des Navajos</mrk>...!

Mehrsprachige Technologien – 6. Oktober 2014!

Forschungsergebnisse 4: Integration mit mehrsprachigen

Datenquellen!

•  LIDER Projekt: Mehrsprachigkeit trifft semantische Technologien!

•  Beispielnutzung:!–  Sprachübergreifende Links bei

Wikipedia!–  Generierung von

Übersetzungsvorschlägen für den menschlichen Übersetzer!

26!Mehrsprachige Technologien – 6. Oktober 2014!

Beispiel: Generierung von Übersetzungsvorschlägen!

•  Eingabe: DBpedia + Wikidata Abfrageergebnisse und ausgezeichnete Dokumente!

<p>… the home of <span!its-ta-ident-ref="http://dbpedia.org/resource/Samuel_Beckett"! ...>Samuel Beckett</span>.</p>!

27!Mehrsprachige Technologien – 6. Oktober 2014!

Beispiel: Generierung von Übersetzungsvorschlägen!

•  Ausgabe: Übersetzungsvorschläge gespeichert als ITS 2.0 „Localization Note“!

<p>… the home of <span! its-ta-ident-ref="http://dbpedia.org/resource/Samuel_Beckett" its-loc-note="TRANSLATION SUGGESTIONS: 1) wikidata:サミュエル・ベケット!2) dbpedia:サミュエル・ベケット“ ...>Samuel Beckett</span>.</p>!

28!Mehrsprachige Technologien – 6. Oktober 2014!

Beispiel: Generierung von Übersetzungsvorschlägen!

•  Ausgabe: Übersetzungsvorschläge gespeichert als ITS 2.0 „Localization Note“!

<p>… the home of <span! its-ta-ident-ref="http://dbpedia.org/resource/Samuel_Beckett" its-loc-note="TRANSLATION SUGGESTIONS: 1) wikidata:サミュエル・ベケット!2) dbpedia:サミュエル・ベケット“ ...>Samuel Beckett</span>.</p>!

29!

Herausforderung:!„Zu viel Information ist keine Information!“!

Mehrsprachige Technologien – 6. Oktober 2014!

Ziel: Die mehrsprachige Plattform!•  Open-Source-MT für Jedermann!– MOSES-basiert, leicht nutzbare Schnittstellen,

Trainingsdaten, Terminologie!•  Qualitätsdefinition!– MQM: MT für jedes Projekt neu, so wie benötigt!

•  Workflowintegration!–  ITS 2.0 Metadaten, Verarbeitung standardisierter

Formate!•  Nutzung mehrsprachiger, verlinkter Daten!– Verlinkung mit der passenden Information – nicht

zu viel!!

30!Mehrsprachige Technologien – 6. Oktober 2014!

... als Teil der Open Web Platform!!

31!

•  Open Source MT!•  Qualitätsdefinition!•  Workflowintegration!•  Nutzung mehrsprachiger,

verlinkter Daten!

Mehrsprachige Technologien – 6. Oktober 2014!

Mehrsprachigkeit und semantische Technologien!

Felix Sasaki, Georg Rehm!DFKI GmbH!

Forschungsbereich Sprachtechnologie, Berlin!!

Statusmeeting Semantic Media Web – 6. Oktober 2014, Berlin!!