Mehrsprachigkeit und semantische Technologien
-
Upload
georg-rehm -
Category
Technology
-
view
77 -
download
1
description
Transcript of Mehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische Technologien!
Felix Sasaki, Georg Rehm!DFKI GmbH!
Forschungsbereich Sprachtechnologie, Berlin!!
Statusmeeting Semantic Media Web – 6. Oktober 2014, Berlin!!
Mehrsprachigkeit – ein Problem?!
2!Mehrsprachige Technologien – 6. Oktober 2014!
Übersetzung: Ein Riesengeschäft!!
Kommerzielle Übersetzung: ein Markt von über 20 Milliarden Euro jährlich!!
Bereitstellung von Inhalten in dutzenden von Sprachen immer öfter unverzichtbar!
3!Mehrsprachige Technologien – 6. Oktober 2014!
Übersetzung: Ein Riesengeschäft!!
Wirtschaftlicher Vorteil;!Anforderung an öffentliche
Einrichtungen, insbesondere in Europa!
4!Mehrsprachige Technologien – 6. Oktober 2014!
Übersetzung – ein Potential in Europa:The Digital Single Market!!
• 51% der europäischen Einzelhändler verkaufen Waren über das Internet!
• Nur 21% unterstützen grenzüberschreitende Transaktionen!
• 30% der Europäer haben bereits im Internet eingekauft!
• Nur 7% haben einen Einkauf bei einem Händler aus einem anderen EU-Mitgliedsstaat getätigt!
5!
Vgl. „Flash Eurobarometer:!User language preferences online“!
Mehrsprachige Technologien – 6. Oktober 2014!
Die Sprachtechnologie-Community in Europa: META-NET!
• Exzellenznetzwerk!• 60 Forschungseinrichtungen
in 34 Ländern!• Ziel: technologische Basis
für das mehrsprachige Europa!
6!Mehrsprachige Technologien – 6. Oktober 2014!
7!
Übersetzung:Automatisierung ist unverzichtbar!!
Steigende Anforderungen!– Übersetzungsmenge!– Sprachabdeckung!– Geschwindigkeit!– Qualität!– Preisdruck!– ...!
Mehrsprachige Technologien – 6. Oktober 2014!
Automatische Übersetzung für Jedermann?!
Online Übersetzungstool: Google Translate, Bing Translate, ...!
Meine Inhalte!
Alle Sprachen .... ?!
8!Mehrsprachige Technologien – 6. Oktober 2014!
Exkurs: Ansätze für MT!
9!
Regelbasierter Ansatz!– Nutzt Grammatik,
Lexikon, Überset-zungsregeln!
– Vorteil: leicht anpassbar an neue Bereiche!
– Nachteil: sehr große Anzahl handgeschriebener Regeln nötig!
!
Mehrsprachige Technologien – 6. Oktober 2014!
Exkurs: Ansätze für MT!
Statistischer Ansatz!– Nutzt Trainingsdaten von existierenden
Übersetzungen!– Vorteil: Neue Zielsprachen sind mit
Trainingsdaten schnell implementiert!– Nachteil: Anpassung in speziellen Domänen
wegen fehlender Trainingsdaten oft schwierig!
10!
Ich mag meine Katze || I like my cat || 7!Ich mag meine Katze || I love my cat || 3!P (“I like my cat” || “Ich mag meine Katze“) = 0.7!
Mehrsprachige Technologien – 6. Oktober 2014!
Online MT Services!
• Basis: typischerweise statistischer Ansatz!• Ergebnisse sind schnell verfügbar!• Qualität oft schlecht – Gist-Translation!– Ziel: grob Inhalte erfassen!
11!Mehrsprachige Technologien – 6. Oktober 2014!
WAS BRAUCHEN KMU UM MT ERFOLGREICH EINZUSETZEN?!
12!Mehrsprachige Technologien – 6. Oktober 2014!
1. Eigene Übersetzungssysteme!• System anpassen via
entsprechender Trainingsdaten!– Verfügbarkeit variiert
stark je nach Sprachpaar!– Vgl. die META-NET
Language White Paper Serie!
13!Mehrsprachige Technologien – 6. Oktober 2014!
1. Eigene Übersetzungssysteme!• System anpassen via entsprechender
Trainingsdaten!– Anpassung an Domänen!
14!
...
Mehrsprachige Technologien – 6. Oktober 2014!
1. Eigene Übersetzungssysteme!• System anpassen via entsprechender
Trainingsdaten!– Eigene Terminologie: (Firmen) spezifische
Übersetzungsrichtlinien!
15!
„Auto > car“!„Auto > vehicle“!„Auto > ...“!
Mehrsprachige Technologien – 6. Oktober 2014!
1. Eigene Übersetzungssysteme!• Leichte Integration in
Digital Content Management!– Workflows zwischen
CMS, DMS, Enterprise CM, Web CMS, ...!
• Schnittstellen!
16!Mehrsprachige Technologien – 6. Oktober 2014!
2. Qualität!• Übersetzungsqualität: Was ist das?!– Beispiel: Text verständlich, Layout kaputt –
Zeitersparnis durch Übersetzungssystem geht verloren!
• Maße für Maschinen und den Menschen!– Qualität = Ähnlichkeit der Sätze mit
Beispielübersetzungen!– Qualität = passend zu den Anforderungen im
jeweiligen Übersetzungsauftrag!
17!Mehrsprachige Technologien – 6. Oktober 2014!
3. Integration in Workflows!• Inhaltserstellung!• Übersetzung!• Korrektur durch menschliche Übersetzer
(Post-Editing)!• Qualitätsüberprüfung in mehreren
Zyklen ...!• Fertigstellung!
18!Mehrsprachige Technologien – 6. Oktober 2014!
4. Nutzung existierender, mehrsprachiger Daten!
• Beispieldatenquelle: Wikipedia/DBpedia!– Sprachübergreifende Links!
• Herausforderung: Datenqualität!– Sprachabdeckung!– Verifizierung der Übersetzungen!– Verfügbarkeit!
19!Mehrsprachige Technologien – 6. Oktober 2014!
FORSCHUNGSERGEBNISSE!
20!Mehrsprachige Technologien – 6. Oktober 2014!
Forschungsergebnisse 1: MOSES!
• Open-Source-Übersetzungssystem!• Übersetzungssysteme im Eigenbau!– Trainingsdaten!– Terminologie!– ... fertig J!
• Achtung: Trainingsdaten sind teuer!!– Je mehr Qualität, desto mehr Daten nötig!
21!Mehrsprachige Technologien – 6. Oktober 2014!
Forschungsergebnisse 2: MQM!• Multidimensional Quality Metrics (MQM)!• Metamodell zur Definition von Metriken,
entwickelt im QTLaunchPad Projekt!• Modell wird in konkreten Projekten
instanziiert, in Abhängigkeit von den Anforderungen!– Beispiel: Layout mehr oder weniger relevant!
22!Mehrsprachige Technologien – 6. Oktober 2014!
Forschungsergebnisse 2: MQM!• Multidimensional Quality Metrics (MQM)!• META-Modell zur Definition von Metriken!• Modell wird in konkreten Projekten
instanziiert, in Abhängigkeit von den Anforderungen!– Beispiel: Layout mehr oder weniger relevant!
Forschungsergebnisse 3: ITS 2.0!
• Internationalization Tag Set (ITS) 2.0!• Metadaten („data categories“) für
Übersetzungsworkflows!• Beispiel: „Translate“!– Ausgewählte Zeichenketten markieren
als „nicht zu übersetzen“!• Mehrwert!– Qualität steigt!– Zahl von (manuellen) Korrekturen sinkt
Geschwindigkeit wird erhöht!
24!Mehrsprachige Technologien – 6. Oktober 2014!
ITS 2.0 Metadaten und automatische Qualitätskontrolle!
25!
<its:domainRule .../>!<its:translateRule .../>!<its:storageSizeRule ... storageSize="30"/>!
<td class="totrans">!Canyon X and the Land of the Navajo</td>!
<target ... its:storageSize="30" its:locQualityIssueComment="Number of bytes in the target (using UTF-8) is: 32. Number allowed: 30." ... <mrk...>Canyon X et la terre des Navajos</mrk>...!
Mehrsprachige Technologien – 6. Oktober 2014!
Forschungsergebnisse 4: Integration mit mehrsprachigen
Datenquellen!
• LIDER Projekt: Mehrsprachigkeit trifft semantische Technologien!
• Beispielnutzung:!– Sprachübergreifende Links bei
Wikipedia!– Generierung von
Übersetzungsvorschlägen für den menschlichen Übersetzer!
26!Mehrsprachige Technologien – 6. Oktober 2014!
Beispiel: Generierung von Übersetzungsvorschlägen!
• Eingabe: DBpedia + Wikidata Abfrageergebnisse und ausgezeichnete Dokumente!
<p>… the home of <span!its-ta-ident-ref="http://dbpedia.org/resource/Samuel_Beckett"! ...>Samuel Beckett</span>.</p>!
27!Mehrsprachige Technologien – 6. Oktober 2014!
Beispiel: Generierung von Übersetzungsvorschlägen!
• Ausgabe: Übersetzungsvorschläge gespeichert als ITS 2.0 „Localization Note“!
<p>… the home of <span! its-ta-ident-ref="http://dbpedia.org/resource/Samuel_Beckett" its-loc-note="TRANSLATION SUGGESTIONS: 1) wikidata:サミュエル・ベケット!2) dbpedia:サミュエル・ベケット“ ...>Samuel Beckett</span>.</p>!
28!Mehrsprachige Technologien – 6. Oktober 2014!
Beispiel: Generierung von Übersetzungsvorschlägen!
• Ausgabe: Übersetzungsvorschläge gespeichert als ITS 2.0 „Localization Note“!
<p>… the home of <span! its-ta-ident-ref="http://dbpedia.org/resource/Samuel_Beckett" its-loc-note="TRANSLATION SUGGESTIONS: 1) wikidata:サミュエル・ベケット!2) dbpedia:サミュエル・ベケット“ ...>Samuel Beckett</span>.</p>!
29!
Herausforderung:!„Zu viel Information ist keine Information!“!
Mehrsprachige Technologien – 6. Oktober 2014!
Ziel: Die mehrsprachige Plattform!• Open-Source-MT für Jedermann!– MOSES-basiert, leicht nutzbare Schnittstellen,
Trainingsdaten, Terminologie!• Qualitätsdefinition!– MQM: MT für jedes Projekt neu, so wie benötigt!
• Workflowintegration!– ITS 2.0 Metadaten, Verarbeitung standardisierter
Formate!• Nutzung mehrsprachiger, verlinkter Daten!– Verlinkung mit der passenden Information – nicht
zu viel!!
30!Mehrsprachige Technologien – 6. Oktober 2014!
... als Teil der Open Web Platform!!
31!
• Open Source MT!• Qualitätsdefinition!• Workflowintegration!• Nutzung mehrsprachiger,
verlinkter Daten!
Mehrsprachige Technologien – 6. Oktober 2014!
Mehrsprachigkeit und semantische Technologien!
Felix Sasaki, Georg Rehm!DFKI GmbH!
Forschungsbereich Sprachtechnologie, Berlin!!
Statusmeeting Semantic Media Web – 6. Oktober 2014, Berlin!!