Mehrsprachigkeit und semantische Technologien

32
Mehrsprachigkeit und semantische Technologien Felix Sasaki, Georg Rehm DFKI GmbH Forschungsbereich Sprachtechnologie, Berlin Statusmeeting Semantic Media Web – 6. Oktober 2014, Berlin

description

Felix Sasaki, Georg Rehm. Mehrsprachigkeit und semantische Technologien. Berlin, Germany. October 2014. October 06, 2014.

Transcript of Mehrsprachigkeit und semantische Technologien

Page 1: Mehrsprachigkeit und semantische Technologien

Mehrsprachigkeit und semantische Technologien!

Felix Sasaki, Georg Rehm!DFKI GmbH!

Forschungsbereich Sprachtechnologie, Berlin!!

Statusmeeting Semantic Media Web – 6. Oktober 2014, Berlin!!

Page 2: Mehrsprachigkeit und semantische Technologien

Mehrsprachigkeit – ein Problem?!

2!Mehrsprachige Technologien – 6. Oktober 2014!

Page 3: Mehrsprachigkeit und semantische Technologien

Übersetzung: Ein Riesengeschäft!!

Kommerzielle Übersetzung: ein Markt von über 20 Milliarden Euro jährlich!!

Bereitstellung von Inhalten in dutzenden von Sprachen immer öfter unverzichtbar!

3!Mehrsprachige Technologien – 6. Oktober 2014!

Page 4: Mehrsprachigkeit und semantische Technologien

Übersetzung: Ein Riesengeschäft!!

Wirtschaftlicher Vorteil;!Anforderung an öffentliche

Einrichtungen, insbesondere in Europa!

4!Mehrsprachige Technologien – 6. Oktober 2014!

Page 5: Mehrsprachigkeit und semantische Technologien

Übersetzung – ein Potential in Europa:The Digital Single Market!!

•  51% der europäischen Einzelhändler verkaufen Waren über das Internet!

•  Nur 21% unterstützen grenzüberschreitende Transaktionen!

•  30% der Europäer haben bereits im Internet eingekauft!

•  Nur 7% haben einen Einkauf bei einem Händler aus einem anderen EU-Mitgliedsstaat getätigt!

5!

Vgl. „Flash Eurobarometer:!User language preferences online“!

Mehrsprachige Technologien – 6. Oktober 2014!

Page 6: Mehrsprachigkeit und semantische Technologien

Die Sprachtechnologie-Community in Europa: META-NET!

•  Exzellenznetzwerk!•  60 Forschungseinrichtungen

in 34 Ländern!•  Ziel: technologische Basis

für das mehrsprachige Europa!

6!Mehrsprachige Technologien – 6. Oktober 2014!

Page 7: Mehrsprachigkeit und semantische Technologien

7!

Übersetzung:Automatisierung ist unverzichtbar!!

Steigende Anforderungen!– Übersetzungsmenge!– Sprachabdeckung!– Geschwindigkeit!– Qualität!– Preisdruck!–  ...!

Mehrsprachige Technologien – 6. Oktober 2014!

Page 8: Mehrsprachigkeit und semantische Technologien

Automatische Übersetzung für Jedermann?!

Online Übersetzungstool: Google Translate, Bing Translate, ...!

Meine Inhalte!

Alle Sprachen .... ?!

8!Mehrsprachige Technologien – 6. Oktober 2014!

Page 9: Mehrsprachigkeit und semantische Technologien

Exkurs: Ansätze für MT!

9!

Regelbasierter Ansatz!–  Nutzt Grammatik,

Lexikon, Überset-zungsregeln!

–  Vorteil: leicht anpassbar an neue Bereiche!

–  Nachteil: sehr große Anzahl handgeschriebener Regeln nötig!

!

Mehrsprachige Technologien – 6. Oktober 2014!

Page 10: Mehrsprachigkeit und semantische Technologien

Exkurs: Ansätze für MT!

Statistischer Ansatz!–  Nutzt Trainingsdaten von existierenden

Übersetzungen!–  Vorteil: Neue Zielsprachen sind mit

Trainingsdaten schnell implementiert!–  Nachteil: Anpassung in speziellen Domänen

wegen fehlender Trainingsdaten oft schwierig!

10!

Ich mag meine Katze || I like my cat || 7!Ich mag meine Katze || I love my cat || 3!P (“I like my cat” || “Ich mag meine Katze“) = 0.7!

Mehrsprachige Technologien – 6. Oktober 2014!

Page 11: Mehrsprachigkeit und semantische Technologien

Online MT Services!

•  Basis: typischerweise statistischer Ansatz!•  Ergebnisse sind schnell verfügbar!•  Qualität oft schlecht – Gist-Translation!–  Ziel: grob Inhalte erfassen!

11!Mehrsprachige Technologien – 6. Oktober 2014!

Page 12: Mehrsprachigkeit und semantische Technologien

WAS BRAUCHEN KMU UM MT ERFOLGREICH EINZUSETZEN?!

12!Mehrsprachige Technologien – 6. Oktober 2014!

Page 13: Mehrsprachigkeit und semantische Technologien

1. Eigene Übersetzungssysteme!•  System anpassen via

entsprechender Trainingsdaten!– Verfügbarkeit variiert

stark je nach Sprachpaar!– Vgl. die META-NET

Language White Paper Serie!

13!Mehrsprachige Technologien – 6. Oktober 2014!

Page 14: Mehrsprachigkeit und semantische Technologien

1. Eigene Übersetzungssysteme!•  System anpassen via entsprechender

Trainingsdaten!– Anpassung an Domänen!

14!

...  

Mehrsprachige Technologien – 6. Oktober 2014!

Page 15: Mehrsprachigkeit und semantische Technologien

1. Eigene Übersetzungssysteme!•  System anpassen via entsprechender

Trainingsdaten!– Eigene Terminologie: (Firmen) spezifische

Übersetzungsrichtlinien!

15!

„Auto > car“!„Auto > vehicle“!„Auto > ...“!

Mehrsprachige Technologien – 6. Oktober 2014!

Page 16: Mehrsprachigkeit und semantische Technologien

1. Eigene Übersetzungssysteme!•  Leichte Integration in

Digital Content Management!– Workflows zwischen

CMS, DMS, Enterprise CM, Web CMS, ...!

•  Schnittstellen!

16!Mehrsprachige Technologien – 6. Oktober 2014!

Page 17: Mehrsprachigkeit und semantische Technologien

2. Qualität!•  Übersetzungsqualität: Was ist das?!– Beispiel: Text verständlich, Layout kaputt –

Zeitersparnis durch Übersetzungssystem geht verloren!

•  Maße für Maschinen und den Menschen!– Qualität = Ähnlichkeit der Sätze mit

Beispielübersetzungen!– Qualität = passend zu den Anforderungen im

jeweiligen Übersetzungsauftrag!

17!Mehrsprachige Technologien – 6. Oktober 2014!

Page 18: Mehrsprachigkeit und semantische Technologien

3. Integration in Workflows!•  Inhaltserstellung!•  Übersetzung!•  Korrektur durch menschliche Übersetzer

(Post-Editing)!•  Qualitätsüberprüfung in mehreren

Zyklen ...!•  Fertigstellung!

18!Mehrsprachige Technologien – 6. Oktober 2014!

Page 19: Mehrsprachigkeit und semantische Technologien

4. Nutzung existierender, mehrsprachiger Daten!

•  Beispieldatenquelle: Wikipedia/DBpedia!– Sprachübergreifende Links!

•  Herausforderung: Datenqualität!– Sprachabdeckung!– Verifizierung der Übersetzungen!– Verfügbarkeit!

19!Mehrsprachige Technologien – 6. Oktober 2014!

Page 20: Mehrsprachigkeit und semantische Technologien

FORSCHUNGSERGEBNISSE!

20!Mehrsprachige Technologien – 6. Oktober 2014!

Page 21: Mehrsprachigkeit und semantische Technologien

Forschungsergebnisse 1: MOSES!

•  Open-Source-Übersetzungssystem!•  Übersetzungssysteme im Eigenbau!– Trainingsdaten!– Terminologie!–  ... fertig J!

•  Achtung: Trainingsdaten sind teuer!!– Je mehr Qualität, desto mehr Daten nötig!

21!Mehrsprachige Technologien – 6. Oktober 2014!

Page 22: Mehrsprachigkeit und semantische Technologien

Forschungsergebnisse 2: MQM!•  Multidimensional Quality Metrics (MQM)!•  Metamodell zur Definition von Metriken,

entwickelt im QTLaunchPad Projekt!•  Modell wird in konkreten Projekten

instanziiert, in Abhängigkeit von den Anforderungen!– Beispiel: Layout mehr oder weniger relevant!

22!Mehrsprachige Technologien – 6. Oktober 2014!

Page 23: Mehrsprachigkeit und semantische Technologien

Forschungsergebnisse 2: MQM!•  Multidimensional Quality Metrics (MQM)!•  META-Modell zur Definition von Metriken!•  Modell wird in konkreten Projekten

instanziiert, in Abhängigkeit von den Anforderungen!– Beispiel: Layout mehr oder weniger relevant!

Page 24: Mehrsprachigkeit und semantische Technologien

Forschungsergebnisse 3: ITS 2.0!

•  Internationalization Tag Set (ITS) 2.0!•  Metadaten („data categories“) für

Übersetzungsworkflows!•  Beispiel: „Translate“!– Ausgewählte Zeichenketten markieren

als „nicht zu übersetzen“!•  Mehrwert!– Qualität steigt!– Zahl von (manuellen) Korrekturen sinkt

Geschwindigkeit wird erhöht!

24!Mehrsprachige Technologien – 6. Oktober 2014!

Page 25: Mehrsprachigkeit und semantische Technologien

ITS 2.0 Metadaten und automatische Qualitätskontrolle!

25!

<its:domainRule .../>!<its:translateRule .../>!<its:storageSizeRule ... storageSize="30"/>!

<td class="totrans">!Canyon X and the Land of the Navajo</td>!

<target ... its:storageSize="30" its:locQualityIssueComment="Number of bytes in the target (using UTF-8) is: 32. Number allowed: 30." ... <mrk...>Canyon X et la terre des Navajos</mrk>...!

Mehrsprachige Technologien – 6. Oktober 2014!

Page 26: Mehrsprachigkeit und semantische Technologien

Forschungsergebnisse 4: Integration mit mehrsprachigen

Datenquellen!

•  LIDER Projekt: Mehrsprachigkeit trifft semantische Technologien!

•  Beispielnutzung:!–  Sprachübergreifende Links bei

Wikipedia!–  Generierung von

Übersetzungsvorschlägen für den menschlichen Übersetzer!

26!Mehrsprachige Technologien – 6. Oktober 2014!

Page 27: Mehrsprachigkeit und semantische Technologien

Beispiel: Generierung von Übersetzungsvorschlägen!

•  Eingabe: DBpedia + Wikidata Abfrageergebnisse und ausgezeichnete Dokumente!

<p>… the home of <span!its-ta-ident-ref="http://dbpedia.org/resource/Samuel_Beckett"! ...>Samuel Beckett</span>.</p>!

27!Mehrsprachige Technologien – 6. Oktober 2014!

Page 28: Mehrsprachigkeit und semantische Technologien

Beispiel: Generierung von Übersetzungsvorschlägen!

•  Ausgabe: Übersetzungsvorschläge gespeichert als ITS 2.0 „Localization Note“!

<p>… the home of <span! its-ta-ident-ref="http://dbpedia.org/resource/Samuel_Beckett" its-loc-note="TRANSLATION SUGGESTIONS: 1) wikidata:サミュエル・ベケット!2) dbpedia:サミュエル・ベケット“ ...>Samuel Beckett</span>.</p>!

28!Mehrsprachige Technologien – 6. Oktober 2014!

Page 29: Mehrsprachigkeit und semantische Technologien

Beispiel: Generierung von Übersetzungsvorschlägen!

•  Ausgabe: Übersetzungsvorschläge gespeichert als ITS 2.0 „Localization Note“!

<p>… the home of <span! its-ta-ident-ref="http://dbpedia.org/resource/Samuel_Beckett" its-loc-note="TRANSLATION SUGGESTIONS: 1) wikidata:サミュエル・ベケット!2) dbpedia:サミュエル・ベケット“ ...>Samuel Beckett</span>.</p>!

29!

Herausforderung:!„Zu viel Information ist keine Information!“!

Mehrsprachige Technologien – 6. Oktober 2014!

Page 30: Mehrsprachigkeit und semantische Technologien

Ziel: Die mehrsprachige Plattform!•  Open-Source-MT für Jedermann!– MOSES-basiert, leicht nutzbare Schnittstellen,

Trainingsdaten, Terminologie!•  Qualitätsdefinition!– MQM: MT für jedes Projekt neu, so wie benötigt!

•  Workflowintegration!–  ITS 2.0 Metadaten, Verarbeitung standardisierter

Formate!•  Nutzung mehrsprachiger, verlinkter Daten!– Verlinkung mit der passenden Information – nicht

zu viel!!

30!Mehrsprachige Technologien – 6. Oktober 2014!

Page 31: Mehrsprachigkeit und semantische Technologien

... als Teil der Open Web Platform!!

31!

•  Open Source MT!•  Qualitätsdefinition!•  Workflowintegration!•  Nutzung mehrsprachiger,

verlinkter Daten!

Mehrsprachige Technologien – 6. Oktober 2014!

Page 32: Mehrsprachigkeit und semantische Technologien

Mehrsprachigkeit und semantische Technologien!

Felix Sasaki, Georg Rehm!DFKI GmbH!

Forschungsbereich Sprachtechnologie, Berlin!!

Statusmeeting Semantic Media Web – 6. Oktober 2014, Berlin!!