Open Translation Data - Universität InnsbruckOpen Formats, Tools and Data 37 Anaphraseus Jubler...

48
Open Translation Data Neue Herausforderung oder Ersatz für Sprachkompetenz? Peter Sandrini 31.10.2013

Transcript of Open Translation Data - Universität InnsbruckOpen Formats, Tools and Data 37 Anaphraseus Jubler...

Open Translation DataNeue Herausforderung oder Ersatz für Sprachkompetenz?

Peter Sandrini

31.10.2013

31/10/2013

Translation Data2

Vortragender

Position: Wissenschaftlicher Mitarbeiter am Institut für Translationswissenschaft

Fachgebiete: Übersetzen von Rechtstexten, Terminologie, Translationstechnologie, Globalisierung – Lokalisierung

Website: http://www.petersandrini.net http://uibk.academia.edu/PeterSandrini

31/10/2013

Translation Data3

Überblick

1) Translation Data

2) Open

3) Daten statt Mehrsprachigkeit?

✔ Formats✔ Tools✔ Data{

31/10/2013

Translation Data4

Voraussetzungenfür Translation Data

● Digitalisierung (Texte zu Dateien)

● Technologisierung (Tools)

● Vereinfachtes Äquivalenzmodell

31/10/2013

Translation Data5

Digitalisierung

● digitale TextweltenKopierbarkeit und TransportSuchbarkeit und Wiederverwendung

● digital humanitiesAnwendung von computergestützten Verfahren und systematische Verwendung von digitalen Ressourcen in den Geistes- und Kulturwissenschaften

31/10/2013

Translation Data6

Technologisierung

● Computergestütztes Übersetzen (CAT)

● Einsatz von ‚Translation Environment Tools‘ (TenT)

● Institutionelles und professionelles Übersetzen definieren sich auch über den Einsatz von Translationstechnologie

31/10/2013

Translation Data7

‚Datafication‘ of Translation● Translation = zweckgerichtetes, sprachliches

Übertragen eines Ausgangstextes in einen Zieltext

"jede konventionalisierte, interlinguale und transkulturelle Interaktion [...], die in einer Kultur als zulässig erachtet wird" (Prunc 1997: 108)

● Translation = Produktion von Zieltext + Daten

● Daten = Ausgangstext(-segmente) + Zieltext(-segmente) + Äquivalenzrelationen

31/10/2013

Translation Data8

Translation Data

=Translation Unit

Die im dem letzten Absatz genannten Unternehmen dürfen als Mitglieder der Genossenschaft aufgenommen werden, vorausgesetzt, dass gegen sie keine Zwangsvollstreckung von beweglichem oder unbeweglichem Vermögen, Proteste, Präventivverleiche oder Konkursverfahren vorliegen, oder dass sie insolvent sind.

Le imprese di cui al precedente comma possono essere ammesse a socio della Cooperativa purché non abbiano in corso esecuzioni immobiliari e mobiliari e protesti, procedure per concordato preventivo o fallimento, né siano fallite.

Die im dem letzten Absatz genannten Unternehmen dürfen als Mitglieder der Genossenschaft aufgenommen werden, vorausgesetzt, dass gegen sie keine Zwangsvollstreckung von beweglichem oder unbeweglichem Vermögen, Proteste, Präventivverleiche oder Konkursverfahren vorliegen, oder dass sie insolvent sind.

31/10/2013

Translation Data9

Translation Data: Arten

● Textuelle oder sprachliche Ebenen:

– Wortebene ➢ lexikographische und terminologische Daten

– Satzebene ➢ Übersetzungsspeicher oder Translation Memory

– Textebene ➢ Parallelkorpus

31/10/2013

Translation Data10

Beispiele

Schlitzsperre briglia a fessura

● (Mehr-)Wortebene

● Satzebene

● Textebene

Eliminate gender disparity in primary and secondary education, preferably by 2005, and in all levels of education no later than 2015.

Das Geschlechtergefälle in der Grund- und Sekundarschulbildung beseitigen, vorzugsweise bis 2005 und auf allen Bildungsebenen bis spätestens 2015.

31/10/2013

Translation Data11

Translation Data

● gewisses Mass an Entpersonifizierung

● Wiederverwenden von Übersetzungen, und dadurch Effizienzsteigerung durch Translation-Memory

● Statistische Maschinenübersetzung (SMT)Google translate, Microsoft Translator …

● ...

31/10/2013

Translation Data12

‚Datafication‘ of Translation

● Translation =

– Remix (kreative Neugestaltung) aus– Daten (Übersetzungsdaten) und– Input (Auftragsspezifikation)

● Translation =

– Variation des AT +– Selektion, Rekombination,

Adaptation von Daten

31/10/2013

Translation Data13

Translation Meta-Data● Translation als ein kontextabhängiges zweck- und

zielgerichtetes transkulturelles Handeln

● Notwendigkeit von Zusatzinformationen über den spezifischen Kontext einer Übersetzung bzw. einer Übersetzungseinheit (Translation Unit)

● Datum, Sprachen und Ländercode, Auftraggeber, Projekt ...

31/10/2013

Translation Data14

Schlitzsperre briglia a fessura

● (Mehr-)WortebeneFachgebiet: WildbachverbauungGeo.: Südtirol

Fuß foot

Fuß base

Fachgebiet: Anatomie

Fachgebiet: Technik

Fuß root Fachgebiet: Werkzeug

Translation Meta-Data: Beispiele

31/10/2013

Translation Data15

● Satzebene

Eliminate gender disparity in primary and secondary education, preferably by 2005, and in all levels of education no later than 2015.

Das Geschlechtergefälle in der Grund- und Sekundarschulbildung beseitigen, vorzugsweise bis 2005 und auf allen Bildungsebenen bis spätestens 2015.

Quelle: UN Millennium Development Goals

Eliminate gender disparity in primary and secondary education, preferably by 2005, and in all levels of education no later than 2015.

Abbauen der Unterschiede zwischen den Geschlechtern in Primär- und Sekundärschulstufe am besten bis 2005, und auf allen Ebenen der Ausbildung innerhalb 2015.

Translation Meta-Data: Beispiele

31/10/2013

Translation Data16

● Textebene

EU Datenschutzrichtlinie 1995/46/EC

Translation Meta-Data: Beispiele

31/10/2013

Translation Data17

North, K.(1998). Wissensorientierte Unternehmensführung-Wertschöpfung durch Wissen. S.41-42.Gabler Verlag.Wiesbaden

31/10/2013

Translation Data18

● "jede konventionalisierte, interlinguale und transkulturelle Interaktion [...], die in einer Kultur als zulässig erachtet wird" (Prunc 1997: 108)

31/10/2013

Translation Data19

Translation Meta-Data● ITS Internationalization Tag Set der W3 Multilingual

Web Working Group

● TMX Tag Set

● TBX mit TMF

● XLIFF

● PO comments

31/10/2013

Translation Data20

31/10/2013

Translation Data21Open Formats, Tools and DataOpen Formats, Tools and DataOpen Formats, Tools and DataOpen Formats, Tools and Data

Datenflut

• Schutz persönlicher Datenhttp://lobbyplag.eu

• Transparenz der Datenformate

• Freier Zugang zu Daten von öffentlichem Interesse Open Data

31/10/2013

Open Formats, Tools and Data

22

31/10/2013

Open Formats, Tools and Data

23

Open Data: Voraussetzungen

1) Wiederverwendung (re-use)für jeden Zweck, der vom Datenproduzenten vorhergesehen wurde oder nicht

2) Frei von jeglicher Zugangsbarriere (permission barrier) wie Preis, Lizenz, Login, etc.

3) in strukturierter und maschinenlesbarer Form

31/10/2013

Open Formats, Tools and Data

24

Open Data: Argumente

● Öffentliche Gelder haben die Generierung der Daten erst ermöglicht, also müssen sie auch öffentlich zugänglich sein

● Fakten können nicht dem Urheberrecht unterliegen

● Forschung wird gefördert, wenn wissenschaftliche Erkenntnisse für alle Forscher frei zugänglich sind

31/10/2013

Open Formats, Tools and Data

25

Open Data Links

● Open Data Commons http://opendatacommons.org/

● Netzwerk zur Förderung von Open Government, Open Data, Transparenz und Partizipation (DE)http://opendata-network.org

● Open Data Handbuchhttp://opendatahandbook.org/it/

● Open Data Censushttp://census.okfn.org/

31/10/2013

Open Formats, Tools and Data

26

Open Translation Data

● frei zugängliche Datenbestände, die Übersetzungen in strukturier ter und maschinenlesbarer Form in einem freien Format speichern

31/10/2013

Open Formats, Tools and Data

27

Open Translation Data: Argumente

● Kostenersparnis (alles wird nur einmal übersetzt)

● Erhöhung der Konsistenz (gleiches wird immer gleich übersetzt)

● Überprüfen, Unterstützen und Beschleunigen von Sprachplanung und Terminologienormung

● Translation Data, die mit Steuergeldern erarbeitet wurden, sollten auch öffentlich und frei verfügbar sein

23/02/2013

Open Formats, Tools and Data

28

Open Formats

23/02/2013

Open Formats, Tools and Data

29

Offene Formate: Beispiel ODT

23/02/2013

Open Formats, Tools and Data

30

genormte herstellerunabhängige Formate

● Format generell definiert vor und unabhängig von spezifischen Softwareapplikationen

● Trennung von Dateiformat und Software● Verwendung von Dateien mit verschiedenen Programmen● Austausch von Dateien

– Textdateien– Translation Memory Daten TMX– Segmentierungsregeln SRX– Terminologie TBX– Lokalisierungsdaten XLIFF– Übersetzungsvolumen GMX-V

23/02/2013

Open Formats, Tools and Data

31

Offene Formate als Übersetzungsspeicher

● Formate, die Textsegmente in zwei oder mehr Sprachen speichern können

– Translation Memory Exchange Format (TMX)

– XML Localization Interchange File Format (XLIFF)

– GNU gettext PO

23/02/2013

Open Formats, Tools and Data

32

Open Translation Formats

23/02/2013

Open Formats, Tools and Data

33

Open Translation Data: DGT-TMX

● Directorate-General for Translationhttp://ipsc.jrc.ec.europa.eu/?id=197

● Vollständige Übersetzung des EU-Rechts (acquis communautaire)Große Datenmengen!

● Download der Jahrgänge

● Extrahieren des gewünschten Sprachenpaares mit TMExtractjava -jar TMXtract.jar DE IT /home/c61302/temp/DGT-deit.tmx [Vol_2011_1.zip Vol_2011_2.zip Vol_2011_3.zip Vol_2011_4.zip]

23/02/2013

Open Formats, Tools and Data

34

Open Translation Data (TMX)

● ECDC-TM European Centre for Disease Prevention and Control' (ECDC)http://ipsc.jrc.ec.europa.eu/?id=782

● United Nations General Assembly Resolutionshttp://www.uncorpora.org/

● MyMemory

● Open Data Euskadi: http://opendata.euskadi.net/w79-contdata/es/contenidos/ds_recursos_linguisticos/memorias_traduccion/es_izo/memorias_traduccion_izo.htmlhttp://translate.sourceforge.net/ Memorias de traducción del Servicio Oficial de Traductores

23/02/2013

Open Formats, Tools and Data

35

Open Tools = Freie SW-Werkzeuge

● Free Software

● Open Source

● (Freeware)

● Im Gegensatz zu proprietärer / kommerzieller Software

23/02/2013

Open Formats, Tools and Data

36

Open Source / freie Softwarevs proprietäre Software: strukturelle Unterschiede

● Vielzahl von Software-Projekten

● Eingeschränkte Funktionalität

● Freie Lizenz

● Unregelmäßige Updates

● Die Unterstützung durch die User-Community

● Vielzahl von Software-Projekten

● Eingeschränkte Funktionalität

● Freie Lizenz

● Unregelmäßige Updates

● Die Unterstützung durch die User-Community

● Komplexe Programme

● Volle Funktionalität

● kommerzielle Lizenz

● Regelmäßige Updates

● Kommerzieller Support

23/02/2013

Open Formats, Tools and Data

37

AnaphraseusJubler

TinyTm

Stand der Dinge

Bereich 'open source'

BiText2TMX

OkapiSun OLT Virtaal

OmegaT OpenTMSFOLTGaupol

Lokalizer

kommerzieller Bereich

SDL/Trados

AcrossMemoQ

Star TransitHeartsome

DéjàVuRainbow

Wordfast

TransolutionForeignDesk

Pootle

KBabel

PO-EditTranslate Toolkit

Catalyst

23/02/2013

Open Formats, Tools and Data

38

Unser Angebot

● freie Translationstechnologie auf USB-StickUSBTrans (Windows-kompatibel)http://homepage.uibk.ac.at/~c61302/fsftrans.html

● Vollständiger Translationsarbeitsplatz auf Open-Source-Basis tuxtrans (Linux-OS)http://www.tuxtrans.org

23/02/2013

Open Formats, Tools and Data

39

Translation-Memories: Textformate

● Open Document● Microsoft XML● (X)HTML ● HTML Help Compiler (HCC)● DocBook ● File di solo testo● Java bundle.properties● .po monolingua● INI (formato "codice=value")● XLIFF (Okapi, sdlxliff)● MediaWiki (Wikipedia)

● OpenDocument● Microsoft Office (2000-2003,

2007)● (X)HTML● DocBook ● RTF● XML● Adobe FrameMaker 8.0/9.0● Adobe InDesign CS4● PDF● XLIFF● DITA● W3C ITS.

OmegaT SDL-Trados

23/02/2013

Open Formats, Tools and Data

40

Translation-Memories: genormte Formate

● Vollständige Unterstützung:– TMX

● teilweise:– XLIFF (Okapi, sdlxliff)

– PO

● fehlende:– SRX

● Vollständige Unterstützung:– TMX

● teilweise:– XLIFF (sdlxliff)

● fehlende:– SRX

OmegaT SDL-Trados

23/02/2013

Open Formats, Tools and Data

41

Mehrsprachigkeit

● individuelle Mehrsprachigkeit: Kompetenz des Individuums

● institutionelle Mehrsprachigkeit: Umsetzen innerhalb einer Institution/Gesellschaft

Open Translation Data und Mehrsprachigkeit

31/10/2013

Open Translation Data und Mehrsprachigkeit

42

Neue Auffassung von Sprache

Was ist Sprache:Eine repräsentative Sammlung von sprachlichen Daten, kein begrenztes, regelbasiertes System

➔ Empirische Sprachverwendungsforschung➔ Sprachkorpora➔ Statistische Maschinenübersetzung➔ ...

Daraus folgt

Open Translation Data und Mehrsprachigkeit

Freie MT-Systeme

● Freie Online-MT - Übersicht und Auflistung: http://www.humanitas-international.org/newstran/more-translators.htm

● Open Source MT Systeme:

– Apertium http://www.apertium.org/

– Matxin http://matxin.sourceforge.net/

– Moses http://www.statmt.org/moses

– OpenLogos http://logos-os.dfki.de/

– ...

31/10/2013

Open Translation Data und Mehrsprachigkeit

44

Neue Auffassung von Translation

Was ist Translation:fallspezifisches Anwenden von Translationsdaten

Qualität von Translation = f (Translation Data)

aber

Translation Data ≠automatisches Übersetzen (MT)

Daraus folgt

31/10/2013

Open Translation Data und Mehrsprachigkeit

45

● Fachgebiet

● Kontext der Translation

● Loyalität gegenüber dem Auftraggebers

● Geplante Verwendung des Zieltextes

● Translationsethik

● ...

Open Translation Data: Einsatz

Übereinstimmung?Kompatibilität?

31/10/2013

Open Translation Data und Mehrsprachigkeit

46

OTD und Sprachkompetenz?

● Sprach- und Translationskompetenz notwendig zur Beurteilung, ob OTD eingesetzt werden können

● Sprach- und Translationskompetenz notwendig zur zielgerechten Verwendung von OTD

● Sprach- und Translationskompetenz notwendig zur fallspezifischen Evaluierung von MT-Output

● ...

Open Translation Data und Mehrsprachigkeit

OTD und neue Berufsfelder

● Konzeption und Planung von Translationsprozessen: Translations-Management

● Planung des Einsatzes und Adaptation von Translationstechnologie:

– TenT Translation Environment Tools (z.B. OmegaT)

– Maschinenübersetzung (z.B. Moses)

– ...● Planung des Einsatzes von OTD

Open Translation Data und Mehrsprachigkeit

● OTD stellen eine neue Herausforderung für Mehrsprachigkeit dar

● OTD sind kein Ersatz für Sprach- und Translationskompetenz, sondern setzen diese voraus