Bilingual Term Extraction Tool (in German)

39
Benutzerhandbuch Araya Bilinguale Termextraktion Anleitung zum Einsatz des Anleitung zum Einsatz des Terminologie Terminologie - - Extraktionswerkzeuges Extraktionswerkzeuges © Dr. Klemens Waldhör, Heartsome Europe GmbH, 2006, 2007, 2009

description

The user guide explains how to work with Heartsome Europe Bilingual Term Extraction tool.

Transcript of Bilingual Term Extraction Tool (in German)

Page 1: Bilingual Term Extraction Tool (in German)

Benutzerhandbuch Araya Bilinguale Termextraktion

Anleitung zum Einsatz des Anleitung zum Einsatz des TerminologieTerminologie--ExtraktionswerkzeugesExtraktionswerkzeuges

© Dr. Klemens Waldhör, Heartsome Europe GmbH, 2006, 2007, 2009

Page 2: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 2

Heartsome Europe GmbHwww.heartsome.de

Der bilinguale Extraktor� Der bilinguale Extraktor ist ein einfach zu

bedienendes und effizientes Werkzeug zum automatischen Generierung von Termpaaren aus übersetzten Dokumenten (TMX Dateien)� Ein Termpaar ist dabei eine Übersetzung aus Ausgangs-

und Zielterm (Begriff)

� Ein Term (Begriff) kann aus mehreren Wörtern bestehen.

� Diese Termpaare dienen z.B. zum Aufbau bzw. der Ergänzung der erarbeiteten Terminologie.

Page 3: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 3

Heartsome Europe GmbHwww.heartsome.de

Versionen

� Der Extraktor wurde gemeinsam von der Heartsome Europe GmbH und LNE International entwickelt.

� Er ist als � Einzelplatzversion erhältlich.

� er ist Teil der Araya Server Übersetzungswerkzeuge.

Page 4: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 4

Heartsome Europe GmbHwww.heartsome.de

Kurzanleitung zum Extrahieren� Extrahieren Sie die Begriffe

� Datei -> Extrahiere Bilinguale Terminologie aus Datei� (Option: Öffne Extraktionsdatei nach Extraktion)

� Prüfen Sie die extrahierten Begriffe� Markieren Sie korrekte Übersetzungen als

„validiert“

� Exportieren Sie die validierten Übersetzungen� Exportiere validierte Terme …

Page 5: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 5

Heartsome Europe GmbHwww.heartsome.de

Installation

� Die Installation wird in das Verzeichnis c:/ProgramFiles/Araya durchgeführt. Es wird empfohlen, diese Einstellung nicht zu ändern, da alle Initialisierungsdateien darauf ausgelegt sind.

Page 6: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 6

Heartsome Europe GmbHwww.heartsome.de

Starten des Araya Extraktionswerkzeuges

� Gehen Sie zum Verzeichnis:c:/Program Files/ArayaStarten: BiEdit.exe

� Oder Doppelklick auf:

Page 7: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 7

Heartsome Europe GmbHwww.heartsome.de

Der Extraktionsansatz aus einer TMX Datei�� Aus einer TMX Datei werden mAus einer TMX Datei werden möögliche gliche

ÜÜbersetzungspaare ermittelt. Dazu wird ein bersetzungspaare ermittelt. Dazu wird ein statistischer Ansatz verwendet, der die statistischer Ansatz verwendet, der die HHääufigkeit des Auftretens von Termpaaren in ufigkeit des Auftretens von Termpaaren in der Ausgangsder Ausgangs-- und Zielsprache ermittelt.und Zielsprache ermittelt.

�� TMX = XML Austauschformat fTMX = XML Austauschformat füür r ÜÜbersetzungsdatenbankenbersetzungsdatenbanken

Page 8: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 8

Heartsome Europe GmbHwww.heartsome.de

Segment

� Die Extraktion erfolgt auf der Basis von Segmenten, die in einer TMX Datei abgespeichert sind.

� Ein Segment kann dabei jeweils ein Satz oder ein Abschnitt sein.

� Formate in der TMX Datei werden ignoriert.

Page 9: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 9

Heartsome Europe GmbHwww.heartsome.de

Bewertung und Validieren� Jedes gefundene Termpaar wird mit einem

Qualitätswert versehen� 2. Spalte in der Extraktionstabelle� Wert liegt zwischen 1,0 (höchste Wahrscheinlichkeit, dass

Paar zusammenpasst) bis 0,5 (geringste Wahrscheinlichkeit, dass Paar zusammenpasst)

� Terme können validiert werden, als zutreffend markiert werden� Letzte Spalte der Tabelle

� Approved = geprüft = validiert� Unapproved = noch (nicht) validiert

� Validierte Werte können exportiert werden

Page 10: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 10

Heartsome Europe GmbHwww.heartsome.de

Validieren eines Termextraktionspaares

� Selektiere des zu validierenden Termpaares� Validiere mit

� Doppelten Mausklick auf Termpaar� Rechten Mausklick

� Entferne Validierungsmarkierung durch� Doppelten Mausklick auf Termpaar� Rechten Mausklick

Validierte Terme werden grün angezeigt

Page 11: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 11

Heartsome Europe GmbHwww.heartsome.de

nr;score;status;term1.LangCode;term1.wordGroup;term1.wordGroup

Len;term1.wFreq;term2.LangCode;term2.wordGroup;term2.wordGroup

Len;term2.wFreq;sentLinked

0;1.0;approved;de;DIN;1;15;en;DIN;1;15;11

Die Extraktionsdatei

� Eine Extraktionsdatei hat folgendes Format

nr;score;status;term1.LangCode;term1.wordGroup;term1.wordGroup

Len;term1.wFreq;term2.LangCode;term2.wordGroup;term2.wordGroup

Len;term2.wFreq;sentLinked

0;1.0;approved;de;DIN;1;15;en;DIN;1;15;11

Startzeile = Markierung der Extraktionsdatei

BeispielzeileBeispielzeileBeispielzeile

Page 12: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 12

Heartsome Europe GmbHwww.heartsome.de

Die Extraktionsoberfläche

Tabelle:

Dieses Fenster enthält die gefundenen Termpaare

Statusfenster

Termnummer

Qualität (Wert)

Ausgangsterm Zielterm Validierung

Häufigkeiten in den Ausgangs- und ZielsegmentenVerknüpfungen

Page 13: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 13

Heartsome Europe GmbHwww.heartsome.de

Die Spalten� Wert

� Statistisches Maß für die Wahrscheinlichkeit, dass Ausgangs- und Zielbegriff (Term) Übersetzungen sind; ein Qualitätsmaß

� SL� Die Anzahl der Satzpaare, in der sowohl der Ausgangs- als auch der

Zielbegriff vorkommt.� Freq 1

� Anzahl der Sätze, in der der Ausgangsbegriff vorkommt� Freq 2

� Anzahl der Sätze, in der der Zielbegriff vorkommt� Quellbegriffe

� Der Ausgangsbegriff� Zielbegriffe

� Die Übersetzung des Ausgangsbegriffs� Validierung

� Auswahlbox, zur Markierung von korrekten Termpaaren

Page 14: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 14

Heartsome Europe GmbHwww.heartsome.de

Das Datei Menü 1 Öffnen einer Extraktionsdatei

Schließen einer Extraktionsdatei

Speichern der geöffneten Extraktionsdatei

Speichern der geöffneten Extraktionsdatei unter neuen Namen

Speichern der validierten Einträge aus der geöffneten Extraktionsdatei

unter neuen Namen

Die geöffnete Datei wird in der Titelzeile angezeigt.

Speichern selektierte Einträge aus der geöffneten Extraktionsdatei unter

neuen Namen

Page 15: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 15

Heartsome Europe GmbHwww.heartsome.de

Das Datei Menü 2

Exportieren der validierten Einträge aus der geöffneten Extraktionsdatei im

Multitermformat

Exportieren der Einträge aus der

geöffneten Extraktionsdatei im

Multitermformat

Exportieren der Einträge aus der

geöffneten Extraktionsdatei im TBX

Format

Exportieren der validierten Einträge aus

der geöffneten Extraktionsdatei im TBX

Format

Extrahieren der Termpaare aus einer

TMX Datei

Page 16: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 16

Heartsome Europe GmbHwww.heartsome.de

Das Datei Menü 3

Exportieren der validierten Einträge aus

der geöffneten Extraktionsdatei im Araya CSV Format

Exportieren der Einträge aus der

geöffneten Extraktionsdatei im Araya CSV Format

Page 17: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 17

Heartsome Europe GmbHwww.heartsome.de

Extrahieren der Termpaare aus einer TMX Datei

Ausgangssprache Zielsprache

Nach Extraktion automatisch öffnen

Verwende den Lucene Tokenizer für die Erkennung von Worten

Page 18: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 18

Heartsome Europe GmbHwww.heartsome.de

Extraktionsparameter 1� Minimale / Maximale Wortanzahl

� Damit wird gesteuert, wie viele Worte mindestens und höchstens im Begriff enthalten sein sollen

� Minimale / Maximale Häufigkeit� Damit wird gesteuert, wie oft der extrahierte Begriff

mindestens und höchstens vorkommen darf

� Maximale Übersetzungen� Damit wird gesteuert, wie viele Übersetzungen maximal

gefunden werden sollen

� Ausgangs/Zielterme in Kleinschreibung� Damit wird gesteuert, ob die Worte der extrahierten

Begriffe in Kleinschreibung umgewandelt werden sollen

Page 19: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 19

Heartsome Europe GmbHwww.heartsome.de

Extraktionsparameter 2

� Validierte Terminologie zum Ignorieren� Wenn hier eine Extraktionsterminologiedatei

angegeben wird, werden bei Extrahieren alle Terme, die in dieser Datei als „validiert“gekennzeichnet sind, ignoriert.

� Damit werden schon bekannte Übersetzungen ignoriert.

� Nach dem Start der Extraktion wird ein Statusfenster angezeigt.

Page 20: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 20

Heartsome Europe GmbHwww.heartsome.de

Extraktionsparameter 3� Groß / Kleinschreibung

� Gilt nicht in Kombination mit dem Option Lucene-Tokenizer! Wenn diese Option für eine der beiden Sprachen aktiviert wird, wird das Segment für die Segmentierung in Kleinschreibung umgewandelt.

� Segmentiere Paragraphen� Wenn das Segment noch aus mehreren Sätzen besteht, wird mit

dieser Option eine zusätzlich Satzsegmentierung durchgeführt. Dies geschieht nur dann, wenn sowohl Quell- als auch Zielsprache die gleiche Anzahl von Sätzen aufweisen.

� Lucene Tokenizer� Die Termextraktion zerlegt in einem ersten Schritt das Segment

in Worte. Für CJK Sprachen empfiehlt sich der Einsatz der Lucene Tokenizers, der diese Sprachen nicht nur auf Basis von Leerzeichen etc. zerlegt. Zu Beachten ist, dass der Tokenizer auf beide Sprachepaare aus Kongruenzgründen angewendet wird.

Page 21: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 21

Heartsome Europe GmbHwww.heartsome.de

Extraktionsparameter 4� Zähle TMX TU Einträge

� Ermittle die Anzahl von Einträgen in der TMX Datei.

� Anzahl Analyse-Blöcke� Derzeit nicht in Verwendung. Es ist geplant, die TMX

Dateien in mehrere Sub-Blöcke zu teilen und basierend darauf die die Stabilität der Extraktion zu testen.

� Entferne gleiche Terme� Wird die Termextraktion mit identischer Quell und

Zielsprache angewendet, so werden hier die (trivial) gefundenen identischen Terme nicht in die Extraktionsdatei übernommen.

Page 22: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 22

Heartsome Europe GmbHwww.heartsome.de

Exportieren� Beim Exportieren werden die Einträge der geladenen Extraktionsdatei in

verschiedene Format geschrieben.� TBX

� Name der Extraktionsdatei + „.tbx“

� Multiterm (™ of Trados/SDL International)� Name der Extraktionsdatei + „.multiterm“

� Araya CSV� Name der Extraktionsdatei + „araya.csv“

� Zeichencodierung ist dabei immer UTF-8� Es können dabei entweder alle Einträge oder nur die validierten Einträge

geschrieben werden� Zusätzlich dient der im „Optionen-Menü“ eingestellte Qualitätswert (Export

Wertefilter) als Selektionskriterium.� Je nach eingestelltem Wert werden nur die Wert mit mindestens

der jeweiligen Höhe (z.B. > 0.6) exportiert.

Page 23: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 23

Heartsome Europe GmbHwww.heartsome.de

Araya CSV Format

� Das Araya CSV Format enthält in der ersten Zeile das Sprachpaar gefolgt von den extrahierten Begriffen

Beispiel

de;en

Anschlussplan;Connection diagram

DIN;DIN

Dr;Dr

Sprachen durch ; getrennt

Extrahierte Terme durch ; getrennt

Page 24: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 24

Heartsome Europe GmbHwww.heartsome.de

Das Optionen Menu 1

Benutzer-schnittstellen-

sprache

Zeichensatz für Anzeigefenster und

Tabelle

Einstellungen der Minimalqualität für den Export der Termpaare

Page 25: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 25

Heartsome Europe GmbHwww.heartsome.de

Das Optionen Menu 2

Suche Begriffe in Termtabelle

Deselektiere alle Terme

Erweiterte Suche in Quell- und Zielbegriffen

Entferne alle Begriffe, die in einer Termextraktionsdatei

gefunden werden und validiertsind.

Entferne alle Begriffe, die in einer Termextraktionsdatei

gefunden werden.

Selektiere Begriffe aus einer Wortliste in einer Datei

Page 26: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 26

Heartsome Europe GmbHwww.heartsome.de

Filter Term Funktionen

� Die Filterfunktionen entfernen alle Terme aus der Termtabelle, die in einer anderen Termextraktionsdatei enthalten sind.

� Die identischen Terme werden entfernt.

� Je nach gewählter Methode betrifft diese die validierten oder alle Termen in der gewählten Termextraktionsdatei.

Page 27: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 27

Heartsome Europe GmbHwww.heartsome.de

Suche Begriffe

Starte Suche mit diesem Begriff

Suche mit diesem Begriff und selektiere alle passenden Einträge in der Tabelle. Die selektierten Einträge können mit

“Datei -> Speichere selektierte Einträge in Extraktionsdatei…”gesichert werden.

Suche nächsten passenden Begriff

Page 28: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 28

Heartsome Europe GmbHwww.heartsome.de

Erweiterte Suchfunktionen

Verwende reguläre Ausdrücke zur Suche

Starte Suche mit diesem Begriff

Suche nächsten passenden Begriff

Suche mit diesem Begriff und selektiere alle passenden Einträge in der Tabelle. Die selektierten Einträge können mit

“Datei -> Speichere selektierte Einträge in Extraktionsdatei…”gesichert werden.

Page 29: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 29

Heartsome Europe GmbHwww.heartsome.de

Selektiere Terme aus UTF-8 Datei� Dieser Filter selektiert alle Terme in der Tabelle, die in einer

UTF-8 kodierten Textdatei enthalten sind. Die Filtersuche sucht sowohl im Quell- als auch Zielbegriff.� Es selektiert auch Teilzeichenketten.

� Die selektierten Einträge können mit “Datei -> Speichere selektierte Einträge in Extraktionsdatei…” gesichert werden.

� Jedes Wort (Zeichenkette) in der Datei muss in einer Zeile vorkommen.

Page 30: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 30

Heartsome Europe GmbHwww.heartsome.de

Das Plugins Menü

Anzeige der aktuellenAraya Log-Datei

Dateikonvertierung zwischen Zeichensätzen

Prüfe und RekodiereSprachen in TMX Dateien

Teilen einer TMX Datei in mehrere TMX Dateien

Zusammenfügen mehrer TMX Dateien zu einer TMX

Datei

Zählen der TU/TUV Einträge

Page 31: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 31

Heartsome Europe GmbHwww.heartsome.de

Das Hilfe MenüAufruf des

Benutzerhandbuchs

Araya / Heartsome Homepage

Über die bilingualen Extraktion

Page 32: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 32

Heartsome Europe GmbHwww.heartsome.de

Über die Extraktion� Hier werden

Basisinformationen über die Extraktions-Konfiguration angezeigt.

� Dies Informationen könne für eine mögliche Fehlerdiagnose wichtig sein

� Mit „Sichere…“ kann diese Information der angegebenen Datei gespeichert werden.

Page 33: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 33

Heartsome Europe GmbHwww.heartsome.de

Dateien zwischen Zeichensätzen konvertieren

Diese Funktion erlaubt es Dateien von einem Zeichensatz in einen anderen zu konvertieren. Je nach Zielzeichensatz können auch zwei Ausgabedateien geschrieben werden. Wenn es sich um eine UTF-8, 16, 32 oder UCS Datei handelt, werden zwei Dateien geschrieben. Die zweite Datei, mit der zusätzlichen Erweiterung „.nobom“, ist eine Kopie der ersten, nur werden aus ihr die BOM (Byte Order Marker) entfernt. Diese Datei zum Importieren zu verwenden empfiehlt sich insbesondere bei UTF-8 Import-Dateien für Araya, da die Java Lese-Funktionen für UTF-8 Dateien die BOMs nicht entfernt und diese beim Einlesen als normale Zeichen eingelesen werden würden (und damit zu fehlerhaften Einträgen führen würden).(Dies ist eine bekannter Fehler von Java, wird aber von SUN nicht behoben!).

Quelldatei

Zieldatei; wird aus dem Namen der Quelldatei und dem Zielzeichensatz gebildet

Quellzeichensatz

Zielzeichensatz

Page 34: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 34

Heartsome Europe GmbHwww.heartsome.de

Prüfen/Rekodieren von TMX DateienTMX Dateiname

Grüne Zeilen markieren Sprachen, die von Araya in der TMX Datei unterstützt werden

Rekodiere Sprache in der TMX Datei basierend auf den

gewählten neuen Sprachcodes

Starte Prüfung der Sprachen in TMX

Datei

Rekodierte TMX Dateiname;

Besteht aus dem TMX Dateinamen ohne „.tmx“

Extension und neuer Endung „.recoded.tmx“

Gelbe Zeilen markiren Sprachen,

die Araya nicht unterstützt.

Sprachkodierung, die von Araya unterstützt

werden

Page 35: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 35

Heartsome Europe GmbHwww.heartsome.de

Teilen einer TMX DateiAufzuteilende TMX Datei

Schließe FensterStarte Aufteilen

Anzahl der zu erzeugenden neuen

TMX Dateien

Knöpfe zum Erhöhen / Erniedrigen der Anzahl zu erzeugender neuer

TMX Dateien

Die neu erzeugten TMX Dateien werden aus dem Namen der alten Datei und der jeweiligen Zahl von 1 bis n zusammengesetzt.

Anmerkung: Dialog derzeit nur in Englisch verfügbar!

Page 36: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 36

Heartsome Europe GmbHwww.heartsome.de

Zusammenfügen von TMX DateienWähle Name für neue TMX Datei

Schließe FensterStarte Zusammenfügen

TMX Datei zur Liste hinzufügen

Liste gewählter TMX Dateien

Entferne Datei aus der Liste

Anmerkung: Dialog derzeit nur in Englisch verfügbar!

Page 37: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 37

Heartsome Europe GmbHwww.heartsome.de

Zählen von TUs/TUVs in TMX DateiAuswählen der TMX Datei zum

Analysieren

Schließe FensterStarte Zählung

Resultat:Erste Zeile: Anzahl TUs und TUVsFolge Zeile: Anzahl sprachspezifischer TUVs

Page 38: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 38

Heartsome Europe GmbHwww.heartsome.de

Hinzufügen von Sprachencodes

� Vordefinierte Sprachencodes sind in der Datei file „ini/lancodes.txt“ definiert.

� Weitere Sprachencodes können durch erweitern dieser Datei hinzugefügt werden.

� Ein Beispiel:Hinzufügen de-DE: Eine Zeile wie

hinzufügen, wobei = den angezeigten

Namen der Sprache und Sprachecode

trennt.

German(DE)=de-DE

Galician=glGerman (Standard)=deGerman(DE)=de-DEGerman (Austrian)=de-atGerman (Liechtenstein)=de-liGerman (Luxembourg)=de-lu

Page 39: Bilingual Term Extraction Tool (in German)

18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 39

Heartsome Europe GmbHwww.heartsome.de

Impressum

� Heartsome Europe GmbH

� Friedrichstr. 17

� D-90574 Roßtal

� Email: [email protected]

� www.heartsome.de

� © 2007, 2009 Heartsome Europe GmbH