Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von...

27
Darf‘s ein bisschen weniger sein? Termextraktion mit linguistischen Verfahren tekom Jahrestagung 2017 Stuttgart, 25.10.2017 Ursula Reuther IAI Linguistic Content AG

Transcript of Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von...

Page 1: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Darf‘s ein bisschen weniger sein?

Termextraktion mit linguistischen Verfahren

tekom Jahrestagung 2017 Stuttgart, 25.10.2017

Ursula Reuther

IAI Linguistic Content AG

Page 2: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Überblick

• Terminologieaufbau

• Termextraktionsverfahren

• statistische Verfahren

• linguistische Verfahren

• Vergleich

• Zusätzlicher Mehrwert von Termextraktionsergebnissen

• Weitere Nutzung von Termextraktionsergebnissen

• Ausblick und Fazit

02.11.2017 IAI Linguistic Content AG 2

Page 3: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Terminologieaufbau Fragen über Fragen

02.11.2017 IAI Linguistic Content AG 3

Sollen die Terme zu einander in Beziehung gesetzt werden?

In welchem Datenmodell?

Gibt es Vorgaben?

Regeln?

Einen Terminologie-Leitfaden?

Nutze ich maschinelle Verfahren?

Wenn ja, welche?

Was nehme ich als Ausgangsbasis?

Gibt es schon einen Terminologie-Datenbestand?

Deskriptiver Ansatz oder

präskriptiver Ansatz?

Arbeite ich ein- oder zweisprachig?

Was sind die Kriterien für einen Term?

Page 4: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Automatische Termextraktionsverfahren

• Herausforderung „Wenn man die Termini eines Textes exzerpieren will […], dann geht es nicht um einzelne Wörter, sondern um ganze Ausdrücke (Benennungen). Deren innerer Zusammenhang ist aber mitunter schwer zu erkennen. Quelle: P.A. Schmitt (2016), Terminologie und Fachlexikografie

• Statistische Verfahren • große Auswahl

• TermFinder, Xerox, PhraseFinder, crossMining, LogiTerm2, memoQ, SDL MultiTerm Extract, STAR TransitNXT, Tilde, Termflow, SynchroTerm, Sketch engine, fiveFilters, VocabGrabber …

• arbeiten auf Basis von Zeichenketten

• ohne morphologische Information - bestenfalls mit so genannten Stemmern (Erkennung von Wortstämmen) • Verkürzungsregeln

• haben ihre Grenzen (Häuser-Haus; sprach-spreche-spricht; gehört; stimmt …zu; etc.)

• ohne Satzgliedanalyse

02.11.2017 IAI Linguistic Content AG 4

Page 5: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Automatische Termextraktion Statistische Verfahren

• Ergebnisse Tilde (online Version https://term.tilde.com)

02.11.2017 IAI Linguistic Content AG 5

Weniger wäre

mehr!

Page 6: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Automatische Termextraktionsverfahren

• Herausforderung „Wenn man die Termini eines Textes exzerpieren will […], dann geht es nicht um einzelne Wörter, sondern um ganze Ausdrücke (Benennungen). Deren innerer Zusammenhang ist aber mitunter schwer zu erkennen. Quelle: P.A. Schmitt (2016), Terminologie und Fachlexikografie

• Linguistische Verfahren • arbeiten auf Lemma-Basis

• Identifizierung von nicht nur zufällig benachbarten Elementen, die unterschiedlichen Phrasen angehören, sondern Erkennung von syntaktisch und semantisch zusammengehörigen Elementen

• Voraussetzung: Morpho-syntaktische Analyse

die Verbräuche --> Verbrauch

… des oberen Totpunktes –> oberer Totpunkt

Falls der Auffangbehälter für den Mitarbeiter nicht zugänglich ist, … Falls der Auffangbehälter für Öl defekt ist, …

02.11.2017 IAI Linguistic Content AG 6

Page 7: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Automatische Termextraktionsverfahren

02.11.2017 IAI Linguistic Content AG 7

o Vorteil: sprachunabhängig

o Nachteil: ohne Morphologie

o mit so genannten Stemmern

Mehrworteinheiten werden auf Basis statistischer Kookkurrenz-berechnungen identifiziert (dennoch mangelhaft)

o Ausgabe von Wortformen

o Termgrenzen werden nicht erkannt

o keine Disambiguierung

o Studie der Uni Zürich (1999)

Präzision: Nur 20% aller gelieferten Termkandidaten sind Terme.

Vollständigkeit: Nur 80% aller Terme eines Textes werden gefunden.

o Vorteil: morpho-syntaktische Analyse

o Nachteil: sprachabhängig

o Ermittlung der Grundform mit grammatischen Informationen

o gute Erkennung von Mehrwortausdrücken

o bessere Recall- und Precision-Ergebnisse

o Mehr relevante Terme als bei einer intellektuellen Extraktion

o Verhältnis von gefundenen und relevanten Termen beträgt fast 100%

Quelle: M. Volk (2003) Parallele Korpora und Terminologie-Extraktion

Statistische

Termextraktionsverfahren

Linguistische

Termextraktionsverfahren

Page 8: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Extraktionsverfahren im Vergleich

• Inputdokument: deutscher Text (36 KB)

• 3 Verfahren

• intellektuelle Extraktion

• statisches Verfahren

• mit unterschiedlichen Einstellungen bezüglich Noise und Silence

• linguistisches Verfahren

• Ergebnisse ohne Filterung

02.11.2017 IAI Linguistic Content AG 8

Page 9: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Extraktionsverfahren im Vergleich

02.11.2017 9 IAI Linguistic Content AG

Quelle: Fritz Communication

Page 10: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Extraktionsverfahren im Vergleich

02.11.2017 10 IAI Linguistic Content AG

Quelle: Fritz Communication

Page 11: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Extraktionsverfahren im Vergleich

02.11.2017 11 IAI Linguistic Content AG

Quelle: Fritz Communication

Page 12: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Extraktionsverfahren im Vergleich

• Linguistische Termextraktion findet mehr geeignete Terme

• als die statistische Termextraktion

• als selbst die intellektuelle Termextraktion

• Das Verhältnis von gefundenen zu tatsächlichen Termen ist fast optimal

• Zeitersparnis ca. 98%

02.11.2017 IAI Linguistic Content AG 12

Page 13: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Inhaltliche Ebene Auswahl und Bildung von Termen

• Wann ist ein Term ein Term?

• Welche Kriterien werden zugrunde gelegt?

• Nach welchen Regeln werden Terme gebildet?

02.11.2017 IAI Linguistic Content AG 13

Page 14: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Wann ist ein Term ein Term?

… korrelieren oftmals, z.B. Nespresso-Kapsel

Intelligente Trommelreversierung

Verschlussdeckel für Öleinfüllstutzen

Virus Alter Mann

Sprachliche Merkmale lassen Rückschlüsse auf inhaltliche Merkmale zu

sprachliche Merkmale inhaltliche Merkmale

Komposita

Teilebenennungen Produktnamen

Nominalphrasen • Adjektiv-Nomen-Konstrukte • Nomen - Präposition – Nomen

Fachausdrücke

Etymologie

Domänenabhängigkeit

02.11.2017 IAI Linguistic Content AG 14

Page 15: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Maschinell erkennbare Kriterien der Termhaftigkeit

• Kompositum

• Naturflächenverbrauch

• Interimslösung

• Simplex (mit bestimmten semantischen Eigenschaften)

• Hammer s=instr

• Lunge s=koerper

• Antrieb s=process

• Gas, Kohle s=mat

• Fremdwörter (fremdsprachlichen Ursprungs)

• Akkumulator ss=instr, lng=lat

• Update ss=result, lng=engl

• Frequenz ss=state, lng=lat

• Bronchitis ss=disease, lng=gr

02.11.2017 IAI Linguistic Content AG 15

Page 16: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Maschinell erkennbare Kriterien der Termhaftigkeit

• Bindestrichkonstrukte

• Kosten-Nutzen-Analyse

• ESP-System

• 230-V-Batterie

• Adjektiv-Nomen-Konstrukte

• verbrauchsoptimierter Dieselmotor

• terminologische Relevanz

• Toponyme

• Silvrettagletscher ls=Silvretta#gletscher,ss=loc&gegend#loc&gelaende

• Stuttgarter Fernsehturm c=adj,deg=base,s=loc&city,ds=Stuttgart~er,ls=Stuttgart,ss=loc&city

c=noun,ss=medium#loc&gebaeude,cs=n#n,ds=fernseh#turm,ls=fernseh#turm

• Namen

• Barak Obama ls=Barack,ss=fname,ls=Obama,ss=family

02.11.2017 IAI Linguistic Content AG 16

Page 17: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Ergebnis einer automatischen linguistisch basierten Termextraktion

02.11.2017 IAI Linguistic Content AG 17

Page 18: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Zusätzlicher Mehrwert von Termextraktionsergebnissen

• Qualitätssicherung durch Ausgabe von unbekannten Wörtern

• Produkt- und Eigennamen

RegioTram

HH2

• Rechtschreibfehler

abhehmen – abnehemen - abnemen

Defkt

Stabilesator

Ausspahrung

• Qualitätssicherung durch Erkennung von Inkonsistenzen 5-Sitzer -- Fünfsitzer

Deckel-Oberteil -- Deckelunterteil

Evakuierungsvorgang -- Evakuiervorgang

02.11.2017 IAI Linguistic Content AG 18

Page 19: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Zusätzlicher Mehrwert von Termextraktionsergebnissen

• Ableitung von Termbildungsregeln durch Analyse von • Frequenzinformation

• Beispiel: Wie viele 3-gliedrigen Komposita kommen mit/ohne Bindestrich vor?

• Kontextinformation • Beispiel: In welchem Kontext kommt Schreibvariante A vor, in welchem Kontext ist es Schreibvariante B?

• Auswahlkriterium • Beispiel: Sollen deverbale Simplizia durch Ableitungen oder durch Infinitive dargestellt werden?

Abbremsung vs. Abbremsen

• Ableitbare Regelungen zu • Bindestrichsetzung

• Schreibung von Ziffern

• Gebrauch von Fremdwörtern

Trainingsunterlagen vs. Schulungsunterlagen

• Wortbildung

• …

02.11.2017 IAI Linguistic Content AG 19

Page 20: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Weitere Nutzung von Termextraktionsergebnissen

• Erkennung von Hyperonym- und Hyponymrelationen

Absorptionskälteanlage > Kälteanlage > Anlage

absorbieren#kalt#anlage

gleiches Kopfwort gleicher Wortstamm des Bestimmungsworts 5 Abgasanlage

2 Absauganlage

1 Abwasserreinigungsanlage 1 Absorber

30 Antriebsanlage 1 Absorption

1 Audioanlage 1 Absorptionsmittel

4 Auspuffanlage

1 Beschichtungsanlage

1 Beschickungsanlage

3 Biogasanlage

7 Bremsanlage

1 chemische Anlage

………

6 Windkraftanlage

1 Zentralschmieranlage

02.11.2017 IAI Linguistic Content AG 20

Page 21: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Weitere Nutzung von Termextraktionsergebnissen

• Visualisierung terminologischer Relationen

• Basis:

• Termextraktionsergebnisse und zugehöriges Korpus oder

• bestehender Thesaurus

• Zur Herstellung der Relation wird die „semantische Ähnlichkeit“ herangezogen

• Ermittlung der semantischen Ähnlichkeit durch Kookkurrenzbedingungen in Dokumenten

Definition: Wörter der selben semantischen Domäne sind semantisch ähnlich.

Semantisch ähnlich: Krankenschwester Fieber intravenös Doktor

02.11.2017 IAI Linguistic Content AG 21

Page 22: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Weitere Nutzung von Termextraktionsergebnissen

• Terminologische Relationen dargestellt als Wortwolke

https://www.wissen-elektromobilitaet.com

02.11.2017 IAI Linguistic Content AG 22

Page 23: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Ausblick

• Termextraktionsergebnisse sind nicht nur nutzbar für

• Terminologieaufbau und damit verbundene Tätigkeiten

• sondern auch für

• Thesaurus-/Ontologieerstellung

• Information Retrieval

• Dokumentklassifizierung

• Indexierung

02.11.2017 IAI Linguistic Content AG 23

Page 24: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Fazit

Ergebnisse der linguistisch basierten Termextraktion

• liefern weniger Terme mit besserer Qualität

• kein Rauschen, hoher Precision- und Recall-Wert

• nutzbar für die Terminologiearbeit und die Qualitätssicherung

• ermöglichen Ableitung von Termbildungsregeln

• ermöglichen Erkennung von fehlerhaften und inkonsistenten Inhalten

• nutzbar für weitere Anwendungen

02.11.2017 IAI Linguistic Content AG 24

Page 25: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Fazit

• Weniger …

• unbrauchbare Terme

• nicht gefundene Terme

• Zeitaufwand

• … und doch ein Mehr an

• brauchbaren Termen

• gefundenen Termen

• Unterstützung der Terminologen

• weiteren Möglichkeiten zur Nutzung

02.11.2017 IAI Linguistic Content AG 25

Page 26: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

Fazit

02.11.2017 IAI Linguistic Content AG 26

Page 27: Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von Zeichenketten • ohne morphologische Information - bestenfalls mit so genannten Stemmern

02.11.2017 IAI Linguistic Content AG 27

Ihre Meinung ist uns wichtig! Sagen Sie uns bitte, wie Ihnen der Vortrag gefallen hat. Wir freuen uns auf Ihr Feedback per Smartphone oder Tablet unter

http://term07.honestly.de oder scannen Sie den QR-Code

Das Bewertungstool steht Ihnen auch noch nach der Tagung zur Verfügung!