Terminologie, Terminologiemanagement und Terminologie...

45
Institut für Informatik Automatische Sprachverarbeitung Terminologie, Terminologiemanagement und Terminologie-Extraktion Dr. Lutz Maicher Universität Leipzig [email protected] Vorlesung "Wissens- und Contentmanagement" WS 2009/2010 im Modul "Wissens- und Contentmanagement"

Transcript of Terminologie, Terminologiemanagement und Terminologie...

Institut für Informatik

AutomatischeSprachverarbeitung

Terminologie, Terminologiemanagement und

Terminologie-Extraktion

Dr. Lutz MaicherUniversität Leipzig

[email protected]

Vorlesung "Wissens- und Contentmanagement" WS 2009/2010im Modul "Wissens- und Contentmanagement"

Terminologie

Institut für Informatik

2WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Wichtigkeit von Wording (Terminologiearbeit) - Beispiel

Tesco checks out wording change Tesco is to change the wording of signs on its fast-track checkouts to avoid any linguistic dispute.

The supermarket giant is to replace its current "10 items or less" notices with signs saying "Up to 10 items".

Tesco's move follows uncertainty over whether the current notices should use "fewer" instead of "less". The new wording was suggested to Tesco by language watchdog The Plain English Campaign. Tesco said the change would be phased in across its stores. "Saying up to 10 items is easy to understand and avoids any debate," said a spokesman for The Plain English Campaign.

"Fewer" should be used when you are talking about items that can be counted individually, for example, "fewer than 10 apples". "Less" is correct when quantities cannot be individually counted in that case, e.g. "I would like less water".

Quelle: http://news.bbc.co.uk/1/hi/business/7590440.stm (31.08.2008)

Terminologie

Institut für Informatik

3WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Wichtigkeit von Wording (Terminologiearbeit) - Beispiel

Wording Change Skewed Poll After SpeechIn Monday's survey, taken after the President's speech, respondents were asked: ''Now thinking about Bill Clinton as a person, do you have a favorable or unfavorable opinion of him?'' That elicited responses from the public that were 40 percent favorable and 48 percent unfavorable. In previous Gallup polls the wording was: ''Now I'd like to get your opinion about some people in the news. As I read the name, please say if you have a favorable or unfavorable opinion of this person.'' Last week, that traditional wording resulted in public impressions of Mr. Clinton that were 60 percent favorable and 38 percent unfavorable. Thus, it appeared on Monday that there had been a 20-percentage point drop in Mr. Clinton's personal ratings. In a poll on Tuesday, Gallup used the traditional wording and measured 55 percent favorable views of Mr. Clinton and 42 percent unfavorable.

Quelle: New York Times 20.08.1998

Terminologie

Institut für Informatik

4WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Wording

Verwendung, Bilden oder (Neu-)Definieren von Begriffen

z.B. von Werbeabteilungen beim Vermarkten neuer Produkte und Dienstleistungen ('aprilfrisch', 'Advanced-Telebanking'),

von Wissenschaftler für neue Effekte, Techniken, Verfahren und Zusammenhänge ('Genscanning', 'Kernspintomograf', 'Waldsterben'),

in der Politik ('Nullwachstum', 'sozialverträgliches Ableben', 'Politikverdrossenheit', 'Change', ‚kalte Progression‘),

von der Unternehmensführung zur Festlegung des Sprachgebrauchs in einem Unternehmen ('Assessment-Center', 'Benchmark', 'Kick-Off-Meeting', 'Portfolio', 'Freistellung')

…. weitere Bereiche ?

Terminologie

Institut für Informatik

5WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Terminologie

Terminologie

Institut für Informatik

6WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Definition Terminologie

„Das Begriffs- und Benennungssystem eines Fachgebietes, das alle Fachausdrücke umfasst, die allgemein üblich sind“

(E.Wüster)

Terminologie

Institut für Informatik

7WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Terminologie und Kommunikationsmodell

information supplier

(humans)

information customer (humans)

context

information supplier

(machines)

information customer

(machines)

information supply

com

mun

ity

(org

anis

atio

n) comm

unity(organisation)

information demand

n m

matching processes

Terminologie unterstützt das Matching von Angebot und Nachfrageim Kommunikationsprozess

Terminologie

Institut für Informatik

8WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Was sind Herausforderungen in der Terminologiearbeit?

• Aufgaben der terminologischen Sprachnormierung:– Erkennen von Fachbegriffen (Terminologieextraktion)– Disambiguierung und Definition– Festlegung und Vereinheitlichung (Normung, vgl. ISO, DIN)– Übersetzung– Repräsentation von Terminologie– Veröffentlichung und Verteilung – Produktion von Publikationen mit normierter Terminologie

Terminologie

Institut für Informatik

9WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Repräsentation von Terminologie• Kontrolliertes Vokabular• Taxonomie• Thesaurus• Ontologie• Kontrollierte Sprache• Folksonomie

Quelle: Lars Marius Garshol: Metadata? Thesauri? Taxonomies? Topic Maps! in Proceedings of XML Europe 2004

weiterer Link: http://www.metamodel.com/article.php?story=20030115211223271

Terminologie

Institut für Informatik

10WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Was ist ein Kontrolliertes Vokabular?

• eine Liste von Termen– jeder Term besitzt eindeutige und nicht-redundante Definition– keine Homonymie = Ambiguitäten (Mehrdeutigkeiten) sind aufgelöst– Synonymie ist definiert = existieren mehrere Terme für dasselbe

Konzept, so muss eine Zugangsbenennung und eine Liste von Benennungsvarianten bestimmt werden

Terminologie

Institut für Informatik

11WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Kontrolliertes Vokabular – Beispiel – Topic-Maps-TerminologieQuelle: http://www.informatik.uni-leipzig.de/~maicher/tmt/TMT.html

Auch: http://www.topicmapslab.de/glossary

Terminologie

Institut für Informatik

12WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Kontrolliertes Vokabular - Beispiele

Struktur Beispiel Term

Substantiv RestseitenbandübertragungSchwefelfarbstoffe

Substantiv mit Präpositionalphrase

Sammelstelle für Sondermüll

Substantiv mit Genitivphrase

Gesetz der großen Zahlen

Adjektiv + Substantiv Gefleckter Schierlinghydraulischer Stoßdämpfer

Adjektiv + Adjektiv + Substantiv

langzeitige linksseitige Herzinsuffizienz

Substantiv + Substantiv Microsoft Word

Terminologie

Institut für Informatik

13WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Kontrolliertes Vokabular - Beispiele

• Fachausdrücke als Worte – einzelne Worte sein,

wie z. B. Maschine (de), machine (en), – oder zusammengesetzte Wörter (bzw. Komposita oder Mehrwortbegriffe),

wie z. B. Nähmaschine (de), sewing machine (en) oder machine à coudre (fr). – Merke: Schreibweise eines Terms als Kompositum oder Mehrwortbegriff hängt

stark von sprachlichen Konventionen ab.• Fachausdrücke als Phrasen,

– wie z. B. Tag und Nacht (de), night and day (en), – die für bestimmte Fachsprachen, etwa die juristische Fachsprache, stark

standardisiert sein können, z. B. bevollmächtigen (de) = nominate, constitute, and appoint as attorney-in-fact (en).

• Fachausdrücke als typische Kombinationen von Nomina und Verben,– wie z. B. ein Patent erlangen (de), file a patent (en).

• Fachausdrücke als Abkürzungen– z. B. TCP/IP

Terminologie

Institut für Informatik

14WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Was ist eine Taxonomie?

• ein kontrolliertes Vokabular, das in Hierarchie organisiert ist – jeder Term steht in einer oder mehreren Eltern-Kind-Beziehungen zu

anderen Termen• Ursprünge in der Linné‘schen botanischen und zoologischen Klassifikation

– Beziehungen können typisiert sein• Teil-Ganzes-Beziehung• Typ-Instanz-Beziehung• Art-Spezie-Beziehung• von einem Elternterm sollten nur Beziehungen des selben Typs abgehen

– Polyhierarchien können erlaubt sein• ein Kindterm hat verschiedene Elternterme

Terminologie

Institut für Informatik

15WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Was ist ein Thesaurus?

• ein kontrolliertes Vokabular, das eine Vielzahl von Aussagen über die Terme zulässt– BT (broader term) / NT (narrower term)

• in Taxonomien sind alle Kanten BT/NT – SN (scope note) - ist eine Zeichenkette um die Bedeutung des Terms

zu beschreiben– USE – Link zu einem Term welcher alternativ genutzt werden sollte

• Synonym– RT (related term) - Term, der in Beziehung zu einem Term steht

• keine USE oder BT/NT Beziehung– und einige mehr … (siehe Standards)

• Standardisierung von Thesauri– ISO 2788 für monolinguale Thesauri– ISO 5964 für multilinguale Thesauri– siehe http://www.techquila.com/psi/thesaurus/ (für Überblick)

Terminologie

Institut für Informatik

16WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Was ist eine Ontologie?

• Ontologie ist ein semantisches Datenmodell (Konzeptualisierung) einer Domäne– Klassen

• extensionale Definition (durch Individuen der Klasse)• intensionale Definition (durch eine Menge von Eigenschaften)

– Attribute• Benennungen (z.B. Geburtsname)• Properties, Features, Characteristics, Parameter, Eigenschaftem

– Beziehungen• verschiedene Beziehungsmodelle sind möglich

– Individuen (von Klassen und Beziehungen)• z.B. Clara Schumann als Person• z.B. Leipzig als Geburtsort von Clara Schumann

– Regeln• z.B. alle Personen mit einem Alter von mind. 18 Jahren haben die

Eigenschaft "volljährig"

Terminologie

Institut für Informatik

17WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Taxonomie und Ontologie - Beispiel

Terminologie

Institut für Informatik

18WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Was ist eine kontrollierte Sprache?

• ist eine natürliche Sprache wie Deutsch oder Englisch, die nach bestimmten Regeln eingeschränkt wird– Wortschatz (allgemeiner Kennwortschatz), – Terminologie (Fachwortschatz)– Sprachstil, – Grammatik und Satzbau (z. B. Länge von Sätzen und Absätzen,

Verwendung von Aktiv in Anleitungen) • Zweck:

– technische Dokumentationen und Handbücher verständlicher und effizienter zu gestalten,

– zukünftige Übersetzungen von Texten bei Entstehung erleichtern• Beispiel:

– Die eingegebenen Orte werden in die Zieltabelle übertragen. (falsch)– Übertragen Sie die eingegebenen Orte in die Zieltabelle. (richtig)

Terminologie

Institut für Informatik

19WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Was ist eine Folksonomy?

• ein "kontrolliertes" Vokabular für eine Domäne, dass durch gemeinschaftliche Nutzung entsteht– entsteht durch kollaboratives tagging– Normierung durch Recommender

• eingetretene Pfade werden genutzt …– tag clouds sind beliebte Repräsentation

Terminologie

Institut für Informatik

20WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Was ist eine Folksology?

• eine Ontologie, die durch gemeinschaftliche Nutzung entsteht– Folksonomy + kollaborativ erstellte Beziehungen zwischen den Termen

Terminologie

Institut für Informatik

21WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Wer weiß noch was …

• ein kontrolliertes Vokabular• eine Taxonomie• ein Thesaurus• eine Ontologie• eine kontrollierte Sprache• eine Folksonomy• eine Folksology ist?

Terminologie

Institut für Informatik

22WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Terminologiemanagement

Terminologie

Institut für Informatik

23WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Was sind die Ursachen für terminologische Inkonsistenzen?

• Verschieden Autoren / Übersetzer– Terminologiearbeit ist gerade bei Mehrsprachigkeit wichtig

• Keine Terminologiepolitik und Terminologiemanagement– meist aus Zeit bzw. Kostengründen

• Keine organisatorische Einbettung– Verteilung von Rechten und Pflichten (in der Organisation)

• Keine Werkzeugunterstützung

Terminologie

Institut für Informatik

24WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Gibt es Standards für die Terminologiearbeit?

• ISO 704:1987 Principles and methods of terminology– outlines the principles of conceptual analysis, definition writing and term

formation as well as the methods used in terminology work.• ISO 860:1996 Terminology work – Harmonization of concepts

and terms– deals with the principles which are the basis upon which concept

systems can be harmonized and with the development of harmonized terminologies, in order to improve the efficiency in interlinguistic communication.

• ISO 1087:1990 Terminology – Vocabulary– consists of a set of terminological entries covering the basic concepts in

the field of theory and application of terminology work.

Terminologie

Institut für Informatik

25WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Ein Weg zur eigenen Terminologie …

1. Konzept und Planung festlegen2. Ausgangsterminologie als Rohliste extrahieren3. Bereinigung der Rohliste4. Übersetzung5. Verteilung und Verwaltung

Konzept & Planung Rohliste & Repräsentation Übersetzung Verteilung&Verwaltung

Terminologie

Institut für Informatik

26WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Konzept und Planung

• Gestaltung: Was gehört zum Fachbereich?– Umfang der Terminologie muss festgelegt werden– Bsp.: Asthma bronchiale ist medizinischer Term; ist dieser Begriff auch

ein Term im Bereich spezieller Lungenkrankheiten?• Ressourcen:

– Wer kann beitragen?– Wo gibt es bereits Terminologie?

• Organisatorische Maßnahmen– Welche Bereiche sollen die Terminologie verwenden?– Wer gibt die Terminologie frei?– Wer hat die Nutzung der Terminologie zu verantworten?

• Wiederverwendung bestehender Terminologie– bestehende (Industrie-)Standards

Konzept & Planung Rohliste & Repräsentation Übersetzung Verteilung&Verwaltung

Terminologie

Institut für Informatik

27WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Planung der Repräsentation der Terminologie

• Minimalistisch oder Maximalistisch?– Begriff– Übersetzung (in die notwendigen Zielsprachen)– Wortart– Definition– Status– Quellen und Belegstellen

• wichtig als Anwendungsbeispiele– Synonyme

• Nutzung von Standards für Repräsentation von Terminologie• Aufwand/Nutzen bei der Erstellung im Auge behalten

Konzept & Planung Rohliste & Repräsentation Übersetzung Verteilung&Verwaltung

Terminologie

Institut für Informatik

28WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Rohliste & Terminologie festlegen

• Rohliste zusammentragen– Bestehende interne und externe Terminologie– Nutzung automatischer Verfahren zur Terminologieextraktion

• Aufgabe: Sammeln von Text des Fachbereichs• siehe letztes Kapitel dieser Vorlesung

• Festlegen der Terminologie entsprechend der Planung der Repräsentation– manueller Akt– auch verbotene Terme/Phrasen sind Teil der Terminologiearbeit

Konzept & Planung Rohliste & Repräsentation Übersetzung Verteilung&Verwaltung

Terminologie

Institut für Informatik

29WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Wortbildungsregeln

• Nach welchem Prinzip soll ein neues Teil benannt werden?

• Strategie für das Prägen neuer Begriffe– siehe "Bedeutung des Wordings" zu Beginn der Vorlesung

Konzept & Planung Rohliste & Repräsentation Übersetzung Verteilung&Verwaltung

Terminologie

Institut für Informatik

30WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Übersetzung

• Integration der Terminologie mit bestehenden Translation Memory Systemen

• Keine 1:1 Übereinstimmung von Terminologie in zwei Sprachen– u.a. aus Gründen der Sprachökonomie

• published subject identifier vs. die Adresse der veröffentlichten Beschreibung eines Aussagegegenstandes

– Begriffe nicht immer spiegelgleich• cutter Fräser / Schneider (abhängig von Anwendung)

– Teilkomposita führen zu Fehlübersetzungen• „Gerät“ statt „Meßgerät“

– getrennte Terminologieextraktion erscheint sinnvoll

Konzept & Planung Rohliste & Repräsentation Übersetzung Verteilung&Verwaltung

Terminologie

Institut für Informatik

31WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Verwaltung und Verteilung

• Abbildung des IST-Zustands ist nicht ausreichend– Pflichten und Rechte bzgl. der Terminologie muss definiert werden– Fortschreibung muss institutionalisiert werden

• Einbindung der Terminologie in die Redaktionsprozesse– "Fachwörterbuch" oder Thesaurus für eigene Terminologie

• Papierform • elektronisch

– Recommender / Autovervollständigen– automatische Filter

• z.B. für verbotene Terme und Phrasen– Qualitätstests

Konzept & Planung Rohliste & Repräsentation Übersetzung Verteilung&Verwaltung

Terminologie

Institut für Informatik

Verwaltung durch (öffentliche) Repositories

32WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Terminologie

Institut für Informatik

Verwaltung durch (öffentliche) Repositories

33WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Terminologie

Institut für Informatik

34WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Terminologieextraktion

Terminologie

Institut für Informatik

35WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Welche Ansätze zur Terminologiedefinition gibt es?

• Top-Down-Ansatz– manuelle Modellierung der

Domäne mit bestehender Terminologie

– Experten oder kollaborativ

• Bottom-Up-Ansatz– (semi-)automatische Extraktion

von Terminologie der Domäne• bspw. Named Entity Recogniction

– (semi-)automatische Modellierung der Domäne mit dieser Terminologie

Achse

Getriebe

Rad

Beziehung:wird angetrieben von

Beziehung:sitzt auf

Synonyme:• Räder, Wheels

Getriebe

AchseRad

Räder Wheels

Kontext-Beziehung

Kontext-Beziehung

Synonym-BeziehungSynonym-Beziehung

Terminologie

Institut für Informatik

36WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Was ist die Herausforderung autom. Terminologieextraktion?

• Problemstellung: Terminologie in Texten automatisch identifizieren

– was als allgemein üblich empfunden wird, hängt jedoch stark vom Betrachter ab (bei nicht genormten Terminologien…)

• Gleiches Problem wie im Information Retrieval:– Welche Dokumente sind relevant

welche Wörter sind terminologisch?

– Idee aus dem IR: Relevance Feedback• „Ist Content Syndication ein Term der Domäne Content Management?“

Terminologie

Institut für Informatik

37WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Was sind statistische Merkmale von Terminologien?

• Fachtermini sind Wörter, die in Fachtexten einer Domäne (und nur dort) wesentlich häufiger auftreten als in anderen Texten:

Terminologie

Institut für Informatik

38WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Was sind linguistische Merkmale von Termen? - Morphologie

• Morphologie:– Morphem: kleinste bedeutungstragende Einheit der Sprache

• Bsp: „/zer-/ /leg-/ /-en/“

– in bestimmten Fachsprachen sind bestimmte Derivative/Suffixe häufiger bzw. produktiver

• Bsp.: „-itis“ in der Medizin• Bsp.: „-ase“ in der Chemie, Biologie, Medizin

Terminologie

Institut für Informatik

39WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Was sind linguistische Merkmale von Termen? - Syntax

• Syntax: – Einwortterme sind immer Autosemantika, meist N, A– viele Fachtermini sind Mehrwortbegriffe (NPs) mit typischen POS-

Mustern (z.B. [A N] oder [N N])• meist unvariiert (keine Umstellungen)• nicht trennbar (weder im Englischen noch im Deutschen „split NP“ möglich)

Terminologie

Institut für Informatik

40WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Ansätze zur Terminologie-Extraktion

• Drei Hauptrichtungen (fast alles für Englisch!!)

– Statistisch: meist per TF/IDF oder ähnlichen Maßen; Differenzanalysen…

– Linguistisch: Konzentration auf Extraktion von Mehrwortbegriffen (Phrasen); Verwendung von POS-Taggern, Chunkern oder Parsern.

– Hybrid: Kombinationen von linguistischen und statistischen Ansätzen, meist Extraktion von Phrasen und danach statistische Filter.

Terminologie

Institut für Informatik

41WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Ansätze: Erkenntnisse (1)

• Statistische Verfahren:– [Salton 1975]: TF/IDF funktioniert nur für Kollektionen, für Analyse

einzelner Dokumente ungeeignet– [Cohen 1995]: Differenzanalyse für Buchstaben-n-gramme kann gute

Ergebnisse bringen – [Dunning 1993]: Verfahren ohne korrektes statistisches Modell

überbewerten seltene Ereignisse

• Linguistische Verfahren:– Contra POS-Muster: mittels [N N] wird aus „the man gave the girl

biscuits“ die Phrase „girl biscuits“ extrahiert.– Contra Parser: Braucht zuviel Wissen im Lexikon (Valenzrahmen,

Wortarten etc.) über die Wörter eines Textes • Aber: das Lexikon soll erst aufgebaut werden!

– Chunking als Kompromiß?• Aufteilung eines Textes in syntaktisch aufeinander bezogene Wortgruppen

Terminologie

Institut für Informatik

42WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Ansätze: Erkenntnisse (2)

• Hybride Verfahren:– [Daille 1994], [Justeson 1995]: Der beste statistische Filter für Phrasen

(egal wie extrahiert) ist deren pure Frequenz

• Verfahren für das Deutsche – [Heid 1998]: Semantisch komplexe Begriffe werden im Deutschen

(meist) durch Komposita statt Mehrwortbegriffe ausgedrückt => Phrasenextraktion sinnlos

Über Kompositazerlegung und Suche nach „domänenspezifischen Basismorphemen“ läßt sich das aber voll kompensieren!

– [Witschel 2005]: Durch interaktive Integration von statistischen Verfahren für die Morphem- und Wortebene und musterbasierten Verfahren für Mehrwortbegriffe lässt sich die Qualität der Ergebnisse deutlich verbessern

Terminologie

Institut für Informatik

43WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Fragen – ggf. für Master- / Diplomarbeiten

• Terminologie-Extraktion:– Wie können Mehrwortbegriffe effektiv extrahiert werden?– Wie können verschiedene terminologische Ausdrücke für das gleiche

(oder ähnliche Konzept) identifiziert werden? (z. B. über ähnliche Kontexte oder Definitionen)

– Wie können die Definitionen zu terminologischen Konzepten extrahiert werden?

• Taxonomien und Ontologien:– Wie können automatisch extrahierte Fachbegriffe für den automatischen

Aufbau von Taxonomien und Ontologien verwendet werden? (z. B. über Entscheidungsbäume)

Terminologie

Institut für Informatik

44WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Literatur• Statistische Verfahren:

– [Cohen 1995] Cohen, J.D. (1995): Highlights: language and domain independent automatic indexing terms for abstracting. In: Journal of the American Society for Information Science, 46(3), S. 162-174.

– [Dunning 1993] Dunning, T. (1993): Accurate Methods for the Statistics of Surprise and Coincidence. In: Computational Linguistics, 19(1), S. 61-74.

• Hybride Verfahren:– [Justeson 1995] Justeson, J.S., Katz, S.M. (1995): Technical terminology: some

linguistic properties and an algorithm for identification in text. In: Natural Language Engineering, 1(1), S. 9-27.

– [Daille 1994] Daille, B., Gaussier, E., Lang´e, J. (1994): Towards Automatic Extraction of Monolingual and Bilingual Terminology. In: Proceedings of COLING94, S. 515-521.

• Deutsch:– [Heid 1998] Heid, U. (1998): A linguistic bootstrapping approach to the extraction

of term candidates from German text. In: Terminology, 5(2), S. 161-181.– [Witschel 2005] Witschel, F. (2005): Terminologie-Extraktion, Ergon Verlag:

Würzburg 2005

Terminologie

Institut für Informatik

45WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher

Link für automatische Terminologie-Extraktion

ASV-Verfahren:

http://wortschatz.uni-leipzig.de/~fwitschel/terminology.html

auch in der ASV-Toolboxhttp://www.asv.informatik.uni-leipzig.de/asv/17