Zur Strukturierung Von Einsprachigen Und Kontrastiven Online-Wörterbüchern

260

description

Urlich Heid - Zur Strukturierung Von Einsprachigen Und Kontrastiven Online-Wörterbüchern

Transcript of Zur Strukturierung Von Einsprachigen Und Kontrastiven Online-Wörterbüchern

  • Zur Strukturierung von

    einsprachigen und kontrastiven elektronischen W

    orterb

    uchern

    Ulrich Heid

    Institut f

    ur maschinelle Sprachverarbeitung { Computerlinguistik {

    der Universit

    at Stuttgart

    Azenbergstr. 12

    D 70174 Stuttgart

    [email protected]

  • Inhaltsverzeichnis

    1 Einleitung 1

    1.1 Problemstellung : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 1

    1.1.1 Probleme der Lexikonstrukturierung : : : : : : : : : : : : : : : : : 3

    1.1.2 Rahmenbedingungen : : : : : : : : : : : : : : : : : : : : : : : : : : 4

    1.1.3 Vorgehensweise : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 5

    1.1.4 Struktur dieses Buchs : : : : : : : : : : : : : : : : : : : : : : : : : 6

    1.2 Einige Grundbegrie : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 7

    1.2.1 Elektronische W

    orterb

    ucher : : : : : : : : : : : : : : : : : : : : : : 7

    1.2.2 Probleme der kontrastiven lexikalischen Beschreibung : : : : : : : : 14

    2 Lexikographische Aspekte 19

    2.1 Multifunktionale W

    orterb

    ucher : : : : : : : : : : : : : : : : : : : : : : : : 19

    2.1.1 Begrisbestimmung: Wiederverwendbare lexikalische Ressourcen : : 19

    2.1.2 Reinterpretierbarkeit lexikalischer Beschreibungen : : : : : : : : : : 27

    2.2 Strukturierung zweisprachiger W

    orterb

    ucher : : : : : : : : : : : : : : : : : 42

    2.2.1 Vorbemerkung: Deskription vs. Pr

    asentation in der Lexikographie : 42

    2.2.2 Direktionale vs. Nicht-direktionale zweisprachige W

    orterb

    ucher : : : 44

    2.2.3 Die Strukturierung der Van Dale-W

    orterb

    ucher : : : : : : : : : : : 53

    2.3 Lexikographische Anforderungsdenition : : : : : : : : : : : : : : : : : : : 65

    2.4 Exkurs: Metalexikographie vs. W

    orterbuch-Design : : : : : : : : : : : : : : 68

    3 Constraint-basierte W

    orterb

    ucher 71

    3.1 Der TFS-Formalismus : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 71

    3.1.1 Datentyp von TFS : : : : : : : : : : : : : : : : : : : : : : : : : : : 72

    3.1.2 Eigenschaften aus dem objektorientierten Paradigma: Relevanz f

    ur

    die lexikalische Repr

    asentation : : : : : : : : : : : : : : : : : : : : : 73

    3.1.3 Eigenschaften aus dem constraint-basierten Paradigma: Relevanz

    f

    ur die Erstellung von (lexikalischen) Spezikationen : : : : : : : : 82

    3.1.4 Das Lexikon als Spezikation: Vorteile und Probleme bei der Ver-

    wendung von TFS f

    ur die lexikalische Modellierung : : : : : : : : : 84

    3.2 W

    orterbucharchitektur : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 89

    3.2.1

    Uberblick : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 89

    3.2.2 Klassikatorische und stratikationelle W

    orterb

    ucher : : : : : : : : 90

    3.2.3 Modularit

    at und Interaktion der Module : : : : : : : : : : : : : : : 92

    3.2.4 Dokumentation der lexikalischen Beschreibungen : : : : : : : : : : : 94

    3.2.5 Zugrisneutralit

    at : : : : : : : : : : : : : : : : : : : : : : : : : : : : 95

    3.2.6 Vergleich der Spezikation mit der Anforderungsdenition : : : : : 98

    4 Einsprachige W

    orterb

    ucher 99

    4.1 Bausteine der Eintr

    age : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 99

    4.2 Beschreibung mit Frame-Semantics : : : : : : : : : : : : : : : : : : : : : : 101

    4.2.1 Semantische Rollen f

    ur das Wahrnehmungsszenarium : : : : : : : : 102

    4.2.2 Sorten : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 106

    4.2.3 Rollenkonstellationen : : : : : : : : : : : : : : : : : : : : : : : : : : 108

    4.3 Syntaktische Beschreibung : : : : : : : : : : : : : : : : : : : : : : : : : : : 115

    4.3.1 Grammatische Funktionen : : : : : : : : : : : : : : : : : : : : : : : 116

  • 4.3.2 Syntaktische Kategorien : : : : : : : : : : : : : : : : : : : : : : : : 119

    4.3.3 Abbildungen zwischen grammatischen Funktionen und syntaktischen

    Kategorien : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 122

    4.3.4 Ableitbarkeit von Lexikoneintr

    agen f

    ur LFG und HPSG aus DELIS-

    Eintr

    agen : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 123

    4.4 Abbildungen zwischen den Beschreibungsebenen : : : : : : : : : : : : : : : 124

    4.5 Zur

    Ubertragbarkeit des Ansatzes : : : : : : : : : : : : : : : : : : : : : : : 128

    4.5.1 Fragment : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 128

    4.5.2 Lexikalisch-semantische Beschreibung : : : : : : : : : : : : : : : : : 129

    4.5.3 Syntaktische Beschreibung : : : : : : : : : : : : : : : : : : : : : : : 130

    4.5.4 Abbildungen zwischen den Beschreibungsebenen : : : : : : : : : : : 132

    4.6 Probleme der Lexikonmodellierung : : : : : : : : : : : : : : : : : : : : : : 135

    4.6.1 Typen vs. Features : : : : : : : : : : : : : : : : : : : : : : : : : : : 135

    4.6.2 Klassikation von Beschreibungsmitteln vs. Klassikation von lexi-

    kalischen Objekten: Rollen vs. Sorten : : : : : : : : : : : : : : : : : 137

    4.6.3 Subklassizierung nach zus

    atzlichen Merkmalen? : : : : : : : : : : 139

    5 Abfrage 145

    5.1 Ad-hoc-Abfrage im TFS-Lexikon : : : : : : : : : : : : : : : : : : : : : : : 146

    5.1.1 Ad-hoc-Abfrage in stratikationellen Lexika : : : : : : : : : : : : : 146

    5.1.2 Ad-hoc-Abfrage mit Variablen : : : : : : : : : : : : : : : : : : : : : 148

    5.1.3 Nutzung der Ad-hoc-Abfrage in W

    orterbuchanwendungen { Ver-

    gleich mit Datenbanken : : : : : : : : : : : : : : : : : : : : : : : : 152

    5.2 Anwendung: Lexikonexport : : : : : : : : : : : : : : : : : : : : : : : : : : 155

    5.2.1 Auswahl des zu exportierenden Teilfragments mit Ad-hoc-Abfrage : 156

    5.2.2 Pr

    asentation der Information f

    ur Zielanwendungen : : : : : : : : : 159

    5.2.3 Ablaufschema des W

    orterbuchexports : : : : : : : : : : : : : : : : : 162

    5.2.4 Robustheit des Exports gegen

    uber

    Anderungen des Lexikons : : : : 165

    5.2.5 Eine Anwendung des Lexikonexports: Lexikongesteuerte Corpussuche165

    5.3 Diskussion: Abfragemethoden : : : : : : : : : : : : : : : : : : : : : : : : : 167

    5.3.1 Interpretation der Hierarchie unter der Open World Assumption vs.

    Closed World Assumption : : : : : : : : : : : : : : : : : : : : : : : 168

    5.3.2 \Lexikographische" Anfrage vs. Benutzung von Lexikoneintr

    agen in

    einem NLP-System : : : : : : : : : : : : : : : : : : : : : : : : : : : 170

    6 Kontrastive W

    orterb

    ucher 179

    6.1 Klassizierung von

    Ubersetzungsproblemen : : : : : : : : : : : : : : : : : : 180

    6.1.1 Motivation f

    ur die Einf

    uhrung einer Problemklassikation : : : : : : 180

    6.1.2 Ans

    atze zur Klassikation von kontrastiven Problemen in der For-

    schung zur maschinellen

    Ubersetzung : : : : : : : : : : : : : : : : : 183

    6.1.3 Neuere Ans

    atze zur Klassikation von

    Ubersetzungsproblemen: Di-

    vergenzen vs. Mismatches : : : : : : : : : : : : : : : : : : : : : : : 186

    6.2 Klassikationsvorschlag : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 194

    6.3 Beispieldiskussion : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 197

    6.3.1 Subkategorisierungsunterschiede: \syntaktische Divergenz" : : : : : 197

    6.3.2 Thematische Divergenz und Syntax-Semantik-Interaktion : : : : : : 201

  • 6.3.3 \Inkorporation" von Argumenten und Adjunkten: \conational"

    und \lexical" divergence : : : : : : : : : : : : : : : : : : : : : : : : 206

    6.3.4 Divergenzen mit Auswirkungen auf das zu

    ubersetzende Lexem : : 209

    6.3.5 Head Switching: \demotional/promotional divergence" : : : : : : : 212

    6.3.6 Divergenzen mit Auswirkung auf das zu

    ubersetzende Lexem und

    auf die syntagmatische Umgebung : : : : : : : : : : : : : : : : : : : 214

    6.4 W

    orterb

    ucher f

    ur maschinelle

    Ubersetzung : : : : : : : : : : : : : : : : : : 214

    6.4.1 Monolinguale und kontrastive Subkategorisierungsklassen in einem

    transferbasierten M

    U-W

    orterbuch auf der Grundlage von LFG : : : 215

    6.4.2 Behandlung von Divergenz in einem HPSG-basierten Interlingua-

    Ansatz : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 218

    6.5 Kontrastive constraint-basierte W

    orterb

    ucher : : : : : : : : : : : : : : : : 222

    6.5.1 Kontrastives Fragment : : : : : : : : : : : : : : : : : : : : : : : : : 222

    6.5.2 Die TFS-Kodierung des kontrastiven Vergleichs von Frame Seman-

    tics-Beschreibungen : : : : : : : : : : : : : : : : : : : : : : : : : : : 223

    6.5.3 Die Behandlung von kontrastiven Problemen im DELIS-Fragment : 225

    6.5.4 Lexikographische Anwendung : : : : : : : : : : : : : : : : : : : : : 227

    7 Zusammenfassungen 233

    7.1 Deutsche Zusammenfassung : : : : : : : : : : : : : : : : : : : : : : : : : : 233

    7.2 Resume Francais : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 237

    7.3 English Summary : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 242

    Literatur : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 247

  • Vorwort

    Dieses Buch richtet sich an Computerlinguisten, Lexikographen und Metalexikographen.

    Es versucht einige Prinzipien aufzuzeigen, nach denen elektronische monolinguale und

    kontrastive W

    orterb

    ucher strukturiert sein sollten, wenn sie f

    ur verschiedene Anwendun-

    gen, in Computerlinguistik und Lexikographie, benutzbar sein sollen.

    Probleme der W

    orterbuchstrukturierung wurden seit l

    angerer Zeit sowohl in der Me-

    talexikographie, als auch in der Computerlinguistik und ihrer sich neu entwickelnden

    Teildisziplin, der \Computational Lexicography", diskutiert; es scheint aber, als h

    atte es

    bislang wenig Austausch zwischen den beiden Bereichen gegeben. Und dies, obwohl sich

    aus den Erfahrungen metalexikographischer W

    orterbuchanalysen durchaus Zielsetzungen

    f

    ur eine computerlinguistische W

    orterbucharchitektur gewinnen lassen, und obwohl um-

    gekehrt der computerlinguistische Blick auf bestehende W

    orterb

    ucher die metalexikogra-

    phische Sicht und bestehende Ans

    atze zur W

    orterbuchklassikation erweitern kann. Ein

    Teil der hier gef

    uhrten Diskussion versucht, diese Art von Austausch voranzutreiben:

    auf der Grundlage von Erfahrungen aus computerlinguistischen und metalexikographi-

    schen W

    orterbuchanalysen werden Vorschl

    age f

    ur die Architektur elektronischer Lexika

    entwickelt. Zu ihren Merkmalen geh

    oren Modularisierung, Verzicht auf fest vorgegebene

    Zugrisstrukturen und eine einheitliche Repr

    asentation von linguistischen Beschreibungen

    verschiedener Ebenen.

    Die vorgeschlagene Architektur wurde in einer Reihe von W

    orterbuchfragmenten pro-

    totypisch realisiert: ein Constraint-Logik-Formalismus (hier wurde TFS, Typed Feature

    Structures, verwendet), erlaubt die Umsetzung der Architekturprinzipien in einfacher Wei-

    se. Anhand von Beispielen aus der Arbeit im europ

    aischen Forschungsprojekt DELIS wird

    gezeigt, welche Vorteile sich aus dem Ansatz f

    ur die Abfrage, den Export und die Wie-

    derverwendung lexikalischer Beschreibungen ergeben und wie einsprachige Fragmente aus

    kontrastiver Sicht kombiniert werden k

    onnen.

    Der computerlinguistische Anwendungskontext, vor dessen Hintergrund die hier zu-

    sammengestellten Vorschl

    age f

    ur kontrastive Lexika zu sehen sind, ist die (interlingua-

    orientierte) maschinelle

    Ubersetzung. Die kontrastive Anwendung wird aber eher als Va-

    lidierung der W

    orterbucharchitektur verstanden, nicht als Selbstzweck.

    Ich m

    ochte an dieser Stelle allen danken, die an der Entstehung dieses Buches betei-

    ligt waren: vor allem Prof. Christian Rohrer, der die hier beschriebenen Arbeiten angeregt

    und mit konstruktiver Kritik begleitet hat, Prof. Franz Josef Hausmann, der meine Be-

    geisterung f

    ur W

    orterb

    ucher geweckt und unterst

    utzt hat, und, nicht zuletzt, meinen

    Stuttgarter Kollegen und den ausw

    artigen Kooperationspartnern der Projekte Eurotra-7

    und DELIS, die stets zu Diskussionen, Kommentaren, Fragen und Vorschl

    agen bereit wa-

    ren. Besonders danken m

    ochte ich Regina Steding: ohne sie w

    urde dieses Buch nicht in

    dieser Form vorliegen.

    Stuttgart, im April 1996

    Ulrich Heid

  • Kapitel 1

    Einleitung

    1.1 Problemstellung

    Die Bedeutung von lexikalischen Beschreibungen f

    ur sprachverarbeitende Systeme steht

    auer Frage. W

    orterb

    ucher

    1

    sind eine der zentralen linguistischen Wissensquellen die-

    ser Systeme, und Fragen der praktischen Realisierung von elektronischen W

    orterb

    uchern

    sind in den letzten Jahren zunehmend ins Zentrum des Interesses ger

    uckt. Hierzu geh

    oren

    die Diskussion um M

    oglichkeiten der Wiederverwertung von bestehenden W

    orterb

    uchern,

    Forschungen zur lexikalischen Akquisition, zum Beispiel auf der Grundlage von Textcorpo-

    ra, sowie

    Uberlegungen zur parallelen Nutzbarmachung von lexikalischen Beschreiungen

    aus der lexikographischen Arbeit f

    ur manuelle und maschinelle Konsultation.

    Obwohl das Interesse an W

    orterb

    uchern in der maschinellen Sprachverarbeitung in

    der Zeit seit ca. 1985 stark zugenommen hat, gibt es nach wie vor relativ wenig For-

    schungsarbeiten, die sich mit der Strukturierung von W

    orterb

    uchern befassen, mit Fra-

    gen der Organisation und Repr

    asentation lexikalischer Informationen, sozusagen der \Sy-

    stemarchitektur" von W

    orterb

    uchern. Solche Fragestellungen werden jedoch dann rele-

    vant, wenn es um die Realisierung konkreter sprachverarbeitender Systeme geht, um ihre

    Wartung, Erweiterung, Anpassung an neue Anwendungs- und Gegenstandsbereiche. Ein

    Forschungsgebiet, wo sich dieses Dezit besonders bemerkbar macht, ist die maschinelle

    Ubersetzung. Dabei ist die maschinelle

    Ubersetzung gleichzeitig eine derjenigen Anwen-

    dungen von Sprachverarbeitungskomponenten, die die komplexesten Anforderungen an

    die lexikalische Beschreibung und Repr

    asentation stellen.

    Viele Autoren, die

    uber maschinelle

    Ubersetzungssysteme schreiben, gehen nicht oder

    nicht sehr ausf

    uhrlich auf die lexikalischen Ressourcen ein, die den betreenden Systemen

    zugrundeliegen. Wenn die W

    orterb

    ucher diskutiert werden, dann in der Regel im Zusam-

    menhang mit der Systemarchitektur, als Komponenten der Wissensquellen, auf welche das

    System bei der

    Ubersetzung in irgendeiner Weise zur

    uckgreift. Details

    uber den Aufbau

    und Organisation der W

    orterb

    ucher werden jedoch oftmals nicht gegeben, oder es nden

    sich lediglich Diskussionen einzelner

    Ubersetzungsbeispiele, aus denen sich allenfalls mehr

    oder weniger gut rekonstruieren l

    at, wie einzelne W

    orterbucheintr

    age eines gegebenen

    Systems aussehen k

    onnten.

    DieW

    orterb

    ucher eines sprachverarbeitenden Systems h

    angen nat

    urlich eng mit dessen

    Grammatiken zusammen. Wenn jedoch ein (umfangreiches) W

    orterbuch f

    ur verschiede-

    ne Anwendungen eingesetzt werden soll, die u.U. auf verschiedenen Grammatiken oder

    Grammatiktheorien beruhen, dann kann die Frage der W

    orterbuchorganisation nicht ein-

    fach als Teilproblem der Grammatikentwicklung betrachtet werden. Vielmehr mu man

    sich dann Gedanken

    uber \multifunktionale W

    orterb

    ucher" machen, sowohl aus theoreti-

    scher Sicht, als auch aus praktischer. Die theoretische Diskussion hat in den sp

    aten 80er

    Jahren mit

    Uberlegungen zu \reusable resources" begonnen (vgl. unten, Abschnitt 2.1.1

    und den neuen Band von

    [

    H

    otker/Ludewig (Ed.) 1996

    ]

    ). Die praktische Seite wird einer-

    1 Die Termini W

    orterbuch und Lexikon werden hier synonym verwendet.

  • seits im Rahmen des \Linguistic Engineering" diskutiert, andererseits zum Teil schon seit

    geraumer Zeit in der praktischen Lexikographie realisiert. Diese verschiedenen Aspek-

    te und die Methoden und Verfahren von computerlinguistischer und lexikographischer,

    bzw. metalexikographischer Arbeit scheinen bislang weitgehend getrennt verfolgt worden

    zu sein: mindestens werden in Ver

    oentlichungen aus der Computerlinguistik und Com-

    putational Lexicography relativ selten Ergebnisse der lexikographischen Arbeit und der

    Metalexikographie aufgenommen und verarbeitet, und umgekehrt. Das vorliegende Buch

    versucht, hier ansatzweise eine Br

    ucke zu schlagen: wo immer m

    oglich, wird die lexikogra-

    phische Relevanz der vorgeschlagenen computerlinguistischen Modellierungen diskutiert,

    und umgehrt wird zun

    achst untersucht, welche Ergebnisse aus der Lexikographie und

    Metalexikographie f

    ur die \Computational Lexicography" ausgen

    utzt werden k

    onnen.

    Fragen der Lexikonstrukturierung sind in der Computerlinguistik etwas detaillierter

    diskutiert worden, seit sich Head-Driven Phrase Structure Grammar (HPSG,

    [

    Pollard/Sag

    1994

    ]

    ,

    [

    Pollard/Sag 1987

    ]

    ) als einer der wichtigsten Grammatikformalismen f

    ur computer-

    linguistische Modellierungen etabliert hat. Die Zielsetzung von Arbeiten in diesem Rah-

    men war es, Generalisierungen im Lexikon in geeigneter Weise zu modellieren

    2

    . Andere

    Arbeiten zur Organisation von W

    orterb

    uchern f

    ur die Sprachverarbeitung konzentrieren

    sich auf einzelne Teilbereiche der lexikalischen Beschreibung, z.B. Morphologie und Mor-

    phosyntax (

    [

    Domenig 1987

    ]

    ,

    [

    Domenig 1989

    ]

    ,

    [

    Domenig/ten Hacken 1992

    ]

    ), oder sie sind

    st

    arker an Fragen der Wissensrepr

    asentation und der hierf

    ur relevanten Formalismen inter-

    essiert (z.B.

    [

    Daelemans/Van der Linden 1992

    ]

    ). In der Lexikographie bzw. Metalexikogra-

    phie wurde mit

    [

    DANLEX 1987

    ]

    ein Vorschlag f

    ur die Strukturierung von W

    orterb

    uchern

    gemacht, der prim

    ar auf die (computergest

    utzte) Erstellung und auf die

    Uberwachung

    der Testgestalt (z.B. Eintragsmodelle) von W

    orterb

    uchern f

    ur die interaktive Benutzung

    (durch \menschliche" Benutzer) abzielt, nicht auf den Einbau in sprachverarbeitende Sy-

    steme.

    In diesem Buch wird der Versuch unternommen, Vorschl

    age f

    ur die Strukturierung

    einsprachiger und zweisprachiger W

    orterb

    ucher zu machen. Dabei werden

    Uberlegungen

    zur Wiederverwendung lexikalischer Information, insbesondere zur Gestaltung von \mul-

    tifunktionalen" W

    orterb

    uchern, mit Vorschl

    agen zur formalen Modellierung einsprachi-

    ger W

    orterb

    ucher und zur Strukturierung von kontrastiven lexikalischen Beschreibungen

    f

    ur maschinelle

    Ubersetzung zusammengebracht. Den Rahmen f

    ur die Spezikation von

    Architekturvorschl

    agen f

    ur W

    orterb

    ucher bilden constraint-basierte Formalismen zur Re-

    pr

    asentation linguistischen Wissens, wie sie unter anderem zur Kodierung von HPSG-

    Grammatiken verwendet werden.

    3

    2 Die Vorschl

    age zur Lexikonstrukturierung, die sich in

    [

    Pollard/Sag 1987

    ]

    benden, sind allerdings

    in den wenigsten Grammatik-Systemen, die auf HPSG beruhen, implementiert, angewendet oder

    erweitert worden. Der einzige gr

    oere Versuch in dieser Richtung seit der Arbeit von

    [

    Flickinger

    1987

    ]

    sind die Vorschl

    age von

    [

    Sanlippo 1993

    ]

    zur Strukturierung der W

    orterb

    ucher von Acquilex.

    3 Einen

    Uberblick

    uber constraint-basierte Formalismen, die zur Kodierung von linguistischem Wissen

    benutzt werden, gibt der Sammelband

    [

    Uszkoreit (Ed.) 1993

    ]

    . Dort ndet sich auch eine vergleichende

    Bewertung der Formalismen. Da die vorliegenden

    Uberlegungen in engem Kontakt mit Arbeiten zur

    Entwicklung von TFS (Typed Feature Structure Formalismus, vgl.

    [

    Emele 1996

    ]

    ) entstanden ist, lag

    es nahe, TFS als Beispielfall f

    ur einen solchen Formalismus zu benutzen. Ich m

    ochte Martin Emele in

    diesem Zusammenhang f

    ur viele sehr anregende Diskussionen und auch daf

    ur herzlich danken, da er

    mich an der Entwicklung von TFS aus der N

    ahe hat teilhaben lassen.

  • 1.1.1 Probleme der Lexikonstrukturierung

    Gut strukturierte W

    orterb

    ucher sind f

    ur Benutzer und Entwickler

    ubersichtlicher und

    leichter erweiterbar. Auerdem sollte es eine geeignete W

    orterbucharchitektur erlauben,

    sowohl monolinguale als auch kontrastive lexikalische Beschreibungen so zu strukturieren,

    da bestimmte deskriptive Generalisierungen abgeleitet bzw. ohne Bedarf an zus

    atzlichen

    Beschreibungen ausgedr

    uckt werden k

    onnen.

    In der praktischen Lexikographie werden bestimmte Strukturierungsprinzipien mehr

    oder weniger explizit schon seit langer Zeit eingehalten. Beispielsweise wird in den mei-

    sten W

    orterb

    uchern der Verbwortschatz in einige, allerdings sehr grobe syntaktische Klas-

    sen eingeteilt (z.B. transitive Verben, intransitive Verben, reexive Verben). In neueren

    W

    orterb

    uchern gibt es h

    aug jeweils spezische Eintragsmuster f

    ur die einzelnen Wort-

    klassen. Eintr

    age zu Substantiven unterscheiden sich dann bereits in ihrer Struktur von

    Eintr

    agen zu Verben oder zu Pr

    apositionen. Die praktische Lexiographie nutzt dazu be-

    reits einige Hilfsmittel zur W

    orterbuchstrukturierung, z.B. Computerwerkzeuge zur Kon-

    sistenzkontrolle f

    ur Artikelstrukturen. In diesem Buch soll gezeigt werden, welche weite-

    ren Strukturierungs- und Kontrollm

    oglichkeiten sich ergeben, wenn z.B. die Eigenschaften

    computerlinguistischer Formalismen ausgenutzt werden.

    Auch f

    ur zweisprachige W

    orterb

    ucher wurden in der Lexikographie Strukturierungs-

    vorschl

    age gemacht

    4

    . Besonders interessant sind in diesem Zusammenhang die zweispra-

    chigen W

    orterb

    ucher des niederl

    andischen Verlags Van Dale: bei ihrer Entwicklung wurde

    darauf geachtet, da einsprachige und zweisprachige W

    orterb

    ucher aufeinander bezogen

    (und im Idealfall voneinander abgeleitet) sind. Die Van Dale-W

    orterb

    ucher werden unten

    in Abschnitt 2.2.3 recht ausf

    uhrlich diskutiert: sie dienen als Modellfall lexikographischer

    Strukturierungsprinzipien und gleichzeitig als metalexikographischer Bezugspunkt f

    ur die

    sp

    atere Diskussion

    uber kontrastive Modellierungen f

    ur die Sprachverarbeitung.

    Die Vorschl

    age zur W

    orterbuchstrukturierung, die in diesem Buch gemacht werden,

    zielen auf die Erstellung \multifunktionaler" lexikalischer Ressourcen ab. Idealerweise

    sollen verschiedene Anwendungen von einem gemeinsamen W

    orterbuch versorgt werden;

    es soll sowohl wie ein \traditionelles gedrucktes" W

    orterbuch benutzt werden k

    onnen,

    als auch in Systemen der maschinellen Sprachverarbeitung. Im Fall der zweisprachigen

    Modellierungen sollten auch maschinelle

    Ubersetzungssysteme mit Daten versorgt wer-

    den k

    onnen, die auf unterschiedlichen Architekturen und (unikationsbasierten) Gram-

    matiktheorien aufsetzen. Eine empirische Klassikation von lexikalischen

    Ubersetzungs-

    problemen, die zun

    achst von den beobachteten Ph

    anomenen ausgeht und zu einem System

    \kontrastiver Klassen" im Lexikon f

    uhrt, eignet sich f

    ur diese Aufgabe. Auf der Grundlage

    fr

    uherer Versuche zur Klassikation von

    Ubersetzungsproblemen aus der Forschung zur

    maschinellen

    Ubersetzung wird eine einfache kontrastive Problemklassikation erarbeitet,

    die relativ generelle L

    osungsans

    atze erlaubt, die ohne Zuhilfenahme weiterer Wissensquel-

    len realisiert werden k

    onnen (vgl. Abschnitt 6.3).

    Die Forderung nach Oenheit hinsichtlich verschiedener Zielanwendungen zieht eine

    Reihe weiterer Anforderungen nach sich, die im Detail in Abschnitt 2.1 diskutiert und

    in Abschnitt 2.3 zusammengefat werden. Hierzu geh

    ort u.a. die Forderung nach einem

    modularem Aufbau der W

    orterb

    ucher. Teilbeschreibungen, beispielsweise von verschiede-

    nen Sprachen oder von verschiedenen linguistischen Beschreibungsebenen, sollen separat

    4 Vgl. die Diskussion der Zusammenh

    ange von Datendeskription und lexikographischer Pr

    asentation

    unten in Abschnitt 2.2.1. Zur Pr

    asentationsseite vgl.

    [

    Baunebjerg Hansen 1990

    ]

    .

  • gehalten und wo n

    otig explizit miteinander verbunden werden. Damit wird verhindert,

    da einerseits analoge Informationen

    uber verschiedene Stellen verteilt sind, andererseits

    Informationen verschiedener Natur miteinander vermengt werden, wo dies nicht sinnvoll

    ist. Ein weiteres Ziel in diesem Zusammenhang ist es, die Information von verschiedenen

    linguistischen Beschreibungsebenen gleichrangig zu behandeln, also keiner linguistischen

    Beschreibungsebene Priorit

    at

    uber die anderen einzur

    aumen. Diese Forderung ist in ge-

    wisser Weise von den Grundprinzipien von HPSG inspiriert: dort werden linguistische

    Objekte (Zeichen) durch gleichberechtigte Teilbeschreibungen auf der Ebene der Ortho-

    graphie, der Syntax, der Semantik und, ggf., der Pragmatik beschrieben. In Abschnitt 3.2

    wird gezeigt, inwiefern sich ein solcher Ansatz f

    ur ein Lexikonmodell eignet.

    1.1.2 Rahmenbedingungen

    Die oben vorgetragenen

    Uberlegungen werden in diesem Buch anhand von Beispielen

    diskutiert. Eine solche Diskussion ist zwangsl

    aug auf bestimmte Einzelf

    alle und auf die

    Beschreibung relativ kleiner W

    orterbuchfragmente angewiesen. Im Folgenden werden die

    Rahmenbedingungen f

    ur die Formalisierung, die behandelten Ph

    anomene bzw. W

    orter-

    buchfragmente und eine Reihe weiterer Randbedingungen kurz zusammengestellt.

    F

    ur die formale Modellierung der in diesem Buch beschriebenen W

    orterbuchfragmente

    wird der TFS-Formalismus (Typed Feature Structures) verwendet. Die formalen Grund-

    lagen von TFS und die Implementierung des hier benutzten TFS-Systems werden nicht

    beschrieben: sie sind in

    [

    Emele 1996

    ]

    detailliert dargestellt; dort nden sich auch Ver-

    weise auf die relevante Grundlagenliteratur. TFS wird stellvertretend f

    ur die Klasse der

    constraint-basierten Formalismen benutzt, die in den letzten Jahren in der Computerlin-

    guistik zunehmend Verbreitung gefunden haben. Die W

    orterbuchorganisation ist jedoch

    eine relativ neue Anwendung von TFS und von Constraint-Formalismen

    uberhaupt; au-

    erdem geht es darum, die lexikographische Nutzbarkeit solcher Formalismen zu zeigen.

    Daher ist es sinnvoll, informell und anhand von Beispielen aus dem Bereich der W

    or-

    terbuchstrukturierung die relevanten Eigenschaften des TFS-Formalismus zu beschreiben

    (vgl. Abschnitt 3.1). Im Hinblick auf die praktische Anwendung eines elektronischen W

    or-

    terbuchs mu in diesem Zusammenhang aber nicht nur diskutiert werden, in welcher Weise

    sich der Formalismus f

    ur die Lexikonrepr

    asentation und -strukturierung eignet, sondern es

    mu auch dargestellt werden, wie ein elektronisches W

    orterbuch benutzt, d.h. interaktiv

    abgefragt oder in eine Anwendung eingebunden werden kann. Diese Diskussion ndet sich

    in Abschnitt 5.

    Der Gegenstandsbereich, anhand dessen die Strukturierungsvorschl

    age illustriert wer-

    den, ist die Beschreibung von Verben, insbesondere der Verbsubkategorisierung; dieser

    Bereich ist in Linguistik und Lexikographie gut untersucht und dokumentiert. Hierf

    ur

    werden Modellierungen zugrundegelegt, wie sie im Rahmen von HPSG und Lexikalisch-

    Funktionaler Grammatik (LFG, vgl.

    [

    Dalrymple (Ed.) 1995

    ]

    ) vorgeschlagen werden. Diese

    Grammatik-Formalismen werden als Hintergrund f

    ur die Modellierung verwendet, jedoch

    wird nicht der Versuch unternommen, s

    amtliche Beschreibungen detailliert im Rahmen

    der Theorien zu begr

    unden oder zu motivieren. Es geht auch nicht darum, neuartige

    Beschreibungen f

    ur die zur Diskussion stehenden Ph

    anomene vorzuschlagen.

    Das beschriebene W

    orterbuchfragment beruht auf Materialien aus dem DELIS-Projekt

    5

    ;

    5 DELIS steht f

    ur \Descriptive Lexical Specication and tools for corpus-based lexicon building".

    DELIS ist ein Forschungs- und Entwicklungsprojekt, das von der Europ

    aischen Kommission im Rah-

  • die DELIS-Beschreibungen stellen gen

    ugend lexikalische Information bereit, als da LFG-

    oder HPSG-Systeme damit versorgt werden k

    onnten. Dar

    uber hinaus wird in DELIS ver-

    sucht, an die syntaktische eine lexikalisch-semantische Beschreibung anzuschlieen, die

    den Prinzipien von Fillmores Frame Semantics folgt. Die Grundlagen hiervon werden

    zusammen mit den Beispiel-Modellierungen in Kapitel 4 dargestellt

    6

    .

    Die konkreten W

    orterbucheintr

    age, die in diesem Zusammenhang diskutiert werden,

    stammen aus Fragmenten f

    ur Verben der sinnlichen Wahrnehmung f

    ur Englisch, Franz

    o-

    sisch, Italienisch, D

    anisch und Niederl

    andisch, die exemplarisch in TFS modelliert wurden.

    Um die

    Ubertragbarkeit der hier vorgeschlagenen Prinzipien zu

    uberpr

    ufen, wurden in DE-

    LIS auerdem Fragmente italienischer, englischer und niederl

    andischer Sprechaktverben

    modelliert (vgl. Abschnitt 4.5).

    Eine der wichtigsten Grundlagen f

    ur die hier vorgeschlagene Strukturierung von ein-

    und zweisprachigen W

    orterb

    uchern und f

    ur deren Verbindbarkeit untereinander stellt das

    Vorliegen von parallelen Grammatiken und Lexika dar. Unter \parallelen" Fragmenten

    werden hier linguistische Beschreibungen von S

    atzen verstanden, welche

    Ubersetzungen

    voneinander sind. Auerdem setzt die Erstellung paralleler Fragmente die Benutzung

    desselben Grammatikformalismus bzw. desselben deskriptiven Ansatzes voraus: ein ge-

    meinsames Inventar von Beschreibungsmitteln f

    ur die verschiedenen einzelsprachlichen

    Modellierungen wird deniert; dieses Inventar wird nur dann erweitert, wenn dies f

    ur die

    Beschreibung einzelsprachlicher idiosynkratischer Ph

    anomene notwendig ist.

    1.1.3 Vorgehensweise

    Die Erstellung linguistischer Spezikationen hat einige Gemeinsamkeiten mit der Ent-

    wicklung von Software. Wie oben angedeutet, fallen Teile der hier gef

    uhrten Diskussion

    in den Bereich des \Linguistic Engineering". Dementsprechend ist es sinnvoll, wenn sich

    auch die Arbeitsmethode an Vorgehensweisen aus dem Software-Engineering anlehnt.

    Die vorliegende Studie orientiert sich an der Methode des \Rapid Prototyping". Im

    Software-Engineering versteht man unter \Rapid Prototyping" eine Arbeitsmethode, bei

    der zun

    achst eine Anforderungsanalyse erstellt wird, dann eine funktionale und sp

    ater for-

    male oder technische Spezikation der zu entwickelnden Programme. Zu einem m

    oglichst

    fr

    uhen Zeitpunkt in der Softwareentwicklung soll eine erste Implementierung verf

    ugbar

    gemacht werden (ein Prototyp), welcher zu Testzwecken an die Benutzer gegeben wird.

    men des Forschungsprogramms LRE (Linguistic Research and Engineering) im Zeitraum 1993{1995

    gef

    ordert wurde. An DELIS waren Computerlinguisten (Universit

    aten Pisa, Clermont-Ferrrand, Am-

    sterdam und Kopenhagen), W

    orterbuchverlage bzw. -herausgeber (Van Dale; Den Danske Ordbog,

    Kopenhagen; Oxford University Press), sowie ein Software- und Beratungsunternehmen (Site, Paris;

    Lingsoft, Helsinki, Linguacubun, London) beteiligt. Der Autor war Vertreter der Universit

    at Stuttgart

    in DELIS und Projektkoordinator.

    6 Dies ist, soweit sich absehen l

    at, die erste constraint-basierteModellierung von Lexikonfragmenten auf

    der Grundlage von Frame Semantics. Wie LFG und HPSG hier als deskriptiver Hintergrund verstan-

    den werden (und auf theorie-interne Diskussionen

    uber die syntaktische Modellierung von Einzelf

    allen

    verzichtet wird), dient auch Frame Semantics hier als ein Beispielfall f

    ur einen Beschreibungsansatz:

    Fillmores Theorie wird in diesem Buch nicht erweitert, sondern prim

    ar als Beispiel f

    ur ein lexikalisch-

    semantisches Beschreibungsmodell genommen, welches lexikographisch relevant ist (vgl. die Arbeiten

    von

    [

    Fillmore/Atkins 1994

    ]

    ,

    [

    Atkins 1994

    ]

    ,

    [

    Atkins et. al. 1994

    ]

    , usw.), weil es eine pr

    azise, corpus-

    basierte lexikalische Beschreibung unterst

    utzt, und weil es die Zusammenh

    ange von syntaktischer und

    semantischer Beschreibung explizit macht. Es geht also nicht darum, die deskriptiven Entscheidungen

    von Frame Semantics zu rechtfertigen oder gegen andere Beschreibungen abzusetzen.

  • Das Feedback, welches aus den Tests dieser ersten Implementierung gewonnen wird, iet

    in eine Verfeinerung der Spezikationen und der Implementierung zur

    uck. Dieser Vorgang

    wird als \Prototyping cycle" bezeichnet.

    Man kann sich fragen, inwiefern ein solches Vorgehen f

    ur die Entwicklung einer W

    or-

    terbucharchitektur, bzw. von lexikalischen Spezikationen m

    oglich und n

    utzlich ist. Hier

    wird die These vertreten, da es gerade bei der Entwicklung von W

    orterbuchfragmenten

    notwendig ist, Anforderungen der Benutzer und Anforderungen, die sich aus den Daten er-

    geben (z.B. von Texten aus Textcorpora, welche durch ein W

    orterbuch abgedeckt werden

    sollen), bei der Entwicklung zu ber

    ucksichtigen. Je fr

    uher im Laufe der Lexikonentwick-

    lung Beispielfragmente verf

    ugbar sind, desto fr

    uher und ezienter kann die Entwicklung

    beeinut werden. F

    ur den (corpusbasierten) Aufbau von W

    orterbuchfragmenten wird

    dieses Konzept detaillierter in Abschnitt 2.1.1.3 diskutiert.

    Zum Teil richtet sich die Pr

    asentation der Architekturvorschl

    age in diesem Buch eben-

    falls nach den Hauptphasen des Prototyping-Zyklus: aus der Diskussion der lexikographi-

    schen Praxis (in Kapitel 2) wird eine Anforderungsdenition abgleitet. Nach der Darstel-

    lung des TFS-Formalismus, der als Modellierungshilfsmittel dient, wird eine (funktionale)

    Spezikation

    7

    gegeben (Abschnitt 3.2), die daraufhin

    uberpr

    uft wird, welche Aspekte

    der Anforderungsdenition sie erfat. Beispielimplementierungen werden in der Form von

    monolingualen Lexikonfragmenten (in Kapitel 4) dargestellt, und ihre Benutzung in ver-

    schiedenen Anwendungen wird diskutiert, z.B. beim Lexikonexport und bei der lexikonge-

    steuerten Corpusanalyse bzw. der Validierung des Lexikons anhand von Corpusmaterial

    (Kapitel 5).

    Um Redundanz zu vermeiden, sind allerdings nicht alle Phasen des Prototyping hier

    separat dokumentiert worden: die Testphase, das sich hieraus ergebende Feedback und

    die Verbesserungen sind nat

    urlich in die Beschreibung von Spezikation und Realisierung

    eingebunden.

    Ein Groteil der Diskussion in diesem Buch bezieht sich auf einsprachige Beschreibun-

    gen: erst auf der Grundlage wohlstrukturierter monolingualer Beschreibungen lassen sich

    kontrastive Beschreibungen organisieren.

    1.1.4 Struktur dieses Buchs

    Kapitel 2 beschreibt lexikographische und metalexikographische Aspekte der W

    orter-

    buchstrukturierung und f

    uhrt so aus praktischer Sicht auf die Anforderungsanalyse hin

    (Abschnitt 2.1). Kapitel 3 ist dem Repr

    asentationsformalismus TFS, seinen Eigenschaf-

    ten und seiner Benutzung f

    ur lexikalische Modellierung und Abfrage gewidmet

    8

    ; es enth

    alt

    auerdem die funktionale Spezikation der vorgeschlagenen W

    orterbucharchitektur (Ab-

    schnitt 3.2). Dem folgt eine Diskussion monolingualer lexikalischer Spezikationen, wie sie

    f

    ur die Zwecke von DELIS deniert wurden (vgl. Kapitel 4), d.h. eine Beschreibung der

    \Implementierung" anhand von Beispielen. In Kapitel 5 werden Probleme der Abfrage und

    7 Eine formale Denition, z.B. in Backus-Naur-Form, wird nicht gegeben. Sie k

    onnte jedoch auch als

    externe Schema-Denition, wiederum im hier verwendeten Formalismus, angegeben werden. Vgl. da-

    zu die Diskussion in

    [

    Emele/Heid 1993

    ]

    , wo gezeigt wird, wie eine formale Meta-Schema-Denition,

    eine Schema-Denition und die lexikalischen Klassen- und Instanzen-Denitionen f

    ur die W

    orter-

    buchfragmente von DELIS formuliert werden k

    onnen, und wie die verschiedenen Denitionsebenen

    zusammenh

    angen.

    8 Computerlinguisten, die im constraint-basierten Paradigma arbeiten, k

    onnen Abschnitt 3.1 ohne In-

    formationsverlust

    uberschlagen.

  • der Anwendung constraint-basierter Lexika besprochen. Dabei werden bewut zum Teil

    auch Beispiele diskutiert, die

    uber die in Kapitel 4 vorgestellten Ph

    anomene hinausgehen.

    In Kapitel 6 werden M

    oglichkeiten der Strukturierung von kontrastiven Beschreibungen

    diskutiert. Zun

    achst werden empirisch Klassikationen von kontrastiven lexikalischen Pro-

    blemen vorgestellt, dann wird gezeigt, wie sich diese in der maschinellen

    Ubersetzung und

    in der Lexikographie benutzen lassen.

    Man kann auch Teile dieses Buchs selektiv lesen und nur bestimmte Themen verfolgen.

    Die Diskussion allgemeiner Aspekte der W

    orterbucharchitektur verteilt sich in folgender

    Weise: in Abschnitt 2.1 werden Probleme der Wiederverwendung lexikalischer Information

    und damit eine der zentralen Anforderungen an die zu erstellenden W

    orterbuchkonzepte

    untersucht. Zusammen mit den Resultaten einer Diskussion der Besonderheiten, welche

    bei zweisprachigen W

    orterb

    uchern hinzutreten, ieen die in Abschnitt 2.1 zusammenge-

    stellten Aspekte in die Anforderungsdenition in Abschnitt 2.3 ein. Die funktionale Spe-

    zikation der allgemeinen Architekturprinzipien erfolgt in Abschnitt 3.2. Aus der Sicht

    der Anwendung werden M

    oglichkeiten der Abfrage der so repr

    asentierten lexikalischen

    Information in Kapitel 5 diskutiert.

    Die kontrastiven Aspekte h

    angen, wie oben angedeutet, mit den allgemeinen Fragen

    der Lexikonarchitektur und mit den monolingualen W

    orterbuchfragmenten eng zusam-

    men. Ein

    Uberblick

    uber die lexikographische Praxis wird in Abschnitt 2.2 gegeben. Die

    Resultate einer vergleichenden Bewertung der lexikographischen Ans

    atze ieen in die

    Anforderungsdenition in Abschnitt 2.3 ein. In Abschnitt 6.1 werden bestehende Vor-

    schl

    age zur Klassizierung lexikalischer

    Ubersetzungsprobleme diskutiert, die eine weitere

    Grundlage f

    ur die Organisation zweisprachiger W

    orterb

    ucher darstellen. Beispiele f

    ur Im-

    plementierungen, die aufgrund dieser Klassikation entwickelt werden k

    onnen, sind in den

    Abschnitten 6.4 und 6.5 angegeben.

    Die Frage der Wiederverwendbarkeit der lexikalischen Beschreibungen zieht sich eben-

    falls als \Leitmotiv" durch dieses Buch. Abschnitt 2.1 ist dieser Problematik gewidmet.

    Arbeiten aus der praktischen Lexikographie, die zu \wiederverwendbaren" zweisprachigen

    W

    orterb

    uchern f

    uhren, werden in Abschnitt 2.2 vorgestellt. Praktische Vorschl

    age f

    ur den

    \W

    orterbuchexport" und f

    ur vergleichbare Anwendungen werden in Abschnitt 5 disku-

    tiert. F

    ur zweisprachige W

    orterb

    ucher wird in Abschnitt 6.4 auf M

    oglichkeiten hingewei-

    sen, wie eine allgemeine Ph

    anomenklassikation sowohl als Grundlage f

    ur transfer-basierte

    Systeme, als auch f

    ur den Interlingua-Ansatz dienen kann.

    1.2 Einige Grundbegrie

    1.2.1 Elektronische W

    orterb

    ucher

    Bevor Vorschl

    age f

    ur die Strukturierung von elektronischen W

    orterb

    uchern diskutiert wer-

    den k

    onnen, mu hier zun

    achst der Begri \elektronisches W

    orterbuch" selbst etwas n

    aher

    betrachtet werden. Der Begri des \elektronischen W

    orterbuchs" ist in den letzten Jahren

    als Oberbegri f

    ur ganz verschiedene Produkte und Resultate von Forschungs- und Ent-

    wicklungsarbeit benutzt worden, und die W

    orterb

    ucher eines groen maschinellen

    Uber-

    setzungssystems, werden zum Teil ebenso als \elektronische W

    orterb

    ucher" bezeichnet,

    wie die von verschiedenen Unternehmen angebotenen Produkte im Taschenrechnerformat,

    die den Wortschatz eines Reisew

    orterbuchs in einem Display anzeigen k

    onnen.

    Auch in der Diskussion in der Computerlinguistik bzw. Computational Lexicography

  • wird der Terminus mitunter unscharf verwendet. Dort wird neben dem \electronic dic-

    tionary" auch von \lexical databases", \machine readable dictionaries" und \articial

    intelligence lexicons" gesprochen, z.B. bei

    [

    Zampolli 1994

    ]

    und

    [

    Atkins/Levin/Zampolli

    1994

    ]

    .

    Die Termini heben technische Kriterien (databases) hervor, oder den Zusammenhang

    mit Ressourcen in einem anderen Format (\machine readable dictionary": meint die in

    irgendeiner Form als Textdateien zur Verf

    ugung gestellte Version eines gedruckten W

    orter-

    buchs, in der Regel aus dem Satzband hergeleitet). Solche eher intuitiven Klassizierungen

    geben eigentlich keinen Aufschlu

    uber relevante Eigenschaften der jeweiligen Ressourcen,

    und eine etwas pr

    azisere Beschreibung ist notwendig.

    Im Bereich der elektronischen W

    orterb

    ucher gibt es bislang noch keine eindeutig de-

    nierte Terminologie. Aus diesem Grund ist es sinnvoll, einige Charakteristika von elektro-

    nischen W

    orterb

    uchern im folgenden kurz zu diskutieren. Hieraus ergibt sich eine Reihe

    von Parametern, nach denen elektronische W

    orterb

    ucher beschrieben werden k

    onnen.

    1.2.1.1 Parameter der Beschreibung elektronischer W

    orterb

    ucher {

    Uberblick

    Den ersten Versuch einer Klassikation elektronischer W

    orterb

    ucher, die

    uber die oben ge-

    nannten \Etiketten" hinausgeht, haben

    [

    Martin/Woltering 1989

    ]

    unternommen. Das Ziel

    ihrer Typologie elektronischer W

    orterb

    ucher ist eine \globale" Beschreibung des Stands

    von Wissenschaft und Technik in diesem Bereich; Martin/Woltering verwenden eine Reihe

    von Parametern, entlang derer sie die in ihrem Forschungs

    uberblick zusammengestellten

    elektronischen W

    orterb

    ucher beschreiben und klassizieren. Martin/Woltering streben

    keine vollst

    andige und strikte Klassikation an:

    Physikalische Form der Ressource;

    Grad der Formalisierung von Bedeutungsbeschreibungen;

    Zusammenhang mit anderen Ressourcen oder mit Computerwerkzeugen;

    Anwendungsorientierung der semantischen Beschreibung;

    Anwesenheit bzw. Abwesenheit von extralinguistischen Beschreibungen, wie bei-

    spielsweise dom

    anenspezischer Information.

    Die prominentesten Klassen von elektronischen W

    orterb

    uchern, die anhand dieser Be-

    schreibungsparameter von

    [

    Martin/Woltering 1989

    ]

    identiziert werden, sind folgende

    9

    :

    Papierw

    orterb

    ucher;

    \computer based dictionaries";

    \machine readable dictionaries";

    Lexikalische Datenbanken und Termbanken;

    \machine dictionaries";

    9 Einige werden bewut im englischen Original-Wortlaut zitiert, weil eine

    Ubersetzung u.U. interpre-

    tierenden Charakter h

    atte.

  • \lexical databases";

    \Articial Intelligence lexicons".

    Die von Martin/Woltering identizierten prominenten Beispielf

    alle f

    ur W

    orterb

    ucher und

    die Kriterien zeigen, da die in

    [

    Martin/Woltering 1989

    ]

    beschriebene Klassikation spe-

    ziell im Hinblick auf die Untersuchung der semantischen Beschreibungen in elektronischen

    W

    orterb

    uchern unternommen worden ist. Sie ist f

    ur unsere Zwecke nicht allgemein genug.

    Obwohl nat

    urlich jede Klassikation f

    ur einen speziellen Zweck durchgef

    uhrt wird, und

    obwohl insofern jede Typologie die Aspekte wiederspiegelt, die f

    ur die jeweilige Zielsetzung

    als besonders relevant erachtet werden, kann man doch versuchen, elektronische lingui-

    stische Ressourcen etwas genereller zu beschreiben. Der Zweck unseres Klassikationsver-

    suchs ist es, die wichtigsten Aspekte der Form der W

    orterb

    ucher (Repr

    asentationsforma-

    lismus, Strukturierung, Organisation usw.), ihres Inhalts (Mikro- und Makrostruktur),

    sowie des Zusammenhangs zwischen beiden deutlich zu machen.

    Dazu werden die folgenden Beschreibungskriterien (wiederum, wie bei

    [

    Martin/Wol-

    tering 1989

    ]

    , als nicht-ausschlieliche Parameter) benutzt:

    Die Anwendungsorientierung der Ressource: Antwort auf die Frage, ob die Ressource

    f

    ur eine bestimmte Art von Anwendung (interaktiv oder automatisch) konzipiert ist,

    oder ob sie in dem Sinne \multifunktional" ist, da sie verschiedene lexikographische

    und/oder verschiedene NLP-Anwendungen versorgt oder versorgen soll.

    Eine inhaltliche Beschreibung der Ressource: hinsichtlich Makrostruktur, Mikro-

    struktur, Umfang der Ressource und theoretischer Fundierung der Beschreibungen.

    Die formale Organisation der Ressource: Zusammenh

    ange zwischen deskriptiver Sei-

    te und Repr

    asentationsseite; Dokumentation.

    Technische Eigenschaften der Ressource: hinsichtlich Repr

    asentationsformat oder

    -formalismus, Speichermedium, zugrundeliegender Software usw.).

    Zusammenhang der zu beschreibenden Ressource mit anderen, gedruckten oder elek-

    tronisch repr

    asentierten Ressourcen.

    Diese sehr allgemeinen Beschreibungskriterien sind in

    ahnlicher Weise f

    ur die Zwecke

    der Eurotra-7-Studie (vgl.

    [

    Heid/McNaught 1991

    ]

    ) und, darauf aufbauend, f

    ur die

    Relator-Studie zu linguistischen Ressourcen

    10

    (

    [

    Hinkelman (Ed.) 1995

    ]

    ) benutzt worden

    11

    .

    Im Falle der beiden genannten Studien kommen zus

    atzliche, nicht-linguistische Angaben

    10 Relator ist eine von der Europ

    aischen Kommission, Luxenburg, DG XIII E4, im Rahmen des

    LRE-2-Programms in Auftrag gegebene Studie

    uber die M

    oglichkeit der Realisierung einer zentralen

    europ

    aischen Institution f

    ur die Katalogisierung und den Vertrieb linguistischer Ressourcen (LRE-

    62.056). Das Projekt (12-1993 bis 08-1995) hat zur Errichtung der European Linguistic Resources

    Association, ELRA, gef

    uhrt, die, 1995 gegr

    undet, von 1996 an eine dem Linguistic Data Consorti-

    um, LDC, in den USA vergleichbare Rolle

    ubernehmen soll. Relator hat einen ersten Katalog von

    linguistischen Ressourcen produziert; ELRA soll diese Arbeit weiterf

    uhren.

    11 Die allgemeinen Beschreibungsparameter wurden f

    ur die Zwecke von Relator so weitgehend genera-

    lisiert, da sie auf alle Arten von Ressourcen (Textcorpora, W

    orterb

    ucher, Speech-Samples, Gramma-

    tiken, Werkzeuge) angewendet werden konnten. Die speziellere Typologie der elektronischen W

    or-

    terb

    ucher wurde vom Autor f

    ur die Zwecke von Eurotra-7 entwickelt und dann f

    ur Relator

    weitergef

    uhrt. Sie wurde auch im Projekt Multilex nahezu unver

    andert

    ubernommen. Die N

    ahe

  • hinzu, wie beispielsweise Information

    uber Eigentumsrechte, Verf

    ugbarkeit, und

    uber die

    Autoren der betreenden Ressourcen.

    In Abbildung 1.1 sind die wichtigsten Kriterien zusammengestellt, nach denen im

    Rahmen von Relator elektronische W

    orterb

    ucher beschrieben wurden.

    1.2.1.2 Typen elektronischer W

    orterb

    ucher { gemeinsame Eigenschaften

    F

    ur jeden der oben angegebenen Beschreibungsparameter werden im Folgenden jeweils

    einige relevante Merkmale angegeben.

    Anwendungsorientierung: die Anwendungsorientierung eines W

    orterbuchs bezeichnet

    die angestrebte haupts

    achliche Benutzung, die der W

    orterbuchentwickler f

    ur das W

    orter-

    buch vorsieht. Auf einer obersten Ebene sollte zwischen \multifunktional" konzipierten

    Ressourcen und anwendungsspezischen Ressourcen unterschieden werden

    12

    .

    Gleichzeitig sollte mindestens zwischen dreierlei m

    oglichen Anwendungssituationen un-

    terschieden werden:

    Benutzung der lexikalischen Ressource als gedrucktes W

    orterbuch; das W

    orterbuch

    liegt daneben \maschinenlesbar" vor;

    Benutzung der Ressource als interaktiv benutztes elektronisch repr

    asentiertes W

    or-

    terbuch (\Lookup-W

    orterb

    ucher");

    Benutzung der Ressource in einem sprachverarbeitenden System, normalerweise

    vollautomatisch und ohne interaktiven Zugri.

    Inhaltliche Beschreibung: wie bei gedruckten W

    orterb

    uchern sind makrostrukturelle und

    mikrostrukturelle Aspekte zu unterscheiden.

    Makrostrukturelle Kriterien:

    { behandelte Sprache bzw. Sprachen; Sprachrichtung im Falle von

    Ubersetzungs-

    w

    orterb

    uchern; behandeltes (Fachsprachen-)Fragment;

    { Lemmabestand: Umfang der Makrostruktur;

    { Lemmaselektion und Kriterien f

    ur Lemmastatus linguistischer Objekte (welche

    linguistischen Objekte haben Lemmastatus, welche k

    onnen einzeln abgefragt

    werden: z.B., neben den

    ublichen Lemmata, auch ektierte Formen, Mehrwort-

    Einheiten, Morpheme, Abk

    urzungen etc.);

    { Organisation und Gruppierung der Artikel: z.B. semasiologische vs. onomasio-

    logische W

    orterbuchorganisation.

    zu metalexikographischen Ans

    atzen zur Beschreibung von W

    orterb

    uchern ist deutlich. Die hier be-

    schriebene Kriterienliste wurde im Zusammenhang der Eurotra-7-Studie auf rund 30 elektronische

    lexikalische Ressourcen des Deutschen und ungef

    ahr 100 weitere elektronische W

    orterb

    ucher verschie-

    dener anderer europ

    aischer Sprachen angewendet und hat sich als ausreichend hierf

    ur erwiesen.

    Im Fall der Eurotra-7-Studie wurden sehr detaillierte Beschreibungen von einzelnen prominenten

    Ressourcen f

    ur sechs europ

    aische Sprachen angefertigt (pro Ressource ca. 3-4 Seiten Text mit zusam-

    menfassender Tabelle und einzelnen Beispielen aus der Benutzung der jeweiligen W

    orterb

    ucher); im

    Rahmen von Relator wurde lediglich ein allgemeiner

    Uberblick

    uber die Situation f

    ur die wichtigsten

    europ

    aischen Sprachen angefertigt.

    12 Vgl. die detaillierte Diskussion

    uber wiederverwendbare lexikalische Beschreibungen und multifunk-

    tionale W

    orterb

    ucher in Abschnitt 2.1.1.

  • Application

    MRD version of human use dict.

    other

    NLP system dict.

    Look-up dict. for human use

    Content

    Macrostructure

    Microstructure

    Items with lemma status

    Grouping of lemmas

    Fragment covered

    Elementary units per level

    underlying approach

    Consistency of markup

    markup, repres. language

    assessment of transformability

    (checking possibilities)

    internal structure of entires

    lexicographic conventions

    Representation

    Explicit

    Implicit

    Relationships

    Availability

    cost of use/adaptation

    cost of resource

    not derived

    derived from other source(s)

    Technical

    (cf. usage context)Interfaces and integratability

    (formal aspects)Representation language

    Storage

    legal aspects

    (cf. Microstr./Macrostr.)

    Levels described

    Abbildung 1.1: Schema der Parameter zur Beschreibung elektronischer W

    orterb

    ucher

    (nach Eurotra-7 und Relator)

  • Mikrostrukturelle Kriterien: zu den mikrostrukturellen Kriterien geh

    ort das Inven-

    tar der linguistischen Beschreibungsebenen, zu denen das W

    orterbuch Informatio-

    nen enth

    alt, eine Beschreibung der zugrundeliegenden linguistischen Theorie bzw.

    des Beschreibungsansatzes (z.B. bei Instruktionsb

    uchern von gedruckten W

    orter-

    b

    uchern), sowie eine Beschreibung der benutzten linguistisch-lexikographischen Be-

    schreibungsmittel und ihrer Dokumentation

    13

    .

    Wie in der traditionellen (meta)lexikographischen Beschreibung, werden folgende

    linguistische Beschreibungsebenen unterschieden, f

    ur die in einem elektronischen

    W

    orterbuch Angaben vorhanden sein k

    onnen:

    { Orthographische Beschreibung (mit Beschreibung von orthographischen Vari-

    anten, Trennm

    oglichkeiten usw.);

    { Phonetisch-phonologische Beschreibung (Angabe der Lautgestalt);

    { Morphologische und morphosyntaktische Beschreibung (morphosyntaktische

    Eigenschaften von Wortformen, eventuell Zusammenh

    ange mit (m

    oglicherweise

    W

    orterbuch-externen) Morphologie-Systemen bzw. Klassizierungen des Fle-

    xionsverhaltens);

    { Syntaktische Beschreibung auf der kategorialen bzw. phrasenstrukturellen Ebe-

    ne (Klassikation des zu beschreibenden linguistischen Objekts hinsichtlich sei-

    ner Wortart, sowie der ggf. von ihm subkategorisierten Erg

    anzungen);

    { Relationale bzw. funktional-syntaktische Beschreibung (bei linguistischen Ob-

    jekten, die als Pr

    adikate aufgefat werden k

    onnen und Erg

    anzungen subkate-

    gorisieren: Angabe der syntaktischen Funktion dieser Erg

    anzungen);

    { (lexikalisch) semantische Beschreibung (Denitionen, Sortenangaben, semanti-

    sche Merkmale, Bedeutungspostulate usw.; Bedeutungserl

    auterung);

    { Relational-semantische Beschreibung (lexikalisch-semantische Relationen mit

    anderen linguistischen Objekten; (Quasi-)Synonymie, Hyp(er)onymie usw.);

    { Text-semantische Beschreibung (z.B. Vor- und Nach-Bedingungen, m

    ogliche

    Inferenzen, andere f

    ur die Diskurs-Interpretation relevante Informationen);

    { \Lexikalisch-pragmatische Beschreibung" (diasystematische Markierung, Klas-

    sikation nach Stil-, Fachsprachen-, Textsortenkriterien usw.).

    Die Beschreibung der formalen Grundlagen bzw. der linguistischen Beschreibungs-

    theorie kann durch einfachen Verweis auf diese Theorie erfolgen. In der Regel ist f

    ur

    jede linguistische Theorie bekannt, bzw. nachvollziehbar, welche Beschreibungsmit-

    tel sie verwendet. Allenfalls mu separat beschrieben werden, welche Beschreibungs-

    mittel zum Einsatz kommen. Ebenso mu ggf. deutlich gemacht werden, welche Art

    extralinguistischer Information vorhanden ist (z.B. Verweise auf Bilder, Ger

    ausche;

    Verweise auf Elemente eines Dom

    anenmodells, usw.).

    Formale Organisation des W

    orterbuchs: Die Organisation kann explizit oder implizit er-

    folgen. Explizit organisierte W

    orterb

    ucher sind solche, bei denen jeder Angabetyp separat

    identizierbar ist und Anfang und Ende jeder einzelnen Angabe (Terminus im Sinne von

    13 Auerdem kann an dieser Stelle das Vorhandensein extralinguistischer Information ber

    ucksichtigt

    werden; vgl.

    [

    Martin/Woltering 1989

    ]

    .

  • Wiegands metalexikographischer Theorie) anhand der Markierungen feststellbar sind. Da-

    gegen sind implizit organisierte Ressourcen solche, bei denen der Angabetyp und Anfang

    und Ende einer bestimmten Angabe aus dem W

    orterbuchtext mit den Mitteln der meta-

    lexikographischen W

    orterbuchanalyse erschlossen werden mu.

    Kennzeichen explizit organisierter W

    orterb

    ucher ist das Vorhandensein eines irgend-

    wie gearteten Markup

    14

    oder bestimmter, voneinander unterscheidbarer Datentypen zur

    Repr

    asentation von Angaben unterschiedlichen Typs

    15

    .

    Technische Eigenschaften: die technischen Eigenschaften einer lexikalischen Ressource

    betreen das Speichermedium und die Repr

    asentation des W

    orterbuchs (als Datenbank,

    Textdatei, Datentypen einer Programmiersprache, komprimiert/unkomprimiert, Anzahl

    und Formate von Dateien usw.).

    Zusammenhang mit anderen Ressourcen: \machine readable dictionaries" stehen oft

    in eingem Zusammenhang mit einem gedruckten W

    orterbuch. In solchen F

    allen hat das

    elektronische W

    orterbuch zwar andere technische Eigenschaften als das gedruckte, jedoch

    bleiben die inhaltlichen und die W

    orterbuchorganisatorischen Parameter gleich wie beim

    gedruckten W

    orterbuch, oder sie lassen sich bei Kenntnis des \zugrundeliegenden W

    or-

    terbuchs" leichter erschlieen.

    1.2.1.3 Relevanz der Beschreibungsparameter f

    ur das Design von

    elektronischen W

    orterb

    uchern

    Die oben genannten Parameter zur Beschreibung elektronischer W

    orterb

    ucher k

    onnen ei-

    nerseits f

    ur die Beschreibung bestehender lexikalischer Ressourcen benutzt werden, ande-

    rerseits sollten sie in die Anforderungsdenition f

    ur die Entwicklung neuer elektronischer

    W

    orterb

    ucher hinein: der Entwickler mu sicherstellen, da f

    ur die zu entwickelnde Res-

    source hinsichtlich der hier beschriebenen Parameter geeignete Entscheidungen getroen

    werden.

    Hierbei spielen insbesondere die makro- und mikrostrukturellen Kriterien, sowie Fragen

    des Zusammenhangs zwischen den angestrebten Organisationsprinzipien und den techni-

    schen Eigenschaften der Ressource f

    ur die Denition einer geeigneten W

    orterbucharchi-

    tektur eine Rolle.

    In Kapitel 3.2 wird ein Vorschlag f

    ur Architekturprinzipien f

    ur elektronische W

    or-

    terbucher gemacht; in Kapitel 4 werden Beispielfragmente diskutiert, die nach diesen

    14 Beispielsweise die Annotation von Textdateien mit SGML (Standard Generalized Markup Language).

    15 In W

    orterb

    uchern von NLP-Systemen k

    onnen das z.B. Attribut-Wert-Strukturen sein, bei denen die

    einzelnen Attribute durch unterschiedliche Attributnamen voneinander unterschieden werden. Nicht

    s

    amtliche elektronischen W

    orterb

    ucher sind explizit organisiert. Vielmehr wird gerade in \Lookup"-

    Versionen gedruckter W

    orterb

    ucher, die als Textdateien vorliegen, oft auf eine eindeutige Unterschei-

    dung zwischen Angabetypen verzichtet, selbst wenn eine eindeutige Unterscheidung von Textsegmen-

    ten durch unterschiedliche typographische Auszeichnungskonventionen m

    oglich ist. Da in der Regel

    die Typographie in W

    orterbuchtexten mehrdeutig ist (z.B. k

    onnen kursiv gedruckte Teile in ein und

    demselben Eintrag durchaus Denitionen oder Beispiele sein), ist es nicht trivial, aufgrund der Ty-

    pen von unterschiedlich ausgezeichneten Textst

    ucken eindeutig zu rekonstruieren und automatisch zu

    inferieren, welche Angabetypen vorliegen. Vgl. hierzu auch die Probleme der Reinterpretation von

    gedruckten W

    orterb

    uchern, die in Abschnitt 2.1.2.5 diskutiert werden.

    Auerdem k

    onnen z.B. Hierarchien von Eintr

    agen, bei denen Information durch Vererbung bereit-

    gestellt wird, implizit organisiert sein: es kann daher n

    otig sein, in einem Lexikon-Formalismus die

    Unterscheidung zwischen \er-erbter" und \lokal denierter" Information deutlich zu machen (insbe-

    sondere f

    ur die Zwecke der interaktiven Erweiterung der W

    orterb

    ucher).

  • Prinzipien erstellt worden sind. Ohne vorgreifen zu wollen, k

    onnen wir hier bereits ei-

    nige Charakteristika der unten im Detail beschriebenen W

    orterb

    ucher anhand der oben

    diskutierten Parameter zusammenstellen.

    Anwendungsorientierung: die Ressource soll multifunktional sein, insofern sie ver-

    schiedene sprachverarbeitende Anwendungen bedienen soll. Auerdem soll es m

    oglich

    sein, aus der zu entwickelnden Ressource Material f

    ur ein interaktiv abzufragendes

    elektronisch repr

    asentiertes W

    orterbuch abzuleiten. Anwendungsspezische Pr

    asen-

    tationformen sollen

    uber eine spezielle Export-Komponente aus der formal repr

    asen-

    tierten Beschreibung abgeleitet werden; vgl. Abschnitt 5.2).

    Inhaltliche Beschreibung:

    { Makrostruktur: die Beispielfragmente stammen aus Franz

    osisch und Deutsch,

    Englisch und Niederl

    andisch, sowie Italienisch; die Fragmente beinhalten nur

    Verben aus dem lexikalisch-semantischen Feld der Wahrnehmung, jedoch sind

    die Architekturvorschl

    age auch

    uber diesen Bereich hinaus generalisierbar.

    { Mikrostruktur: die hier vorgestellten Modellierungen konzentrieren sich auf

    die orthographische, kategorial- und funktional-syntaktische und lexikalisch-

    semantische Beschreibung. Zum Teil werden \lexikalisch-pragmatische" Aspek-

    te mitber

    ucksichtigt. Der zugrundeliegende Beschreibungsansatz ist von HPSG

    (Head-Driven Phrase Structure Grammar, vgl.

    [

    Pollard/Sag 1994

    ]

    ) inspiriert,

    der Theorie aber nicht so weitgehend verpichtet, da angestrebt w

    urde neue

    Vorschl

    age zur lexikalischen oder linguistischen Beschreibung mit HPSG zu

    machen. Dies erkl

    art sich schon aus der Zielsetzung der \Multifunktionalit

    at".

    F

    ur die lexikalisch-semantische Beschreibung wird Fillmores Frame Semantics

    benutzt; auch hier gilt dasselbe: die Theorie dient als Beispielfall f

    ur die An-

    wendung der Lexikonarchitektur.

    Organisation der Ressource: das W

    orterbuch soll durchg

    angig explizit organisiert

    sein. Der Repr

    asentationsformalismus TFS (Typed Feature Structures) wird ver-

    wendet. Er wird in Abschnitt 3.1 detailliert beschrieben.

    Technische Eigenschaften: die Benutzung von TFS als Repr

    asentationsformalismus

    f

    uhrt dazu, da TFS-Denitionen als Textdateien (ASCII les) repr

    asentiert werden.

    Zusammenhang mit anderen Ressourcen: die Beispielfragmente wurden neu konzi-

    piert

    16

    . Die einzelsprachlichen Teilfragmente sind parallel (gleiche Beschreibungs-

    mittel; die Fragmente sind eineinander

    ubersetzbar).

    1.2.2 Probleme der kontrastiven lexikalischen Beschreibung

    Die Vorschl

    age zur W

    orterbuchstrukturierung, die hier entwickelt werden, sind vor dem

    Hintergrund von maschinellen

    Ubersetzungssystemen (M

    U-Systemen) zu sehen. Die wich-

    tigsten Aspekte von maschinellen

    Ubersetzungssystemen werden in diesem Zusammen-

    hang als bekannt vorausgesetzt. In einschl

    agigen

    Uberblicksdarstellungen werden die Grund-

    16 Die TFS-Modellierung beruht auf informeller lexikographischer Beschreibungsarbeit, die von den

    Mitgliedern des DELIS-Projekts geleistet wurde; die DELIS-Partner haben aber nicht selbst TFS-

    Modellierungen produziert.

  • prinzipien der bestehenden M

    U-Systeme detailliert beschrieben

    17

    . Die meisten regelbasier-

    ten maschinellen

    Ubersetzungssysteme (also nicht solche, die statistische Verfahren zur

    Berechnung der wahrscheinlichsten

    Ubersetzungs

    aquivalente verwenden) folgen entweder

    dem Transfer-Ansatz oder dem Interlingua-Ansatz. Beide Verfahren gehen auf stratika-

    tionelle Beschreibungsans

    atze zur

    uck.

    Im Falle des Transfer-Ansatzes wird davon ausgegangen, da das

    Ubersetzungssystem

    zun

    achst quellsprachliche S

    atze analysiert und die aus den Quellsprachs

    atzen abgeleiteten

    abstrakten Repr

    asentationen auf andere abstrakte Repr

    asentationen abbildet, aus welchen

    zielsprachliche S

    atze generiert werden k

    onnen.

    Demgegen

    uber wird im Rahmen des Interlingua-Ansatzes versucht, abstrakte Re-

    pr

    asentationen so zu formulieren, da sie gleichermaen geeignet sind, quellsprachliche

    und zielsprachliche

    Auerungen oder Teile davon ad

    aquat zu beschreiben. Wo dies m

    oglich

    ist, entf

    allt die Notwendigkeit einer eigenen Abbildung zwischen den einzelsprachspezi-

    schen abstrakten Repr

    asentationen.

    ...

    ...

    SYN: f-str.

    MO/SY: c-str.

    SYN: f-str.

    MO/SY: c-str.

    ...

    SEM: lex. sem. SEM: lex. sem.

    ...

    ...

    ...

    Abbildung 1.2: Vereinfachtes Schema des Transfer-Ansatzes

    In den Abbildungen 1.2 und 1.3 sind die beiden Ans

    atze schematisch und anhand ei-

    ner sehr vereinfachten linguistischen Beschreibung (nur morphosyntaktische, syntaktische

    und semantische Beschreibungen) dargestellt. Beim Transferansatz (Abbildung 1.2 wer-

    den die funktional-syntaktischen Strukturen und/oder die Pr

    adikat-Argument-Strukturen

    von Quell- und Zielsprache durch gerichtete Abbildungen verbunden.

    In einem interlingua-basierten Modell wird dagegen angenommen, da es eine Re-

    pr

    asentation gibt, die die Bedeutung sowohl der quell- als auch der zielsprachlichen

    Aue-

    rungen auszudr

    ucken vermag. Das Schema in Abbildung 1.3 ist bewut analog zu Ab-

    bildung 1.2 gehalten; dort ist die semantische Teilbeschreibung hinterlegt: sie dient als

    gemeinsame Repr

    asentation f

    ur Quell- und Zielsprache

    18

    .

    Man hat, beispielsweise in Vorbereitungsdiskussionen f

    ur das Verbmobil-Projekt

    19

    ,

    ausf

    uhrlich

    uber die Zusammenh

    ange zwischen Transfer- und Interlingua-Ansatz disku-

    17 Vgl. beispielsweise

    [

    Nirenburg (Ed.) 1987

    ]

    , dort insbesondere die Einf

    uhrung von

    [

    Tucker 1987

    ]

    ; vgl.

    auch

    [

    Arnold et al. 1994

    ]

    . Einen

    Uberblick

    uber maschinelle

    Ubersetzungssysteme, die in der Praxis

    angewendet werden, geben

    [

    Slocum 1988

    ]

    , sowie, f

    ur ein deutsches Publikum

    [

    Schwanke 1991

    ]

    .

    18 In beiden Ans

    atzen wird Interaktion zwischen den einzelnen ebenenspezischen Teilbeschreibungen,

    beispielsweise durch relationale Abbildungen, vorausgesetzt

    19 Verbmobil ist ein Verbundprojekt des Bundesministeriums f

    ur Bildung, Wissenschaft, Forschung

    und Technologie zur maschinellen

    Ubersetzung gesprochener Sprachen.

  • ...

    ...

    SYN: f-str.

    MO/SY: c-str.

    ...

    ...

    SYN: f-str.

    MO/SY: c-str.

    SEM: lex. sem.

    ...

    SEM: lex. sem.

    ...

    Abbildung 1.3: Vereinfachtes Schema des Interlingua-Ansatzes

    tiert. In Verbmobil

    20

    wird ein Transfer-Ansatz verfolgt, bei dem Information mitbenutzt

    werden kann, die

    uber die quell- und zielsprachlichen Beschreibungen generalisiert werden

    kann, z.B. zur Repr

    asentation von lokalen oder temporalen Relationen (in Verbmobil

    wurde vorgeschlagen, die \Analysetiefe" variabel zu halten, d.h. je nach dem Bedarf der

    Ubersetzung mehr oder weniger abstrakte (semantische und ggf. dom

    anenspezische) In-

    formation in die Repr

    asentationen einzubinden).

    " !

    6

    ?

    phon hI miss my dictionaryi

    +

    English HPSG

    +

    2

    6

    6

    6

    6

    6

    6

    6

    6

    6

    6

    6

    6

    6

    6

    6

    6

    4

    phon hI miss my dictionaryi

    : : : jloc

    2

    6

    6

    6

    6

    6

    6

    6

    6

    6

    6

    4

    cat

    2

    4

    head verb

    subcath i

    3

    5

    cont

    2

    6

    6

    4

    reln miss

    exper

    1

    jfspeaker(

    1

    )g

    theme

    2

    jf

    1

    's dict.(

    2

    )g

    3

    7

    7

    5

    | {z }

    3

    7

    7

    7

    7

    7

    7

    7

    7

    7

    7

    5

    dtrs : : :

    3

    7

    7

    7

    7

    7

    7

    7

    7

    7

    7

    7

    7

    7

    7

    7

    7

    5

    2

    6

    6

    6

    6

    6

    6

    6

    6

    6

    6

    6

    6

    6

    6

    6

    4

    phon hMon dictionnaire me manquei

    : : : jloc

    2

    6

    6

    6

    6

    6

    6

    6

    6

    6

    4

    cat

    2

    4

    head verb

    subcath i

    3

    5

    cont

    2

    6

    6

    4

    reln miss

    exper

    1

    jfspeaker(

    1

    )g

    theme

    2

    jf

    1

    's dict.(

    2

    )g

    3

    7

    7

    5

    3

    7

    7

    7

    7

    7

    7

    7

    7

    7

    5

    dtrs : : :

    3

    7

    7

    7

    7

    7

    7

    7

    7

    7

    7

    7

    7

    7

    7

    7

    5

    *

    French HPSG

    *

    ?

    2

    6

    6

    6

    6

    4

    : : : jlocjcont

    2

    6

    6

    4

    reln miss

    exper

    1

    jfspeaker(

    1

    )g

    theme

    2

    jf

    1

    's dict.(

    2

    )g

    3

    7

    7

    5

    | {z }

    3

    7

    7

    7

    7

    5

    Abbildung 1.4: Schema der interlingua-basierten

    Ubersetzung mit HPSG (aus

    [

    Heid/Kuhn

    1994

    ]

    )

    In Kapitel 4 werden Beispiele f

    ur monolinguale lexikalische Beschreibungen gegeben. Diese

    20 Im Rahmen der vorliegenden Arbeit konnten aus Gr

    unden der

    Uberlagerung der Erscheinungstermine

    die neuesten Arbeiten des Verbmobil-Projekts nicht oder nur zu einem geringen Teil ber

    ucksichtigt

    werden. Die Vorbereitungsdiskussion ist z.B. in

    [

    Kay/Gawron/Norvig 1994

    ]

    dargestellt.

  • k

    onnten mit geringem Aufwand in ein auf HPSG-Grammatiken aufbauendes interlingua-

    basiertes experimentelles M

    U-System eingebracht werden, dessen Grundlagen und Funk-

    tionsweise zuerst in

    [

    Heid/Kuhn 1994

    ]

    beschrieben worden sind. F

    ur die Quellsprache und

    die Zielsprache werden jeweils HPSG-(artige) Beschreibungen aufgebaut, und die ange-

    reicherten Pr

    adikat-Argument-Strukturen (Werte des \CONT(ent)"-Attributs) werden als

    gemeinsame abstrakte Repr

    asentation von Quell- und Zielsprache benutzt.

    In diesem System enthalten die Lexikoneintr

    age gleichberechtigte Teilbeschreibungen

    der Wortformen (Lautgestalt, bzw. Orthographie unter dem \PHON(ology)"-Attribut), der

    syntaktischen Struktur (unter dem Attribut \CAT(egory)") und der semantischen Struk-

    tur (Pr

    adikat-Argument-Strukturen, unter dem Attribut \CONT(ent))". Liegen im oben

    diskutierten Sinne parallele Grammatiken vor, so k

    onnen quell- und zielsprachliche Gram-

    matiken und Lexika miteinander kombiniert werden.

    Die Analyse der Quellsprache besteht darin, da ein Satz, von dem zun

    achst nur die

    Zeichenkette bekannt ist, mit den Denitionen von Grammatik und Lexikon verglichen

    wird. Das Ergebnis ist eine vollst

    andig spezizierte Struktur, in der zus

    atzlich zur Zeichen-

    kette eine von der Grammatik abgeleitete syntaktische und semantische Beschreibung aus-

    gegeben wird. Analog hierzu kann man die zielsprachliche Grammatik und ihr Lexikon mit

    dem Wert des CONT(ent)-Attributs abfragen. Wiederum wird die gesamte, vollst

    andig spe-

    zizierte Satzbeschreibung erzeugt, wobei in diesem Fall Syntax und Zeichenkette erg

    anzt

    werden, jetzt anhand der zielsprachlichen Spezikation. Man kann den ersten Vorgang

    (von der Textform zur vollst

    andigen Beschreibung) als \Analyse", den zweiten Vorgang

    (von der Bedeutungsbeschreibung zur vollst

    andigen Beschreibung, inklusive Textform)

    als \Generierung" bezeichnen. F

    ur die Zwecke der

    Ubersetzung wird die Analyse mit der

    Quellsprach-Grammatik durchgef

    uhrt, die Generierung mit der Zielsprach-Grammatik.

    In Abbildung 1.4 ist dieser

    Ubersetzungsansatz anhand von HPSG f

    ur Englisch und

    Franz

    osisch schematisch dargestellt.

    In den Abschnitten 2.3 und 3.2 werden Vorschl

    age f

    ur die Architektur monolingualer

    W

    orterb

    ucher gemacht. Dabei spielt die Verwendbarkeit der lexikalischen Beschreibun-

    gen f

    ur verschiedene Anwendungen eine groe Rolle. Da der Transfer-Ansatz und der

    Interlingua-Ansatz L

    osungen derselben konstrastiven lexikalischen Probleme bereitstellen

    m

    ussen, w

    are es w

    unschenswert, auch ein kontrastives W

    orterbuch so anzulegen, da es

    verschiede Anwendungen versorgen kann, in diesem Fall Systeme, die auf dem Transfer-

    Ansatz bzw. auf dem Interlingua-Ansatz beruhen. Ein W

    orterbuch, welches beide Arten

    von Beschreibungen unterst

    utzen soll, mu hinreichend detaillierte Informationen von

    s

    amtlichen relevanten Beschreibungsebenen enthalten.

  • Kapitel 2

    Lexikographische Aspekte der

    W

    orterbuchstrukturierung

    2.1 Wiederverwendbare lexikalische Beschreibungen { Multifunktionale

    W

    orterb

    ucher

    Seit den sp

    aten 80er Jahren wurde in der Computerlinguistik

    uber die Schaung umfang-

    reicher Lexika f

    ur die Sprachverarbeitung diskutiert, und auf die Notwendigkeit der Erstel-

    lung wiederverwendbarer

    1

    W

    orterb

    ucher hingewiesen. Aufgabe und Zielsetzung von For-

    schungsvorhaben und Studien wie z.B. Eurotra-7 (1990/91), Lexic (1990/91)

    2

    , Mul-

    tilex (1991-93), zum Teil auch Acquilex und DELIS (1993-95) war es, Konzepte f

    ur die

    Wiederverwendung lexikalischer Information zu entwickeln; das Forschungsprojekt Mul-

    tilex ist beispielsweise mit dem Ziel angetreten, in verschiedenen Typen von Sprachver-

    arbeitungssystemen verwendbare (\multifunktionale") W

    orterb

    ucher zu entwickeln oder

    an ihrer Denition zu arbeiten (vgl.

    [

    Modiano 1994

    ]

    ). Die Fragestellung hat bis heute

    nichts an Aktualit

    at verloren, wie der neueste Sammelband von

    [

    H

    otker/Ludewig (Ed.)

    1996

    ]

    zeigt, der verschiedenen Ans

    atzen zur Wiederverwendung lexikalischer Information

    gewidmet ist.

    In diesem Kapitel wird zun

    achst die bisherige Diskussion

    uber die Wiederverwendung

    lexikalischer Information zusammengefat. Aus bisherigen Denitionen von multifunk-

    tionalen W

    orterb

    uchern werden die f

    ur die vorliegende Arbeit relevanten Aspekte als

    Komponenten einer Anforderungsdenition f

    ur die W

    orterbuchorganisation extrahiert.

    2.1.1 Begrisbestimmung: Wiederverwendbare lexikalische Ressourcen

    Die Diskussion um die Wiederverwendung von lexikalischer Information in der Compu-

    terlinguistik ist mit der Dissertation von Robert Amsler 1980 (vgl.

    [

    Amsler 1980

    ]

    ) in

    Gang gekommen, der als wohl erster Computerlinguist Satzb

    ander eines monolingualen

    (englischen) W

    orterbuchs analysiert hat (das Merriam Webster Pocket Dictionary), mit

    dem Ziel, aus den Eintr

    agen des W

    orterbuchs Beschreibungen zu extrahieren, die als le-

    xikalische Informationsquelle f

    ur ein sprachverarbeitendes System dienen k

    onnen. In der

    Folgezeit wurden verschiedene vergleichbare Untersuchungen an anderen englischen W

    or-

    1 Zum Teil wird auch von Wiederverwertung, wiederverwertbarenW

    orterb

    uchern, etc. gesprochen. Hier

    wird durchg

    angig der Begri \Wiederverwendung" (etc.) benutzt. Die beiden Termini werden hier

    synonym verwendet.

    [

    H

    otker/Ludewig 1996

    ]

    (die Einleitung zu

    [

    H

    otker/Ludewig (Ed.) 1996

    ]

    ) unter-

    scheiden zwischen \Wiederverwendung" (ohne Modikation der bestehenden Beschreibungen) und

    \Wiederverwertung" (Nutzbarmachung f

    ur neue Anwendungen durch Modikation der bestehenden

    Beschreibungen). Der erste Fall ist rein hypothetisch: eine Reinterpretation (vgl. unten, Abschnitt

    2.1.2) ist nahezu immer n

    otig. Hier wird also der Terminus \Wiederverwendung" durchg

    angig im

    Sinne von H

    otker/Ludewigs Begri \Wiederverwertung" benutzt (vgl. auch

    [

    Kanngiesser 1995

    ]

    ).

    2 Vgl. den Abschlubericht

    [

    Van der Eijk et al. 1991

    ]

    .

  • terb

    uchern angestellt, insbesondere am Longman Dictionary of Contemporary English,

    LDOCE

    3

    .

    Amslers Arbeit und die Experimente mit LDOCE zielen auf die Nutzung vorhande-

    ner traditioneller W

    orterb

    ucher als Ressourcen f

    ur NLP-Systeme. Gleichzeitig mit diesen

    Arbeiten kamen auch Diskussionen dar

    uber in Gang, welche Organisation linguistischer

    Beschreibungen, welcher Aufbau und welche Repr

    asentationsform f

    ur das W

    orterbuch

    eines Sprachverarbeitungssystems zu w

    ahlen seien, das von vorneherein f

    ur verschiedene

    Anwendungen konzipiert sein w

    urde. Es hatte sich herausgestellt, da die Entwicklung von

    NLP-Systemen unter anderem deswegen relativ inezient verlief, weil f

    ur jedes System,

    ein kleines W

    orterbuch entwickelt werden mute, das bestenfalls einige hundert Eintr

    age

    umfate; bis heute werden zum Teil nebeneinander W

    orterb

    ucher f

    ur \toy applications"

    entwickelt, die nur kleine, zum Teil

    uberlappende Fragmente abdecken, ohne da ein be-

    stehendes W

    orterbuch als Grundlage eines anderen, neu zu entwickelnden W

    orterbuchs

    genommen w

    urde.

    Im wesentlichen sind es also praktische Gr

    unde, die den Ansto f

    ur Forschungen

    uber

    die Wiederverwendbarkeit von W

    orterb

    uchern gegeben haben. Zum einen der Versuch,

    die sehr groen Datenmengen, die in \traditionellen" gedruckten W

    orterb

    uchern ent-

    halten sind, f

    ur die Sprachverarbeitung nutzbar zu machen; zum anderen der Versuch,

    einmal f

    ur sprachverarbeitende Systeme einer bestimmten Art vorbereitete W

    orterb

    ucher

    neben dieser urspr

    unglichen Anwendung auch f

    ur andere NLP-Anwendungen nutzbar zu

    machen

    4

    . In diesem Zusammenhang kam der Begri der \wiederverwendbaren linguisti-

    schen Ressource" (reusable linguistic resource) in der Diskussion auf

    5

    .

    In den Arbeiten von Eurotra-7 und in Anwendungen der Resultate dieser Studie

    wird der Terminus \wiederverwendbare linguistische Ressource" in zwei Bedeutungen de-

    niert:

    1. Der Begri \wiederverwendbare linguistische Ressource" bezeichnet eine linguisti-

    sche Wissensquelle, die in einer anderen Anwendung benutzt werden kann als der-

    jenigen, f

    ur die sie urspr

    unglich geschaen wurde.

    Diese Benutzung auerhalb der urspr

    unglich intendierten Anwendung kann verschie-

    dene Arbeitsschritte der Reinterpretation und Reformatierung, der Extraktion von

    3 Die Ergebnisse umfangreicher Forschungen verschiedener Gruppen (insbesondere in Cambridge und

    Amsterdam) sind in

    [

    Boguraev/Briscoe 1989

    ]

    zusammengefat. Die neueste und umfangreichste Ana-

    lyse eines gedruckten W

    orterbuchs, bei der die Nutzung als Wissensquelle f

    ur ein sprachverarbeitendes

    System angestrebt wird, ist

    [

    Sinclair/Hoelter/Peters (Ed.) 1994

    ]

    : dort wurde versucht, aus dem Col-

    lins Cobuild Student's Dictionary syntaktisch-semantische Information zu extrahieren und in ein mit

    HPSG verarbeitbares Format umzusetzen.

    4 Die neueste und detaillierteste Beschreibung der Forschungen zur Wiederverendung von lexikalischen

    Ressourcen ndet sich in

    [

    Zampolli 1994

    ]

    und in

    [

    Atkins/Levin/Zampolli 1994

    ]

    : 26. Dort wird die

    Entwicklung der computerlinguistischen Diskussion detailliert chronologisch nachgezeichnet, bis zum

    Beginn der Eurotra-7-Studie. An dieser Stelle braucht deswegen auf die Arbeiten bis 1990 nicht

    in allen Details eingegangen zu werden. Die zitierten Artikel, ebenso wie die anderen Arbeiten in

    dem Band von

    [

    Atkins/Zampolli (Ed.) 1994

    ]

    geben einen

    Uberblick auf den Stand von ca. 1990/91.

    Hier werden statt einer Fortschreibung eines breiten

    Uberblicks gezielt die relevanten Resultate von

    Eurotra-7 (vgl.

    [

    Heid/McNaught 1991

    ]

    und

    [

    Mc Naught 1990

    ]

    ) und den Nachfolgeaktivit

    aten der

    Eurotra-7-Studie beschrieben.

    5 Erstmalig deniert von McNaught in einer Arbeitssitzung 1987, dann von Calzolari aufgenommen und

    schlielich in den Arbeiten der Eurotra-7-Studie detailliert diskutiert; vgl.

    [

    Heid/McNaught 1991

    ]

    ,

    [

    Heid 1991a

    ]

    . Der Bericht

    [

    Heid/McNaught 1991

    ]

    kann von der Europ

    aischen Kommission bezogen

    werden, wurde aber nicht in Buchform publiziert.

  • Teilen der Beschreibungen aus der urspr

    unglichen Ressource oder der kompletten

    Transformation der gesamten Ressource notwendig machen.

    Beispiele: die maschinenlesbare Version eines gedruckten W

    orterbuchs wird so adap-

    tiert, da sie neben der urspr

    unglichen, interaktiven Benutzung auch f

    ur ein sprach-

    verarbeitendes System verwendet werden kann.

    Oder: ein W

    orterbuch, welches ursp

    unglich f

    ur ein maschinelles

    Ubersetzungssystem

    konzipiert ist, wird (z.B. mit einem zus

    atzlichen Ausgabe-Interface) auch als \Look-

    up-W

    orterbuch", f

    ur interaktive Abfrage verwendet.

    2. Der Begri \wiederverwendbare lexikalische Ressource" bezeichnet eine linguisti-

    sche Wissensquelle, die schon von ihrer Konzeption an so speziziert und realisiert

    worden ist, da die Benutzung in verschiedenen Situationen oder Systemen (sowohl

    verschiedenen Sprachverarbeitungsanwendungen, als auch verschiedenen (interakti-

    ven) Benutzungssituationen mit \menschlichen Benutzern") in die Design-Kriterien

    miteiniet. Solche linguistischen Wissensquellen werden auch als \multifunktiona-

    le" Ressourcen bezeichnet.

    Beispiele: Ein W

    orterbuch, welches innerhalb einer Firma f

    ur verschiedene Sprach-

    verarbeitungsanwendungen gemeinsam benutzt wird; oder: eine lexikographische

    Ressource eines Verlags, aus welcher verschiedene anwendungsspezische gedruck-

    te W

    orterb

    ucher oder interaktiv zu verwendende elektronische Produkte hergestellt

    werden

    6

    .

    Der Unterschied zwischen den beiden Lesarten des Terminus \wiederverwendbare lin-

    guistische Ressource" liegt also darin, da nach der ersten Auassung von Wiederver-

    wendbarkeit schon bestehende Beschreibungen f

    ur neue Anwendungen nutzbar gemacht

    werden sollen, ohne da auf das Format der Quell-Materialien noch eine Einunahme

    m

    oglich w

    are (die \Um-Nutzung" erfolgt post mortem). Dagegen ist es f

    ur die zweite Les-

    art von \Wiederverwendung" konstitutiv, da die Mehrfach-Verwendung schon von der

    Spezikationsphase an eingeplant wird.

    Diese Kriterien gelten sinngem

    a f

    ur W

    orterb

    ucher, Grammatiken, annotierte Text-

    corpora und sogar f

    ur bestimmte Arten von Sprachverarbeitungswerkzeugen. Deswegen

    wird hier der allgemeine Begri \Ressource" benutzt.

    2.1.1.1 Lexikalische Wiederverwendung in der praktischen Lexikographie

    In der praktischen Lexikographie wird der Gedanke der multifunktionalen lexikalischen

    Ressource, in einer anderen Terminologie und zum Teil mit einer vordergr

    undig zun

    achst

    anderen Zielsetzung als in der Sprachverarbeitung schon seit langem diskutiert.

    Da W

    orterbuchverlage ihre Produkte \wiederverwenden", indem sie Beschreibungen

    aus einem W

    orterbuch in ein anderes

    ubernehmen, ist bekannt. Weniger als 25%

    Uber-

    lappung zwischen W

    orterb

    uchern ist nicht anst

    oig

    7

    . In bestimmten F

    allen werden auch

    6 Quemada nennt eine solche Ressource base de donnees predictionnairique; Atkins spricht im Fall der

    lexikographischen Faktensammlung, die dem Oxford/Hachette-W

    orterbuch zugrundeliegt, von

    \(lled)framework"; auf diese Art von Ressourcen wird unten noch detaillierter eingegangen (vgl.

    Abschnitt 2.1.1.1).

    7 Hausmann diskutiert Methoden der direkten

    Ubernahme von lexikalischen Beschreibungen in ver-

    schiedenen W

    orterb

    uchern unter dem Schlagwort \W

    orterbuchkriminalit

    at". Uns ist folgender Vor-

  • aus dem Lemmabestand und der Mikrostruktur von bestehenden W

    orterb

    uchern Teile

    \herausgestrichen", wenn ein neues W

    orterbuch (oder eine neue Auage des zur Rede

    stehenden W

    orterbuchs) hergestellt werden soll. Diese Verfahren stehen hier jedoch nicht

    zur Diskussion.

    Der wichtigste Aspekt der Wiederverwendung lexikalischer Information in der prakti-