IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher...

Post on 05-Apr-2015

106 views 3 download

Transcript of IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher...

IMS Universität Stuttgart

IMSLex – ein NLP Lexikon

Hannah KermesHS: Elektronische Wörterbücher

Do, 2.12.2004

IMS Universität Stuttgart

2

Motivation

• Ressource, die detaillierte Information zu Elementen der Sprache enthält, ist eine notwendige Vorraussetzung um Sprache mit dem Computer zu verarbeiten

• Produktivität der Sprache verlangt nach einem System, daß regelbasiert auch Wörter erkennt, die nicht explizit im Lexikon gelistet sind

IMS Universität Stuttgart

3

DeKo

• Derivations- und Kompositionsmorphologie• Beschreibung und Modellierung von

Prozessen der deutschen Wortbildung• Erstellung eines robusten Systems zur

Analyse und strukturellen Beschreibungen komplexer Wörter

IMS Universität Stuttgart

4

Wortbildungsprozesse

• Flexion:• Affigierung von Flexionsmorphemen an eine

Flexionsstammform

• Derivation:• Affigierung von Wortbildungsmorphemen an eine

Derivationsstammform

• Komposition:• Affigierung von Basismorphemen an eine

Kompositionsstammform

IMS Universität Stuttgart

5

Spezifikation lexikalischer EinheitenBeispiel form morph_stat

usselegiert

Haus, Baum, Auto

simplex

frei nein

elektr-, ident-

simplex

gebunden nein

•frei, •reich simplex

frei ja

-sam, -abel simplex

gebunden ja

IMS Universität Stuttgart

6

DeKo Lexikonmodell

• lexikalische Einheiten: Zitierform• Merkmale:

• Flexion

• Wortbildung

• Phonetik

• Syntax

• Semantik

• Korpusfrequenz

• verschiedene Stammformen• phonetische Transkription

IMS Universität Stuttgart

7

Ziel

• Umsetzung des DeKo-Lexikonkonzeptes in eine Ressource und

• die Verschmelzung dieser Ressource mit den im DMOR-Lexikon enthaltenen Daten

IMS Universität Stuttgart

8

Hauptanforderungen an das Lexikon• Rückwärtskompatibilität

• Abbildung in das von der Morphologie geforderte Format

• Erweiterbarkeit• inhaltlich wie strukturell

• Wartbarkeit• Flexibilität XML (eXtensible Markup Language)

IMS Universität Stuttgart

9

XML

• Formalismus zur Definition von Klassen von Dokumenten

• Definition des Zeichenvorrats

• Definition der Dokumentenstruktur standardisiertes und eindeutiges Markup

Dokumenttyp Definition (DTD) automatische Validierung der

Dokumentenstruktur

IMS Universität Stuttgart

10

XML Bausteine

• inhaltlich:• Elemente

• Attribut/Wert-Paare

• formal:• syntaktische Festlegung auf die Notation

der inhaltlichen Bausteine

IMS Universität Stuttgart

11

XML Modellierungsprinzipien

• Elemente• Information läßt sich in weitere Informationen

untergliedern

• Attribute• Information kann nicht weiter zerlegt werden

• Information ist aufzählbar

• Dokumentinhalt• Information kann nicht weiter zerlegt werden

• Information ist nicht aufzählbar

IMS Universität Stuttgart

12

Allgemeine Konzeption

• Theorieunabhängigkeit• Redundanzvermeidung

• Generalisierung

• Modularisierung• Aufteilung komplexer Strukturen in kleinere Teile

• Makrostruktur und Mikrostruktur

IMS Universität Stuttgart

13

Redundanz

• Generalisierung• Flexionsparadigma

Transparenz:• alle Arten von Einheiten haben dasselbe Konzept

• von Unterschieden wird abstahiert zugunsten einer klaren und einfachen Sicht

IMS Universität Stuttgart

14

Modularisierung

• Aufteilung von komplexen Strukturen in kleinere Teile

• Makrostruktur: • flache Organisation lexikalischer Einheiten

• Mikrostruktur:• globale Merkmale

• Angaben zur Flexionsmorphologie

• fakultative Module:• Wortbildung, Syntax, Semantik, Phonetik

• wortartenspezifische Information

IMS Universität Stuttgart

15

IMSLex DTD - Hierarchie

• Wurzelement<!ELEMENT lexikon ( le +)>

IMS Universität Stuttgart

16

lexikalische Einheit

<!ELEMENT le (

Globale_Merkmale,

Flexionsmorphologie,

Wortbildung?,

Semantik?

Syntax?

(Substantiv_Merkmale | Adjektiv_Merkmale | ...)?

Affix_Merkmale?,

Bearbeitungs_Merkmale? )>

IMS Universität Stuttgart

17

Globale Merkmale

<!ELEMENT Globale Merkmale (

Zitierform,

PhonetischeTranskription?,

Vorkommenshäufigkeit+

)>

<!ELEMENT Zitierform ( #PCDATA ) >

<!ELEMENT PhonetischeTranskription ( #PCDATA ) >

<!ELEMENT Vorkommenshäufigkeit ( #PCDATA ) >

IMS Universität Stuttgart

18

Flexionsmorphologie

<!ELEMENT Flexionsmorphologie (Stammformen) >

<!ELEMENT Stammformen

(DMORstamm,Stammform+) >

<!ELEMENT Stammform (Stamm, DMORklasse) >

<!ELEMENT DMORstamm ( #PCDATA ) >

<!ELEMENT Stamm ( #PCDATA ) >

<!ELEMENT DMORklasse ( #PCDATA ) >

IMS Universität Stuttgart

19

Flexionsmorphologie

• DMORstamm ist die Grundstammform eines Flexionspardigmas• irregulärer Stamm - regulärer Stamm (

back:buk

• Stammform: Stamm + DMORklasse• Suppletivstämme

• SchreibvariantenNuß, Nuss

IMS Universität Stuttgart

20

Wortbildung

<!ELEMENT Wortbildung (

Derivation?,

Komposition?,

Strukturen? ) >

<!ELEMENT Derivation ( Derivationsstaemme ) >

<!ELEMENT Derivationsstaemme (Derivationsstamm+) >

<!ELEMENT Derivationsstamm ( #PCDATA ) >

<!ELEMENT Strukturen ( Struktur+ ) >

<!ELEMENT Struktur ( #PCDATA ) >

IMS Universität Stuttgart

21

Syntax

<!ELEMENT Syntax ( Subkatrahmen* ) >

<!ELEMENT Subkatrahmen ( #PCDATA ) >

IMS Universität Stuttgart

22

Semantik

<!ELEMENT Semantik ( Semantischer Typ?,Kommentar?,Lamdaausdruck?,Praesupposition?,Anwendungsbereich? ) >

<!ELEMENT SemantischerTyp ( #PCDATA ) >

<!ELEMENT Kommentar ( #PCDATA ) >

<!ELEMENT Lambdaausdruck ( #PCDATA ) >

<!ELEMENT Praesupposition ( #PCDATA ) >

<!ELEMENT Anwendungsbereich ( #PCDATA ) >

IMS Universität Stuttgart

23

Wortartenspezifische Merkmale<!ELEMENT Substantiv_Merkmale ( Genus ) >

<!ELEMENT Adjektiv_Merkmale ( Verwendung ) >

<!ELEMENT Adverb_Merkmale ( Verwendung ) >

<!ELEMENT Genus ( #PCDATA ) >

<!ELEMENT Verwendung ( #PCDATA ) >

IMS Universität Stuttgart

24

Wortartenspezifische Merkmale<!ELEMENT Verb_Merkmale (

Aktionsart,VerbHatResultatszustand,IntensionalitaetLexikalisiert,SemantischeVerbklasse

) >

<!ELEMENT Aktionsart ( #PCDATA ) >

<!ELEMENT VerbHatResultatszustand ( #PCDATA ) >

<!ELEMENT IntensionalitaetLexikalisiert ( #PCDATA ) >

<!ELEMENT SemantischeVerbklasse ( #PCDATA ) >

IMS Universität Stuttgart

25

Wortartenspezifische Merkmale<!ELEMENT Verpartikel_Merkmale (

Basisverbzahl,Partikelverbklasse+

) >

<!ELEMENT Basisverbzahl ( #PCDATA ) ><!ELEMENT Partikelverbklasse ( #PCDATA ) >

• Basisverbzahl: Anzahl der im HGC gefundenen Partikelverben mit diesem Partikel

IMS Universität Stuttgart

26

Wortartenspezifische Merkmale<!ELEMENT Abk_Merkmale ( Ausgeschr_Formen? ) >

<!ELEMENT Ausgeschr_Formen ( Ausgeschr_Form+ ) >

<!ELEMENT Ausgeschr_Form ( #PCDATA ) >

<!ELEMENT Affix_Merkmale ( #PCDATA ) >

IMS Universität Stuttgart

27

Attributdeklaration

• Merkmalnamen• Status

• verpflichtend (#REQUIRED)

• fakultativ (#IMPLIED)

• Default-Belegung (Wert in doppelten Anführungszeichen)

IMS Universität Stuttgart

28

Lexikalische Einheit (le)

• bei obligatorischen Merkmalen - außer bei kategorie - Platzhalter undef vorhanden

• Merkmale akzent und auslautverhaertung nur für Derivationsaffixe relevant - sonst Belegung neutral

• administrative Merkmale:• geprüft ja bei vollständig bearbeiteten Einträgen

• erzeugt Unterscheidung zwischen maschinell und manuell erzeugten Lexikoneinträgen

IMS Universität Stuttgart

29

Lexikalische Einheit ( le )

<!ATTLIST leid ID #REQUIREDkategorie( Substantiv | Verb | Adjektiv | Name |Adverb | Numeral | Pronomen | Adposition | ... ) #REQUIREDm_status( Frei | Gebunden | undef ) #REQUIREDm_form( Simplex | Kurzwort | Nominalisierung |undef | Komplex | Komplex_semi | Komplex_abstrakt) #REQUIRED

IMS Universität Stuttgart

30

Lexikalische Einheit ( le )

...selegiert (ja|nein|undef) #REQUIREDlexikalisiert (ja|nein|undef) #REQUIREDherkunft (nativ | klassisch | englisch |

unklar | französisch | fremd |undef) #REQUIRED

akzent (neutral | beeinflusst |zieht_an) “neutral”

auslautverh. (neutral | blockiert ) “neutral”

erzeugt (auto|manu) #IMPLIEDgeprueft (ja|nein) #IMPLIED >

IMS Universität Stuttgart

31

Gobale Merkmale

<!ATTLIST PhonetischeTranskription notation (SAMPA) "SAMPA" attr CDATA #IMPLIED>

<!ATTLIST Vorkommenshäufigkeit korpus (HGC | Referenz ) "HGC" wert ( wortform ) #IMPLIED>

IMS Universität Stuttgart

32

Flexionsmorphologie

<!ATTLIST FlexionsmorphologieDMORlex(VMod_Stems | VAux_Stems | V-

0_Stems|V-ge_Stems | V-0_Stems_NoPref |NN_Stems_NoCP | NN_Stems_NoHead

|NN_Stems | NE_Stems_NoCP | NE_Stems | NE_Stems_NoCP | ADJ_Stems_NoCP | ADJ_Abbr | NN_Abr

|NE_Abbr | INVAR_Abbr | VPrefSep )

#IMPLIED >

IMS Universität Stuttgart

33

Stammformen

<!ATTLIST Stammformid ID #IMPLIEDDMORtyp (reg | irreg | vollform)

#IMPLIED>

<!ATTLIST DMORStammorth (alt | neu | beides)

#IMPLIED>

<!ATTLIST Stammorth (alt | neu | beides)

#IMPLIED>

IMS Universität Stuttgart

34

Derivation und Komposition

<!ATTLIST Derivationtyp ( ja | nein ) #IMPLIED

<!ATTLIST Derivationsstammid #IMPLIEDorth ( alt | neu | beides ) "beides"typ( umgelautet | kurz | lang | vorne_gefugt-getilgt | vorne_gefugt-hinten_gefugt | hinten_gefugt | getilgt | umgelautet-getilgt |umgelautet-getilgt-hinten_gefugt | normal |umgelautet-hinten_gefugt | getilgt-hinten_gefugt ) "normal" >

IMS Universität Stuttgart

35

Affix Merkmale

<!ATTLIST Affix_Merkmaleproduktiv ( ja | nein )

#REQUIRED>

IMS Universität Stuttgart

36

Verwandte Lexika

• CISLEX (Langer et al. 1996, Maier-Meyer (1995))• morphologische Analyse von Zeitungskorpora

• Derivation nur für häufige Suffixe

• WordManager-System (Domening und ten Hacken (1992))• Entwicklungsumgebung für computerlinguistische

Lexika

• eingeschränkte morphologische Analyse im Internet (Canoo)