IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher...

36
IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004

Transcript of IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher...

Page 1: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

IMSLex – ein NLP Lexikon

Hannah KermesHS: Elektronische Wörterbücher

Do, 2.12.2004

Page 2: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

2

Motivation

• Ressource, die detaillierte Information zu Elementen der Sprache enthält, ist eine notwendige Vorraussetzung um Sprache mit dem Computer zu verarbeiten

• Produktivität der Sprache verlangt nach einem System, daß regelbasiert auch Wörter erkennt, die nicht explizit im Lexikon gelistet sind

Page 3: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

3

DeKo

• Derivations- und Kompositionsmorphologie• Beschreibung und Modellierung von

Prozessen der deutschen Wortbildung• Erstellung eines robusten Systems zur

Analyse und strukturellen Beschreibungen komplexer Wörter

Page 4: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

4

Wortbildungsprozesse

• Flexion:• Affigierung von Flexionsmorphemen an eine

Flexionsstammform

• Derivation:• Affigierung von Wortbildungsmorphemen an eine

Derivationsstammform

• Komposition:• Affigierung von Basismorphemen an eine

Kompositionsstammform

Page 5: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

5

Spezifikation lexikalischer EinheitenBeispiel form morph_stat

usselegiert

Haus, Baum, Auto

simplex

frei nein

elektr-, ident-

simplex

gebunden nein

•frei, •reich simplex

frei ja

-sam, -abel simplex

gebunden ja

Page 6: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

6

DeKo Lexikonmodell

• lexikalische Einheiten: Zitierform• Merkmale:

• Flexion

• Wortbildung

• Phonetik

• Syntax

• Semantik

• Korpusfrequenz

• verschiedene Stammformen• phonetische Transkription

Page 7: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

7

Ziel

• Umsetzung des DeKo-Lexikonkonzeptes in eine Ressource und

• die Verschmelzung dieser Ressource mit den im DMOR-Lexikon enthaltenen Daten

Page 8: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

8

Hauptanforderungen an das Lexikon• Rückwärtskompatibilität

• Abbildung in das von der Morphologie geforderte Format

• Erweiterbarkeit• inhaltlich wie strukturell

• Wartbarkeit• Flexibilität XML (eXtensible Markup Language)

Page 9: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

9

XML

• Formalismus zur Definition von Klassen von Dokumenten

• Definition des Zeichenvorrats

• Definition der Dokumentenstruktur standardisiertes und eindeutiges Markup

Dokumenttyp Definition (DTD) automatische Validierung der

Dokumentenstruktur

Page 10: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

10

XML Bausteine

• inhaltlich:• Elemente

• Attribut/Wert-Paare

• formal:• syntaktische Festlegung auf die Notation

der inhaltlichen Bausteine

Page 11: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

11

XML Modellierungsprinzipien

• Elemente• Information läßt sich in weitere Informationen

untergliedern

• Attribute• Information kann nicht weiter zerlegt werden

• Information ist aufzählbar

• Dokumentinhalt• Information kann nicht weiter zerlegt werden

• Information ist nicht aufzählbar

Page 12: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

12

Allgemeine Konzeption

• Theorieunabhängigkeit• Redundanzvermeidung

• Generalisierung

• Modularisierung• Aufteilung komplexer Strukturen in kleinere Teile

• Makrostruktur und Mikrostruktur

Page 13: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

13

Redundanz

• Generalisierung• Flexionsparadigma

Transparenz:• alle Arten von Einheiten haben dasselbe Konzept

• von Unterschieden wird abstahiert zugunsten einer klaren und einfachen Sicht

Page 14: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

14

Modularisierung

• Aufteilung von komplexen Strukturen in kleinere Teile

• Makrostruktur: • flache Organisation lexikalischer Einheiten

• Mikrostruktur:• globale Merkmale

• Angaben zur Flexionsmorphologie

• fakultative Module:• Wortbildung, Syntax, Semantik, Phonetik

• wortartenspezifische Information

Page 15: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

15

IMSLex DTD - Hierarchie

• Wurzelement<!ELEMENT lexikon ( le +)>

Page 16: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

16

lexikalische Einheit

<!ELEMENT le (

Globale_Merkmale,

Flexionsmorphologie,

Wortbildung?,

Semantik?

Syntax?

(Substantiv_Merkmale | Adjektiv_Merkmale | ...)?

Affix_Merkmale?,

Bearbeitungs_Merkmale? )>

Page 17: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

17

Globale Merkmale

<!ELEMENT Globale Merkmale (

Zitierform,

PhonetischeTranskription?,

Vorkommenshäufigkeit+

)>

<!ELEMENT Zitierform ( #PCDATA ) >

<!ELEMENT PhonetischeTranskription ( #PCDATA ) >

<!ELEMENT Vorkommenshäufigkeit ( #PCDATA ) >

Page 18: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

18

Flexionsmorphologie

<!ELEMENT Flexionsmorphologie (Stammformen) >

<!ELEMENT Stammformen

(DMORstamm,Stammform+) >

<!ELEMENT Stammform (Stamm, DMORklasse) >

<!ELEMENT DMORstamm ( #PCDATA ) >

<!ELEMENT Stamm ( #PCDATA ) >

<!ELEMENT DMORklasse ( #PCDATA ) >

Page 19: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

19

Flexionsmorphologie

• DMORstamm ist die Grundstammform eines Flexionspardigmas• irregulärer Stamm - regulärer Stamm (

back:buk

• Stammform: Stamm + DMORklasse• Suppletivstämme

• SchreibvariantenNuß, Nuss

Page 20: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

20

Wortbildung

<!ELEMENT Wortbildung (

Derivation?,

Komposition?,

Strukturen? ) >

<!ELEMENT Derivation ( Derivationsstaemme ) >

<!ELEMENT Derivationsstaemme (Derivationsstamm+) >

<!ELEMENT Derivationsstamm ( #PCDATA ) >

<!ELEMENT Strukturen ( Struktur+ ) >

<!ELEMENT Struktur ( #PCDATA ) >

Page 21: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

21

Syntax

<!ELEMENT Syntax ( Subkatrahmen* ) >

<!ELEMENT Subkatrahmen ( #PCDATA ) >

Page 22: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

22

Semantik

<!ELEMENT Semantik ( Semantischer Typ?,Kommentar?,Lamdaausdruck?,Praesupposition?,Anwendungsbereich? ) >

<!ELEMENT SemantischerTyp ( #PCDATA ) >

<!ELEMENT Kommentar ( #PCDATA ) >

<!ELEMENT Lambdaausdruck ( #PCDATA ) >

<!ELEMENT Praesupposition ( #PCDATA ) >

<!ELEMENT Anwendungsbereich ( #PCDATA ) >

Page 23: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

23

Wortartenspezifische Merkmale<!ELEMENT Substantiv_Merkmale ( Genus ) >

<!ELEMENT Adjektiv_Merkmale ( Verwendung ) >

<!ELEMENT Adverb_Merkmale ( Verwendung ) >

<!ELEMENT Genus ( #PCDATA ) >

<!ELEMENT Verwendung ( #PCDATA ) >

Page 24: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

24

Wortartenspezifische Merkmale<!ELEMENT Verb_Merkmale (

Aktionsart,VerbHatResultatszustand,IntensionalitaetLexikalisiert,SemantischeVerbklasse

) >

<!ELEMENT Aktionsart ( #PCDATA ) >

<!ELEMENT VerbHatResultatszustand ( #PCDATA ) >

<!ELEMENT IntensionalitaetLexikalisiert ( #PCDATA ) >

<!ELEMENT SemantischeVerbklasse ( #PCDATA ) >

Page 25: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

25

Wortartenspezifische Merkmale<!ELEMENT Verpartikel_Merkmale (

Basisverbzahl,Partikelverbklasse+

) >

<!ELEMENT Basisverbzahl ( #PCDATA ) ><!ELEMENT Partikelverbklasse ( #PCDATA ) >

• Basisverbzahl: Anzahl der im HGC gefundenen Partikelverben mit diesem Partikel

Page 26: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

26

Wortartenspezifische Merkmale<!ELEMENT Abk_Merkmale ( Ausgeschr_Formen? ) >

<!ELEMENT Ausgeschr_Formen ( Ausgeschr_Form+ ) >

<!ELEMENT Ausgeschr_Form ( #PCDATA ) >

<!ELEMENT Affix_Merkmale ( #PCDATA ) >

Page 27: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

27

Attributdeklaration

• Merkmalnamen• Status

• verpflichtend (#REQUIRED)

• fakultativ (#IMPLIED)

• Default-Belegung (Wert in doppelten Anführungszeichen)

Page 28: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

28

Lexikalische Einheit (le)

• bei obligatorischen Merkmalen - außer bei kategorie - Platzhalter undef vorhanden

• Merkmale akzent und auslautverhaertung nur für Derivationsaffixe relevant - sonst Belegung neutral

• administrative Merkmale:• geprüft ja bei vollständig bearbeiteten Einträgen

• erzeugt Unterscheidung zwischen maschinell und manuell erzeugten Lexikoneinträgen

Page 29: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

29

Lexikalische Einheit ( le )

<!ATTLIST leid ID #REQUIREDkategorie( Substantiv | Verb | Adjektiv | Name |Adverb | Numeral | Pronomen | Adposition | ... ) #REQUIREDm_status( Frei | Gebunden | undef ) #REQUIREDm_form( Simplex | Kurzwort | Nominalisierung |undef | Komplex | Komplex_semi | Komplex_abstrakt) #REQUIRED

Page 30: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

30

Lexikalische Einheit ( le )

...selegiert (ja|nein|undef) #REQUIREDlexikalisiert (ja|nein|undef) #REQUIREDherkunft (nativ | klassisch | englisch |

unklar | französisch | fremd |undef) #REQUIRED

akzent (neutral | beeinflusst |zieht_an) “neutral”

auslautverh. (neutral | blockiert ) “neutral”

erzeugt (auto|manu) #IMPLIEDgeprueft (ja|nein) #IMPLIED >

Page 31: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

31

Gobale Merkmale

<!ATTLIST PhonetischeTranskription notation (SAMPA) "SAMPA" attr CDATA #IMPLIED>

<!ATTLIST Vorkommenshäufigkeit korpus (HGC | Referenz ) "HGC" wert ( wortform ) #IMPLIED>

Page 32: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

32

Flexionsmorphologie

<!ATTLIST FlexionsmorphologieDMORlex(VMod_Stems | VAux_Stems | V-

0_Stems|V-ge_Stems | V-0_Stems_NoPref |NN_Stems_NoCP | NN_Stems_NoHead

|NN_Stems | NE_Stems_NoCP | NE_Stems | NE_Stems_NoCP | ADJ_Stems_NoCP | ADJ_Abbr | NN_Abr

|NE_Abbr | INVAR_Abbr | VPrefSep )

#IMPLIED >

Page 33: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

33

Stammformen

<!ATTLIST Stammformid ID #IMPLIEDDMORtyp (reg | irreg | vollform)

#IMPLIED>

<!ATTLIST DMORStammorth (alt | neu | beides)

#IMPLIED>

<!ATTLIST Stammorth (alt | neu | beides)

#IMPLIED>

Page 34: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

34

Derivation und Komposition

<!ATTLIST Derivationtyp ( ja | nein ) #IMPLIED

<!ATTLIST Derivationsstammid #IMPLIEDorth ( alt | neu | beides ) "beides"typ( umgelautet | kurz | lang | vorne_gefugt-getilgt | vorne_gefugt-hinten_gefugt | hinten_gefugt | getilgt | umgelautet-getilgt |umgelautet-getilgt-hinten_gefugt | normal |umgelautet-hinten_gefugt | getilgt-hinten_gefugt ) "normal" >

Page 35: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

35

Affix Merkmale

<!ATTLIST Affix_Merkmaleproduktiv ( ja | nein )

#REQUIRED>

Page 36: IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

IMS Universität Stuttgart

36

Verwandte Lexika

• CISLEX (Langer et al. 1996, Maier-Meyer (1995))• morphologische Analyse von Zeitungskorpora

• Derivation nur für häufige Suffixe

• WordManager-System (Domening und ten Hacken (1992))• Entwicklungsumgebung für computerlinguistische

Lexika

• eingeschränkte morphologische Analyse im Internet (Canoo)