IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher...
-
Upload
jannike-striebel -
Category
Documents
-
view
106 -
download
3
Transcript of IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher...
IMS Universität Stuttgart
IMSLex – ein NLP Lexikon
Hannah KermesHS: Elektronische Wörterbücher
Do, 2.12.2004
IMS Universität Stuttgart
2
Motivation
• Ressource, die detaillierte Information zu Elementen der Sprache enthält, ist eine notwendige Vorraussetzung um Sprache mit dem Computer zu verarbeiten
• Produktivität der Sprache verlangt nach einem System, daß regelbasiert auch Wörter erkennt, die nicht explizit im Lexikon gelistet sind
IMS Universität Stuttgart
3
DeKo
• Derivations- und Kompositionsmorphologie• Beschreibung und Modellierung von
Prozessen der deutschen Wortbildung• Erstellung eines robusten Systems zur
Analyse und strukturellen Beschreibungen komplexer Wörter
IMS Universität Stuttgart
4
Wortbildungsprozesse
• Flexion:• Affigierung von Flexionsmorphemen an eine
Flexionsstammform
• Derivation:• Affigierung von Wortbildungsmorphemen an eine
Derivationsstammform
• Komposition:• Affigierung von Basismorphemen an eine
Kompositionsstammform
IMS Universität Stuttgart
5
Spezifikation lexikalischer EinheitenBeispiel form morph_stat
usselegiert
Haus, Baum, Auto
simplex
frei nein
elektr-, ident-
simplex
gebunden nein
•frei, •reich simplex
frei ja
-sam, -abel simplex
gebunden ja
IMS Universität Stuttgart
6
DeKo Lexikonmodell
• lexikalische Einheiten: Zitierform• Merkmale:
• Flexion
• Wortbildung
• Phonetik
• Syntax
• Semantik
• Korpusfrequenz
• verschiedene Stammformen• phonetische Transkription
IMS Universität Stuttgart
7
Ziel
• Umsetzung des DeKo-Lexikonkonzeptes in eine Ressource und
• die Verschmelzung dieser Ressource mit den im DMOR-Lexikon enthaltenen Daten
IMS Universität Stuttgart
8
Hauptanforderungen an das Lexikon• Rückwärtskompatibilität
• Abbildung in das von der Morphologie geforderte Format
• Erweiterbarkeit• inhaltlich wie strukturell
• Wartbarkeit• Flexibilität XML (eXtensible Markup Language)
IMS Universität Stuttgart
9
XML
• Formalismus zur Definition von Klassen von Dokumenten
• Definition des Zeichenvorrats
• Definition der Dokumentenstruktur standardisiertes und eindeutiges Markup
Dokumenttyp Definition (DTD) automatische Validierung der
Dokumentenstruktur
IMS Universität Stuttgart
10
XML Bausteine
• inhaltlich:• Elemente
• Attribut/Wert-Paare
• formal:• syntaktische Festlegung auf die Notation
der inhaltlichen Bausteine
IMS Universität Stuttgart
11
XML Modellierungsprinzipien
• Elemente• Information läßt sich in weitere Informationen
untergliedern
• Attribute• Information kann nicht weiter zerlegt werden
• Information ist aufzählbar
• Dokumentinhalt• Information kann nicht weiter zerlegt werden
• Information ist nicht aufzählbar
IMS Universität Stuttgart
12
Allgemeine Konzeption
• Theorieunabhängigkeit• Redundanzvermeidung
• Generalisierung
• Modularisierung• Aufteilung komplexer Strukturen in kleinere Teile
• Makrostruktur und Mikrostruktur
IMS Universität Stuttgart
13
Redundanz
• Generalisierung• Flexionsparadigma
Transparenz:• alle Arten von Einheiten haben dasselbe Konzept
• von Unterschieden wird abstahiert zugunsten einer klaren und einfachen Sicht
IMS Universität Stuttgart
14
Modularisierung
• Aufteilung von komplexen Strukturen in kleinere Teile
• Makrostruktur: • flache Organisation lexikalischer Einheiten
• Mikrostruktur:• globale Merkmale
• Angaben zur Flexionsmorphologie
• fakultative Module:• Wortbildung, Syntax, Semantik, Phonetik
• wortartenspezifische Information
IMS Universität Stuttgart
15
IMSLex DTD - Hierarchie
• Wurzelement<!ELEMENT lexikon ( le +)>
IMS Universität Stuttgart
16
lexikalische Einheit
<!ELEMENT le (
Globale_Merkmale,
Flexionsmorphologie,
Wortbildung?,
Semantik?
Syntax?
(Substantiv_Merkmale | Adjektiv_Merkmale | ...)?
Affix_Merkmale?,
Bearbeitungs_Merkmale? )>
IMS Universität Stuttgart
17
Globale Merkmale
<!ELEMENT Globale Merkmale (
Zitierform,
PhonetischeTranskription?,
Vorkommenshäufigkeit+
)>
<!ELEMENT Zitierform ( #PCDATA ) >
<!ELEMENT PhonetischeTranskription ( #PCDATA ) >
<!ELEMENT Vorkommenshäufigkeit ( #PCDATA ) >
IMS Universität Stuttgart
18
Flexionsmorphologie
<!ELEMENT Flexionsmorphologie (Stammformen) >
<!ELEMENT Stammformen
(DMORstamm,Stammform+) >
<!ELEMENT Stammform (Stamm, DMORklasse) >
<!ELEMENT DMORstamm ( #PCDATA ) >
<!ELEMENT Stamm ( #PCDATA ) >
<!ELEMENT DMORklasse ( #PCDATA ) >
IMS Universität Stuttgart
19
Flexionsmorphologie
• DMORstamm ist die Grundstammform eines Flexionspardigmas• irregulärer Stamm - regulärer Stamm (
back:buk
• Stammform: Stamm + DMORklasse• Suppletivstämme
• SchreibvariantenNuß, Nuss
IMS Universität Stuttgart
20
Wortbildung
<!ELEMENT Wortbildung (
Derivation?,
Komposition?,
Strukturen? ) >
<!ELEMENT Derivation ( Derivationsstaemme ) >
<!ELEMENT Derivationsstaemme (Derivationsstamm+) >
<!ELEMENT Derivationsstamm ( #PCDATA ) >
<!ELEMENT Strukturen ( Struktur+ ) >
<!ELEMENT Struktur ( #PCDATA ) >
IMS Universität Stuttgart
21
Syntax
<!ELEMENT Syntax ( Subkatrahmen* ) >
<!ELEMENT Subkatrahmen ( #PCDATA ) >
IMS Universität Stuttgart
22
Semantik
<!ELEMENT Semantik ( Semantischer Typ?,Kommentar?,Lamdaausdruck?,Praesupposition?,Anwendungsbereich? ) >
<!ELEMENT SemantischerTyp ( #PCDATA ) >
<!ELEMENT Kommentar ( #PCDATA ) >
<!ELEMENT Lambdaausdruck ( #PCDATA ) >
<!ELEMENT Praesupposition ( #PCDATA ) >
<!ELEMENT Anwendungsbereich ( #PCDATA ) >
IMS Universität Stuttgart
23
Wortartenspezifische Merkmale<!ELEMENT Substantiv_Merkmale ( Genus ) >
<!ELEMENT Adjektiv_Merkmale ( Verwendung ) >
<!ELEMENT Adverb_Merkmale ( Verwendung ) >
<!ELEMENT Genus ( #PCDATA ) >
<!ELEMENT Verwendung ( #PCDATA ) >
IMS Universität Stuttgart
24
Wortartenspezifische Merkmale<!ELEMENT Verb_Merkmale (
Aktionsart,VerbHatResultatszustand,IntensionalitaetLexikalisiert,SemantischeVerbklasse
) >
<!ELEMENT Aktionsart ( #PCDATA ) >
<!ELEMENT VerbHatResultatszustand ( #PCDATA ) >
<!ELEMENT IntensionalitaetLexikalisiert ( #PCDATA ) >
<!ELEMENT SemantischeVerbklasse ( #PCDATA ) >
IMS Universität Stuttgart
25
Wortartenspezifische Merkmale<!ELEMENT Verpartikel_Merkmale (
Basisverbzahl,Partikelverbklasse+
) >
<!ELEMENT Basisverbzahl ( #PCDATA ) ><!ELEMENT Partikelverbklasse ( #PCDATA ) >
• Basisverbzahl: Anzahl der im HGC gefundenen Partikelverben mit diesem Partikel
IMS Universität Stuttgart
26
Wortartenspezifische Merkmale<!ELEMENT Abk_Merkmale ( Ausgeschr_Formen? ) >
<!ELEMENT Ausgeschr_Formen ( Ausgeschr_Form+ ) >
<!ELEMENT Ausgeschr_Form ( #PCDATA ) >
<!ELEMENT Affix_Merkmale ( #PCDATA ) >
IMS Universität Stuttgart
27
Attributdeklaration
• Merkmalnamen• Status
• verpflichtend (#REQUIRED)
• fakultativ (#IMPLIED)
• Default-Belegung (Wert in doppelten Anführungszeichen)
IMS Universität Stuttgart
28
Lexikalische Einheit (le)
• bei obligatorischen Merkmalen - außer bei kategorie - Platzhalter undef vorhanden
• Merkmale akzent und auslautverhaertung nur für Derivationsaffixe relevant - sonst Belegung neutral
• administrative Merkmale:• geprüft ja bei vollständig bearbeiteten Einträgen
• erzeugt Unterscheidung zwischen maschinell und manuell erzeugten Lexikoneinträgen
IMS Universität Stuttgart
29
Lexikalische Einheit ( le )
<!ATTLIST leid ID #REQUIREDkategorie( Substantiv | Verb | Adjektiv | Name |Adverb | Numeral | Pronomen | Adposition | ... ) #REQUIREDm_status( Frei | Gebunden | undef ) #REQUIREDm_form( Simplex | Kurzwort | Nominalisierung |undef | Komplex | Komplex_semi | Komplex_abstrakt) #REQUIRED
IMS Universität Stuttgart
30
Lexikalische Einheit ( le )
...selegiert (ja|nein|undef) #REQUIREDlexikalisiert (ja|nein|undef) #REQUIREDherkunft (nativ | klassisch | englisch |
unklar | französisch | fremd |undef) #REQUIRED
akzent (neutral | beeinflusst |zieht_an) “neutral”
auslautverh. (neutral | blockiert ) “neutral”
erzeugt (auto|manu) #IMPLIEDgeprueft (ja|nein) #IMPLIED >
IMS Universität Stuttgart
31
Gobale Merkmale
<!ATTLIST PhonetischeTranskription notation (SAMPA) "SAMPA" attr CDATA #IMPLIED>
<!ATTLIST Vorkommenshäufigkeit korpus (HGC | Referenz ) "HGC" wert ( wortform ) #IMPLIED>
IMS Universität Stuttgart
32
Flexionsmorphologie
<!ATTLIST FlexionsmorphologieDMORlex(VMod_Stems | VAux_Stems | V-
0_Stems|V-ge_Stems | V-0_Stems_NoPref |NN_Stems_NoCP | NN_Stems_NoHead
|NN_Stems | NE_Stems_NoCP | NE_Stems | NE_Stems_NoCP | ADJ_Stems_NoCP | ADJ_Abbr | NN_Abr
|NE_Abbr | INVAR_Abbr | VPrefSep )
#IMPLIED >
IMS Universität Stuttgart
33
Stammformen
<!ATTLIST Stammformid ID #IMPLIEDDMORtyp (reg | irreg | vollform)
#IMPLIED>
<!ATTLIST DMORStammorth (alt | neu | beides)
#IMPLIED>
<!ATTLIST Stammorth (alt | neu | beides)
#IMPLIED>
IMS Universität Stuttgart
34
Derivation und Komposition
<!ATTLIST Derivationtyp ( ja | nein ) #IMPLIED
<!ATTLIST Derivationsstammid #IMPLIEDorth ( alt | neu | beides ) "beides"typ( umgelautet | kurz | lang | vorne_gefugt-getilgt | vorne_gefugt-hinten_gefugt | hinten_gefugt | getilgt | umgelautet-getilgt |umgelautet-getilgt-hinten_gefugt | normal |umgelautet-hinten_gefugt | getilgt-hinten_gefugt ) "normal" >
IMS Universität Stuttgart
35
Affix Merkmale
<!ATTLIST Affix_Merkmaleproduktiv ( ja | nein )
#REQUIRED>
IMS Universität Stuttgart
36
Verwandte Lexika
• CISLEX (Langer et al. 1996, Maier-Meyer (1995))• morphologische Analyse von Zeitungskorpora
• Derivation nur für häufige Suffixe
• WordManager-System (Domening und ten Hacken (1992))• Entwicklungsumgebung für computerlinguistische
Lexika
• eingeschränkte morphologische Analyse im Internet (Canoo)