1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür...
-
Upload
severin-dreier -
Category
Documents
-
view
119 -
download
1
Transcript of 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür...
1
Was ist Lemmatisierung und wie wird sie maschinell durchgeführt?
Kirke Herrmann
Özgür Kurtulmus-Onigkeit
Datum : 24.Jan. 2007
2
Hauptthemen
LemmatisierungWas ist ein Lemma?Was ist ein Lemmatisierer?
Wie wird sie maschinell durchgeführt? Wortformmethode Morphemmethode
Allomorphmethode
Probleme Quellen
3
altgriechisch : “das Herausgenommene”
allgemein in der CL:
normierte Grundform für alle zu einem Wort gehörenden Wortformen
Beispiel:
Hauses und Häuser werden zu Haus lemmatisiert
Was ist ein Lemma?
4
Was ist Lemmatisierung ?
Rückführung einer Wortform auf ihr Lemma.
Oberflächenform
Die grammatische Wortform (hier: „lief“) hat eine eindeutige
morphologische Zuweisung (hier: Verb 3.Pers Sing)
und wird Oberflächenform genannt.
Eingabe zum Beispiel.: lief
Ausgabe des Lemmatisierers: laufen
5
Reduktion flektierter und variierter Wortformen auf ihre Lemmata, Grundform, Lexikonseinträge durch Nachschlagen in einem (elektronischen) Wörterbuch
Bsp: gibst geben
In diesem Zusammenhang sind Grundformen:
Unflektierte Simplizia verschiedener Wortarten
Unflektierte Ableitungen und Komposita
Wortbildungsmorpheme
Was ist Lemmatisierung ?
6
Bemerkung:
Wenn wir in einem Wörterbuch nach einem
Wort suchen, führen wir selbst eine „Mentale
Lemmatisierung“ durch.
Möchte man z. Bsp. in einem Wörterbuch die
spanische Bedeutung für „geht“ nachschlagen,
so schaut man unter dem Eintrag „gehen“ nach
(und beschäftigt sich danach mit der
Konjugation des Wortes).
„geht“ ist hier die Oberflächenform;
„gehen“ das Lemma.
Was ist Lemmatisierung ?
7
Welche Lexikonarten werden für die Lemmatisierung verwendet?
Vollformenlexikon: jede Wortform kann direkt im Lexikon nachgeschlagen werden
Grundformenlexikon: Wortform wird durch morphologische Regeln auf eine potentielle Grundform reduziert, die dann im Lexikon nachgeschlagen wird.
Vollformenlexikon ist aufwendiger hinsichtlich Speicherplatz aber effizienter bei der Verarbeitung
8
Lemmatisierer sind morphologische Analyseprogramme
Grundlage für das Funktionieren solcher Programme ist die Morphologie, d.h. die Regel und Prozesse der Wortbildung.für jedes Element der zu untersuchenden natürlichen Sprache muss eine lexikalische Analyse definiert werden, die zum Zeitpunkt der Wortformerkennung zur Verfügung steht.
Im Lexikon stehen die Lemmata mit ihren Wortklassen (Flexionsparadigmen).
9
Ein Tagger führt :
1.eine Lemmatisierung durch
2. weist den eingegebenen Wörtern (2) eine Wortart zu
3. bestimmt Kasus, Numerus und Genus.
Ein Lemmatisierer ermittelt nur das Lemma (die Basis) des eingegebenen Wortes.
Jeder Tagger beinhaltet einen Lemmatisierer.
Was ist der Unterschied zwischen einem Tagger und Lemmatisierer ?
10
Wie wird Lemmatisierung maschinell durchgeführt?
Zum Lemmatisieren braucht man also
1. ein Grundformenlexikon, in dem die Lemmata mit ihrer Flexionsklasse stehen und ein Regelapparat ( meistens Zwei-Ebenen-Morphologie)
2. oder ein Vollformenlexikon (Lexikon grammatischer Wörter)
(natürlich kann man (2) aus (1) erzeugen)
11
Zwei-Ebenen-Morphologie
Zwei-Ebenen-Morphologie ist eine Theorie zur Beschreibung morphologischer Phänomene von K. Koskenniemi (1983) :
Zwei Ebenen Ausgangsform und OberflächenformRegeln unabhängig voneinanderRegeln können parallel angewendet werdenJede Regel kann in einen Transducer übersetzt werden
Wie wird Lemmatisierung maschinell durchgeführt?
12
Beispiel: Bildung der Form 2. Sg Präsens vom Verb rasen durch einen Transducer
Ausgangsform: r a s + s t
Oberflächenform: r a s 0 0 t
Wie wird Lemmatisierung maschinell durchgeführt?
13
Erkennungsalgorithmus: mit Hilfe des Lexikons muss jede unbekannte Wortform automatisch im Hinblick auf Lemmatisierung und Kategorisierung charakterisiert werden.
Kategorisierung dient, um die gegebenen Wortformen hinsichtlich ihrer morphosyntaktischen Eigenschaften zu spezifizieren.
Wie wird Lemmatisierung maschinell durchgeführt?
14
Wortformmethode
Morphemmethode
Allomorphmethode
Wie wird Lemmatisierung maschinell erstellt?
15
Wortformmethode
Oberflächenform wird lediglich mit Lexikoneintrag verglichen.
Die Oberflächenform wird nicht segmentiert, sondern ist unanalysiert im Lexikon gespeichert.
Morphosyntaktische Informationen und Basisform sind der flektierten Form fest zugeordnet.
16
Wortformmethode
17
Morphemmethode
Oberflächenform wird zuerst in Allomorphe segmentiert
danach können die morphosyntaktischen Eigenschaften
bestimmt werden
Nachteil: Alle möglichen Formen müssen produziert werden
18
Morphemmethode
19
Allomorphmethode
Ähnlich Morphemmethode
Unterschied:
• Segmentierte Allomorphe werden zuerst überprüft
• Dann konkateniert
20
Allomorphmethode
Die Allomorphe werden nicht wie bei der Morphemmethode „blind“ miteinander konkateniert und dann erst morphosyntaktisch kategorisiert.
Vorteil gegenüber Morphemmethode:
21
Allomorphmethode
22
Zusammenfassung
Lemmatisierer:
sind morphologische Analyseprogramme, die eine grammatische Wortform auf ihre Basis zurückführen.
Diese Basis bezeichnet man als Lemma.
Die davon abgeleitete Form als Oberflächenform.
23
Zusammenfassung
Komponenten der Wortformerkennung:
• Lexikon
• Erkennungsalgorithmus
• Kategorisierung
• Lemmatisierung
24
Lemmatisierung erfordert umfangreiches elektronisches Wörterbuch, aufwendig in der Erstellung und Wartung
Relativ hohe Anforderungen an Verarbeitungszeit oder Speicherplatz
Was passiert mit Wortformen, die nicht im Lexikon gefunden werden?
Eigennamen
Komposita im Deutschen
In der Regel keine Derivationsanalyse
Probleme
25
Probleme
Homographie
Gleiche Flexionsendungen bei mehreren Wortklassen
(-en in laufen, Regen, Tonnen)
Allomorphe
Gleiche Bedeutung aber unterschiedliche Morpheme
morphologische Mehrdeutigkeit
Mehrere Zerlegungsmöglichkeiten
(Be-inhalten vs. Bein-halten)
26
Das Programm Morphy
Morphy ist ein Programm, welches das passende
Lemma zu einer eingegebenen Oberflächenform liefert.
Morphy beinhaltet ein Morphologiesystem und eine
Taggingkomponente.
Entwickelt wurde Morphy von Wolfgang Lezius im
Rahmen eines Projektes der Paderborner Arbeitsgruppe
Kognitionsforschung
27
Das Programm Morphy
28
Die Morphymethode
29
Quellen
Anke Lüdeling: Einführung in die Korpuslinguistik, Uni Berlin
www.spinfo.uni-koeln.de
www.ifi.unizh.ch/cl/Glossar/Lemma.html
www.wolfganglezius.de
Klabunde ( et al.) : Computerlinguistik und Sprachtechnologie