Wie arbeitet der Brill-Tagger und warum macht er Fehler? Der Brill-Tagger basiert auf der...

Wie arbeitet der Brill-Tagger und

warum macht er Fehler?

Wie arbeitet der Brill-Tagger und

warum macht er Fehler?

Der Brill-Tagger basiert auf der Kombination von regelbasierten und

statistischen Verfahren. Er betreibt keine Satzanalyse, sondern betrachtet nur das zu taggende Wort

und dessen nahe Umgebung um zu entscheiden, welche Wortklasse am wahrscheinlichsten sein wird. Die Regeln und statistischen Werte lernt der Tagger selbständig aus einem manuell korrigierten sog.

Trainingscorpus.

Der Brill-Tagger basiert auf der Kombination von regelbasierten und

statistischen Verfahren. Er betreibt keine Satzanalyse, sondern betrachtet nur das zu taggende Wort

und dessen nahe Umgebung um zu entscheiden, welche Wortklasse am wahrscheinlichsten sein wird. Die Regeln und statistischen Werte lernt der Tagger selbständig aus einem manuell korrigierten sog.

Trainingscorpus.

1. Das Vorgehen des Taggers

1. Das Vorgehen des Taggers

1.1. Nachschlagen im Lexikon

1.2. Lexikalische Regeln

1.3. Bigramregeln 1.4. Kontextregeln

1.1. Nachschlagen im Lexikon

1.2. Lexikalische Regeln

1.3. Bigramregeln 1.4. Kontextregeln

1.1. Nachschlagen im Lexikon 1.1. Nachschlagen im Lexikon Das Lexikon besteht aus einer Liste von Wörtern, gefolgt von ihren möglichen Tags, wobei das im Trainingscorpus

wahrscheinlichste zuerst steht. Falls der Kandidat im Lexikon steht, so wird

ihm das im Trainingscorpus wahrscheinlichste Tag provisorisch

zugewiesen. Falls der Kandidat nicht im Lexikon steht, so wird großgeschriebenen Kandidaten (das gilt natürlich nur im Deutschen) provisorisch das Tag Nomen

(NN) zugeteilt, während für kleingeschriebene Kandidaten unbekannt (XX) provisorisch festgelegt wird. Daraufhin wird mittels der folgenden Regeln versucht, die Wortklasse zu

präzisieren.

Das Lexikon besteht aus einer Liste von Wörtern, gefolgt von ihren möglichen Tags, wobei das im Trainingscorpus

wahrscheinlichste zuerst steht. Falls der Kandidat im Lexikon steht, so wird

ihm das im Trainingscorpus wahrscheinlichste Tag provisorisch

zugewiesen. Falls der Kandidat nicht im Lexikon steht, so wird großgeschriebenen Kandidaten (das gilt natürlich nur im Deutschen) provisorisch das Tag Nomen

(NN) zugeteilt, während für kleingeschriebene Kandidaten unbekannt (XX) provisorisch festgelegt wird. Daraufhin wird mittels der folgenden Regeln versucht, die Wortklasse zu

präzisieren.

1.2. Lexikalische Regeln 1.2. Lexikalische Regeln

Kleingeschriebene, nicht im Lexikon vorhandene Kandidaten

werden auf ihre interne Struktur wie Präfixe und Suffixe untersucht. Die folgende

selbstgelernte lexikalische Regel besagt beispielsweise,

dass ein Wort mit dem 3-buchstabigen Suffix -bar

wahrscheinlich (Wahrscheinlichkeitswert=5) ein

Adjektiv in prädikativer Position (ADJD) ist:

Kleingeschriebene, nicht im Lexikon vorhandene Kandidaten

werden auf ihre interne Struktur wie Präfixe und Suffixe untersucht. Die folgende

selbstgelernte lexikalische Regel besagt beispielsweise,

dass ein Wort mit dem 3-buchstabigen Suffix -bar

wahrscheinlich (Wahrscheinlichkeitswert=5) ein

Adjektiv in prädikativer Position (ADJD) ist:

1.3. Bigramregeln 1.3. Bigramregeln

Nur für nicht im Lexikon (1.) gefundene Kandidaten zieht der Tagger eine Sammlung von Bigrammen zu Rate, die aus einem beliebig großen, im

Genre dem Trainingscorpus verwandten, aber ungetaggten Corpus gewonnen wird. Aus dieser Bigrammsammlung findet der Tagger heraus, welche Worte häufig unmittelbar vor oder hinter dem Kandidaten zu pflegen stehen (adjacant pairs). Je nach deren Wortart entschließt sich der Tagger dazu, das provisorische Tag des Kandidaten zu belassen oder in eine anderes zu transformieren.

Nur für nicht im Lexikon (1.) gefundene Kandidaten zieht der Tagger eine Sammlung von Bigrammen zu Rate, die aus einem beliebig großen, im

Genre dem Trainingscorpus verwandten, aber ungetaggten Corpus gewonnen wird. Aus dieser Bigrammsammlung findet der Tagger heraus, welche Worte häufig unmittelbar vor oder hinter dem Kandidaten zu pflegen stehen (adjacant pairs). Je nach deren Wortart entschließt sich der Tagger dazu, das provisorische Tag des Kandidaten zu belassen oder in eine anderes zu transformieren.

1.4. Kontextregeln 1.4. Kontextregeln Kontextregeln gelten für bekannte Wörter und können über den Bigrammrahmen hinausgreifen.

Sie transformieren ein provisorisch dem Kandidaten zugewiesenes Tag in ein anderes im Lexikon aufgeführtes, falls die Wortumgebung

dies opportun macht. Die folgende selbstgelernte Regel besagt beispielsweise,

dass flektierteVollverben (VVFIN) in flektierte Hilfsverben (VAFIN) transformiert

werden sollen, falls in den nächsten 3 Wörtern ein Partizip (VVPP) auftaucht.

VVFIN VAFIN NEXT1OR2OR3TAG VVPP

Diese Regel kommt bei Verben zum Einsatz, die gemäßs Lexikon sowohl Voll- als auch

Hilfsverben sein können, also vor allem bei sein und haben.

Kontextregeln gelten für bekannte Wörter und können über den Bigrammrahmen hinausgreifen.

Sie transformieren ein provisorisch dem Kandidaten zugewiesenes Tag in ein anderes im Lexikon aufgeführtes, falls die Wortumgebung

dies opportun macht. Die folgende selbstgelernte Regel besagt beispielsweise,

dass flektierteVollverben (VVFIN) in flektierte Hilfsverben (VAFIN) transformiert

werden sollen, falls in den nächsten 3 Wörtern ein Partizip (VVPP) auftaucht.

VVFIN VAFIN NEXT1OR2OR3TAG VVPP

Diese Regel kommt bei Verben zum Einsatz, die gemäßs Lexikon sowohl Voll- als auch

Hilfsverben sein können, also vor allem bei sein und haben.

2. Typische Fehler2. Typische Fehler

2.1. Faule und übereifrige Kontextregeln

2.2. Eifrige lexikalische Regeln

2.3. Zu kleines Lexikon

2.1. Faule und übereifrige Kontextregeln

2.2. Eifrige lexikalische Regeln

2.3. Zu kleines Lexikon

2.1. Faule und übereifrige Kontextregeln2.1. Faule und übereifrige KontextregelnSchon aus dem obigen Beispiel ist ersichtlich, dass diese Regeln, die zwar in der Mehrzahl der Fälle

richtige Resultate liefern, auch Fehler machen. Steht ein Partizip weiter weg als drei Tags vom provisorisch als Vollverb getaggten Kandidaten, was leicht der Fall sein kann, so vermag obige Regel das Vollverb nicht mehr in ein Hilfsverb zu verwandeln. Umgekehrt kann

diese Regel auch echte Vollverben fälschlicherweise in Hilfsverben überführen.

Während der Satz

Der Brief ist lang.

richtig getaggt wird, verwandelt obige Regel das ist im folgenden Satz zu unrecht in ein Hilfsverb:

Der Brief ist lang, erreicht hat er aber nichts.

Eine richtige Syntaxanalyse könnte hier Abhilfe schaffen, wäre aber rechnerisch wesentlich

aufwendiger.

Schon aus dem obigen Beispiel ist ersichtlich, dass diese Regeln, die zwar in der Mehrzahl der Fälle

richtige Resultate liefern, auch Fehler machen. Steht ein Partizip weiter weg als drei Tags vom provisorisch als Vollverb getaggten Kandidaten, was leicht der Fall sein kann, so vermag obige Regel das Vollverb nicht mehr in ein Hilfsverb zu verwandeln. Umgekehrt kann

diese Regel auch echte Vollverben fälschlicherweise in Hilfsverben überführen.

Während der Satz

Der Brief ist lang.

richtig getaggt wird, verwandelt obige Regel das ist im folgenden Satz zu unrecht in ein Hilfsverb:

Der Brief ist lang, erreicht hat er aber nichts.

Eine richtige Syntaxanalyse könnte hier Abhilfe schaffen, wäre aber rechnerisch wesentlich

aufwendiger.

Ohne Syntaxregeln hat der Tagger beispielsweise auch große Schwierigkeiten, die Relativpronomen der, die, den etc. von Artikeln zu unterscheiden. Aufzählungen von Nomen, getrennt durch Kommata, sind nämlich in

unserem Trainingscorpus etwa gleich häufig wie Relativsätze. Deshalb kommt der Tagger erst gar

nicht auf die Idee, diese Artikel nach Kommata in Relativpronomina zu transformieren. In einigen Fällen schafft es der Tagger aber trotzdem,

Relativpronomina richtig zu erkennen, z. B. durch folgende Kontextregel:

ARTDEF PRELS SURROUNDTAG C PPER

Diese Regel besagt, dass ein definitiver Artikel (natürlich nur falls er gemäßs Lexikoneintrag auch ein Relativpronomen sein könnte) nach einem Komma

und vor einem Personalpronomen in ein Relativpronomen transformiert werden soll.

Ohne Syntaxregeln hat der Tagger beispielsweise auch große Schwierigkeiten, die Relativpronomen der, die, den etc. von Artikeln zu unterscheiden. Aufzählungen von Nomen, getrennt durch Kommata, sind nämlich in

unserem Trainingscorpus etwa gleich häufig wie Relativsätze. Deshalb kommt der Tagger erst gar

nicht auf die Idee, diese Artikel nach Kommata in Relativpronomina zu transformieren. In einigen Fällen schafft es der Tagger aber trotzdem,

Relativpronomina richtig zu erkennen, z. B. durch folgende Kontextregel:

ARTDEF PRELS SURROUNDTAG C PPER

Diese Regel besagt, dass ein definitiver Artikel (natürlich nur falls er gemäßs Lexikoneintrag auch ein Relativpronomen sein könnte) nach einem Komma

und vor einem Personalpronomen in ein Relativpronomen transformiert werden soll.

Tatsächlich ist ein Satzelement wie

Der Brief, den ich lese

wesentlich häufiger als ein Satzelement wie

Der Brief, die mir zugestellte Postkarte, und alle Postsendungen sonst ...

Tatsächlich ist ein Satzelement wie

Der Brief, den ich lese

wesentlich häufiger als ein Satzelement wie

Der Brief, die mir zugestellte Postkarte, und alle Postsendungen sonst ...

2.2. Eifrige lexikalische Regeln 2.2. Eifrige lexikalische Regeln

Mit Worten, die nicht im Lexikon stehen, stellen lexikalische Regeln allerlei sinnvolles und sinnloses an. Während die weiter oben zitierte Regel

bar hassuf 3 ADJD 5

meist sinnvoll ist, wird durch sie das unbekannte Wort Privatbar auch zu

einem Adjektiv gemacht. Da viele Adverbien in -ch enden, wird der

unbekannte Hirsch durch eine ähnlich fleissige Regel

Mit Worten, die nicht im Lexikon stehen, stellen lexikalische Regeln allerlei sinnvolles und sinnloses an. Während die weiter oben zitierte Regel

bar hassuf 3 ADJD 5

meist sinnvoll ist, wird durch sie das unbekannte Wort Privatbar auch zu

einem Adjektiv gemacht. Da viele Adverbien in -ch enden, wird der

unbekannte Hirsch durch eine ähnlich fleissige Regel

2.3. Zu kleines Lexikon 2.3. Zu kleines Lexikon

Viele der allerhäufigsten Wörter in einem kleineren Trainingscorpus erscheinen nie oder nur in einer

Wortart. Dieser Punkt ist vorläufig der Hauptgrund für viele seltsam anmutende Fehler. Hier wird sich die Situation auch rasch bessern durch das Anwachsen des Taggers und den Einbau externer

Wortlisten.

Viele der allerhäufigsten Wörter in einem kleineren Trainingscorpus erscheinen nie oder nur in einer

Wortart. Dieser Punkt ist vorläufig der Hauptgrund für viele seltsam anmutende Fehler. Hier wird sich die Situation auch rasch bessern durch das Anwachsen des Taggers und den Einbau externer

Wortlisten.

Wie arbeitet der Brill-Tagger und warum macht er Fehler? Der Brill-Tagger basiert auf der...

Documents

Transcript of Wie arbeitet der Brill-Tagger und warum macht er Fehler? Der Brill-Tagger basiert auf der...