Automatische Dokumentklassiﬁkation mittels linguistischer ... · 1 Einleitung 1.1 Motivation...

Universitat des Saarlandes Max-Planck-Institut fur InformatikNaturwissenschaftlich-Technische Fak. I AG 5 - Datenbanken und Informationssysteme

Fachrichtung 6.2 - Informatik Prof. Dr. Ing. Gerhard Weikum

Diplomarbeit im Studiengang

Angewandte Informatik

Automatische Dokumentklassifikation

mittels linguistischer und stilistischer

Features

Andreas Kaster

[email protected]

April 2005

Betreuer: Dipl.-Inform. Stefan Siersdorfer

Erklarung

Hiermit versichere ich an Eides statt, die vorliegende Arbeit selbstandig ver-fasst und keine anderen als die angegebenen Quellen und Hilfsmittel benutztzu haben.

Saarbrucken, den 3. Mai 2005,

Zusammenfassung

Diese Arbeit beschreibt alternative Featurekonstruktionstechniken zum Bag-of-Words-Modell und deren Anwendung in der automatischen Dokumentklassifikation.Wir werden Verfahren zur Extraktion linguistischer und stilistischer Charakteristikaeines Dokuments vorstellen und Kombinationsstrategien einzelner Verfahren entwi-ckeln.Anhand von Experimenten werden wir Einzel- und Kombinationsverfahren in Hinblickauf ihre Eignung in verschiedenen Klassifikationsproblemen, wie z.B. der Klassifikationvon Autoren, auswerten.

Inhaltsverzeichnis

1 Einleitung 1

1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Inhaltsuberblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2 Grundlagen 3

2.1 Vektorraummodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.2 Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2.1 kNN - k Nearest Neighbours . . . . . . . . . . . . . . . . . . 52.2.2 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.2.3 SVM - Support Vector Machines . . . . . . . . . . . . . . . . 82.2.4 Multiklassifikation . . . . . . . . . . . . . . . . . . . . . . . . 102.2.5 Featureselektion . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.3 Linguistische Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . 162.3.1 Wortarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.3.2 Satzglieder . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.3.3 Konstituenten . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3 Konstruktionsverfahren 23

3.1 Einfuhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.2 Definitionen und Notationen . . . . . . . . . . . . . . . . . . . . . . . 233.3 Wortbasierte Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.3.1 Bag-of-Words . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3.2 Wortartextraktion . . . . . . . . . . . . . . . . . . . . . . . . 263.3.3 Konstituentenanalyse . . . . . . . . . . . . . . . . . . . . . . 273.3.4 Satzgliedanalyse . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.4 Strukturbasierte Verfahren . . . . . . . . . . . . . . . . . . . . . . . . 31

i

Inhaltsverzeichnis

3.4.1 Satzbauanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.4.2 Satzlangenverteilung . . . . . . . . . . . . . . . . . . . . . . . 32

3.5 Kombinationsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.5.1 Kombinationsvektoren . . . . . . . . . . . . . . . . . . . . . . 35

3.5.2 Metaklassifikation . . . . . . . . . . . . . . . . . . . . . . . . 37

4 Implementierung 41

4.1 Uberblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.2 Paketstruktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.3 Framework . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.3.1 Datenbankschema . . . . . . . . . . . . . . . . . . . . . . . . 43

4.3.2 Konstruktionsframework . . . . . . . . . . . . . . . . . . . . . 45

4.3.3 Experimentalframework . . . . . . . . . . . . . . . . . . . . . 46

4.4 Kombinationstechniken . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.4.1 Kombinationsvektoren . . . . . . . . . . . . . . . . . . . . . . 48

4.4.2 Metaklassifikation . . . . . . . . . . . . . . . . . . . . . . . . 49

4.5 Fremdkomponenten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.5.1 Lexparser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.5.2 Connexor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.5.3 Featurevektoren . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.5.4 SVMlight . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

5 Experimente 55

5.1 Korpora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5.2 Experimentaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5.3 Experimentablauf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

5.3.1 Nicht-restriktive Verfahren . . . . . . . . . . . . . . . . . . . 58

5.3.2 Restriktive Verfahren . . . . . . . . . . . . . . . . . . . . . . 58

5.4 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

5.4.1 Nicht-restriktive Verfahren . . . . . . . . . . . . . . . . . . . 59

5.4.2 Restriktive Verfahren . . . . . . . . . . . . . . . . . . . . . . 59

5.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

ii

Inhaltsverzeichnis

6 Zusammenfassung und Ausblick 67

6.1 Verwandte Arbeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . 676.2 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 686.3 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

A Penn-Treebank-Tagset vii

iii

1 Einleitung

1.1 Motivation

Wissensorganisation ist ein Problem, das fast so alt ist wie menschliches Wissenselbst. Beispielsweise soll die um 283 v. Chr. gegrundete Bibliothek von Alexandriaweit uber 700.000 Schriftrollen enthalten haben. Das Problem der Einordnung vonWissen, sei es in Form von Schriftrollen, Buchern, DVDs, Webdokumenten u.v.m.ist grundsatzlich das gleiche: Es erfordert einen hohen Aufwand an (menschlicher)Arbeit. In der heutigen Zeit ist es wegen der standig wachsenden Informations-flut in Web und firmeninternen Intranets unmoglich bzw. unbezahlbar geworden,eintreffendes Wissen zeitnah zu kategorisieren.

Diese Grunde verdeutlichen die Notwendigkeit automatischer Klassifikatoren, derenAufgabe in der Erledigung solcher Arbeiten innerhalb kurzer Zeit besteht. Kon-krete Anwendungsgebiete sind beispielsweise Webportale (z.B. Yahoo.com [9] oderWeb.de [8]), Email Spamfilter, automatische Filterung von Newsfeeds, fokussiertesCrawling (vgl. [46]), u.v.m.

Gangige Klassifikationsframeworks verwenden einen wortbasierten Ansatz, das sogenannte Bag-of-Words-Modell, bei dem die relativen Haufigkeiten von Wortern in-nerhalb der Dokumente, oft unter Zuhilfenahme zusatzlicher Techniken wie Stopp-wortelimination, Stammformreduktion und Featureselektionsverfahren, betrachtetwerden. Dieser Ansatz funktioniert gut bei themenbasierten Klassifikationsproble-men ([30], [55]), wie z.B. der Einordnung eines Zeitungsartikels in eine Sparte ”Po-litik“ oder ”Sport“, weist aber Verbesserungspotential bei schwierigeren Problem-stellungen auf, wie der Klassifikation von Meinungen (z.B. die Unterscheidung vonpositiven und negativen Produktbewertungen) , oder der Autorenerkennung, derZuordnung eines Dokuments zu einem bestimmten Autor.

Es gibt auch bei solchen Klassifikationsproblemen eine hohe Korrelation zwischen

1

1 Einleitung

den vorkommenden Wortern in einem Dokument und der Dokumentklasse. Sowird man beispielsweise in einer Klasse positiver Produktbewertungen oftmals dieWorter ”gut“ oder ”exzellent“ und in Romanen von A.C. Doyle haufig den Namen

”Sherlock Holmes“ finden. Wir konnen aber die Informationen, die wir aus dem rei-nen Text eines Dokuments extrahieren, mit zusatzlicher Information, wie beispiels-weise dem Satzbau eines Autors oder der statistischen Verteilung der Satzlangen,anreichern.

Diese Arbeit beschreibt alternative Ansatze zum Bag-of-Words-Modell, in denenlinguistische Techniken Verwendung finden. Des Weiteren entwickeln wir Kombina-tionsstrategien fur unterschiedliche Dokumentreprasentationen wie Kombinations-vektoren und Metaklassifkaktion.

1.2 Inhaltsuberblick

Kapitel 2 stellt wichtige Grundlagen aus Information Retrieval, statistischen Lern-verfahren und Sprachwissenschaft dar. Wir werden naher darauf eingehen, wie mitHilfe maschineller Lernverfahren Dokumente klassifiziert werden.

In Kapitel 3 beschreiben wir verschiedene Verfahren zur Konstruktion vonDokument-Featureraumen. Dabei wird zwischen wort- und strukturbasierten Ver-fahren, die textuelle bzw. strukturelle Informationen zur Klassifikation verwenden,unterschieden. Des Weiteren stellen wir Kombinationsstrategien fur diese Verfahrenvor.

Kapitel 4 befasst sich mit Implementierungsaspekten unseres Frameworks underlautert genauer Programmstruktur, Schnittstellen und Kernfunktionalitaten ei-gener und fremder Komponenten.

In Kapitel 5 prasentieren wir verschiedene Experimente, in denen die von uns entwi-ckelten Techniken mit gangigen Verfahren bei themenbasierten Klassifikationspro-blemen, Autorenerkennung und Klassifikation von Filmkritiken verglichen werden.Auch Verbesserungen durch Kombinationsstrategien werden Gegenstand der Be-trachtung sein.

Kapitel 6 gibt abschließend eine Zusammenfassung des Vorgestellten. Wir werdenauf verwandte Arbeiten eingehen und beschreiben, in welchen konkreten Szenarienunser Framework Einsatz finden konnte.

2

2 Grundlagen

Das folgende Kapitel erortert Grundlagen aus Information Retrieval und Sprach-wissenschaft, die zum Verstandnis dieser Arbeit notwendig sind. Da wir in unseremFramework vektorbasierte Maschinenlernverfahren verwenden, beginnen wir damitaufzuzeigen, wie Textdokumente in einen mathematischen Vektorraum transfor-miert werden. Danach spezifizieren wir das Klassifikationsproblem und verschie-dene Lernverfahren, wie z.B. die Support Vector Machine (SVM). Wir schließendas Kapitel mit linguistischen Grundlagen, die im weiteren Verlauf der Arbeit vonBedeutung sind.

2.1 Vektorraummodell

Wir konnen ein Dokument als eine Menge von Wortern auffassen, von denen einigerelevant fur das Thema des Dokumentes sind und andere nicht. In Anlehnung an[12] wollen wir die charakteristischen Worter als Indexterme (oder kurz Terme)bezeichnen.

Eine einfache Transformation einer Menge von Dokumenten in einen mathemati-schen Vektorraum besteht darin, alle Indexterme in der Dokumentmenge als Di-mensionen eines Vektors zu verstehen. Ublicherweise werden aus einem Dokumentso genannte Stoppworter, Worter, die fur das Dokumentthema nicht charakteris-tisch sind (wie z.B. Konjunktionen und Artikel), entfernt und verbleibende Worterauf ihre Stammformen reduziert. Fur eine genauere Darstellung dieser Verfahrenverweisen wir an dieser Stelle auf Abschnitt 3.3.

Es gibt verschiedene Modelle, die auf dieser Sichtweise aufbauen. Eines der ein-fachsten Verfahren verwendet die Information des Vorhandenseins oder Fehlenseines Terms in einem Dokument. Es wird eine binare Gewichtung der Indextermebenutzt. Enthalt ein Dokument d einen Term ti so wird di, die i-te Stelle des Doku-

3

2 Grundlagen

Termextraktion

Stoppwortelimination

Stammformreduktion

Three Rings for the Elven-kings under the sky,

Seven for the Dwarf-Lords in their halls of stone,

Nine for Mortal Men doomed to die,

One for the Dark Lord on his dark throne

In the Land of Mordor where the Shadows lie.

One Ring to rule them all, One Ring to find them,

One Ring to bring them all and in the darkness bind them

In the Land of Mordor where the Shadows lie

…………………………..………………………………...

………………...………………………………………

…………………………………………………................

…………………………………………………..………..

…………………………………………………..………..

…………………………………………………..………..

…………………………………………………..………..

….…………....................................................

……………………………………………….

….…………………………………………….

……….……………………………………….

ring

elven-king

sky

dwarf-lord

hall

stone

mortal

men

….

….

Term

ring

elven-king

sky

dwarf-lord

…

…

shadow

darkness

…

Gewicht

0,4

0,2

0,2

0,2

…

…

0,1

0,2

…

Dokument Indextermliste Dokumentvektor

Abbildung 2.1: Schematische Darstellung der Transformation eines Dokumentes ineinen Vektorraum

mentvektors mit 1, andernfalls mit 0 besetzt. Dieses Modell wird in der Literaturoft als Boolesches Modell bezeichnet. Das Vektorraummodell arbeitet ahnlich wiedas Boolesche Modell. Die Gewichtung erfolgt hier uber die Anzahl des Auftretenseines Terms ti in einem Dokument d, der Termfrequency (tfi,d).

Chakrabarti beschreibt in [17] verschiedene Verfahren, die Termfrequency zu norma-lisieren. Eine gangige Methode ist, die tfi,d-Werte durch die Dokumentlange (evtl.nach Stoppwortelimination und Stammformreduktion) zu dividieren. Abbildung 2.1zeigt in einer schematischen Darstellung die Transformation eines Dokuments in ei-ne Vektorrepasentation, einen so genannten Featurevektor. Erst wird eine Liste vonIndextermen erstellt, indem alle Terme extrahiert, alle Stoppworter eliminiert undalle verbleibenden Terme auf ihre Stammformen reduziert werden. Anschließendwerden die einzelnen Termfrequencies berechnet und als Werte in den Featurevek-tor eingetragen. Jede Dimension des Vektors entspricht einem Indexterm.

2.2 Klassifikation

Liegt ein Dokument als Vektorreprasentation vor, kann es mit Hilfe maschinellerLernverfahren in eine bestehende Taxonomie eingeordnet werden. Anhand einerTrainingsmenge von Dokumenten mit bekannten Klassenlabels werden charakteris-tische Eigenschaften von Dokumenten bestimmter Klassen erlernt und neue Doku-

4

2.2 Klassifikation

mente uber die erlernten Kriterien klassifiziert. Systeme, die entscheiden, welcherKlasse ein Dokument angehort, werden als Klassifikatoren bezeichnet. Diese Artder Klassifikation wird in der Literatur oft als Supervised Learning, ”Lernen mitTrainingsdaten“, bezeichnet.

Wir wollen in diesem Abschnitt zunachst auf den einfacheren Fall der binaren Klas-sifikation eingehen, bei dem die betrachtete Taxonomie nur aus zwei Klassen be-steht. Klassifikationsprobleme mit großeren Taxonomien lassen sich auf den binarenFall zuruckfuhren. In Abschnitt 2.2.4 werden wir das Problem der Multiklassifika-tion naher betrachten.

Es gibt verschiedene Arten von Verfahren zum Supervised Learning, von denen wirim Folgenden kurz einige haufig verwendete vorstellen werden. Fur eine detaillierteBeschreibung verweisen wir an dieser Stelle auf einschlagige Fachliteratur (z.B. [17],[43], [23], [36]).

2.2.1 kNN - k Nearest Neighbours

kNN ist eines der einfachsten Klassifikationsverfahren. Intuitiv geht man davonaus, dass Dokumente einer Klasse gemeinsame Charakteristika aufweisen. Geome-trisch bedeutet das, dass die Featurevektoren von Dokumenten einer Klasse ”nahbeieinander“ liegen.

Ein gelaufiges Maß fur die Distanz zweier Vektoren ist das so genannte Kosinusmaß.Geometrisch beschreibt es den Kosinus des Winkels zwischen den beiden Dokument-vektoren. Verwenden wir Termfrequencies als Gewichtungen in den Vektoren erhal-ten wir als Kosinusmaß der Dokumentvektoren ~d und ~q mit dim (~d) = dim (~q) = n:

sim(d, q) =∑n

i=1 tfi,d · tfi,q√∑ni=1 tf2

i,d ·√∑n

i=1 tf2i,q

Der Klassifikator bestimmt zu einem Testdokument zunachst die k nachsten Nach-bardokumente unter Verwendung eines Ahnlichkeitsmaßes und ordnet das Testdo-kument d dann der Klasse ωj zu, die am haufigsten innerhalb der Nachbardoku-mente auftritt. Formal betrachten wir eine Funktion

f(~d, ωj) =∑

~q∈kNN(~d)

sim(~d, ~q) ·

1 falls ~q ∈ ωj

0 sonst

5

2 Grundlagen

Dokument über Sport

Dokument über Politik

zu klassifizierendes Dokument

Abbildung 2.2: Schematische Darstellung eines kNN-Klassifikators mit k=4

Wir ordnen d der Klasse ωj zu, bei der f(~d, ωj) maximal wird.

Abbildung 2.2 zeigt eine schematische Darstellung eines kNN Klassifikators mitk=4. Es werden die vier nachsten Nachbarn bestimmt. Danach wird das Testdoku-ment in die die Nachbardokumente dominierende Klasse (Sport) eingeordnet.

2.2.2 Naive Bayes

Naive Bayes-Klassifikatoren schatzen die Wahrscheinlichkeit dafur, dass ein Doku-ment d zu einer Klasse ωj gehort unter der Bedingung, dass d einen bestimmtenFeaturevektor ~d besitzt. ”Naiv“ resultiert aus der Annahme, Features seien paarwei-se unabhangig (was eine starke Vereinfachung der Realitat darstellt). Eine einfacheVariante von Naive Bayes verwendet binare Features (vgl 2.1), d.h. es wird nur dasVorkommen bzw. Fehlen eines Features in einem Dokument berucksichtigt, nichtaber die Haufigkeit des Auftretens.

Mit dem Satz von Bayes lasst sich das Wahrscheinlichkeitsproblem daraufzuruckfuhren, dass d den Featurevektor ~d hat, wenn es zur Klasse ωj gehort:

P [d ∈ ωj |~d] =P [~d|d ∈ ωj ]P [d ∈ ωj ]

P [~d]

Da P [~d] konstant ist, gilt:

P [~d|d ∈ ωj ]P [d ∈ ωj ]

P [~d]∼ P [~d|d ∈ ωj ]P [d ∈ ωj ]

6

2.2 Klassifikation

Sei di das Gewicht des Features i, also die i-te Komponente von ~d. Dann gilt:

P [~d|d ∈ ωj ]P [d ∈ ωj ] =( n∏

i=1

P [di|d ∈ ωj ])P [d ∈ ωj ] (Unabhangigkeitsannahme)

Da wir nur binare Features betrachten, ergibt sich( n∏i=1

P [di|d ∈ ωj ])P [d ∈ ωj ] =

m∏i=1

pdii,j(1− pi,j)1−di · pj

wobei pi,j = P [di = 1|cj ] und pj = P [cj ] anhand der Trainingsdaten geschatztwerden.

Eine Moglichkeit, pi,j zu berechnen, besteht darin, die Anzahl der Vorkommen desFeatures i in Dokumenten der Klasse ωj zur Anzahl aller Terme in Dokumentender Klasse ωj in Beziehung zu setzen:

pi,j =

∑d∈ωj

di∑d∈ωj

∑nk=1 dk

n ist dabei die Dimension des Featureraums.

Trotz der Verwendung binarer Features und der Annahme der Featureun-abhangigkeit funktioniert der Naive Bayes-Klassifikator in der Praxis recht gut.Es gibt verschiedene Moglichkeiten, die Prazision weiter zu verbessern.

Aufgrund der Beschaffenheit der Trainingsdaten werden einige pi,j-Werte zu 0geschatzt, d.h. manche Klassenzuordnungen werden ausgeschlossen. Auf diese Artund Weise wird der Klassifikator speziell auf die Trainingsdaten zugeschnitten. Manbezeichnet diesen Umstand als Overfitting. Um das zu verhindern, werden alle pi,j

mit einem von 0 verschiedenen Wert abgeschatzt, indem man Nullwerte durch kleineWerte ersetzt und alle anderen Werte geringfugig reduziert. Eine bekannte Technikdazu ist das so genannte Laplace-Smoothing (Parameterglattung) (vgl. [53]). Wirkonnen die pi,j beispielsweise wie folgt abschatzen:

pi,j =1 +

∑d∈ωj

di

n +∑

d∈ωj

∑nk=1 dk

Genauer wird das Verfahren, wenn man statt binarer Features das Bag-of-Words-Modell zu Grunde legt. In einer einfachen Variante verwendet man als Wahr-scheinlichkeitsverteilung fur die Featurehaufigkeiten eine Binomial-, in einer kom-plizierteren Variante eine Multinomialverteilung. Andere Ansatze, wie z.B. in [31]

7

2 Grundlagen

beschrieben, betrachten das Auftreten eines Features nicht als diskrete, sondernals stetige Zufallsvariable (der Wertebereich der Zufallsvariablen ist nicht mehrabzahlbar oder abzahlbar unendlich, sondern uberabzahlbar), und verwenden eineGauß-Verteilung.

2.2.3 SVM - Support Vector Machines

Da, wie bereits in 2.2.1 erlautert, Dokumente gleicher Klassen im Vektorraummodellnahe beieinander liegen, kann man versuchen, Grenzen zwischen den betrachtetenKlassen zu berechnen. Diesen Ansatz verfolgen die Support Vector Machines. Imeinfachsten Fall kann eine Menge von Dokumenten exakt durch eine Hyperebenemit der Gleichung

(~w · ~x) + b, ~w ∈ RN , b ∈ R

getrennt werden. Man spricht dabei von einer linear separablen Menge. Wurde dieHyperebene mit Hilfe der Trainingsdaten berechnet, kann fur ein neues Dokumentd bestimmt werden, auf welcher Seite der Ebene es liegt.

Intuitiv bedeutet der Abstand von der trennenden Hyperebene, wie gut ein Do-kument zu einer Klasse passt. Je großer also der Abstand ist, desto hoher ist dieWahrscheinlichkeit, dass ein Dokument zu einer entsprechenden Klasse gehort. Esbleibt die Frage zu klaren, wie die Hyperebene bestimmt werden soll, damit derKlassifikator am effektivsten ist. Ein gelaufiger Ansatz sieht vor, die Hyperebeneso zu wahlen, dass das Intervall zwischen den separablen Punkten maximiert wird.Anders ausgedruckt: Die Distanz der Dokumente mit geringstem Abstand zur Hy-perebene soll maximal sein oder noch einfacher: Die Hyperebene muss von demder Ebene nachstgelegenen Dokument der Klasse A (im Folgenden als ”positiv“bezeichnet) gleich weit wie von dem der Hyperebene nachstgelegenen Dokumentder Klasse B (im Folgenden: ”negativ“) entfernt sein. Der Verlauf der Hyperebe-ne hangt nur von den Featurevektoren dieser Dokumente, die als Stutzvektoren1

bezeichnet werden, ab. Abbildung 2.3 zeigt eine schematische Darstellung der Hy-perebenenkonstruktion.

Die so konstruierte Hyperebene ist eindeutig bestimmt. Wir wollen noch etwasformaler auf die Funktionsweise einer SVM eingehen. Im separablen Fall kann die

1engl.: Support Vectors.

8

2.2 Klassifikation

Hyperebene

Stützvektoren

0w x b+ =

Abbildung 2.3: Trennung zweier Dokumentklassen durch eine Hyperebene

trennende Hyperebene durch die Gleichung

(~w · ~x) + b = 0, ~w ∈ RN , b ∈ R

beschrieben werden. Eine Klassifikationsfunktion konnte die Form

f : RN → ±1, ~x → f(~x) := ci = sgn((~w · ~x) + b

), ~x Featurevektor

haben.

Sei ~xi ein Stutzvektor. Da die Hyperebene optimal sein soll, muss gelten:

~xi · ~w + b ≥ +1 fur ci = +1, also fur Positivbeispiele und~xi · ~w + b ≤ −1 fur ci = −1, also fur Negativbeispiele.

Diese Bedingungen konnen wir zu

ci(~xi · ~w + b)− 1 ≥ 0

kombinieren. Durch elementare Vektorrechnung erhalten wir fur die minimalenAbstande zur optimalen Hyperebene den Wert 1

‖~w‖ .

Sei n die Anzahl der Trainingsdokumente. Dann konnen wir das Problem der Be-rechnung der optimalen Trennebene als Optimierungsproblem betrachten:

9

2 Grundlagen

minimiere: τ(~w) = 12‖~w‖2

unter der Bedingung: ci(~w · ~xi + b) ≥ 1, i = 1, . . . , n

Diese Problembeschreibung laßt sich durch die Einfuhrung von Lagrange-Multiplikatoren umformen. Fur Details dieser Rechnung sei auf einschlagige Fachli-teratur verwiesen. Durch die Umformung ergibt sich das folgende duale Optimie-rungsproblem:

maximiere: W (α1, . . . , αn) =∑n

i=1 αi − 12

∑ni,j=1 αiαjcicj(~xi · ~xj)

unter den Bedingungen: αi ≥ 0 mit i = 1, . . . , n und∑n

i=1 αici = 0

Die αi ∈ R sind dabei die Lagrange-Multiplikatoren. Fur die Klassifikationsfunktionf berechnet man dann

f(~x) = sgn( n∑

i=1

ciαi(~x · ~xi) + b),

wobei b sich aus αi[ci(~xi · ~w+b)−1] fur i = 1, . . . , n und ~w =∑n

i=1 αici~xi berechnenlasst.

Bei unseren Betrachtungen haben wir angenommen, dass die Menge der Trainings-dokumente linear separiert werden kann, was in der Praxis manchmal aber nichtder Fall ist. Es gibt verschiedene Losungsansatze fur den nicht separablen Fall. Ei-ne Moglichkeit besteht darin, die Nebenbedingung des Optimierungsproblems zurelaxieren und so ”Ausreißer“ von Dokumenten zuzulassen. Funktioniert dieser An-satz nicht, existieren moglicherweise anders geartete Separatoren. Man versuchtdann derartige Probleme durch eine Transformation in einen hoherdimensionalenVektorraum auf den linearen Fall zuruckzufuhren (vgl. Abbildung 2.4). Fur Ein-zelheiten sei auch an dieser Stelle auf entsprechende Fachliteratur verwiesen (z.B.[15]).

Da sich das SVM-Verfahren sehr gut fur Textklassifikation eignet (vgl. z.B. [29],[24]) verwenden wir SVM als Klassifikator in unserem Framework.

2.2.4 Multiklassifikation

Mehrklassen- oder Multiklassifikationsprobleme lassen sich auf den binaren Fallzuruckfuhren. Exemplarisch wollen wir zwei Verfahren beschreiben.

10

2.2 Klassifikation

Abbildung 2.4: Transformation einer nichtseparablen Dokumentmenge in einenhoherdimensionalen Vektorraum

One vs. All

Sei Ω := ω1, . . . , ωn eine Menge verschiedener Klassen gegeben. Wir unterteilenΩ in n Paare pi = (Ω′

i,Ω′′i ) von Mengen, wobei Ω′

i jeweils die Klasse ωi und Ω′′i alle

Klassen aus Ω\ωi enthalt. Wir trainieren auf jedem Paar pi einen Klassifikator,der entscheiden soll, ob ein Dokument zu der Klasse ωi gehort oder nicht und dazuden Konfidenzwert cvi (im Fall von SVM der Abstand von der Hyperebene) liefert.

Ein neues Dokument d klassifizieren wir mit jedem der Klassifikatoren, wahlen denKlassifikator mit dem hochsten Konfidenzwert aus und weisen d der entsprechendenKlasse zu. Der Aufwand fur die Berechnung des Klassifikationsmodells ist linear inder Anzahl der Klassen und Trainingsdokumente.

Wir wollen die Vorgehensweise noch einmal anhand eines Beispiels verdeutlichen.Betrachten wir die Menge

Ω = Sport (S),Politik (P),Musik (M)

Wir erhalten die Paare

p1 = (S, P,M)p2 = (P, S,M)p3 = (M, S,P)

Darauf trainieren wir Klassifikatoren k1, k2 und k3.

11

2 Grundlagen

Nehmen wir an, die Konfidenzwerte des Dokuments d seien

cv1 = − 0, 14cv2 = 0, 20cv3 = − 0, 10

Da cv2 > cv3 > cv1 gilt, weisen wir d der Klasse ”Politik“ zu.

Error Correcting Output Codes (ECOC)

Das ECOC-Verfahren sieht eine andere Unterteilung der Menge der Klassen vor.Betrachten wir als Beispiel die Klassenmenge

Ω = ω1 = Sport (S), ω2 = Politik (P ), ω3 = Musik (M), ω4 = Wirtschaft (W )

Fur jede mogliche Teilmenge Ω′ ⊆ Ω bauen wir Klassifikatoren KΩ′ = (Ω′,Ω \ Ω′).Da Ω′ genau der Potenzmenge ℘(Ω) von Ω entspricht, erhalten wir 2n Klassifikato-ren. Diese kodieren wir durch Vektoren der Lange n (Anzahl der Klassen in Ω) wiefolgt: Enthalt Ω′ die Klasse ωi, so steht an i-ter Stelle des Vektors eine 1, ansonsteneine 0. In unserem Beispiel wurde also der Klassifikator KS = (S, P,M,W)durch den Vektor (1, 0, 0, 0), der Klassifikator KP,M,W = (P,M,W, S) durchden Vektor (0, 1, 1, 1) kodiert werden. Praktisch trennen KS und KP,M,W diegleichen Klassen (Sport und Politik, Musik, Wirtschaft). Wir nennen die-se Klassifikatoren komplementar. Die Dimensionen ihrer Vektoren sind invertiert.Eliminieren wir fur jeden Klassifikator sein Komplement und zusatzlich K∅ =(∅, S, P,M,W) und KS,P,M,W = (S, P, M,W, ∅), konnen wir die Mengeder Klassifikatoren auf 2n−1 − 1 Vektoren reduzieren. Diese konnen wir in einern× (2n−1 − 1) Matrix zusammenstellen, indem wir in den Spalten die Klassifikato-ren und in den Zeilen die einzelnen Klassen abtragen.

Die Zeile i der Matrix stellt einen Code fur ein Dokument der Klasse ωi dar. EineZeile wird daher als Codewort, die Matrix als Codematrix bezeichnet.

Zur Klassifikation eines Dokumentes d berechnen wir das entsprechende Code-wort. Das Dokument wird dann der Klasse ωi mit der kleinsten Hamming-DistanzdH(ωi, d) zum Codewort zugewiesen. Die Hamming-Distanz zweier Vektoren (oderCodeworter) ist definiert uber die Anzahl der Komponenten, in denen sich die Vek-toren unterscheiden.

12

2.2 Klassifikation

In unserem Beispiel erhalten wir die Codematrix

KS KP KM KW KS,P KS,M KS,W

ω1 = Sport (S) 1 0 0 0 1 1 1ω2 = Politik (P) 0 1 0 0 1 0 0ω3 = Musik (M) 0 0 1 0 0 1 0ω4 = Wirtschaft (W) 0 0 0 1 0 0 1

Testdokument d 0 0 0 1 1 0 1

An der Stelle i, j der Matrix steht eine 1, wenn Klassifikator Kj Klasse ωi enthalt,ansonsten eine 0. Die unterste Zeile zeigt ein Testdokument d = (0, 0, 0, 1, 1, 0, 1).Dieses Dokument wurde der Klasse Wirtschaft zugewiesen, da dH(ω4, d) = 1 <

dH(ωi, d)i∈1,2,3 (d unterscheidet sich nur in der funften Komponente vom Code-wort von ω4).

Der Aufbau des Klassifikationsmodells benotigt exponentiellen Aufwand. DieseKomplexitat wird uber verschiedene Losungsansatze, wie beispielsweise eine ran-domisierte Auswahl der Klassifikatoren, reduziert. Fur Details verweisen wir aufentsprechende Fachliteratur (z.B. [33]).

2.2.5 Featureselektion

Ein Problem der Textklassifikation ist, dass trotz der angesprochenen Stoppwort-elimination und der Stammformreduktion oftmals noch zu viele Features zur Be-trachtung ubrig bleiben. Ein anderes Problem ist eventuell auftretendes Rauschenim Featureraum, d.h. Vorkommen von nicht-diskriminativen Features. Features, diein jedem Dokument beider betrachteter Klassen vorkommen, sind ebenso nutzloswie Features, deren Auftreten nur marginal ist (beispielsweise ist ”Internet“ keingeeignetes Feature zur Abgrenzung der Forschungsgebiete ”Information Retrieval“und ”Datennetze“). Aus diesem Grund versucht man, uber Featureselektionsverfah-ren die charakteristischsten Features herauszufiltern. Im Folgenden wollen wir kurzauf gangige Featureselektionsverfahren eingehen.

IG - Information Gain

Information Gain ist ein Maß fur die Informationsgute eines Features.

Sei Ω = ω1, . . . , ωm die Menge der betrachteten Klassen. Dann ist das IG-Maß

13

2 Grundlagen

des Features f uber die Entropie definiert als

IG(f) = −∑m

i=1 P [ωi] log P [ωi]+P [f ]

∑mi=1 P [ωi|f ] log P [ωi|f ]

+P [¬f ]∑m

i=1 P [ωi|¬f ] log P [ωi|¬f ]

Man berechnet IG uber allen Features der Trainingsdokumente und selektiert die-jenigen, deren IG-Wert großer als ein bestimmter Schwellwert ist.

MI - Mutual Information

MI betrachtet Featurehaufigkeiten als diskrete Ereignisse. Der Einfachheit halberbetrachten wir nur den Fall der binar gewichteten Features. Sei fi eine Zufallsva-riable und ωj eine Klasse. Es gilt

fi =

1 wenn das Feature in einem zufallig ausgewahlten Dokument vorkommt0 sonst

Dann ist der MI-Wert von fi und ωj definiert als

MI(fi, ωj) =∑

f∈fi,¬fi

∑ω∈ωj ,¬ωj

P [f ∧ ω]P [f ]P [ω]

Dies ist ein Sonderfall der so genannten Kullback-Leibler-Distanz, die den Unter-schied zweier Wahrscheinlichkeitsverteilungen angibt.

Featureunabhangigkeit bedeutet, dass ein Feature gleichwahrscheinlich in allenKlassen vorkommt, also fur die Klassifikation unbrauchbar ist. Die charakteris-tischsten Features zur Klassifikation sind demnach diejenigen mit den großten MI-Werten. [53]

χ2-Test

Auch der χ2-Test misst die Unabhangigkeit zwischen einem Feature fi und einerKlasse ωj . Wenn jede der beiden Variablen fi und ωj wieder die Werte 0 und 1annehmen kann lasst sich folgende Entscheidungstabelle aufstellen:

fi

0 1

ωj 0 k0,0 k0,1

1 k1,0 k1,1

14

2.2 Klassifikation

(kl,m)l,m∈0,1 steht dabei fur die Anzahl der Dokumente, fur die ωj = l und fi = m

gilt. Beispielsweise ist k0,1 die Anzahl der Dokumente, die nicht der Klasse ωj

angehoren und bei denen fi auftaucht, fur die also ωj = 0 und fi = 1 gilt.

Sei dazu n = k0,0 +k0,1 +k1,0 +k1,1 gegeben. Dann lassen sich folgende Wahrschein-lichkeiten schatzen:

P [ωj = 0] =k0,0 + k0,1

n(2.1)

P [ωj = 1] =k1,0 + k1,1

n

P [fi = 0] =k0,0 + k1,0

n

P [fi = 1] =k0,1 + k1,1

n

Wenn ωj und fi unabhangig sind, erwarten wir

P [ωj = 0, fi = 0] = P [ωj = 0]P [fi = 0]

Aus der Entscheidungstabelle ergibt sich

P [ωj = 0, fj = 0] =k0,0

n

Analog ergeben sich die kl,m der anderen drei Zellen.

Der χ2-Test aggregiert diese Beobachtungen zu

χ2 =∑l,m

(kl,m − nP [ωj = l]P [fi = m]

)2

nP [ωj = l]P [fi = m]

was sich zu

χ2 =n(k1,1k0,0 − k0,1k1,0)2

(k1,1 + k1,0)(k0,1 + k0,0)(k1,1 + k0,1)(k1,0 + k0,0)

vereinfachen lasst. Je großer der χ2-Wert wird, desto unwahrscheinlicher wird dieUnabhangigkeit zwischen einem Term und einer Klasse, d.h. desto charakteristischerist der Term fur die Klassifikation. [17]

15

2 Grundlagen

2.3 Linguistische Grundlagen

Jede Sprache, sei es eine kunstliche (z.B. eine Programmiersprache) oder einenaturliche (z.B. Deutsch oder Englisch), folgt in ihrer Konstruktion grammati-kalischen Regeln. Offensichtlich ist Sprache mehr als nur eine wahllose Kombi-nation von Wortern zu Satzen (vgl. [38]). Detaillierte Betrachtungen naturlicherSprache wurden den Umfang dieser Arbeit sprengen. Daher werden wir unsereAusfuhrungen auf die Erlauterung von Wortarten, Satzbau und Konstituenten be-schranken. Tiefergehend wird diese Materie in entsprechenden sprachwissenschaft-lichen Arbeiten (z.B. [36], [21], [38]) behandelt.

Da unser Framework auf die Verarbeitung englischer Sprache ausgerichtet ist, ver-wenden wir im Folgenden Beispiele aus dem Englischen.

2.3.1 Wortarten

In naturlicher Sprache lassen sich Worter zu verschiedenen Klassen, so genanntenWortarten gruppieren. Solche Wortarten sind beispielsweise Nomen, Verben undAdjektive.

Nomen

Nomen bezeichnen ublicherweise Lebewesen, Dinge und Orte. Ein Nomen kanndurch Deklination in verschiedene Kasus (Nominativ, Genitiv, Dativ, Akkusativ)und Numeri (Singular und Plural) uberfuhrt werden. Uber das Genus (Maskuli-num, Femininum, Neutrum) wird jedes Nomen einem Geschlecht zugeordnet. Zwi-schen verschiedenen Sprachen konnen die Kasus auch variieren. Beispielsweise kenntdas Lateinische zusatzlich noch den Vokativ, einen Fall fur Anredeformen. Tabelle2.1 zeigt als Beispiel die Deklination des Wortes ”dog“.

Verben

Verben dienen der Beschreibung von Handlungen, Zustanden und Vorgangen. Siewerden durch Konjugation in verschiedene Personen und Tempora (Vergangenheit,Gegenwart, Zukunft) uberfuhrt. Das Tempus lasst sich weiter verfeinern (z.B. Auf-teilung der Vergangenheitsformen in Perfekt und Imperfekt). Das so genannte Ge-nus Verbi gibt an, ob ein Verb eine aktive oder passive Handlung ausdruckt. Verbenkonnen, je nach Verwendungszweck in verschiedenen Modi (Indikativ, Konjunktiv,

16


Singular Plural

Nominativ the dog the dogsGenitiv the dog’s the dogs’Dativ the dog the dogsAkkusativ the dog the dogs

Tabelle 2.1: Deklination eines Nomens

Prasens Imperfekt

1. Person I am I wasSingular 2. Person you are you were

3. Person he/she/it is he/she/it was

1. Person we are we werePlural 2. Person you are you were

3. Person they are they were

Tabelle 2.2: Konjugation eines Verbs

Imperativ) vorliegen. Tabelle 2.2 zeigt die Konjugation des Verbs ”to be“ in Indi-kativ Prasens und Indikativ Imperfekt.

Adjektive

Adjektive werden zur Erganzung von Nomen verwendet. Sie beschreiben Eigenschaf-ten, die Nomen besitzen. Im Allgemeinen konnen Adjektive weggelassen werdenohne die grammatikalische Korrektheit eines Satzes zu verletzen. Eine Ausnahmebesteht im pradikativen Gebrauch eines Adjektivs (z.B. ”He is clever). Adjektivestehen in gleichem Kasus und Numerus wie das Nomen, das sie erganzen. Sie konnendurch Komparation in Positiv, Komparativ und Superlativ gesteigert werden (z.B.big, bigger, biggest).

weitere Wortarten

Neben den drei genannten Wortarten verwenden traditionelle Wortartmodellezusatzlich noch Pronomen, Adverbien, Prapositionen, Konjunktionen und Inter-jektionen. Moderne Ansatze der Sprachwissenschaft tendieren aber zu feingranula-

17

2 Grundlagen

reren Unterscheidungen. Zur Kennzeichnung von Wortarten wurden verschiedeneTag-Sets entwickelt. Haufig verwendete Tag-Sets sind das Brown- und das Penn-Treebank-Tagset [37]. Wir verwenden letzteres in unserer Arbeit.

2.3.2 Satzglieder

Satzglieder drucken Abhangigkeiten in naturlichsprachlichen Satzen aus. DieHauptsatzglieder sind Subjekt, Pradikat und Objekte.

Die Rolle des Pradikats wird immer von einem Verb, die von Subjekt und Ob-jekten meist von Nomen2 ubernommen. Das Pradikat beschreibt die Handlungeines Satzes. Das Subjekt fuhrt die Handlung aus. Objekte ubernehmen je nachKasus verschiedene Funktionen. Ein Genitivobjekt antwortet auf die Frage wes-sen, ein Dativobjekt auf die Frage wem und ein Akkusativobjekt auf die Frage wenoder was. Zusatzlich konnen verschiedene andere Satzglieder (wie z.B. temporalePrapositionalphrasen mit der Frage wann) als Objekte dienen. Im folgenden Beispielist die Nominalphrase ”President George W. Bush“ das Subjekt (wer? ), ”visited“das Pradikat, ”Germany“ ein Akkusativobjekt (wen oder was?) und ”in February“eine Prapositionalphrase (wann? ).

BeispielPresident George W. Bush visited Germany in February.

2.3.3 Konstituenten

Betrachten wir noch einmal das Beispiel aus Abschnitt 2.3.2. Durch Anderung derReihenfolge der Worter in diesem Satz lassen sich sowohl sinnvolle und gramma-tische Satze als auch sprachlich falsche Konstrukte bilden. Beispielsweise konnenwir den Satz ”In February, president George W. Bush visited Germany“ aber auch

”President W. in February visited Bush Germany“ konstruieren. Offensichtlich istdie erste Modifikation grammatikalisch korrekt, die zweite nicht. Es gibt also gewis-se Bestandteile innerhalb des Satzgefuges, die untrennbar zusammenstehen. DieseWortgruppen werden als Konstituenten bezeichnet. In unserem Beispiel ist ”presi-dent George W. Bush“ eine Konstituente.

2Anstelle eines Nomens kann beispielsweise auch ein Pronomen auftreten.

18


S

RP

VBD NP

IN

been

had

that

shotbroken

bolt

in

really

the

himself

Next

assuring

he examined

the

we had

door

ADVP NP, VP

,NNP PRP ,

,

S

NP PP

DT NN IN NP VBG NP SBAR

the framework of NP SBAR

PRT

PRP S

DT NN S VPNP

VPNP DT NN VPADVPVBD

VPVBDPRP RB VBN VP

VBN VBN

VP

Abbildung 2.5: Komplexe Konstituenten

Es gibt verschiedene Testverfahren zur Konstituentenbestimmung. Einen dieserTests, die so genannte Verschiebeprobe haben wir bereits verwendet, indem wirdie Position der Konstituente ”president George W. Bush“ verandert haben. Ande-re Tests sind beispielsweise der Substitutionstest, bei dem eine Wortfolge durch eineandere ersetzt wird (wir konnen ”President George W. Bush“ auch durch ”PrimeMinister Tony Blair“ ersetzen) oder der Interrogationstest, der pruft ob eine Wort-folge Antwort auf eine Frage ist (”President George W. Bush“ ist eine Antwort aufdie Frage ”Who visited Germany in February?“).

Eine andere wichtige Eigenschaft von Konstituenten definiert [10] wie folgt: Ei-ne Konstituente ist eine ”sprachliche Einheit, die Teil einer großeren sprachlichenEinheit ist“. Betrachten wir dazu ein komplexeres Beispiel:

BeispielNext, he examined the framework of the door we had broken in,assuring himself that the bolt had really been shot. [18]

Die Baumdarstellung in Abbildung 2.5 ist eine Moglichkeit, Konstituenten zu er-mitteln. Konstituenten werden als Teilbaume dargestellt. Beispielsweise ist ”theframework of the door we had broken in“ eine geschachtelte Konstituente. Teilkon-stituenten sind u.a. ”the framework of the door“ und ”we had broken in“, sowiez.B. ”the framework“ innerhalb von ”the framework of the door“.

19

2 Grundlagen

Konstituenten konnen also geschachtelt sein. Dabei ist die großte vorkommendeKonstituente eines Satzes der Satz selbst.

Jeder Knoten im Baum ist mit einer Markierung, einem Label, versehen. Die Mar-kierung der Blattknoten sind die einzelnen Worter des Satzes. Die Labels im Innernenthalten syntaktische Information. Ein Satz kann in verschiedene Teile (so genann-te Phrasen) gegliedert werden, die bestimmte syntaktische Funktionen wahrneh-men. Wir wollen kurz auf die Bedeutung einiger wichtiger Phrasentypen eingehen:

Nominalphrase (NP)

Nominalphrasen sind syntaktische Einheiten, die Nomen einschließen. Ein Nomenist der Kopf der Nominalphrase. NP sind fur gewohnlich Argumente von Verben. Siebestehen ublicherweise aus einem optionalen Determinierer (einem Artikel), keinenoder mehreren Adjektiven, einem Nomen (dem Kopf) und optionalen Erganzungenwie z.B. Prapositionalphrasen.

Prapositionalphrase (PP)

Prapositionalphrasen enthalten eine Praposition als Kopf und eine Nominalphraseals Komplement. Sie tauchen oftmals innerhalb von Nominal- und Verbalphrasenauf und machen meist raumliche oder zeitliche Angaben.

Verbalphrasen (VP)

Verbalphrasen werden von einem Verb dominiert. Eine VP organisiert innerhalbeines Satzes alle Elemente, die syntaktisch vom Verb abhangen.

Bisher haben wir nur erlautert, dass man Baume verwenden kann, um Konstitu-enten darzustellen, jedoch nicht, wie diese Baume erzeugt werden. Ein gangigesVerfahren ist das der Probabilistischen Kontextfreien Grammatik (kurz: PCFG3).Wie bei einer normalen Kontextfreien Grammatik (vgl. [45]) besteht eine PCFGaus einer Menge von Nichtterminalen oder Variablen (V = v1, . . . , vn), einerMenge von Terminalen (Σ = σ1, . . . , σm), einem Startsymbol S ∈ V und ei-ner Menge von Ableitungsregeln ∆ = Vi → ζj wobei ζj eine Folge von Ter-minalen und/oder Nichtterminalen ist. Eine PCFG besitzt zusatzlich eine Men-ge P von Ubergangswahrscheinlichkeiten fur die Ableitungsregeln, d.h. PCFG =

3engl.: Probabilistic Context-Free Grammar.

20


(V,Σ,∆, S,P

). Fur die Wahrscheinlichkeiten gilt: ∀i :

∑j P [Vi → ζj |Vi] = 1.

Wir verwenden zur Markierung der Nichtterminale die Labels des Penn-Treebank-Tagsets [37]. Das Tagset annotiert sowohl Wortarten als auch Kasus, Numeri undGenera. Eine Zusammenstellung einiger Tags und deren Bedeutung findet sich inTabelle A.1 im Anhang.

Im Folgenden Beispiel stehen NP fur eine Nominal-, VP fur eine Verbal- und PPfur eine Praspositionalphrase, NNP fur einen Eigennamen in Singular, VBD fur einVerb im Imperfekt, DT fur einen Artikel, IN fur eine Praposition und NN fur einNomen.

BeispielSei PCFG =

(V,Σ,∆, S,P

)mit

Σ = John, saw, the, a, dog, on, hillV = S, NP, VP, PP, VBD, NNP, DT, NN, INStartsymbol: S ∈ V

Fur die Menge P der Ubergangswahrscheinlichkeiten gelte:∆ P[∆] ∆ P[∆]

S → NP VP 1,0 VBD → saw 1,0NP → NNP 0,4 NNP → John 1,0NP → DT NN 0,4 DT → a 0,5NP → DT NN PP 0,2 DT → a 0,5VP → VBD NP PP 0,6 NN → dog 0,5VP → VBD NP 0,4 NN → hill 0,5PP → IN NP 1,0 IN → on 1,0

Aus dieser Grammatik lasst sich z.B. der Satz ”John saw the dog on the hill“ableiten. Die Ableitung ist allerdings nicht eindeutig. Die Abbildungen 2.6 und2.7 zeigen je eine Ableitung des Satzes. Die Ableitungen unterscheiden sich hin-sichtlich ihrer Semantik: Abbildung 2.6 druckt aus, dass John den Hund sieht,der auf dem Hugel steht wahrend Abbildung 2.7 beschreibt, dass John, der aufdem Hugel steht, den Hund sieht. Man spricht hier von ambigen Satzen. DieUbergangswahrscheinlichkeiten in der PCFG dienen dazu, bei mehreren moglichenAbleitungen die wahrscheinlichere zu bestimmen. Ausgehend von den Wahrschein-lichkeiten in unserem Beispiel wird der Lexparser hier Abb. 2.6 als lexikalischenBaum ausgeben.

21

2 Grundlagen

Abbildung 2.6: PCFG-Ableitung Abbildung 2.7: Alternative Ableitung

22

3 Konstruktionsverfahren

3.1 Einfuhrung

Dieses Kapitel widmet sich der Beschreibung einzelner Verfahren zur Konstruktionvon Featureraumen. Wir unterscheiden in dieser Arbeit zwischen zwei Arten vonVerfahren: Wortbasierte Verfahren zeichnen sich dadurch aus, dass sie die Wortereines Dokuments als Features betrachten. Bei strukturbasierten Verfahren losen wiruns davon und betrachten nur strukturelle Eigenschaften. Wir schließen das Kapitelmit der Beschreibung verschiedener Kombinationsmoglichkeiten der vorgestelltenVerfahren wie Kombinationsvektoren und Metaklassifikation. Zunachst wollen wireinige allgemeine Definitionen einfuhren, die das Verstandnis der nachfolgendenVerfahren erleichtern sollen.

3.2 Definitionen und Notationen

Definitionen

Term : Ein Wort innerhalb eines Dokuments wird als Term bezeichnet.

Feature : Ein Feature ist ein Charakteristikum eines Dokuments fur eine Klas-se. Es kann aus einem oder mehreren Termen (bei wortbasierten Ver-fahren) oder strukturellen Eigenschaften (strukturbasierte Verfahren)bestehen.

Mengen

Sei δ ein Dokumentkorpus. Dann bezeichnetDδ := d1, . . . , dk die Menge aller Dokumente in δ,

23


Tδ := t1, . . . , tm die Menge aller Terme in δ undFδ := f1, . . . , fn die Menge aller Features in δ.

Da wir im Folgenden unsere Betrachtungen auf einen beliebigen Dokumentkorpusbeschranken, verzichten wir im weiteren Verlauf auf den Index δ.

Funktionen

w : F ×D → R weist den Features eines Dokuments ein Gewicht zutf : T ×D → R Termfrequency, die absolute Haufigkeit eines Terms in einem

Dokumentff : F ×D → R Featurefrequency, die absolute Haufigkeit eines Features in einem

Dokument

Featurevektor: Mit Featurevektor bezeichnen wir die Reprasentation eines Doku-ments in einem mathematischen Raum. Die Dimensionen eines Fea-turevektors sind Featuregewichte: ~dj :=

(w(f1, dj), . . . , w(fn, dj)

).

3.3 Wortbasierte Verfahren

Wie bereits erwahnt betrachten wortbasierte Verfahren Worter eines Dokumentsals Features, d.h. es gilt F ⊆ T . Die Gewichtungsfunktion w(fi, dj) sei gegebendurch

w(fi, dj) :=ff(fi, dj)

|dj |wobei die Lange eines Dokuments

|dj | =n∑

k=1

ff(fk, dj), fk ∈ F

durch die Anzahl der Features im Dokument bestimmt ist.

Uber verschiedene Filteransatze versucht man, die Dimension des Featureraums zubeschranken. Ein solcher Filter ist die bereits in Kapitel 2.1 angesprochene Extrak-tion von Stoppwortern, Wortern ohne Bedeutung in Hinblick auf das Klassifika-tionsproblem. Solche Stoppworter sind beispielsweise Konjunktionen und Artikel.Zur Identifikation von Stoppwortern verwenden wir die WAIS-Stoppwortliste [7].

24


Term tf(ti, d1) tf(ti, d2) Term tf(ti, d1) tf(ti, d2)t1 One 2 1 t8 bring 0 1t2 Ring 2 1 t9 and 0 1t3 to 2 1 t10 in 0 1t4 rule 1 0 t11 the 0 1t5 them 2 2 t12 darkness 0 1t6 all 1 1 t13 bind 0 1t7 find 1 0

Tabelle 3.1: Termfrequencies fur Beispiel 3.3

Eine weitere Verringerung der Featureraumdimension erreicht man durch Redukti-on der Worter auf ihre Stammformen. Auf diese Weise werden Unterschiede bzgl.Numerus, Kasus und Tempus eliminiert. So werden beispielsweise die Worter run-ner und running auf die Stammform run reduziert. In unserer Implementierungverwenden wir zur Stammformreduktion den Porter Stemming Algorithmus [42]und die Connexor Komponenten Machinese Syntax und Machinese PhraseTagger[49]. Welche Komponente in welchem Verfahren Einsatz findet, ist implementato-risch bedingt. Als Beispiel betrachten wir im Folgenden eine Dokumentmenge D,bestehend aus den Dokumenten d1 und d2 [51]:

Beispield1: One Ring to rule them all. One Ring to find them.d2: One Ring to bring them all and in the darkness bind them.

Tabelle 3.1 zeigt die Verteilung der Termfrequencies fur Beispiel 3.3.

Es gilt also T = t1, . . . , t13.

3.3.1 Bag-of-Words

Bag-of-Words stellt das wohl bekannteste und gangigste Verfahren zur Konstruktionvon Featureraumen dar. Grundsatzlich werden bei dieser Technik alle Worter einesDokuments (evtl. ohne Stoppworter) als Features verwendet.

Entfernen wir in unserem Beispiel die Stoppworter one, to, them, all, and, in und theerhalten wir als Featuremenge F = t2, t4, t7, t8, t12, t13. Da alle Terme bereits in

25


ihrer Stammform vorliegen, andert in diesem Beispiel Stammformreduktion nichtsan der Große des Featureraums. Aus dieser Menge konstruieren wir mit Hilfe derGewichtungsfunktion w(fi, dj) und den Dokumentlangen |d1| = 2+1+1+0+0+0 =4 und |d2| = 1 + 0 + 0 + 1 + 1 + 1 = 4 die Featurevektoren

~dj =(w(t2, dj), w(t4, dj), w(t7, dj), w(t8, dj), w(t12, dj), w(t13, dj)

):

~d1 =(2

4,14,14,04,04,04

)=

(12,14,14, 0, 0, 0

)~d2 =

(14,04,04,14,14,14

)=

(14, 0, 0,

14,14,14

)3.3.2 Wortartextraktion

Ausgehend von der Annahme, dass fur die Textklassifikation einige Wortarten wich-tiger sind als andere, kann man den Featureraum so reduzieren, dass man bestimmteWortarten isoliert. Ziel einer Verkleinerung des Featureraums ist eine hohere Infor-mationsdichte durch Verminderung von Rauschen (Auftreten nicht-diskriminativerFeatures). Generell ist die Isolation jeder beliebigen Wortart denkbar, wenn auchnur bedingt sinnvoll. So wird man von der gesonderten Betrachtung von Konjunk-tionen weniger profitieren als von der Isolation von Verben und Nomen. In unsererImplementierung verfolgen wir vier Ansatze: Die Isolation von Nomen, Verben, Ad-jektiven sowie eine Kombination aus Nomen und Verben. Je großer die Gruppe derbetrachteten Wortarten wird, desto mehr nahert sich das Verfahren dem Bag-of-Words-Modell an. Da ohnehin nur bestimmte Wortarten extrahiert werden, ist hiereine Stoppwortelimination nicht sinnvoll. Allerdings kann hier genau wie bei Bag-of-Words durch Stammformreduktion eine Verkleinerung des Featureraums erreichtwerden. Betrachten wir wieder unser Beispiel, so ergibt sich bei einer Extraktionvon Nomen

F = t2 = ring, t12 = darkness

und somit die Featurevektoren

~d1 =(2

4,04

)=

(12, 0

)~d2 =

(04,14

)=

(0,

14

)

26


Als Dokumentlange fur die Gewichtungsfunktion wahlen wir die schon bei Bag-of-Words verwendete Gesamtlange, d.h. wir berucksichtigen bei der Berechung derDokumentlange auch die nicht extrahierten Terme.

3.3.3 Konstituentenanalyse

Bisher haben wir unsere Untersuchungen auf einzelne Terme beschrankt. Da Spra-che aber mehr als die bloße Aneinanderreihung von Wortern ist, kann man dieBetrachtungen auf Wortgruppen ausweiten. Eine Moglichkeit besteht darin, einSliding-Window, ein gedachtes Textfenster, uber den Text eines Dokuments zuschieben und aus den Termen innerhalb des Fensters Tupel zu bilden. Statt auseinzelnen Termen werden Featurevektoren dann aus Termpaaren konstruiert. Siers-dorfer und Sizov beschreiben ein entsprechendes Verfahren in [44]. Wir verfolgeneinen etwas abweichenden Ansatz, indem wir kein Sliding-Window verwenden, son-dern sprachliche Zusammenhange innerhalb von Konstituenten1 (vgl. Kapitel 2.3.3)ausnutzen. Sei C die Menge aller Konstituenten innerhalb eines Dokuments. Da dieAnzahl aller Konstituenten sehr groß ausfallen kann, betrachten wir nur eine Teil-menge von C zur Featureraumkonstruktion. Dazu definieren wir die Lange einerKonstituente wie folgt:

Termfrequency innerhalb einer Konstituente: Sei cj ∈ C eine Konstituente. Dannbezeichnet tfc(ti, cj) die absolute Haufigkeit des Terms ti in cj

Lange einer Konstituente: lcj :=∑m

k=1 tfc(ti, cj), ti ∈ T, cj ∈ C, heißt Lange derKonstituente cj .

Wir betrachten die Teilmenge

C ⊇ C′ := c ∈ C|a ≤ lc ≤ b, a, b ∈ N fest

d.h. Konstitutenten, die mindestens die Lange a und hochstens die Lange b besitzen.Um Redundanz zu vermeiden, eliminieren wir zusatzlich alle Konstituenten aus C′,die Teil einer anderen Konstituente aus C′ sind.

1Zur Erinnerung: Eine Konstituente ist eine Gruppe zusammengehoriger Worter innerhalb eines

Satzes.

27


Aus der Konstituentenanalyse leiten wir zwei Verfahren zur Featurekonstruktionab:

Featurekonstruktion aus den Konstituenten

Mit den oben gemachten Voraussetzungen gilt hier:

F := C′

Paarbildung innerhalb der Konstituenten

Hier gilt:Sei c ∈ C′. Dann gilt

F :=⋃d∈D

(tα, tβ)|tα ∈ c ∧ tβ ∈ c ∧ tα ≺ tβ

Wir verwenden die lexikographische Ordnung ≺ zur Erhohung der Informations-dichte. Durch Ordnen der Terme innerhalb eines Tupels erreichen wir, dass beispiels-weise ”president$bush“ und ”bush$president“ als ein Feature gewertet werden. Inunserer Implementierung kokatenieren wir alle Terme innerhalb einer Konstituente(evtl. abzuglich der Stoppworter) mit einem Trennzeichen (”$“) zu Featurestrings.Diese Featurestrings werden dann analog zu den Features der oben beschriebenenVerfahren verwendet. Die Dokumentlange |d| andert sich dann dahingehend, dassnicht mehr uber die Termfrequencies der Einzelterme sondern uber die absoluteHaufigkeit der Featurestrings summiert wird.

Betrachten wir z.B. Konstituenten der Lange zwei bis drei in unserem Beispiel,so konnen wir aus Dokument d1 die Konstituenten ”One Ring“, ”rule them all“und ”to find them“, aus Dokument d2 die Konstituenten ”One Ring“, ”bring themall“, ”in the darkness“ und ”bind them“ extrahieren. Da in unserem Beispiel dieKonstituenten zum großten Teil aus Stoppwortern bestehen, verzichten wir an die-ser Stelle darauf, eine Stoppwortelimination durchzufuhren. In der Praxis sind dieFeatures unseres Beispiels wertlos. Sie dienen nur dazu, das Verfahren besser zuverdeutlichen. Tabelle 3.2 zeigt eine Auswahl reeller Features aus positiven undnegativen Filmkritiken, wie sie zur Klassifikation von Meinungen genutzt werdenkonnen. Gute Features in diesem Zusammenhang sind Wertungen (”good job“ vs.

”bad movie“) aber auch Schauspieler (”Tom Hanks“ vs. ”Arnold Schwarzenegger“)

28


positiv negativgood$job even$worsegreat$deal bad$moviequite$good how$bad

good$performances cheap$laughsoscar$nomination bad$acting

tom$hanks walter$matthauquentin$tarantino arnold$schwarzenegger

best$film$year worst$film$yearstar$wars mission$mars

horse$whisperer wild$wild$west

Tabelle 3.2: Konstituentenfeatures fur positive und negative Filmkritiken

Feature ff(fi, d1) ff(fi, d2)f1 One$Ring 2 1f2 rule$them$all 1 0f3 to$find$them 1 0f4 bring$them$all 0 1f5 in$the$darkness 0 1f6 bind$them 0 1

Tabelle 3.3: Konstituentenfeatures zu Beispiel 3.3

oder Filme (”Star Wars“ vs. ”Mission to Mars“). Zur Gewinnung dieser Featureswurde Stammformreduktion angewandt.

Tabelle 3.3 zeigt die Features bei Verwendung ganzer Konstituenten.

Mit |d1| = 1+1+1+0+0+0 = 4 und |d2| = 1 + 0 + 0 + 1 + 1 + 1 = 4 konstruierenwir die Featurevektoren

~d1 =(2

4,14,14, 0, 0, 0

)und ~d2 =

(14, 0, 0,

14,14,14

)Konstruiert man die Features aus Termpaaren innerhalb der Konstituenten erge-ben sich die Features in Tabelle 3.4 und mit |d1| = 8 und |d2| = 7 die Vektoren~d1 =

(28 , 1

8 , 18 , 1

8 , 18 , 1

8 , 18 , 0, 0, 0, 0, 0

)und ~d2 =

(17 , 0, 0, 1

7 , 0, 0, 0, 17 , 1

7 , 17 , 1

7 , 17

). Abbil-

dung 3.1 zeigt eine schematische Darstellung der Featurekonstruktion aus Konsti-

29


Feature ff(fi, d1) ff(fi, d2) Feature ff(fi, d1) tf(fi, d2)f1 One$Ring 2 1 f7 find$them 1 0f2 rule$them 1 0 f8 all$bring 0 1f3 all$rule 1 0 f9 bring$them 0 1f4 all$them 1 1 f10 darkness$in 0 1f5 find$to 1 0 f11 darkness$the 0 1f6 them$to 1 0 f12 bind$them 0 1

Tabelle 3.4: Features zu Beispiel 3.3 bei Paarbildung

One Ring to rule them all.

Konstituentenextraktion

One Ring rule them all

(one$ring, rule$them$all) (one$ring, all$rule, all$them, rule$them)

Konstituenten-

featuresPaarbildung

Abbildung 3.1: Featurekonstruktion aus Konstituenten der Lange 2 - 3

tuenten.

3.3.4 Satzgliedanalyse

Ein anderer Ansatz, Wortzusammengehorigkeiten auszunutzen, besteht darin, denSatzbau zu analysieren. Dazu bestimmen wir Subjekt, Pradikat und Objekte ei-nes Satzes und verbinden diese wie bei der Konstituentenbetrachtung (vgl. 3.3.3)zu Featurestrings. Ein solcher Featurestring hat dann die Form f1$f2$f3$ . . . $fn,wobei f1 das Subjekt, f2 das Pradikat und f3$ . . . $fn die lexikographisch geord-neten Objekte sind. Zur Verkleinerung des Featureraums wenden wir auch beidiesem Verfahren eine Stammformreduktion auf den einzelnen Satzteilen an. Umhier einen Informationsverlust zu vermeiden verzichten wir auf die Elimination vonStoppwortern. In unserem Beispiel erhalten wir die Features in Tabelle 3.5.

Es gilt |d1| = 1 + 1 + 0 + 0 = 2 und |d2| = 0 + 0 + 1 + 1 = 2.

30

3.4 Strukturbasierte Verfahren

Feature ff(fi, d1) ff(fi, d2)f1 Ring$rule$them 1 0f2 Ring$find$them 1 0f3 Ring$bring$them 0 1f4 $bind$them 0 1

Tabelle 3.5: Satzglied Features

Also: ~d1 =(

12 , 1

2 , 0, 0)

und ~d2 =(0, 0, 1

2 , 12

)


Bei strukturbasierten Verfahren fokussieren wir stilistische Merkmale. Man beachte,dass Features, die nach strukturbasierten Verfahren konstruiert werden, keinerleiRuckschluss mehr auf den Inhalt des Textes gewahren. Es werden keine Wortermehr, sondern strukturelle Eigenschaften als Features verwendet, d.h. es gilt F∩T =∅. Die Normierung der Featurevektoren erfolgt uber ihre Lange. Damit ergibt sichdie Gewichtungsfunktion

w(fi, d) :=ff(fi, d)∑|F |i=1 ff(fi, d)

3.4.1 Satzbauanalyse

Ausgehend von der Uberlegung, dass jeder Autor einen individuellen Stil beimSchreiben verfolgt, verwenden wir Satzstrukturen, um Dokumentfeatures zu kon-struieren. Dazu betrachten wir die in Kapitel 2.3.3 beschriebenen lexikalischenBaume. Im Extremfall konnten wir einen solchen Baum komplett als Feature ko-dieren. Das Resultat ware allerdings ein sehr dunn besetzter Featureraum. Daherbetrachten wir statt der kompletten Baume nur Teilbaume bis zu einer vorgegebe-nen Tiefe. Die besten Experimentergebnisse (vgl. Kapitel 5) lieferten uns Teilbaume,die nur aus den Kindknoten von Satz- und Nebensatzwurzeln bestehen. Wir ver-deutlichen die Vorgehensweise anhand eines etwas komplizierteren Beispiels, einemZitat aus Agatha Christies ”The Mysterious Affair at Styles“ [18]:

31


ADVP$,$NP$VP

NP$VP

NP$VP

VP

Abbildung 3.2: PCFG Baum

Beispiel

d1: Next, he examined the framework of the door we had broken in,assuring himself that the bolt had really been shot.

Abbildung 3.2 zeigt den Beispielsatz als lexikalischen Baum. Innerhalb des Satzesgibt es vier Satz- bzw. Nebensatzwurzeln. Die Featuremenge (in der Abbildung grauhinterlegt) ist in diesem Fall

F = f1 = ADV P$, $NP$V P, f2 = V P, f3 = NP$V P

mit ff(f1, d) = ff(f2, d) = 1 und ff(f3, d) = 2. Somit ergibt sich mit der obenangegebenen Gewichtungsfunktion der Featurevektor

~d = (14,14,12).

Tabelle 3.6 zeigt jeweils die besten funf Features nach MI fur eine Klassifikationzwischen Werken von A.C. Doyle und R. Burton.

3.4.2 Satzlangenverteilung

Ein anderer Ansatz der Strukturanalyse basiert auf der Berechnung statistischerVerteilungen von Satzlangen. Die zu Grunde liegende Idee ist, dass verschiene Au-toren im Durchschnitt verschieden lange Satze verwenden. Die Lange |si| eines

32


A.C. Doyle R. Burton

Feature MI Feature MI

S$,$CC$S$. 0.23 S$:$S 0.26PP$NP$VP$. 0.16 S$CC$S 0.23SBAR$,$NP$VP$. 0.14 X$X$NP$VP 0.21SBAR$,$X$NP$VP$. 0.13 S$:$S$. 0.20PP$,$NP$VP$. 0.11 S$:$CC$S 0.18

Tabelle 3.6: TOP 5 MI Features fur Satzbauanalyse

Satzes si sei dabei uber die Anzahl der Worter innerhalb eines Satzes einschließ-lich aller Satzzeichen definiert. Abbildung 3.3 zeigt einen Histogrammvergleich derSatzlangen von A.C. Doyle und R. Burton. Man kann deutlich erkennen, dass Doyleden Langenbereich 1 bis 25 und Burton den Bereich uber 25 Wortern pro Satz do-miniert. Die gewonnene Information verwenden wir auf zweierlei Arten:

Histogrammansatz

Bei der Histogrammdarstellung der Satzlangen verteilen wir die verschiedenenSatzlangen auf einzelne Buckets, wobei Bucket b[m,n] Satze enthalt, die mindestensLange m und hochstens Lange n haben. Als Features verwenden wir die Eintragein den Buckets.

Betrachten wir zur Verdeutlichung ein Dokument d = s1, s2, s3, wobei s1, s2

und s3 Satze der Langen |s1| = |s2| = 5 und |s3| = 12 sind. Dann ergeben sichbeispielsweise die Buckets b[1,5] = |s1|, |s2|, b[6,10] = ∅ und b[11,15] = |s3| undsomit die Features f1 (Eintrage im Bucket b[1,5]), f2 (Eintrage im Bucket b[6,10])und f3 (Eintrage im Bucket b[11,15]) mit den absoluten Haufigkeiten fff1,d = 2,fff2,d = 0 und fff3,d = 1. Mit der Gewichtungsfunktion aus 3.4 erhalten wir dannden Featurevektor

~d = (23, 0,

13).

Statistische Momente

Statt der Histogrammverteilung konnen wir verschiedene statistische Großen uberdie Satzlangen berechnen. Wir betrachten dazu die Satzlange als Zufallsvariable X

33


0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2

1-5 6-10 11-15 16-20 21-25 26-30 31-35 36-40 41-45 46-50 51-55 56-60 61-65 66-70 >70

Satzlängen

relative Häufigkeit

Dolye

Burton

Abbildung 3.3: Vergleich der Satzlangen von A.C. Doyle und R. Burton

und verwenden als Features die ersten k statistischen Momente sowie die ersten k

zentrierten Momente. Unter dem k-ten Moment einer Zufallsvariablen X verstehtman den Ausdruck E(Xk), k ∈ N, unter dem k-ten zentrierten Moment den Aus-druck E

([X − E(X)]k

)(vgl. [50]). Das erste Moment einer Zufallsvariable wird

als Erwartungswert, das zweite zentrierte Moment als Varianz bezeichnet. Bei ei-ner uniformen Verteilung ergibt sich fur den Erwartungswert der Satzlange bei n

Satzen in einem Dokument

E(X) =n∑

j=1

xj

n=

1n

n∑j=1

xj

und damit fur das k-te Moment

E(Xk) =1n

n∑j=1

xjk

und das k-te zentrierte Moment

E([X − E(X)]k

)=

1n

n∑j=1

[X − E(X)]k.

Da die berechneten Werte fur verschiedene k stark in der Große variieren, wen-den wir eine Normalisierung an, um zu gewahrleisten, dass die Komponenten des

34

3.5 Kombinationsverfahren

Featurevektors bei der Klassifikation in etwa gleich stark gewichtet werden. Dazuberechnen wir im Featurevektor jeweils die k-te Wurzel fur das k-te Moment bzw.k-te zentrierte Moment. In unserer Implementierung berechnen wir die ersten dreiMomente sowie das zweite und dritte zentrierte Moment2. Ein Featurevektor, dernach diesem Verfahren konstruiert wurde, hat also die Form

~d =(E(X),

√E(X2), 3

√E(X3),

√E([X − E(X)]2), 3

√E([X − E(X)]3)

)


Unsere Experimente (vgl. Kapitel 5) werden zeigen, dass die vorgestellten linguisti-schen Verfahren zwar im Durchschnitt schlechter als Bag-of-Words, die Klassifika-tionsergebnisse mit Featurevektoren dieser Verfahren aber dennoch weitaus besserals zufallig sind. Im Folgenden stellen wir zwei Ansatze vor, die das Potential ver-schiedener Verfahren zu einem vereinigen. Der erste Ansatz kombiniert die Feature-vektoren aus verschiedenen Verfahren zu Hybridvektoren, der zweite verwendet dieKlassifikationsergebnisse von verschiedenen Verfahren und vereint diese in einemMetaresultat. Beiden gemein ist die Voraussetzung, dass die angewendeten Techni-ken zur Featurekonstruktion Vektoren erstellen, die komplementare Informationenuber ein Dokument enthalten. Beispielsweise ist es nicht sinnvoll, Bag-of-Words undWortartextraktion zu verbinden, da ein mit Wortartextraktion konstruierter Fea-turevektor im Grunde Teil eines nach Bag-of-Words konstruierten Featurevektorssein kann3.

3.5.1 Kombinationsvektoren

Die Idee von Kombinations- oder Hybridvektoren ist, Dokumentvektoren aus ver-schiedenen Verfahren zu einem einzigen Featurevektor zu verbinden. Dazu konkate-nieren wir die Komponenten der einzelnen Vektoren zu einem Gesamtvektor. Seienzu einem Dokument d k Featurevektoren aus disjunkten Verfahren gegeben, d.h.wir betrachten eine Menge V = ~v1(d), . . . , ~vk(d) von Vektoren. Dann erhalten wir

2Wir verwenden das erste zentrierte Moment E([X−E(X)]) nicht, weil es fur jede Satzlange den

Wert 0 aufweist.3Zur Erinnerung: beide Verfahren verwenden Terme als Features.

35


Next, he examined the framework of the door we had broken in, assuring himself that the bolt had really been shot

Bag-of-Words Satzbau

(framework, examin, door, broken, assur, bolt, realli, shot) (ADVP$,$NP$VP, NP$VP, VP, NP$VP)

(framework, examin, door, broken, assur, bolt, realli, shot, ADVP$,$NP$VP, NP$VP, VP, NP$VP)

Abbildung 3.4: Schematische Darstellung eines Kombinationsvektors

durch Konkatenation der Vektorkomponenten einen Hybridvektor

~d =(v1,1, . . . , v1,m1 , . . . , vk,1, . . . , vk,mk

)Dabei bezeichnet vi,j die j-te Komponente in Vektor ~vi(d). Intuitiv bedeutet dieKonkatenation der Featurevektoren eine Anreicherung des Featureraums, also dieErhohung der Anzahl der charakteristischen Features eines Dokuments. Abbildung3.4 zeigt eine schematische Darstellung eines Kombinationsvektors anhand des Bei-spiels aus Abschnitt 3.4.1. Die dabei verwendeten Verfahren sind Bag-of-Wordsund Satzbauanalyse. Genau wie bei den einzelnen Komponenten eines statisti-schen Momente-Vektors besteht naturlich auch hier die Gefahr der Uber- bzw. Un-terschatzung einzelner Komponenten. So werden Featurevektoren mit relativ hohenKomponentwerten starker gewichtet als Vektoren mit relativ niedrigen Komponent-werten. Aus diesem Grund ist es sinnvoll, die Komponenten auf einen einheitlichenZahlbereich zu normalisieren. Im Folgenden entwickeln wir ein Normalisierungsver-fahren, das gewahrleistet, dass die Komponenten der Teilvektoren im Mittel gleichgroß sind. Der normalisierte Featurevektor hat die Form(v1,1(d)

c1, . . . ,

v1,m1(d)c1

, . . . . . . ,vk,1(d)

ck, . . . ,

vk,mk(d)

ck

)Die ci sind dabei Normalisierungskonstanten. Formal wahlen wir diese so, dassfolgende Bedingung erfullt ist:

1ci

1mi

∑d∈D

mi∑l=1

vi,l(d) =1cj

1mj

∑d∈D

mj∑l=1

vj,l(d) ∀i, j ∈ 1, . . . , k

36


Trainings-

daten

Klassifikator 1

Klassifikator 2

Klassifikator k

Meta Ergebnis

Klassifizierte

Dokumente

accept

Tradeoff

reject

Abbildung 3.5: Schematische Darstellung eines Metaklassifikationsvorgangs

Wahlen wir ein Verfahren als Basisverfahren, d.h. wahlen wir 1 als Normalisierungs-konstante eines Verfahrens, lassen sich die anderen Konstanten durch elementareUmformungen der Gleichung bestimmen.

3.5.2 Metaklassifikation

Wahrend Kombinationsvektoren die Featurevektoren verschiedener Verfahren ver-einen wahlt Mekaklassifikation einen etwas anderen Ansatz. Zu jedem Einzelver-fahren werden ein Klassifikator erstellt und die Ergebnisse kombiniert. Siersdorfer,Sizov und Weikum beschreiben in [47] Verfahren zur restriktiven Klassifikation. DieIntention hinter restriktiver Klassifikation ist, nur Klassifikatorentscheidungen bzgl.eines Dokuments zu berucksichtigen, die mit einer relativ hohen Sicherheit gemachtwurden. Bei einem binaren Klassifikationsproblem kommt also zu den Klassen A

und B noch eine dritte Klasse hinzu: die Klasse der abgelehnten Dokumente. Hierbesteht ein Tradeoff zwischen Klassifikationsgute und Verlust. Je großer der Ver-lust wird, desto geringer wird der Klassifikationsfehler (da sich ja auch die Mengeder klassifizierten Dokumente verringert). Abbildung 3.5 zeigt eine schematischeDarstellung des Metaklassifikationsvorgangs. Formal betrachten wir eine MengeK = k1, . . . , kn binarer Klassifikatoren mit Resultaten R(ki, d) ∈ −1, 0,+1fur ein Dokument d, wobei R(ki, d) = +1, wenn das Dokument fur ein gegebenesThema akzeptiert, R(ki, d) = −1, falls d fur das Thema zuruckgewiesen wurde

37


und R(ki, d) = 0 wenn sich der Klassifikator ki seiner Stimme enthalt. Seien t1 > t2

Schwellwerte und w(ki) eine Gewichtungsfunktion fur binare Klassifikatoren. Damitkann eine Metaklassifikationsfunktion Meta(d) wie folgt definiert werden:

Meta(d) =

+1 falls

∑ni=1 R(ki, d) > t1

−1 falls∑n

i=1 R(ki, d) < t2

0 sonst

Diese Klassifikationsfunktion kann, abhangig von der Wahl der Schwellwerte undder Gewichtungsfunktion, in verschiedener Art und Weise Einsatz finden:

Voting

Breiman stellt in [14] die Klasse der Voting-Klassifikatoren vor. Diese funktionierennach einem demokratischen Abstimmungsprinzip. Liegt eine bestimmte Mehrheitvor, so wird ein Dokument in eine Klasse eingeordnet. Fehlt die Mehrheit, wird dasDokument nicht klassifiziert. Grundsatzlich hat jede Stimme das gleiche Gewicht.

Unanimous Decision

Unanimous Decision ist ein Spezialfall des Voting-Klassifikators, bei dem fur dieKlassifikation eines Dokuments eine einstimmige Mehrheit erforderlich ist.

Gewichteter Durchschnitt

In der Praxis weisen verschiedene Klassifikatoren oft unterschiedliche Gutegradeauf. Um dem Rechnung zu tragen, kann eine Gewichtung der Klassifikatoren vor-genommen werden.

Eine Moglichkeit der Berechnung der Klassifikatorgewichte w(ki) besteht in der Be-rechnung eines Gutemaßes, wie k-Fold Crossvalidation oder Leave-One-Out. k-FoldCrossvalidation betrachtet eine Dokumenttrainingsmenge und teilt diese in k gleichgroße Teile auf. Anschließend wird ein Teil ausgewahlt, der Klassifikator auf denverbleibenden k − 1 Teilen trainiert und der ausgewahlte Teil klassifiziert. DieseProzedur wird insgesamt k-mal wiederholt, solange bis jeder Teil einmal klassifi-ziert wurde. Leave-One-Out ist eine Variante der k-Fold Crossvalidation, bei der k

gleich der Anzahl der Dokumente im Trainingsset gesetzt wird. Das so berechnete

38


Gutemaß wird dann mit R(ki, d) multipliziert. Meta(d) ergibt sich also als:

Meta(d) =

+1 falls

∑ni=1 R(ki, d) · w(ki) > t1

−1 falls∑n

i=1 R(ki, d) · w(ki) < t2

0 sonst

Diese Arten der Metaklassifikation berucksichtigen nur die Tatsache, dass einDokument d einer Klasse zugeordnet wird, jedoch nicht, wie sicher sich dieeinzelnen Klassifikatoren sind. Zusatzlich zu den genannten Verfahren konnen wirKonfidenzwerte4 in die Metaklassifikation mit einbeziehen. Dazu definieren wireinen Metakonfidenzwert:

Metakonfidenzwert: Seien c(ki, d) die Konfidenzwerte der Klassifikation von Do-kument d mit Klassifikator ki. Dann bezeichnen wir

cmeta(d) =n∑

i=1

c(ki, d)

als Metakonfidenzwert.

Ebenso wie bei den Voting-Verfahren eliminieren wir die Dokumente, bei denendas Klassifikationsergebnis nicht gesichert ist. Dazu erstellen wir eine Liste vonDokumenten, die absteigend nach absoluten Metakonfidenzwerten |cmeta(d)| sortiertwird und induzieren manuell einen Verlust der Große ∆, d.h. wir klassifizieren nurdie Dokumente mit den (1−∆) hochsten absoluten Metakonfidenzwerten. Je großer∆ gewahlt wird, desto geringer wird der durchschnittliche Klassifikationsfehler, dersich als Verhaltnis der falsch klassifizierten Dokumente zu allen Dokumenten ergibt.

4Zur Erinnerung: der Konfidenzwert eines klassifizierten Dokuments ist das Ergebnis einer Klas-

sifikation. Bei SVM gibt der Konfidenzwert den Abstand des Dokuments zur Hyperebene an.

Je großer der Abstand zur Hyperebene wird, desto sicherer ist sich der Klassifikator bei seiner

Entscheidung.

39

4 Implementierung

Im folgenden Kapitel wollen wir naher auf implementatorische Aspekte unseresFrameworks eingehen. Wir werden Klassenstrukturen und Steuerlogiken beschrei-ben, die die in den vorherigen Kapiteln vorgestellten Konstruktionsverfahren prak-tisch umsetzen. Abschnitt 4.1 gibt einen Uberblick uber den grundlegenden Aufbaudes Frameworks. In den nachfolgenden Abschnitten werden dann die Klassenhie-rarchie und die Hauptklassen mit ihrer Funktionsweise vorgestellt. Wir schließendas Kapitel mit einer Ubersicht uber verwendete Fremdkomponenten und derenEinbindung in unser Framework.

4.1 Uberblick

Dieser Abschnitt soll einen Gesamtuberblick uber das implementierte Frameworkvermitteln. Abbildung 4.1 zeigt eine schematische Darstellung des Frameworks. DerHauptteil dieser Arbeit, die Konstruktion von Featureraumen, ist grau hervorge-hoben. Korpusdaten werden initial von einem Wrapper in ein Datenbankschemagespiegelt. Uber einen Loader werden dann Dokumentinhalte von Trainings- undValidierungsdokumenten (dargestellt durch T und V) extrahiert und uber einenParser in Featurevektoren umgewandelt. Optional kann auf den Featurevektoreneine Featureselektion (vgl. Abschnitt 2.2.5) durchgefuhrt werden (die Berechnungder relevanten Features beruht ausschließlich auf den Trainingsdokumenten). MitHilfe der Featurevektoren werden dann im nachsten Schritt der Klassifikator (vgl.Abschnitt 2.2.3) trainiert und Validierungsdokumente klassifiziert.

Auf die Implementierung einzelner Teilschritte gehen wir im Folgenden naher ein.

41

4 Implementierung

Korpus Wrapper

Loader

Datenbank

KlassifikatorOutput Featureselektiontrainieren

TV

:= Featurevektoren

V := Validierungsdokumente

T := Trainingsdokumente

Lexparser

ConnexorbenutztParser

klassifizieren

Abbildung 4.1: Systemubersicht

4.2 Paketstruktur

Aufgrund der Plattformunabhangigkeit und der komfortablen Programmierungwahlten wir Java in der Version 1.4.2 als Programmiersprache. Das Projekt umfasstetwa 6.500 Zeilen Quellcode (LOC) in 65 Klassen.

Die Implementierung besteht aus 8 Pakete, deren Abhangigkeiten schematisch inAbbildung 4.2 dargestellt sind.

vector enthalt die Hauptbestandteile des Frameworks. Die Pakete wrapper undloader enthalten Klassen, die hauptsachlich dem Laden und Speichern von Korpus-daten dienen. Das Paket parser beinhaltet die Klassen zur Konstruktion der Doku-mentfeatures. Das darunter liegende Paket handler kapselt Hilfsklassen, die von denParsern benotigt werden. util enthalt Datenhaltungsobjekte (z.B. Dokument- oderDokumentklassenreprasentationen) sowie einige Werkzeuge (z.B. ID-Generatorenund Skriptparser). main kapselt die Benutzerschnittstellen des Frameworks. DasPaket connexor enthalt Klassen, die die Kommunikation mit den Connexor Kom-ponenten (s. Abschnitt 4.5.2) realisieren sowie einen RMI1-Server und RMI-Clients,

1Remote Method Invocation.

42

4.3 Framework

utilloader

connexor

parser

handler

wrapper

mainvector

Abbildung 4.2: Paketstruktur

mit denen die Connexor-Funktionalitat auf verschiedene Rechner verteilt werdenkann.

4.3 Framework

Das vorliegende Framework ist darauf ausgerichtet, Featurevektoren zu konstru-ieren und in Hinblick auf ihre Eignung zur Dokumentklassifikation auszuwerten.Wir wollen daher im Folgenden das Gesamtframework in einen Konstruktions- undeinen Experimentteil gliedern. In der eigentlichen Implementierung ist der Ubergangzwischen beiden Teilen fließend.

Zunachst erlautern wir das dem Framework zu Grunde liegende Datenbankschema,beschreiben, wie Korpusdaten verarbeitet, und wie konkret Featureraume konstru-iert werden. Wir schließen das Kapitel mit einem Uberblick uber Konstruktions-und Experimentalteile des Frameworks.

4.3.1 Datenbankschema

Jeder Korpus wird mit Hilfe der Wrapperklassen in ein eigenes Datenbankschemaabgebildet:

43

4 Implementierung

Abbildung 4.3: ERM-Darstellung Datenbankschema

@ classes(classid, name)@ classpairs(cpid, classidA, classidB)@ documents(docid, classid, title, content, filename, lextree, sentences)@ traindocs(classid, docid)@ valdocs(classid, docid)@ results(classPairID, experimentID, error, accuracy, loss, alldocs)@ technicweights(twid, cpid, tid, weight)@ featurevectors(docid, classid, tid, fid, fweight)technics(id, name)

Das Prafix @ wird durch ein Kurzel des entsprechenden Korpus (z.B. ”ng“ fur 20-Newsgroups) ersetzt. Abbildung 4.3 zeigt die Abhangigkeiten der einzelnen Daten-bankrelationen als ERM-Diagramm. Die Rechtecke (Entities) reprasentieren dabeidie Datenbanktabellen, deren Spalten als Attribute in den Ellipsen dargestellt sind.Primarschlussel sind mit einer durchgangigen, Fremdschlussel mit einer gestrichel-

44

4.3 Framework

ten Linie unterlegt.

Die Tabellen classes und documents speichern den Aufbau des Korpus, d.h.alle vorhandenen Klassen und Dokumente mit Inhalten. Das Attribut content

wird dabei als CLOB2, lextree und sentences als BLOB3 abgelegt. Die Tabellenclasspairs, traindocs und valdocs enthalten Daten zum generellen Experiment-aufbau. Dort wird abgelegt, welche Klassenpaare in der Klassifikation gegeneinan-der antreten und welche Trainings- und Validierungsdokumente Verwendung fin-den. Abschnitt 5.2 geht naher darauf ein, wie wir genau Klassenpaare, Trainings-und Validierungsdokumente bestimmen. Die Tabelle result dient als Speicher furKlassifikationsergebnisse. technicweights enthalt Gewichte fur die einzelnen Fea-turekonstruktionstechniken. Diese Gewichte sind vom betrachteten Klassenpaarabhangig. featurevectors speichert berechnete Dokumentfeatures und Featurege-wichte. Features werden dabei in der Datenbank nur uber einen eindeutigen Identi-fier (fid) abgelegt. Das Attribut tid ist Fremdschlussel in der Tabelle technics, dieInformationen uber die moglichen Konstruktionstechniken (z.B. Wortartextraktionund Satzgliedanalyse, vgl. Kapitel 3) enthalt.

4.3.2 Konstruktionsframework

Zum Konstruktionsframework wollen wir die Wrapper-, Loader- und Parserklassenzahlen.

Die Wrapper- und Loaderklassen implementieren den Umgang mit einem Textkor-pus. Als Ausgangstyp dienen die Klassen DefaultWrapper und DefaultLoader, vondenen die jeweiligen Wrapper und Loader abgeleitet werden. Fur jeden Korpus (vgl.Abschnitt 5.1) gibt es eine eigene Loader- und eine eigene Parserklasse. Aufgabe derWrapperklassen ist die Abbildung eines Dokumentkorpus in das interne Datenbank-schema. Die Loaderklassen stellen Methoden zum Verarbeiten der gespeichertenDaten zur Verfugung. Dazu zahlt u.a. das Auslesen von Trainings- und Validie-rungsdokumenten (getTrainingDocuments() und getValidationDocuments()).Bevor ein Experiment ausgefuhrt werden kann, mussen Klassenpaare, Trainings-und Validierungsdokumente bestimmt werden. Auf die genaue Verfahrensweise zurBestimmung dieser Experimentdaten werden wir spater in Abschnitt 5.2 eingehen.

2Character Large Object, ein Datentyp zur Speicherung großerer Textmengen.3Binary Large Object, Datentyp zur Speicherung binarer Daten.

45

4 Implementierung

Entsprechende Funktionalitat wird ebenfalls in den Loaderklassen implementiert.

Die Parserklassen stellen die Kernfunktionalitat zur Konstruktion von Feature-vektoren bereit. Hier werden die Dokumentinhalte geparst und je nach verwende-tem Konstruktionsverfahren in entsprechende Featurevektoren umgewandelt. Wiedie Wrapper- und Loaderklassen werden auch die Parser von einer Basisklasse(DefaultParser) abgeleitet. Jede Klasse, die dabei fur eine Konstruktionstech-nik steht, implementiert die Methode parse(Document), deren Ruckgabewert einObjekt vom Typ Terms2 (vgl. Abschnitt 4.5.3) ist, die interne Reprasentation einesFeaturevektors.

Innerhalb der Parserklassen nimmt die Klasse ComnbinationParser eine Sonder-stellung ein. Sie implementiert die Kombinationsvektoren. Wir werden in Abschnitt4.4.1 naher auf die konkrete Funktionsweise von CombinationParser eingehen.

4.3.3 Experimentalframework

Die Benutzerschnittstellen und die Klasse FeatureBuilder bilden den Hauptteildes Experimentalframeworks.

Konsoleneingaben steuern, welcher Korpus, welche Konstruktionsverfahren undwelcher Experimentmodus (Klassifikation, Kreuzvalidierung oder Ausgabe einerFeatureverteilung) verwendet werden sollen. Diese Funktionalitat wird von denKlassen Experiment und ExperimentSuite implementiert. Experiment dient zumAusfuhren eines Einzelexperiments, ExperimentSuite startet eine Experimentrei-he. Allgemeine Parameter sind uber eine Konfigurationsdatei festgelegt.

Die Klasse FeatureBuilder stellt die zentrale Steuerlogik des Frameworks bereit.Sie veranlasst das Laden und Parsen von Dokumenten, das Training des Klassifi-kators, das Klassifizieren neuer Dokumente und das Auswerten bzw. Speichern derExperimentdaten. FeatureBuilder ist als Singleton Objekt implementiert. Es haltje eine Instanz eines Korpus-Loaders und -Wrappers sowie je nach Konstruktions-verfahren einen oder mehrere Parser.

Die zentrale Methode run() fuhrt je nach gewahltem Experimentmodus den ent-sprechenden Programmablauf durch. Experimentmodi sind dabei Klassifikation,Klassifikatorgewichtung (vgl. Abschnitt 3.5.2) und Ausgabe von Featureverteilun-gen.

46

4.3 Framework

1) classPairs // Liste von Klassenpaaren2) run()3) for each c in classPairs do4) classA = c.getClassA();

5) classB = c.getClassB();

6) prepareTraining(classA);

7) prepareTraining(classB);

8) trainClassifier();

9) prepareValidation(classA, classB);

10) applyClassifier();

11) computeAVGFromDB();

Abbildung 4.4: Pseudocode: vector.FeatureBuilder.run()

Wir wollen kurz den Ablauf eines Klassifikationsexperiments erlautern. Abbildung4.4 stellt die Programmfolge in Pseudocode dar.

In einer Iteration uber alle Klassenpaare werden die Gegnerklassen bestimmt. DieMethode prepareTraining() ladt eine vorgegebene Anzahl Dokumente als Trai-ningsbasis aus der Datenbank. Uber die Parserklassen werden die Featurevektorenberechnet, mit denen in trainClassifier() der Klassifikator trainiert wird.

prepareValidation() ladt die Dokumente aus der Datenbank, die zur Validierungdienen sollen und berechnet wiederum die Featurevektoren. Im Gegensatz zu denTrainingsdaten unterscheiden wir hier nicht mehr a priori in Dokumente der KlasseA oder B.

applyClassifier() startet den Klassifikationsvorgang, bei dem jedes Dokumenteiner Klasse zugewiesen wird. Jedes Dokument kennt die Klasse, der es angehort.Stimmt diese Klasse mit der vom Klassifikator zugewiesenen uberein, wird dasDokument als richtig, andernfalls als falsch klassifiziert eingestuft. Das Klassifika-tionsergebnis wird in der Datenbank abgelegt.

Wurden alle Klassenpaare verarbeitet, berechnet computeAVGFromDB() die durch-schnittlichen Fehler-, Exaktheits- und - bei der Metaklassifikation - Verlustquoten

47

4 Implementierung

1) parser // Liste von ParserKlassen2) parse(Collection documents)

3) for each p in parser do4) for each d in documents do5) f = d.getFeatureVector();

6) f.append(p.parse(d));

7) normalize(documents);

8) return documents;

Abbildung 4.5: Pseudocode: vector.parser.CombinationParser

auf Grundlage der in der Datenbank abgelegten Klassifikationsergebnisse.

4.4 Kombinationstechniken

Dieser Abschnitt gibt einen Uberblick uber die Implementierung der Kombinations-strategien. Wir beginnen mit der Vorstellung der Klasse CombinationParser ausdem Paket vector.parser. Anschließend gehen wir auf die Implementierung ver-schiedener Metaklassifikationsverfahren ein.

4.4.1 Kombinationsvektoren

Zur Konstruktion von Kombinationsvektoren verwenden wir die KlasseCombinationParser. Abbildung 4.5 zeigt in Pseudocode die Funktionsweise . DieMethode iteriert uber alle zu kombinierenden Techniken (dargestellt durch die Lis-te parser) und alle Dokumente (das Argument documents). Jedes Dokument wirdmit jedem Parser analysiert und der resultierende Featurevektor an den Doku-mentvektor angehangt. Die Methode normalize(documents) berechnet initial dieNormalisierungskonstanten und wendet diese auf die entsprechenden Komponentendes Featurevektors an (vgl. Abschnitt 3.5.1).

48

4.4 Kombinationstechniken

4.4.2 Metaklassifikation

Wir wollen zwei Verfahren zur Metaklassifikation beschreiben: Einen Voting-Klassifikator und einen Metaklassifikator mit benutzer-induziertem Verlust (vgl.3.5.2).

Voting

Abbildung 4.6 zeigt den Programmablauf eines Voting-Klassifikators.

1) classifierList // Liste von Klassifikatoren2) threshold // Voting Schwellwert3) votingClassify(classPair)4) classA = classPair.getClassA();

5) classB = classPair.getClassB();

6) trainClassifier(classifierList);

7) documents := prepareValidation(classA, classB);

8) for each d in documents do9) countA := 0; countB := 0;

10) for each c in classifierList do11) result := classify(d);

12) if (result = classA)

13) countA += 1;

14) else if (result = classB)

15) countB += 1;

16) if (countA / classifierList.size() ≥ threshold)

17) d.setClassified(classA);

18) else if (countB / classifierList.size() ≥ threshold)

19) d.setClassified(classB);

20) else21) d.setClassified(null);

Abbildung 4.6: Pseudocode: Voting Klassifikator

49

4 Implementierung

Zunachst werden alle Klassifikatoren mit Features verschiedener Konstruktions-verfahren trainiert und die Featurevektoren der Validierungsdokumente berechnet.Danach erfolgt eine Iteration uber alle zu klassifizierenden Dokumente. Wir ver-wenden zwei Zahler countA und countB fur die Anzahl der Klassifikatoren, dieein Dokument der Klasse A bzw. B zuordnen. Wurde ein Dokument mit jedemder Klassifikatoren klassifiziert, berechnet die Methode anhand eines vorgegebenenSchwellwertes (threshold), welcher Klasse ein Dokument zugeordnet werden soll.Liegen die Werte beider Klassen unter dem Schwellwert, so wird das Dokumentverworfen, also nicht klassifiziert (d.setClassified(null)).

Benutzer-induzierter Verlust

Abbildung 4.7 zeigt die Pseudocode-Darstellung eines Metaklassifikators mitbenutzer-induziertem Verlust. Zunachst werden wieder die einzelnen Klassifikatorentrainiert. In einer anschließenden Iteration uber alle Dokumente werden Dokumentevon jedem Klassifikator klassifiziert und die Konfidenzwerte zu einem Metakonfi-denzwert aufsummiert (metaConfidence). Die Metakonfidenzwerte jedes Dokumen-tes werden in einem Array (metaConfidenceArray) gesammelt. Diese Liste wirdnach Abschluß der Iteration sortiert. Anschließend wird nach einem SchwellwertVerlust induziert (induceLoss()), indem eine bestimmte Anzahl Dokumente ausder Liste geloscht wird.

4.5 Fremdkomponenten

Neben unseren eigenen Implementierungen verwenden wir einige Fremdkomponen-ten. Die wichtigsten davon wollen wir im folgenden Abschnitt vorstellen. Zunachstwidmen wir uns dem Lexikalischen Parser der Universitat von Stanford und denConnexor Komponenten Machinese Phrase Tagger und Machinese Syntax. Daranan schließt sich eine kurze Beschreibung der Klassen zur internen Darstellung derFeaturevektoren und zur Featureselektion sowie eine Vorstellung des Klassifikati-onsframeworks SVMlight.

50


1) classifierList // Liste von Klassifikatoren2) metaClassify(classPair)3) classA = classPair.getClassA();

4) classB = classPair.getClassB();

5) trainClassifier(classifierList);

6) documents := prepareValidation(classA, classB);

7) metaConfidenceArray := new Array[documents.size()];

8) for (d := documents[i]i=1,...,n) do9) metaConfidence := 0;

10) for each c in classifierList do11) metaConfidence += classify(d);

12) metaConfidenceArray[i] := metaConfidence;

13) metaConfidenceArray.sort();

14) induceLoss();

Abbildung 4.7: Pseudocode: Metaklassifikator mit benutzer-induziertem Verlust

4.5.1 Lexparser

Der an der Universitat von Stanford entwickelte Lexikalische Parser [4] zerlegt vor-gegebene Satze anhand syntaktischer und semantischer Abhangigkeiten. Das Re-sultat sind lexikalische Baume, wie sie bereits in Kapitel 2.3.3 beschrieben wurden.

Das Lexparser-Framework ist in Java implementiert und kann daher direkt auseiner Java-Applikation angesprochen werden. Im Rahmen unserer Versuche mitdem Lexparser haben wir Laufzeitsimulationen durchgefuhrt. Die Laufzeit verhaltsich deutlich nicht-linear zur Satzlange. Abb. 4.8 zeigt eine Laufzeitkurve. Auf derAbszisse sind die Satzlangen, auf der Ordinate die Berechnungszeit des Parsebaumsin Millisekunden aufgetragen. Als Testgrundlage dienten hierbei verschieden langeSatze, die aus dem 20-Newsgroups-Korpus [1] extrahiert wurden.

Der Lexparser ist innerhalb unseres Frameworks der Performance-Engpass. UmExperimente in angemessener Zeit durchfuhren zu konnen, werden die lexikalischenBaume eines Korpus initial berechnet und in der Datenbank abgespeichert.

51

4 Implementierung

Abbildung 4.8: Laufzeit Stanford Lexparser

Wir verwenden den Lexparser zur Bestimmung der Baumstrukturen einzelner Satzeum daraus Informationen uber Satzbau, Satzlange, Tiefe der Verschachtelung undKonstituenten zu gewinnen.

4.5.2 Connexor

Ein weiterer Teil unseres Frameworks ist die linguistische Software des finnischenSoftwarehauses Connexor. wir wollen im Folgenden auf zwei verwendete Kompo-nenten eingehen: Machinese Phrase Tagger und Machinese Syntax. Alle ConnexorKomponenten werden als COM4-Objekte in die Microsoft-Windows Systemumge-bung installiert. Fur Machinese Phrase Tagger und Machinese Syntax stehen Java-Clients zur Verfugung, die uber JNI5 mit den COM-Objekten kommunizieren.

4Component Object Model.5Java Native Interface.

52


Machinese Phrase Tagger

Der Machinese Phrase Tagger stellt syntaktische und morphologische Informationenuber einen Satz bereit. Er besitzt einen schnellen Parser, der Texteingaben mitStammformen und Phrasenstrukturinformationen anreichert. Neben der einfachenBestimmung der Wortarten markiert der Phrase Tagger auch die jeweiligen Kopfeeinzelner Nominalphrasen sowie Numerus von Nomen und Tempus von Verben.

Derselbe Performance-Test wie in Abschnitt 4.5.1 ergab keine meßbare Veranderungder Geschwindigkeit bei Satzlangen zwischen einem und 66 Wortern. Die Laufszeitlag konstant deutlich unter 10 Millisekunden. Diese Tatsache bestarkt eigene Anga-ben von Connexor, nach denen der Phrase Tagger durchschnittlich 11.100 Zeichenpro Sekunde verarbeiten kann [19].

Wir verwenden den Phrase Tagger hauptsachlich zur Bestimmung von Wortarten(vgl. Abschnitt 2.3.1).

Machinese Syntax

Machinese Syntax sammelt detailliertere Phrasenstrukturinformationen uber einenSatz. Es werden Zusammenhange zwischen den einzelnen Satzteilen aufgedeckt undsomit ein Erkennen von ”Subjekt-Pradikat-Objekt-Tupeln“ ermoglicht. Der Funkti-onsumfang von Machinese Syntax beinhaltet eine heuristische Satzerkennung (bei-spielsweise fuhren Abkurzungen wie etc. oder e.g. nicht zwangslaufig zur Erkennungdes Satzendes). Die Laufzeit von Machinese Syntax ist approximativ linear in derAnzahl der Worter (vgl Abbildung 4.9).

Machinese Syntax findet in unserem Framework bei der Zerlegung eines Dokumentsin Satze und bei der Bestimmung von Satzgliedern Verwendung (vgl. 2.3.2).

4.5.3 Featurevektoren

Zur internen Darstellung der Dokument-Featurevektoren im Kontext unseresFrameworks verwenden wir die Klasse Terms2 aus dem Paket meta.vectors

von S. Siersdorfer (vgl. [44]). Diese Klasse kapselt Feature-ID und Feature-gewicht. Aufbauend auf dieser Reprasentation der Featurevektoren verwendenwir die Klassen meta.vectors.IGSelection, meta.vectors.MISelection undmeta.vectors.ChiSquaredSelection fur eine Featureselektion nach Information

53

4 Implementierung

Abbildung 4.9: Laufzeit Connexor Machinese Syntax

Gain, Mutual Information und χ2.

4.5.4 SVMlight

SVMlight [6] ist eine C-Implementierung der in Abschnitt 2.2.3 vorgestellten Sup-port Vector Machine. Die Ein- und Ausgabe erfolgt mit Hilfe von Textdateien inspeziellen Formaten. Der große Vorteil von SVMlight ist die hohe Performanz. An-dere Implementierungen, wie beispielsweise die SVM aus dem BioJava-Projekt [2],bieten die gleiche Funktionalitat, meist aber weitaus schlechtere Laufzeiten. ZurKommunikation mit SVMlight verwenden wir die Klassen aus S. Siersdorfers Paketmeta.svmlight (vgl. [44]).

54

5 Experimente

Dieses Kapitel beschreibt Experimente und Ergebnisse auf Grundlage der in denvorangegangenen Abschnitten beschriebenen Techniken zur Konstruktion von Fea-turerraumen. Wir wollen damit beginnen, verschiedene Textkorpora vorzustellen,die uns Daten fur unsere Experimente liefern. Anschließend werden wir den allge-meinen Aufbau der Experimente beschreiben und die Ergebnisse darlegen.

5.1 Korpora

Wir wollen in diesem Abschnitt naher auf die Textkorpora eingehen, die in unserenExperimenten Verwendung fanden. Wir betrachteten drei verschiedene Klassifika-tionsprobleme: themenbasierte Klassifikation, Klassifikation von Meinungen undAutorenerkennung.

20-Newsgroups

Der Newsgroups-Korpus aus [1] besteht aus 18.837 Beitragen in 20 Newsgroup-Klassen (vgl. Tabelle 5.1). Einzelne Klassen enthalten zwischen 600 und 1000 Do-kumenten.

20-Newsgroups reprasentiert einen themenbasierten Textkorpus.

Movie-Review

Der Movie-Review Korpus, beschrieben in [41], besteht aus Filmkritiken, die vor2002 verfasst wurden. Der Korpus wurde aus der Internet Movie Database (vgl. [3])extrahiert. Er enthalt zwei Kategorien a 1000 Dokumente: positive und negativeKritiken mit ca. 20 Kritiken pro Autor bei insgesamt 312 Autoren pro Kategorie.

Wir verwendeten diesen Korpus als Beispiel fur die Klassifikation von Meinungen.

55

5 Experimente

alt.atheism rec.sport.hockey

comp.graphics sci.crypt

comp.os.ms-windows.misc sci.electronics

comp.sys.ibm.pc.hardware sci.med

comp.sys.mac.hardware sci.space

comp.windows.x soc.religion.christian

misc.forsale talk.politics.guns

rec.autos talk.politics.mideast

rec.motorcycles talk.politics.misc

rec.sport.baseball talk.religion.misc

Tabelle 5.1: Klassen 20-Newsgroups

Gutenberg

Dieser Korpus besteht aus Buchern des Projekts Gutenberg [5]. Zielsetzung desProjekts ist die Digitalisierung, Archivierung und Verteilung literarischen Kultur-guts. Wir wahlten 10 englische und amerikanische Autoren (dargestellt in Tabelle5.2) mit einer ausreichend großen Anzahl an Buchern. Jedes Buch zerlegten wir inTeile bestehend aus jeweils 20 Paragraphen. Als Paragraph betrachteten wir dabeieinen zusammenhangenden Textabschnitt zwischen zwei leeren Zeilen. Jeden Teilverwendeten wir als eigenstandiges Dokument.

Gutenberg reprasentiert das Klassifikationsproblem der Autorenerkennung.

5.2 Experimentaufbau

Auf jedem Korpus fuhrten wir binare Klassifikation auf Klassenpaaren wie z.B.rec.autos vs. talk.politics.mideast bei 20-Newsgroups, positive vs. negative Kriti-ken bei Movie-Review und Richard Burton vs. Arthur Conan Doyle bei Gutenbergdurch. Bei 20-Newsgroups wahlten wir dazu randomisiert aus allen moglichen Kom-binationen 50 Klassenpaare aus, bei Gutenberg verwendeten wir alle 45 moglichenKombinationen. Fur jede Klasse bestimmten wir initial zufallig 100 Trainingsdo-kumente. Von dieser Trainingsmenge benutzten wir je 20, 40, 60, 80 und 100 Do-kumente fur unsere Experimente. Die Validierung erfolgte bei 20-Newsgroups und

56

5.3 Experimentablauf

Richard Burton

Charles Dickens

Arthur Conan Doyle

Henry Rider Haggard

George Alfred Henty

Jack London

Edgar Allan Poe

William Shakespeare

Robert Louis Stevenson

Mark Twain

Tabelle 5.2: Autoren Gutenberg-Korpus

Gutenberg auf jeweils 500, beim Movie-Review-Korpus auf je 900 Dokumenten proKlasse.

Als Maß fur die Klassifikationsgute diente uns der durchschnittliche Fehler:

error :=∑n

i=1 c(di)n

wobeic(di) :=

1, wenn di falsch klassifiziert wurde0, sonst

und n die Anzahl aller klassifizierten Dokumente darstellt (was außer im Fall derrestriktiven Klassifikation gleich der Anzahl aller Dokumente ist). Bei restriktiverKlassifikation (vgl. Abschnitt 3.5.2) berechneten wir zusatzlich den durchschnitt-lichen Verlust (loss). Dieser beschreibt die Anzahl der Dokumente, uber die derMetaklassifikator keine Aussage trifft. Der Verlust wird von der Anzahl aller Doku-mente subtrahiert, sodass in diesem Fall n = (alle Dokumente− loss) gilt.

Als statistisches Lernverfahren benutzten wir SVM in der in Abschnitt 4.5.4 vorge-stellten Implementierung SVMlight.

5.3 Experimentablauf

Wir wollen im Folgenden unsere Experimente in nicht-restriktive und restriktiveVerfahren unterteilen (vgl. Abschnitt 3.5.2).

57

5 Experimente

5.3.1 Nicht-restriktive Verfahren

Bei den nicht-restriktiven Verfahren verglichen wir folgende Featurekonstruktions-techniken (Kurzel fur die Konstruktionstechniken in Klammern):

1. Wortbasierte Verfahren (unter Verwendung der WAIS-Stoppwortliste [7])

a) Bag-of-Words mit Stammformreduktion (BoW) (vgl. 3.3.1)

b) Wortartextraktion (vgl. 3.3.2) von

- Nomen (N)- Verben (V)- Adjektiven (Adj)- Nomen und Verben (N&V)

c) Konstituenten (Konst) und Paare innerhalb von Konstituenten (Paare)(vgl. 3.3.3)

d) Satzgliedanalyse (Satzglied) (vgl. 3.3.4)

2. Strukturbasierte Verfahren

a) Satzbauanalyse (Satzbau) (vgl. 3.4.1)

b) Satzlangenverteilung mit Histogrammansatz (Histogramm) und statis-tischen Momenten (Momente) (vgl. 3.4.2)

3. Kombinationsvektoren (Kombi) aus Bag-of-Words-, Satzbau- und Histo-grammfeatures

5.3.2 Restriktive Verfahren

Bei restriktiven Verfahren verwendeten wir einen Unanimous-Decision-Klassifikatorund einen Metaklassifikator mit benutzer-induziertem Verlust (vgl. Abschnitt3.5.2). Letzteren verglichen wir mit einem restriktiven Bag-of-Words-Klassifikator.

58

5.4 Ergebnisse

5.4 Ergebnisse

5.4.1 Nicht-restriktive Verfahren

Tabelle 5.3 zeigt die Ergebnisse der einzelnen Verfahren. T steht fur die Anzahlder Trainingsdokumente. Die Bedeutung der Kurzel wurde in Abschnitt 5.3.1 dar-gestellt. Die Experimentresultate belegen, dass fur themenbasierte Klassifikations-probleme und Meinungsklassifikation stilistische und linguistische Features, wie z.B.Satzbau und Satzlangenverteilungen, Fehlerquoten bis 50% aufweisen, die Klassi-fikationsergebnisse also nicht besser als zufallig sind. Auch die Kombinationsvek-toren brachten keine sichtbare Verbesserung zum Bag-of-Words-Modell, das beim20-Newsgroups- und beim Movie-Review Korpus als klarer Gewinner hervorging.Alternative Features sind nicht diskriminativ fur diese Art von Klassifikationspro-blemen.

Fur das Problem der Autorenerkennung (im Gutenberg-Korpus) jedoch warendie Klassifikationsergebnisse mit alternativen Features deutlich besser als zufallig.Nichtsdestotrotz lieferte das Bag-of-Words-Modell bessere Resultate. Offenbar gibtes auch hier eine hohe Korrelation zwischen Autoren und dem verwendeten Vokabu-lar. Signifikante Verbesserungen konnten wir mit Kombinationsvektoren erreichen.Je kleiner die Trainingsmenge war, desto großer war die Verbesserung der Kombi-nationsvektoren gegenuber reinen Bag-of-Words-Features. Abbildung 5.2 zeigt einegrafische Darstellung der Experimentergebnisse von Bag-of-Words und Kombinati-onsvektoren aus Tabelle 5.3. Abbildung 5.1 verdeutlicht die Ergebnisse am Beispieleiniger ausgewahlter Verfahren.

5.4.2 Restriktive Verfahren

Als erstes Experiment untersuchten wir einen Unanimous-Decision-Klassifikator ausBag-of-Words-, Satzbau- und Histogrammfeatures. Die Ergebnisse sind in Tabelle5.4 aufgelistet. Vergleicht man die error-Werte mit den Werten von Bag-of-Wordsaus Tabelle 5.3, so erkennt man, dass bei 20-Newsgroups und Movie-Review derrestriktive Klassifikator nur marginal bessere Ergebnisse lieferte als Bag-of-Words(und zudem noch Verlust zu verzeichnen hatte). Bei Gutenberg ist die Verbesserungaber signifikant. Abbildung 5.3 verdeutlicht die Ergebnisse noch einmal grafisch.Mit hohem loss (rechte Bildhalfte) war die Fehlerrate des Unanimous-Decision-

59

5 Experimente

T BoW Nomen Verben Adj N&V Konst Paare Satzglied Korpus

20 0.153 0.198 0.328 0.402 0.181 0.463 0.462 0.361

40 0.104 0.130 0.269 0.367 0.117 0.447 0.423 0.311 20-News-

60 0.082 0.097 0.246 0.335 0.089 0.437 0.428 0.292 groups

80 0.068 0.080 0.235 0.309 0.075 0.415 0.397 0.273

100 0.062 0.072 0.224 0.296 0.068 0.416 0.392 0.266

20 0.372 0.451 0.452 0.485 0.407 0.488 0.496 0.461

40 0.350 0.418 0.405 0.452 0.400 0.472 0.416 0.471 Movie

60 0.289 0.369 0.406 0.416 0.348 0.462 0.382 0.428 Review

80 0.274 0.363 0.411 0.391 0.323 0.440 0.378 0.412

100 0.257 0.347 0.376 0.357 0.307 0.434 0.349 0.419

20 0.164 0.266 0.299 0.296 0.225 0.356 0.458 0.171

40 0.110 0.213 0.210 0.261 0.159 0.279 0.390 0.123

60 0.083 0.157 0.192 0.206 0.096 0.245 0.323 0.123 Gutenberg

80 0.073 0.135 0.171 0.183 0.084 0.221 0.285 0.116

100 0.044 0.102 0.153 0.161 0.065 0.204 0.230 0.089

T Satzbau Histogramm Momente Kombi Korpus

20 0.463 0.477 0.465 0.162

40 0.466 0.478 0.470 0.110 20-News-

60 0.454 0.480 0.465 0.090 groups

80 0.445 0.472 0.459 0.073

100 0.441 0.473 0.447 0.068

20 0.486 0.481 0.483 0.374

40 0.487 0.481 0.501 0.345 Movie-

60 0.489 0.482 0.482 0.286 Review

80 0.481 0.468 0.474 0.275

100 0.482 0.482 0.470 0.253

20 0.186 0.335 0.328 0.140

40 0.138 0.299 0.312 0.091

60 0.123 0.289 0.305 0.075 Gutenberg

80 0.114 0.286 0.300 0.065

100 0.103 0.285 0.302 0.041

Tabelle 5.3: Experimentergebnisse nicht-restriktive Verfahren

60

5.4 Ergebnisse

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

20 40 60 80 100

Größe der Trainingsmenge

erro

r

0.00

0.10

0.20

0.30

0.40

0.50

0.60

20 40 60 80 100


erro

r

BoWNomenSatzbauSatzgliedHistogrammKombiKombi

Movie-Review

Gutenberg

0.00

0.10

0.20

0.30

0.40

0.50

0.60

20 40 60 80 100


erro

r

20-Newsgroups

Abbildung 5.1: Experimentergebnisse auf verschiedenen Korpora

61

5 Experimente

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

0.16

0.18

20 40 60 80 100


error

Bag-of-Words

Kombinationsvektor

Abbildung 5.2: Vergleich: Bag-of-Words und Kombinationsvektor (Gutenberg)

Klassifikators wesentlich geringer (links im Bild) als die des Klassifikators mit Bag-of-Words-Features.

In einem weiteren Versuch verglichen wir einen restriktiven Metaklassifikator mitbenutzer-induziertem Verlust mit einem Bag-of-Words Klassifikator, bei dem eben-falls Verlust induziert wurde. Fur das Metaverfahren verwendeten wir hier Bag-of-Words-, Satzbau- und Satzgliedfeatures. Tabelle 5.5 zeigt die Ergebnisse des Expe-riments, die in Abbildung 5.4 grafisch dargestellt sind. Auf der Abszisse ist hierbeiloss, auf der Ordinate error abgetragen. Die Kurven stehen fur verschieden großeTrainingsmengen.

Man kann deutlich erkennen, dass die Verbesserung der Klassifikationsergebnissebei den restriktiven Verfahren durch die Einfuhrung von Verlust erzielt wurde. DieUnterschiede zwischen Bag-of-Words und dem Metaklassifikator sind nur marginal.

Generell lasst sich sagen, dass die geringe Fehlerquote restriktiver Verfahrenhauptsachlich durch die Restriktivitat und weniger durch alternative Features be-dingt ist. Dennoch zeigen die Experimente, dass alternative Features interessantekomplementare Ansatze bieten.

62

5.4 Ergebnisse

T error loss Korpus

20 0.144 0.693

40 0.097 0.705

60 0.079 0.693 20-Newsgroups

80 0.059 0.688

100 0.054 0.681

20 0.333 0.740

40 0.308 0.747 Movie-

60 0.279 0.741 Review

80 0.264 0.705

100 0.250 0.715

20 0.059 0.482

40 0.037 0.399

60 0.035 0.362 Gutenberg

80 0.033 0.349

100 0.017 0.345

Tabelle 5.4: Unanimous-Decision-Klassifikator (Gutenberg)

Klassifikationsfehler

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

0.16

0.18

20 40 60 80 100


error

Bag of Words

Unanimous Decision

Verlust

0.00

0.10

0.20

0.30

0.40

0.50

0.60

20 40 60 80 100


error

Unanimous Decision

Abbildung 5.3: Vergleich: restriktive und nicht-restriktive Verfahren (Gutenberg)

63

5 Experimente

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0% 10% 20% 30% 40% 50% 60% 70% 80% 90%

loss

erro

r

T=20T=40T=60T=80T=100

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

0.16

0.18

0% 10% 20% 30% 40% 50% 60% 70% 80% 90%

loss

erro

r

T=20T=40T=60T=80T=100

Restriktives Bag-of-Words

Meta-Klassifikator

Abbildung 5.4: Vergleich: Metaklassifikator und restriktives BoW (Gutenberg)

64

5.5 Zusammenfassung

Verlust T=20 T=40 T=60 T=80 T=100

BoW Meta BoW Meta BoW Meta BoW Meta BoW Meta

0% 0,165 0,165 0,111 0,111 0,083 0,083 0,073 0,073 0,044 0,044

10% 0,135 0,146 0,083 0,092 0,063 0,069 0,054 0,058 0,028 0,033

20% 0,112 0,130 0,066 0,079 0,050 0,058 0,043 0,048 0,021 0,027

30% 0,091 0,114 0,053 0,068 0,041 0,048 0,035 0,039 0,016 0,021

40% 0,072 0,099 0,044 0,059 0,034 0,040 0,028 0,032 0,013 0,017

50% 0,058 0,086 0,036 0,049 0,029 0,033 0,022 0,025 0,011 0,014

60% 0,047 0,075 0,030 0,043 0,025 0,028 0,017 0,021 0,008 0,011

70% 0,036 0,064 0,023 0,038 0,020 0,023 0,013 0,016 0,006 0,008

80% 0,029 0,053 0,018 0,034 0,014 0,019 0,009 0,013 0,004 0,008

90% 0,026 0,039 0,012 0,030 0,008 0,016 0,005 0,010 0,002 0,009

Tabelle 5.5: Restriktives Bag-of-Words und Metaklassifikator (Gutenberg)

5.5 Zusammenfassung

Die wichtigsten Beobachtungen unserer Experimente sind:

- Bei themenbasierten Klassifikationsproblemen (reprasentiert durch 20-Newsgroups) und der Klassifikation von Meinungen (Movie-Review-Korpus)bewegte sich der durchschnittliche Klassifikationsfehler mit alternativen Fea-tures, wie z.B. der Satzbauanalyse oder statistischen Satzlangenverteilungen,bei ca. 50%. Die Klassifikationsergebnisse waren also fast wie zufallig.Offensichtlich waren unsere alternativen Features nicht diskriminativ furdiese Klassifikationsprobleme. Es besteht also keine oder nur eine geringeKorrelation zwischen stilistischen Merkmalen und den Klassifikationsthemen.Daher konnte auch die Einfuhrung von Kombinationsstrategien die Klassifi-kationsergebnisse nicht wesentlich verbessern. Das Bag-of-Words-Modell gingbei unseren Experimenten als klarer Sieger hervor.

- Bei der Autorenerkennung (Gutenberg) funktionierten unsere vorgestelltenTechniken deutlich besser als nur zufallig. In diesem Korpus besteht eine hoheKorrelation zwischen Autoren und stilistischen Merkmalen, die von unserenalternativen Features berucksichtigt werden. Obwohl Bag-of-Words auch hierbessere Klassifikationsergebnisse hervorbrachte, lieferten linguistische Featuresinteressante und ausbaufahige Ansatze.

65

5 Experimente

- Deutliche Verbesserungen bei der Autorenerkennung konnten wir durch dieAnwendung von Kombinationstechniken erreichen. Hybridvektoren fuhrten ge-rade bei kleinen Trainingsmengen zu signifikanten Verminderungen der Fehler-raten. Durch Einfuhrung restriktiver Klassifikation wurde die Fehlerrate weiterreduziert, allerdings auf Kosten relativ hoher Verlustraten. Die Menge der klas-sifizierten Dokumente wurde kleiner, der Klassifikationsfehler war aber auf demGutenberg-Korpus ca. 10 Prozentpunkte geringer als bei nicht-restriktivemBag-of-Words.

66

6 Zusammenfassung und Ausblick

Dieses Kapitel gibt einen Uberblick uber verwandte Arbeiten und fasst noch einmaldie wichtigsten Gesichtspunkte dieser Arbeit kurz zusammen. Abschließend wollenwir mogliche Anwendungsmoglichkeiten und Erweiterungen unseres Frameworksbeschreiben.

6.1 Verwandte Arbeiten

Die Suche nach Alternativen zum Bag-of-Words-Modell ist keineswegs neu. Auch dieBetrachtung linguistischer Features wurde bereits in fruheren Arbeiten behandelt.Hauptsachlich beschranken sich diese Ansatze jedoch auf die Identifikation vonWortarten (so genanntes POS1-Tagging) zur Disambiguierung mehrdeutiger Worter(z.B. [39]) bzw. zur Featureselektion (vgl. [41]) oder auf die Benutzung von Thesauriwie z.B. WordNet [26].

Eine gangige Verwendung von Wortgruppen ist die Unterscheidung verschiedenerSprachen (vgl. [13], [16]). Lewis [34] sowie Tan, Wang und Lee [48] verwendenlinguistische Ansatze wie z.B. Bigramme (Worttupel) zur Textklassifikation.

Turney beschreibt in [52] ein semantisches Ahnlichkeitsmaß fur Satzteile in einemDokument zur Klassifikation von Meinungen auf Basis eines informationstheoreti-schen Maßes und intellektuell ausgesuchter Schlusselworter wie ”poor“ oder ”excel-lent“. Wiebe et. al. prasentieren in [25] einen Ansatz, der intellektuell selektiertelinguistische Strukturen verwendet, um Meinungen in Zeitungsartikeln zu klassifi-zieren. Pang und Lee [41] nutzen Wortarten, Uni- und Bigramme zur Klassifikationvon Filmkritiken.

Das Problem der Autorenerkennung steht im Mittelpunkt einiger interessanter Ar-beiten. Novak, Raghavan und Tomkins [40] widmen ihre Forschung so genanntem

1Part-of-Speech.

67


Anti-Aliasing. Uber Schreibfehler, Interpunktion u.a. wird versucht, Benutzer, dieinnerhalb einer Newsgroup verschiedene Pseudonyme verwenden, zu identifizieren.

Koppel, Argamon und Shimoni [32] untersuchen den Nutzen von n-Grammen, POS-Tagging und Stoppwortern zur Klassifikation des Autorengeschlechts. Zusatzlichanalysieren sie Techniken zur Kombination dieser Konstruktionsverfahren. De Velet al. [20] verwenden fur die Identifikation von Email-Autoren allgemeine statisti-sche Merkmale, wie z.B. durchschnittliche Wort- und Satzlangen, Anzahl der Groß-/Kleinbuchstaben pro Wort, Anzahl der Leerzeichen im Dokument etc., und struk-turelle Informationen, wie z.B. Anzahl der Email-Anhange, Signaturen, Auftretenbestimmter HTML-Tags etc.

Es gibt verschiedene Ansatze, die das Problem der Spamerkennung fokussieren.Neben manuellen Methoden wie Blacklists und Schlusselwortfiltern finden auchvermehrt statistische Lernverfahren Verwendung. Meist verwenden diese Verfahrenausschließlich das Bag-of-Words-Modell (vgl. [11], [22], [28]).

Metaklassifikation steht im Mittelpunkt einiger Arbeiten im Bereich statistischerLernverfahren. Breimans Arbeiten zur Voting-Klassifikation [14] haben wir schonin Abschnitt 3.5.2 angesprochen. Andere Arbeiten zu diesem Thema sind beispiels-weise [27], [35] und [54].

6.2 Zusammenfassung

Thema dieser Arbeit war die automatische Dokumentklassifikation. Wir unterschie-den dabei die Klassifikationsprobleme themenbasierte Klassifikation, Klassifikationvon Meinungen und Erkennung verschiedener Autoren.

Dazu stellten wir das zur Textklassifikation ubliche Bag-of-Words-Modell vor, dasdie Haufigkeit des Auftretens von Termen zur Konstruktion von Featureraumenverwendet. Darauf aufbauend entwickelten wir verschiedene alternative Ansatze,die neben dem textuellen Inhalt von Dokumenten auch strukturelle und stilisti-sche Information, wie z.B. Satzbauanalyse und statistische Satzlangenverteilungen,verwenden.

Wir erlauterten verschiedene Ansatze zur Verbesserung der Klassifikationsprazisiondurch Einfuhrung von Kombinationstechniken wie Hybridvektoren und Metaklas-sifikation. Hybridvektoren stellen dabei eine Vereinigung der Featureraume ver-

68

6.3 Ausblick

schiedener Konstruktionsverfahren dar. Metaklassifikatoren bestehen aus mehrerenEinzelklassifikatoren, die auf der Basis unterschiedlicher Featureraume operieren.Charakteristisch ist eine Restriktivitat, die die Menge der klassifizierten Dokumen-te auf die Dokumente beschrankt, bei denen die Mehrheit der Klassifikatoren imErgebnis ubereinstimmt.

Im Kapitel uber Experimente evaluierten wir die vorgestellten Techniken uber Ver-suche an einem themenbasierten Korpus, einem Korpus mit verschiedenen Mei-nungen und einem Korpus, der das Problem der Autorenerkennung reprasentiert.Wir stellten fest, dass alternative Features bei themen- und bei meinungsbasiertenKlassifikationsproblemen wertlos sind, aber bei der Autorenerkennung Ergebnisseliefern, die weitaus besser als zufallig, aber zunachst schlechter als Bag-of-Wordssind. Jedoch konnten wir durch die Einfuhrung von Kombinationstechniken auf demAutoren-Korpus signifikante Verbesserungen erreichen.

6.3 Ausblick

Wir mochten abschließend noch einige Anwendungsszenarien vorstellen, in denendie vorgestellten Techniken Verwendung finden konnten und einen Ausblick aufzukunftige Arbeiten und Verbesserungspotential geben.

Eine Anwendungsmoglichkeit der Klassifikation nach Autoren liegt im Bereich derPlagiaterkennung. Entsprechende Trainingsmengen vorausgesetzt, konnten Verlageerkennen, ob eingereichte Skripte aus anderen Buchern kopiert wurden. Gleichesgilt fur die Klassifikation von Diplomarbeiten, Dissertationen u.a.

Methoden der Schreibstil- oder Satzbauerkennung konnen helfen, im Web Seitenmit illegalen textuellen Inhalten, z.B. radikale Propagandaseiten, zu finden.

Weitere Anwendungsgebiete fur zukunftige Arbeiten waren der Einsatz unsereralternativen Features in Clustering-Techniken. Beispielsweise konnte das bereitsin Abschnitt 6.1 angesprochene Anti-Aliasing, das uber Clustering versucht, glei-che Newsgroup-Autoren mit verschiedenen Pseudonymen zu identifizieren, umzusatzliche Features oder um Kombinationsstrategien angereichert werden.

Verbesserungspotential liegt sicherlich in der Performanz-Steigerung in Hinblick aufden Einsatz alternativer Features in Echtzeit-Systemen, wie z.B. Web-Crawlern.Potential zur Steigerung der Klassifikationsprazision liegt in der Verfeinerung der

69


Kombinationsstrategien. Durch Entwicklung neuer Normalisierungskonstanten furden Kombinationsvektor oder die Entwicklung besserer Gewichtungsfunktionen furdie Featurekonstruktionsverfahren kann sicherlich eine weitere Verringerung desKlassifikationsfehlers erreicht werden.

Insgesamt weist die Analyse naturlicher Sprache noch viele interessante Aspekteauf, die Gegenstand zukunftiger Arbeit sein konnen und werden.

70

Index

Symboleχ2-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

AAdjektiv . . . . . . . . . . . . . . . . . . . . . . . . . . 17ambig. . . . . . . . . . . . . . . . . . . . . . . . . . . . .21Anti-Aliasing . . . . . . . . . . . . . . . . . . . . . 68

BBoolesches Modell . . . . . . . . . . . . . . . . . 4Brown-Tagset . . . . . . . . . . . . . . . . . . . . . 18

CCodematrix . . . . . . . . . . . . . . . . . . . . . . . 12Codewort . . . . . . . . . . . . . . . . . . . . . . . . . 12Connexor . . . . . . . . . . . . . . . . . . . . . . . . . 52

DDeklination . . . . . . . . . . . . . . . . . . . . . . . 16diskrete Zufallsvariable . . . . . . . . . . . . . 8

F

Featureselektion . . . . . . . . . . . . . . . . . . 13Featurevektor . . . . . . . . . . . . . . . . . . . . . . 4

GGenus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

Genus Verbi . . . . . . . . . . . . . . . . . . . . . . 16

H

Hybridvektor . . . . . . . . . . . . . . . . . . . sieheKombinationsvektor

I

Indexterm . . . . . . . . . . . . . . . . . . . . . . . . . 3Information Gain . . . . . . . . . . . . . . . . . 13

K

k-Fold Crossvalidation . . . . . . . . . . . . 38Kasus. . . . . . . . . . . . . . . . . . . . . . . . . . . . .16Klassifikator . . . . . . . . . . . . . . . . . . . . . . . 5kNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5Kombinationsvektor . . . . . . . . . . . . . . 35Komparation . . . . . . . . . . . . . . . . . . . . . 17Komparativ . . . . . . siehe KomparationKonjugation . . . . . . . . . . . . . . . . . . . . . . 16Konstituente . . . . . . . . . . . . . . . . . . . . . . 18Kosinusmaß . . . . . . . . . . . . . . . . . . . . . . . . 5Kullback-Leibler-Distanz . . . . . . . . . . 14

L

Laplace-Smoothing. . . . . . . . . . . . . . . . .7Leave-One-Out . . . . . . . . . . . . . . . . . . . 38

v

Lexparser . . . . . . . . . . . . . . . . . . . . . . . . . 51

MMachinese Phrase Tagger . . . . . . .siehe

ConnexorMachinese Syntax. . . .siehe ConnexorMI. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .14Modus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16Multiklassifikation . . . . . . . . . . . . . . . . 10

NNaive Bayes. . . . . . . . . . . . . . . . . . . . . . . .6Nomen. . . . . . . . . . . . . . . . . . . . . . . . . . . .16Nominalphrase . . . . . . . . . . . . . . . . . . . . 20Numerus. . . . . . . . . . . . . . . . . . . . . . . . . .16

OObjekt . . . . . . . . . . . . . . . siehe SatzgliedOverfitting . . . . . . . . . . . . . . . . . . . . . . . . . 7

PPCFG . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20Penn-Treebank-Tagset . . . . . . . . . . . . 18Phrase . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20Plural . . . . . . . . . . . . . . . . siehe NumerusPositiv . . . . . . . . . . . siehe KomparationPradikat . . . . . . . . . . . . . siehe SatzgliedPrapositionalphrase . . . . . . . . . . . . . . . 20Probabilistische Kontextfreie Gram-

matik . . . . . . . . . . . . . . . . . . siehePCFG

SSatzglied. . . . . . . . . . . . . . . . . . . . . . . . . .18Singular . . . . . . . . . . . . . . siehe Numerusstetige Zufallsvariable . . . . . . . . . . . . . . 8

Stoppwort . . . . . . . . . . . . . . . . . . . . . . . . . 3Subjekt . . . . . . . . . . . . . . siehe SatzgliedSuperlativ. . . . . . . .siehe KomparationSupervised Learning . . . . . . . . . . . . . . . 5SVM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .8SVMlight . . . . . . . . . . . . . . . . . . . . . . . . . 54

TTempus . . . . . . . . . . . . . . . . . . . . . . . . . . . 16Term . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3Termfrequency . . . . . . . . . . . . . . . . . . . . . 4

VVektorraummodell . . . . . . . . . . . . . . . . . 4Verb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16Verbalphrase. . . . . . . . . . . . . . . . . . . . . .20

WWortart. . . . . . . . . . . . . . . . . . . . . . . . . . .16

A Penn-Treebank-Tagset

POS Tag Beschreibung Beispiel

CC koordinative Konjunktion and

CD Zahlwort 1, third

DT Determinierer, Artikel the

EX Ortsangabe there is

FW Fremdwort d’hoevre

IN Praposition / unterordnende Konjunktion in, of, like

JJ Adjektiv green

JJR Adjektiv, Komparativ greener

JJS Adjektiv, Superlativ greenest

MD Konjunktiv could, will

NN Nomen, Singular oder Plural table

NNS Nomen, Plural tables

NNP Eigenname, Singular John

NNPS Eigenname, Plural Vikings

PDT Pra-Determinierer both the boys

POS Possessivendung friend’s

PRP Personalpronomen I, he, it

PRP$ Possessivpronomen my, his

RBR Adverb, Komparativ better

RBS Adverb, Superlativ best

RP Partikel give up

TO engl. to to go, to him

UH Ausruf uhhuhhuhh

VB Verb, Stammform take

VBD Verb, Imperfekt took

VBG Verb, Gerundium taking

VBN Verb, Praterritum taken

VBP Verb, 1. / 2. Person Singular Prasens take

VBZ Verb, 3. Person Singular Prasens takes

WP wh-Pronomen who, what

WP$ wh-Possessivpronomen whose

WRB wh-Adverb where, when

Tabelle A.1: Auszug aus dem Tagset des Penn Treebank Projekts [37]

vii

Literaturverzeichnis

[1] The 20 Newsgroups data set. http://www.ai.mit.edu/ jrennie/20Newsgroups.

[2] Biojava-Projekt. http://www.biojava.org.

[3] Internet Movie Database. http://www.imdb.com.

[4] Lexparser. http://www-nlp.stanford.edu/downloads/lex-parser.shtml.

[5] Projekt Gutenberg. http://www.gutenberg.org.

[6] SVMlight Support Vector Machine. http://svmlight.joachims.org.

[7] The WAIS Search Engine. http://www.searchtools.com/tools/wais.html.

[8] Web.de. http://www.web.de.

[9] Yahoo.com. http://www.yahoo.com.

[10] Lexikon der Sprachwissenschaft. Kroner, 3., aktual. und erw. Aufl. edition,2002.

[11] I. Androutsopoulos, J. Koutsias, C. Chandrinos, G. Paliouras, and C. D. Spyro-poulos. An Evaluation of Naive Bayesian Anti-Spam Filtering. In Proceedingsof the Workshop on Machine Learning in the New Information Age, 11th Eu-ropean Conference on Machine Learning, 2000.

[12] R. A. Baeza-Yates and B. A. Ribeiro-Neto. Modern Information Retrieval.ACM Press / Addison-Wesley, 1999.

[13] K. R. Beesley. Language identifier: A Computer Program for automaticNatural-Language Identification on on-line Text. In 29th Annual Conferenceof the American Translators Association, 1988.

ix

[14] L. Breiman. Bagging Predictors. Machine Learning, 24(2), 1996.

[15] C. J. C. Burges. A tutorial on Support Vector Machines for Pattern Recogni-tion. Data Mining and Knowledge Discovery, 2(2), 1998.

[16] W. B. Cavner and J. M. Trenkle. Text Categorization and Information Retrie-val Using WordNet Senses. In 3rd Annual Symposium on Document Analysisand Information Retrieval, 1994.

[17] S. Chakrabarti. Mining the Web: Discovering Knowledge from Hypertext Data.Morgan-Kauffman, 2002.

[18] A. Christie. The Mysterious Affair at Styles. Berkley Publishing Group.

[19] Connexor Oy. Connexor Machiniese Language Model.

[20] O. de Vel, A. Anderson, M. Corney, and G. M. Mohay. Mining Email Contentfor Author Identification Forensics. SIGMOD Record, 2001.

[21] U. Demske. Aspekte der deutschen Syntax, Skript zur Vorlesung SS 2003,Universitat des Saarlandes.

[22] H. Drucker, V. Vapnik, and D. Wu. Support Vector Machines for Spam Cate-gorization. IEEE Transactions on Neural Networks, 10, 1999.

[23] R. O. Duda, P. E. Hart, and D. G. Stork. Pattern Classification. Wiley, 2ndedition edition, 2001.

[24] S. Dumais and H. Chen. Hierarchical Classification of Web content. SIGIR,2000.

[25] J. Wiebe et. al. Recognizing and Organizing Opinions Expressed in the WorldPress. In AAAI, 2003.

[26] C. Fellbaum. WordNet: An Electronic Lexical Database. MIT Press, 1998.

[27] Y. Freund. An Adaptive Version of the Boost by Majority Algorithm. Work-shop on Computational Learning Theory, 1999.

[28] J. M. Gomez-Hidalgo, M. Lopez, and E. Puertas-Sanz. Combining Text andHeuristics for Cost-Sensitive Spam Filtering. In Proceedings of the FourthComputational Natural Language Learning Workshop, CoNLL-2000, 2000.

[29] T. Joachims. Text Categorization with Support Vector Machines: Learningwith Many Relevant Features. ECML, 1998.

[30] T. Joachims. A statistical learning model of text classification for SupportVector Machines. SIGIR, 2001.

[31] G. H. John and P. Langley. Estimating Continuous Distributions in BayesianClassifiers. In 11th Conference on Uncertainty in Artificial Intelligence.

[32] M. Koppel, S. Argamon, and A. R. Shimoni. Automatically Categorizing Writ-ten Texts by Author Gender. Literary and Linguistic Computing, 2002.

[33] Ludmila I. Kuncheva. Combining Pattern Classifiers: Methods and Algorithms.Wiley-Interscience, 2004.

[34] D. Lewis. An Evaluation of Pphrasal and Clustered Representations on a TextCategorization Task. In SIGIR’92, Copenhagen, Denmark, 1992.

[35] N. Littlestone and M. K. Warmuth. The Weighted Majority Algorithm. FOCS,1989.

[36] C. D. Manning and H. Schutze. Foundations of statistical natural languageprocessing. MIT Press, 1999.

[37] M. P. Marcus, B. Santorini, and M. A. Marcinkiewicz. Building a Large An-notated Corpus of English: The Penn Treebank. Computational Linguistics,19(2), 1994.

[38] J. Meibauer, U. Demske, and J. Geilfuß-Wolfgang. Einfuhrung in die germa-nistische Linguistik. Metzler, 2002.

[39] A. Moschitti and R. Basili. Complex Linguistic Features for Text Classificati-on: A Comprehensive Study. In ECIR, 2004.

[40] J. Novak, P. Raghavan, and A. Tomkins. Anti-aliasing on the web. In Procee-dings of the 13th international conference on World Wide Web. ACM Press,2004.

[41] B. Pang and L. Lee. Thumbs up? Sentiment Classification using MachineLearning Techniques. In EMNLP, 2002.

[42] M. Porter. An algorithm for suffix stripping. Automated Library and Informa-tion Systems, 14(3).

[43] S. Russel and P. Norvig. Artificial Intelligence: A Modern Approach. Prentice-Hall Inc., 1995.

[44] S. Siersdorfer and S. Sizov. Konstruktion von Featureraumen und Metaverfah-ren zur Klassifikation von Webdokumenten. In Datenbanksysteme fur Business,Technologie und Web (BTW) : 10. GI-Fachtagung, 2003.

[45] M. Sipser. Introduction to the Theory of Computation. International ThomsonPublishing, 1996.

[46] S. Sizov, S. Siersdorfer, M. Theobald, and G. Weikum. The BINGO! FocusedCrawler: From Bookmarks to Archetypes, 2002.

[47] S. Sizov, S. Siersdorfer, and G. Weikum. Goal-oriented Methods and MetaMethods for Document Classification and their Parameter Tuning. In CIKM2004 : proceedings of the 13th Conference on Information and Knowledge Ma-nagement ;Washington, DC, USA, 2004.

[48] C. M. Tan, Y. F. Wang, and C. D. Lee. The Use of BiGrams to enhance TextCategorization. Information Processing and Management., vol. 30, 2002.

[49] P. Tapanainen and T. Jarvinen. A non-projective dependency parser. InProceedings of the Fifth Conference on Applied Natural Language Processing,1997.

[50] G. Tinhofer and M. Greiner. Stochastik fur Studienanfanger der Informatik.

[51] J. R. R. Tolkien. The Fellowship of the Ring. George Allen and Unwin, 1954.

[52] P. D. Turney. Thumbs Up or Thumbs Down? Semantic Orientation Appliedto Unsupervised Classification of Reviews. In ACL’02, 2002.

[53] G. Weikum and R. Schenkel. Informationssysteme, Skript zur Vorlesung SS2004, Universitat des Saarlandes.

[54] D. H. Wolpert. Stacked Generalization. Neural Networks, Vol. 5, pp. 241-259,1992.

[55] Y. Yang. An Evaluation of Statistical Approaches to Text Categorization.Journal of Information Retrieval, 1(1/2), 1999.

Automatische Dokumentklassiﬁkation mittels linguistischer ... · 1 Einleitung 1.1 Motivation...

Documents

Transcript of Automatische Dokumentklassiﬁkation mittels linguistischer ... · 1 Einleitung 1.1 Motivation...