Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen...

Post on 05-Apr-2015

103 views 0 download

Transcript of Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen...

Nützlichkeit statistischer Phrasen in der Textklassifikation

Wolfgang Flury7. Juli 2004

(im Rahmen des Hauptseminars „Maschinelle Lernverfahren und Textklassifikation“ am CIS, München)

Ziele

Erkenntnisse des ff. Artikels vermitteln Caropreso, Matwin, Sebastiani: „A Learner-

independent Evaluation of the Usefulness of Statistical Phrases for Automated Text Categorization“, o.J.

insbesondere Untersuchungsgegenstand Vorgehensweise Ergebnisse/Folgerungen

Was vermuten wir?

Sind statistische Phrasen hilfreich?

Was ich erzählen will ...

Was genau verstehen die Autoren unter „statistischen Phrasen“

Ausgangspunkt für die Untersuchung 2 Wege der Evaluierung mit Ergebnissen Zusammenfassung / Erkenntnis

Syntakt. vs statistische Phrasen

Syntaktische Phrasen „textuelle Einheit größer als Wort aber kleiner als Satz“. z.B. Nominalphrasen, Verbalphrasen, ... syntaktisch wohlgeformt

Statistische (z.T. synonym: „n-grams“ im Artikel) induktive Definition

– 1-gram = Wortstamm– n-gram = lexikogr. geordnete Sequenz von 1-grams

Auftreten in Text: Falls nach Stoppwort-Elimination und Stemming eine Permutation des n-grams im Text auftritt

syntaktisch unwohl-geformt statistisch interessant verteilt

Beispiel: Statist. Phrasen / n-grams

durch Stemming Umgehung von morphol. + syntakt. Varianten

Beispiel: 2-gram „inform retriev“

Wir wollen Phrasen !

Grundidee der Autoren Wir wissen schon: gute Indexierung kritisch für Erfolg Ein Weg: Feature selection Warum immer nur Wörter und nicht ganze Phrasen?

Attraktivität syntaktische Phrasen näher am auszudrückenden Konzept weniger Ambiguität (Mutual Disambiguation Effect) tragen mehr zum Ranking eines Dokuments bei aktuelle Technologie erlaubt relativ zuverlässiges

Erkennen

Bisher kaum Phrasenindexierung in IR - und wenn, mit mäßigem Erfolg

Probleme syntaktischer Phrasen semantisch hohe, statistisch schlechte Qualität Phrasen sind einfach nicht häufig genug Normalisierungsproblem

Vorteile statistischer Phrasen zuverlässiger erkennbar, auch in untersch. Varianten wenig interessante Phrasen werden tendenziell ignoriert

Probleme statistischer Phrasen/n-grams Fehlerrate > 0 Über-/Unter-Generalisierung Folge von Wörtern garaniert natürlich noch kein Konzept => Finden von interessanten nötig (z.B. über Häufigkeit)

2 Wege zur Wahrheit

Ansatz Ziel: Einschätzung der Nützlichkeit von statistischen

Phrasen unabhängig vom gewählten Klassifikationsalgorithmus

erzeuge alle k-grams (1..n) (hier: n = 2) bestimmte Rang (kennen wir schon: DF, IG, Chi-square,

...) „Indirekte“ Experimente

usefulness = frequency of n-grams at the top of the list „Direkte“ Experimente

Verwendung eines konkreten Klassifikators

Indirekte Ergebnisse sind positiv

Vorverarbeitung der Texte Stoppwörter und Interpunktion entfernt, Kleinschreibung

Durchdringungsgrad (DDG, penetration level)= Anteil der n-gramme in den durch die FEF gewählten Features

Ergebnisse Durchdringungsgrad geht mit zunehmendem Reduction

Factor zurück zwei Gruppen von FEF: DDG sehr hoch + DDG hoch Penetration Levels sind ziemlich hoch

Indirekte Ergebnisse in Zahlen

Direkte Ergebnisse sind negativ

Evaluierungsmethode Precision, Recall und F-Maß micro- und macro-averaging WICHTIG: Anzahl Features konstant halten

=> Reduction Factor unterschiedlich für 1- und 2-grams(andere Vergleiche tun das oft nicht !!!)

Ergebnisse Bigramme erhöhen Klassifikationsergebnis nicht immer Verbesserung meist nicht signifikant, Verschlechterung

meist dramatisch Verhältnis besser : schlechter: 20 : 28

( ~ 58% schlechter !!)

Direkte Ergebnisse in Zahlen (1)

Direkte Ergebnisse in Zahlen (2)

Direkte Ergebnisse in Zahlen (3)

Verschlechterung hat Methode

Verschlechterung häufiger bei hohen Reduktionsfaktoren

Verschlechterung höher bei FEF‘s mit hohem Durchdringungsgrad (kontraintuitiv)

Erklärungsansatz Exzessive Verwendung von Bigrammen verdrängt

wichtige Unigramme Bigramme duplizieren Information, die in

Unigrammen schon enthalten ist

... deren Konklusion ...

„Our hypothesis that a high penetration level were conducive to improving effectiveness was not completely confirmed.“

Ja, so kann man das auch sagen. ;-) Problem aus Sicht der Autoren: Duplizierung

von Information durch Bigramme => weitere Untersuchungen

Besser die Finger davon lassen

Was schließen wir aus der Untersuchung? mit (statistischen) Bigrammen vorsichtig sein nicht zu viel davon versprechen falls verwenden, immer zusätzlich zu Unigrammen

Lohnt sich der Aufwand? wohl eher nicht ;-(

Was haben wir gelernt?

was (statistische) n-gramme sind Vor-/Nachteile syntaktischer und statistischer

Phrasen Möglichkeit einer Klassifikator-unabhängigen

Evaluierungs-Methode Konkrete Ergebnisse der Autoren Nicht alles ist Gold, was glänzt.

War unsere Vermutung richtig?

Sind statistische Phrasen hilfreich?

Na ja, so einfach kann man das nicht sagen ...

;-(

Fragen?

Vielen Dank für Eure

Aufmerksamkeit !