Nützlichkeit statistischer Phrasen in der Textklassifikation
Wolfgang Flury7. Juli 2004
(im Rahmen des Hauptseminars „Maschinelle Lernverfahren und Textklassifikation“ am CIS, München)
Ziele
Erkenntnisse des ff. Artikels vermitteln Caropreso, Matwin, Sebastiani: „A Learner-
independent Evaluation of the Usefulness of Statistical Phrases for Automated Text Categorization“, o.J.
insbesondere Untersuchungsgegenstand Vorgehensweise Ergebnisse/Folgerungen
Was vermuten wir?
Sind statistische Phrasen hilfreich?
Was ich erzählen will ...
Was genau verstehen die Autoren unter „statistischen Phrasen“
Ausgangspunkt für die Untersuchung 2 Wege der Evaluierung mit Ergebnissen Zusammenfassung / Erkenntnis
Syntakt. vs statistische Phrasen
Syntaktische Phrasen „textuelle Einheit größer als Wort aber kleiner als Satz“. z.B. Nominalphrasen, Verbalphrasen, ... syntaktisch wohlgeformt
Statistische (z.T. synonym: „n-grams“ im Artikel) induktive Definition
– 1-gram = Wortstamm– n-gram = lexikogr. geordnete Sequenz von 1-grams
Auftreten in Text: Falls nach Stoppwort-Elimination und Stemming eine Permutation des n-grams im Text auftritt
syntaktisch unwohl-geformt statistisch interessant verteilt
Beispiel: Statist. Phrasen / n-grams
durch Stemming Umgehung von morphol. + syntakt. Varianten
Beispiel: 2-gram „inform retriev“
Wir wollen Phrasen !
Grundidee der Autoren Wir wissen schon: gute Indexierung kritisch für Erfolg Ein Weg: Feature selection Warum immer nur Wörter und nicht ganze Phrasen?
Attraktivität syntaktische Phrasen näher am auszudrückenden Konzept weniger Ambiguität (Mutual Disambiguation Effect) tragen mehr zum Ranking eines Dokuments bei aktuelle Technologie erlaubt relativ zuverlässiges
Erkennen
Bisher kaum Phrasenindexierung in IR - und wenn, mit mäßigem Erfolg
Probleme syntaktischer Phrasen semantisch hohe, statistisch schlechte Qualität Phrasen sind einfach nicht häufig genug Normalisierungsproblem
Vorteile statistischer Phrasen zuverlässiger erkennbar, auch in untersch. Varianten wenig interessante Phrasen werden tendenziell ignoriert
Probleme statistischer Phrasen/n-grams Fehlerrate > 0 Über-/Unter-Generalisierung Folge von Wörtern garaniert natürlich noch kein Konzept => Finden von interessanten nötig (z.B. über Häufigkeit)
2 Wege zur Wahrheit
Ansatz Ziel: Einschätzung der Nützlichkeit von statistischen
Phrasen unabhängig vom gewählten Klassifikationsalgorithmus
erzeuge alle k-grams (1..n) (hier: n = 2) bestimmte Rang (kennen wir schon: DF, IG, Chi-square,
...) „Indirekte“ Experimente
usefulness = frequency of n-grams at the top of the list „Direkte“ Experimente
Verwendung eines konkreten Klassifikators
Indirekte Ergebnisse sind positiv
Vorverarbeitung der Texte Stoppwörter und Interpunktion entfernt, Kleinschreibung
Durchdringungsgrad (DDG, penetration level)= Anteil der n-gramme in den durch die FEF gewählten Features
Ergebnisse Durchdringungsgrad geht mit zunehmendem Reduction
Factor zurück zwei Gruppen von FEF: DDG sehr hoch + DDG hoch Penetration Levels sind ziemlich hoch
Indirekte Ergebnisse in Zahlen
Direkte Ergebnisse sind negativ
Evaluierungsmethode Precision, Recall und F-Maß micro- und macro-averaging WICHTIG: Anzahl Features konstant halten
=> Reduction Factor unterschiedlich für 1- und 2-grams(andere Vergleiche tun das oft nicht !!!)
Ergebnisse Bigramme erhöhen Klassifikationsergebnis nicht immer Verbesserung meist nicht signifikant, Verschlechterung
meist dramatisch Verhältnis besser : schlechter: 20 : 28
( ~ 58% schlechter !!)
Direkte Ergebnisse in Zahlen (1)
Direkte Ergebnisse in Zahlen (2)
Direkte Ergebnisse in Zahlen (3)
Verschlechterung hat Methode
Verschlechterung häufiger bei hohen Reduktionsfaktoren
Verschlechterung höher bei FEF‘s mit hohem Durchdringungsgrad (kontraintuitiv)
Erklärungsansatz Exzessive Verwendung von Bigrammen verdrängt
wichtige Unigramme Bigramme duplizieren Information, die in
Unigrammen schon enthalten ist
... deren Konklusion ...
„Our hypothesis that a high penetration level were conducive to improving effectiveness was not completely confirmed.“
Ja, so kann man das auch sagen. ;-) Problem aus Sicht der Autoren: Duplizierung
von Information durch Bigramme => weitere Untersuchungen
Besser die Finger davon lassen
Was schließen wir aus der Untersuchung? mit (statistischen) Bigrammen vorsichtig sein nicht zu viel davon versprechen falls verwenden, immer zusätzlich zu Unigrammen
Lohnt sich der Aufwand? wohl eher nicht ;-(
Was haben wir gelernt?
was (statistische) n-gramme sind Vor-/Nachteile syntaktischer und statistischer
Phrasen Möglichkeit einer Klassifikator-unabhängigen
Evaluierungs-Methode Konkrete Ergebnisse der Autoren Nicht alles ist Gold, was glänzt.
War unsere Vermutung richtig?
Sind statistische Phrasen hilfreich?
Na ja, so einfach kann man das nicht sagen ...
;-(
Fragen?
Vielen Dank für Eure
Aufmerksamkeit !
Top Related