Download - Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars Maschinelle Lernverfahren und Textklassifikation.

Transcript

Nützlichkeit statistischer Phrasen in der Textklassifikation

Wolfgang Flury7. Juli 2004

(im Rahmen des Hauptseminars „Maschinelle Lernverfahren und Textklassifikation“ am CIS, München)

Ziele

Erkenntnisse des ff. Artikels vermitteln Caropreso, Matwin, Sebastiani: „A Learner-

independent Evaluation of the Usefulness of Statistical Phrases for Automated Text Categorization“, o.J.

insbesondere Untersuchungsgegenstand Vorgehensweise Ergebnisse/Folgerungen

Page 3: Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars Maschinelle Lernverfahren und Textklassifikation.

Was vermuten wir?

Sind statistische Phrasen hilfreich?

Page 4: Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars Maschinelle Lernverfahren und Textklassifikation.

Was ich erzählen will ...

Was genau verstehen die Autoren unter „statistischen Phrasen“

Ausgangspunkt für die Untersuchung 2 Wege der Evaluierung mit Ergebnissen Zusammenfassung / Erkenntnis

Page 5: Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars Maschinelle Lernverfahren und Textklassifikation.

Syntakt. vs statistische Phrasen

Syntaktische Phrasen „textuelle Einheit größer als Wort aber kleiner als Satz“. z.B. Nominalphrasen, Verbalphrasen, ... syntaktisch wohlgeformt

Statistische (z.T. synonym: „n-grams“ im Artikel) induktive Definition

– 1-gram = Wortstamm– n-gram = lexikogr. geordnete Sequenz von 1-grams

Auftreten in Text: Falls nach Stoppwort-Elimination und Stemming eine Permutation des n-grams im Text auftritt

syntaktisch unwohl-geformt statistisch interessant verteilt

Page 6: Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars Maschinelle Lernverfahren und Textklassifikation.

Beispiel: Statist. Phrasen / n-grams

durch Stemming Umgehung von morphol. + syntakt. Varianten

Beispiel: 2-gram „inform retriev“

Page 7: Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars Maschinelle Lernverfahren und Textklassifikation.

Wir wollen Phrasen !

Grundidee der Autoren Wir wissen schon: gute Indexierung kritisch für Erfolg Ein Weg: Feature selection Warum immer nur Wörter und nicht ganze Phrasen?

Attraktivität syntaktische Phrasen näher am auszudrückenden Konzept weniger Ambiguität (Mutual Disambiguation Effect) tragen mehr zum Ranking eines Dokuments bei aktuelle Technologie erlaubt relativ zuverlässiges

Erkennen

Page 8: Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars Maschinelle Lernverfahren und Textklassifikation.

Bisher kaum Phrasenindexierung in IR - und wenn, mit mäßigem Erfolg

Probleme syntaktischer Phrasen semantisch hohe, statistisch schlechte Qualität Phrasen sind einfach nicht häufig genug Normalisierungsproblem

Vorteile statistischer Phrasen zuverlässiger erkennbar, auch in untersch. Varianten wenig interessante Phrasen werden tendenziell ignoriert

Probleme statistischer Phrasen/n-grams Fehlerrate > 0 Über-/Unter-Generalisierung Folge von Wörtern garaniert natürlich noch kein Konzept => Finden von interessanten nötig (z.B. über Häufigkeit)

Page 9: Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars Maschinelle Lernverfahren und Textklassifikation.

2 Wege zur Wahrheit

Ansatz Ziel: Einschätzung der Nützlichkeit von statistischen

Phrasen unabhängig vom gewählten Klassifikationsalgorithmus

erzeuge alle k-grams (1..n) (hier: n = 2) bestimmte Rang (kennen wir schon: DF, IG, Chi-square,

...) „Indirekte“ Experimente

usefulness = frequency of n-grams at the top of the list „Direkte“ Experimente

Verwendung eines konkreten Klassifikators

Page 10: Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars Maschinelle Lernverfahren und Textklassifikation.

Indirekte Ergebnisse sind positiv

Vorverarbeitung der Texte Stoppwörter und Interpunktion entfernt, Kleinschreibung

Durchdringungsgrad (DDG, penetration level)= Anteil der n-gramme in den durch die FEF gewählten Features

Ergebnisse Durchdringungsgrad geht mit zunehmendem Reduction

Factor zurück zwei Gruppen von FEF: DDG sehr hoch + DDG hoch Penetration Levels sind ziemlich hoch

Page 11: Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars Maschinelle Lernverfahren und Textklassifikation.

Indirekte Ergebnisse in Zahlen

Page 12: Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars Maschinelle Lernverfahren und Textklassifikation.

Direkte Ergebnisse sind negativ

Evaluierungsmethode Precision, Recall und F-Maß micro- und macro-averaging WICHTIG: Anzahl Features konstant halten

=> Reduction Factor unterschiedlich für 1- und 2-grams(andere Vergleiche tun das oft nicht !!!)

Ergebnisse Bigramme erhöhen Klassifikationsergebnis nicht immer Verbesserung meist nicht signifikant, Verschlechterung

meist dramatisch Verhältnis besser : schlechter: 20 : 28

( ~ 58% schlechter !!)

Page 13: Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars Maschinelle Lernverfahren und Textklassifikation.

Direkte Ergebnisse in Zahlen (1)

Page 14: Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars Maschinelle Lernverfahren und Textklassifikation.

Direkte Ergebnisse in Zahlen (2)

Page 15: Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars Maschinelle Lernverfahren und Textklassifikation.

Direkte Ergebnisse in Zahlen (3)

Page 16: Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars Maschinelle Lernverfahren und Textklassifikation.

Verschlechterung hat Methode

Verschlechterung häufiger bei hohen Reduktionsfaktoren

Verschlechterung höher bei FEF‘s mit hohem Durchdringungsgrad (kontraintuitiv)

Erklärungsansatz Exzessive Verwendung von Bigrammen verdrängt

wichtige Unigramme Bigramme duplizieren Information, die in

Unigrammen schon enthalten ist

Page 17: Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars Maschinelle Lernverfahren und Textklassifikation.

... deren Konklusion ...

„Our hypothesis that a high penetration level were conducive to improving effectiveness was not completely confirmed.“

Ja, so kann man das auch sagen. ;-) Problem aus Sicht der Autoren: Duplizierung

von Information durch Bigramme => weitere Untersuchungen

Page 18: Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars Maschinelle Lernverfahren und Textklassifikation.

Besser die Finger davon lassen

Was schließen wir aus der Untersuchung? mit (statistischen) Bigrammen vorsichtig sein nicht zu viel davon versprechen falls verwenden, immer zusätzlich zu Unigrammen

Lohnt sich der Aufwand? wohl eher nicht ;-(