Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen...

Nützlichkeit statistischer Phrasen in der Textklassifikation

Wolfgang Flury7. Juli 2004

(im Rahmen des Hauptseminars „Maschinelle Lernverfahren und Textklassifikation“ am CIS, München)

Erkenntnisse des ff. Artikels vermitteln Caropreso, Matwin, Sebastiani: „A Learner-

independent Evaluation of the Usefulness of Statistical Phrases for Automated Text Categorization“, o.J.

insbesondere Untersuchungsgegenstand Vorgehensweise Ergebnisse/Folgerungen

Was vermuten wir?

Sind statistische Phrasen hilfreich?

Was ich erzählen will ...

Was genau verstehen die Autoren unter „statistischen Phrasen“

Ausgangspunkt für die Untersuchung 2 Wege der Evaluierung mit Ergebnissen Zusammenfassung / Erkenntnis

Syntakt. vs statistische Phrasen

Syntaktische Phrasen „textuelle Einheit größer als Wort aber kleiner als Satz“. z.B. Nominalphrasen, Verbalphrasen, ... syntaktisch wohlgeformt

Statistische (z.T. synonym: „n-grams“ im Artikel) induktive Definition

– 1-gram = Wortstamm– n-gram = lexikogr. geordnete Sequenz von 1-grams

Auftreten in Text: Falls nach Stoppwort-Elimination und Stemming eine Permutation des n-grams im Text auftritt

syntaktisch unwohl-geformt statistisch interessant verteilt

Beispiel: Statist. Phrasen / n-grams

durch Stemming Umgehung von morphol. + syntakt. Varianten

Beispiel: 2-gram „inform retriev“

Wir wollen Phrasen !

Grundidee der Autoren Wir wissen schon: gute Indexierung kritisch für Erfolg Ein Weg: Feature selection Warum immer nur Wörter und nicht ganze Phrasen?

Attraktivität syntaktische Phrasen näher am auszudrückenden Konzept weniger Ambiguität (Mutual Disambiguation Effect) tragen mehr zum Ranking eines Dokuments bei aktuelle Technologie erlaubt relativ zuverlässiges

Erkennen

Bisher kaum Phrasenindexierung in IR - und wenn, mit mäßigem Erfolg

Probleme syntaktischer Phrasen semantisch hohe, statistisch schlechte Qualität Phrasen sind einfach nicht häufig genug Normalisierungsproblem

Vorteile statistischer Phrasen zuverlässiger erkennbar, auch in untersch. Varianten wenig interessante Phrasen werden tendenziell ignoriert

Probleme statistischer Phrasen/n-grams Fehlerrate > 0 Über-/Unter-Generalisierung Folge von Wörtern garaniert natürlich noch kein Konzept => Finden von interessanten nötig (z.B. über Häufigkeit)

2 Wege zur Wahrheit

Ansatz Ziel: Einschätzung der Nützlichkeit von statistischen

Phrasen unabhängig vom gewählten Klassifikationsalgorithmus

erzeuge alle k-grams (1..n) (hier: n = 2) bestimmte Rang (kennen wir schon: DF, IG, Chi-square,

...) „Indirekte“ Experimente

usefulness = frequency of n-grams at the top of the list „Direkte“ Experimente

Verwendung eines konkreten Klassifikators

Indirekte Ergebnisse sind positiv

Vorverarbeitung der Texte Stoppwörter und Interpunktion entfernt, Kleinschreibung

Durchdringungsgrad (DDG, penetration level)= Anteil der n-gramme in den durch die FEF gewählten Features

Ergebnisse Durchdringungsgrad geht mit zunehmendem Reduction

Factor zurück zwei Gruppen von FEF: DDG sehr hoch + DDG hoch Penetration Levels sind ziemlich hoch

Indirekte Ergebnisse in Zahlen

Direkte Ergebnisse sind negativ

Evaluierungsmethode Precision, Recall und F-Maß micro- und macro-averaging WICHTIG: Anzahl Features konstant halten

=> Reduction Factor unterschiedlich für 1- und 2-grams(andere Vergleiche tun das oft nicht !!!)

Ergebnisse Bigramme erhöhen Klassifikationsergebnis nicht immer Verbesserung meist nicht signifikant, Verschlechterung

meist dramatisch Verhältnis besser : schlechter: 20 : 28

( ~ 58% schlechter !!)

Direkte Ergebnisse in Zahlen (1)

Verschlechterung hat Methode

Verschlechterung häufiger bei hohen Reduktionsfaktoren

Verschlechterung höher bei FEF‘s mit hohem Durchdringungsgrad (kontraintuitiv)

Erklärungsansatz Exzessive Verwendung von Bigrammen verdrängt

wichtige Unigramme Bigramme duplizieren Information, die in

Unigrammen schon enthalten ist

... deren Konklusion ...

„Our hypothesis that a high penetration level were conducive to improving effectiveness was not completely confirmed.“

Ja, so kann man das auch sagen. ;-) Problem aus Sicht der Autoren: Duplizierung

von Information durch Bigramme => weitere Untersuchungen

Besser die Finger davon lassen

Was schließen wir aus der Untersuchung? mit (statistischen) Bigrammen vorsichtig sein nicht zu viel davon versprechen falls verwenden, immer zusätzlich zu Unigrammen

Lohnt sich der Aufwand? wohl eher nicht ;-(

Was haben wir gelernt?

was (statistische) n-gramme sind Vor-/Nachteile syntaktischer und statistischer

Phrasen Möglichkeit einer Klassifikator-unabhängigen

Evaluierungs-Methode Konkrete Ergebnisse der Autoren Nicht alles ist Gold, was glänzt.

War unsere Vermutung richtig?

Sind statistische Phrasen hilfreich?

Na ja, so einfach kann man das nicht sagen ...

Fragen?

Vielen Dank für Eure

Aufmerksamkeit !

Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen...

Documents

Transcript of Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen...

Arno Richter Universität Potsdam Wirtschaft- und Sozialwissenschaftliche Fakultät Was ist Corporate Governance? Vortrag im Rahmen des Hauptseminars Corporate.

2. TESTTHEORETISCHE GRUNDLAGEN · * Reliabilität * Validität Nebengütekriterien: * Normierung * Ökonomie * Nützlichkeit andere Gütekriterien außerdem: * Zumutbarkeit * Unverfälschbarkeit

Tierfabeln - Fabeltiere · für Charakter oder Verhalten beim Menschen Fuchs = listig, schlau Bär = plump, ... Von jeder Tierart wurden Aussehen, Verhaltensgewohnheiten und Nützlichkeit

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Textklassifikation und Informationsextraktion Tobias Scheffer Peter Haider Paul.

Über die Hollerith- Maschinen von Jörg Dieckmann Referat im Rahmen des Hauptseminars zur Didaktik der Informatik bei Prof. Dr. K.-D. Graf WS 2002/03 FU-Berlin.

Maschinelles Lernen und automatische Textklassifikation

Von Uran zum Brennelement Ein Vortrag im Rahmen des AC V Hauptseminars Von Helen Grüninger 15.01.2013 Universität Bayreuth WS 2012/2013 Vom Element zum.

Europa Konsumbarometer 2014 · 2018-05-27 · 31 Das digitale Geschäft der Zukunft Point of Sale 2.0: Nützlichkeit mit einem Hauch von Luxus 39 Digitale Vernetzung vor Ort 45 Das

Nützlichkeit und Nutzung von Arbeit - nomos-shop.de Nützlichkeit und Nutzung... · Zugleich Dissertation, Friedrich-Schiller-Universität Jena . Die vorliegende Publikation wurde

»Lukas« – die Einleitungsfragen · tersemester 2014/2015 angekündigten Hauptseminars zeigt: „Ein und derselbe Lukas? ... 4 b) Die kirchliche Tradition B ei den Autoren im zweiten

Uraufführung Zwerg Nase - Theater an der Parkaue - … · Denn „der Mensch ist eine Funktion seines gefälligen Aussehens, seines Reichtums, seiner Macht, seiner Nützlichkeit.

D 9 Carlo Schmid als Bildungspolitiker · utilitaristisch = der Nützlichkeit untergeordnet; Troglodyt = Höhlenbewohner. 2 Das bezeichnet das sehr strenge Auswahlverfahren für einen

Beispiel: Textklassifikation

Schnellerer Servicedesk-Support durch automatische Textklassifikation

Plurale Bodennutzungen und polyrationales Bodeneigentum · Plurale Bodennutzungen und polyrationales Bodeneigentum 5 Didaktische Nützlichkeit ist nur einer von mehreren Gründen

INSTITUT HYPERWERK VIRTUAL/PHYSICAL & TIME/SPACE · 2017. 9. 13. · ter mit einem kleinen populären Rechenbuch in Europa ein. Er berief sich vor allem auf deren Nützlichkeit und

Greenday - Insektenworkshop · Greenday - Insektenworkshop Mit dem Ziel den besonderen Wert unserer Grünwände und die Nützlichkeit von Insekten und Bodentieren zu vermitteln, organisierten

Wirtschaftsanthropologie Programm final · 1 Die Veranstaltung leistet Impulse für eine neue Wirtschafts-anthropologie, die den Menschen über die Kategorien von Nutzen und Nützlichkeit

Systemprogrammierung · Schönheit, Stabilität, Nützlichkeit Venustas, Firmitas, Utilitas: Die drei Prinzipien von Architektur[8] Systemfunktionen sind architektonisch verschieden

Maschinelles Lernen und automatische Textklassifikation Lernen von Konzepten.