Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang...

Entwicklung eines Werkzeugs zurOnline Textanalyse und -klassifikation

Magisterarbeitim Studiengang Linguistische Informatik

(Magister Artium)

26.11.08 Nicolas Goessnitzer 2

Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation

Inhaltsübersicht

1. Einleitung und Übersicht

2. Demonstration der Textmühle

3. Theoretische Überlegungen

4. Aufbau und Struktur der Textmühle

5. Fazit




– Wofür wird die Textmühle eingesetzt?• Verarbeitung von Texten und Korpora

– Konvertierung von Dateiformaten

– Erstellung von Wort- und Frequenzlisten

– Morphologische Analysen (mit malaga, bzw. jslim)

– kontrollierte Erstellung von Korpora

• Statistische Berechnungen– Verteilungen von Domänen eines Korpus

– Wortanzahlen in Texten und Domänen

– Type/Token-Verteilungen

– Klassifikation / Clusteranalyse




Übersicht zu den Dateiformaten im WWW

Berücksichtigung bei Textmühle




Übersicht zu den Dateiformaten im WWW




– Was sind die wesentlichen Merkmale der Textmühle?

• Zugriff über das Internet

• Verarbeitung der Anforderungen erfolgt auf dem Server

• Programmierung in einer „offenen“ Programmiersprache (PHP)

• Keine Abhängigkeit vom Betriebssystem des Benutzers

• Leichter Zugang zu Daten und Bearbeitungsprozeduren

• Keine umständliche Installation und Konfiguration für den Nutzer

• Zusammenarbeit mit anderen Applikationen im WWW



1. Demonstration

– Verarbeitung eines Korpus anhand einer Beispielkollektion

– Analyseergebnisee des Testkorpus wifi

– Der Ablauf der Verarbeitungsschritte:• Import

• Konvertierung

• Filter

• Frequenzliste

• Morphologie

• Clusteranalyse



1. Demonstration

http://localhost/nsgoessn/textmill




3.1 Basiselemente Linguistischer Analysen

– Term - Wort, Wortform, Grundform, Morphem und Allomorph

– Text

– Korpus

Praktischer Analyseansatz zur Tokenisierung:

Das Wort ist eine sprachliche Einheit, die in der geschriebenen Sprache durch Leerstellen begrenzt ist.

Herbst, Stoll, u. Westermayr (1991, S. 79, Definition 317)

Pragmatische Definition von Text und Korpus:

Der Terminus “Text“ bezeichnet eine begrenzte Folge von sprachlichenZeichen […] Brinker (2005, S.17f)

Ein Korpus ist eine Sammlung schriftlicher oder gesprochener Äußerungen in einer oder mehreren Sprachen […]

Lemnitzer u. Zinsmeister (2006, S. 40)




Einschub: Korpuskodierungen

Welche Korpuskodierungen sind gebräuchlich?→ überwiegend scheint eine XML-Codierung das Gebräuchlichste zu sein:

Korpus Umfang Kodierung

Reuters Corpus ~ 200 Mio. lfd. Wortformen XML

DWDS1 ~ 40 Mio. lfd. Wortformen XML

AAC2 ~ 100 Mio. lfd. Wortformen n.b.

Deutsches

Referenzkorpus ~ 2.000 Mio. lfd. Wortformen IDS-Textmodell (XML)

negr@ corpus ~ 350 Tsd. lfd. Wortformen SQL-DB

BNC ~ 100 Mio. lfd. Wortformen XML (neue Version)

COBUILD3 ~ 65 Mio. lfd. Wortformen n.b.

Oslo ~ 1,5 Mio. lfd. Wortformen txt/ascii

LIMAS ~ 1 Mio. lfd. Wortformen n.b.

1 DWDS: Digitales Wörterbuch der deutschen Sprache

2 AAC: Austrian Academy Corpus (kaum Informationen via www zugänglich)

3 COBUILD: Die Internetpräsenz des Collins-COBUILD Korpus ist z.Zt. nicht verfügbar




3.2 Knowledge Discovery

– Unvorstellbare Mengen an Dokumenten und Daten

– Methoden zur Aufdeckung versteckter Zusammenhänge oder weitergehender Informationen (Data Mining, Text Mining)

Benachbarte Gebiete des KD nach Hotho (2004, S.30)




3.3 Angewendete Methoden des Textmining

– Stopplisten

– Anwendung linguistischen Wissens (Morphologische Analyse)

– Löschen von seltenen Wörtern (insbesondere Hapax Legomena)

– Normierung und Gewichtung der Daten

Unter Berücksichtigung kritischer Einflussfaktoren:

→ Datenmenge→ Dateiformate→ Zeichensätze→ Sprache der Dokumente




3.3 Angewendete Methoden des Textmining: Einflussfaktoren

– Datenmenge• Entwicklung 60er Jahre bis Gegenwart:

Anzahl der laufenden Wortformen (z.T. 100 Mio. und mehr)

• Datenübertragungsrate für Internetanwendungen

Zeitl. A

bfolge




3.3 Angewendete Methoden des Textmining: Einflussfaktoren

– Dateiformate • Abdecken möglichst vieler verschiedener Eingangsformate

• Probleme bei proprietären Formaten (z.B. Microsoft)

• Verfügbarkeit von Anwendungen zur Konvertierung

– Zeichensätze• Quasi-Standard UTF-8 für Internet

• Problem der Erkennung der konkreten Ausgangskodierung

(z.B. ISO-x, Ascii, Ansi)

• Theoretische Lösung: Annotierung der Kodierung mit XML

– Verwendete Sprache der Daten1. Prinzipiell gelöstes Teilproblem für hinreichend große Textlänge

• Problem der Multilingualität in Texten (insbesondere im WWW)





– Ansätze zur Anwendung linguistischen Wissens• Probabilistisches Stemming

• „Linguistisches“ Stemming

• Linguistische morphologische AnalyseDie zugrunde liegende Theorie, die Allomorph-Methode, basiert auf der von

Roland R. Hausser entwickelten SLIM-Sprachtheorie

– Zerlegung der Oberfläche (Segmentierung)

– Klassifikation der elementaren Bestandteile (Lexical-Lookup)

– Regelbasierte Zusammensetzung und grammatische Gesamtanalyse der Wortform (Konkatenation)

– Stoplisten• Reduktion auf die semantisch relevanten Elemente

• Qualitätsverbesserung für Stoplisten durch Wortformerkennung





– Löschen seltener Wörter• Rechnerisch aufwendige Clusteranalyse bedingt Reduktion der

berücksichtigten Terme/Wörter

• Reduktion von Ausreissern („Rauschen“)

Absicherung: Vorkommenshäufigkeit < Schranke

• Methoden: Dokument-Pruning und Wort-Pruning

• Entfernen von invarianten Wörtern

– Normierung und Gewichtung• Skalierung der Frequenzen an Normgröße

– Ermöglicht Verfahren mit absoluten Frequenzen

– Verdeckung von Unterscheidungsmerkmal Text-/ Domänengröße

• Gewichtung der Wortdimensionen1. tfidf: Ausreisser (sehr hohe bzw. sehr niedrige Frequenz erhalten niedrigeres

Gewicht)

– Gewichtung nach Varianz




3.4 Clusteranalyse

– Ziel einer Clusteranalyse:Auffinden von homogenen Teilmengen von Objekten in

einer heterogenen Gesamtheit von Objekten

– Vielfältige Anwendungsgebiete: Archäologie, Biologie, Chemie, (Computer-)Linguistik, Geologie, Informatik,

Klimaforschung, Medizin, Psychologie, Soziologie, Wirtschaftswissenschaften…

– Problem des Entscheidungszwangs zu maximaler Homogenität in einer Gruppe oder maximaler Heterogenität zwischen Gruppen

– Hauptproblem: eindeutige Bestimmung des geeignetsten Verfahrens

Aufgrund der Berechenbarkeit:Bei 10 Elementen und 5 Gruppen bestehen 42525 Möglichkeiten

Bei 50 Elementen sind es bereits 7,401 •1032 Möglichkeiten




3.4 Clusteranalyse

– Überblick zu den gängigen Verfahren

Clusteralgorithmen nach Backhaus u.a. 2005, S. 511




3.4 Clusteranalyse

– Zugrundeliegende Repräsentation: Vektorraummodell

– Einsatz von Distanz- oder Ähnlichkeitsmaßen zur Analyse der Eigenschaften von Clusterelementen

– Basis-Algorithmen

K-means Algorithmus als Beispiel für partitionierende Verfahren

1 Initiale Auswahl von K Elementen als Clusterzentren

2 (wiederhole solange)

3 Bilde K neue Cluster durch Zuordnung jedes Elements zu dem ihm

nächsten stehenden Clusterzentrums

4 Neuberechnung aller Clusterzentren

5 (bis sich die Clusterzentren nicht mehr verändern)

Probleme bei partitionierenden Verfahren:

→ Die Zielfunktion hat zu großen Einfluss auf das Ergebnis→ Wahl der Startgruppierung ist oft nur subjektiv→ Unlösbarkeit des Problems der lokalen Optima




3.4 Clusteranalyse

– Zugrundeliegende Repräsentation: Vektorraummodell

– Einsatz von Distanz- oder Ähnlichkeitsmaßen zur Analyse der Eigenschaften von Clusterelementen

– Basis-Algorithmen

Schematischer Ablauf aller agglomerierendenVerfahren

1 (wenn erforderlich) Berechnen der Distanz- oder Ähnlichkeitsmatrix

2 (wiederhole solange)

3 Vereinige die beiden Cluster, die sich am nächsten stehen

4 Berechnung des neu gebildeten Clusters und Substitution der beiden vorherigen

Cluster in der Distanz- oder Ähnlichkeitsmatrix

5 (bis nur noch ein Cluster mit allen Elementen übrig ist)

Probleme bei agglomerierenden Verfahren:

→ Gefahr einer fehlerhaften irreversiblen Zuordnung→ Berechnungsaufwand für divisive Methode (Top-Down)




3.4 Clusteranalyse: Überblick zu agglomierierenden Verfahren

– Single-Linkage-Verfahren („Nearest Neighbor“)

– Complete-Linkage-Verfahren („Furthest Neighbor“)

– Centroid-Verfahren (Bezug auf Clustermittelpunkte)

– Ward‘s Methode• Einsatz des Varianzkriteriums

• Fusionierung der Elemente mit dem minimalen Fehlerzuwachs

→ im intuitiven Ansatz bereits bessere Ergebnisse als die meisten anderen Verfahren

→ vor allem für größenordnungsmäßig vergleichbare Cluster geeignet




3.4 Clusteranalyse: Visualisierung der Ergebnisse

Darstellung der Ausgangsdaten

– Darstellung von Punktewolken der Merkmale (n-1 2-dimensionale Darst.)

– Histogramm

Darstellung der Analysen

– Dendrogramm

– Struktogramm

„Ellbogen-Kriterium“




3.4 Clusteranalyse: Varianten der Textklassifikation

– Initiale Klassifikation innerhalb eines Korpus

– Klassifikation eines neuen Textes• Anwendung existierender Ähnlichkeits- und Distanzmatrizen

• Erneute Clusteranalyse mit n+1 Elementen und ggf. Neuverteilung

– Gruppierung/Klassifikation mittels Cluster-Analyse funktioniert bereits mit niedriger Dimensionalität

– Verbesserungansätze von Analyseergebnissen durch Einsatz von Ontologien („Konzeptbildung“)




4.1 Systemumfeld und technischer Rahmen

– Entwicklung der Textmühle in PHP, Dateisystemoperationen in Perl

– Zugrunde liegendes Prinzip von Client-Server-Anwendungen




4.1 Systemumfeld und technischer Rahmen

– Berücksichtigung des modularen Aufbaus bei Implementierung

– Entwicklung mit Eclipse, Versionierung mit Subversion

– Integration von bestehenden Anwendungen:• Grammatikentwicklungssysteme Malaga und jslim

• Konvertierungsprogramme für XML-Formate, pdf und ps– Xpdf, Ghostscript (Win) vs. ps2ascii, html2text (Suse-Linux), PHP SDOM Parser

• Ajax-Modul sajax für verbesserte Bedienung und parallele Anfragen

• Grafikbibliothek phplot zur Generierung der Diagramme und Grafiken

• weitere PHP-Module für spezifische Funktionen




4.2 Aufbau der Textmühle (Module)

– Benutzeroberfläche• Benutzerrollen und –konten

• Internationalisierung

• Fehlerbehandlung

– Struktur der GUI




4.2 Aufbau der Textmühle (Module)

– Gesamtprozess Vorhergehende Probleme:Neuentwicklung des Korpusprozessesmit Unterstützung mittels Perl



1. Fazit

Erkenntnisse aus Einsatztests und Anwendung

– Erzeugung von vielfältigen Analysedaten• Wortanzahlen bgzl. Texten und Domänen

• Frequenzverteilungen (Type-Token, Terme)

• Morphologische Analyse der Wortformen

• Clusteranalyse

– Problemstellungen• Performance bei Internetanbindung der Morphologiemodule

• Integration Dateimodus

• Anforderungen an Serverkonfiguration und –leistung

– Zukünftige Planung1. Weiterentwicklung

• Direktanbindung Morphologie

• OpenSource?

Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang...

Documents

Transcript of Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang...