Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang...

Entwicklung eines Werkzeugs zurOnline Textanalyse und -klassifikation

Magisterarbeitim Studiengang Linguistische Informatik

(Magister Artium)

26.11.08 Nicolas Goessnitzer 2

Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation

Inhaltsübersicht

1. Einleitung und Übersicht

2. Demonstration der Textmühle

3. Theoretische Überlegungen

4. Aufbau und Struktur der Textmühle

5. Fazit

– Wofür wird die Textmühle eingesetzt?• Verarbeitung von Texten und Korpora

– Konvertierung von Dateiformaten

– Erstellung von Wort- und Frequenzlisten

– Morphologische Analysen (mit malaga, bzw. jslim)

– kontrollierte Erstellung von Korpora

• Statistische Berechnungen– Verteilungen von Domänen eines Korpus

– Wortanzahlen in Texten und Domänen

– Type/Token-Verteilungen

– Klassifikation / Clusteranalyse

Übersicht zu den Dateiformaten im WWW

Berücksichtigung bei Textmühle

Übersicht zu den Dateiformaten im WWW

– Was sind die wesentlichen Merkmale der Textmühle?

• Zugriff über das Internet

• Verarbeitung der Anforderungen erfolgt auf dem Server

• Programmierung in einer „offenen“ Programmiersprache (PHP)

• Keine Abhängigkeit vom Betriebssystem des Benutzers

• Leichter Zugang zu Daten und Bearbeitungsprozeduren

• Keine umständliche Installation und Konfiguration für den Nutzer

• Zusammenarbeit mit anderen Applikationen im WWW

1. Demonstration

– Verarbeitung eines Korpus anhand einer Beispielkollektion

– Analyseergebnisee des Testkorpus wifi

– Der Ablauf der Verarbeitungsschritte:• Import

• Konvertierung

• Filter

• Frequenzliste

• Morphologie

• Clusteranalyse

1. Demonstration

3.1 Basiselemente Linguistischer Analysen

– Term - Wort, Wortform, Grundform, Morphem und Allomorph

– Text

– Korpus

Praktischer Analyseansatz zur Tokenisierung:

Das Wort ist eine sprachliche Einheit, die in der geschriebenen Sprache durch Leerstellen begrenzt ist.

Herbst, Stoll, u. Westermayr (1991, S. 79, Definition 317)

Pragmatische Definition von Text und Korpus:

Der Terminus “Text“ bezeichnet eine begrenzte Folge von sprachlichenZeichen […] Brinker (2005, S.17f)

Ein Korpus ist eine Sammlung schriftlicher oder gesprochener Äußerungen in einer oder mehreren Sprachen […]

Lemnitzer u. Zinsmeister (2006, S. 40)

Einschub: Korpuskodierungen

Welche Korpuskodierungen sind gebräuchlich?→ überwiegend scheint eine XML-Codierung das Gebräuchlichste zu sein:

Korpus Umfang Kodierung

Reuters Corpus ~ 200 Mio. lfd. Wortformen XML

DWDS1 ~ 40 Mio. lfd. Wortformen XML

AAC2 ~ 100 Mio. lfd. Wortformen n.b.

Deutsches

Referenzkorpus ~ 2.000 Mio. lfd. Wortformen IDS-Textmodell (XML)

negr@ corpus ~ 350 Tsd. lfd. Wortformen SQL-DB

BNC ~ 100 Mio. lfd. Wortformen XML (neue Version)

COBUILD3 ~ 65 Mio. lfd. Wortformen n.b.

Oslo ~ 1,5 Mio. lfd. Wortformen txt/ascii

LIMAS ~ 1 Mio. lfd. Wortformen n.b.

1 DWDS: Digitales Wörterbuch der deutschen Sprache

2 AAC: Austrian Academy Corpus (kaum Informationen via www zugänglich)

3 COBUILD: Die Internetpräsenz des Collins-COBUILD Korpus ist z.Zt. nicht verfügbar

3.2 Knowledge Discovery

– Unvorstellbare Mengen an Dokumenten und Daten

– Methoden zur Aufdeckung versteckter Zusammenhänge oder weitergehender Informationen (Data Mining, Text Mining)

Benachbarte Gebiete des KD nach Hotho (2004, S.30)

3.3 Angewendete Methoden des Textmining

– Stopplisten

– Anwendung linguistischen Wissens (Morphologische Analyse)

– Löschen von seltenen Wörtern (insbesondere Hapax Legomena)

– Normierung und Gewichtung der Daten

Unter Berücksichtigung kritischer Einflussfaktoren:

→ Datenmenge→ Dateiformate→ Zeichensätze→ Sprache der Dokumente

3.3 Angewendete Methoden des Textmining: Einflussfaktoren

– Datenmenge• Entwicklung 60er Jahre bis Gegenwart:

Anzahl der laufenden Wortformen (z.T. 100 Mio. und mehr)

• Datenübertragungsrate für Internetanwendungen

Zeitl. A

bfolge

3.3 Angewendete Methoden des Textmining: Einflussfaktoren

– Dateiformate • Abdecken möglichst vieler verschiedener Eingangsformate

• Probleme bei proprietären Formaten (z.B. Microsoft)

• Verfügbarkeit von Anwendungen zur Konvertierung

– Zeichensätze• Quasi-Standard UTF-8 für Internet

• Problem der Erkennung der konkreten Ausgangskodierung

(z.B. ISO-x, Ascii, Ansi)

• Theoretische Lösung: Annotierung der Kodierung mit XML

– Verwendete Sprache der Daten1. Prinzipiell gelöstes Teilproblem für hinreichend große Textlänge

• Problem der Multilingualität in Texten (insbesondere im WWW)

– Ansätze zur Anwendung linguistischen Wissens• Probabilistisches Stemming

• „Linguistisches“ Stemming

• Linguistische morphologische AnalyseDie zugrunde liegende Theorie, die Allomorph-Methode, basiert auf der von

Roland R. Hausser entwickelten SLIM-Sprachtheorie

– Zerlegung der Oberfläche (Segmentierung)

– Klassifikation der elementaren Bestandteile (Lexical-Lookup)

– Regelbasierte Zusammensetzung und grammatische Gesamtanalyse der Wortform (Konkatenation)

– Stoplisten• Reduktion auf die semantisch relevanten Elemente

• Qualitätsverbesserung für Stoplisten durch Wortformerkennung

– Löschen seltener Wörter• Rechnerisch aufwendige Clusteranalyse bedingt Reduktion der

berücksichtigten Terme/Wörter

• Reduktion von Ausreissern („Rauschen“)

Absicherung: Vorkommenshäufigkeit < Schranke

• Methoden: Dokument-Pruning und Wort-Pruning

• Entfernen von invarianten Wörtern

– Normierung und Gewichtung• Skalierung der Frequenzen an Normgröße

– Ermöglicht Verfahren mit absoluten Frequenzen

– Verdeckung von Unterscheidungsmerkmal Text-/ Domänengröße

• Gewichtung der Wortdimensionen1. tfidf: Ausreisser (sehr hohe bzw. sehr niedrige Frequenz erhalten niedrigeres

Gewicht)

– Gewichtung nach Varianz

3.4 Clusteranalyse

– Ziel einer Clusteranalyse:Auffinden von homogenen Teilmengen von Objekten in

einer heterogenen Gesamtheit von Objekten

– Vielfältige Anwendungsgebiete: Archäologie, Biologie, Chemie, (Computer-)Linguistik, Geologie, Informatik,

Klimaforschung, Medizin, Psychologie, Soziologie, Wirtschaftswissenschaften…

– Problem des Entscheidungszwangs zu maximaler Homogenität in einer Gruppe oder maximaler Heterogenität zwischen Gruppen

– Hauptproblem: eindeutige Bestimmung des geeignetsten Verfahrens

Aufgrund der Berechenbarkeit:Bei 10 Elementen und 5 Gruppen bestehen 42525 Möglichkeiten

Bei 50 Elementen sind es bereits 7,401 •1032 Möglichkeiten

3.4 Clusteranalyse

– Überblick zu den gängigen Verfahren

Clusteralgorithmen nach Backhaus u.a. 2005, S. 511

3.4 Clusteranalyse

– Zugrundeliegende Repräsentation: Vektorraummodell

– Einsatz von Distanz- oder Ähnlichkeitsmaßen zur Analyse der Eigenschaften von Clusterelementen

– Basis-Algorithmen

K-means Algorithmus als Beispiel für partitionierende Verfahren

1 Initiale Auswahl von K Elementen als Clusterzentren

2 (wiederhole solange)

3 Bilde K neue Cluster durch Zuordnung jedes Elements zu dem ihm

nächsten stehenden Clusterzentrums

4 Neuberechnung aller Clusterzentren

5 (bis sich die Clusterzentren nicht mehr verändern)

Probleme bei partitionierenden Verfahren:

→ Die Zielfunktion hat zu großen Einfluss auf das Ergebnis→ Wahl der Startgruppierung ist oft nur subjektiv→ Unlösbarkeit des Problems der lokalen Optima

3.4 Clusteranalyse

– Zugrundeliegende Repräsentation: Vektorraummodell

– Einsatz von Distanz- oder Ähnlichkeitsmaßen zur Analyse der Eigenschaften von Clusterelementen

– Basis-Algorithmen

Schematischer Ablauf aller agglomerierendenVerfahren

1 (wenn erforderlich) Berechnen der Distanz- oder Ähnlichkeitsmatrix

2 (wiederhole solange)

3 Vereinige die beiden Cluster, die sich am nächsten stehen

4 Berechnung des neu gebildeten Clusters und Substitution der beiden vorherigen

Cluster in der Distanz- oder Ähnlichkeitsmatrix

5 (bis nur noch ein Cluster mit allen Elementen übrig ist)

Probleme bei agglomerierenden Verfahren:

→ Gefahr einer fehlerhaften irreversiblen Zuordnung→ Berechnungsaufwand für divisive Methode (Top-Down)

3.4 Clusteranalyse: Überblick zu agglomierierenden Verfahren

– Single-Linkage-Verfahren („Nearest Neighbor“)

– Complete-Linkage-Verfahren („Furthest Neighbor“)

– Centroid-Verfahren (Bezug auf Clustermittelpunkte)

– Ward‘s Methode• Einsatz des Varianzkriteriums

• Fusionierung der Elemente mit dem minimalen Fehlerzuwachs

→ im intuitiven Ansatz bereits bessere Ergebnisse als die meisten anderen Verfahren

→ vor allem für größenordnungsmäßig vergleichbare Cluster geeignet

3.4 Clusteranalyse: Visualisierung der Ergebnisse

Darstellung der Ausgangsdaten

– Darstellung von Punktewolken der Merkmale (n-1 2-dimensionale Darst.)

– Histogramm

Darstellung der Analysen

– Dendrogramm

– Struktogramm

„Ellbogen-Kriterium“

3.4 Clusteranalyse: Varianten der Textklassifikation

– Initiale Klassifikation innerhalb eines Korpus

– Klassifikation eines neuen Textes• Anwendung existierender Ähnlichkeits- und Distanzmatrizen

• Erneute Clusteranalyse mit n+1 Elementen und ggf. Neuverteilung

– Gruppierung/Klassifikation mittels Cluster-Analyse funktioniert bereits mit niedriger Dimensionalität

– Verbesserungansätze von Analyseergebnissen durch Einsatz von Ontologien („Konzeptbildung“)

4.1 Systemumfeld und technischer Rahmen

– Entwicklung der Textmühle in PHP, Dateisystemoperationen in Perl

– Zugrunde liegendes Prinzip von Client-Server-Anwendungen

4.1 Systemumfeld und technischer Rahmen

– Berücksichtigung des modularen Aufbaus bei Implementierung

– Entwicklung mit Eclipse, Versionierung mit Subversion

– Integration von bestehenden Anwendungen:• Grammatikentwicklungssysteme Malaga und jslim

• Konvertierungsprogramme für XML-Formate, pdf und ps– Xpdf, Ghostscript (Win) vs. ps2ascii, html2text (Suse-Linux), PHP SDOM Parser

• Ajax-Modul sajax für verbesserte Bedienung und parallele Anfragen

• Grafikbibliothek phplot zur Generierung der Diagramme und Grafiken

• weitere PHP-Module für spezifische Funktionen

4.2 Aufbau der Textmühle (Module)

– Benutzeroberfläche• Benutzerrollen und –konten

• Internationalisierung

• Fehlerbehandlung

– Struktur der GUI

4.2 Aufbau der Textmühle (Module)

– Gesamtprozess Vorhergehende Probleme:Neuentwicklung des Korpusprozessesmit Unterstützung mittels Perl

1. Fazit

Erkenntnisse aus Einsatztests und Anwendung

– Erzeugung von vielfältigen Analysedaten• Wortanzahlen bgzl. Texten und Domänen

• Frequenzverteilungen (Type-Token, Terme)

• Morphologische Analyse der Wortformen

• Clusteranalyse

– Problemstellungen• Performance bei Internetanbindung der Morphologiemodule

• Integration Dateimodus

• Anforderungen an Serverkonfiguration und –leistung

– Zukünftige Planung1. Weiterentwicklung

• Direktanbindung Morphologie

• OpenSource?

Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang...

Documents

Transcript of Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang...

Abiturwissen: Arbeitsblätter zur Textanalyse und ...

DIE TEXTINTERPRETATION, DIE TEXTANALYSE UND IHRE PROBLEMPUNKTE Mgr. Michaela Voltrová Katedra německého jazyka, Pedagogická fakulta Západočeské univerzity,

Textanalyse und Interpretation zu Bernhard Schlink, Der Vorleser

MoldWorks - MB CADMoldWorks Funktionen Neue Gussform • automatische Größenabschätzung des Werkzeugs • Integration von Formeinsätzen, Schiebern und Schrägauswerfern • …

9. Projekt Oberflächenbehandlung von Kunststoffformteilen · (Folien, Holz, …) §Erstellung oder Anpassung eines Werkzeugs für Versuchsdurchführungen und zur Herstellung von

FAKULTÄT FÜR INFORMATIK Auswahl eines Werkzeugs zum ...

Zeitbehandlung und Zeitverständnis im Schaffen von John Cagekirchheim.noisebau.com/downloads/cage.pdfMagisterarbeit zur Erlangung des Titels Magister Artium angefertigt von Wolfgang

TEXTGRAMMATISCHE BESONDERHEITEN 05.12.2011. Segmentierung von Texten Ist der Satz eine geeignete Grundlage für die Textanalyse? Satzdefinitionen Interpunktion.

BACHELORARBEIT - monami.hs-mittweida.de · Business Management Seminargruppe: BM10w1-B Erstprüfer: Professor Herbert E. Graus Zweitprüfer: Sandy Steinert, Magistra Artium Einreichung:

Guernica - ARTIUM

TEXTGRAMMATISCHE BESONDERHEITEN 15.12.2015. Segmentierung von Texten Ist der ‚Satz‘ eine geeignete Grundlage für die Textanalyse? Satzdefinitionen.

TEXTGRAMMATISCHE BESONDERHEITEN 04.12.2012. Segmentierung von Texten Ist der Satz eine geeignete Grundlage für die Textanalyse? Satzdefinitionen Interpunktion.

Methoden der Textanalyse Schwerpunkte Einleitung.

Kurzgeschichten und Erzählungen - Textanalyse und ...

3.4 Semiotische Erkenntnisse - uni-due.de...1 Brinker, Linguistische Textanalyse, S. 2 2 Im französischen Sprachraum wird die Textanalyse in der Form der Diskursanalyse betrieben,

TEXTGRAMMATISCHE BESONDERHEITEN 15.12.2014. Segmentierung von Texten Ist der ‚Satz‘ eine geeignete Grundlage für die Textanalyse? Satzdefinitionen.

Forschungsmethoden der Psychologie Tutorium 9. 1.Textanalyse 1.Theorie 2.Empirie Übersicht.

Modul 4 mit Ideen zur Unterstützung der Textanalyse mit i desk

Textanalyse und Interpretation zu lyrik des … · königs erläuterungen spezial lyrik des expressionismus Textanalyse und Interpretation zu Alle erforderlichen Infos für Abitur,

Wohlfahrtsstaat! und!demographischer! Wandel! · Wohlfahrtsstaat! und!demographischer! Wandel! Hausarbeit!zur!Erlangung!des!AkademischenGradeseinesMagister Artium! ImJuni!2011!! dem!FachbereichSozialwissenschaften