Text Mining Nichterl Markus, Steindorfer Jochen. AGENDA Einleitung Einleitung Grundlagen der...
-
Upload
mann-helferich -
Category
Documents
-
view
104 -
download
1
Transcript of Text Mining Nichterl Markus, Steindorfer Jochen. AGENDA Einleitung Einleitung Grundlagen der...
Text MiningText Mining
Nichterl Markus, Steindorfer JochenNichterl Markus, Steindorfer Jochen
AGENDAAGENDA
EinleitungEinleitung Grundlagen der VolltextsucheGrundlagen der Volltextsuche RetrievalmodelleRetrievalmodelle Text Mining Systeme in der PraxisText Mining Systeme in der Praxis Zusammenfassung und AusblickZusammenfassung und Ausblick
EinleitungEinleitung
Warum Text Mining ??Warum Text Mining ??
Zunehmende Bedeutung des InternetsZunehmende Bedeutung des Internets Schnelles Finden von DokumentenSchnelles Finden von Dokumenten
Vergleichbar mit einem Schlagwortverzeichnis am Vergleichbar mit einem Schlagwortverzeichnis am Ende eines Buches Ende eines Buches
Eine Anfrage an das System entspricht einem Eine Anfrage an das System entspricht einem Nachschlagen im Index.Nachschlagen im Index.
Funktionsweise: im Grunde wie wenn eine Bibliothek Funktionsweise: im Grunde wie wenn eine Bibliothek mit einem Schlagwortverzeichnis alle Wörter aller mit einem Schlagwortverzeichnis alle Wörter aller vorkommenden Bücher auflisten würde vorkommenden Bücher auflisten würde
Data MiningData Mining
Clustering:Clustering: segmentiert Daten mit ähnlichen segmentiert Daten mit ähnlichen Werten in GruppenWerten in Gruppen
Classification:Classification: analysiert und kann die Werte analysiert und kann die Werte der Daten vorhersagender Daten vorhersagen
Association:Association: erkennt die Korrelation erkennt die Korrelation zwischen Datenzwischen Daten
Grundlagen der VolltextsucheGrundlagen der Volltextsuche
Grundlagen der VolltextsucheGrundlagen der Volltextsuche
Definition: Definition: Informationen, die sprachlich gegeben sind, explizit Informationen, die sprachlich gegeben sind, explizit zu machen, um sie maschinell zu erschließen.zu machen, um sie maschinell zu erschließen.
gezielte Suche nach Dokumenten mit ähnlichen gezielte Suche nach Dokumenten mit ähnlichen Inhalten Inhalten
zentrale Begriffe für Text Mining: zentrale Begriffe für Text Mining: Dokumente und Dokumente und Metadaten Metadaten
Semantische Metadaten leisten eine Abstraktion vom Semantische Metadaten leisten eine Abstraktion vom Inhalt eines Dokuments Inhalt eines Dokuments
Funktionsweise simpler SuchverfahrenFunktionsweise simpler Suchverfahren
Unscharfe Suche:Unscharfe Suche: Begriffe werden gesucht, die nur ungefähr Begriffe werden gesucht, die nur ungefähr mit dem Suchbegriff übereinstimmen.mit dem Suchbegriff übereinstimmen.
Phonetische Suche:Phonetische Suche: sucht nach Worten, die in der Aussprache sucht nach Worten, die in der Aussprache mit dem Suchbegriff übereinstimmenmit dem Suchbegriff übereinstimmen
Phrasensuche:Phrasensuche: bestimmte Textstellen werden gefiltert, die bestimmte Textstellen werden gefiltert, die mit dem Suchbegriff übereinstimmenmit dem Suchbegriff übereinstimmen
Suche in Feldern:Suche in Feldern: Felder mit bestimmten Argumenten Felder mit bestimmten Argumenten werden erzeugt, in denen gezieltes Suchen möglich istwerden erzeugt, in denen gezieltes Suchen möglich ist
Index, Indexterme, Zeichenketten und Index, Indexterme, Zeichenketten und StoppwörterStoppwörter
Die natürliche Sprache soll so verarbeitet Die natürliche Sprache soll so verarbeitet werden, dass inhaltliche Ähnlichkeiten werden, dass inhaltliche Ähnlichkeiten erkennbar werdenerkennbar werden
Die zulässigen Mittel zur inhaltlichen Die zulässigen Mittel zur inhaltlichen Beschreibung sollen so eingeschränkt werden, Beschreibung sollen so eingeschränkt werden, dass sie Ähnlichkeiten abbildendass sie Ähnlichkeiten abbilden
Lexikographische GrundformreduktionLexikographische Grundformreduktion
lexikografische Grundform:lexikografische Grundform: die Form, in der das Wort in einem die Form, in der das Wort in einem Wörterbuch zu finden ist. Die durch Flexion möglicherweise Wörterbuch zu finden ist. Die durch Flexion möglicherweise entstandenen Veränderungen gegenüber der Grundform werden entstandenen Veränderungen gegenüber der Grundform werden rückgängig gemacht, indem die Wörter deflektiert und anschließend rückgängig gemacht, indem die Wörter deflektiert und anschließend rekodiert werdenrekodiert werden
formale Grundform:formale Grundform: Wortfragmente, bei denen die normalen Wortfragmente, bei denen die normalen englischen und fremdsprachigen (hauptsächlich lateinischen) englischen und fremdsprachigen (hauptsächlich lateinischen) Flexionsendungen abgetrennt werden, ohne dass die entstandenen Flexionsendungen abgetrennt werden, ohne dass die entstandenen Wortfragmente rekodiert würdenWortfragmente rekodiert würden
Stammform nach linguistischen Prinzipien:Stammform nach linguistischen Prinzipien: die Zeichenketten, die die Zeichenketten, die durch Deflexion und Abtrennen von Derivationsendungen durch Deflexion und Abtrennen von Derivationsendungen entstehen. Diese Zeichenketten sollen soweit wie möglich durch entstehen. Diese Zeichenketten sollen soweit wie möglich durch Rekodierung vereinheitlicht werden. Rekodierung vereinheitlicht werden.
Die verschiedenen Reduktionsformen Die verschiedenen Reduktionsformen nach Kuhlennach Kuhlen
Formale GrundformFormale Grundform TextwörterTextwörter Lexikalische GrundformLexikalische Grundform StammformStammform
ABSORBABSORB
ABSORBABSORB
ABSORBABSORB
ABSORBABSORB
ABSORBEDABSORBED
ABSORBINGABSORBING
ABSORBSABSORBS
ABSORBERABSORBERABSORBERABSORBER
ABSORBERSABSORBERS
ABSORBABABSORBABABSORBABLEABSORBABLE
ABSORBABLEABSORBABLEABSORBABLYABSORBABLY
ABSORBANCABSORBANC
ABSORBANCEABSORBANCEABSORBANCEABSORBANCE
ABSORBANCESABSORBANCES
ABSORBANCYABSORBANCYABSORBANCYABSORBANCY
ABSORBANCIESABSORBANCIES
ABSORBENTABSORBENT
ABSORBENTABSORBENT
ABSORBENTABSORBENTABSORBENTSABSORBENTS
ABSORBENTLYABSORBENTLY
ABSORPTIONABSORPTIONABSORPTIONABSORPTION
ABSORPTIONABSORPTIONABSORPTIONSABSORPTIONS
ABSORPTIVABSORPTIVABSORBTIVELYABSORBTIVELY
ABSORPTIVEABSORPTIVEABSORBTIVEABSORBTIVE
Das lexikonbasierte VerfahrenDas lexikonbasierte Verfahren Suche nach der Wortform in einer kleinen Liste, die die häufigsten Wortformen mit Suche nach der Wortform in einer kleinen Liste, die die häufigsten Wortformen mit
ihrer Grundform enthält. Wird das Wort gefunden, ist die ihrer Grundform enthält. Wird das Wort gefunden, ist die LemmatisierungLemmatisierung beendet. beendet.
Flexionsanalyse:Flexionsanalyse: Abschneiden der letzten Buchstaben, die verbleibende Abschneiden der letzten Buchstaben, die verbleibende Zeichenkette wird im Stammformenlexikon gesucht. Wird ein Stamm gefunden, Zeichenkette wird im Stammformenlexikon gesucht. Wird ein Stamm gefunden, wird untersucht, ob damit die Wortform generiert werden kann. Prüfung aller wird untersucht, ob damit die Wortform generiert werden kann. Prüfung aller Stämme, um bei Wortformen, die auf mehrere Stämme aus dem Lexikon Stämme, um bei Wortformen, die auf mehrere Stämme aus dem Lexikon zurückgeführt werden können, alle diese Stämme zu finden. Werden Grundformen zurückgeführt werden können, alle diese Stämme zu finden. Werden Grundformen gefunden, werden sie mit der Wortklassenzugehörigkeit ausgegeben, und die gefunden, werden sie mit der Wortklassenzugehörigkeit ausgegeben, und die Lemmatisierung ist beendet.Lemmatisierung ist beendet.
Kompositionsanalyse:Kompositionsanalyse: Es werden von rechts rekursiv die jeweils längsten Es werden von rechts rekursiv die jeweils längsten Wortformen abgeschnitten, die im Lexikon gefunden werden. Lässt sich das Wort Wortformen abgeschnitten, die im Lexikon gefunden werden. Lässt sich das Wort so in Teilwörter zerlegen, wird es als Kompositum bezeichnet und die so in Teilwörter zerlegen, wird es als Kompositum bezeichnet und die Lemmatisierung beendet.Lemmatisierung beendet.
Konnte das Wort nicht lemmatisiert werden, wird auf der Basis einer empirischen Konnte das Wort nicht lemmatisiert werden, wird auf der Basis einer empirischen Häufigkeitstabelle für Endungen eine Häufigkeitstabelle für Endungen eine Vermutung über die Vermutung über die WortklassenzugehörigkeitWortklassenzugehörigkeit ausgegeben. ausgegeben.
Flexionsanalyse nach LeziusFlexionsanalyse nach Lezius
Fall/Endung Fall/Endung - - n n en en sen sen ... ...
normal normal Flüssen- Flüssen- Flüsse-n Flüsse-n Flüss-en Flüss-en Flüs-sen Flüs-sen ... ...
Umlaut Umlaut Flussen- Flussen- Flusse-n Flusse-n FlussFluss-en -en Flus-sen Flus-sen ... ...
ß/ss ß/ss Flüßen- Flüßen- Flüße-n Flüße-n Flüß-en Flüß-en Flü-ßen Flü-ßen ... ...
beides beides Flußen- Flußen- Fluße-n Fluße-n FlußFluß-en -en Flu-ßen Flu-ßen ... ...
KlassifikationenKlassifikationen
Dokumente vordefinierten Kategorien Dokumente vordefinierten Kategorien zuweisen zuweisen
Anwendungsgebiet hierfür ist die Navigation Anwendungsgebiet hierfür ist die Navigation über Kategorien in Webkatalogen über Kategorien in Webkatalogen
Um diese Ziel technisch zu realisieren, werden Um diese Ziel technisch zu realisieren, werden verschiedene Verfahren der Kategorisierung verschiedene Verfahren der Kategorisierung angewendet angewendet
Das ZentroidvektorverfahrenDas Zentroidvektorverfahren
Bauen während der Trainingsphase einen Vektor aus den signifikanten Bauen während der Trainingsphase einen Vektor aus den signifikanten Wörtern der Trainingsdokumente pro Kategorie auf, die Gleichzeitig am Wörtern der Trainingsdokumente pro Kategorie auf, die Gleichzeitig am distinktivsten zu den Wörtern der anderen Kategorien sind. distinktivsten zu den Wörtern der anderen Kategorien sind. Während der Phase der Kategorisierung wird dann das Vokabular des Während der Phase der Kategorisierung wird dann das Vokabular des Dokumentes mit den Vektoren der jeweiligen Kategorie verglichen. Dokumentes mit den Vektoren der jeweiligen Kategorie verglichen. Diese Verfahren benötigt nicht viele Trainingsdokumente, hat aber den Diese Verfahren benötigt nicht viele Trainingsdokumente, hat aber den Nachteil, dass die Zuordnungsqualität mit der Anzahl der Kategorien Nachteil, dass die Zuordnungsqualität mit der Anzahl der Kategorien deutlich schlechter wird. deutlich schlechter wird. Support-Vektor-MaschinenSupport-Vektor-Maschinen folgen ebenfalls einem vektorbasiertem folgen ebenfalls einem vektorbasiertem Ansatz. Ansatz. Dieses Verfahren geht von der Annahme aus, dass die optimale Form Dieses Verfahren geht von der Annahme aus, dass die optimale Form berechnet wird, die positive und negative Trainingsdokumente berechnet wird, die positive und negative Trainingsdokumente voneinander unterscheidet. voneinander unterscheidet. Das Trainingsresultat besteht aus einer Menge von Vektore, die dieser Das Trainingsresultat besteht aus einer Menge von Vektore, die dieser Form möglichst ähnlich sind. Form möglichst ähnlich sind.
Das Nearest-Neighbour-VerfahrenDas Nearest-Neighbour-Verfahren
Vergleicht bei der Kategorisierung ein Dokument mit allen bereits Vergleicht bei der Kategorisierung ein Dokument mit allen bereits kategorisierten Dokumenten und ordnet das Dokument dann den kategorisierten Dokumenten und ordnet das Dokument dann den Kategorien zu, die am besten zutreffenKategorien zu, die am besten zutreffen
Trainingsphase sehr schnell, da es nur die Vektorrepräsentationen der Trainingsphase sehr schnell, da es nur die Vektorrepräsentationen der Trainingsdokumente erstelltTrainingsdokumente erstellt
Kategorisierung dauert länger als beim Zentroidvektor-basierten Verfahren Kategorisierung dauert länger als beim Zentroidvektor-basierten Verfahren Die Performance kann mit zunehmender Anzahl zu einem Problem werdenDie Performance kann mit zunehmender Anzahl zu einem Problem werden
Das Nearest-Neighbour Verfahren hat Vorteile, wenn die Kategorisierung Das Nearest-Neighbour Verfahren hat Vorteile, wenn die Kategorisierung schlecht durch repräsentative Dokumente dargestellt werden kann. schlecht durch repräsentative Dokumente dargestellt werden kann. Das kann der Fall sein, wenn eine Kategorie zwei unterschiedliche Themen Das kann der Fall sein, wenn eine Kategorie zwei unterschiedliche Themen enthält. Ein weiterer Nachteil ist das sog. Overfitting, d.h. dass das enthält. Ein weiterer Nachteil ist das sog. Overfitting, d.h. dass das Verfahren nur genau die Trainingsdaten abbildet. Dadurch wird die Verfahren nur genau die Trainingsdaten abbildet. Dadurch wird die Vorhersage von Kategorien nur schwache Ergebnisse liefern.Vorhersage von Kategorien nur schwache Ergebnisse liefern.
Das EntscheidungsbaumverfahrenDas Entscheidungsbaumverfahren
ÜÜberführen die Trainingsdokumente auf Basis eindeutiger berführen die Trainingsdokumente auf Basis eindeutiger Wahr-Falsch-Fragen bezüglich des Themas in binäre Wahr-Falsch-Fragen bezüglich des Themas in binäre Baumstrukturen. Baumstrukturen.
Problem:Problem: Overfitting OverfittingLösung:Lösung: mehrere Entscheidungsbäume werden für die mehrere Entscheidungsbäume werden für die gleiche Kategorie aus den selben Dokumenten abgeleitetgleiche Kategorie aus den selben Dokumenten abgeleitet
Ein Dokument wird dann mit allen Entscheidungsbäumen Ein Dokument wird dann mit allen Entscheidungsbäumen verglichen. Ein Vorteil dieses Verfahrens besteht in seinem verglichen. Ein Vorteil dieses Verfahrens besteht in seinem effizienten Verhalten in hohen Dimensionen.effizienten Verhalten in hohen Dimensionen.
Das Bayesische VerfahrenDas Bayesische Verfahren
SSind in verschiedenen Arten vorhanden, wobei sich ind in verschiedenen Arten vorhanden, wobei sich die Ausprägungen primär durch die getroffenen die Ausprägungen primär durch die getroffenen Annahmen unterscheiden, wie die Daten generiert Annahmen unterscheiden, wie die Daten generiert werden.werden.Aufbauend darauf wird eine Kollektion von Aufbauend darauf wird eine Kollektion von Trainingsbeispielen herangenommen, um die Trainingsbeispielen herangenommen, um die Parameter des generativen Modells zu berechnen.Parameter des generativen Modells zu berechnen.Zur Klassifikation von neuen Dokumenten wird dann Zur Klassifikation von neuen Dokumenten wird dann die Kategorie gewählt, deren Modell am die Kategorie gewählt, deren Modell am wahrscheinlichsten das Dokument hätte generieren wahrscheinlichsten das Dokument hätte generieren können.können.
Einschub: ClusterEinschub: Cluster
Einschub: ClusterEinschub: Cluster
Ähnlichkeiten mit KlassifikationÄhnlichkeiten mit Klassifikation Gruppierungen der ähnlichen Dokumente in Gruppierungen der ähnlichen Dokumente in
ClusterCluster Kleine inhaltliche Distanz innerhalb eines Kleine inhaltliche Distanz innerhalb eines
ClustersClusters Große Distanz zwischen den ClusternGroße Distanz zwischen den Clustern Zuordnung in Cluster erfolgt automatisiertZuordnung in Cluster erfolgt automatisiert Verfahren wird dem unüberwachten Lernen Verfahren wird dem unüberwachten Lernen
zugeschrieben (Verweis auf Data Mining)zugeschrieben (Verweis auf Data Mining)
Einschub: ClusterEinschub: Cluster Allgemeine Allgemeine
Verfahrensweise:Verfahrensweise:Aus einer Aus einer Dokumentenkollektion Dokumentenkollektion werden die einzelnen werden die einzelnen Dokumente in Cluster Dokumente in Cluster zugeteilt. Die Cluster sind zugeteilt. Die Cluster sind untereinander disjunkt.untereinander disjunkt.
Quelle: Ferber2003
Einschub: ClusterEinschub: Cluster
2 Ansätze zur Clusterbildung:2 Ansätze zur Clusterbildung: Hierarchisches ClusteringHierarchisches Clustering
a) Agglomeration (Baumstruktur)a) Agglomeration (Baumstruktur)
b) Divisive (binäre Strukturen)b) Divisive (binäre Strukturen) Partitional ClusteringPartitional Clustering
Einschub: ClusterEinschub: Cluster
Hierarchisches ClusteringHierarchisches Clustering Annahme: Anzahl der zu erstellenden Cluster ist nicht bekanntAnnahme: Anzahl der zu erstellenden Cluster ist nicht bekannt Ziel: Erzeugung einer BaumstrukturZiel: Erzeugung einer Baumstruktur
2 Ansätze:2 Ansätze: Agglomeration: Top DownAgglomeration: Top Down
Start bei den BlätternStart bei den Blättern Divisiv: Bottom upDivisiv: Bottom up
Start bei der WurzelStart bei der Wurzel
Quelle: Toennis
Einschub: ClusterEinschub: Cluster
Partitional ClusteringPartitional Clustering Anzahl der Cluster ist vorgegebenAnzahl der Cluster ist vorgegeben Top-Down VerfahrenTop-Down Verfahren Neue Cluster nach Überschreiten vom Schwellenwert (Distanzmaß der Neue Cluster nach Überschreiten vom Schwellenwert (Distanzmaß der
Dokumente)Dokumente) Ähnlichkeitsbeziehungen zwischen den ClusternÄhnlichkeitsbeziehungen zwischen den Clustern
ThesaurenThesauren
Das sprachliche oder terminologische Gegenstück zu Das sprachliche oder terminologische Gegenstück zu hierarchischen Klassifikationssystemen hierarchischen Klassifikationssystemen
Terme und Ausdrücke eines Sachgebietes werden erfasst und Terme und Ausdrücke eines Sachgebietes werden erfasst und
die Beziehungen zwischen ihnen beschriebendie Beziehungen zwischen ihnen beschrieben
Bestehen aus 2 Funktionen:Bestehen aus 2 Funktionen: Definition eines bestimmten VokabularsDefinition eines bestimmten Vokabulars Beziehungen zwischen den Termen dieser Vokabulars werden Beziehungen zwischen den Termen dieser Vokabulars werden
hergestellthergestellt
Konstruktion eines ThesaurusKonstruktion eines Thesaurus Zunächst wird der Zunächst wird der BezugsrahmenBezugsrahmen eingegrenzt. Dabei werden eingegrenzt. Dabei werden
die Thematik, die Spezifität, der Sprachstil und der Umfang die Thematik, die Spezifität, der Sprachstil und der Umfang des Thesaurus festgelegt.des Thesaurus festgelegt.
Dann werden Dann werden QuellenQuellen ausgewählt, aus denen Wörter ausgewählt, aus denen Wörter herausgenommen werden sollen. Das können u.a. potenzielle herausgenommen werden sollen. Das können u.a. potenzielle Nutzende, Experten, Fachwörterbücher, aktuelle Literatur, Nutzende, Experten, Fachwörterbücher, aktuelle Literatur, Lehrbücher oder bereits vorhandene Thesauren sein.Lehrbücher oder bereits vorhandene Thesauren sein.
Dieses Vokabular wird dann der sog. Dieses Vokabular wird dann der sog. terminologischen terminologischen KontrolleKontrolle unterworfen. Dadurch sollen die Unschärfe der unterworfen. Dadurch sollen die Unschärfe der natürlichen Sprache beseitigt und die Terme in natürlichen Sprache beseitigt und die Terme in Synonymmengen aufgeteilt werden. Synonymmengen aufgeteilt werden.
Weitere KontrollenWeitere Kontrollen Bei der Bei der SynonymkontrolleSynonymkontrolle werden unterschiedliche Schreibweisen, werden unterschiedliche Schreibweisen,
Abkürzungen und verschiedene Sprachstile unterschieden.Abkürzungen und verschiedene Sprachstile unterschieden.
Die Die PolysemkontrollePolysemkontrolle unterscheidet Wörter, die zwar gleich unterscheidet Wörter, die zwar gleich geschrieben werden, aber mehrere unterschiedliche Bedeutungen geschrieben werden, aber mehrere unterschiedliche Bedeutungen haben. haben.
Bei der Bei der ZerlegungskontrolleZerlegungskontrolle werden Komposita gegebenenfalls in werden Komposita gegebenenfalls in ihre Bestandteile zerlegt. Das kann notwendig sein, um die richtige ihre Bestandteile zerlegt. Das kann notwendig sein, um die richtige Spezifität eines Begriffes zu erhalten.Spezifität eines Begriffes zu erhalten.
Im letzten Schritt, der Im letzten Schritt, der begrifflichen Kontrollebegrifflichen Kontrolle, werden die , werden die konstruierten Äquivalenzklassen durch Relationen miteinander in konstruierten Äquivalenzklassen durch Relationen miteinander in Beziehung gebracht. Wichtig hierbei ist vor allem die hierarchische Beziehung gebracht. Wichtig hierbei ist vor allem die hierarchische Relation. Relation.
RetrievalmodelleRetrievalmodelle
RetrievalmodelleRetrievalmodelle
Boolesches RetrievalmodellBoolesches Retrievalmodell VektorraummodellVektorraummodell
Boolesches RetrievalmodellBoolesches Retrievalmodell
häufigste Methode des Information Retrievals häufigste Methode des Information Retrievals
beschränkt sich darauf, ob eine Bedingung beschränkt sich darauf, ob eine Bedingung erfüllt ist oder nicht erfüllt ist oder nicht
Anfragen können durch die Operatoren Anfragen können durch die Operatoren ANDAND, , OROR und und NOTNOT verknüpft werden verknüpft werden
Abfragen mit Hilfe dieser OperatorenAbfragen mit Hilfe dieser Operatoren
Sind in einer Abfrage zwei Terme mit Sind in einer Abfrage zwei Terme mit ANDAND verknüpft, so erhalten wir die Dokumente, die beide verknüpft, so erhalten wir die Dokumente, die beide Terme enthaltenTerme enthalten
Sind in einer Abfrage zwei Terme mit Sind in einer Abfrage zwei Terme mit OROR verknüpft, verknüpft, so erhalten wir entweder das eine, oder das andere, so erhalten wir entweder das eine, oder das andere, oder beide Dokumenteoder beide Dokumente
Sind in einer Abfrage zwei Terme mit Sind in einer Abfrage zwei Terme mit AND NOTAND NOT verknüpft, so erhalten wir nur den ersten Term, der verknüpft, so erhalten wir nur den ersten Term, der vor dem vor dem ANDAND definiert wurde, als Antwort definiert wurde, als Antwort
Implementierung mit invertierten Implementierung mit invertierten ListenListen
Boolesche Retrieval Systeme werden mit Hilfe von Boolesche Retrieval Systeme werden mit Hilfe von invertierten Listen implementiert invertierten Listen implementiert
für jedes Feld wird eine Liste angelegt, in der zu für jedes Feld wird eine Liste angelegt, in der zu jedem Term eingetragen wird, in welchen jedem Term eingetragen wird, in welchen Dokumenten er vorkommt Dokumenten er vorkommt
Dieses Umkehrverfahren benötigt zwar viel Dieses Umkehrverfahren benötigt zwar viel Speicherplatz, Speicherplatz, aber schneller Zugriff auf das aber schneller Zugriff auf das System System
Konstruktion einer invertierten ListeKonstruktion einer invertierten Liste
Anhand der Regel zur Bestimmung zulässiger Terme werden die Anhand der Regel zur Bestimmung zulässiger Terme werden die Dokumente in Terme zerlegtDokumente in Terme zerlegt
Zu den Termen werden jeweils das Dokument und die Position des Zu den Termen werden jeweils das Dokument und die Position des Auftretens im Dokument geschriebenAuftretens im Dokument geschrieben
Diese Paare aus Termen und ihren Positionen werden sortiertDiese Paare aus Termen und ihren Positionen werden sortiert
Paare mit gleichen Termen werden zusammengefasst, wobei die Paare mit gleichen Termen werden zusammengefasst, wobei die Positionen in einer sortierten Liste an den Term angefügt werdenPositionen in einer sortierten Liste an den Term angefügt werden
Die Terme werden von den Listen mit ihren Positionen getrennt. Dabei Die Terme werden von den Listen mit ihren Positionen getrennt. Dabei werden sie in die Indexdatei geschrieben, die zu jedem Term einen werden sie in die Indexdatei geschrieben, die zu jedem Term einen Pointer auf die zugehörige Liste enthält. Dann muss in der Indexdatei Pointer auf die zugehörige Liste enthält. Dann muss in der Indexdatei zu jedem Term die Anzahl der Positionen angegeben werden, an der zu jedem Term die Anzahl der Positionen angegeben werden, an der die Aufzählung beginntdie Aufzählung beginnt
Bearbeitung der AbfragenBearbeitung der Abfragen Zunächst werden die Terme in der Anfrage isoliert.Zunächst werden die Terme in der Anfrage isoliert. Aus der invertierten Liste wird für jeden Term die Liste mit Aus der invertierten Liste wird für jeden Term die Liste mit
seinen Positionen in den Dokumenten oder deren Feldern seinen Positionen in den Dokumenten oder deren Feldern ermittelt. Dazu lässt sich der Pointer aus der Indexdatei ermittelt. Dazu lässt sich der Pointer aus der Indexdatei verwenden.verwenden.
Die Liste zu den verschiedenen Termen werden Die Liste zu den verschiedenen Termen werden zusammengeführt: sind die Terme mit zusammengeführt: sind die Terme mit OROR verknüpft, verknüpft, werden die Listen vereinigt, sind sie mit werden die Listen vereinigt, sind sie mit ANDAND verknüpft, verknüpft, wird der Durchschnitt gebildet, bei wird der Durchschnitt gebildet, bei AND NOT AND NOT wird die wird die Differenz berechnet.Differenz berechnet.
Die Dokumente, die in der resultierenden Liste übrig Die Dokumente, die in der resultierenden Liste übrig bleiben, werden aus der Dokumentdatei geholt und als bleiben, werden aus der Dokumentdatei geholt und als Resultat der Anfrage präsentiert.Resultat der Anfrage präsentiert.
RetrievalmodelleRetrievalmodelle
Boolesches RetrievalmodellBoolesches Retrievalmodell VektorraummodellVektorraummodell
VektorraummodellVektorraummodell
Basis sind Vektoren mit Gewichtungen der Basis sind Vektoren mit Gewichtungen der einzelnen Termeneinzelnen Termen
Finden der „richtigen“ Dokumente mittels Finden der „richtigen“ Dokumente mittels ÄhnlichkeitsmaßenÄhnlichkeitsmaßen
Ähnlichkeiten können mit mathematischen Ähnlichkeiten können mit mathematischen bzw. statistischen Methoden berrechnet bzw. statistischen Methoden berrechnet werdenwerden
VektorraummodellVektorraummodell Das ModellDas Modell Definition 1 für das VektorraummodellDefinition 1 für das VektorraummodellSei T={t1,...,tn} eine endliche Menge von Termen Sei T={t1,...,tn} eine endliche Menge von Termen
und D={d1,...,dm} eine Menge von und D={d1,...,dm} eine Menge von Dokumenten. Für jedes Dokument diD sei zu Dokumenten. Für jedes Dokument diD sei zu jedem Term tkT ein Gewicht wi,kR gegeben. jedem Term tkT ein Gewicht wi,kR gegeben. Die Gewichte des Dokuments di lassen sich Die Gewichte des Dokuments di lassen sich zu einem Vektor wi=(wi,1,...,wi,n )Rn zu einem Vektor wi=(wi,1,...,wi,n )Rn zusammenfassen. Dieser Vektor beschreibt zusammenfassen. Dieser Vektor beschreibt das Dokument im Vektorraummodell: Er ist das Dokument im Vektorraummodell: Er ist seine Repräsentation und wird seine Repräsentation und wird Dokumentvektor genannt.Dokumentvektor genannt.
Auch Anfragen (Queries ) werden durch Vektoren Auch Anfragen (Queries ) werden durch Vektoren qRn repräsentiert. Wie bei der qRn repräsentiert. Wie bei der Repräsentation der Dokumente wird die Repräsentation der Dokumente wird die Anfrage durch eine Menge gewichteter Anfrage durch eine Menge gewichteter Terme dargestellt. Der Vektor der Gewichte Terme dargestellt. Der Vektor der Gewichte wird Anfragevektor oder Query-Vektor wird Anfragevektor oder Query-Vektor genannt.genannt.
Schließlich sei eine Ähnlichkeitsfunktion s:Rn×Rn -Schließlich sei eine Ähnlichkeitsfunktion s:Rn×Rn ->R definiert, mit der jedem Paar aus zwei >R definiert, mit der jedem Paar aus zwei Vektoren x,yRn ein reeller Ähnlichkeitswert Vektoren x,yRn ein reeller Ähnlichkeitswert s(x,y) zugewiesen wird.s(x,y) zugewiesen wird.
Quelle: Ferber2003
VektorraummodellVektorraummodell
Anmerkungen zu den DokumentenvektorenAnmerkungen zu den Dokumentenvektoren Länge der Dokumentenvektoren ist vorgegeben.Länge der Dokumentenvektoren ist vorgegeben. Ursprüngliche Dokumente werden bearbeitet Ursprüngliche Dokumente werden bearbeitet
(Wortstammreduktion, Extraktion von Indextermen, (Wortstammreduktion, Extraktion von Indextermen, Gewichtung der einzelnen Termen) und in Vektoren Gewichtung der einzelnen Termen) und in Vektoren übergeführtübergeführt
Die einzelnen Elemente der Vektoren repräsentieren Die einzelnen Elemente der Vektoren repräsentieren Gewichtungen zum jeweiligen TermGewichtungen zum jeweiligen Term
Alle Dokumentenvektoren spannen einen Alle Dokumentenvektoren spannen einen multidimensionalen Raum auf.multidimensionalen Raum auf.
VektorraummodellVektorraummodell
Anmerkungen zum AnfragevektorAnmerkungen zum Anfragevektor Wird durch natürlichsprachliche Anfrage Wird durch natürlichsprachliche Anfrage
automatisch erzeugt und im automatisch erzeugt und im Dokumentenvektorraum abgebildetDokumentenvektorraum abgebildet
Fehlende Gewichtungen der Indexterme Fehlende Gewichtungen der Indexterme werden durch den Wert 0 ersetzt.werden durch den Wert 0 ersetzt.
Dimension des Anfragevektors muss gleich Dimension des Anfragevektors muss gleich sein der Dimension der Dokumentenvektorensein der Dimension der Dokumentenvektoren
VektorraummodellVektorraummodell
Kombinationsmöglichkeit mit dem Booleschen Kombinationsmöglichkeit mit dem Booleschen RetrievalRetrieval
Gewichtungen werden mit den Werten 0 und 1 Gewichtungen werden mit den Werten 0 und 1 ersetzt (0…False, 1…True)ersetzt (0…False, 1…True)
AND und OR möglich, aber keine AND und OR möglich, aber keine KombinationKombination
VektorraummodellVektorraummodell
Vektorenmodell erzielen die besten Ergebnisse Vektorenmodell erzielen die besten Ergebnisse beim Information Retrieval, obwohl nur beim Information Retrieval, obwohl nur simple Termstatistiken (Häufigkeitsmaße und simple Termstatistiken (Häufigkeitsmaße und Gewichtungsmethoden) angewandt werden.Gewichtungsmethoden) angewandt werden.
Anwendbar nur mit Textdokumenten, für Anwendbar nur mit Textdokumenten, für Bilder braucht man andere MethodenBilder braucht man andere Methoden
GewichtungseinflüsseGewichtungseinflüsse
2 Unterschiedliche Verfahren zur Termgewichtung2 Unterschiedliche Verfahren zur Termgewichtung ManuellManuell
Nachteil: hoher Kosten-, Zeitaufwand, Nachteil: hoher Kosten-, Zeitaufwand, Inkonsistenz der GewichtungenInkonsistenz der Gewichtungen
Statistische VerfahrenStatistische Verfahren
GewichtungseinflüsseGewichtungseinflüsse
Globale GewichtungseinflüsseGlobale Gewichtungseinflüsse KontextunabhängigKontextunabhängig Messung der Häufung eines bestimmten Messung der Häufung eines bestimmten
Terms innerhalb von Dokumentenkollektionen Terms innerhalb von Dokumentenkollektionen bzw. einer natürlichen Sprachebzw. einer natürlichen Sprache
Unterschiedlich in den verschiedenen Unterschiedlich in den verschiedenen SprachenSprachen
Globale GewichtungseinflüsseGlobale Gewichtungseinflüsse
Zipfsches GesetzZipfsches Gesetz
C…TextkorpusC…TextkorpusW(C)…Menge der Wörter, die in C vorkommenW(C)…Menge der Wörter, die in C vorkommenh(W)…Häufigkeit, mit der w in C vorkommth(W)…Häufigkeit, mit der w in C vorkommtr(w)…Rangplatz von wr(w)…Rangplatz von wW(C)W(C)
Quelle: Ferber2003
Globale GewichtungseinflüsseGlobale Gewichtungseinflüsse
Brown- und LOB-Korpus (englische Textsammlungen)Brown- und LOB-Korpus (englische Textsammlungen)
Häufigste und seltenste Wörter werden für die Gewichtung eleminiert.Häufigste und seltenste Wörter werden für die Gewichtung eleminiert.
Globale GewichtungseinflüsseGlobale Gewichtungseinflüsse
Alternative:Alternative: Dokumentenhäufigkeit (document Dokumentenhäufigkeit (document frequency)frequency)
Beschreibt die Häufigkeit des Auftretens eines Beschreibt die Häufigkeit des Auftretens eines bestimmten Terms innerhalb von bestimmten Terms innerhalb von verschiedenen Dokumentenverschiedenen Dokumenten
Inverse Dokumentenhäufigkeit (inverted Inverse Dokumentenhäufigkeit (inverted document frequency, IDF)document frequency, IDF)
Kehrwert der DokumentenhäufigkeitKehrwert der Dokumentenhäufigkeit
Globale GewichtungseinflüsseGlobale Gewichtungseinflüsse
Zusammenfassung: Globale Zusammenfassung: Globale GewichtungseinflüsseGewichtungseinflüsse
Unabhängig vom einzelnen DokumentUnabhängig vom einzelnen Dokument Können losgekoppelt vom Suchsystem verwendet und Können losgekoppelt vom Suchsystem verwendet und
gespeichert werden, da sie allgemein gültig sind.gespeichert werden, da sie allgemein gültig sind. Zu häufige und zu seltene Terme werden eliminiertZu häufige und zu seltene Terme werden eliminiert
Quelle: Ferber2003
Lokale GewichtungseinflüsseLokale Gewichtungseinflüsse
Sind kontextabhängig (zum jeweiligen Sind kontextabhängig (zum jeweiligen Dokument)Dokument)
Auch hier Einfluss der TermhäufigkeitAuch hier Einfluss der Termhäufigkeit
Annahme:Annahme: häufige Terme sind wichtig für häufige Terme sind wichtig für
InhaltsbeschreibungInhaltsbeschreibung Eindämmung von häufigen Termen mit Eindämmung von häufigen Termen mit
IntervallsbeschränkungIntervallsbeschränkung
Lokale GewichtungseinflüsseLokale Gewichtungseinflüsse
Häufigste lokale Gewichtung:Häufigste lokale Gewichtung:
TF-IDF-Gewichtung (term frequency-inverted TF-IDF-Gewichtung (term frequency-inverted document frequency)document frequency)
Andere (zB SMART)Andere (zB SMART)
Quelle: Buckley
Lokale GewichtungseinflüsseLokale Gewichtungseinflüsse
TF-IDF ist die grundlegendste FormTF-IDF ist die grundlegendste Form Für strukturierte Daten (zB HTML, Für strukturierte Daten (zB HTML,
Newsmeldungen) gibt es bessere MethodenNewsmeldungen) gibt es bessere Methoden Lokale Gewichtungseinflüsse werden im Lokale Gewichtungseinflüsse werden im
Vektormodell als Gewichtung für die Vektormodell als Gewichtung für die einzelnen Elemente eines Vektors einzelnen Elemente eines Vektors herangezogen.herangezogen.
Einschub: Relevance FeedbackEinschub: Relevance Feedback
Anfragevektoren haben nur wenige GewichtungstermeAnfragevektoren haben nur wenige Gewichtungsterme Der Anfragende kann die fortführenden Anfragen beeinflussenDer Anfragende kann die fortführenden Anfragen beeinflussen Beurteilung nach Relevanz!Beurteilung nach Relevanz!
R ist die Menge von Vektoren, die als relevant beurteilt wurdenR ist die Menge von Vektoren, die als relevant beurteilt wurden U ist die Menge von Vektoren, die als nicht relevant beurteilt wurdenU ist die Menge von Vektoren, die als nicht relevant beurteilt wurden q’ ist der neue Anfragevektorq’ ist der neue Anfragevektor , , und und sind reelle Parameter, welche die Gewichtung der einzelnen Terme der Formel für die neue sind reelle Parameter, welche die Gewichtung der einzelnen Terme der Formel für die neue
Abfrage gewichtenAbfrage gewichten
ÄhnlichkeitsfunktionenÄhnlichkeitsfunktionen
Vergleichsverfahren für Vektoren im Vergleichsverfahren für Vektoren im VektorraummodellVektorraummodell
Berechnet die Ähnlichkeit zwischen den Vektoren Berechnet die Ähnlichkeit zwischen den Vektoren und bestimmt so die Rangfolge der Suchausgabeund bestimmt so die Rangfolge der Suchausgabe
Das CosinusmaßDas Cosinusmaß (Winkelberechnung zw. 2 Vektoren) (Winkelberechnung zw. 2 Vektoren)
ÄhnlichkeitsfunktionenÄhnlichkeitsfunktionen
Das CosinusmaßDas Cosinusmaß
Anmerkung:Anmerkung: Die besten Ergebnisse repräsentieren jene Die besten Ergebnisse repräsentieren jene Vektoren, deren Abweichung vom Anfragevektor, Vektoren, deren Abweichung vom Anfragevektor, gemessen am Winkel, geringsten ist.gemessen am Winkel, geringsten ist.
ÄhnlichkeitsfunktionenÄhnlichkeitsfunktionen
Weitere MaßeWeitere Maße Das SkalarproduktDas Skalarprodukt Das Pseudo-Cosinus-MaßDas Pseudo-Cosinus-Maß Das Dice-MaßDas Dice-Maß
Das Overlap-MaßDas Overlap-Maß
Das Jaccard-MaßDas Jaccard-Maß
Text Mining-Systeme in der Text Mining-Systeme in der PraxisPraxis
Text Mining-SystemeText Mining-Systeme
Allgemeines KonzeptAllgemeines Konzept
Text Mining-SystemeText Mining-Systeme
Hauptarbeit: IndexerstellungHauptarbeit: Indexerstellung Hoher SpeicherbedarfHoher Speicherbedarf
Abhilfe durch Komprimierung und Abhilfe durch Komprimierung und linguistischen Techniken (nicht möglich in zB linguistischen Techniken (nicht möglich in zB Thai)Thai)
Aktualisierung des IndexAktualisierung des Index Zugriff der Anfrage nur auf Index und nicht Zugriff der Anfrage nur auf Index und nicht
auf die Originaltexteauf die Originaltexte
Text Mining-SystemeText Mining-Systeme
Aspekte des Text MiningsAspekte des Text Minings (nach Carstensen) (nach Carstensen)1.1. Analyse von EinzeltextenAnalyse von Einzeltexten2.2. Merkmalsextraktion (Auswahl von Merkmalsextraktion (Auswahl von
Schlüsselwörtern, automatische Schlüsselwörtern, automatische Zusammenfassung)Zusammenfassung)
3.3. Analyse von Textkollektionen (signifikante Analyse von Textkollektionen (signifikante Zusammenhänge erkennen -> Clustering)Zusammenhänge erkennen -> Clustering)
4.4. Maß für die inhaltliche Distanz zwischen Maß für die inhaltliche Distanz zwischen Texten (zB Zentroidvektor)Texten (zB Zentroidvektor)
State of the art Text Mining State of the art Text Mining WerkzeugeWerkzeuge
Einteilung in 2 Hauptgruppen (nach Ah-Hwen Einteilung in 2 Hauptgruppen (nach Ah-Hwen Tan)Tan)
Dokumentenbasierende FormDokumentenbasierende Form Konzeptbasierende FormKonzeptbasierende Form
Quelle: Ah-Hwen Tan
State of the art Text Mining State of the art Text Mining WerkzeugeWerkzeuge
Übersicht über die wichtigsten ToolsÜbersicht über die wichtigsten Tools
Quelle: Ah-Hwen Tan
Zusammenfassung und AusblickZusammenfassung und Ausblick
Zusammenfassung und AusblickZusammenfassung und Ausblick Text Mining spielt eine wichtige Rolle im Auffinden von Text Mining spielt eine wichtige Rolle im Auffinden von
TextenTexten Ca. 80% der Informationen in einem Unternehmen liegen in Ca. 80% der Informationen in einem Unternehmen liegen in
Form von Textdokumenten vor (nach [Ah-When Tan])Form von Textdokumenten vor (nach [Ah-When Tan]) Automatische Verfahren sind manuellen Verfahren Automatische Verfahren sind manuellen Verfahren
vorzuziehenvorzuziehen Verbesserte Verfahren notwendig für: Indizieren, Verbesserte Verfahren notwendig für: Indizieren,
Klassifizieren, Clustern und automatischen Zusammenfassen Klassifizieren, Clustern und automatischen Zusammenfassen von vorhandenen Dokumentensammlungen (Performance!)von vorhandenen Dokumentensammlungen (Performance!)
Erweiterung der Interaktionsmöglichkeiten (Relevance Erweiterung der Interaktionsmöglichkeiten (Relevance Feedback) mit dem AnfragendenFeedback) mit dem Anfragenden
Zusammenfassung und AusblickZusammenfassung und Ausblick
Entwicklung von automatischen AgentenEntwicklung von automatischen Agenten WWW muss semantischer werden (Data Mining)WWW muss semantischer werden (Data Mining) Verschmelzung von Text Mining und Data MiningVerschmelzung von Text Mining und Data Mining Zusammenspiel mit Knowledge Management bereits StandardZusammenspiel mit Knowledge Management bereits Standard
RessourcenRessourcen [1] Information Retrieval, Reginald Ferber, dpunkt.verlag, Heidelberg 2003[1] Information Retrieval, Reginald Ferber, dpunkt.verlag, Heidelberg 2003 [2] Computerlinguistik und Sprachtechnologie: eine Einführung, K.-U. Carstensen et al., Spektrum [2] Computerlinguistik und Sprachtechnologie: eine Einführung, K.-U. Carstensen et al., Spektrum
Akademischer Verlag, Heidelberg; Berlin 2001Akademischer Verlag, Heidelberg; Berlin 2001 [3] [3] http://http://www.linguistik.uni-erlangen.dewww.linguistik.uni-erlangen.de//filesfiles/zierl97.pdf/zierl97.pdf Letzter Zugriff: 6. 11. 2004Letzter Zugriff: 6. 11. 2004 [seihe auch Harman, Baeza-Yates, Fox und Lee, 1992][seihe auch Harman, Baeza-Yates, Fox und Lee, 1992] [4]http://ai1.inf.unibayreuth.de/lehre/ws_2001_2002/information_retrieval/vorlesungsscript/ir.pdf[4]http://ai1.inf.unibayreuth.de/lehre/ws_2001_2002/information_retrieval/vorlesungsscript/ir.pdf Letzter Zugriff: 7. 11. 2004Letzter Zugriff: 7. 11. 2004 [5] [5] http://http://www.informationresearch.dewww.informationresearch.de/index.php?p=34/index.php?p=34 Letzter Zugriff: 6. 11. 2004Letzter Zugriff: 6. 11. 2004 [6] A Comparison of Document Clustering Techniques, Michael Steinbach et. al., Department of Computer [6] A Comparison of Document Clustering Techniques, Michael Steinbach et. al., Department of Computer
Science and Engineering, University of Minnesota, Technical Report #00-034Science and Engineering, University of Minnesota, Technical Report #00-034 http://http://citeseer.ist.psu.educiteseer.ist.psu.edu//cachecache//paperspapers//cscs
/15038/http:zSzzSzwww-users.itlabs.umn.eduzSz~karypiszSzpublicationszSzPaperszSzPDFzSzdoccluster.p/15038/http:zSzzSzwww-users.itlabs.umn.eduzSz~karypiszSzpublicationszSzPaperszSzPDFzSzdoccluster.pdf/steinbach00comparison.pdfdf/steinbach00comparison.pdf, letzter Zugriff (gecachte Version): 07. 11. 2004-11-08, letzter Zugriff (gecachte Version): 07. 11. 2004-11-08
[7] Grundlagen der Bildverarbeitung, Klaus Toennies,[7] Grundlagen der Bildverarbeitung, Klaus Toennies, http://http://www.tnt.uni-hannover.dewww.tnt.uni-hannover.de//orgorg//whoiswhois//studstud//nikolaosnikolaos//filesfiles//litlit//bildverarbeitungbildverarbeitung/vlbv13.pdf/vlbv13.pdf, ,
letzter Zugriff: 08. 11. 2004letzter Zugriff: 08. 11. 2004 [8] Automatic Query Expansion Using SMART: TREC 3, Chris Buckley et al.[8] Automatic Query Expansion Using SMART: TREC 3, Chris Buckley et al. http://http://www.cs.cornell.eduwww.cs.cornell.edu/Info/People//Info/People/singhalsinghal//paperspapers/trec3.ps/trec3.ps, letzter Zugriff 07. 11. 2004-11-, letzter Zugriff 07. 11. 2004-11-
0808 [9] Text Mining: The state of the art and the challenges, Ah-Hwee Tan,[9] Text Mining: The state of the art and the challenges, Ah-Hwee Tan, http://http://www.ewastrategist.comwww.ewastrategist.com//paperspapers/text_mining_kdad99.pdf/text_mining_kdad99.pdf, letzter Zugriff 09. 11. 2004, letzter Zugriff 09. 11. 2004
DANKE!DANKE!