Endliche Automaten zur Erkennung von...
Transcript of Endliche Automaten zur Erkennung von...
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 1
Endliche Automaten zur Erkennung von Stoppwörtern
Vortrag von Christian Schwarz & Andreas Beyer
im Seminar FSM zur Spracherkennung06.07.2009
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 2
Die Gliederung Erklärung der Begriffe des Vortrags
Was sind Stoppwörter und Schlüsselwörter Relevanz dieses Konzepts für die Praxis
Einige Motivationen für die Praxis Exemplarische Abarbeitung von Suchbegriffen
und Indexbildung Die Grenzen des Verfahrens bei
Doppeldeutigkeiten und Wie wird es umgesetzt
Einordnung in den Indizierungsablauf Einige kleine Demonstrationen
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 3
Gliederung
Begriffsklärung Stopp- / Schlüsselwörter
Praxisrelevanz Motivation Beispiele Grenzen
Umsetzung Demo
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 4
„Stop“ ist kein Stoppwort...
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 5
Stoppwort Definition
Aus der Literatur Ein Stoppwort ist ein Wort in einem Dokument
oder einer Anfrage, das den Retrievalprozess nicht beeinflusst.
Es hat die gleiche Wahrscheinlichkeit, in einem für eine Anfrage relevanten Dokument vorzukommen wie in einem nicht relevanten Text.
Stoppworte tragen keinerlei Wissen, sie sind inhaltslos.
Verschiedene Wortarten in einem Text tragen unterschiedlich viel zur inhaltlichen Bedeutung bei:
• Artikel: keine • Substantive: sehr vielVorverarbeitung des Textes sinnvoll, um die
„Sinn tragenden“ Wörter für spätere Verarbeitungsschritte (z.B. Indexerstellung) zu identifizieren
Quelle der Textstellen: Information Retrieval: Informationen suchen und finden von Wolfgang G. Stock
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 6
„Key“ ist ein Keyword...
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 7
Was sind Keywords
Gegenstück zu Stoppwörtern Schlüsselwörter / Keywords sind für
Textindizierung essentiell Haben hohe Aussagekraft über Textinhalt
Beispiel: Stichwortverzeichnis des Lexikons
Deskription des Textes
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 8
Key- und Stoppwörter im Text
Viele grundlegende Aufgaben der Sprachverarbeitung von der Zerlegung eines Textes in Wörter bis zur phonologischen und morphologischen Analyse, zur Rechtschreibkorrektur und zum flachem Parsing können mit endlichen Automaten und Transduktoren sehr effizient durchgeführt werden.
Schlüsselwörter
Stoppwörter
Üblicherweise handelt es sich bei zwischen 30% und 50% der Wörter eines Textes um Stopp-
Wörter [PC]:
[PC] Peters, Carol - Mehrsprachiger Zugang bei Informationssystemen,
http://www.ifla.org/IV/ifla67/papers/099-183g.pdf
Quelle der Textstelle: Inhaltsangabe des Hauptseminars Endliche Automaten für die Sprachverarbeitung von Dr.Karin Haenelt
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 9
Stoppwörter - Fazit werden bei Volltextindexierung nicht beachtet treten sehr häufig auf
gewöhnlich keine Relevanz für Dokumentinhalt Blähen somit Index ohne Nutzen auf
ihr Weglassen dient Steigerung der Effizienz Ansonsten würde Ergebnismenge nahezu jedes
Dokument des Bestandes enthalten Suchergebnis wäre unscharf, Nutzwert gering
Bsp: der, die, das, ein, eine, zu, bei, an, doch
Stoppwörter nennt man Wörter, die bei einer Volltextindexierung nicht beachtet werden, da sie sehr häufig auftreten und gewöhnlich keine Relevanz für die Erfassung des Dokumentinhalts besitzen.
Allgemein übliche Stoppwörter in deutschsprachigen Dokumenten sind bestimmte Artikel (der, die, das, unbestimmte Artikel (einer, eine, ein), Konjunktionen (z.B. und, oder, doch) und häufig gebrauchte Präpositionen (z.B. an, in, von), sowie die Negation „nicht“. Abhängig von den zu erschliessenden Dokumenten können Stoppwörter auch mehrsprachig vorliegen. Diesen Wörtern ist gemeinsam, dass sie vor allem grammatische/syntaktische Funktionen übernehmen und daher keine Rückschlüsse auf den Inhalt des Dokumentes zulassen. Eine weitere Gemeinsamkeit ist ihre grosse Zahl: Sie treten in jedem Dokument sehr zahlreich auf und kommen in sehr vielen Dokumenten vor.
Das Weglassen von Stoppwörtern dient der Steigerung der Effizienz von Suchmaschinen. Würde man Stoppwörter bei einem Suchauftrag beachten, würde die Ergebnismenge nahezu jedes Dokument des Bestandes enthalten. Das Suchergebnis wäre unscharf, sein Nutzwert gering.
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 10
Gliederung
Begriffsklärung Stopp- / Schlüsselwörter
Praxisrelevanz Motivation Beispiele Grenzen
Umsetzung Demo
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 11
Motivation
Aktuelle Forschungsthemen: Text classification Document clustering Ähnlichkeitsanalyse bei Dokumenten Web intelligence Web mining Suchmaschinen
Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 12
Einsatzgebiete
Indizierung großer Corpora Aufwändig Aufnahme von „ohne“, „bei“, „in“ nutzlos Nach Tokenisierung werden Stoppwörter
gelöscht Indexbildung beschleunigen / Index minimieren
Verkleinern des Anfrageterms Keine Suche nach Elementen die ohnehin nicht
im Index enthalten sind
Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 13
Anwendung (1)
Durch den Treibhauseffekt ist auf den schönen Malediven wohl bald schon Land unter
Durch den Treibhauseffekt ist auf den schönen Malediven wohl bald schon Land unter
IndizierungCorpus Index1
Durch den Treibhauseffekt ist auf den schönen Malediven wohl bald schon Land unter
Treibhauseffekt Malediven Land
Index2
Indizierung
Stoppwort-entfernung
Stoppwörter aus Index entfernen Liste individuell erstellt Abhängig von Sprache und Themengebiet
Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 14
Anwendung (2)
Durch den Treibhauseffekt ist auf den Malediven wohl bald schon Land unter
Index1 (mit SW)
Treibhauseffekt Malediven Land
Index2
Die Malediven und der Treibhauseffekt
Ist durch den Börsencrash bald schon mehr los unter der Brücke?
Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 15
Anwendung (2)
Durch den Treibhauseffekt ist auf den Malediven wohl bald schon Land unter
Index1 (mit SW)
Treibhauseffekt Malediven Land
Index2
Die Malediven und der Treibhauseffekt
Relevant → Ausgabe
Relevant → Ausgabe
Ist durch den Börsencrash bald schon mehr los unter der Brücke?
Relevant → Ausgabe
Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 16
Anwendung (2)
Durch den Treibhauseffekt ist auf den Malediven wohl bald schon Land unter
Index1 (mit SW)
Treibhauseffekt Malediven Land
Index2 Anfrage2 → 16% Index1 66% Index2
Die Malediven und der Treibhauseffekt
Relevant → Ausgabe
Relevant → Ausgabe
Anfrage1 → 58% Treffer in Index1 0% in Index2Ist durch den Börsencrash bald schon mehr los unter der Brücke?
Relevant → Ausgabe
Anfrage an Index mit und ohne Stoppwörter Bei Anfrage1 100% Recall Bei Anfrage2 0% Recall & 100% Precision
Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 17
Treibhauseffekt Malediven Land
Anwendung (3)
Durch den Treibhauseffekt ist auf den Malediven wohl bald schon Land unter
Index1
Index2
Die Malediven und der Treibhauseffekt
Ist durch den Börsencrash bald schon mehr los unter der Brücke?
Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 18
Treibhauseffekt Malediven Land
Anwendung (3)
Durch den Treibhauseffekt ist auf den Malediven wohl bald schon Land unter
Index1
Index2
Die Malediven und der Treibhauseffekt
Relevant → Ausgabe
Ist durch den Börsencrash bald schon mehr los unter der Brücke?
Relevant → Ausgabe
Anfrage2 → 16% Index1 66% Index2
Anfrage1 → 0% in Index1 0% in Index2
Stoppwörter aus Index und Anfrage entfernt Nur „inhaltsvolle“ Terme werden berücksichtigt Insgesamt 100% Precision & 0% Recall
Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 19
Wozu?
Stoppwörter sind „Hintergrundprozess“ Initial definiert (ein- oder mehrsprachig) Anwendung auf viele Corpora Index ändert sich dynamisch Stoppwortliste bleibt statisch
Minimieren Anfrage und Index um „Precision“ zu erhöhen
Keine Auswirkung auf „Fallout“ Ohnehin nicht Gefundenes kann man nicht
„herbei-löschen“
Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 20
SEM – SEO – SERP
Große Bedeutung zB bei Internetwerbung SEM = Search Engine Marketing
ein Internetauftritt soll auch gefunden werden SEO = Search Engine Optimization
Durch geziehlte Formulierungen, unter Vermeidung von Stoppwörtern, erhöhen der Seitenrelevanz (Precision) für Suchmaschine
SERP = Search Engine Result Page Heiliger Gral des Marketing → Platz in Top10
Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 21
Grenzen Google-Anfrage gut im Cache auf
Stoppwörter überprüfbar
im Cache (Suchwörter farbig markiert)
„auf“ wurde also als Stoppwort gelöscht Offensichtlich wird hierüber kein Index
gebildet
Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 22
Grenzen (2) Was wenn die Anfrage „relevante
Stoppwörter“ enthält?
Im Cache sieht man:
„an der Oder“ wurde (leider) entfernt Treffer zu Frankfurt am Main erhöhen Recall
Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 23
Grenzen (3) Anfragen komplett aus Stoppwörtern:
Im Cache
Sonderfälle:● Sein oder nicht Sein● Man ist was man isst● Stephen Kings „ES“● Finca auf Mallorca● Flug nach Berlin
Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 24
Grenzen (4) Entfernung fördert Ambiguitäten
daher nicht erster Schritt der Tokenpipeline
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 25
Gliederung
Begriffsklärung Stopp- / Schlüsselwörter
Praxisrelevanz Motivation Beispiele Grenzen
Umsetzung Demo
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 26
Vorverarbeitungsschritte
1. lexikalische Analyse: Handhabung von Zahlen, Binde-strichen, Interpunktionszeichen und Groß-/Kleinschreibung
2. 2. Stoppwörter entfernenStoppwörter entfernen: Identifizieren von Wörtern, die : Identifizieren von Wörtern, die nur wenig zur Unterscheidung von Dokumenten für das nur wenig zur Unterscheidung von Dokumenten für das spätere Retrieval beitragenspätere Retrieval beitragen3. Wortreduktion: Abtrennen von Affixen, um syntaktische Varianten der Anfragewörter einfach handhaben zu können
4. Auswahl von Indextermen: Parameter für Aufbau und Struktur des Index festlegen
5. Konstruktion von zusätzlichen „Zugriffsstrukturen“: Klassifikation, Thesaurus, Textstruktur
Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 27
Tokenpipeline
Dokument Struktur-Erkennung
Lexikalische Analyse
Stoppwort-Eliminierung
Stammwort-Reduzierung
Phrasen-Bildung
Thesaurus-Bildung
Auswahl der Index-Terme
SW-Löschung im Ablauf Lex.Ana. zur Bewahrung von Redewendungen
und Ausdrücken wie „Sein oder nicht Sein“
Das Prinzip des seriellen Aneinanderreihens von Token-Filtern nennt man Pipilining bzw. Tokenpipelines. Die einzelnen Filter werden in der Literatur auch als Normalisierungstechniken bezeichnet. Prinzipiell kann man die Filter in einer beliebigenReihenfolge verketten, doch gehen manche Verfahren von bestimmten Vorbedingungen aus, wie beispielsweise Porter-Algorithmus zur Stammwortreduktion eine einheitliche Kleinschreibung der Tokens voraussetzt.
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 28
Reduktion als Teil der Lex.Ana.
DFA erzeugen
Lexikalische AnalyseEingabedokument
Stoppwortliste
Eingabedokument schließen und Termrückgabe
Lese Stoppwortliste ein
Terme
Stoppwörter statische Liste
Bei dieser Filter-Methode wird der ankommende Token-Strom mit einer Liste von Stopp- bzw. Füllwörtern verglichen, und die dort enthaltenen Tokens dann entfernt. Eine geeignete Stoppwortliste sollte alle W drter ohne semantischen Wert, wie z.B. Artikel, Präpositionen und Konjunktionen,herausfiltern und nur solche belassen, welche eine Differenzierung bzw. eine Interpretation des Dokumenteninhalts zulassen. Stoppwortlisten sind sprachspezifisch.
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 29
Fox-Algorithmus
aanand
to
ininto
Ziel: minimaler DFA für LexikoneinträgeVoraussetzung: Lexikon liegt alphabetisch sortiert vorVorgehensweise: -Zeichenweise Überführung in Graphen-Zustände besitzen Labels
Menge von Zeichenketten die noch in den Graphen überzuführen sind.
Zustände mit gleichen Labels werden zu einem Zustand verschmolzen => minimaler Automat
1. Erzeuge Startzustand q0 mit Menge aller Eingabezeichenketten als Label L0.
2. Platziere q0 in einer leeren Warteschlange Q3. Solange Q ≠ ø 1. Entferne qi mit Label Li aus Q 2. Ermittle für jedes Anfangszeichen a aus Li ein Label mit den Restketten. Erzeuge eine neue Kante mit Übergang a zu dem Zustand mit diesem Label, falls Zustand nicht vorhanden, erzeuge diesen und füge ihn in Q ein.4. Alle Zustände die Lamda enthalten sind Endzustände.
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 30
Fox-Algorithmus
aanand
to
ininto q0
Ziel: minimaler DFA für LexikoneinträgeVoraussetzung: Lexikon liegt alphabetisch sortiert vorVorgehensweise: -Zeichenweise Überführung in Graphen-Zustände besitzen Labels
Menge von Zeichenketten die noch in den Graphen überzuführen sind.
Zustände mit gleichen Labels werden zu einem Zustand verschmolzen => minimaler Automat
1. Erzeuge Startzustand q0 mit Menge aller Eingabezeichenketten als Label L0.
2. Platziere q0 in einer leeren Warteschlange Q3. Solange Q ≠ ø 1. Entferne qi mit Label Li aus Q 2. Ermittle für jedes Anfangszeichen a aus Li ein Label mit den Restketten. Erzeuge eine neue Kante mit Übergang a zu dem Zustand mit diesem Label, falls Zustand nicht vorhanden, erzeuge diesen und füge ihn in Q ein.4. Alle Zustände die Lamda enthalten sind Endzustände.
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 31
Fox-Algorithmus
aanand
to
ininto q0
q2
q3
a
i
t
q1
Ziel: minimaler DFA für LexikoneinträgeVoraussetzung: Lexikon liegt alphabetisch sortiert vorVorgehensweise: -Zeichenweise Überführung in Graphen-Zustände besitzen Labels
Menge von Zeichenketten die noch in den Graphen überzuführen sind.
Zustände mit gleichen Labels werden zu einem Zustand verschmolzen => minimaler Automat
1. Erzeuge Startzustand q0 mit Menge aller Eingabezeichenketten als Label L0.
2. Platziere q0 in einer leeren Warteschlange Q3. Solange Q ≠ ø 1. Entferne qi mit Label Li aus Q 2. Ermittle für jedes Anfangszeichen a aus Li ein Label mit den Restketten. Erzeuge eine neue Kante mit Übergang a zu dem Zustand mit diesem Label, falls Zustand nicht vorhanden, erzeuge diesen und füge ihn in Q ein.4. Alle Zustände die Lamda enthalten sind Endzustände.
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 32
Fox-Algorithmus
aanand
to
ininto q0
q2
q3
a
i
t
λnnd
nnto
o
q1
Ziel: minimaler DFA für LexikoneinträgeVoraussetzung: Lexikon liegt alphabetisch sortiert vorVorgehensweise: -Zeichenweise Überführung in Graphen-Zustände besitzen Labels
Menge von Zeichenketten die noch in den Graphen überzuführen sind.
Zustände mit gleichen Labels werden zu einem Zustand verschmolzen => minimaler Automat
1. Erzeuge Startzustand q0 mit Menge aller Eingabezeichenketten als Label L0.
2. Platziere q0 in einer leeren Warteschlange Q3. Solange Q ≠ ø 1. Entferne qi mit Label Li aus Q 2. Ermittle für jedes Anfangszeichen a aus Li ein Label mit den Restketten. Erzeuge eine neue Kante mit Übergang a zu dem Zustand mit diesem Label, falls Zustand nicht vorhanden, erzeuge diesen und füge ihn in Q ein.4. Alle Zustände die Lamda enthalten sind Endzustände.
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 33
Fox-Algorithmus
aanand
to
ininto q0
q2
q3
a
i
t
λnnd
nnto
o
q1
Ziel: minimaler DFA für LexikoneinträgeVoraussetzung: Lexikon liegt alphabetisch sortiert vorVorgehensweise: -Zeichenweise Überführung in Graphen-Zustände besitzen Labels
Menge von Zeichenketten die noch in den Graphen überzuführen sind.
Zustände mit gleichen Labels werden zu einem Zustand verschmolzen => minimaler Automat
1. Erzeuge Startzustand q0 mit Menge aller Eingabezeichenketten als Label L0.
2. Platziere q0 in einer leeren Warteschlange Q3. Solange Q ≠ ø 1. Entferne qi mit Label Li aus Q 2. Ermittle für jedes Anfangszeichen a aus Li ein Label mit den Restketten. Erzeuge eine neue Kante mit Übergang a zu dem Zustand mit diesem Label, falls Zustand nicht vorhanden, erzeuge diesen und füge ihn in Q ein.4. Alle Zustände die Lamda enthalten sind Endzustände.
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 34
Fox-Algorithmus
aanand
to
ininto q0
q2 q6
q3
q4
a
i
t
λnnd
nnto
o
q1
q5
n
λd
n
λto
o
λ
Ziel: minimaler DFA für LexikoneinträgeVoraussetzung: Lexikon liegt alphabetisch sortiert vorVorgehensweise: -Zeichenweise Überführung in Graphen-Zustände besitzen Labels
Menge von Zeichenketten die noch in den Graphen überzuführen sind.
Zustände mit gleichen Labels werden zu einem Zustand verschmolzen => minimaler Automat
1. Erzeuge Startzustand q0 mit Menge aller Eingabezeichenketten als Label L0.
2. Platziere q0 in einer leeren Warteschlange Q3. Solange Q ≠ ø 1. Entferne qi mit Label Li aus Q 2. Ermittle für jedes Anfangszeichen a aus Li ein Label mit den Restketten. Erzeuge eine neue Kante mit Übergang a zu dem Zustand mit diesem Label, falls Zustand nicht vorhanden, erzeuge diesen und füge ihn in Q ein.4. Alle Zustände die Lamda enthalten sind Endzustände.
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 35
Fox-Algorithmus
aanand
to
ininto q0
q2 q6
q3
q4
a
i
t
λnnd
nnto
o
q1
q5
n
λd
n
λto
o
λ
Ziel: minimaler DFA für LexikoneinträgeVoraussetzung: Lexikon liegt alphabetisch sortiert vorVorgehensweise: -Zeichenweise Überführung in Graphen-Zustände besitzen Labels
Menge von Zeichenketten die noch in den Graphen überzuführen sind.
Zustände mit gleichen Labels werden zu einem Zustand verschmolzen => minimaler Automat
1. Erzeuge Startzustand q0 mit Menge aller Eingabezeichenketten als Label L0.
2. Platziere q0 in einer leeren Warteschlange Q3. Solange Q ≠ ø 1. Entferne qi mit Label Li aus Q 2. Ermittle für jedes Anfangszeichen a aus Li ein Label mit den Restketten. Erzeuge eine neue Kante mit Übergang a zu dem Zustand mit diesem Label, falls Zustand nicht vorhanden, erzeuge diesen und füge ihn in Q ein.4. Alle Zustände die Lamda enthalten sind Endzustände.
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 36
Fox-Algorithmus
aanand
to
ininto q0
q2 q6
q3
q4
a
i
t
λnnd
nnto
o
q1
q5
n
λd
n
λto
o
λ
t
d
Ziel: minimaler DFA für LexikoneinträgeVoraussetzung: Lexikon liegt alphabetisch sortiert vorVorgehensweise: -Zeichenweise Überführung in Graphen-Zustände besitzen Labels
Menge von Zeichenketten die noch in den Graphen überzuführen sind.
Zustände mit gleichen Labels werden zu einem Zustand verschmolzen => minimaler Automat
1. Erzeuge Startzustand q0 mit Menge aller Eingabezeichenketten als Label L0.
2. Platziere q0 in einer leeren Warteschlange Q3. Solange Q ≠ ø 1. Entferne qi mit Label Li aus Q 2. Ermittle für jedes Anfangszeichen a aus Li ein Label mit den Restketten. Erzeuge eine neue Kante mit Übergang a zu dem Zustand mit diesem Label, falls Zustand nicht vorhanden, erzeuge diesen und füge ihn in Q ein.4. Alle Zustände die Lamda enthalten sind Endzustände.
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 37
Stoppwortgewinnung
3 Ansätze: Feststellung allgemeiner Stoppwörter in
einer Sprache Zum Beispiel Artikel und ähnliches
Feststellung der Stoppwörter in einer gegebenen Dokumentenmenge Für IT-Texte ist „Computer“ ein Stoppwort
Feststellung der Stoppwörter innerhalb genau eines Dokuments
Stopwortlisen sind nichts neues 75 van Rijsbergen und anfang der 60er Jahre wurde Brown Corpus aufgestellt
Allerdings fehlen neue spam-Worte wie „email“, „contact“, „mobil“,...
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 38
DEMO
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 39
Danke für die Aufmerksamkeit
Fragen?
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 40
Quellen Rachel Tsz-Wai Lo, Ben He, ladh Ounis (2005). Automatically Building a Stopword List for an
Information Retrieval System. Journal of Digital Information Management Vol 3 Nr 1, 2005
Mark P. Sinka, David W. Corne (2002). Evolving Better Stoplists for Document Clustering and Web Intelligence.
Tobias Hildenbrand (2003). Studienarbeit: Information Retrieval und Suchmaschinen.
Uni Mannheim.
Dr. Karin Haenelt (2005). RegEx – FSA: Algorithmus von Fox.
Uni Heidelberg.
Sven Meyer zu Eissen and Benno Stein (2006). Service-orientierte Architekturen für Information Retrieval. Uni Weimar.
Carola Kühnlein (2003). Eigennamenerkennung über Konzeptsensoren.
Uni Zürich.