Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14....

22
HHU Düsseldorf, WS 2008/09 Information Retrieval 216 Kapitel 14 Worte

Transcript of Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14....

Page 1: Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14. Worte Schriftsystemerkennung – Zeichensätze erkennen: falls Unicode eingesetzt

HHU Düsseldorf, WS 2008/09 Information Retrieval 216

Kapitel 14

Worte

Page 2: Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14. Worte Schriftsystemerkennung – Zeichensätze erkennen: falls Unicode eingesetzt

HHU Düsseldorf, WS 2008/09 Information Retrieval 217

14. Worte

Schriftsystemerkennung– Zeichensätze erkennen: falls Unicode eingesetzt wird,

kein Problem– wenn nicht: automatische Schriftsystemerkennung– Vergleich der Zeichenverteilung eines Textes mit

(bekannten) Zeichenverteilungen von Schriftsystemen– Feststellung der Leserichtung (von links nach rechts

und umgekehrt; Umkehr der Leserichtung im Text)

2 1

Page 3: Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14. Worte Schriftsystemerkennung – Zeichensätze erkennen: falls Unicode eingesetzt

HHU Düsseldorf, WS 2008/09 Information Retrieval 218

14. Worte

Spracherkennung– Ansatz 1: Mustertypen

typische Buchstabenkombinationen, typische Sonderzeichen

• ery_ : englisch• eux_ : französisch• _der_ : deutsch• lj : serbo-kroatisch• cchi : italienisch• ¿ : spanisch• Å : schwedisch

– wenig sicher

Page 4: Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14. Worte Schriftsystemerkennung – Zeichensätze erkennen: falls Unicode eingesetzt

HHU Düsseldorf, WS 2008/09 Information Retrieval 219

14. Worte

– Ansatz 2: WortverteilungenSpracherkennung auf Satzebene

• Erstellung von Wortlisten nebst Auftretenswahrscheinlichkeiten für Sprachen

• Satz: Zählen der Auftretenshäufigkeit der Worte im Satz; Multiplikation mit Auftretenswahrscheinlichkeiten aller Sprachen, Werte summieren

• „gewonnen“ hat die Sprache mit dem höchsten WertMcNamee, P. (2005): Language identification: A solved problem suitable for undergraduate instruction. –

In: Journal of Computing Sciences in Colleges 20(3), S. 94-101.

Page 5: Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14. Worte Schriftsystemerkennung – Zeichensätze erkennen: falls Unicode eingesetzt

HHU Düsseldorf, WS 2008/09 Information Retrieval 220

14. Worte

– Ansatz 3: n-GrammeAcquaintance

• erstellen: Zentroiden für Sprachen• Dokument in n-Gramme parsen (diesmal Zentroiden nicht

abziehen), Cosinus zwischen Dokumentvektor und Sprach-zentroiden errechnen

• auf Rang 1 liegt die wahrscheinlichste Sprache

Damashek, M. (1995): Gauging similarity with N-grams: Language-independent categorization of text. –In: Science 267, S. 843-848.

Page 6: Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14. Worte Schriftsystemerkennung – Zeichensätze erkennen: falls Unicode eingesetzt

HHU Düsseldorf, WS 2008/09 Information Retrieval 221

14. Worte

Exkurs: Automatisches Gruppieren von Sprachen nach dem Cosinus der Sprachzentroiden (von Marc Damashek)

Page 7: Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14. Worte Schriftsystemerkennung – Zeichensätze erkennen: falls Unicode eingesetzt

HHU Düsseldorf, WS 2008/09 Information Retrieval 222

14. Worte

Stoppworte:– Wort, das die gleiche Wahrscheinlichkeit hat, in einem

relevanten sowie in einem nicht-relevanten Dokument vorzukommen, „non-content word“

– Elimination von Stoppworten ist wenig sinnvoll:• bei gewissen Phrasen werden sie benötigt: „to be or not to

be“• u.U. wird gezielt nach Stoppworten gesucht: „Studien zum

englischen Hilfsverb ‚to be‘“• Pronomina sind eigentlich Stoppworte. Sie werden aber

(theoretisch) bei der Informationsstatistik benötigt.

– deshalb: Stoppworte markieren und von „normaler“Suche ausschließen. Wenn Nutzer will, jedoch berücksichtigen (Google: +-Funktor)

Page 8: Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14. Worte Schriftsystemerkennung – Zeichensätze erkennen: falls Unicode eingesetzt

HHU Düsseldorf, WS 2008/09 Information Retrieval 223

14. Worte

Stoppwortliste als Negativliste: 1. Allgemeine Stoppworte– häufig in einer Sprache vorkommende Worte (Fox: mehr als

300mal im Brown-Corpus enthalten)– Worte intellektuell aus Liste entfernen (z.B. business, family)– weitere Worte intellektuell in Liste einfügen: „extra fluff words“

(z.B. above [296mal im Brown-Corpus])– Zusatzliste „nearly free words“: Flexionsformen bereits in der

Liste enthaltener Worte– überlegenswert (nicht von Fox): gewisse Wortarten

(Substantive, Adjektive, substantivierte Verben) bevorzugen; alle anderen in allgemeine Stoppwortliste

Fox, C. (1989): A stop list for general text. – In: ACM SIGIR Forum 24(1-2), S. 19-35.

Page 9: Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14. Worte Schriftsystemerkennung – Zeichensätze erkennen: falls Unicode eingesetzt

HHU Düsseldorf, WS 2008/09 Information Retrieval 224

14. Worte

2. Domänspezifische Stoppworte– spezielle Stoppworte in bestimmten fachlichen

Zusammenhängennur solche Worte zulassen, die facheinschlägig sind; alle anderen in Stoppwortliste

3. Dokumentspezifische Stoppworte– beim Suchen nach bestpassenden Stellen innerhalb

eines Dokuments– manche Terme sind durchaus geeignet, einen Artikel als

Ganzes zu finden, aber nicht, die beste Stelle zu markieren

– Methode: Terme, die im Dokument häufig auftreten unddie im Text gleichmäßig verteilt sind, sind (für genau dieses Dokument) Stoppworte

Page 10: Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14. Worte Schriftsystemerkennung – Zeichensätze erkennen: falls Unicode eingesetzt

HHU Düsseldorf, WS 2008/09 Information Retrieval 225

14. Worte

Conflation (Verschmelzung von Wortformen)Reduktionsformen

1. Wortstamm 2. Grundform Stemming Lemmatisierung

Ausgangswort: RETRIEVED

RETRIEV RETRIEVAL

Wortstammbildung durch Grundformbildung durchAbtrennen (oder Zufügen) Vergleich mit Wörterbuchvon Buchstaben (ggf. alternativ: nach nach gewissen Regeln gewissen Regeln)

Page 11: Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14. Worte Schriftsystemerkennung – Zeichensätze erkennen: falls Unicode eingesetzt

HHU Düsseldorf, WS 2008/09 Information Retrieval 226

14. Worte

Grundformbildung / LemmatisierungVariante 1: regelgeleitet. Der S-Lemmatisierer für das Englische

• Wortform hat 3 Buchstaben oder weniger: Verfahren beenden• Wortform endet auf IES (aber nicht EIES oder AIES): ersetze

IES durch Y• Wortform endet auf ES (aber nicht AES, EES oder OES): ersetze

ES durch E• Wortform endet auf S (aber nicht US oder SS): lösche S

Harman, D. (1991): How effective is suffixing? –In: Journal of the American Society for Information Science 42, S. 7-15.

Page 12: Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14. Worte Schriftsystemerkennung – Zeichensätze erkennen: falls Unicode eingesetzt

HHU Düsseldorf, WS 2008/09 Information Retrieval 227

14. Worte

Grundformbildung / LemmatisierungVariante 2: wörterbuchbasiert

• Voraussetzung: Lexikon der jeweiligen Sprache ist vorhanden• Oberfläche: Wortform (Bsp.: BÜCHERN)• Kategorisierung: Wortart und morphosyntaktische Eigenschaft

(Bsp.: Substantiv – Dativ Plural)• Grundform nachschlagen (Bsp.: BUCH)

Hausser, R. (1998): Drei prinzipielle Methoden der automatischen Wortformerkennung. –In: Sprache und Datenverarbeitung 22(2), S. 38-57.

Page 13: Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14. Worte Schriftsystemerkennung – Zeichensätze erkennen: falls Unicode eingesetzt

HHU Düsseldorf, WS 2008/09 Information Retrieval 228

14. Worte

Beispiel: Morphologische Analyse bei IDX• IDX (Fa. Softex)

• baut auf PRIMUS auf (Rechtschreibwörterbuch)

• eingesetzt bei– MILOS / KASCADE

(ULB Düsseldorf)

– dpa

• ursprünglich entwickelt von Harald H. Zimmermann (Universität des Saarlandes)

H.H.ZimmermannLepsky, K. (1994): Maschinelle Indexierung von Titelaufnahmen zur Verbesserung der sachlichen Erschließung in

Online-Publikumskatalogen. – Köln: Greven. – (Kölner Arbeiten zum Bibliotheks- und Dokumentations-wesen; 18)

Page 14: Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14. Worte Schriftsystemerkennung – Zeichensätze erkennen: falls Unicode eingesetzt

HHU Düsseldorf, WS 2008/09 Information Retrieval 229

14. Worte

Funktionalität von IDX– Grundformbildung– Elimination von (gewissen) Funktionsworten als Stoppworte– Kompositazerlegung– Derivation– Zusammenfügen diskontinuierlicher Verbalgruppenteile

(„ging ... weg“ – „weggehen“)– Erkennung fester Wendungen „steht ... zur Verfügung“ –

„zur Verfügung stehen“)– Auflösen von Auslassungstilden („Haus- und Hofwirtschaft“

– „Hauswirtschaft“)– Synonyme („Samstag“ – „Sonnabend“)

Page 15: Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14. Worte Schriftsystemerkennung – Zeichensätze erkennen: falls Unicode eingesetzt

HHU Düsseldorf, WS 2008/09 Information Retrieval 230

14. Worte

<10> Grundform Adjektiv< 6> Grundform Substantiv – falsch:23: Dekomposition:23t: hinterer Wortteil:4: Derivation von <6> auf <5> (Verb)<0> Stoppwort :4: Derivation von <7> auf <10>:103: unzulässige Dekomposition

(bleibt unberücksichtigt)

Quelle: Lepsky 1994, 69

Page 16: Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14. Worte Schriftsystemerkennung – Zeichensätze erkennen: falls Unicode eingesetzt

HHU Düsseldorf, WS 2008/09 Information Retrieval 231

14. Worte

Wortstammbildung / StemmingBefreien der Wortformen von ihren Suffixen (nicht von den Präfixen). Variante 1: Longest-Match-Stemmer(Lovins-Stemmer)

• Abtrennen der jeweils längsten zutreffenden Endung (Voraussetzung: Liste aller Endungen)

• Folgen spezifischer Regeln zur Abtrennung• Folgen von Regeln zur Re-Kodierung

Lovins, J.B. (1968): Development of a stemming algorithm. –In: Mechanical Translation and Computational Linguistics 11(1-2), S. 22-31.

Page 17: Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14. Worte Schriftsystemerkennung – Zeichensätze erkennen: falls Unicode eingesetzt

HHU Düsseldorf, WS 2008/09 Information Retrieval 232

14. Worte

Longest-Match-Stemmer (Lovins-Stemmer)Regeln (Bsp.): B : Stamm muss mind. 3 Zeichen haben

C : Stamm muss mind. 4 Zeichen habenE : nach E nicht abschneiden

Page 18: Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14. Worte Schriftsystemerkennung – Zeichensätze erkennen: falls Unicode eingesetzt

HHU Düsseldorf, WS 2008/09 Information Retrieval 233

14. Worte

Longest-Match-Stemmer (Lovins-Stemmer)Re-KodierungRegeln (Bsp.): doppelte Konsonanten auf einen reduzieren

RPT durch RB ersetzen

Input Longest-Match-Stamm re-kodierter Stamm

metal metal metalmetallic metall metal

absorbing absorb absorbabsorption absorpt absorb

Page 19: Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14. Worte Schriftsystemerkennung – Zeichensätze erkennen: falls Unicode eingesetzt

HHU Düsseldorf, WS 2008/09 Information Retrieval 234

14. Worte

Wortstammbildung (stemming)Variante 2: iterativer Stemmer (Porter-Algorithmus)Abk.: C Konsonant: alles außer A, E, I, O, U; Y nur dann, wenn nicht

nach Konsonant (wie in Toy)V VokalCCC, ... sei CVVV, ... sei V[C]VCVC...[V] (allgemeine Form)(VC){m}(V) Anzahl der VC = m in einem Wort Bsp.: m=0 : tree, by

m=1 : trouble, treesm=2 : troubles, private

Porter, M.E. (1980): An algorithm for suffix stripping.- In: Program 14(39, 130-137.

Page 20: Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14. Worte Schriftsystemerkennung – Zeichensätze erkennen: falls Unicode eingesetzt

HHU Düsseldorf, WS 2008/09 Information Retrieval 235

14. Worte

Porter-AlgorithmusRegel: (Bedingung) S1 S2: falls ein Wort mit dem Suffix S1 endet und der

Stamm vor S1 die Bedingung erfüllt, dann wird S1 durch S2 ersetztdie Bedingung wird durch m definiert; etwa: (m > 1)

Bsp.: (m>1) EMENT _S1 = EMENT; S2 = NullREPLACEMENT REPLAC

*S der Stamm endet mit „S“*V* der Stamm enthält einen Vokal*d der Stamm endet mit einem Doppelkonsonant (etwa: -TT, -SS)and, or, not : Kombinationen von Bedingungen

bei mehreren Regeln in einem Schritt: nur eine anwenden, und zwar die mit dem „longest match“

Page 21: Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14. Worte Schriftsystemerkennung – Zeichensätze erkennen: falls Unicode eingesetzt

HHU Düsseldorf, WS 2008/09 Information Retrieval 236

14. Worte

Porter-Algorithmus

Beispiel:Schritt 1

(insgesamt 5 Iterationsrunden)

Page 22: Kapitel 14 Worte - HHU · 2010. 7. 8. · HHU Düsseldorf, WS 2008/09 Information Retrieval 217 14. Worte Schriftsystemerkennung – Zeichensätze erkennen: falls Unicode eingesetzt

HHU Düsseldorf, WS 2008/09 Information Retrieval 237

14. Worte

Wortbearbeitung bei Handy-EingabenNutzerseitiger Einsatz bei QWERTZ (QWERTY)-Tastaturen: mehr als 27 Zeichenbei Nutzung eines Mobiltelefons: 9 ZeichenIR mittels Handy:

1. Übersetzung der Ziffern 2 bis 9 in Worte (O: Leertaste)1. mit Mehrfachanschlägen2. mit Worterkennungssoftware (z.B. T9 von Tegic; Wörterbuch mit

Wortstämmen und Nutzungshäufigkeiten der Wortfragmente)

2. Arbeiten mit den Ziffern selbst (dabei: invertierte Datei ebenfalls in Ziffern ausdrücken; Google-Methode)

King, M.T.; Grover, D.L.; Kushler, C.A.; Grunbock, C.A. (1997): System zur Reduzierung der Vieldeutigkeit einer eingeschränkten Tastatur. Patent-Nr. DE 69808498 T2. – Patentinhaber: Tegic Communications. – Priorität: 24.1.1997.

Smith, B.T.; Brin, S.; Ghemawat, S.; Manning, C.D. (2000): Method and apparatus for using a modified index to provide search results in response to an ambiguous search query. Patent-Nr. US 6.529.903. –

Patentinhaber: Google, Inc. – Erteilt am: 4.3.2003. – (Eingereicht am 26.12.2000).