Multilinguales Information Retrieval

42
Multilinguales Information Multilinguales Information Retrieval Retrieval Ruprecht-Karls-Universität Heidelberg HS Information Retrieval WS 01/02 Ana Kovatcheva

description

Multilinguales Information Retrieval. Ruprecht-Karls-Universität Heidelberg HS Information Retrieval WS 01/02 Ana Kovatcheva. Inhalt. Was versteht man unter MLIR Einige Abkürzungen und Definitionen Anwendungsgebiete und –Szenarien Der Anfang Die Basis-Konzepte Einige wichtige Projekte - PowerPoint PPT Presentation

Transcript of Multilinguales Information Retrieval

Page 1: Multilinguales Information Retrieval

Multilinguales Information Multilinguales Information RetrievalRetrieval

Ruprecht-Karls-Universität HeidelbergHS Information Retrieval WS 01/02

Ana Kovatcheva

Page 2: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 2

Inhalt

Was versteht man unter MLIR Einige Abkürzungen und Definitionen Anwendungsgebiete und –Szenarien Der Anfang Die Basis-Konzepte Einige wichtige Projekte Resümee Literaturangaben

Page 3: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 3

Was versteht man unter MLIR ?

Retrieval von Dokumenten, bei dem sich die Sprache der Anfrage (Query) von der Sprache der Dokumenten unterscheidet.

Dabei geht es immer um natürliche Sprachen und um die ursprüngliche Form der Texte im Dokumentenpool.

Page 4: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 4

Was ist MLIR nicht ?

Multilinguales Information Retrieval darf man nicht mit Suchmaschinen verwechseln, die eine mehrsprachige Eingabe erlauben und nur Texte in der Suchanfragesprache liefern.

Dabei handelt es sich um monolinguale Systeme, die mit verschiedenen Dokumenten-Pools arbeiten.

Page 5: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 5

Abkürzungen & Definitionen

MLIR – MultiLingual Information Retrieval= CLIR – Cross-Language Information Retrieval= TIR – Translingual Information Retrieval

MT – Machine Translation ML – Machine Learning HMM – Hidden Markov Modelling

Page 6: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 6

Abkürzungen & Definitionen (II)

VSM – Vector Space Model GVSM - Generalized Vector Space Model PRF – Pseudo Relevance Feedback EBT – Example-Based Term Substitution LSI – Latent Semantic Indexing SVD – Singular Value Decomposition

TREC – Text Retrieval Conference

Page 7: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 7

Anwendungsgebiete

Dokumentenpool mit verschiedenen Dokumenten in verschiedenen Sprachen

Pool mit identischen Dokumenten in mehreren Sprachen

Beispiele für Variationen• Technische Dokumentation, in der oft englischer

Jargon verwendet wird• Wissenschaftliche Arbeiten mit Beispielen in

anderen Sprachen

Page 8: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 8

Anwendungsszenarien

Der Benutzer besitzt nur Lesekenntnisse – beherrscht die Sprache nur passiv, ist aber im Stande Gebrauch von den Texten zu machen

Der User beherrscht die Sprache nicht:• Recherche in Bilder- oder Musik-Datenpools • Recherche nach Personen, Institutionen,

Forschungsgebiete• Vorauswahl von Dokumenten, die an einem

Übersetzer weitergeleitet werden

Page 9: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 9

Der Anfang

1964 IRRD (International Road Research Documentation)

1969 SMART – Gerhard Salton at Cornell Vector Space Ranked Text Retrieval System Übersetzung von einem Teil der Wörter in einer

existierenden Konzept-Liste ins Deutsche Salton stellt fest:

Die CLIR-Effektivität variiert in verschiedenen Dokumentenpools

CLIR ist fast so effektiv, wie monolinguales IR Es ist wichtig , vollständigere Thesauri zu

entwickeln

Page 10: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 10

Der Anfang (II)

1970 Pevzner – das russische System PNP-2 „exact match controlled vacabulary text retrieval

system“

1971 Verlangen nach einem Standart für Entwicklung von multilingualen Thesauri

1971 Beginn der Entwicklung im Auftrag von UNESCO

1973-1976 Spezifikation bei ISO 1978 ISO 5964 in USA 1982 GOST 7.24-80 in Russland

Page 11: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 11

Der Anfang (III)

Beispiel für IS0 5964:• EUROVOC – Thesaurus in allen neun Sprachen

der EU plus einige andere Sehr kostenintensiv, deckt nur einige Domänen

1975 Bollmann und Konrad• die ersten Techniken zum Generieren von

multilingualen Thesauri von monolingualen 1988 Kitano (NEC) – generiert einen Japanisch-

Deutsch Thesaurus mit einem dafür entwickelten Prozessor • ISSP – Intelligent String Search Processor

Page 12: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 12

Schlüsselfaktoren bei der Entwicklung

Bei den Evaluierungen der ersten CLIR-Systemen, spielte folgendes eine große Rolle:• Kosten - Thesauri-Entwicklung ist teuer;

domäneabhängige Theasari sind nicht skalierbar• Der Nutzenfaktor bei unerfahrenen Benutzern

ist sehr gering - „paraphrase problem“• Daher ist Die Effektivität auch gering• Eins, der größten Probleme:

einzelne Terme in einer Sprache entsprechen komplexen booleschen Ausdrücken in einer anderen.

Page 13: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 13

Die Basiskonzepte

Grobe Unterteilung zwischen:• MT-orientierte CLIR Systemen

Übersetzt werden entweder die Queries, oder Die Dokumente

• CLIR Systemen, die multilinguale Thesauri verwenden

Systeme, die auf gesteuerten Vokabularen basieren (controlled vocabulary)

Konzeptbasiertes CLIR• Korpus-orientierte CLIR Systemen

VSM, ML, HMM, LSI

Page 14: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 14

MT-Methoden in CLIR

Gebraucht wird ein vollautomatisches MT-System, das entweder das Query (q) oder das Dokument (d) in einen einsprachigen Repräsentationsraum (D) liefert.

Wissenschaftlicher Streit: manche Forscher behaupten, dass MT-basiertes CLIR eigentlich auf monolinguales IR reduziert ist.

Page 15: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 15

MT – Pro- und Contraargumente

Genauigkeit der Übersetzung• Queries sind oft einzelne Wörter ohne Kontext:

d.h sie können nie richtig übersetzt werden• Maschinelle Übersetzung von Dokumenten ist

akkurater angesichts der Menge der Information Genauigkeit des Retrieval

• MT von Dokumenten > MT von Queries• In der Praxis ist MT unmöglich für offene

Domänen MT ist ressourcenhungrig Das Reindizieren ist sehr aufwändig

Page 16: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 16

Multilinguale Thesauri

Ein multilinguales Thesaurus ist in dem Sinne ein Werkzeug, was organisiertes Wissen beinhaltet – eine spezialisierte Ontologie, die mehrsprachige Terminologie organisiert.

Zum Beispiel:• Computerlinguistische Lexika mit syntaktischer

und semantischer Information, aber auch• Simple bilinguale Listen, die exakte

Übersetzungen von Termen enthalten

Page 17: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 17

Multilinguale Thesauri (II)

Zwei Arten der Benutzung:

• Manuell: bei s.g „gesteuerten Vokabulare“ wird jedes Konzept mit einer eindeutigen Beschreibung versehen

• Automatisch: wenn, die im Thesaurus kodierten Relationen, voll automatisch benutzt werden, wird die Technik „Concept Retrieval“ genannt

Page 18: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 18

Gesteuerte Vokabulare

Nachteile:• Sehr teuer, da in so einem System jedem

Dokument händisch die zugehörigen Konzepte zugewiesen werden müssen.

• Controlled Vocabulary Systems werden nur in beschränkten Domänen benutzt.

• Schwer skalierbar• Schwer zu bedienen für unerfahrene Benutzer

Vorteile:• Sehr produktiv z.B in Bibliotheken, bei sich gut

auskennenden Usern

Page 19: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 19

Konzept Retrieval

Einfache Möglichkeit:• Concept Substitution:

Mit Hilfe einer Konzeptliste ersetzt man die einzelnen Terme mit den zugehörigen Konzeptklassen

Komplizierter und effektiver• Query Expansion:

man benutzt die Konzeptrelationen im Thesaurus. Um den Query zu „erweitern“

Page 20: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 20

Korpusbasierte Techniken

Die Alternative zu der Benutzung von Thesauri ist, dass man direkt statistische Information über die Terme gewinnt, indem man parallele Korpora benutzt.

Zur Erinnerung:• Inverse Dokument-Frequenz

• Term-Frequenz und inverse Dokument-Frequenz

itermwithDocumentsofNumber

DocumentsofrNumbeidfi 2log

iijij idftftfidf

Page 21: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 21

Korpusbasierte Techniken (II)

Zwei Techniken für Automatisches Generieren von Korpora• Lin and Chen an der University of Arizona

Benutzen ML für die Konstruktion eines Chinesisch-Englischen Thesaurus mit Hilfe von Neuronalen Netzen

• Entwickelt von van der Eijk von DEC 1000 dänisch-englische Satzpaare Identifizierung von Nominalphrasen mit Hilfe von

einem einfachen Parser und einen POS-Tagger Ausrechnen von Wahrscheinlichkeiten für jedes

Term und seinen potentiellen Übersetzungen

Page 22: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 22

Term Vector Translation

Es geht im wesentlichen um Techniken, die Sätze von tfidf Termgewichtungen vergleichen

• Relevance Feedback (RF)• Pseudo Relevance Feedback (PRF)• Vector Space Model (VSM)• Generalized Vector Space Model (GVSM)• Latent Semantic Indexing (LSI)

All diese Techniken sind Varianten von dem VSM von Salton

Page 23: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 23

Pseudo Relevance Feedback

RF ist im wesentlichen Query Expansion• Der User spielt Juror; bei ihm liegt die

Entscheidung, ob ein Dokument relevant ist oder nicht. Die Entscheidungen werden für die Query Expansion benutzt und dienen der weiteren Suche.

Pseudo Relevance Feedback• Ein Teil der (best-rangierten)Dokumente, wird

als relevant vorbestimmt und automatisch (ohne Nachfrage beim Benutzer) für das weitere Suchen benutzt.

Page 24: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 24

PRF für CLIR

Die Adaption von PRF für MLIR ist relativ einfach, wenn ein bilinguales Korpus vorhanden ist

Die einzelnen Schritte:• Finden der top-ranking Dokumente für eine

Anfrage in der Ausgangssprache• Substituieren der entsprechenden Dokumente in der Zielsprache• Benutzen dieser Dokumente, um das

entsprechende Query in der Zielsprache zu formulieren

Page 25: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 25

Generalized Vector Space Model

GVSM vs. VSM

• Kritik an VSM: Benutzung von Termen als orthogonale Basis für den Vektorraum – Terme sind nicht immer semantisch unabhängig.

• Die Grundidee bei GVSM ist die Benutzung von Dokumenten, anstatt Terme, als Basis für die Repräsentation der Terme.

Page 26: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 26

GVSM monolingual

Die Dokumentenmatrix m - Größe des K.

ist das Trainingkorpus n - Zahl der Dok.

Die Dokumente sind die Spalten Die Terme sind die Zeilen Jeder Zeilen-Vektor repräsentiert die

Häufigkeit mit der ein Term im Korpus auftaucht

Das Retrieval für GVSM ist definiert als:

nmA

dAqAdqsim tt ,cos,

Page 27: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 27

GVSM multilingual

Bilinguales Training-Korpus - zwei Matrizen:• A ist die Matrix für die Ausgangssprache• B ist die Matrix für die Zielsprache• Die aufeinanderzeigende Kolumnen in den

Matrizen bilden die Dokumentpaare A wird für Query-Transformation und B für die Zielsprache-Dokument-Transformation

Das Retrieval für MLGVSM ist definiert als:

dBqAdqsim tt ,cos,

Page 28: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 28

Latent Semantic Indexing

Motivation• weder Terme noch Dokumente sind optimal für

die Bildung des semantischen Raums • Standartmethoden scheitern bei relevanten

Dokumenten, die keine, in die Query eingegebene Wörter enthalten, auch wenn der Kontext relevant ist

• Wörter werden nicht voneinander unabhängig und zufällig verwendet: sie stehen in impliziten Abhängigkeiten (latent semantics) zueinander

Page 29: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 29

LSI (II)

Behauptung: Term-zu-Term Relationen können automatisch modelliert werden• Sehr sinnvoll für CLIR, da bei verschieden

Sprachen direktes „term matching“ nicht möglich ist

LSI untersucht die Ähnlichkeit der Kontexte und „kreiert“ eine Repräsentation, in der Wörter, die im selben Kontext auftauchen, nahe beieinander liegen. (ein sinnvoll reduzierter Vektorraum)

Page 30: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 30

LSI (II)

LSI funktioniert rein numerisch• Es werden keine

Externe Thesauri Dictionaries, oder Wissen gebraucht

• Verwendet wird ein Verfahren der linearen Algebra

Singular-Value-Decomposition (SVD)

Page 31: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 31

Kurzer Ausflug in SVD

Die Methode der SVD kommt aus der linearen Algebra und ist mit der Eigenvektor Decomposition verwandt

SVD wird in der digitalen Signalverarbeitung eingesetzt um signifikante, oft sinusförmige Signalanteile, in einem verrauschten Eingangssignal zu finden, oder um die komplexität digitaler Filter zu reduzieren.

Bei LSI trifft beides zu

Page 32: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 32

Translingual LSI

ist die Matrix der bilingualen Dokumentenpaare

A und B sind definiert wie bei GVSM

sind die Matrizen des SVD

Das Retrieval für LSI ist definiert als:

B

A

222222 VUVUB

A t

dLqLdqsim tt22 ,cos,

Page 33: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 33

Vor- und Nachteile von LSI

Vorteile:• Berücksichtigung von Kontext und Bedeutung• Anfragen in jeder Länge (auch ein ganzes

Dokument) möglich• Multilingualität ohne Übersetzung

Nachteile: Probleme mit Mehrdeutigkeiten (Polysemen) Zu aufwendig für grössere Dokumentenpools,

daher nur für eingeschrenkte Domänen (Mengen) anwendbar

Page 34: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 34

Evaluierung

Die Evaluierungsdaten sind von dem Paper „Translingual Information Retrieval: A Comparative Evaluation“, s. Literaturhinweise

UN Multilingual Corpus von dem Linguistic Data Consortium

2255 Dokumentenpaare (UNICEF Reports): englische Dokumente und deren spanischen

Übersetzungen Training- und Testdaten in beiden Sprachen

betragen insgesamt 2 Millionen Wörter

Page 35: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 35

Evaluierung (II)

30 Queries auf Englisch Jede Methode wird trainiert Alle Tests werden getrennt multilingual und

monolingual durchgeführt Alle Systeme wurden manuell optimiert

11-Pt. Precision (TREC-Standards)

Page 36: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 36

Evaluierungsergebnisse

Site Method Monolingual IR TIR TIR/MIR

CMU Dict Q-tran .4721 SMART .2898 61%

CMU EBT Q-tran .4721 SMART .4318 91%

CMU PRF Q-exp .4478 .4043 90%

CMU GVSM QD-tran .4008 .3804 95%

CMU LSI QD-tran .3689 .3093 84%

UMASS Corpus-Phrase .20 .1358 68%

ETH LSI thes Q-exp .572 .212 40-53%

(LSI thes +RF) ? ? (68%)

XEROX Dict Q-tran .393 .235 60%

NMSU Dict Q-tran ? ? 40-50%

Page 37: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 37

Einige wichtige Projekte in CLIR

• MULINEX – DFKI Eine Suchmaschine fürs WWWDeutsch, Englisch, Französisch

• ERIC - The Educational Resources Information Center Spanische und deutsche Q für englische Texte;

die Texte werden nach dem Retrieval übersetzt• LIRIX - Xerox Research Center Europe (XRCE) Französische und englische D mit englischen Q• IS-Russia – controlled vocabulary System Russische Dokumente mit englischen Queries• MTIR – chinesische Q und englische D (werden ins Chinesische übersetzt)• MUNDIAL – Queries in Englisch und Spanisch• MuST-Multilingual Summarization and Translation Englische Queries zum Suchen von indonesische, spanischen, arabischen

und japanischen Dokumente

Page 38: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 38

Literatur

Douglas W. Oard, Bonnie J. Dorr. 1996. A Survey of Multilingual Text Retrieval. University of Maryland.

Christian Fluhr. 1998. Multilingual Information Retrieval. In Survey of the State of Natural Language Processing, pages 301-305.

Carbonell, Jaime G.;Yang, Yiming; Frederking, Robert E.; Brown, Ralf D.; Geng, Yibing; Lee, Danny. Translingual Information Retrieval: A Comparative Evaluation. Language Technologies Institute, Carnegie Mellon University.

Gregor Erbach, Günter Neumann, Hans Uskoreit. MULINEX, Multilingual Indexing, Navigation and Editing Extensions for the World-Wide-Web. Project Note. DFKI GmbH

Michael L. Littman, Susan T. Dumais, Thomas K. Landauer. 1996. Automatic Cross-Language Information Retrieval usin Latent Semantic Indexing

Page 39: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 39

Literatur (II)

Evans, D.A., Handerson, S.K., Monarch, I.A., Pereiro, J., Delon, L., Hersch, W.R 1998.- Mapping Vocabularies Using Latenet Semantic Indexing. In: Grefenstette G. – Cross-language Information Retrieval, Kluwer Academic Publishers, Boston, Dordrecht, London, pp. 51-52

Ralf D. Brown. Automatically-Extracted Thesauri for Croll-Language IR: When Better is Worse. Language Technology Institute. Carnegie Mellon University.

Frederic C. Gey and Hailing Jiang. Englich-German Cross-Language Retrieval for the GIRT Collection – Exploiting a Multilingual Thesaurus. (UC DATA), University of California, Berkley.

Martin Franz, J Scott McCarley, Salim Roukos. 1999. Ad hoc and Multilingual Information Retrieval at IBM. IBM T. J. Watson Research Center.

Jinxi Xu and Ralph Weischedel. 1999. TREC-9 Cross-lingual Retrieval at BBN. BBN Technologies.

Douglas W. Oard. 1997. Serving Users in Many Languages – Cross-Language Information Retrieval for Digital Libraries. D-Lib Magazine. ISSN 1082-9873

Page 40: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 40

Literatur (III)

Martin Braschler, Carol Peters, Peter Schäuble. CLIR Track Overview. Eurospider Information Tech AG, Zürich; Instituto Elaborazione Informazione (CNR):Piza

Atsushi Fujii and Tetsuya Ishikawa. Cross-Language Information Retrieval for Technica Documents. University of Library and Information Science, Tsukuba, Japan.

Frederic Gay and Atio Chen. TREC-9 Cross-Language Information Retrieval (Englich-Chinese) Overview. University of California, Berkley

Page 41: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 41

Online Highlights

http://raven.umd.edu/dlrg/clir/ Research Ressources in CLIR (Douglas Oard)

http://citeseer.nj.nec.com NEC Research Index in Language Processing

(die beste Quelle für CLIR-Papers)

Die Webseiten der einzelnen Projekte (verlinkt auf Folie 35)

Page 42: Multilinguales Information Retrieval

14. Januar 2002Ana Kovatcheva

Multilinguales Information Retrieval 42

... the end ...

ENDE

Ana [email protected]

Department of Computational LinguisticsUniversity of Heidelberg

January 2002