22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im...

28
22.01.01 Yu-wen Pang : Verarbeitu ng natürlicher Sprache im IR 1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der Leitung von General Electric (GE) Research Yu-wen Pang

Transcript of 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im...

Page 1: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

1

Verarbeitung natürlicher Sprache im IR-- vorgestellt am Beispiel eines Projekts unter der Leitung von General Electric (GE) Research

Yu-wen Pang

Page 2: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

2

Hauptaufgabenstellung

des Projekts mit Hilfe NLP-Technik die Leistung

von Volltext-Dokument-Retrieval verbessern

1991-1996 : Verbesserung der Dokument-

repräsentation (Indexierung) 1996- jetzt : Query Expansion

Schwerpunkt

Page 3: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

3

Inhalt Stream-basiertes IR Modell -- Übersicht des Stream-Konzepts

-- Streams

-- Stream Merging

-- Leistung Query Expansion -- Methoden

-- bisheriges Ergebnis Weitere Experimente Andere Ansätze zum NLP im IR

Page 4: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

4

Übersicht des Stream-Konzepts

text database

Index-1

Index-2

Index-3

Index-4

Search queries

merge

stems

phrases

names

Head+Modifier pairs

match-1

match-4

match-3

match-2

(Tomek Strzalkowski u. a. 1999, S122)

Page 5: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

5

Streams Was sind Streams?

Indizes, die mit verschiedenen Methoden als Dokumentrepräsentation erzeugt werden

4 verwendete streams

- Wortstämme (stems stream)

- einfache Nominalphrasen

(simple noun phrase stream )

- Namen (name stream)

- Head+Modifier Paare

(H+M pairs stream)

Page 6: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

6

Wortstämme (stems stream)

einfachster, zur Zeit erfolgreichster aller streams besteht aus Einzelwörtern in Wortstamm-Form Probleme

-- Mehrwortbegriffe

(`joint venture´ Terme: `joint´ / `venture´)

-- lexikalische Ambiguität unerwünschte

Treffer

Page 7: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

7

Einfache Nominalphrasen (simple noun phrase stream)

Zweck : Erfassung von Mehrwort-Termen Extraktion von 3 Arten von Nominalphrasen

Modifikation(adj,Partizip)+Substantiv(e)

z.B.: air traffic control system

Eigenname + Substantiv

z.B.: U.S. citizen, China trade

Eigenname(proper noun)

z.B.: warren commission

Page 8: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

8

Namen (name stream) Eigennamen von Personen, Orten, Ereignissen,

Organisationen usw. 2 Prinzipien -- aus mehreren Wörtern zusammengesetzten Name als

eine Einheit, nicht zerlegen

-- Varianten desselben Name

In der verwendeten Datenbank (TREC-5, 1996) sind 8% der generierten Terme zusammengesetzte Namen.

z.B : South Africa= South+Africa

z.B. : President Bill Clinton = President Clinton

Page 9: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

9

Head+Modifier Paare (H+M pairs stream)

erzeugt in 5 aufeinanderfolgenden Schritten

1. Part-of-speech (Wortart) tagging

2. Lexikon-basierte Normalisierung von Wörtern

3. syntaktische Analyse mit Tagged Text Parser

4. Extraktion von Head+Modifier Paaren

5. Korpus-basierte Disambiguierung von langen Nominalphrasen

Page 10: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

10

Schritt 1 : Part-of-speech tagging

Funktion

lexikalische Ambiguität auflösen Wirkung

-- genaueres Stemming

-- Basis für Phrasenbegrenzung

Page 11: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

11

Schritt 2 : Normalisierung von Wörtern

In dem Projekt wird ein Suffix Trimmer verwendet. Funktion -- reduziert flektierte Wörter auf den Wortstamm wie im

Wörterbuch angegeben

-- wandelt nominalisierte Verben (z.B.: implementation,

storage) in Stammform (implement, store) um Beispieloriginaler Text : The issue is veterans entitlement, or the

awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange.

stemmed : veteran entitle award monetary compensate medical assist physical damage agent orange

Page 12: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

12

Schritt 3 : Syntaktische Analyse mit Tagged Text Parser (TTP)

Funktion : Phrasen und deren Beziehung erzeugen

TTP

-- ein schneller und robuster Parser für natürliche

Sprache (für einen Satz unter 1 Sekunde)

-- eine wichtige Strategie vom TTP: „skip-and-fit“

Nach der zugeteilten Zeit wird das problematische Fragment übersprungen. Eine approximative Analyse wird erzeugt. Der Parser setzt mit der nächsten Phrase fort. Das übersprungene Fragment wird später mit einem einfachen Phrasenparser analysiert und an der Hauptstruktur angebunden.

Page 13: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

13

Schritt 4 : head+modifier PaareExtraktion (aus TTP parse tree)

4 Paartypen werden in Betracht gezogen : 1. Kopf des Substantivs+linke adj/noun Adjunkte

2. Kopf des Substantivs+Kopf rechter Adjunkte

3. Hauptverb+Kopf seiner Objektphrase

4. Kopf des Subjekts+Hauptverb Beispieloriginaler Text : The issue is veterans entitlement, or the

awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange.

head+modifier Paare : damage+physical, cause+damage, award+compensate, award+assist, compensate+monetary, assist+medical, entitle+veteran

Page 14: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

14

Schritt 5 : Disambiguierung der langen Nominalphrasen

Funktion

zerlegt lange Nominalphrasen in sinnvolle H+M Paare

Beispiel : `insider trading case´

`trading+insider´ sinnvoller als `case+trading´.

Page 15: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

15

Verfahren der Disambiguierung

Phase 1-- Die nicht-ambigen Paare werden generiert.

-- Die strukturell ambigen Nominalphrasen (=Nominalphrasen bestehend aus mehr als 2 Wörter und mindestens 2 Wörter sind Substantive) werden zur Phase 2 verschoben.

-- Die Verteilungsstatistik der zusammengesetzten Terme wird gesammelt. (z.B. `insider trading´ mehr als `trading case´)

Phase 2-- Die H+M Paare von ambigen Nominalphrasen werden nach

der Statistik generiert.

Page 16: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

16

Erklärung am Beispiel : lnc.ntn

1. lnc : verwendet bei Dokumenten

ntn : verwendet bei Query

2. lnc : log-tf, nicht-idf, Cosinus-Normalisierung

ntn : straight-tf, idf, nicht-Normalisierung

Termgewichtung in StreamsStream Gewichtungsschema

Stämme lnc.ntn

Phrasen ltn.ntn

H+M Paare ltn.nsn

Namen ltn.ntnIn SMART verwendet

Page 17: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

17

Stream Merging Was ist Merging (Fusion)? -- ein Prozeß, in dem die Ergebnisse des Rankings

von jedem Stream miteinander verschmolzen werden und ein finales Ranking erzeugt wird

Faktoren, die das finale Ranking beeinflussen

-- Werte eines Dokuments von jedem stream

-- Effizienz jedes Streams

-- Anzahl von Streams, in denen ein bestimmtes

Dokument ausgegeben wird

-- Performance im bestimmten Rankingbereich von

jedem Stream

Page 18: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

18

Algorithmus des Mergingsd : Dokument d i : stream i

A(i) : Koeffizient für stream i

score(i)(d) : Relevanz des Dokuments d zur Query in Stream i

nstreams(d) : Anzahl von Streams, in denen Dokument d ausgegeben wird

*Finalscore(d)= A(i)score(i)(d) (0.9+nstreams(d)/10)

*der beste Algorithmus für PRISE

Page 19: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

19

Leistungen von Streams Leistungen einzelner Streams (11-pt avg. Prec)

RUNS short queries long queries

Stems 0.1682 0.2626

Phrases 0.1233 0.2365

H+M pairs 0.0755 0.2040

Names 0.0844 0.0608

(Tomek Strzalkowski u. a. 1999, S132)

Page 20: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

20

Erhöhung der Precision nach Merging der Streams gegenüber reinem stemming

Streams merged short queries long queries % change % changealle streams +5.4 +20.94

stems+Phrases+Pairs +6.6 +22.85

stems+Phrases +7.0 +24.94

stems+Pairs +2.2 +15.27 stems+Names +0.6 +2.59

(Tomek Strzalkowski u. a. 1999, S134)

Page 21: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

21

Query Expansion Beobachtung -- Query vom Benutzer : meistens nur semantisch

oder begrifflich ähnlich den relevanten Dokumente

was noch nicht gut modelliert werden kann

-- die Formulierung der Query : oft irreführend Ziel der Query Die Query soll den relevanten Dokumente ähnlicher

werden, sowohl inhaltlich als auch strukturell. Methoden -- Term-Expansion

-- Volltext-Expansion

Page 22: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

22

Term-Expansion Verfahren

Retrieval mit originaler Query

mit Hilfe `Relevance-Feedback´ beurteilen, ob die ausgegebenen Dokumente relevant sind

Die Terme in den als relevant beurteilten Dokumenten werden zur Query hinzugefügt.

Gewichtungen der Terme in der Query werden neu berechnet.

Retrieval mit der bearbeiteten Query

Page 23: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

23

Probleme der Term-Expansion

1. Einige wichtige Aspekte, die bezüglich der Query manche Dokumente zur Relevanz bringen, sind mit der Term-Expansion nur schwer zu erfassen.(z.B. Textstruktur)

2. Der Expansion mit Relevance-Feedback von den Benutzenden legen einseitige Relevance-Informationen zugrunde.

Page 24: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

24

Volltext-Expansion (neuer Vorschlag des Projekts) Richtlinien

In Top N Dokumente die zur Query relevanten Abschnitte aussuchen

Retrieval mit originaler Query

Indexierung für die expandierte Query

ganze Abschnitte zur Query hinzufügen

Retrieval mit der expandierter Query

Page 25: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

25

Ergebnis der Query-Expansion Der beste offizielle Lauf bis 1999

Beschreibung durchschnittl. Precision in Recall von der Query Precision Top 10 Dok. 4728 Dok.

Manuell-unterstützte 0.3346 0.6520 0.3325 Expansion

In diesem Lauf :

1. Indexierung nur mit stem-stream

2. Relevance-Infos vom User mit Zusammenfassung (summary)

3. als `relevant´ beurteilte Zusammenfassungen zum Thema der Query hinzugefügt

(Tomek Strzalkowski u.a. : NLIR TREC-8 Report)

Page 26: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

26

Weitere Experimente in dem Projekt

Indexierung erweiterter Query mit allen Streams

automatische Expansion mit Textabschnitten vs. Zusammenfassungen

linguistische Verarbeitung

für Indexierung vs. nur für Query

Page 27: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

27

Andere Ansätze zum NLP in IR-Systeme in TREC CLARIT : NLP verwendet bei

Indexierung

InQuery (von UMass): NLP verwendet bei Verarbeitung von Query

Page 28: 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR

28

Literatur T. Strzalkowski, L. Guthrie, J. Karlgren, J. Leistensnider, F. Lin, J.

Perez-Carballo, T. Straszheim, J. Wang, J. Wilding : Natural Language Information Retrieval : TREC-5 Report http://trec.nist.gov/pubs/trec5/t5_proceedings.html

T. Strzalkowski, J. Karlgren, J. Perez-Carballo, A. Hulth, P. Tapanainen, T. Lahtinen : Natural Language Information Retrieval : TREC-8 Report http://trec.nist.gov /pubs/trec8/t8_proceedings.html

T. Strzalkowski, J. Perez-Carballo : Evaluating Natural Language Processing Techniques in Information Retrieval. In : T. Strzalkowski (ed.): Natural Language Information Retrieval, 1999 Kluwer Academic Publishers

T. Strzalkowski, P. Scheyen : Evaluation of the Tagged Text Parser, A Preliminary Report. In : H. Bunt, M. Tomita (ed.) : Recent Advances in Parsing Technology,1996 Kluwer Academic Publishers