Question Answering Systeme Vortrag von Alexander Wey.

Question Answering Systeme

Vortrag von Alexander Wey

Überblick

Was sind Question Answering Systeme? TREC-9 QA Task Question Answering Systeme :

Ein einfaches Question Answering System FALCON

Zusammenfassung Ausblick

Was sind Question Answering Systeme ? liefern Antworten auf natürlich-sprachlich

gestellte Fragen

selektieren relevante Dokumente einer Wissensbasis

durchsuchen die relevanten Dokumente nach möglichen Antworten

Was ist „TREC“ ?

Text REtrieval Conference wird finanziert vom National Institute of Standards (NIST) und vom U.S. Verteidigungsministerium

ermöglicht Vergleichbarkeit von IR Verfahren durch Verwendung gleicher Datenmengen und Bewertungskriterien

TREC-9 QA Task

28 Teilnehmer (Forschungsgruppen von Universitäten und aus der privaten Wirtschaft)

3 GB großer Datenkorpus und 693 Test-Fragen wurden den Teilnehmern übergeben

Pro Frage sollte eine Liste von 5 Paaren übermittelt werden (Paar bestand aus Id-Nr. und Antwortstring) ; Liste nach Relevanz geordnet.

4 Durchläufe, jeweils zwei 50 und 250 - Byte

Bewertung

Die Listen wurden von unabh. NIST Mitarbeitern überprüft.

Abhängig vom Rang der Antwort wurden die Punkte verteilt. 1/r Punkte, wobei r der Rang der richtigen Antwort sei.

Gesamtergebnis aufgeteilt in „unsupported“ und supported“

QA Strategie

Im 1. Schritt wird der Antwort-Typ einer Frage ermittelt.

Im 2. Schritt wird aus allen Dokumenten ein kleiner Ausschnitt selektiert. Um passende Einträge (die vom gleichem Typ sind

wie die Antwort) zu finden, wird dieser Ausschnitt mit einem Parser durchlaufen.

Ein einfaches QA System

entwickelt von Cooper & Rüger der Imperal College of Science, Technology and Medicine , London

Geschrieben in Perl und verwendet : CMU Link Parser WordNet REX System für XML Parsing Managing Gigabyte Suchmaschine

Vorbereitung der Daten

Um die Rohdaten der Dokumente zu erhalten entfernte man die SGML (Standard Generalized Markup Language) – Zeichen

$ und £ Zeichen wurden durch die Wörter dollar und pounds ersetzt.

Die “rohen” Dokumente wurden in Paragraphen aufgeteilt.

Verarbeitung einer Frage

Sentence Splitter & Tokenizer

markiert die Satzenden, durch Suche nach Fragezeichen, Ausrufezeichen und Punkten.

Punkt => wirklich Satzende ?

tokenizer – Modul zerlegt die Frage in ihre einzelnen Bestandteile auf Wörter, welche Ziffern enthalten werden ebenfalls

zerlegt, Bsp. pounds20m -> 3 Tokens : pounds, 20, m

Link Parser

analysiert die syntaktische Struktur der Frage hängt den Ableitungsbaum an das Ergebnis des

„sentence splitter & tokenizer“ an. <sentence><t n=“1“>How</t> <t n=“2“>far</t> <t

n=“3“>away</t> <t n=“4“>is</t> <t n=“5“>the</t> <t n=“6“>moon</t> <t n=“7“> ?</t><parse><pos n=“2“ pos=“a“/><pos n=“4“ pos=“v“/><pos n=“6“ pos=“n“/><link name=“Xp” l=“0“ r=“7“/><link name=“Wq“ l=”0” r=”2”/><link name=”PF” l=”2” r=”4”/><linke name=”MVp” l=”2” r= “3”/><link name=”Sis” l=”4” r=”6”/><link name=”Ds” l=”5” r=”6”/><link name=”RW” l=”7” r=”8”/></parse></sentence>

Question Focus (1)

Wort oder Satzteil der Frage, welches ein Indiz für den Antworttyp sein könnte Bei manchen leichter bei anderen Fragen schwieriger

Antworttyp einer „what“ Frage benötigt weiteres Wort (question focus) z.B. „What time is the train arriving?“ Das erste Substantiv der Frage wird als „question

focus“ festgelegt

Question Focus (2)

Bei unserer Beispielfrage wird das Wort „moon“ als question focus gewählt. <questionFocus><t n=„6“>moon</t></questionFocus>

Answer Type (1)

legt den Antworttyp mit Hilfe des „question focus“ fest.

Schwachpunkt des Systems : Bei „who“ Fragen wird angenommen, dass immer

nach einer Person gesucht wird Gegenbeispiele :

„Who won the Premiership?“ (Fussballverein gesucht)

„Who beat Fred in the 100 m?“ (Liste von Läufern)

„Who beat England in the relay?“ (mehrere Länder)

Answer Type (2)

Zusätzliche Synonyme können die Ermittlung des richtigen Antworttyps vereinfachen.

Synonyme können mittels WordNet gefunden werden. Für die Beispielfrage „How far away is the moon?“

wird das Wort length hinzugenommen : <answerType t=„length“/>

Übersicht Antworttypen

Fragewort AntworttypWhen time

Where place

Why reason

Describe description

Define definition

Who, whom person

What, which, name Mittels question focus…

How Wort nach „how“

Keyword Extraction

Einzelne Wörter der Frage werden mit speziellen Kategorien kommentiert

Dies geschieht an Hand von Listen, in denen Namen von Personen, Plätzen, etc. und deren zugehörige Kategorie steht

London hört z.B. zur Kategorie „city“ Das Token „London“ wird kommentiert :

<aCity>London</aCity>

Paragraph Retrieval via MG

Der Datenkorpus wird mit der Managing Gigabyte Suchmaschine und der aufgearbeiteten Frage durchsucht.

Man erhält einen Ausschnitt von Dokumenten (Paragraphen), in denen die Antwort vermutet wird.

Problem : Zu wenig oder zu viele Dokumente ?

Candidate Answer Extraction

markiert Stellen im Text, welche Antworten sein könnten

Synonyme des Antworttyps werden mittels WordNet gefunden.

Mit der Disjunktion der Synonyme erstellt man einen regulären Ausdruck und vergleicht diesen mit dem Text

Ausnahmen

Antworttyp „person“ zuviele Synonyme , z.B. consumer, creator

Antworttyp „description“ zu schwer um hiermit die passenden Stellen zu finden Annahme : zwischen Komma und Punkt steht eine

Beschreibung

Antwortyp „length“ zu viele Antwortkandidaten

Answer Scoring (1)

Heuristik Beschreibungscore_comma_3_word Folgt nach einem Antwortkandidaten ein

Komma, so werden die 3 Wörter nach dem Komma, welche auch in der Frage auftauchen gezählt

score_punctuation 1 Punkt, wenn nach dem Antwortkandidat ein Punkt folgt (sonst 0 Punkte)

score_same_sentence # Wörter, welche sowohl in der Frage als auch beim Antwortkandidaten in einem Satz stehen

Answer Scoring (2)

Score_description_before Gilt nur für den Antworttyp „description“. Berechnet die Anzahl der Wörter die vor einem Antwortkandidaten stehen

Score_description_in #Wörter die im Antwortkandidaten stehen

Heuristiken sind untereinander unabhängig. Jeder Antwortkandidat wird ein Paar (id, score)

zugeordnet

Answer Weighting

Heuristik Gewichtungscore_comma_3_word 1.2

score_punctuation 1.1

score_same_sentence 1.0

score_description_before 2.0

score_description_in 1.0

Answer Ranking

Antwortkandidaten werden aus den Dokumenten kopiert nach Gewicht sortiert einem Rang zugeordnet

Duplikate werden gelöscht.

Zusammenfassung & Leistung

Um relevante Dokumente zu finden ermittelt man den Antworttyp und sucht passende Keywords

Textstellen werden markiert, welche Antworten sein könnten

Die Güte eines Antwortkandidaten wird bewertet.

Das einfache QA System konnte bis zu 39 % der Fragen beantworten.

FALCON

Southern Methodist University, Dallas Bestes Ergebnis im TREC-9 QA Task

58% der Fragen im 50-Byte Durchlauf beantwortet 76% der Fragen im 250-Byte Durchlauf beantwortet

geht auf die umformulierten Fragen ein Richtigkeit der Antwort wurde an Hand der

semantischen Form und logischen Form der Frage und Antwort überprüft.

Aufbau des Falcon Systems

Strategien des Falcon Systems

Bisher gestellte Fragen und Antworten werden abgespeichert (cached answers)

Relevante Dokumente werden mittels „boolean retrieval“ selektiert

Antworttyp wird zusätzlich mit Hilfe der semantischen Form der Frage ermittelt

Dasselbe Problem, wie beim einfachen QA System : zu wenige, oder zu viele relevante Dokumente Verfeinerung der Suche

Verfeinerung der Antwortsuche

Morphologische & lexikalische Alternativen Mit WordNet werden alle morphologischen

Ableitungen eines Schlüsselwortes gesucht Bsp : „Who invented the paper clip?“

morphologische Ableitungen des Wortes invented : inventor, invent

Mit WordNet werden Synonyme und andere Beschreibungen für ein Wort gesucht. Bsp : „Who killed Martin Luther King?“ Hier wurde

das Wort „assasin“ als Schlüsselwort hinzugefügt, da es ein Synonym für killer ist.

Semantische Alternativen

Auch hier mit der Hilfe von WordNet„liking better“ dieselbe Bedeutung wie „prefer“Bsp : „Where do lobsters like to live ?“ Konnte

mit Hilfe des Schlüsselworts „prefer“ beantwortet werden.

Semantische Form einer Frage

Mit dem „new statistical parser“ von Collins wird ein Ableitungsbaum erstellt.

Hieraus kann leicht die semantische Form einer Frage (bzw. Antwort) erstellt werden.

Erstellung der semantischen Form

Substantive, Verben, Adjektive und Adverbien werden als non-skipnodes bezeichnet, alle anderen Blätter werden als skipnodes bezeichnet

An Hand einer Regel erhält Vaterknoten die Bezeichnung eines Sohnes

Vaterknoten wird mit allen anderen „non-skipnodes“ verknüpft.

Non-skipnodes hier : astronaut, walk, space

Logische Form einer Frage

Transformation der semantischen Form in eine logische Form geschieht mit dem Programm Tacticus (von Jerry R. Hobbs)

Zusammenfassung

QA Systeme arbeiten meist in 2 Schritten : 1. Schritt : Suchen der relevanten Dokumente 2. Schritt : Suchen der Antwort in diesen Dokumenten

Mit Hilfe semantischen Wissens konnte FALCON bis zu 76% der Fragen richtig beantworten

Ausblick

Beantwortung komplexerer Fragen

Benutzerfreundlichere Suchmaschinen

Dialogsysteme zur Beantwortung faktischer Fragen

Quellenangabe

Overview of the TREC-9 Question Answering Track, Ellen M. Voorhees, National Institute of Standards an Technology, Gaithersburg.

A Simple Question Answering System. Richard J Cooper and Stefan M Rüger, Departement of Computing, Imperial College of Science, Technology and Medicine, 180 Queen‘s Gate, London.

Falcon : Boosting Knowledge of Answering Engines. S. Harabagiu, D. Moldovan, M. Pasca, R. Mihalcea, M. Surdeanu,

R. Bunescu, R. Girju, V. Rus, P. Morarecsu, Departement of Computer Science and Engineering, Southern Methodist University, Dallas

Vielen Dank für die Aufmerksamkeit und frohe Weihnachten !

Question Answering Systeme Vortrag von Alexander Wey.

Documents

Transcript of Question Answering Systeme Vortrag von Alexander Wey.

Die Goal-Question-Metric-Methode (GQM)se.uni-hannover.de/priv/lehre_2009sommer_xpe/GQM.pdf · Christian El Boustani: Die Goal-Question-Metric-Methode (GQM) 07.04.2009 2 Inhalt Einleitung

MINISTÈRE DE LA COMMUNAUTÉ FRANÇAISE Épreuve …2 / 12 La respiration Question 1 CoChe ce qui respire. Question 2 Voici ce que des élèves ont écrit à propos de la respiration.

On the question of octahedral binding in bis ...

Handelsräume der Spitzenklasse - weytec.com · Swiss Quality Made in Switzerland . 3 Wirtschaftlich Sicher Effizient WEY Lösungen ermöglichen es Business Managern, ihre hochgesteck

Forms of Negation in Polar Questionsidiom.ucsd.edu/~simone/Simone_MA.pdfouter negation reading. A y/n-question with an inner negation questions the negative proposition while a y/n-question

Das Leben und die Lehre des Mohammad - answering-islam.org · WAyil Sahmy soll seine Schadenfreude dar- über ausgedrückt haben, dars der Prophet keine männli- chen Kachkommen habe,

SERVICES NOW NEWSLETTER COMMENTS BY ANSWERING …KOHS HEADQUARTERS Comments by (Ret.) Major Alecia Webb-Edgington New Training Webpage Emergency 911 Services Ernie Fletcher Governor

„Vertieft/Grundlegend“: A question of more or less? Tanja Westfall-Greiter.

Indexstrukturen für Datenbanken, Signature Files Seite : 1© 2000 Alexander Wey, Universität Bonn Proseminar: Indexstrukturen für Datenbanken Signature.

Frage 2. Question 2. - Free University of Bozen-Bolzano€¦ · Question 2. In the last long jump competition An-thony beat Boris, but not Chen, while Dario did better than Anthony,

UnsereVeranstaltungen 2019 historisch gute Events...af o MenuCàFr.88.– ... veranstaltungen 2019-2_veranstaltungen 1-2012.qxd Author: rolf wey Created Date: 5/5/2019 8:24:14 PM ...

scliiiilt ilim der] ICorif ab mit den Worten: so müfst ...answering-islam.org/Books/Sprenger/Leben3/kapitel24.pdf · ALer \veiiii ilir %Iäiil~ig seid, \\isset ilir ilocli, dafs

Wey-Han Tan: Seminareinfuehrung "Spielend Lernen?", WS2011

A comparison of approaches for platooning management · Research question 1: How can platooning approaches be compared and classified? Research question 2: How can platooning algorithms

Modulhandbuch · 2020-07-17 · • die Gewinn-und Verlustrechnung, ... And how should the company finance the chosen invest-ments? The focus of this course is on answering the first

Private Musiksammlung Aktualisierung am: 04.09.15 Archiv ...Elisabeth Kulman - Delphine Galou - Peter Kennel - Terry Wey - Hermann Oswald - Manfred Bittner - Nicolas Brieger - Katrin

wey Mßgewiösföa seal - Der schwarze Kanalsk.dra.de/kanal_pdf/E028-00-06_0004053.pdf · 2004-01-23 · 14 85 Dß3 to muß ßfeubey Meito atöA Be 0te3öh iga2 25o02s9 5z1 teä yliE

bread - NEPTUNBrethe de la Gressange, Jean Laborde-Lacoste, Marcel. Bretholz, Berthold lateinische. Bretin, Georges question

ff Sport et societe au Nebel' Claude Wey, dem Initiator ... · secondaire par des prcgesseurs diplOmes a partir du milieu des annees trente et la fondation de la L.A.S.E.L. constituent

GCSE German Reading Exam Practice Question type: Gap fill.