Vortrag über: Information extraction from the World Wide Web file'Belize','501' , 'Egypt','20' ,...

Informationsextraktion – Seminar

Vortrag über: Line Eikvil (1999)

Information extraction fromthe World Wide Web

Referat Wintersemester 2002Stephan BirkmannNovember 2002

04.11.2002 Informationsextraktion 2

Übersicht

• Erläuterung der Problemstellung• Abgrenzen des Themenbereichs• Grundlagen• Wrapper• Kommerzielle Anwendungen• Fazit

Definition

C. Cardie 1997:

An IE System takes as input a text and „summarizes“ it with respect to the user‘s domain of interest

Ziele der Informationsextraktion

• Wesentliche Informationen erkennen und in kompakter Form wiedergeben

• Anwendbarkeit auf – unbekannten Text– beliebig formatierte Textformen

• Also volles Textverständnis• Endbenutzer Mensch

Probleme

• Wann wurde ein Text verstanden?– Volles Textverständnis (noch) nicht realisierbar, – deshalb Reduktion auf das Auffinden spezieller

Informationen.

• Neuer Text bedeutet oft auch unbekannte Formatierung.– Benötigt also die Konstruktion eines neuen Patterns.– Es wird eine große Robustheit gegenüber strukturellen

Veränderungen verlangt.

Themenabgrenzung• Information Retrieval: Dokumentensuche aus Dokumentenmenge

• Information Filtering: Suche in nicht statischer Dokumentenmenge

• Textzusammenfassung: Schneller Überblick über den Inhalt

• Textkategorisierung: Selbständige Gruppierung von Texten

• Textklassifikation: Einordnen in vorgegebene Gruppen

Grundlagen

AntworteneproduziertAntwortenkorrektePrecision =

AntwortenkorrektemöglicheAntwortenkorrekteRecall =

Grundlagen AlgorithmusMensch

Interessant NichtInteressant

Interessant A B

Nicht Interessant C D

BAARecall+

APrecision+

Textformen

• Frei: natürlichsprachlicher Text– syntaktische Beziehungen zwischen Wörtern– semantische Analyse– Geltungsraumerkennung von Namen

• Strukturiert: klar vordefinierte Formatierungsvorschriften– Extraktion durch Benutzen der Formatbeschreibung

• Semistrukturiert: ungrammatikalisch, telegrafisch

Internet

• Alle Textformen vorhanden• Informationen werden oft erst auf Anfrage

generiert (Hidden Web)• Hyperlinks werden dynamisch von JavaScript

erstellt• Trotz HTML und XML keine Standards• Global verteilte Informationen

Standardvorgehen

• Zerlegen und markieren– Zerlegen des Textes in einzelne Wörter (tokenising)– Bestimmen der Wortart (tagging)– Zuweisen der richtigen Wortart für jedes Wort

• Extraktion– Extraktionsregel wird mit vorliegendem Satz abgeglichen– Bei Erfolg wird die relevante Information identifiziert

• Ausgabe generieren– Die Information wird benutzt, um die vordefinierte Lücke im

Fragebogen mit einer Antwort zu füllen

Trennsymbol-basiert

Trennsymbol-basiert<HTML><TITLE>Some Country Codes</TITLE><BODY>Congo 242 Egypt 20 Belize 501 Spain 34 </BODY></HTML>

'34',Spain''

,'501',Belize''

,'20',Egypt''

,'242',Congo''

Wrapper

• Tool zum gezielten Auffinden von Informationen– Muss an neue Formatierungen angepasst werden– Suche in unabhängigen Quellen benötigt also

verschiedene Wrapper– Benutzt meistens nur Trennsymbolmuster– Entwickelt für die Abfrage von online generierten

Seiten

• Bereitet gefundene Informationen zur Weiterverarbeitung auf.

Wrapper-Konstruktion

• Manuell: Programmierer analysiert die Grammatik– und programmiert den Wrapper– oder gibt die Grammatik in Wrappertool ein

• Halbautomatisch: Mensch zeigt dem Wrapper wo die Informationen zu finden sind

• Automatisch: ML-Techniken mit Hilfe von Beispieltexten

Inductive Learning

• Induktion: Aus gegebenen Grundbeispielen allgemeine Formel finden, aus der diese Beispiele (und andere) folgen.

• Zero-Order:– Attribute Value (Eigenschaft und ihr Wert)– Aussagenlogik– Kein Zusammenhang zwischen Objekten

• First-Order:– Prädikatenlogik erster Ordnung– Zusammenhang zwischen Objekten

Wrapper Induction

SeiteS ∈ Σ

LabelL ∈ l

FrageF ∈ f

QuelleQ

WrapperW ∈ WK

,149,147,139,134

,122,119,111,105

,93,91,83,78

,66,63,55,50

The Wrapper Induction ProblemBenötigt: Ein Wrapper für die Quelle Q

Eingabe: Ein Satz von Beispielseiten S1 aus Q mit dem jeweiligen korrekten Label L

Ausgabe: Ein Wrapper W für die Quelle Q, so daß W(S)=L für alle Beispielseiten

Test: Von Wrapper W auf Seitenmenge S2 aus Q. Ist W(S2) = L ?

LR Wrapper Class

Eingabe und Ausgabe<HTML><TITLE>Some Country Codes</TITLE><BODY>Congo 242 Egypt 20 Belize 501 Spain 34 </BODY></HTML>

,149,147,139,134

,122,119,111,105

,93,91,83,78

,66,63,55,50

Wrapper-Klassen

• LR Left-Right• HLRT Head-Left-Right-Tail• OCLR Open-Close-Left-Right• HOCLRT Head-Open-Close-Left-Right-Tail• N-LR Nested-Left-Right• N-HLRT Nested-Head-Left-Right-Tail

Kommerzielle Anwendungen

• Produktbeschreibung• Restaurantführer• Seminarankündigung• Jobsuche• Aktienmarktauswertung• Krankenblattauswertung• ...

• Für die Praxis ist eine Zuverlässigkeit von 90% nötig• Es werden weitaus portablere Systeme benötigt, um das

gesamte Internet, auch Hidden Web, als eine Dokumentensammlung nutzen zu können

• Breite Anwendung wird die IE erst finden, wenn man sie mit anderen Techniken kombiniert– Information Retrieval (keine Angabe von Quellen)– Natural Language Generation (leicht lesbare Ausgaben)– Machine Translation (Sprachbarierre überwinden)– Data Mining (Analysen der zusammengestellten Information)

Vortrag über: Information extraction from the World Wide Web file'Belize','501' , 'Egypt','20' ,...

Documents

Transcript of Vortrag über: Information extraction from the World Wide Web file'Belize','501' , 'Egypt','20' ,...

Ghostscript wrapper for D: estgeneralaktenvfg[1]

python extending and embedding · bodenseo Extending and Embedding SWIG S implified Wrapper and I nterface G enerator Swig wandelt vollautomatisch C/C++ Code in Skripting-Sprachen.

CONGO STARS - kunsthalle-tuebingen.de · CONGO STARS 09.03. — 30.06.2019 Die Ausstellung CONGO STARS zeigt populäre Malerei von den 1960er-Jahren bis heute, Seite an Seite mit

Reisebericht 1 - Petite Flamme · Komm - In Petite Flamme Deutschland Kommunikation und Informationsstelle der Freunde und Paten in Deutschland von Petite Flamme RD Congo e …

République Démocratique du Congo - Carte administrative · 2012. 12. 6. · Watsa Yahuma Kibombo Pangi Lubero Bagata Shabunda Boende ... Chef lieu de province Limite de territoire

Ghostscript wrapper for C:Usersah …Dok.-Nr.: 100-118-000 Revision 6.3 Ab Geräten mit Seriennummer 300706 Aircraft Medical Limited © 2015 1.2 Zubehör und Teilenummern UNTER ...

Steganographie/Steganalyse Informationsextraktion aus beschlagnahmten Rechnern Seminar: Netzwerk, Betriebssystem- und Mediensicherheit 10.12.2002 Sebastian.

Materialien zur Entwicklungsfinanzierung€¦ · 4 | KfW Entwicklungsbank – Materialien zur Entwicklungsfinanzierung, Nr. 4 BCC Banque Centrale du Congo BMZ Bundesministerium für

© Paola Viesi Slow Food in Afrika - a2e5c2y9.stackpathcdn.com · RWANDA D.R. OF THE CONGO TANZANIA MALAWI MOZAMBIQUE MADAGASCAR MAURITIUS ANGOLA ZAMBIA NAMBIA ZIMBABWE BOTSWANA LESOTHO

Seite 1 von 60 Version:1 · 2017-11-28 · Der JavaEditor ist mit Sicherheit eine der einfachsten Entwicklungsumge- ... (GUI) ent-spricht. 2. Klären Sie den Begriff Wrapper-Klasse.

Ein Ansatz für eine semantische Informationsextraktion von ... · 1 Introduction 1.1 Motivation While the digitization has already transformed many sectors and industries, the German

Robogistics – Robotik und Logistik im Wandel Forum ... · Pallet Conveyor Stacker Crane Autom. Order Picker Colli Conveyor Spiral Conveyor Bar Code Reader Palletizer Stretch Wrapper

252-0027 Einführungin dieProgrammierung 10.0 … · 2019. 12. 3. · Übersicht §10.1 Einleitung §10.2 ArrayList §ArrayList §Wrapper Typen §10.3 Vergleichenvon

core.ac.uk · 2017-05-05 · countries, such as Timor-Leste or the Democratic Republic of Congo, the share of development aid in gross national income is above 50% [Worldbank (2006)].

Programmieren II - Exkurs: Maven & RESTful-Servicesjavavorlesung/hska/2015-16/32_Maven.pdf · Struktur der Wrapper meist ähnlich, trotz sehr unterschiedlicher Tools die darunter

ETAT DES LIEUX DU BASSIN DE L’AKAGERA BURUNDI · 6. Le bassin de l’Akagera Burundi, s’étend du nord- ouest au nord-est, de la crête Congo- Nil au fleuve Akagera à la frontière

Linear Algebra Schaum - CIMATgil/docencia/2009/algebra_lineal1/chap5.pdf · Title: Ghostscript wrapper for C:\Documents and Settings\Gil Bor\My Documents\Linear_Algebra_Schaum.pdf

Hanns Büehrl / Susanne Luhter / Vkeor l L. Plän e)d(s. · Chairwoman of Hanns Seidel Foundation since 2014. ... 37 RESOLUTION OF ARMED AND ETHNIC CONFLICTS IN D.R. CONGO IN THE

Thomas Claudius Huber - sisis.rz.htw-berlin.de · 1.2 Von Windows 1.0 zur Windows Presentation Foundation 48 1.2.1 Die ersten Wrapper um die Windows-API 48 1.2.2 Windows Forms und

Presentation by: Amb. Eugene MUNYAKAYANZA · Presentation by: Amb. Eugene MUNYAKAYANZA . OUTLINE ... Burundi, the Democratic Republic of Congo and Rwanda, to create the Authority