PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz...

PG 520Intelligence Service

Gezielte Suche im Internet

Lehrstuhl für künstliche Intelligenz

Forschung Praxis

Informationen im Internet

• Suchmaschinen:– Es werden nur Dokumente geliefert, die den

Suchbegriff enthalten. – Die Seiten sind von sehr unterschiedlicher

Qualität. – Vorwissen über zuverlässige Seiten und ihre

Struktur wird nicht ausgenutzt.

Intelligence Service

• Zusammenhänge zwischen Dokumenten:– Firmen wollen ihre Konkurrenz beobachten.– Anleger wollen eine Entwicklung verfolgen.– Bürger wollen wissen, wie es zu einer

Entscheidung in der Politik kam.

• Direkte Fragebeantwortung:– Innerhalb des Dokuments muss die betreffende

Textstelle gefunden werden! Forschungsthema Named Entity Recognition!

16.Wahlperiode, Drucksache, Antrag

Drs-Nr.

Fraktion

16.Wahlperiode, Drucksache, Antrag

Person

Drs-Nr.

16.Wahlperiode, 57. Sitzung, 19.10.2006, TOP 5

16/267

16/2790

Direkte Fragebeantwortung

• Der Antrag der FDP zur Entsorgung radioaktiven Abfalls wurde abgelehnt.

• Der Antrag der Grünen zur ergebnisoffenen Standortwahl für Endlagerung radioaktiven Mülls wurde an Ausschüsse verwiesen.

Für diese Antworten braucht man manuell 7 Stunden

PG-Arbeit

• Gezielte Recherche gemäß der Struktur bestimmter Webserver (Suchanfragen)

• Indexierung gemäß bestimmter Entitäten:Themen, Personen, Orte, Firmen...

• Named Entity Recognition:– Einige Dokumente nach Entitäten annotieren,

– maschinell Annotationsregeln lernen– Annotationsregeln anwenden

• Informationen zu den Entitäten zusammenstellen

Named Entity Recognition

• Ursprung Message Understanding Contest– Fragebeantwortung– Dann: Markierung der Entitäten

• Traditionelle NE: Personen, Orte, Firmen

• Intelligence Service: Personen, Orte, Firmen, Datum, DrucksachenNr., Fraktionen, etc.

Tom arbeitet bei Mercedes Benz

PER O O ORG ORG

Probleme

• Alle möglichen NEs in Listen zu sammeln ist keine perfekte Lösung bzw. nicht immer möglich

• Beide Arten der Evidenz beachten:– interne – Merkmale des Wortes an sich– externe – Merkmale des das Wort

umgebenden Kontextes

• Tom arbeitet bei Mercedes Benz

• intern/ extern

• Intern:– Das Wort enthält Sonderzeichen (reg. Ex.)– Das Wort ist ‘Hans’– Das Wort enthält das 3-gram ‘ans’

• Extern:– Vor dem Wort steht das Wort ‘Herr’– Das Wort steht am Satzanfang– Das Wort vor dem Wort hat die Markierung

PERSON

Beispiele für interne/externe Evidenz

NER-Verfahren

• Regelbasierte Verfahren– kontextfreie Grammatiken– endliche Automaten

• Verfahren des ML– Transformationsbasiertes Regellernen– SVM– Graphenbasiert: HMM -> MEMM -> CRF

• Bilden bestseparierende Hyperebene

• Lösen somit binäres Klassifikations-problem

• Können viele und hochdimensionale Daten verarbeiten

• Sind robust gegenüber overfitting

• Für NER ist aufgrund mehrerer NEs ein Verbund aus SVMs nötig

Support Vector Machines

• Hidden Markov Model (HMM)– Generatives (gerichtetes) Modell

Hidden Markov Models

Y1 Y2 Y3 Labelsequenz Y

X1 X2 X3 Beobachtungs-sequenz X

iiiii yxpyypyxp

11 )|()|(),(

),(maxargˆ

yxpy y

• Maximum Entropy Markov Model (MEMM)– Bedingtes (gerichtetes) Modell

– Label hängt vom Vorgänger und Beobachtung ab

Maximum Entropy Markov Models

Y1 Y2 Y3Y0

X1 X2 X3

Labelsequenz Y

Beobachtungs-sequenz X

• Conditional Random Fields (CRF)– Bedingtes ungerichtetes Modell

– Labelsequenz hängt von Beobachtungs-sequenz ab

– Beste Labelsequenz erfüllt die meisten features für Beobachtungssequenz

Conditional Random Fields

Labelsequenz Y

Beobachtungs-sequenz X

Y1 Y2 Y3

• YALE als grundlegende Lernumgebung

• Fast alle Lernverfahren vorhanden– u.a. auch SVM

• Problem: NER-Umgebung noch in der Entwicklung begriffen!– Ausgereift: statistische Textanalyse– Statistische Textanalyse beachtet nicht den

sequentiellen Charakter des Textes– CRF-Plugin liefert erste Grundlagen für NER

Anwendung von NER-Verfahren

• Statistische Verfahren analysieren Wortvorkommen sowie ihre Anzahl

• Text wird in ‘bag of words’ zerlegt– or; is; has; …; politician; …; nuclear; …– Dient zur Klassifikation von Texten

• NER benötigt Texte in ursprünglicher Form– mit zusätzlichen Informationen– Preprocessing liefert diese Informationen

Statistische Textanalyse vs. NER

• CRF-Plugin bietet Preprocessing mit unterschiedlichen Merkmalen– Präfix, Suffix, NGramme, Reguläre Ausdrücke, …

• Außerdem:– CRF-Model-Learner– CRF-Model-Applier

• Ziel:– modulare, allgemeinnutzbare Preprocessing-

Operatoren– Möglichkeit zur Einbindung vieler Lernverfahren– Einsatz von evolutionären Algorithmen zum Lernen

des besten Experiment-Setups für versch. NER-tasks

Aktuell in YALE vorhanden

Rahmenterminplan 1. Semester

• 1. Seminarphase 08. – 12.10.2007• Lernverfahren

– SVM– MEMM– HMM– CRF

• Methoden der Personalisierung von Suchmaschinen• Basistechniken des WWW

– Indexierung– XML (RSS)

• Werkzeuge der PG– Yale– Google API– CVS– Crawling

• Aufgaben des ersten Semesters– Wahl eines Anwendungsszenarios, Festlegen

der Fragen und der NE– Erstellung eines Anfrageplans– Erstellen der Trainingsdatensätze– Experimente mit vorhandenen NER-Verfahren– Ansätze zur Verbesserung der NER

• 2. Seminarphase 04. – 08.02.2008– Zusammentragen der Ergebnisse

• 3. Seminarphase Anfang April 2008• automatische Thesaurus-Erstellung• automatische Fragebeantwortung• Text-Clustering• Webseiten-Ranking• First-Story Detection• Topic Tracking

• u. U. noch andere Themen möglich!

• Aufgaben des zweiten Semesters– Sammeln der Daten (Anfrageplan beachten)– Konkrete Ausnutzung der NER aus erstem

Semester– Verbesserung der NER (?)

• Ende des zweiten Semesters:– PG Abschlussbericht und -präsentation

PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz...

Documents

Transcript of PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz...

Bedienungsanleitung Uher SG 520 Variocord - tonband.net · UHER SG 520 VARIOCORD Das SG 520 VARIOCORD ist für alle Tonbandfreunde bestimmt, die auf besonders bequeme und einfache

Autoradio SilverCrest CRE-520

1 PG 520 Intelligence Service – gezielte Informationen aus dem Internet Seminarthema: Hidden Markov Model Von Wei CAI 09.10.2007.

Betonelemente Balkonbrüstungen Norm 520 + 521 · Betonelemente Balkonbrüstungen Norm 520 + 521 . Betonelemente Brüstungstrog Norm 530 . Betonelemente Brüstungstrog Norm 531

LEONARDO living BAD LEO 109 · 03.09.2014 LEO 2 LEO living BAD 109 Gästewaschplatz 600 mm PG 1 PG 2 PG 3 PG 4 Mineralmarmor-Waschtisch weiß, mit Armaturbohrung, ohne Clou-System

Gezielte Eingriffe in Das Klima CE_Gesamtstudie

DGUV Information 215-520 - Klima im Büropublikationen.dguv.de/dguv/pdf/10002/215-520.pdf · DGUV Information 215-520. 215-520 Klima im Büro. Antworten auf die häufigsten Fragen

Rechnung PG 2004 - Sirnach

Pfarrbote - pg-kuenzing.de

HDH PG - Speedway Motors

520.pixel - Social Media Club Austria

Pfarrbrief - pg-simmern.de

MODELL Einführung PG-A10X PG-A10S · 2003. 4. 14. · PG-A10X PG-A10S BEDIENUNGSANLEITUNG Einführung Anschlüsse und Aufstellung Grundlegende Bedienung Einfach zu verwendende Funktionen

CADIZ - disselkamp.de · CADIZ Bettanlage Drehtürenschränke Schrankhöhe 229,4 oder 207,0 cm preisgleich (90015) Breite Best.-Nr. PG 1 PG 2 Best.-Nr. PG 1 PG 2 224,6 10 30

CRÉATION - Femira · 5. Bestell- Nr. Maße PG 1 PG 2 PG 3 PG ALC-Blankoliste - Boxspring Création - Stand: 21.02.2017 Modellzusammenstellung - Vorzugskombination Bitte unbedingt

Utility Wire & Cable Catalog.pdf · Code Name Cond. Size Pg. # Code Name Cond. Size Pg. # Code Name Cond. Size Pg. # Code Name Cond. Size Pg. # Aega 3/0 AWG 16 Camellia 1000 MCM N/A

Lernzieltaxonomische Klassifizierung und gezielte ...

wtxu Pulveraufladefeuerlöscher PG 6/12 S PG 6/9 SH ...

PowerFlex-Frequenzumrichter der Serie 520 Schnellstart ......PowerFlex-Frequenzumrichter de r Serie 520, Benutzerhandbuch 520-UM001 PowerFlex 4-Class Human Interface Module (HIM) DSI

Farbkarte eternit FassadentaFeln equitone [pictura ] · gelb PG 641 grün PG 544 blau PG 442 orange PG 742* Viele weitere Farben auf anfrage möglich. eternit FassadentaFeln equitone