Themen- und Trenderkennung in Agenturmeldungen

Post on 06-Jul-2015

431 views 0 download

description

Vortrag beim #LSWT2013 zum Thema Themen- und Trenderkennung in Meldungen von NAchrichtenagenturen - Der Vortrag umreißt den aktuellen Stand des Forschungsprojekts Topic/S http://aksw.org/Events/2013/LeipzigerSemanticWebTag/Kerntag.html http://topic-s.de/

Transcript of Themen- und Trenderkennung in Agenturmeldungen

Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677

http://topic-s.de/

Martin Voigt, Michael Aleythe, Peter Wehner

Wer sind wir?

fink & PARTNER Media Services GmbH

Medien Management für Verlage

Einige Kunde

Lehrstuhl für Multimedia Technologie, TU Dresden

Forschungsfelder

Adaptive, komposite Rich Internet Applications Semantisches Document Life Cycle Management

Friday, 14.06.2013 Topic/S Slide 1

Struktur

Motivation, Probleme und Ziele

Topic/S Workflow

Demo

Zusammenfassung

Montag, 23.09.2013 Topic/S @ LSWT Slide 2

Motivation

Newsroom

Montag, 23.09.2013 Topic/S @ LSWT Slide 3

Quelle: ringier.com

Problem

Überwältigende Datenmenge für den Redakteur

z.B. WAZ 5000 Artikel/Tag (Agenturen & in-house)

Montag, 23.09.2013 Topic/S @ LSWT

DPA

Reuters

KNA

Twitter

Facebook

Blogs

Nachrichtenagenturen Web, Social Media

In-house Produktion

Archive

Online

Slide 4

Vision

Automatische Themenerkennung unter Verwendung von Named Entities und anderen Stichworten (SemItem)

Identifikation von Thementrends

Information-Push statt Pull

Montag, 23.09.2013 Topic/S @ LSWT Slide 5

Struktur

Motivation, Probleme und Ziele

Topic/S Workflow Überblick Informationsextraktion Speicherung Themenerkennung

Demo

Zusammenfassung

Montag, 23.09.2013 Topic/S @ LSWT Slide 6

Workflow

Montag, 23.09.2013 Topic/S @ LSWT Slide 7

Mehr in [Voigt2013]

Informationsextraktion

Montag, 23.09.2013 Topic/S @ LSWT

Spracherkennung (DE, EN) Regelbasiert

Kategorisierung Quellenabhängig

Slide 8

Source: onelanguageoneposter.com

Agentur Genauigkeit

KNA 80,3 %

DPA 94,4 %

EPD 80,3 %

Reuters 90,8 %

OTS 93,5 %

AFP 86 %

Informationsextraktion

Montag, 23.09.2013 Topic/S @ LSWT

Spracherkennung (DE, EN) Regelbasiert

Kategorisierung Quellenabhängig

Named Entity Recognition Wortlisten- & Statistik-basiert

Disambiguierung interne & externe Datenbasis

Slide 9

Source: onelanguageoneposter.com

Semantisches Model

Montag, 23.09.2013 Topic/S @ LSWT Slide 10

Media SemItemMatch SemItem

Quellen: freemake.com, samepage.io, free-vectors.com, trendwatching.com, viamusical.de

Semantische Fakten Keine Wortlisten für NER! preferred und alternative Namen vorgehalten

ID: http://www.topic-s.de/topics-facts/id/person/Rene_Muller Namen: Rene Muller, Rene Müller, René Muller, René Müller

Triples ohne SemItems: 31,3 Mio.

Montag, 23.09.2013 Topic/S @ LSWT Slide 11

SemItem Anzahl (alternative Namen)

Person 1.504.341 (2.499.962)

Organization 63.332 (98.127)

Place 89.702 (95.178)

Keyword 1351

Speicherung

Oracle 11gR2 Benchmark von Triple Stores [Voigt2012]

Pros

Bereits im Unternehmen für große Datenmengen im Einsatz

Integrierte Anfrage an relationale und semantische Daten

Cons

Inferenz

Unvollständiger SPARQL 1.1 Support

Einsatz von eigenen Regeln kaum möglich

Montag, 23.09.2013 Topic/S @ LSWT Slide 12

Quelle: musingmonika.com

Themenerkennung

Montag, 23.09.2013 Topic/S @ LSWT

Clustering hierarchisches, agglomeratives Verfahren

Grundlage: Artikel und deren Entitäten

Eigenimplementierung aufgrund spezieller Herausforderungen

Ausführung und Zusammenfassung im Intervall Trend

Slide 13

Top-Cluster (vom 19.09.2013)

Themenerkennung

Montag, 23.09.2013 Topic/S @ LSWT

Artikel 5 wichtigsten SemItems HotTopic

68 Euro / Kind / Deutschland / Berlin / Bundeswehr Nein

52 Euro / Lufthansa / Milliarde / Boeing / Land Nordrhein-Westfalen Ja

44 Alternative für Deutschland / Partei / Umfrage / Bundestagswahl / SPD

Ja

32 Federal Reserve System / US-Notenbank / Entscheidung / Dollar / USA

Ja

28 SPD / Partei / CDU / Bundestagswahl / Wahlkampf Ja

26 Syrien / Vernichtung / Vereinte Nationen / USA / Washington Ja

22 Entschädigung / Euro / Bundesgerichtshof / Urteil / Kläger Ja

18 Präsident / Hassan Rowhani / USA / Regierung / Washington Ja

15 FDP / CDU / SPD / Berlin / Bundestagswahl Ja

Slide 14

Struktur

Motivation, Probleme und Ziele

Topic/S Workflow

Demo

Zusammenfassung

Montag, 23.09.2013 Topic/S @ LSWT Slide 15

Live Demo

Montag, 23.09.2013 Topic/S @ LSWT Slide 16

Struktur

Motivation, Probleme und Ziele

Topic/S Workflow

Demo

Zusammenfassung

Montag, 23.09.2013 Topic/S @ LSWT Slide 17

Sum it up! Ergebnis Themenerkennung und Präsentation

gegenüber dem Redakteur Lessons learned NER: Schlecht für Non-English,

Kombination notwendig Stete Modeloptimierung hinsichtlich

der Anfragen Spezielle UI notwendig Mögliche, nächste Schritte „Vorhersage“ von Themen aufgrund

von kausalen und temporalen Beziehungen

Montag, 23.09.2013 Topic/S @ LSWT Slide 18

Quelle: ooltapulta.com

http://www.w3.org/community/swisig/

Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677

http://topic-s.de/

Danke! Fragen?

http://topic-s.de/

Quellen [Voigt2012] Voigt, M., Mitschick, A. & Schulz, J.: Yet Another Triple Store Benchmark? Practical Experiences with Real-World Data Proc. of. the 2nd International Workshop on Semantic Digital Archives (SDA), 2012

[Voigt2013] Voigt, M., Aleythe, M. & Wehner, P.: Towards Topics-based, Semantics-assisted News Search. Proceedings of the 3rd International Conference on Web Intelligence, Mining and Semantics (WIMS'13), ACM,2013

Montag, 23.09.2013 Topic/S @ LSWT Slide 20