Einführung in die semantische Suche in Massendaten

Post on 01-Jul-2015

224 views 1 download

description

German only! Meine Folien des Einführungsvortrags für Nicht-Informatiker bei der BDK-Fachtagung "Auswertung von Massendaten" zum Thema semantische Suche an der Polizei Fachhochschule Brandenburg. Inhalte: 1) Probleme heutiger Suchtechnologien, 2) Überblick zu semantischen Technologien, 3) Verbesserung des Information Retrieval durch Semantik https://www.bdk.de/der-bdk/aktuelles/bdk-fachtagung-auswertung-von-massendaten

Transcript of Einführung in die semantische Suche in Massendaten

Einführung in die intelligente

Suche in MassendatenBDK-Fachtagung "Auswertung von Massendaten"

Martin Voigt

Oktober 2014

1

Query Construction

QueryProcessing

Result Presentation

QueryRefinement

Keywords Keywords ++ Natural Language Formal Query Languages

IR-based Matching & Ranking

KB-based Matching & Iinferencing

Query Visualization Document & Data

Presentation Summarization

Implicit Feedback Explicit Feedback Incentives

Semantic Models Real World Resources

Wer ich bin.

(Wiss. Mitarbeiter &) Doktorand @ TU Dresden

Komposite Webanwendungen / Mashups

Semantische Technologien, NLP, Topic Mining

Informationsvisualisierung & HCI

Sen. Researcher & Projektleiter @ Ontos

Linked Data Anwendungen für Endnutzer

2

Data Upload & Augmentation

Data Pre-Selection

Data & VisSelection

Visualization Configuration

Interpretation & Internalization

Data Augmentation

Visualization Recommendation

Visualization Integration

Knowledge Externalization

Data Reduction

Syst

em

Use

r

Human Action

System Action

31 5 7 9

2 4 6 8 10

Interaction

Wer ist Ontos.

3

3

DoW – CTI Project

Ontos Group

Key Facts- Established 2001

- 15+ employees

- Share in Eventos RU

(30 people)

- 5± Mio CHF turnover

Industry- Media/News

- Law Enforcement

- Government

- Switzerland

- (Russia)

Agenda

Probleme heutiger Suchtechnologien

Things, not Strings: Semantik!

Intelligente, semantische Suche

Zusammenfassung

4

Heutige Suchtechnologien …

… und deren Probleme

5

Daten, Daten, Daten, …

6

http://www.csc.com/insights/flxwd/78931-big_data_growth_just_beginning_to_explode

Daten, Daten, Daten, …

7

http://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm

Daten, Daten, Daten, …

Probleme mit den Daten („4 Vs”)

Datenmenge (Volumen)

Datenvielfalt / -heterogenität (Variety)

8

http://www.ibmbigdatahub.com/infographic/four-vs-big-data

Daten, Daten, Daten, …

Probleme mit den Daten („4 Vs”)

Datenmenge (Volumen)

Datenvielfalt / -heterogenität (Variety)

Geschwindigkeit (Velocity)

9

http://www.ibmbigdatahub.com/infographic/four-vs-big-data

Daten, Daten, Daten, …

Probleme mit den Daten („4 Vs”)

Datenmenge (Volumen)

Datenvielfalt / -heterogenität (Variety)

Geschwindigkeit (Velocity)

Datenqualität (Veracity)

10

http://www.ibmbigdatahub.com/infographic/four-vs-big-data

Daten, Daten, Daten, …

… und der Mensch?

11

Key et al: VizDeck: self-organizing dashboards for visual analytics.Procs. of the 2012 ACM SIGMOD International Conference on Management of Data, ACM, 2012.

Suchmaschinen!

Desktop, Web, Intranet, Smartphone, …

12

Klassisches Information Retrieval

Ziel: Erzeugung einer gewichteten Ergebnisliste

unter Verwendung versch. Algorithmen (TFIDF,

PageRank, …)

ggf. Nutzung von

Personalisierung

Facettierung

multimediale Ergebnisse

13

http://www.photocase.de/foto/187761

Klassisches Information Retrieval

Funktionsweise von IR

14

Suchanfrage Dokumente

Index

Suchterme Schlüsselwörter

Ergebnisse http://www.photocase.de/foto/140872

http://www.photocase.de/foto/109526

Klassisches Information Retrieval

15

Dominik Kuropka: Modelle zur Repräsentation natürlichsprachlicher Dokumente.

Ontologie-basiertes Information-Filtering und –Retrieval mit relationalen Datenbanken.

In Advances in Information Systems and Management Science, Bd.10, 2004, 3-8325-0514-8

Suchmaschinen im Web

3 wesentliche Aufgaben

Crawlen

Verarbeiten der Suchanfrage (IR + Rangfolge)

Darstellung der Ergebnisse

16

http://www.photocase.de/stock-fotos/118186

http://www.photocase.de/stock-fotos/184687

Multimedia Daten

17

Folie aushttp://de.slideshare.net/lysander07/semantic-analysis-of-video-data-to-enable-exploratory-search

Multimedia Daten

18

Folie aushttp://de.slideshare.net/lysander07/semantic-analysis-of-video-data-to-enable-exploratory-search

Probleme der Suche

Stichwortsuche statt semantische Fragen

Menschen verlernen das Fragen!

19

Probleme der Suche

Verschiedene Sprachen

20

Probleme der Suche

Homonyme, z.B. Bank & Bank

21

Probleme der Suche

Synonyme, z.B. Franz Beckenbauer & Kaiser

22

Probleme der Suche

Subjektivität der Suche

23

Zusammenfassung

Grundproblem: 4 „V“ der Daten

Information Retrieval etabliert

Maschinelles Lernen hunderter von Dimensionen

über ca. 45 Mrd. Dokumente (http://www.worldwidewebsize.com/)

große Investitionen in Rechenkraft

Bleibende Herausforderungen beziehen sich

insbesondere auf die Modellierung

menschlicher Wahrnehmung

24

Things, not Strings!

Wie Semantik die Suche verbessert…

25

Das Verständnisproblem

26

<html>

<b>Dr. Mark

Smith</b>

<i>Physician</i>

Main St. 14

Smalltown

Mon-Fri 9-11 am

Wed 3-6 pm

</html>

Dr. Mark SmithPhysician

Main St. 14

Smalltown

Mon-Fri 9-11 am

Wed 3-6 pm

Print in bold: „hmf298hmhudsa“

Print in italics: „mj2i9ji0“

Print normal: „fdsah

02hfadsh0um2m0adsmf0ih

m2mjpoimjiofdpmsajiomjm“

http://www.photocase.de/stock-fotos/279931

Das Verständnisproblem

Volltextsuche mit klassischem IR

„Mark Smith“

„Physician in Smalltown“

„Doctor in Smalltown“

„Physician in Smalltown with

opening hours on

Wednesday afternoon“

Informationen nicht

„maschinenverstehbar“

27

<html>…

<b>Dr. Mark

Smith</b>

<i>Physician</i>

Main St. 14

Smalltown

Mon-Fri 9-11 amWed 3-6 pm

</html>

Lösungsansatz: Semantic Web

Viele Namen…

Semantic Web

Web of Data

Data Web

Web 3.0

Linked Data

Linked Data Web

Linked Open Data

Semantic Data

28

http://geekandpoke.typepad.com/geekandpoke/

Lösungsansatz: Semantic Web

Zwei wesentliche Sichten

1) Explizite Links zwischen Daten im WWW

Semantic Web als „Web der Daten“

2) Familie standardisierter Technologien, die gut

zusammenspielen, u.a. flexibles Datenmodel (RDF),

Ontologiesprachen (RDFS, OWL), Anfragesprache

(SPARQL), …

Fazit: neue Lösungen/Anwendungen, die

vorher nicht möglichen oder praktikabel

waren (http://www.thefigtrees.net/lee/blog/2011/08/why_semantic_web_technologies)

29

Grundlagen / Prinzipien

HTTP URIs als Bezeichner für „Dinge“, so dass man nachschauen kann Ressourcen

http://www.bbc.co.uk/nature/life/Gray_Wolf

30

Grundlagen / Prinzipien

Verknüpfe Ressourcen untereinander Triple

Schaffung von Kontext

31

http://www.bbc.co.uk/nature/life/Gray_Wolf

http://www.bbc.co.uk/nature/life/Mammal

http://www.bbc.co.uk/nature/habitats/Temperate_broadleaf_and_mixed_forests

is a

lives in

Grundlagen / Prinzipien

Verknüpfe externe Datenquellen

Zusatzinformationen integrieren

32

Linked Open Daten Cloud

33

http://lod-cloud.net/

LOD Knowledge Graphs

LOD in Zahlen (2014) http://linkeddatacatalog.dws.informatik.uni-mannheim.de/state/

1014 Datensätze in RDF

aber nur ca. 8% mit Lizenz!

DBpedia als „Herz“ (http://blog.dbpedia.org/category/dataset-releases/)

4,58 Mio „Dinge“ und ca. 3 Mrd. Triple

LOD als Basis für Wissensgraphen

„Knowledge Graph“ (Google, Yahoo), Satori (Bing)

34

http://lod-cloud.net/

Intelligente, semantische Suche

35

Semantische Suche

„Semantic search over documents is about

finding information that is not based just on the

presence of words, but also on their meaning“(http://link.springer.com/chapter/10.1007%2F978-3-642-54798-0_2)

Kombination von Text mit „Wissensstrukturen“

Entität-zentrierte Suche

Kombination verschiedener Techniken

Information Retrieval (IR)

Natural Language Processing (NLP)

Semantic Web (SW)

36

Suchprozess im Überblick

37

Query Construction

QueryProcessing

Result Presentation

QueryRefinement

Keywords Keywords ++ Natural Language Formal Query Languages

IR-based Matching & Ranking

KB-based Matching & Iinferencing

Query Visualization Document & Data

Presentation Summarization

Implicit Feedback Explicit Feedback Incentives

Semantic Models Real World Resources

Basis: Entity Linking

Wechselseitige Verknüpfung von „Ressourcen“

mit ihrer semantischer Repräsentation

Named Entity Recognition (NER)

Entweder basierend auf Regeln, Statistiken oder

Wörterbüchern (oder Kombination)

Named Entity Disambiguation (NED)

Nutzung des Kontextes im Vektorraum und/oder im Wissensgraphen Relatedness

38

Basis: Entity Linking

auch in Metadaten von Multimedia

39

Folie aushttp://de.slideshare.net/lysander07/semantic-analysis-of-video-data-to-enable-exploratory-search

Suchprozess im Überblick

40

Query Construction

QueryProcessing

Result Presentation

QueryRefinement

Keywords Keywords ++ Natural Language Formal Query Languages

IR-based Matching & Ranking

KB-based Matching & Iinferencing

Query Visualization Document & Data

Presentation Summarization

Implicit Feedback Explicit Feedback Incentives

Semantic Models Real World Resources

Anfragen & Semantik

Stichwortsuche (Keywords)

Paradigma der „Single Search Box“

vom Stil eher telegraphisch, z.B. keine Grammatik

wie aus der Einleitung

Erweiterte Stichwortsuche (Keywords ++)

Stichwort mit Kontext

Bsp.:

typisierte Formularfelder

Facettierte Suche

Ortsauswahl in Karte

41

http://www.ebay.de

Anfragen & Semantik

Erweiterte Stichwortsuche (Keywords ++)

Amazon Stichworterweiterung & Facetten

42

Anfragen & Semantik

Erweiterte Stichwortsuche (Keywords ++)

Ontos: Facettierung bei Suche in Spezifikationen

43

Anfragen & Semantik

Natürlichsprachige Anfragen

Eingabe geschriebener und gesprochener Sprache

Ziel: „menschlichere“ Suche

Beispiele für geschriebene Anfrage

Google

45

Anfragen & Semantik

gesprochene Anfragen

„On-the-go“ Suche zwingt freie Hände

ca. 30% der Autofahrer lesen/schreiben

Textnachrichten beim Fahren! (http://www.cdc.gov/mmwr/preview/mmwrhtml/mm6210a1.htm)

46

http://enterprisematters.blogs.xerox.com

http://grist.org/

http://waz.m.derwesten.de

Anfragen & Semantik

Natürlichsprachige Anfragen, z.B.

Apple‘s Siri (http://searchengineland.com)

47

Suchprozess im Überblick

48

Query Construction

QueryProcessing

Result Presentation

QueryRefinement

Keywords Keywords ++ Natural Language Formal Query Languages

IR-based Matching & Ranking

KB-based Matching & Iinferencing

Query Visualization Document & Data

Presentation Summarization

Implicit Feedback Explicit Feedback Incentives

Semantic Models Real World Resources

Verarbeitung & Semantik

Entitäten sind wichtig für Anfragen:

ca. 70% mit Named Entitys (NE) (entity mention

queries), z. B. “brad pitt Katie holmes”

ca. 50% mit Fokus auf eine NE (entity seeking

queries), z. B. “brad pitt attacked by fans”

ca. 10% suchen nach Klassen von NEs, z. B. “brad

pitt movies”

49

• Jeffrey Pound, Peter Mika, Hugo Zaragoza:

Ad-hoc object retrieval in the web of data. WWW 2010: 771-780

• Thomas Lin, Patrick Pantel, Michael Gamon, Anitha Kannan, Ariel Fuxman:

Active objects: actions for entity-centric search. WWW 2012: 589-598

Verarbeitung & Semantik

Ziel: Entity Linking der Query Abgleich mit

Entitäten in den Dokumenten

Gutes Tutorial: http://ejmeij.github.io/entity-linking-

and-retrieval-tutorial/

Vorgehen

1) „Linkbare“ Phrasen identifizieren

50

„Golf vergleichen Deutschland“

Verarbeitung & Semantik

Vorgehen

2) Identifikation,

Rangfolge und

Selektion von Links

51

„Deutschland“

„Golf“

Verarbeitung & Semantik

Vorgehen

3) Disambiguierung durch Kontext (optional)

52

Verarbeitung & Semantik

Vorgehen

3) Disambiguierung durch Kontext (optional)

53

Suchprozess im Überblick

54

Query Construction

QueryProcessing

Result Presentation

QueryRefinement

Keywords Keywords ++ Natural Language Formal Query Languages

IR-based Matching & Ranking

KB-based Matching & Iinferencing

Query Visualization Document & Data

Presentation Summarization

Implicit Feedback Explicit Feedback Incentives

Semantic Models Real World Resources

Präsentation & Semantik

Ziele: 1) Anfrage visualisieren, 2) Ergebnisse &

Zusatzinformationen präsentieren und ggf. 3)

Zusammenfassungen erstellen

User Interfaces

Rich Result Pages

Direct Display

neuartige User Interfaces

55

Präsentation & Semantik

Rich Result Pages: Google Knowledge Graph

56

Präsentation & Semantik

Rich Result Pages: Google Knowledge Graph

57

Präsentation & Semantik

Rich Result Pages: Ontos für „Cash“-Magazin

58

Präsentation & Semantik

Direct Display: Google Knowledge Graph

59

Präsentation & Semantik

Direct Display: WolframAlpha

60

http://www.wolframalpha.com/input/?i=oranienburg

Präsentation & Semantik

Künftige UIs: „getInspired“

61

Keck et al. - Visual Innovations for Product Search Interfaces. Informatik 2014.

http://www.visea-projekt.de/

Semantische Suche @ Ontos

62

Eventos (IR)- Information Retrieval (Algebra)

- Clustering & Summarization

- Identifikation von „Story Lines“

OntosMiner (NLP)- Entity Linking

- Regel- & Wörterbuch-basiert- Semantische Annotation (RDF)

OntoQUAD

- RDF / Graph Store (Unix, Android)- Triple & Quadruple

- SPARQL 1.1

Semantische Suche @ Ontos

63

Beispiel: IBM Watson

Ziel: Cognitive Computing

Open Domain Frage-Antwort-System

Fragen verstehen & antworten

Wahrscheinlichkeiten für Antworten

Erläuterung warum Antwort korrekt

Schnell: Antwort in < 3s

Evaluation: Jeopardy gegen die Besten

64

http://de.slideshare.net/knoesis/knoesis2013

Beispiel: IBM Watson

65

http://de.slideshare.net/knoesis/knoesis2013

Beispiel: Google Glass

Head Mounted Displays (HMD) sind Realität!

Augmentierung der Realität Informieren

statt Suchen

Infos: https://www.google.com/glass/start/

66

Beispiel: Google Glass

67

Aktuelle F&E-Fragen

kaum Lokale Entitäten Erweiterung der LOD

notwendig

(Erläuterung) der Herkunft der Informationen

68

Offene F&E-Fragen

Aktualität semantischer Daten

69

Offene F&E-Fragen

Automatische Zusammenfassung von Ergebnissen zu „Stories“ „Robot Journalism“

70

Merge

Analyse

Linked Data Set

Features

Phrase Selection Phrase

Template Inclusion

First Text

NL Generation & Cleaning

Text

http://www.slate.com/blogs/future_tense/2014/03/17/

quakebot_los_angeles_times_robot_journalist_writes_article_on_la_earthquake.html

Zusammenfassung

71

Was nehme ich mit?

Information Retrieval etabliert

Verbesserung der Suche nur durch

Modellierung menschlicher Wahrnehmung

Nutzung semantischer Technologien und

Wissenbasen vielversprechend

Trend zur „natürlichen Kommunikation“ mit

Maschine

72

Was nehme ich mit?

“When we started Google 15 years ago my

vision was that information would come to you

as you need it. You wouldn’t have to search

query at all.”

Sergey Brin, Google

73

http://blog.ted.com/2013/02/27/sergey-brin-with-google-glass-at-ted2013/

Q&A

Martin Voigt

Ontos AG / GmbH

Nidau (CH) / Leipzig (DE)

T: +49 341 21559-10

M: +49 178 40 222 58

E: martin.voigt@ontos.com

74

https://twitter.com/m_a_r_t_i_n

https://www.xing.com/profile/Martin_Voigt12

http://de.linkedin.com/pub/martin-voigt/9/3a0/64b/