Einführung in die semantische Suche in Massendaten

73
Einführung in die intelligente Suche in Massendaten BDK-Fachtagung "Auswertung von Massendaten" Martin Voigt Oktober 2014 1 Query Construction Query Processing Result Presentation Query Refinement Keywords Keywords ++ Natural Language Formal Query Languages IR-based Matching & Ranking KB-based Matching & Iinferencing Query Visualization Document & Data Presentation Summarization Implicit Feedback Explicit Feedback Incentives Semantic Models Real World Resources

description

German only! Meine Folien des Einführungsvortrags für Nicht-Informatiker bei der BDK-Fachtagung "Auswertung von Massendaten" zum Thema semantische Suche an der Polizei Fachhochschule Brandenburg. Inhalte: 1) Probleme heutiger Suchtechnologien, 2) Überblick zu semantischen Technologien, 3) Verbesserung des Information Retrieval durch Semantik https://www.bdk.de/der-bdk/aktuelles/bdk-fachtagung-auswertung-von-massendaten

Transcript of Einführung in die semantische Suche in Massendaten

Page 1: Einführung in die semantische Suche in Massendaten

Einführung in die intelligente

Suche in MassendatenBDK-Fachtagung "Auswertung von Massendaten"

Martin Voigt

Oktober 2014

1

Query Construction

QueryProcessing

Result Presentation

QueryRefinement

Keywords Keywords ++ Natural Language Formal Query Languages

IR-based Matching & Ranking

KB-based Matching & Iinferencing

Query Visualization Document & Data

Presentation Summarization

Implicit Feedback Explicit Feedback Incentives

Semantic Models Real World Resources

Page 2: Einführung in die semantische Suche in Massendaten

Wer ich bin.

(Wiss. Mitarbeiter &) Doktorand @ TU Dresden

Komposite Webanwendungen / Mashups

Semantische Technologien, NLP, Topic Mining

Informationsvisualisierung & HCI

Sen. Researcher & Projektleiter @ Ontos

Linked Data Anwendungen für Endnutzer

2

Data Upload & Augmentation

Data Pre-Selection

Data & VisSelection

Visualization Configuration

Interpretation & Internalization

Data Augmentation

Visualization Recommendation

Visualization Integration

Knowledge Externalization

Data Reduction

Syst

em

Use

r

Human Action

System Action

31 5 7 9

2 4 6 8 10

Interaction

Page 3: Einführung in die semantische Suche in Massendaten

Wer ist Ontos.

3

3

DoW – CTI Project

Ontos Group

Key Facts- Established 2001

- 15+ employees

- Share in Eventos RU

(30 people)

- 5± Mio CHF turnover

Industry- Media/News

- Law Enforcement

- Government

- Switzerland

- (Russia)

Page 4: Einführung in die semantische Suche in Massendaten

Agenda

Probleme heutiger Suchtechnologien

Things, not Strings: Semantik!

Intelligente, semantische Suche

Zusammenfassung

4

Page 5: Einführung in die semantische Suche in Massendaten

Heutige Suchtechnologien …

… und deren Probleme

5

Page 6: Einführung in die semantische Suche in Massendaten

Daten, Daten, Daten, …

6

http://www.csc.com/insights/flxwd/78931-big_data_growth_just_beginning_to_explode

Page 7: Einführung in die semantische Suche in Massendaten

Daten, Daten, Daten, …

7

http://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm

Page 8: Einführung in die semantische Suche in Massendaten

Daten, Daten, Daten, …

Probleme mit den Daten („4 Vs”)

Datenmenge (Volumen)

Datenvielfalt / -heterogenität (Variety)

8

http://www.ibmbigdatahub.com/infographic/four-vs-big-data

Page 9: Einführung in die semantische Suche in Massendaten

Daten, Daten, Daten, …

Probleme mit den Daten („4 Vs”)

Datenmenge (Volumen)

Datenvielfalt / -heterogenität (Variety)

Geschwindigkeit (Velocity)

9

http://www.ibmbigdatahub.com/infographic/four-vs-big-data

Page 10: Einführung in die semantische Suche in Massendaten

Daten, Daten, Daten, …

Probleme mit den Daten („4 Vs”)

Datenmenge (Volumen)

Datenvielfalt / -heterogenität (Variety)

Geschwindigkeit (Velocity)

Datenqualität (Veracity)

10

http://www.ibmbigdatahub.com/infographic/four-vs-big-data

Page 11: Einführung in die semantische Suche in Massendaten

Daten, Daten, Daten, …

… und der Mensch?

11

Key et al: VizDeck: self-organizing dashboards for visual analytics.Procs. of the 2012 ACM SIGMOD International Conference on Management of Data, ACM, 2012.

Page 12: Einführung in die semantische Suche in Massendaten

Suchmaschinen!

Desktop, Web, Intranet, Smartphone, …

12

Page 13: Einführung in die semantische Suche in Massendaten

Klassisches Information Retrieval

Ziel: Erzeugung einer gewichteten Ergebnisliste

unter Verwendung versch. Algorithmen (TFIDF,

PageRank, …)

ggf. Nutzung von

Personalisierung

Facettierung

multimediale Ergebnisse

13

http://www.photocase.de/foto/187761

Page 14: Einführung in die semantische Suche in Massendaten

Klassisches Information Retrieval

Funktionsweise von IR

14

Suchanfrage Dokumente

Index

Suchterme Schlüsselwörter

Ergebnisse http://www.photocase.de/foto/140872

http://www.photocase.de/foto/109526

Page 15: Einführung in die semantische Suche in Massendaten

Klassisches Information Retrieval

15

Dominik Kuropka: Modelle zur Repräsentation natürlichsprachlicher Dokumente.

Ontologie-basiertes Information-Filtering und –Retrieval mit relationalen Datenbanken.

In Advances in Information Systems and Management Science, Bd.10, 2004, 3-8325-0514-8

Page 16: Einführung in die semantische Suche in Massendaten

Suchmaschinen im Web

3 wesentliche Aufgaben

Crawlen

Verarbeiten der Suchanfrage (IR + Rangfolge)

Darstellung der Ergebnisse

16

http://www.photocase.de/stock-fotos/118186

http://www.photocase.de/stock-fotos/184687

Page 17: Einführung in die semantische Suche in Massendaten

Multimedia Daten

17

Folie aushttp://de.slideshare.net/lysander07/semantic-analysis-of-video-data-to-enable-exploratory-search

Page 18: Einführung in die semantische Suche in Massendaten

Multimedia Daten

18

Folie aushttp://de.slideshare.net/lysander07/semantic-analysis-of-video-data-to-enable-exploratory-search

Page 19: Einführung in die semantische Suche in Massendaten

Probleme der Suche

Stichwortsuche statt semantische Fragen

Menschen verlernen das Fragen!

19

Page 20: Einführung in die semantische Suche in Massendaten

Probleme der Suche

Verschiedene Sprachen

20

Page 21: Einführung in die semantische Suche in Massendaten

Probleme der Suche

Homonyme, z.B. Bank & Bank

21

Page 22: Einführung in die semantische Suche in Massendaten

Probleme der Suche

Synonyme, z.B. Franz Beckenbauer & Kaiser

22

Page 23: Einführung in die semantische Suche in Massendaten

Probleme der Suche

Subjektivität der Suche

23

Page 24: Einführung in die semantische Suche in Massendaten

Zusammenfassung

Grundproblem: 4 „V“ der Daten

Information Retrieval etabliert

Maschinelles Lernen hunderter von Dimensionen

über ca. 45 Mrd. Dokumente (http://www.worldwidewebsize.com/)

große Investitionen in Rechenkraft

Bleibende Herausforderungen beziehen sich

insbesondere auf die Modellierung

menschlicher Wahrnehmung

24

Page 25: Einführung in die semantische Suche in Massendaten

Things, not Strings!

Wie Semantik die Suche verbessert…

25

Page 26: Einführung in die semantische Suche in Massendaten

Das Verständnisproblem

26

<html>

<b>Dr. Mark

Smith</b>

<i>Physician</i>

Main St. 14

Smalltown

Mon-Fri 9-11 am

Wed 3-6 pm

</html>

Dr. Mark SmithPhysician

Main St. 14

Smalltown

Mon-Fri 9-11 am

Wed 3-6 pm

Print in bold: „hmf298hmhudsa“

Print in italics: „mj2i9ji0“

Print normal: „fdsah

02hfadsh0um2m0adsmf0ih

m2mjpoimjiofdpmsajiomjm“

http://www.photocase.de/stock-fotos/279931

Page 27: Einführung in die semantische Suche in Massendaten

Das Verständnisproblem

Volltextsuche mit klassischem IR

„Mark Smith“

„Physician in Smalltown“

„Doctor in Smalltown“

„Physician in Smalltown with

opening hours on

Wednesday afternoon“

Informationen nicht

„maschinenverstehbar“

27

<html>…

<b>Dr. Mark

Smith</b>

<i>Physician</i>

Main St. 14

Smalltown

Mon-Fri 9-11 amWed 3-6 pm

</html>

Page 28: Einführung in die semantische Suche in Massendaten

Lösungsansatz: Semantic Web

Viele Namen…

Semantic Web

Web of Data

Data Web

Web 3.0

Linked Data

Linked Data Web

Linked Open Data

Semantic Data

28

http://geekandpoke.typepad.com/geekandpoke/

Page 29: Einführung in die semantische Suche in Massendaten

Lösungsansatz: Semantic Web

Zwei wesentliche Sichten

1) Explizite Links zwischen Daten im WWW

Semantic Web als „Web der Daten“

2) Familie standardisierter Technologien, die gut

zusammenspielen, u.a. flexibles Datenmodel (RDF),

Ontologiesprachen (RDFS, OWL), Anfragesprache

(SPARQL), …

Fazit: neue Lösungen/Anwendungen, die

vorher nicht möglichen oder praktikabel

waren (http://www.thefigtrees.net/lee/blog/2011/08/why_semantic_web_technologies)

29

Page 30: Einführung in die semantische Suche in Massendaten

Grundlagen / Prinzipien

HTTP URIs als Bezeichner für „Dinge“, so dass man nachschauen kann Ressourcen

http://www.bbc.co.uk/nature/life/Gray_Wolf

30

Page 31: Einführung in die semantische Suche in Massendaten

Grundlagen / Prinzipien

Verknüpfe Ressourcen untereinander Triple

Schaffung von Kontext

31

http://www.bbc.co.uk/nature/life/Gray_Wolf

http://www.bbc.co.uk/nature/life/Mammal

http://www.bbc.co.uk/nature/habitats/Temperate_broadleaf_and_mixed_forests

is a

lives in

Page 32: Einführung in die semantische Suche in Massendaten

Grundlagen / Prinzipien

Verknüpfe externe Datenquellen

Zusatzinformationen integrieren

32

Page 33: Einführung in die semantische Suche in Massendaten

Linked Open Daten Cloud

33

http://lod-cloud.net/

Page 34: Einführung in die semantische Suche in Massendaten

LOD Knowledge Graphs

LOD in Zahlen (2014) http://linkeddatacatalog.dws.informatik.uni-mannheim.de/state/

1014 Datensätze in RDF

aber nur ca. 8% mit Lizenz!

DBpedia als „Herz“ (http://blog.dbpedia.org/category/dataset-releases/)

4,58 Mio „Dinge“ und ca. 3 Mrd. Triple

LOD als Basis für Wissensgraphen

„Knowledge Graph“ (Google, Yahoo), Satori (Bing)

34

http://lod-cloud.net/

Page 35: Einführung in die semantische Suche in Massendaten

Intelligente, semantische Suche

35

Page 36: Einführung in die semantische Suche in Massendaten

Semantische Suche

„Semantic search over documents is about

finding information that is not based just on the

presence of words, but also on their meaning“(http://link.springer.com/chapter/10.1007%2F978-3-642-54798-0_2)

Kombination von Text mit „Wissensstrukturen“

Entität-zentrierte Suche

Kombination verschiedener Techniken

Information Retrieval (IR)

Natural Language Processing (NLP)

Semantic Web (SW)

36

Page 37: Einführung in die semantische Suche in Massendaten

Suchprozess im Überblick

37

Query Construction

QueryProcessing

Result Presentation

QueryRefinement

Keywords Keywords ++ Natural Language Formal Query Languages

IR-based Matching & Ranking

KB-based Matching & Iinferencing

Query Visualization Document & Data

Presentation Summarization

Implicit Feedback Explicit Feedback Incentives

Semantic Models Real World Resources

Page 38: Einführung in die semantische Suche in Massendaten

Basis: Entity Linking

Wechselseitige Verknüpfung von „Ressourcen“

mit ihrer semantischer Repräsentation

Named Entity Recognition (NER)

Entweder basierend auf Regeln, Statistiken oder

Wörterbüchern (oder Kombination)

Named Entity Disambiguation (NED)

Nutzung des Kontextes im Vektorraum und/oder im Wissensgraphen Relatedness

38

Page 39: Einführung in die semantische Suche in Massendaten

Basis: Entity Linking

auch in Metadaten von Multimedia

39

Folie aushttp://de.slideshare.net/lysander07/semantic-analysis-of-video-data-to-enable-exploratory-search

Page 40: Einführung in die semantische Suche in Massendaten

Suchprozess im Überblick

40

Query Construction

QueryProcessing

Result Presentation

QueryRefinement

Keywords Keywords ++ Natural Language Formal Query Languages

IR-based Matching & Ranking

KB-based Matching & Iinferencing

Query Visualization Document & Data

Presentation Summarization

Implicit Feedback Explicit Feedback Incentives

Semantic Models Real World Resources

Page 41: Einführung in die semantische Suche in Massendaten

Anfragen & Semantik

Stichwortsuche (Keywords)

Paradigma der „Single Search Box“

vom Stil eher telegraphisch, z.B. keine Grammatik

wie aus der Einleitung

Erweiterte Stichwortsuche (Keywords ++)

Stichwort mit Kontext

Bsp.:

typisierte Formularfelder

Facettierte Suche

Ortsauswahl in Karte

41

http://www.ebay.de

Page 42: Einführung in die semantische Suche in Massendaten

Anfragen & Semantik

Erweiterte Stichwortsuche (Keywords ++)

Amazon Stichworterweiterung & Facetten

42

Page 43: Einführung in die semantische Suche in Massendaten

Anfragen & Semantik

Erweiterte Stichwortsuche (Keywords ++)

Ontos: Facettierung bei Suche in Spezifikationen

43

Page 44: Einführung in die semantische Suche in Massendaten

Anfragen & Semantik

Natürlichsprachige Anfragen

Eingabe geschriebener und gesprochener Sprache

Ziel: „menschlichere“ Suche

Beispiele für geschriebene Anfrage

Google

45

Page 45: Einführung in die semantische Suche in Massendaten

Anfragen & Semantik

gesprochene Anfragen

„On-the-go“ Suche zwingt freie Hände

ca. 30% der Autofahrer lesen/schreiben

Textnachrichten beim Fahren! (http://www.cdc.gov/mmwr/preview/mmwrhtml/mm6210a1.htm)

46

http://enterprisematters.blogs.xerox.com

http://grist.org/

http://waz.m.derwesten.de

Page 46: Einführung in die semantische Suche in Massendaten

Anfragen & Semantik

Natürlichsprachige Anfragen, z.B.

Apple‘s Siri (http://searchengineland.com)

47

Page 47: Einführung in die semantische Suche in Massendaten

Suchprozess im Überblick

48

Query Construction

QueryProcessing

Result Presentation

QueryRefinement

Keywords Keywords ++ Natural Language Formal Query Languages

IR-based Matching & Ranking

KB-based Matching & Iinferencing

Query Visualization Document & Data

Presentation Summarization

Implicit Feedback Explicit Feedback Incentives

Semantic Models Real World Resources

Page 48: Einführung in die semantische Suche in Massendaten

Verarbeitung & Semantik

Entitäten sind wichtig für Anfragen:

ca. 70% mit Named Entitys (NE) (entity mention

queries), z. B. “brad pitt Katie holmes”

ca. 50% mit Fokus auf eine NE (entity seeking

queries), z. B. “brad pitt attacked by fans”

ca. 10% suchen nach Klassen von NEs, z. B. “brad

pitt movies”

49

• Jeffrey Pound, Peter Mika, Hugo Zaragoza:

Ad-hoc object retrieval in the web of data. WWW 2010: 771-780

• Thomas Lin, Patrick Pantel, Michael Gamon, Anitha Kannan, Ariel Fuxman:

Active objects: actions for entity-centric search. WWW 2012: 589-598

Page 49: Einführung in die semantische Suche in Massendaten

Verarbeitung & Semantik

Ziel: Entity Linking der Query Abgleich mit

Entitäten in den Dokumenten

Gutes Tutorial: http://ejmeij.github.io/entity-linking-

and-retrieval-tutorial/

Vorgehen

1) „Linkbare“ Phrasen identifizieren

50

„Golf vergleichen Deutschland“

Page 50: Einführung in die semantische Suche in Massendaten

Verarbeitung & Semantik

Vorgehen

2) Identifikation,

Rangfolge und

Selektion von Links

51

„Deutschland“

„Golf“

Page 51: Einführung in die semantische Suche in Massendaten

Verarbeitung & Semantik

Vorgehen

3) Disambiguierung durch Kontext (optional)

52

Page 52: Einführung in die semantische Suche in Massendaten

Verarbeitung & Semantik

Vorgehen

3) Disambiguierung durch Kontext (optional)

53

Page 53: Einführung in die semantische Suche in Massendaten

Suchprozess im Überblick

54

Query Construction

QueryProcessing

Result Presentation

QueryRefinement

Keywords Keywords ++ Natural Language Formal Query Languages

IR-based Matching & Ranking

KB-based Matching & Iinferencing

Query Visualization Document & Data

Presentation Summarization

Implicit Feedback Explicit Feedback Incentives

Semantic Models Real World Resources

Page 54: Einführung in die semantische Suche in Massendaten

Präsentation & Semantik

Ziele: 1) Anfrage visualisieren, 2) Ergebnisse &

Zusatzinformationen präsentieren und ggf. 3)

Zusammenfassungen erstellen

User Interfaces

Rich Result Pages

Direct Display

neuartige User Interfaces

55

Page 55: Einführung in die semantische Suche in Massendaten

Präsentation & Semantik

Rich Result Pages: Google Knowledge Graph

56

Page 56: Einführung in die semantische Suche in Massendaten

Präsentation & Semantik

Rich Result Pages: Google Knowledge Graph

57

Page 57: Einführung in die semantische Suche in Massendaten

Präsentation & Semantik

Rich Result Pages: Ontos für „Cash“-Magazin

58

Page 58: Einführung in die semantische Suche in Massendaten

Präsentation & Semantik

Direct Display: Google Knowledge Graph

59

Page 59: Einführung in die semantische Suche in Massendaten

Präsentation & Semantik

Direct Display: WolframAlpha

60

http://www.wolframalpha.com/input/?i=oranienburg

Page 60: Einführung in die semantische Suche in Massendaten

Präsentation & Semantik

Künftige UIs: „getInspired“

61

Keck et al. - Visual Innovations for Product Search Interfaces. Informatik 2014.

http://www.visea-projekt.de/

Page 61: Einführung in die semantische Suche in Massendaten

Semantische Suche @ Ontos

62

Eventos (IR)- Information Retrieval (Algebra)

- Clustering & Summarization

- Identifikation von „Story Lines“

OntosMiner (NLP)- Entity Linking

- Regel- & Wörterbuch-basiert- Semantische Annotation (RDF)

OntoQUAD

- RDF / Graph Store (Unix, Android)- Triple & Quadruple

- SPARQL 1.1

Page 62: Einführung in die semantische Suche in Massendaten

Semantische Suche @ Ontos

63

Page 63: Einführung in die semantische Suche in Massendaten

Beispiel: IBM Watson

Ziel: Cognitive Computing

Open Domain Frage-Antwort-System

Fragen verstehen & antworten

Wahrscheinlichkeiten für Antworten

Erläuterung warum Antwort korrekt

Schnell: Antwort in < 3s

Evaluation: Jeopardy gegen die Besten

64

http://de.slideshare.net/knoesis/knoesis2013

Page 64: Einführung in die semantische Suche in Massendaten

Beispiel: IBM Watson

65

http://de.slideshare.net/knoesis/knoesis2013

Page 65: Einführung in die semantische Suche in Massendaten

Beispiel: Google Glass

Head Mounted Displays (HMD) sind Realität!

Augmentierung der Realität Informieren

statt Suchen

Infos: https://www.google.com/glass/start/

66

Page 66: Einführung in die semantische Suche in Massendaten

Beispiel: Google Glass

67

Page 67: Einführung in die semantische Suche in Massendaten

Aktuelle F&E-Fragen

kaum Lokale Entitäten Erweiterung der LOD

notwendig

(Erläuterung) der Herkunft der Informationen

68

Page 68: Einführung in die semantische Suche in Massendaten

Offene F&E-Fragen

Aktualität semantischer Daten

69

Page 69: Einführung in die semantische Suche in Massendaten

Offene F&E-Fragen

Automatische Zusammenfassung von Ergebnissen zu „Stories“ „Robot Journalism“

70

Merge

Analyse

Linked Data Set

Features

Phrase Selection Phrase

Template Inclusion

First Text

NL Generation & Cleaning

Text

http://www.slate.com/blogs/future_tense/2014/03/17/

quakebot_los_angeles_times_robot_journalist_writes_article_on_la_earthquake.html

Page 70: Einführung in die semantische Suche in Massendaten

Zusammenfassung

71

Page 71: Einführung in die semantische Suche in Massendaten

Was nehme ich mit?

Information Retrieval etabliert

Verbesserung der Suche nur durch

Modellierung menschlicher Wahrnehmung

Nutzung semantischer Technologien und

Wissenbasen vielversprechend

Trend zur „natürlichen Kommunikation“ mit

Maschine

72

Page 72: Einführung in die semantische Suche in Massendaten

Was nehme ich mit?

“When we started Google 15 years ago my

vision was that information would come to you

as you need it. You wouldn’t have to search

query at all.”

Sergey Brin, Google

73

http://blog.ted.com/2013/02/27/sergey-brin-with-google-glass-at-ted2013/

Page 73: Einführung in die semantische Suche in Massendaten

Q&A

Martin Voigt

Ontos AG / GmbH

Nidau (CH) / Leipzig (DE)

T: +49 341 21559-10

M: +49 178 40 222 58

E: [email protected]

74

https://twitter.com/m_a_r_t_i_n

https://www.xing.com/profile/Martin_Voigt12

http://de.linkedin.com/pub/martin-voigt/9/3a0/64b/