Einsatz und Nutzen semantischer Technologien im...

43
Einsatz und Nutzen semantischer Technologien im WDB Suchportal für Weiterbildung in Berlin und Brandenburg Dr. Thomas Hoppe [email protected]

Transcript of Einsatz und Nutzen semantischer Technologien im...

Einsatz und Nutzen semantischer

Technologien im WDB Suchportal

für Weiterbildung in Berlin und

Brandenburg

Dr. Thomas Hoppe

[email protected]

Data Science für Unternehmen

Datenanalyse

• Aufbereitung

• Statistische Analyse

• Modellierung

• Visualisierung

• Präsentation

Modellierung

• Mining von

• Daten

• Texten

• Themen

• Modellierung von

• Taxonomien

• Thesauri

• Ontologien

Qualitätssicherung

• Nicht-deterministischer Verfahren & Lösungen

• heuristische

• semantische

• probabilistische

• Analyse

• Validierung

• Evaluation

• Zertifizierung

Inspired by Drew Conway

Fachwissen

Data

Science

Masch.

Lernen/

Data

Mining

Semantik

Sprachgebrauch

Hintergrundwissen

Einsatz

Nutzen

Experiment 1

© CC-BY Jaetographer Flickr

6

7

Menschen erfinden Synonyme

8

BMW

Russfilter

Rußfilter

Dieselfilter

Russpartikelfilter

Dieselrußfilter

Dieselpartikelfilter

Marktforschung

Fernsehgerät

TV-Gerät

Fernsehempfänger

Farbfernseher

Fernseher

Werbung

Werbetext

Copy

Copytext

Weiterbildungs-DB

Fachkraft für Arbeitssicherheit

FaSi

FAS

SiFa

Div. Jobportale

Vertriebsleiter

Leiter Vertrieb

Verkaufsleiter

Sales Director

Sales Manager

VDI-Verlag

Diplom-Ingenieur

Diplom-Ing.

Dipl.-Ingenieur

Dipl.-Ing., Dipl-Ing,

Dipl Ing

WDR Intranet

Kostenerstattung

Aufwandsentschädigung

Aufwendungserstattung

Aufwandserstattung

BMW

Russfilter

Rußfilter

Dieselfilter

Russpartikelfilter

Dieselrußfilter

Dieselpartikelfilter

Weiterbildungs-DB

Fachkraft für Arbeitssicherheit

FaSi

FAS

SiFa

Experiment 2

© CC-BY Jaetographer Flickr

Wie nennen Sie dies?

Wissens-

repräsentation

in der

Realität

© Thomas Hoppe, 2015

Semantik

Sprachgebrauch

Hintergrundwissen

Einsatz

Nutzen

Beobachtung 1

© CC-BY Jaetographer Flickr

Anfragen an die Weiterbildungs-DB

Triebfahrzeugführer

Eisenbahnfahrzeugführer

Triebfahrzeugfahrer

Triebfahrzeugführende (CH)

Lokomotivführer (vera./umg.)

Lokführer (vera./umg.)

Triebwagenfahrzeugführer

• Triebwagenfahrer

• Triebwagenführer

Zahnmedizinischer Fachangestellter

ZFA

Zahnmedizinischer Fachhelfer

Zahnarzthelfer

ZAH

Dental-Assistent (CH)

Stomatologische Schwester (DDR)

Zahnarztgehilfe

Stuhlassistenz

Dental-Fachkraft

Zahnarzthelfer (vera.)

Zahnärztlicher Helfer

Zahnarztfachhelfer

Anfragen an die Weiterbildungs-DB

10-Finger-Tastschreiben

Zehn-Finger-Tastschreiben

10-Finger-Schreiben

Zehnfingerschreiben

Blindschreiben

Tastschreiben

Computerschreiben

Zonenschmelzverfahren

Zonenziehen

Zonenschmelzen

Float-Zone-Verfahren

Fließzonenverfahren

Zonenreinigung

Zonenrandschmelzverfahren

Zonenfloating

Beobachtung 2

© CC-BY Jaetographer Flickr

Deutsche Sprache –

Schwere Sprache

Gabelfahrer

Krakenpflegehelfer

Verkäferin

Krankführer

Scheißerschein

Hautechniker

Steuerbratung

CC-BY-NC Daniele Civello Flickr

Wem gehören

die Suchworte?

keinem …

CC-NC-SA Johnny Peacock Flickr

Unterschiedliche Sprachräume

Interessent

Windkraftkonverter Windenergieanlage Weiterbildungs-DB

Anbieter

Finden und Bereitstellen

“Die Grenzen meiner Sprache

bedeuten die Grenzen meiner Welt.”

Tractatus logico-philosophicus, Ludwig Wittgenstein

22

© EP Photo Service

CC-NC-SA Johnny Peacock Flickr

Übersetzung zw. Sprachräumen

Vokabular Interessent

Windkraftkonverter Windenergieanlage Archiv

Anbieter

Semantik

Sprachgebrauch

Hintergrundwissen

Einsatz

Nutzen

CC-BY Brett Jordan Flickr

Thesaurus = Semantisches Modell

HR Thesaurus ~ 12.800 Begriffe ~ 19.500 Bezeichnungen ~ 26.200 Oberklassenbez. ~ 4.700 Beziehungen ~ 3,25 PM netto

0

100000

200000

300000

400000

500000

600000

700000

800000

2014 2015

An

frag

en

Semantisch ausgewertete Suchen Volltextsuchen (Fallback)

Verteilung der Suchanfragen

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1

56

1

11

16

6

22

1

27

6

33

1

38

6

44

1

49

6

55

1

60

6

66

1

71

6

77

1

82

6

88

1

93

6

99

1

10

46

1

10

1

11

56

12

11

1

26

6

13

21

1

37

6

14

31

14

86

15

41

1

59

6

16

51

1

70

6

17

61

18

16

1

87

1

19

26

19

81

20

36

20

91

2

14

6

22

01

2

25

6

23

11

2

36

6

24

21

24

76

mo

de

llie

rte

Su

chb

egr

iffe

Rang der Anfrage

2014 I/2015 II/2015

Sinkende Wartungsaufwände

Semantik

Sprachgebrauch

Hintergrundwissen

Einsatz

Nutzen

CC-BY-ND Jeffrey Beall Flickr

Semantik

Sprachgebrauch

Hintergrundwissen

Einsatz

Nutzen

Nutzen Semantischer Suche?

Unpassendere oder passendere?

Mehr oder weniger?

Mehr relevante und weniger irrelevante

passendere

Anfrage

68%

17%

7%

Volltextsuche Semantische Suche

Erste 3 SERPs Über alle Ergebnisse

Zeitersparnis durch weniger Treffer 10% 13%

Zeitersparnis durch besseres Ranking** 10% (gewichtet) 37%

Anzahl Treffer der Volltextsuche 27,7 475

Anzahl Treffer der semantischen Suche 24,5 346

Anzahl möglicher falscher Treffer der Volltextsuche

15,2 258

Anzahl zusätzlicher Treffer der semantischen Suche

12,1 129

Quantitativer Vergleich* über 7.200 (205k) Anfragen

Weiterbildungs-DB Berlin-Brandenburg

* gerundet; 25 Treffer pro Search Engine Result Pages ** bezogen auf die Treffermenge pro Anfrage die von Beiden gefunden werden

* im Vergleich zu Volltextsuche

Hinweise auf passende und spezifischere Begriffe

Information über geschätzte Trefferzahl

Formulierung fehlerfreier Anfragen

Rechtschreibkorrektur-vorschläge

Sortierung nach Passgenauigkeit, Entfernung und Aktualität

Zeitersparnis zw. 10-35%*

~ 55% weniger Fehltreffer*

~ 44% zusätzliche relevante Treffer*

Nutzen semantischer Techniken

Anfrageformulierung Treffersichtung

Verbessern sich die Berufschancen?

Fragen?

Vielen Dank für Ihre Aufmerksamkeit

CC-BY-ND Vitorio Benedett Flickr