Semantische Suche in audiovisuellen Daten

100
Thementag: Effiziente Erschließung digitaler Medien THESEUS – Innovationszentrum Internet der Dienste Salzufer 6, 10587 Berlin, 20. Juni 2011 Semantische Suche in audiovisuellen Daten Dr. Harald Sack Hasso-Plattner-Institut für Softwaresystemtechnik Universität Potsdam

description

Vortrag zum TIZ-Thementag: Effiziente Erschließung digitaler Medien, am 20. Juni 2011

Transcript of Semantische Suche in audiovisuellen Daten

Page 1: Semantische Suche in audiovisuellen Daten

Thementag: Effiziente Erschließung digitaler MedienTHESEUS – Innovationszentrum Internet der Dienste Salzufer 6, 10587 Berlin, 20. Juni 2011

Semantische Suche in audiovisuellen Daten

Dr. Harald SackHasso-Plattner-Institut für Softwaresystemtechnik

Universität Potsdam

Page 2: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

■ Das HPI wurde im Oktober 1998 im Rahmen einer Public-Private-Partnership gegründet

■ Forschung und Lehre am HPI ist dem „IT Systems Engineering“ gewidmet

■ 10 Professoren und ca. 100 Mitarbeiter in Forschung und Lehre

■ aktuell 450 Studenten in universitären Studiengängen „IT Systems Engineering“

■ CHE-Ranking 2010 sieht HPI auf Top-Rang

Page 3: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

■ Research Topics

□ Semantic Web Technologies

□ Ontological Engineering

□ Information Retrieval

□ Multimedia Analysis & Retrieval

□ Social Semantic Web

□ Data/Information Visualization

■ Research Projects

Semantic Technologies & Multimedia Retrieval

Page 4: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

http://projekt-mediaglobe.de/

Page 5: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

http://projekt-mediaglobe.de/

■ THESEUS Forschungsprogramm: Neue internetbasierte Wissensinfrastruktur.

■ UseCase Contentus: Technologien für die Mediathek der Zukunft.

■ Projekt Mediaglobe: Effizientes Arbeiten mit Mediadaten in Medienarchiven und Rundfunkanstalten.

■ effiziente Suche nach/in AV-Inhalten in Medienarchiven und Rundfunkanstalten

■ Arbeitsprozesslösung für die effiziente Erfassung, Aufbereitung und Verwertung von AV-Inhalten

Page 6: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

http://projekt-mediaglobe.de/

■ THESEUS Forschungsprogramm: Neue internetbasierte Wissensinfrastruktur.

■ UseCase Contentus: Technologien für die Mediathek der Zukunft.

■ Projekt Mediaglobe: Effizientes Arbeiten mit Mediadaten in Medienarchiven und Rundfunkanstalten.

■ effiziente Suche nach/in AV-Inhalten in Medienarchiven und Rundfunkanstalten

■ Arbeitsprozesslösung für die effiziente Erfassung, Aufbereitung und Verwertung von AV-Inhalten

Page 7: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Page 8: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

http://www.yovisto.com/

Page 9: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

■ Videoportal für akademische Aufzeichnungen

■ Vorlesungen

■ Konferenzen & Vorträge

■ Lehrfilme

■ über 10.000 internationale Videos zu allen wissenschaftlichen Themen

■ automatisierte Videoanalyse

■ kollaborative Annotation

■ Semantische Analyse & Annotation

■ Semantische Suche

■ Explorative Suche

http://www.yovisto.com/

Page 10: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Wie findet man etwas in einem Videoarchiv?

Page 11: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Wie findet Google etwas in einem Video?

Page 12: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Wie findet man etwas in einem audiovisuellen Archiv?

Page 13: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

1. Schritt: Digitalisierung analoger AV-Medien Damit audiovisuelle Daten einer computer-gestützten gezielten Suche zugänglich werden, müssen sie zuerst digitalisiert werden.

Wie findet man etwas in einem audiovisuellen Archiv?

Page 14: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

1. Schritt: Digitalisierung analoger AV-Medien Damit audiovisuelle Daten einer computer-gestützten gezielten Suche zugänglich werden, müssen sie zuerst digitalisiert werden.

2. Schritt: VerschlagwortungDamit audiovisuelle Daten einer computergestützten gezielten Suche zugänglich werden, müssen Beschreibungen, Schlüsselwörter, etc. üblicherweise Textform vorliegen.

Wie findet man etwas in einem audiovisuellen Archiv?

Page 15: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Manuelle Audio-/Videoanalyse

Wie findet man etwas in einem audiovisuellen Archiv?

Page 16: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

automatisierte inhaltliche Erschließung audiovisueller Daten

Page 17: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Automatisierte Audio- und Videoanalyse

automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig

Page 18: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Automatisierte Audio- und Videoanalyse

automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig

Page 19: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Automatisierte Audio- und Videoanalyse

automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig

Page 20: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Automatisierte Audio- und Videoanalyse

automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig

Genre-Analyse

Page 21: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Automatisierte Audio- und Videoanalyse

automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig

Face-Detection

Genre-Analyse

Page 22: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Automatisierte Audio- und Videoanalyse

automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig

Face-Detection

Overlay-text

Genre-Analyse

Page 23: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Automatisierte Audio- und Videoanalyse

automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig

Face-Detection

Overlay-text

Logo-Detection

Genre-Analyse

Page 24: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Automatisierte Audio- und Videoanalyse

automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig

Face-Detection

Overlay-text

Logo-Detection

Genre-Analyse

Szenen-text

Page 25: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Automatisierte Audio- und Videoanalyse

automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig

Face-Detection

Overlay-text

Logo-Detection

Genre-Analyse

Szenen-text{

Audio-Mining

StrukturelleAnalyse

TranskriptionSprecher-

identifikation

Page 26: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

• Ergebnis: Videosegmente mit zugeordneten, zeitbezogenen Metadaten

• Metadaten setzen sich zusammen aus kombinierten Low Level / High Level Deskriptoren

• Metadaten als Basis für traditionelles und semantisches Information Retrieval

Metadata Extractiontime

Automatisierte Audio- und Videoanalyse

Page 27: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

time

e.g., person xy

location yz

event abc

e.g., bibliographical data,geographical data,encyclopedic data, ..

Video Analyse /Metadaten Extraktion

Entity Recognition/ Mapping

Semantische Analyse & Annotation

Ontologien

Page 28: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Was bringt ,semantische Suche‘?

Page 29: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Wie findet man etwas im WWW?

Page 30: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das „Google Dilemma“

Page 31: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das „Google Dilemma“

Page 32: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das „Google Dilemma“Suchvorschläge

Page 33: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das „Google Dilemma“Suchvorschläge

Multimodale Ergebnisse

Page 34: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das „Google Dilemma“Suchvorschläge

Multimodale Ergebnisse

Suchfacetten

Page 35: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das „Google Dilemma“

Page 36: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das „Google Dilemma“

Page 37: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das Dilemma mit der SpracheBsp.: Suchbegriff: „Golf“

Page 38: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das Dilemma mit der SpracheBsp.: Suchbegriff: „Golf“

Page 39: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das Dilemma mit der SpracheBsp.: Suchbegriff: „Golf“

Homonyme erschweren präzises Suchen

Page 40: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das Dilemma mit der SpracheBsp.: Suchbegriff: „Golf“

Page 41: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das Dilemma mit der SpracheBsp.: Suchbegriff: „Golf“

Volkswagen Golf

Volkswagen Rabbit

大众高尔夫

Page 42: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das Dilemma mit der SpracheBsp.: Suchbegriff: „Golf“

Synonyme erschweren vollständiges Suchen

Volkswagen Golf

Volkswagen Rabbit

大众高尔夫

Page 43: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Noch ein Dilemma....Wie finde ich dieses Auto?

Page 44: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Noch ein Dilemma....Wie finde ich dieses Auto?

Geodätische Strukturen

Page 45: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Noch ein Dilemma....Wie finde ich dieses Auto?

Buckminster Fuller

Page 46: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Noch ein Dilemma....Wie finde ich dieses Auto?

Geodätische Strukturen +Buckminster Fuller +Dymaxion

Page 47: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Noch ein Dilemma....Wie finde ich dieses Auto?

Buckminster FullerGeodätische Strukturen Geodätische Strukturen +Buckminster Fuller +Dymaxion

Page 48: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Semantische Analyse & Annotation...

Page 49: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Entity Recognition/ Mapping

Semantische Analyse & Annotation

textuelleMetadaten

Wissens-repräsentation

Entität A

unstrukturierteMetadaten

Low Level /High Level Deskriptoren

Page 50: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Entity Recognition/ Mapping

Semantische Analyse & Annotation

textuelleMetadaten

Wissens-repräsentation

Entität A

Klasse X

ist ein

unstrukturierteMetadaten

Low Level /High Level Deskriptoren

Page 51: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Entity Recognition/ Mapping

Semantische Analyse & Annotation

textuelleMetadaten

Wissens-repräsentation

Entität A

Klasse X

ist ein

unstrukturierteMetadaten

Low Level /High Level Deskriptoren

ist Subklasse von

Klasse Y

Page 52: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Entity Recognition/ Mapping

Semantische Analyse & Annotation

textuelleMetadaten

Wissens-repräsentation

Entität A

Klasse X

ist ein

unstrukturierteMetadaten

Low Level /High Level Deskriptoren

ist Subklasse von

Klasse Y

steht in Beziehung mit

Klasse Z

Page 53: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Entity Recognition/ Mapping

Semantische Analyse & Annotation

textuelleMetadaten

Wissens-repräsentation

Entität A

Klasse X

ist ein

unstrukturierteMetadaten

Low Level /High Level Deskriptoren

ist Subklasse von

Klasse Y

steht in Beziehung mit

Klasse Z

ist ein

Entität B

Page 54: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Entity Recognition/ Mapping

Semantische Analyse & Annotation

textuelleMetadaten

Wissens-repräsentation

Entität A

Klasse X

ist ein

unstrukturierteMetadaten

Low Level /High Level Deskriptoren

ist Subklasse von

Klasse Y

steht in Beziehung mit

Klasse Z

ist ein

Entität B

Existiert eine Entität B, die mit Entität A in Beziehung steht?

Page 55: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Named Entity Recognition

• Abbildung von Schlüsselwörtern (Text) auf semantische Entitäten

• Kontextanalyse und Disambiguierung

Semantische Analyse & Annotation

Page 56: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Named Entity Recognition

• Abbildung von Schlüsselwörtern (Text) auf semantische Entitäten

• Kontextanalyse und Disambiguierung

Semantische Analyse & Annotation

Page 57: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Named Entity Recognition

• Abbildung von Schlüsselwörtern (Text) auf semantische Entitäten

• Kontextanalyse und Disambiguierung

Truman

Keyterm / User Tag

Semantische Analyse & Annotation

Page 58: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Named Entity Recognition

• Abbildung von Schlüsselwörtern (Text) auf semantische Entitäten

• Kontextanalyse und Disambiguierung

Truman

Keyterm / User Tag

Truman Capote

Harry S. Truman

Truman, Minesota

The Truman Show

?

?

?

?

Semantic Entities

Semantische Analyse & Annotation

Page 59: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

RDF graph to find relations between entities co-occurringin a text maintaining the hypothesis that disambiguationof co-occurring elements in a text can be obtained byfinding connected elements in an RDF graph [7]. In orderto regard the special compilation of non-textual data, staticand user-genrated metadata in audio-visual content our novelapproach combines the use of semantic technologies andLinked Data with linguistic methods.

III. METHOD

According to a study about structure and characteristicsof folksonomy tags [8] an average of 83% of user-generatedtags are single terms. Also, an average of 82% of thereviewed tags are nouns. Based on these study results, weignore tag practices, such as camel case (”barackObama”)and treat tags as subjects or categories describing a resource.As a tag could also be part of a group of nouns representingan entity or a name (”flying machine”,”albert einstein”) thetags stored as single words without any given order have tobe combined in term groups of two or more terms to findall appropriate entities. Hence, every tag or group of tagswithin a given context may represent a distinct entity. Theterm combination process and subsequent mapping of termsand term groups to entities are described in sect. III-B.

To disambiguate ambiguous terms we combine two meth-ods: a co-occurences analysis of the terms in the context inWikipedia articles and an analysis of the page link graph ofthe Wikipedia articles of entity candidates. The scores forboth analysis steps are calculated to a total score.

A. Context Definition

Metadata exists in a certain context and has to be inter-preted according to this context. For tags of audio-visualcontent we identified two dimensions:

• temporal dimension• user-centered dimensionIn the temporal dimension a context can be defined as the

entire video, a segment or a single timestamp in the video.The user-centered dimension classifies a context by howmany users created the concerning metadata - only tags by acertain user or all tags regardless of which user. Fig. 1 showsthe combinations of the two dimensions of contexts formetadata in audio-visual content the interpretation regardingthe significance of a context.

Audio-visual content also provides the opportunity tosupply spatial information. Thus, tags in the same regionof a video frame are considered as related to each other.In the current approach we did not consider this contextdimension.

To describe our approach we use a sample context of ourtest set (see sect. IV). This sample context is composed oftags by only one user at a certain timestamp in the video.The video containing this sample context is a presentation

Figure 1. Dimensions of context definition in audio-visual content

by Dr. Garik Israelian at the TED conference3 entitled ”Howspectroscopy could reveal alien life”4. Our sample contextconsists of the tags ”hubble”, ”spitzer”, ”carbon”, ”dioxide”,”methan”, ”co2”, and ”water”.

B. Preprocessing

Term Combination: Our combination algorithm takesall tags of a specified spatio-temporal context (at a certaintimestamp/in a certain segment of a video, of a singleURL/image and generates every possible combination of atmost three terms of the context in every possible order. Inthat way we make sure to rectify groups of single termsthat belong together. We chose to generate combinationsof three words to make sure to also hit named entitiesconsisting of more than two words, such as ”public keycryptography” or ”alberto santos dumont”. About 90% ofthe DBpedia [9] labels consist of at most three words, butless than 5% consist of 4 words. Due to these numbersand performance issues we decided to limit the number ofterms to be combined to three. Subsequently in this paperby terms we will refer to single terms as well as generatedterm groups. The number c of combinations is calcultaed byc =

�jk=1

n!(n−k)! .

For our sample context containing 7 tags and at most3 terms in a combination (j = 3), 259 combinations aregenerated.

Term Mapping: The terms then have to be mapped tosemantic entities. For our approach we use entities of theLinked Open Data Cloud [10], in particular of the DBpedia,version 3.5.1.

DBpedia provides labels for the identification of distinctentities in 92 languages. We use English and German aswell as Finnish labels, as we noticed that neither English northe German labels contain important acronyms as labels, butthe Finnish language version does. As tagging users prefer tokeep it simple and short[2], resources dealing with ”DomainName System” would rather be tagged with ”DNS” than”Domain Name System”.

After simple string matching of the terms of the contextto DBpedia URIs, the URIs are revised for redirects and

3http://www.ted.com4http://yovisto.com/play/14415

Kontextanalyse und Disambiguierung

Wie setzt sich Kontext in AV-Daten zusammen?

• Temporale Kohärenz der Metadaten

• Spatiale Kohärenz der Metadaten

• Provenienz der Metadaten

Semantische Analyse & Annotation

Page 60: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

TrumanKeyterm / User Tag

Semantische Analyse & AnnotationKontextanalyse und Disambiguierung

Wie setzt sich Kontext in AV-Daten zusammen?

• Temporale Kohärenz der Metadaten

• Spatiale Kohärenz der Metadaten

• Provenienz der Metadaten

Page 61: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

TrumanKeyterm / User Tag

Semantische Analyse & Annotation

PotsdamEisenhower

Inauguration

Context 1

other User Metadatawithin same segment

Kontextanalyse und Disambiguierung

Wie setzt sich Kontext in AV-Daten zusammen?

• Temporale Kohärenz der Metadaten

• Spatiale Kohärenz der Metadaten

• Provenienz der Metadaten

Page 62: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

TrumanKeyterm / User Tag

Semantische Analyse & Annotation

PotsdamEisenhower

Inauguration

Context 1

other User Metadatawithin same segment Black&White

Indoor

Context 2

AnalyticalMetadata

within same segment

Truman becomes President

Millions mourn Roosevelt

Kontextanalyse und Disambiguierung

Wie setzt sich Kontext in AV-Daten zusammen?

• Temporale Kohärenz der Metadaten

• Spatiale Kohärenz der Metadaten

• Provenienz der Metadaten

Page 63: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

TrumanKeyterm / User Tag

Semantische Analyse & Annotation

PotsdamEisenhower

Inauguration

Context 1

other User Metadatawithin same segment Black&White

Indoor

Context 2

AnalyticalMetadata

within same segment

Truman becomes President

Millions mourn Roosevelt

Context 3

Authoritative Metadata

for entire videoNews Parade of 1945

This Castle newsreel shows us war-related news highlights of the year 1945.

Kontextanalyse und Disambiguierung

Wie setzt sich Kontext in AV-Daten zusammen?

• Temporale Kohärenz der Metadaten

• Spatiale Kohärenz der Metadaten

• Provenienz der Metadaten

Page 64: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Kontextanalyse und Disambiguierung(1) Kookkurrenz-Analyse

PotsdamEisenhower

Inauguration

Context

Truman

basierend auf Wikipedia

Tauchen die Kontext-Terme gemeinsam in den zu disambiguierenden Artikeln auf?

?

?

?

Semantische Analyse & Annotation

Page 65: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

PotsdamEisenhower

Inauguration

Context

Truman

Semantische Analyse & Annotation

Tauchen die Kontext-Terme gemeinsam in den zu disambiguierenden Artikeln auf?

Kontextanalyse und Disambiguierung(1) Kookkurrenz-Analyse

basierend auf Wikipedia

Page 66: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Truman

Keyterm / User Tag

LOD Cloud

Eisenhower

InaugurationPotsdam

Context

Semantische Analyse & AnnotationKontextanalyse und Disambiguierung(2) semantische Graphanalyse

Page 67: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Suchen ist nicht gleich Suchen....

Page 68: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Suchen ist nicht gleich SuchenVariante 1: Der Benutzer weiß genau, was er sucht....

•Ein einfaches Beispiel:

Ich suche das Buch „Wem die Stunde schlägt“ von Ernest Hemingway in der ersten deutschen Ausgabe...

Page 69: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Suchen ist nicht gleich SuchenVariante 1: Der Benutzer weiß genau, was er sucht....

•Ein einfaches Beispiel:

Ich suche das Buch „Wem die Stunde schlägt“ von Ernest Hemingway in der ersten deutschen Ausgabe...

Page 70: Semantische Suche in audiovisuellen Daten

Variante 1: Der Benutzer weiß genau, was er sucht....

•Ein einfaches Beispiel:

Ich suche das Buch „Wem die Stunde schlägt“ von Ernest Hemingway in der ersten deutschen Ausgabe...

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Suchen ist nicht gleich Suchen

Wem die Stunde schlägt. - Ernest H E M I N G W A Y. (Stockholm usw., Bermann-Fischer Verlag, 1941) 560 S. 8“

II 1, 2506, 34548

Page 71: Semantische Suche in audiovisuellen Daten

Variante 1: Der Benutzer weiß genau, was er sucht....

•Ein einfaches Beispiel:

Ich suche das Buch „Wem die Stunde schlägt“ von Ernest Hemingway in der ersten deutschen Ausgabe...

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Suchen ist nicht gleich Suchen

Wem die Stunde schlägt. - Ernest H E M I N G W A Y. (Stockholm usw., Bermann-Fischer Verlag, 1941) 560 S. 8“

II 1, 2506, 34548

Page 72: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Suchen ist nicht gleich SuchenVariante 2: ...was, wenn man nicht genau weiß, was man sucht?

Mir hat das Buch „Wem die Stunde schlägt“ von Ernest Hemingway gefallen und ich weiß nicht genau, was ich als nächstes lesen soll....

Page 73: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Suchen ist nicht gleich SuchenVariante 2: ...was, wenn man nicht genau weiß, was man sucht?

Mir hat das Buch „Wem die Stunde schlägt“ von Ernest Hemingway gefallen und ich weiß nicht genau, was ich als nächstes lesen soll....

Page 74: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Explorative Suche• Was, wenn der Benutzer nicht weiß, welchen Suchbegriff er/sie benutzen soll?

• Was, wenn der Benutzer komplexere Antworten sucht?

• Was, wenn er/sie das Wissensgebiet, über das er sich informieren will, nicht (gut) kennt?

• Was, wenn er/sie wissen möchte, welche Dokumente es insgesamt zu einem speziellen Thema in einem Repository gibt?

• ...einen Überblick gewinnen• ...,Stöbern‘ statt ,Suchen‘• ...etwas ,zufällig‘ finden• ...Serendipity

Page 75: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Wie kann man eine explorative Suche realisieren?

Page 76: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

time

e.g., person xy

location yz

event abc

e.g., bibliographical data,geographical data,encyclopedic data, ..

Video Analyse /Metadaten Extraktion

Entity Recognition/ Mapping

Semantische Videosuche...

Page 77: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Data is a precious thing and will last longer than the systems themselves. (Tim Berners-Lee) http://linkeddata.org/

The Web of Data - The Semantic Web

Page 78: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

http://dbpedia.org/

Page 79: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Explorative Suche

dbpedia:For_Whom_the_Bell_Tolls

Wie soll das semantischeNetzwerk um dbpedia:For_Whom_the_Bell_Tollsherum durchsucht werden?

http://dbpedia.org/page/For_Whom_the_Bell_Tolls

Page 80: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia:For_Whom_the_Bell_Tolls

Vielleicht sind andereBücher desselben Autorsfür mich interessant...?

Explorative Suche

Page 81: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia-owl:author

dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls

Explorative Suche

Page 82: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia-owl:author

dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls

dbpedia-owl:author

Explorative Suche

Page 83: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia-owl:author

dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls

dbpedia-owl:author

dbpedia-owl:author

Explorative Suche

Page 84: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia-owl:author

dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls

dbpedia-owl:author

dbpedia-owl:author

dbpedia-owl:author

Explorative Suche

Page 85: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia:For_Whom_the_Bell_Tolls

Gibt es Autoren, diein ähnlicher Weise geschrieben haben...?

Explorative Suche

Page 86: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia-owl:author

dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls

Explorative Suche

Page 87: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia-owl:author

dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls

dbpedia:Raymond_Carver

dbpedia-

owl:influenced_by

Explorative Suche

Page 88: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia-owl:author

dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls

dbpedia:Raymond_Carver

dbpedia-

owl:influenced_by

dbpedia:Jack_Kerouac

dbpedia-

owl:influenced_by

Explorative Suche

Page 89: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia-owl:author

dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls

dbpedia:Raymond_Carver

dbpedia-

owl:influenced_by

dbpedia:Jack_Kerouac

dbpedia-

owl:influenced_by

dbpedia-owl:influenced_by

dbpedia:Jerome_D._Salinger

Explorative Suche

Page 90: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia:Raymond_Carver

dbpedia:Jack_Kerouac

dbpedia:Jerome_D._Salinger

und was sollte man von diesen eigentlich gelesen haben...?

Explorative Suche

Page 91: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia:Jack_Kerouac dbpedia:Raymond_Carverdbpedia:Jerome_D._Salinger

Explorative Suche

Page 92: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia:Jack_Kerouac dbpedia:Raymond_Carverdbpedia:Jerome_D._Salinger

dbpedia-owl:notableWork

Explorative Suche

Page 93: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia:Jack_Kerouac dbpedia:Raymond_Carverdbpedia:Jerome_D._Salinger

dbpedia-owl:notableWork dbpedia-owl:notableWork

Explorative Suche

Page 94: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia:Jack_Kerouac dbpedia:Raymond_Carverdbpedia:Jerome_D._Salinger

dbpedia-owl:notableWork dbpedia-owl:notableWork dbpedia-owl:notableWork

Explorative Suche

Page 95: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

...und wie sieht eine explorative Videosuche aus?

Page 96: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

29 Waitelonis, Sack: Augmenting Video Search with Linked Open Data, in Proc. I-Semantics , Graz 2009.

Page 97: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

29 Waitelonis, Sack: Augmenting Video Search with Linked Open Data, in Proc. I-Semantics , Graz 2009.http://mediaglobe.yovisto.com:8080/

Page 98: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Page 99: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Page 100: Semantische Suche in audiovisuellen Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Kontakt:Dr. Harald Sack / Jörg WaitelonisHasso-Plattner-Institut für SoftwaresystemtechnikUniversität PotsdamProf.-Dr.-Helmert-Str. 2-3D-14482 Potsdam

Homepage:http://www.hpi.uni-potsdam.de/meinel/team/sack.html

http://www.yovisto.com/

Blog: http://moresemantic.blogspot.com/

E-Mail: [email protected]

[email protected]

Twitter: lysander07 / biblionomicon / yovisto

Vielen Dank für

Ihre Aufmerksamkeit!