Semantische Suche in audiovisuellen Daten

Post on 26-Jun-2015

898 views 1 download

description

Vortrag zum TIZ-Thementag: Effiziente Erschließung digitaler Medien, am 20. Juni 2011

Transcript of Semantische Suche in audiovisuellen Daten

Thementag: Effiziente Erschließung digitaler MedienTHESEUS – Innovationszentrum Internet der Dienste Salzufer 6, 10587 Berlin, 20. Juni 2011

Semantische Suche in audiovisuellen Daten

Dr. Harald SackHasso-Plattner-Institut für Softwaresystemtechnik

Universität Potsdam

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

■ Das HPI wurde im Oktober 1998 im Rahmen einer Public-Private-Partnership gegründet

■ Forschung und Lehre am HPI ist dem „IT Systems Engineering“ gewidmet

■ 10 Professoren und ca. 100 Mitarbeiter in Forschung und Lehre

■ aktuell 450 Studenten in universitären Studiengängen „IT Systems Engineering“

■ CHE-Ranking 2010 sieht HPI auf Top-Rang

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

■ Research Topics

□ Semantic Web Technologies

□ Ontological Engineering

□ Information Retrieval

□ Multimedia Analysis & Retrieval

□ Social Semantic Web

□ Data/Information Visualization

■ Research Projects

Semantic Technologies & Multimedia Retrieval

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

http://projekt-mediaglobe.de/

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

http://projekt-mediaglobe.de/

■ THESEUS Forschungsprogramm: Neue internetbasierte Wissensinfrastruktur.

■ UseCase Contentus: Technologien für die Mediathek der Zukunft.

■ Projekt Mediaglobe: Effizientes Arbeiten mit Mediadaten in Medienarchiven und Rundfunkanstalten.

■ effiziente Suche nach/in AV-Inhalten in Medienarchiven und Rundfunkanstalten

■ Arbeitsprozesslösung für die effiziente Erfassung, Aufbereitung und Verwertung von AV-Inhalten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

http://projekt-mediaglobe.de/

■ THESEUS Forschungsprogramm: Neue internetbasierte Wissensinfrastruktur.

■ UseCase Contentus: Technologien für die Mediathek der Zukunft.

■ Projekt Mediaglobe: Effizientes Arbeiten mit Mediadaten in Medienarchiven und Rundfunkanstalten.

■ effiziente Suche nach/in AV-Inhalten in Medienarchiven und Rundfunkanstalten

■ Arbeitsprozesslösung für die effiziente Erfassung, Aufbereitung und Verwertung von AV-Inhalten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

http://www.yovisto.com/

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

■ Videoportal für akademische Aufzeichnungen

■ Vorlesungen

■ Konferenzen & Vorträge

■ Lehrfilme

■ über 10.000 internationale Videos zu allen wissenschaftlichen Themen

■ automatisierte Videoanalyse

■ kollaborative Annotation

■ Semantische Analyse & Annotation

■ Semantische Suche

■ Explorative Suche

http://www.yovisto.com/

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Wie findet man etwas in einem Videoarchiv?

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Wie findet Google etwas in einem Video?

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Wie findet man etwas in einem audiovisuellen Archiv?

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

1. Schritt: Digitalisierung analoger AV-Medien Damit audiovisuelle Daten einer computer-gestützten gezielten Suche zugänglich werden, müssen sie zuerst digitalisiert werden.

Wie findet man etwas in einem audiovisuellen Archiv?

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

1. Schritt: Digitalisierung analoger AV-Medien Damit audiovisuelle Daten einer computer-gestützten gezielten Suche zugänglich werden, müssen sie zuerst digitalisiert werden.

2. Schritt: VerschlagwortungDamit audiovisuelle Daten einer computergestützten gezielten Suche zugänglich werden, müssen Beschreibungen, Schlüsselwörter, etc. üblicherweise Textform vorliegen.

Wie findet man etwas in einem audiovisuellen Archiv?

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Manuelle Audio-/Videoanalyse

Wie findet man etwas in einem audiovisuellen Archiv?

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

automatisierte inhaltliche Erschließung audiovisueller Daten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Automatisierte Audio- und Videoanalyse

automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Automatisierte Audio- und Videoanalyse

automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Automatisierte Audio- und Videoanalyse

automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Automatisierte Audio- und Videoanalyse

automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig

Genre-Analyse

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Automatisierte Audio- und Videoanalyse

automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig

Face-Detection

Genre-Analyse

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Automatisierte Audio- und Videoanalyse

automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig

Face-Detection

Overlay-text

Genre-Analyse

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Automatisierte Audio- und Videoanalyse

automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig

Face-Detection

Overlay-text

Logo-Detection

Genre-Analyse

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Automatisierte Audio- und Videoanalyse

automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig

Face-Detection

Overlay-text

Logo-Detection

Genre-Analyse

Szenen-text

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Automatisierte Audio- und Videoanalyse

automatische inhaltliche Analyse ist •komplex (fehleranfällig) und•berechnungs-/speicheraufwändig

Face-Detection

Overlay-text

Logo-Detection

Genre-Analyse

Szenen-text{

Audio-Mining

StrukturelleAnalyse

TranskriptionSprecher-

identifikation

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

• Ergebnis: Videosegmente mit zugeordneten, zeitbezogenen Metadaten

• Metadaten setzen sich zusammen aus kombinierten Low Level / High Level Deskriptoren

• Metadaten als Basis für traditionelles und semantisches Information Retrieval

Metadata Extractiontime

Automatisierte Audio- und Videoanalyse

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

time

e.g., person xy

location yz

event abc

e.g., bibliographical data,geographical data,encyclopedic data, ..

Video Analyse /Metadaten Extraktion

Entity Recognition/ Mapping

Semantische Analyse & Annotation

Ontologien

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Was bringt ,semantische Suche‘?

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Wie findet man etwas im WWW?

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das „Google Dilemma“

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das „Google Dilemma“

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das „Google Dilemma“Suchvorschläge

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das „Google Dilemma“Suchvorschläge

Multimodale Ergebnisse

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das „Google Dilemma“Suchvorschläge

Multimodale Ergebnisse

Suchfacetten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das „Google Dilemma“

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das „Google Dilemma“

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das Dilemma mit der SpracheBsp.: Suchbegriff: „Golf“

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das Dilemma mit der SpracheBsp.: Suchbegriff: „Golf“

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das Dilemma mit der SpracheBsp.: Suchbegriff: „Golf“

Homonyme erschweren präzises Suchen

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das Dilemma mit der SpracheBsp.: Suchbegriff: „Golf“

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das Dilemma mit der SpracheBsp.: Suchbegriff: „Golf“

Volkswagen Golf

Volkswagen Rabbit

大众高尔夫

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Das Dilemma mit der SpracheBsp.: Suchbegriff: „Golf“

Synonyme erschweren vollständiges Suchen

Volkswagen Golf

Volkswagen Rabbit

大众高尔夫

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Noch ein Dilemma....Wie finde ich dieses Auto?

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Noch ein Dilemma....Wie finde ich dieses Auto?

Geodätische Strukturen

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Noch ein Dilemma....Wie finde ich dieses Auto?

Buckminster Fuller

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Noch ein Dilemma....Wie finde ich dieses Auto?

Geodätische Strukturen +Buckminster Fuller +Dymaxion

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Noch ein Dilemma....Wie finde ich dieses Auto?

Buckminster FullerGeodätische Strukturen Geodätische Strukturen +Buckminster Fuller +Dymaxion

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Semantische Analyse & Annotation...

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Entity Recognition/ Mapping

Semantische Analyse & Annotation

textuelleMetadaten

Wissens-repräsentation

Entität A

unstrukturierteMetadaten

Low Level /High Level Deskriptoren

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Entity Recognition/ Mapping

Semantische Analyse & Annotation

textuelleMetadaten

Wissens-repräsentation

Entität A

Klasse X

ist ein

unstrukturierteMetadaten

Low Level /High Level Deskriptoren

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Entity Recognition/ Mapping

Semantische Analyse & Annotation

textuelleMetadaten

Wissens-repräsentation

Entität A

Klasse X

ist ein

unstrukturierteMetadaten

Low Level /High Level Deskriptoren

ist Subklasse von

Klasse Y

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Entity Recognition/ Mapping

Semantische Analyse & Annotation

textuelleMetadaten

Wissens-repräsentation

Entität A

Klasse X

ist ein

unstrukturierteMetadaten

Low Level /High Level Deskriptoren

ist Subklasse von

Klasse Y

steht in Beziehung mit

Klasse Z

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Entity Recognition/ Mapping

Semantische Analyse & Annotation

textuelleMetadaten

Wissens-repräsentation

Entität A

Klasse X

ist ein

unstrukturierteMetadaten

Low Level /High Level Deskriptoren

ist Subklasse von

Klasse Y

steht in Beziehung mit

Klasse Z

ist ein

Entität B

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Entity Recognition/ Mapping

Semantische Analyse & Annotation

textuelleMetadaten

Wissens-repräsentation

Entität A

Klasse X

ist ein

unstrukturierteMetadaten

Low Level /High Level Deskriptoren

ist Subklasse von

Klasse Y

steht in Beziehung mit

Klasse Z

ist ein

Entität B

Existiert eine Entität B, die mit Entität A in Beziehung steht?

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Named Entity Recognition

• Abbildung von Schlüsselwörtern (Text) auf semantische Entitäten

• Kontextanalyse und Disambiguierung

Semantische Analyse & Annotation

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Named Entity Recognition

• Abbildung von Schlüsselwörtern (Text) auf semantische Entitäten

• Kontextanalyse und Disambiguierung

Semantische Analyse & Annotation

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Named Entity Recognition

• Abbildung von Schlüsselwörtern (Text) auf semantische Entitäten

• Kontextanalyse und Disambiguierung

Truman

Keyterm / User Tag

Semantische Analyse & Annotation

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Named Entity Recognition

• Abbildung von Schlüsselwörtern (Text) auf semantische Entitäten

• Kontextanalyse und Disambiguierung

Truman

Keyterm / User Tag

Truman Capote

Harry S. Truman

Truman, Minesota

The Truman Show

?

?

?

?

Semantic Entities

Semantische Analyse & Annotation

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

RDF graph to find relations between entities co-occurringin a text maintaining the hypothesis that disambiguationof co-occurring elements in a text can be obtained byfinding connected elements in an RDF graph [7]. In orderto regard the special compilation of non-textual data, staticand user-genrated metadata in audio-visual content our novelapproach combines the use of semantic technologies andLinked Data with linguistic methods.

III. METHOD

According to a study about structure and characteristicsof folksonomy tags [8] an average of 83% of user-generatedtags are single terms. Also, an average of 82% of thereviewed tags are nouns. Based on these study results, weignore tag practices, such as camel case (”barackObama”)and treat tags as subjects or categories describing a resource.As a tag could also be part of a group of nouns representingan entity or a name (”flying machine”,”albert einstein”) thetags stored as single words without any given order have tobe combined in term groups of two or more terms to findall appropriate entities. Hence, every tag or group of tagswithin a given context may represent a distinct entity. Theterm combination process and subsequent mapping of termsand term groups to entities are described in sect. III-B.

To disambiguate ambiguous terms we combine two meth-ods: a co-occurences analysis of the terms in the context inWikipedia articles and an analysis of the page link graph ofthe Wikipedia articles of entity candidates. The scores forboth analysis steps are calculated to a total score.

A. Context Definition

Metadata exists in a certain context and has to be inter-preted according to this context. For tags of audio-visualcontent we identified two dimensions:

• temporal dimension• user-centered dimensionIn the temporal dimension a context can be defined as the

entire video, a segment or a single timestamp in the video.The user-centered dimension classifies a context by howmany users created the concerning metadata - only tags by acertain user or all tags regardless of which user. Fig. 1 showsthe combinations of the two dimensions of contexts formetadata in audio-visual content the interpretation regardingthe significance of a context.

Audio-visual content also provides the opportunity tosupply spatial information. Thus, tags in the same regionof a video frame are considered as related to each other.In the current approach we did not consider this contextdimension.

To describe our approach we use a sample context of ourtest set (see sect. IV). This sample context is composed oftags by only one user at a certain timestamp in the video.The video containing this sample context is a presentation

Figure 1. Dimensions of context definition in audio-visual content

by Dr. Garik Israelian at the TED conference3 entitled ”Howspectroscopy could reveal alien life”4. Our sample contextconsists of the tags ”hubble”, ”spitzer”, ”carbon”, ”dioxide”,”methan”, ”co2”, and ”water”.

B. Preprocessing

Term Combination: Our combination algorithm takesall tags of a specified spatio-temporal context (at a certaintimestamp/in a certain segment of a video, of a singleURL/image and generates every possible combination of atmost three terms of the context in every possible order. Inthat way we make sure to rectify groups of single termsthat belong together. We chose to generate combinationsof three words to make sure to also hit named entitiesconsisting of more than two words, such as ”public keycryptography” or ”alberto santos dumont”. About 90% ofthe DBpedia [9] labels consist of at most three words, butless than 5% consist of 4 words. Due to these numbersand performance issues we decided to limit the number ofterms to be combined to three. Subsequently in this paperby terms we will refer to single terms as well as generatedterm groups. The number c of combinations is calcultaed byc =

�jk=1

n!(n−k)! .

For our sample context containing 7 tags and at most3 terms in a combination (j = 3), 259 combinations aregenerated.

Term Mapping: The terms then have to be mapped tosemantic entities. For our approach we use entities of theLinked Open Data Cloud [10], in particular of the DBpedia,version 3.5.1.

DBpedia provides labels for the identification of distinctentities in 92 languages. We use English and German aswell as Finnish labels, as we noticed that neither English northe German labels contain important acronyms as labels, butthe Finnish language version does. As tagging users prefer tokeep it simple and short[2], resources dealing with ”DomainName System” would rather be tagged with ”DNS” than”Domain Name System”.

After simple string matching of the terms of the contextto DBpedia URIs, the URIs are revised for redirects and

3http://www.ted.com4http://yovisto.com/play/14415

Kontextanalyse und Disambiguierung

Wie setzt sich Kontext in AV-Daten zusammen?

• Temporale Kohärenz der Metadaten

• Spatiale Kohärenz der Metadaten

• Provenienz der Metadaten

Semantische Analyse & Annotation

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

TrumanKeyterm / User Tag

Semantische Analyse & AnnotationKontextanalyse und Disambiguierung

Wie setzt sich Kontext in AV-Daten zusammen?

• Temporale Kohärenz der Metadaten

• Spatiale Kohärenz der Metadaten

• Provenienz der Metadaten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

TrumanKeyterm / User Tag

Semantische Analyse & Annotation

PotsdamEisenhower

Inauguration

Context 1

other User Metadatawithin same segment

Kontextanalyse und Disambiguierung

Wie setzt sich Kontext in AV-Daten zusammen?

• Temporale Kohärenz der Metadaten

• Spatiale Kohärenz der Metadaten

• Provenienz der Metadaten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

TrumanKeyterm / User Tag

Semantische Analyse & Annotation

PotsdamEisenhower

Inauguration

Context 1

other User Metadatawithin same segment Black&White

Indoor

Context 2

AnalyticalMetadata

within same segment

Truman becomes President

Millions mourn Roosevelt

Kontextanalyse und Disambiguierung

Wie setzt sich Kontext in AV-Daten zusammen?

• Temporale Kohärenz der Metadaten

• Spatiale Kohärenz der Metadaten

• Provenienz der Metadaten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

TrumanKeyterm / User Tag

Semantische Analyse & Annotation

PotsdamEisenhower

Inauguration

Context 1

other User Metadatawithin same segment Black&White

Indoor

Context 2

AnalyticalMetadata

within same segment

Truman becomes President

Millions mourn Roosevelt

Context 3

Authoritative Metadata

for entire videoNews Parade of 1945

This Castle newsreel shows us war-related news highlights of the year 1945.

Kontextanalyse und Disambiguierung

Wie setzt sich Kontext in AV-Daten zusammen?

• Temporale Kohärenz der Metadaten

• Spatiale Kohärenz der Metadaten

• Provenienz der Metadaten

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Kontextanalyse und Disambiguierung(1) Kookkurrenz-Analyse

PotsdamEisenhower

Inauguration

Context

Truman

basierend auf Wikipedia

Tauchen die Kontext-Terme gemeinsam in den zu disambiguierenden Artikeln auf?

?

?

?

Semantische Analyse & Annotation

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

PotsdamEisenhower

Inauguration

Context

Truman

Semantische Analyse & Annotation

Tauchen die Kontext-Terme gemeinsam in den zu disambiguierenden Artikeln auf?

Kontextanalyse und Disambiguierung(1) Kookkurrenz-Analyse

basierend auf Wikipedia

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Truman

Keyterm / User Tag

LOD Cloud

Eisenhower

InaugurationPotsdam

Context

Semantische Analyse & AnnotationKontextanalyse und Disambiguierung(2) semantische Graphanalyse

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Suchen ist nicht gleich Suchen....

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Suchen ist nicht gleich SuchenVariante 1: Der Benutzer weiß genau, was er sucht....

•Ein einfaches Beispiel:

Ich suche das Buch „Wem die Stunde schlägt“ von Ernest Hemingway in der ersten deutschen Ausgabe...

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Suchen ist nicht gleich SuchenVariante 1: Der Benutzer weiß genau, was er sucht....

•Ein einfaches Beispiel:

Ich suche das Buch „Wem die Stunde schlägt“ von Ernest Hemingway in der ersten deutschen Ausgabe...

Variante 1: Der Benutzer weiß genau, was er sucht....

•Ein einfaches Beispiel:

Ich suche das Buch „Wem die Stunde schlägt“ von Ernest Hemingway in der ersten deutschen Ausgabe...

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Suchen ist nicht gleich Suchen

Wem die Stunde schlägt. - Ernest H E M I N G W A Y. (Stockholm usw., Bermann-Fischer Verlag, 1941) 560 S. 8“

II 1, 2506, 34548

Variante 1: Der Benutzer weiß genau, was er sucht....

•Ein einfaches Beispiel:

Ich suche das Buch „Wem die Stunde schlägt“ von Ernest Hemingway in der ersten deutschen Ausgabe...

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Suchen ist nicht gleich Suchen

Wem die Stunde schlägt. - Ernest H E M I N G W A Y. (Stockholm usw., Bermann-Fischer Verlag, 1941) 560 S. 8“

II 1, 2506, 34548

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Suchen ist nicht gleich SuchenVariante 2: ...was, wenn man nicht genau weiß, was man sucht?

Mir hat das Buch „Wem die Stunde schlägt“ von Ernest Hemingway gefallen und ich weiß nicht genau, was ich als nächstes lesen soll....

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Suchen ist nicht gleich SuchenVariante 2: ...was, wenn man nicht genau weiß, was man sucht?

Mir hat das Buch „Wem die Stunde schlägt“ von Ernest Hemingway gefallen und ich weiß nicht genau, was ich als nächstes lesen soll....

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Explorative Suche• Was, wenn der Benutzer nicht weiß, welchen Suchbegriff er/sie benutzen soll?

• Was, wenn der Benutzer komplexere Antworten sucht?

• Was, wenn er/sie das Wissensgebiet, über das er sich informieren will, nicht (gut) kennt?

• Was, wenn er/sie wissen möchte, welche Dokumente es insgesamt zu einem speziellen Thema in einem Repository gibt?

• ...einen Überblick gewinnen• ...,Stöbern‘ statt ,Suchen‘• ...etwas ,zufällig‘ finden• ...Serendipity

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Wie kann man eine explorative Suche realisieren?

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

time

e.g., person xy

location yz

event abc

e.g., bibliographical data,geographical data,encyclopedic data, ..

Video Analyse /Metadaten Extraktion

Entity Recognition/ Mapping

Semantische Videosuche...

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Data is a precious thing and will last longer than the systems themselves. (Tim Berners-Lee) http://linkeddata.org/

The Web of Data - The Semantic Web

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

http://dbpedia.org/

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Explorative Suche

dbpedia:For_Whom_the_Bell_Tolls

Wie soll das semantischeNetzwerk um dbpedia:For_Whom_the_Bell_Tollsherum durchsucht werden?

http://dbpedia.org/page/For_Whom_the_Bell_Tolls

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia:For_Whom_the_Bell_Tolls

Vielleicht sind andereBücher desselben Autorsfür mich interessant...?

Explorative Suche

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia-owl:author

dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls

Explorative Suche

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia-owl:author

dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls

dbpedia-owl:author

Explorative Suche

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia-owl:author

dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls

dbpedia-owl:author

dbpedia-owl:author

Explorative Suche

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia-owl:author

dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls

dbpedia-owl:author

dbpedia-owl:author

dbpedia-owl:author

Explorative Suche

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia:For_Whom_the_Bell_Tolls

Gibt es Autoren, diein ähnlicher Weise geschrieben haben...?

Explorative Suche

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia-owl:author

dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls

Explorative Suche

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia-owl:author

dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls

dbpedia:Raymond_Carver

dbpedia-

owl:influenced_by

Explorative Suche

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia-owl:author

dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls

dbpedia:Raymond_Carver

dbpedia-

owl:influenced_by

dbpedia:Jack_Kerouac

dbpedia-

owl:influenced_by

Explorative Suche

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia-owl:author

dbpedia:Ernest_Hemingwaydbpedia:For_Whom_the_Bell_Tolls

dbpedia:Raymond_Carver

dbpedia-

owl:influenced_by

dbpedia:Jack_Kerouac

dbpedia-

owl:influenced_by

dbpedia-owl:influenced_by

dbpedia:Jerome_D._Salinger

Explorative Suche

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia:Raymond_Carver

dbpedia:Jack_Kerouac

dbpedia:Jerome_D._Salinger

und was sollte man von diesen eigentlich gelesen haben...?

Explorative Suche

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia:Jack_Kerouac dbpedia:Raymond_Carverdbpedia:Jerome_D._Salinger

Explorative Suche

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia:Jack_Kerouac dbpedia:Raymond_Carverdbpedia:Jerome_D._Salinger

dbpedia-owl:notableWork

Explorative Suche

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia:Jack_Kerouac dbpedia:Raymond_Carverdbpedia:Jerome_D._Salinger

dbpedia-owl:notableWork dbpedia-owl:notableWork

Explorative Suche

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

dbpedia:Jack_Kerouac dbpedia:Raymond_Carverdbpedia:Jerome_D._Salinger

dbpedia-owl:notableWork dbpedia-owl:notableWork dbpedia-owl:notableWork

Explorative Suche

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

...und wie sieht eine explorative Videosuche aus?

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

29 Waitelonis, Sack: Augmenting Video Search with Linked Open Data, in Proc. I-Semantics , Graz 2009.

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

29 Waitelonis, Sack: Augmenting Video Search with Linked Open Data, in Proc. I-Semantics , Graz 2009.http://mediaglobe.yovisto.com:8080/

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Dr. Harald Sack - Thementag: Effiziente Erschließung digitaler Medien, THESEUS – Innovationszentrum, 20. Juni 2011

Kontakt:Dr. Harald Sack / Jörg WaitelonisHasso-Plattner-Institut für SoftwaresystemtechnikUniversität PotsdamProf.-Dr.-Helmert-Str. 2-3D-14482 Potsdam

Homepage:http://www.hpi.uni-potsdam.de/meinel/team/sack.html

http://www.yovisto.com/

Blog: http://moresemantic.blogspot.com/

E-Mail: harald.sack@hpi.uni-potsdam.de

joerg.waitelonis@hpi.uni-potsdam.de

Twitter: lysander07 / biblionomicon / yovisto

Vielen Dank für

Ihre Aufmerksamkeit!