01 Semantic Multimedia - Kickoff Sommersemester 2012

44
SEMANTIC MULTIMEDIA Seminar Dr. Harald Sack / Jörg Waitelonis Magnus Knuth / Nadine Steinmetz Hasso-Plattner-Institut für Softwaresystemtechnik Universität Potsdam Sommersemester 2012 Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC ). Dienstag, 10. April 12

description

Einführungsveranstaltung zum Master-Seminar "Semantic Multimedia" am Hasso Plattner Institut an der Universität Potsdam, Sommerstemester 2012.

Transcript of 01 Semantic Multimedia - Kickoff Sommersemester 2012

SEMANTIC MULTIMEDIASeminar

Dr. Harald Sack / Jörg Waitelonis Magnus Knuth / Nadine Steinmetz

Hasso-Plattner-Institut für SoftwaresystemtechnikUniversität Potsdam

Sommersemester 2012

Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC).Dienstag, 10. April 12

1. Dozenten 2. Semantic Multimedia3. Seminar Challenge4. Administratives

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

2

Semantic Multimedia

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

3

Semantic MultimediaDozenten / Tutoren

Dr. Harald Sack■ Senior Researcher am HPI■ Leiter der Forschungsgruppe

„Semantische Technologien“■ Forschungsschwerpunkte:□ Semantic Web Technologien□ Multimedia Retrieval□ Wissensrepräsentation■ Yovisto.com / SEMEX

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Dipl. Inform. Jörg Waitelonis

■Studium Informatik Uni-Jena bis 2006■2006-2007 Exist-Seed Projekt Osotis■ seit 2007 Gründer von yovisto.com■Entwickler von REPLAY (ETH-Zürich)■ Forschung: Semantic Web, Multimedia-Retrieval,

Suchmaschinen Technologien

4

Semantic MultimediaDozenten / Tutoren

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

5Dipl.-Inf. Magnus Knuth

■Studium Informatik, Uni Leipzig bis 2007

■ Institut für Medizinische Informatik, Statistik und Epidemiologie, Uni Leipzig 2006-2010

■Research Assistant am HPI, Contentus & Mediaglobe■ Forschung: Semantic Web, Knowledge

Management, Information Retrieval, Personalisierte Webapplikationen

Semantic MultimediaDozenten / Tutoren

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

6 Dipl.-Inf. Nadine Steinmetz

■Studium Informatik, TU Ilmenau bis 2005

■2005-2010 TU Berlin:

• kooperative Lernszenarien

• Integration von Semantic Web Technologien in kooperative Lernplattformen

■ seit 05/2010 am HPI:• Semantische Analyse, Named Entity Recognition,

Disambiguierung

Semantic MultimediaDozenten / Tutoren

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

7

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

8

■ Projektzeitraum: 2009-2012■ effiziente Suche nach/in AV-Inhalten in Medienarchiven und Rundfunkanstalten ■ Arbeitsprozesslösung für die effiziente Erfassung, Aufbereitung und Verwertung von

AV-Inhalten

Dienstag, 10. April 12

Dienstag, 10. April 12

1. Dozenten 2. Semantic Multimedia3. Seminar Challenge4. Administratives

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

10

Semantic Multimedia

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

11

Wie kann ich etwas (wieder) finden...?Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

12„Metadaten sind Daten, die Informationen über andere Daten enthalten“ und „Metadaten werden benötigt, um in der Lage zu sein, einen bestimmten Zweck zu erfüllen (oder) ein bestimmtes Ergebnis zu erreichen“ (informelle Definition, Wikipedia)

„Metadaten sind strukturierte, kodierte Daten, die Charakteristika informationstragender Entitäten beschreiben, zum Zweck der Identifikation, Recherche, Beurteilung und der Verwaltung der damit beschriebenen Entitäten.“ (W.R. Durell, 1985)

„Metadaten sind maschinenlesbare Informationen über elektronische Ressourcen oder andere Dinge“ (W3C)

Metadaten

Dienstag, 10. April 12

•bibliografische Metadaten

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

13

Identifikation überISBN / ISSNAutor(en)Titel...

Klassifikation überKategorienSchlüsselwörterAbstract / Zusammenfassung...

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

14

• Title: Namen des Objekts. • Creator: Personen, Organisationen oder Dienste, die in erster Linie für den Inhalt des Objekts verantwortlich sind, z.B. Autorinnen oder Autoren. • Subject: Thema (topic) des Objekts, typischerweise Stichwörter, Deskriptoren oder Elemente eines Klassifikationssystems. • Description: Beschreibung des Inhalts des Objekts als Text, z.B. als Abstract oder Inhaltsverzeichnis. • Publisher: Personen oder Organisationen, die dafür verantwortlich sind, das Objekt zugänglich zu machen. • Contributor: Personen oder Organisationen, die wesentliche Beiträge zum Inhalt des Objekts geleistet haben, aber nicht unter Creator genannt sind (Herausgebende, Übersetzerinnen, Illustratoren).

....

Strukturierte Metadaten

•bestehen aus Name-Werte Paaren (Autor = “Böll, Heinrich“)

•sind typisiert (Autor ist vom Typ Zeichenkette)

•Semantik strukturierter Daten beruht auf gemeinsamer Vereinbarung (z.B. Standardisierung bei Dublin Core)

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

15

Tierreich (Animalia)

Wirbeltiere

Mensch (Homo)

Moderner Mensch (Homo sapiens)

Menschenartige (Hominidae)

Primaten

Säugetiere (Mammaliae)

Mehrzeller (Eukaria)

Strukturierte Metadaten

•können hierarchisch strukturiert werden (Taxonomie)

Tierreich (AnimaliaWirbeltiere

Mensch (Homo)

Moderner Mensch (Homo sapiens)

Menschenartige (Hominidae)

Primaten

Säugetiere (Mammaliae)

Mehrzeller (Eukaria)

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

16

Hauptklassen000 Inf.-Wiss., allg. Werke100 Philosophie200 Religion300 Sozialwissenschaften400 Sprachen500 Naturwissenschaften600 Technik (Angew. Wiss.)700 Künste800 Literatur900 Geschichte

DDC 23 (2011)•4 Bände•4000 Seiten•45.000 Klassen•96.000 Registerbegriffe

DDC 1 (1876)•44 Seiten

Strukturierte Metadaten

• Klassifikationssystemez.B. Dewey Decimal System

Dienstag, 10. April 12

Unstrukturierte Metadaten

• als unstrukturierte Metadaten werden textuelle Metadaten bezeichnet, deren Semantik nicht durch vorherige Vereinbarung festgelegt ist, sondern durch ihren (natürlichsprachlichen) Inhalt.

• Bsp.: Inhaltsangabe/abstract

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

17

Über die Entstehung der Arten von Charles Darwin (englisch: On the Origin of Species), veröffentlicht am 24. November 1859, ist ein wissenschaft l iches Buch, das als grundlegendes Werk der Evolutionsbiologie gilt. Sein vollständiger Titel lautet: On the Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life. Als 1872 die sechste Auflage, das war die letzte von Darwin selbst bearbeitete, erschien, wurde der Kurztitel zu: The Origin of Species abgeändert. Darwin stellte in seinem Buch die wissenschaftliche Theorie vor, dass sich Populationen von Lebewesen im Laufe von Generationen durch den Prozess der natürlichen Selektion evolutionär verändern. Er lieferte zahlreiche Belege für die Vorstellung, dass die Vielfalt der heute existierenden Organismen von gemeinsamen Vorfahren abstammt. Auf Darwins Reise mit der HMS Beagle in den 1830er Jahren sammelte er erste Hinweise für seine Vorstellungen und vermehrte diese später durch Experimente und wissenschaftliche Korrespondenz....

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

18

Autoritative vs. nicht-autoritative Metadaten

• Autoritative Metadatenstammen von einer zuverlässigen (autoritativen) Quelle, wie z.B. • dem Autor der Original-Daten• einem ausgewiesenen Experten

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

19

Autoritative vs. nicht-autoritative Metadaten

• Nicht-autoritative Metadatenstammen von einer prinzipiell unzuverlässigen Quelle, wie z.B.• den Benutzern• prominentes Beispiel: Social

Tagging Systeme

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

20

AutorRessource

Benutzer

autoritativeMetadaten

Apfel

Frucht

nicht-autoritativeMetadaten

Apfel

apple

Obst

Frühstück

kaufen

Kollaborative Annotation -- Social Tagging

© E.C. Publications, Inc.

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

21

Kollaborative Annotation -- Social Tagging

http://www.wordle.net/

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

22

Semantische Metadaten

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

23

Semantische Metadaten

• sind strukturierte/unstrukturierte Metadaten• Semantik (Bedeutung) der Metadaten ist formal definiert (Ontologie)

und daher maschinenlesbar (und maschinenverstehbar)

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

24

Semantische Metadaten

"An ontology is an explicit, formal specification of a shared conceptualization. The term is borrowed from philosophy, where an Ontology is a systematic account of Existence. For AI systems, what ‘exists’ is that which can be represented.“

(Thomas R. Gruber, 1993)

Konzeptualisierung: abstraktes Modell (Domäne, identifizierte relevante

Begriffe, Beziehungen)

Explizit: Bedeutungen aller Begriffe definiert

Formal: maschinenverstehbar

Gemeinsam: Konsens bzgl. Ontologie

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

25

Publikation

Buch

ist eine

Zeitschrift

ist eine

Verlag verlegt

• Titel• Schlüsselwörter• ...

Eigenschaften

Autorverfasst

wird verfasstvon

Personist eine

Adresse

hat eine

• Nachname• Vorname• Straße...

Eigenschaften

Springer Verlag

ist ein

HaraldSack

ist eine

Digitale Kommunikationist ein

1..n

1..n

Mann

Frauist eine

ist eine

Semantische Metadaten

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

26 • erlauben die Festlegung formaler Axiome• z.B. „Es ist nicht möglich, dass das Publikationsdatum

vor dem Geburtsdatum eines Autors der Publikation liegt.“

• erlauben das Ziehen von Schlussfolgerungen• z.B. „Alle Menschen sind sterblich.“

„Sokrates ist ein Mensch.“ „Daher ist Sokrates sterblich.“

Raffael: Die Schule von Athen, 1510

Semantische Metadaten

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

27• Ziel ist eine Abbildung von Zeichenketten bzw. Low-

Level Metadaten auf formale Wissensrepräsentationen, die Informationen über deren Bedeutung maschinenlesbar/maschinenverstehbar repräsentieren.

http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg.html URI

http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg-foaf.rdf RDF Metadata

foaf:Person RDF Metadata

Jörg Waitelonis Text

Named Entity Recognition

Dienstag, 10. April 12

Entity Mapping

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Entity Mapping

28

foaf:Person

Jörg Waitelonisis afoaf:Project

foaf:Documentfoaf:Organization disjoint with foaf:firstname Jörg

foaf:lastname Waitelonis

property

property

foaf:Person

knows

Harald Sack

is a

foaf:interestfoaf:publicationsfoaf:workplaceHomepage...

property

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

29

Jörg Waitelonis

Entitäten-zuweisung

Entität

Doktorand

ist ein

Klasse

Person

ist eine

Klasse

Named Entity Recognition

Dienstag, 10. April 12

Named Entity Recognition

„Armstrong betrat als erster Mensch den Mond.“ Text

Determine possible Entity Mapping Candidates

We have to examine the Context...

Dienstag, 10. April 12

Named Entity Recognition

„Armstrong betrat als erster Mensch den Mond.“ Text

Create all possible Sets of Mapping Candidates

Armstrong Mensch MondGeorge Armstrong Custer

Neil Armstrong

The Armstrong Twins

Armstrong, Florida

Armstrong, Ontario

Armstrong Automobile

Joe Armstrong

Armstrong County, Texass

Armstrong Gun

Craig Armstrong

Armstrong (Mondkrater)

Louis Armstrong

Armstrong Tunnel

Louis Armstrong International Airport

Armstrong‘s Theorem

Sir Thomas Armstrong

Ian Armstrong

HumanBill Mensch

Bob Mensch

David Mensch

Homer Mensch

Louise Mensch

Halber Mensch

Mensch ärgere Dich nichtMensch Computer

Peter van Mensch

Daniel Mensch

Mensch (album)

Der Mond (Oper)

MOND

Mond Nickel CompanyBrunner Mond

Bernard Mond

Peter Mond

Julian Mond

Ludwig Mond

Violet MondMOND Technologies

Robert Mond

Henry Mond

Alfred Mond

Chava Mond

Dienstag, 10. April 12

Named Entity Recognition

Armstrong Mensch Mond

George Armstrong Custer

Neil Armstrong

Armstrong, Florida

Armstrong, Ontario

Armstrong Gun

Craig Armstrong

Armstrong (Mondkrater)

Louis Armstrong

Sir Thomas Armstrong

Human

Bob Mensch

David Mensch

Homer Mensch

Louise Mensch

Halber Mensch

Mensch ärgere Dich nichtMensch Computer

Mensch (album)

Der Mond (Oper)

Mond (Erdtrabant)

Mond Nickel CompanyBrunner Mond

Bernard Mond

Peter Mond

Julian Mond

Ludwig Mond

Henry Mond

Alfred Mond

Chava Mond

(1) Co-occurence Analysis(2) Semantic Analysis

Dienstag, 10. April 12

1. Dozenten 2. Semantic Multimedia3. Seminar Challenge4. Administratives

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

33

Semantic Multimedia

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Seminar Challenge

34

@INPROCEEDINGS{Cook00thep,    author = {Stephen Cook},    title = {The P versus NP problem},    booktitle = {Clay Mathematical Institute; The Millennium Prize Problem},    year = {2000}}

scientific paper

Metadata (e.g., bibtex)

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Seminar Challenge

35

scientific paper

Citation Network

Citations8383

Computers and Intractibility: A Guide to the Theory of NP-Completeness - Garey, Johnson - 19796981

Introduction to Algorithms - Cormen, Leisersen, et al. - 19902399

A method for obtaining digital signatures and public-key cryptosystems - Rivest, Shamir, et al. - 19781834

Computational Complexity - Papadimitriou - 19941032

Reducibility among combinatorial problems - Karp - 1972820

On computable numbers, with an application to the Entscheidungsproblem - Turing - 1936598

The complexity of theorem-proving procedures - Cook - 1971547

Polynomial-time algorithms for prime factorization and discrete logarithms on a quantum computer - Shor - 1997374

Introduction to the Theory of Computation - Sipser - 1997327

Reducibility among combinatorial problems, in Complexity of Computer Computations - Karp - 1972272

The relative efficiency of propositional proof systems - Cook, Reckhow - 1979247

Algebraic methods in the theory of lower bounds for Boolean circuit complexity - Smolensky - 1987238

Introduction to Algorithms, 2nd edition - Cormen, Leiserson, et al. - 2001

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Seminar Challenge

36

scientific paper

The P versus NP problem is to determine whether every language accepted by some nondeterministic algorithm in polynomial time is also accepted by some (deterministic) algorithm in polynomial time. To define the problem precisely it is necessary to give a formal model of a computer. The standard computer model in computability theory is the Turing machine, introduced by Alan Turing in 1936 [37]. Although the model was introduced before physical computers were built, it nevertheless continues to be accepted as the proper computer model for the purpose of defining the notion of computable function. Informally the class P is the class of decision problems solvable by some algorithm within a number of steps bounded by some fixed polynomial in the length of the input. Turing was not concerned with the efficiency of his machines, rather his concern was whether they can simulate arbitrary algorithms given sufficient time. It turns out, however, Turing machines can generally simulate more efficient computer models (for example, machines equipped with many tapes or an unbounded random access memory) by at most squaring or cubing the computation time. Thus P is a

text content

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Seminar Challenge

37

http://www.bibsonomy.org/

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Seminar Challenge

38

http://www.kde.cs.uni-kassel.de/ws/dc09/

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

■ Gegeben:□ Scientific papers□Metadata□ Citation Network□ ...including additional possibly helpful resources

■ Ziel: □ Analog zur ECML PKDD Challenge 2009 sollen automatisch zu den

gegebenen Ressourcen die am besten passenden semantischen Tags (Entitäten) ermittelt werden.

39

Seminar Challenge: Semantic Tag Recommendation

Dienstag, 10. April 12

1. Dozenten 2. Semantic Multimedia3. Seminar Challenge4. Administratives

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

40

Semantic Multimedia

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Seminar Semantic Multimedia

41

□Semesterwochenstunden: 4□ECTS: 6□Leistungsfeststellung: □Schriftliche Ausarbeitung zum Vortragsthema (Umfang ca. 20 Seiten)

□Musterausarbeitung in den Materialien zum Seminar□Umsetzung einer vorgegebenen Implementierungsaufgabe im Team□Präsentation der Ergebnisse

(Zwischenpräsentation, Endpräsentation, Wochenbesprechungen)

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Seminar Semantic Multimedia

42

□Projektteams mit je 2-3 Studenten bearbeiten alle die selbe Aufgabenstellung□Termine□16./17.4.2012: Technologieeinführung□ab dem 23.4.2012: Wöchentliche Seminargruppentreffen

□Termine nach Absprache□ca. 29.5.2012: Zwischenpräsentation der Projektergebnisse□10.7.2012: Abschlusspräsentation der Ergebnisse

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

Seminar Semantic Multimedia

43

Dienstag, 10. April 12

Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam

44 Literatur

• P. Hitzler, S. Roschke, Y. Sure: Semantic Web Grundlagen, Springer, 2007.

• Grundlegende Materialien via Seminar-Blog http://semmul2012.blogspot.com/

Seminar Semantic Multimedia

Dienstag, 10. April 12