01 Semantic Multimedia - Kickoff Sommersemester 2012
-
Upload
harald-sack -
Category
Technology
-
view
546 -
download
5
description
Transcript of 01 Semantic Multimedia - Kickoff Sommersemester 2012
SEMANTIC MULTIMEDIASeminar
Dr. Harald Sack / Jörg Waitelonis Magnus Knuth / Nadine Steinmetz
Hasso-Plattner-Institut für SoftwaresystemtechnikUniversität Potsdam
Sommersemester 2012
Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC).Dienstag, 10. April 12
1. Dozenten 2. Semantic Multimedia3. Seminar Challenge4. Administratives
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
2
Semantic Multimedia
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
3
Semantic MultimediaDozenten / Tutoren
Dr. Harald Sack■ Senior Researcher am HPI■ Leiter der Forschungsgruppe
„Semantische Technologien“■ Forschungsschwerpunkte:□ Semantic Web Technologien□ Multimedia Retrieval□ Wissensrepräsentation■ Yovisto.com / SEMEX
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Dipl. Inform. Jörg Waitelonis
■Studium Informatik Uni-Jena bis 2006■2006-2007 Exist-Seed Projekt Osotis■ seit 2007 Gründer von yovisto.com■Entwickler von REPLAY (ETH-Zürich)■ Forschung: Semantic Web, Multimedia-Retrieval,
Suchmaschinen Technologien
4
Semantic MultimediaDozenten / Tutoren
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
5Dipl.-Inf. Magnus Knuth
■Studium Informatik, Uni Leipzig bis 2007
■ Institut für Medizinische Informatik, Statistik und Epidemiologie, Uni Leipzig 2006-2010
■Research Assistant am HPI, Contentus & Mediaglobe■ Forschung: Semantic Web, Knowledge
Management, Information Retrieval, Personalisierte Webapplikationen
Semantic MultimediaDozenten / Tutoren
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
6 Dipl.-Inf. Nadine Steinmetz
■Studium Informatik, TU Ilmenau bis 2005
■2005-2010 TU Berlin:
• kooperative Lernszenarien
• Integration von Semantic Web Technologien in kooperative Lernplattformen
■ seit 05/2010 am HPI:• Semantische Analyse, Named Entity Recognition,
Disambiguierung
Semantic MultimediaDozenten / Tutoren
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
7
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
8
■ Projektzeitraum: 2009-2012■ effiziente Suche nach/in AV-Inhalten in Medienarchiven und Rundfunkanstalten ■ Arbeitsprozesslösung für die effiziente Erfassung, Aufbereitung und Verwertung von
AV-Inhalten
Dienstag, 10. April 12
Dienstag, 10. April 12
1. Dozenten 2. Semantic Multimedia3. Seminar Challenge4. Administratives
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
10
Semantic Multimedia
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
11
Wie kann ich etwas (wieder) finden...?Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
12„Metadaten sind Daten, die Informationen über andere Daten enthalten“ und „Metadaten werden benötigt, um in der Lage zu sein, einen bestimmten Zweck zu erfüllen (oder) ein bestimmtes Ergebnis zu erreichen“ (informelle Definition, Wikipedia)
„Metadaten sind strukturierte, kodierte Daten, die Charakteristika informationstragender Entitäten beschreiben, zum Zweck der Identifikation, Recherche, Beurteilung und der Verwaltung der damit beschriebenen Entitäten.“ (W.R. Durell, 1985)
„Metadaten sind maschinenlesbare Informationen über elektronische Ressourcen oder andere Dinge“ (W3C)
Metadaten
Dienstag, 10. April 12
•bibliografische Metadaten
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
13
Identifikation überISBN / ISSNAutor(en)Titel...
Klassifikation überKategorienSchlüsselwörterAbstract / Zusammenfassung...
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
14
• Title: Namen des Objekts. • Creator: Personen, Organisationen oder Dienste, die in erster Linie für den Inhalt des Objekts verantwortlich sind, z.B. Autorinnen oder Autoren. • Subject: Thema (topic) des Objekts, typischerweise Stichwörter, Deskriptoren oder Elemente eines Klassifikationssystems. • Description: Beschreibung des Inhalts des Objekts als Text, z.B. als Abstract oder Inhaltsverzeichnis. • Publisher: Personen oder Organisationen, die dafür verantwortlich sind, das Objekt zugänglich zu machen. • Contributor: Personen oder Organisationen, die wesentliche Beiträge zum Inhalt des Objekts geleistet haben, aber nicht unter Creator genannt sind (Herausgebende, Übersetzerinnen, Illustratoren).
....
Strukturierte Metadaten
•bestehen aus Name-Werte Paaren (Autor = “Böll, Heinrich“)
•sind typisiert (Autor ist vom Typ Zeichenkette)
•Semantik strukturierter Daten beruht auf gemeinsamer Vereinbarung (z.B. Standardisierung bei Dublin Core)
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
15
Tierreich (Animalia)
Wirbeltiere
Mensch (Homo)
Moderner Mensch (Homo sapiens)
Menschenartige (Hominidae)
Primaten
Säugetiere (Mammaliae)
Mehrzeller (Eukaria)
Strukturierte Metadaten
•können hierarchisch strukturiert werden (Taxonomie)
Tierreich (AnimaliaWirbeltiere
Mensch (Homo)
Moderner Mensch (Homo sapiens)
Menschenartige (Hominidae)
Primaten
Säugetiere (Mammaliae)
Mehrzeller (Eukaria)
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
16
Hauptklassen000 Inf.-Wiss., allg. Werke100 Philosophie200 Religion300 Sozialwissenschaften400 Sprachen500 Naturwissenschaften600 Technik (Angew. Wiss.)700 Künste800 Literatur900 Geschichte
DDC 23 (2011)•4 Bände•4000 Seiten•45.000 Klassen•96.000 Registerbegriffe
DDC 1 (1876)•44 Seiten
Strukturierte Metadaten
• Klassifikationssystemez.B. Dewey Decimal System
Dienstag, 10. April 12
Unstrukturierte Metadaten
• als unstrukturierte Metadaten werden textuelle Metadaten bezeichnet, deren Semantik nicht durch vorherige Vereinbarung festgelegt ist, sondern durch ihren (natürlichsprachlichen) Inhalt.
• Bsp.: Inhaltsangabe/abstract
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
17
Über die Entstehung der Arten von Charles Darwin (englisch: On the Origin of Species), veröffentlicht am 24. November 1859, ist ein wissenschaft l iches Buch, das als grundlegendes Werk der Evolutionsbiologie gilt. Sein vollständiger Titel lautet: On the Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life. Als 1872 die sechste Auflage, das war die letzte von Darwin selbst bearbeitete, erschien, wurde der Kurztitel zu: The Origin of Species abgeändert. Darwin stellte in seinem Buch die wissenschaftliche Theorie vor, dass sich Populationen von Lebewesen im Laufe von Generationen durch den Prozess der natürlichen Selektion evolutionär verändern. Er lieferte zahlreiche Belege für die Vorstellung, dass die Vielfalt der heute existierenden Organismen von gemeinsamen Vorfahren abstammt. Auf Darwins Reise mit der HMS Beagle in den 1830er Jahren sammelte er erste Hinweise für seine Vorstellungen und vermehrte diese später durch Experimente und wissenschaftliche Korrespondenz....
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
18
Autoritative vs. nicht-autoritative Metadaten
• Autoritative Metadatenstammen von einer zuverlässigen (autoritativen) Quelle, wie z.B. • dem Autor der Original-Daten• einem ausgewiesenen Experten
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
19
Autoritative vs. nicht-autoritative Metadaten
• Nicht-autoritative Metadatenstammen von einer prinzipiell unzuverlässigen Quelle, wie z.B.• den Benutzern• prominentes Beispiel: Social
Tagging Systeme
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
20
AutorRessource
Benutzer
autoritativeMetadaten
Apfel
Frucht
nicht-autoritativeMetadaten
Apfel
apple
Obst
Frühstück
kaufen
Kollaborative Annotation -- Social Tagging
© E.C. Publications, Inc.
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
21
Kollaborative Annotation -- Social Tagging
http://www.wordle.net/
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
22
Semantische Metadaten
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
23
Semantische Metadaten
• sind strukturierte/unstrukturierte Metadaten• Semantik (Bedeutung) der Metadaten ist formal definiert (Ontologie)
und daher maschinenlesbar (und maschinenverstehbar)
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
24
Semantische Metadaten
"An ontology is an explicit, formal specification of a shared conceptualization. The term is borrowed from philosophy, where an Ontology is a systematic account of Existence. For AI systems, what ‘exists’ is that which can be represented.“
(Thomas R. Gruber, 1993)
Konzeptualisierung: abstraktes Modell (Domäne, identifizierte relevante
Begriffe, Beziehungen)
Explizit: Bedeutungen aller Begriffe definiert
Formal: maschinenverstehbar
Gemeinsam: Konsens bzgl. Ontologie
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
25
Publikation
Buch
ist eine
Zeitschrift
ist eine
Verlag verlegt
• Titel• Schlüsselwörter• ...
Eigenschaften
Autorverfasst
wird verfasstvon
Personist eine
Adresse
hat eine
• Nachname• Vorname• Straße...
Eigenschaften
Springer Verlag
ist ein
HaraldSack
ist eine
Digitale Kommunikationist ein
1..n
1..n
Mann
Frauist eine
ist eine
≠
Semantische Metadaten
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
26 • erlauben die Festlegung formaler Axiome• z.B. „Es ist nicht möglich, dass das Publikationsdatum
vor dem Geburtsdatum eines Autors der Publikation liegt.“
• erlauben das Ziehen von Schlussfolgerungen• z.B. „Alle Menschen sind sterblich.“
„Sokrates ist ein Mensch.“ „Daher ist Sokrates sterblich.“
Raffael: Die Schule von Athen, 1510
Semantische Metadaten
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
27• Ziel ist eine Abbildung von Zeichenketten bzw. Low-
Level Metadaten auf formale Wissensrepräsentationen, die Informationen über deren Bedeutung maschinenlesbar/maschinenverstehbar repräsentieren.
http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg.html URI
http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg-foaf.rdf RDF Metadata
foaf:Person RDF Metadata
Jörg Waitelonis Text
Named Entity Recognition
Dienstag, 10. April 12
Entity Mapping
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Entity Mapping
28
foaf:Person
Jörg Waitelonisis afoaf:Project
foaf:Documentfoaf:Organization disjoint with foaf:firstname Jörg
foaf:lastname Waitelonis
property
property
foaf:Person
knows
Harald Sack
is a
foaf:interestfoaf:publicationsfoaf:workplaceHomepage...
property
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
29
Jörg Waitelonis
Entitäten-zuweisung
Entität
Doktorand
ist ein
Klasse
Person
ist eine
Klasse
Named Entity Recognition
Dienstag, 10. April 12
Named Entity Recognition
„Armstrong betrat als erster Mensch den Mond.“ Text
Determine possible Entity Mapping Candidates
We have to examine the Context...
Dienstag, 10. April 12
Named Entity Recognition
„Armstrong betrat als erster Mensch den Mond.“ Text
Create all possible Sets of Mapping Candidates
Armstrong Mensch MondGeorge Armstrong Custer
Neil Armstrong
The Armstrong Twins
Armstrong, Florida
Armstrong, Ontario
Armstrong Automobile
Joe Armstrong
Armstrong County, Texass
Armstrong Gun
Craig Armstrong
Armstrong (Mondkrater)
Louis Armstrong
Armstrong Tunnel
Louis Armstrong International Airport
Armstrong‘s Theorem
Sir Thomas Armstrong
Ian Armstrong
HumanBill Mensch
Bob Mensch
David Mensch
Homer Mensch
Louise Mensch
Halber Mensch
Mensch ärgere Dich nichtMensch Computer
Peter van Mensch
Daniel Mensch
Mensch (album)
Der Mond (Oper)
MOND
Mond Nickel CompanyBrunner Mond
Bernard Mond
Peter Mond
Julian Mond
Ludwig Mond
Violet MondMOND Technologies
Robert Mond
Henry Mond
Alfred Mond
Chava Mond
Dienstag, 10. April 12
Named Entity Recognition
Armstrong Mensch Mond
George Armstrong Custer
Neil Armstrong
Armstrong, Florida
Armstrong, Ontario
Armstrong Gun
Craig Armstrong
Armstrong (Mondkrater)
Louis Armstrong
Sir Thomas Armstrong
Human
Bob Mensch
David Mensch
Homer Mensch
Louise Mensch
Halber Mensch
Mensch ärgere Dich nichtMensch Computer
Mensch (album)
Der Mond (Oper)
Mond (Erdtrabant)
Mond Nickel CompanyBrunner Mond
Bernard Mond
Peter Mond
Julian Mond
Ludwig Mond
Henry Mond
Alfred Mond
Chava Mond
(1) Co-occurence Analysis(2) Semantic Analysis
Dienstag, 10. April 12
1. Dozenten 2. Semantic Multimedia3. Seminar Challenge4. Administratives
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
33
Semantic Multimedia
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Seminar Challenge
34
@INPROCEEDINGS{Cook00thep, author = {Stephen Cook}, title = {The P versus NP problem}, booktitle = {Clay Mathematical Institute; The Millennium Prize Problem}, year = {2000}}
scientific paper
Metadata (e.g., bibtex)
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Seminar Challenge
35
scientific paper
Citation Network
Citations8383
Computers and Intractibility: A Guide to the Theory of NP-Completeness - Garey, Johnson - 19796981
Introduction to Algorithms - Cormen, Leisersen, et al. - 19902399
A method for obtaining digital signatures and public-key cryptosystems - Rivest, Shamir, et al. - 19781834
Computational Complexity - Papadimitriou - 19941032
Reducibility among combinatorial problems - Karp - 1972820
On computable numbers, with an application to the Entscheidungsproblem - Turing - 1936598
The complexity of theorem-proving procedures - Cook - 1971547
Polynomial-time algorithms for prime factorization and discrete logarithms on a quantum computer - Shor - 1997374
Introduction to the Theory of Computation - Sipser - 1997327
Reducibility among combinatorial problems, in Complexity of Computer Computations - Karp - 1972272
The relative efficiency of propositional proof systems - Cook, Reckhow - 1979247
Algebraic methods in the theory of lower bounds for Boolean circuit complexity - Smolensky - 1987238
Introduction to Algorithms, 2nd edition - Cormen, Leiserson, et al. - 2001
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Seminar Challenge
36
scientific paper
The P versus NP problem is to determine whether every language accepted by some nondeterministic algorithm in polynomial time is also accepted by some (deterministic) algorithm in polynomial time. To define the problem precisely it is necessary to give a formal model of a computer. The standard computer model in computability theory is the Turing machine, introduced by Alan Turing in 1936 [37]. Although the model was introduced before physical computers were built, it nevertheless continues to be accepted as the proper computer model for the purpose of defining the notion of computable function. Informally the class P is the class of decision problems solvable by some algorithm within a number of steps bounded by some fixed polynomial in the length of the input. Turing was not concerned with the efficiency of his machines, rather his concern was whether they can simulate arbitrary algorithms given sufficient time. It turns out, however, Turing machines can generally simulate more efficient computer models (for example, machines equipped with many tapes or an unbounded random access memory) by at most squaring or cubing the computation time. Thus P is a
text content
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Seminar Challenge
37
http://www.bibsonomy.org/
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Seminar Challenge
38
http://www.kde.cs.uni-kassel.de/ws/dc09/
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
■ Gegeben:□ Scientific papers□Metadata□ Citation Network□ ...including additional possibly helpful resources
■ Ziel: □ Analog zur ECML PKDD Challenge 2009 sollen automatisch zu den
gegebenen Ressourcen die am besten passenden semantischen Tags (Entitäten) ermittelt werden.
39
Seminar Challenge: Semantic Tag Recommendation
Dienstag, 10. April 12
1. Dozenten 2. Semantic Multimedia3. Seminar Challenge4. Administratives
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
40
Semantic Multimedia
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Seminar Semantic Multimedia
41
□Semesterwochenstunden: 4□ECTS: 6□Leistungsfeststellung: □Schriftliche Ausarbeitung zum Vortragsthema (Umfang ca. 20 Seiten)
□Musterausarbeitung in den Materialien zum Seminar□Umsetzung einer vorgegebenen Implementierungsaufgabe im Team□Präsentation der Ergebnisse
(Zwischenpräsentation, Endpräsentation, Wochenbesprechungen)
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Seminar Semantic Multimedia
42
□Projektteams mit je 2-3 Studenten bearbeiten alle die selbe Aufgabenstellung□Termine□16./17.4.2012: Technologieeinführung□ab dem 23.4.2012: Wöchentliche Seminargruppentreffen
□Termine nach Absprache□ca. 29.5.2012: Zwischenpräsentation der Projektergebnisse□10.7.2012: Abschlusspräsentation der Ergebnisse
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Seminar Semantic Multimedia
43
Dienstag, 10. April 12
Seminar: Semantic Multimedia, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
44 Literatur
• P. Hitzler, S. Roschke, Y. Sure: Semantic Web Grundlagen, Springer, 2007.
• Grundlegende Materialien via Seminar-Blog http://semmul2012.blogspot.com/
Seminar Semantic Multimedia
Dienstag, 10. April 12