Post on 10-Jul-2015
Sasaki – Markupforum 2014
Tools, offene Daten, Vokabulare und Anwendungsszenarien für
semi-automatische Metadatengenerierung
Felix Sasaki
DFKI / W3C Fellow
1
Sasaki – Markupforum 2014
Überblick
• Metadaten: Was und warum?
• Demo zu neuen Metadaten:Tooling für Inhaltsanreicherung
• Was fehlt für Content Authors?
• Was ist Linked Data? – Kurzeinführung ...
• Offene Datenquellen im Web
• Nächste Schritte
2
Sasaki – Markupforum 2014
Überblick
• Metadaten: Was und warum?
• Demo zu neuen Metadaten:Tooling für Inhaltsanreicherung
• Was fehlt für Content Authors?
• Was ist Linked Data? – Kurzeinführung ...
• Offene Datenquellen im Web
• Nächste Schritte
3
Sasaki – Markupforum 2014
Metadaten
• Häufige Anwendung im Publikationsbereich: Indexierung
– Automatisch
– Manuell
– Kombiniert
4
Sasaki – Markupforum 2014
Metadaten
• Häufige Anwendung im Publikationsbereich: Indexierung
• Standardisierte Vokabulare für manuelle Indexierung
– Bibliothek: Gemeinschaftliche Normdatei
– Verlage, Buchhändler, ....: ONIX
5
Sasaki – Markupforum 2014
Anwendungsszenario:Suche erleichtern
• „Finde alle Bücher über Stuttgart“
• „Stuttgart“ abbildbar auf Metadaten in bibliothekarischen Normdaten
– DNB http://d-nb.info/gnd/4058282-6
– LOChttp://id.loc.gov/authorities/names/n79110280
– VIAF http://viaf.org/viaf/153084910/
– ...
6
Sasaki – Markupforum 2014
WAS HABEN GEGENWÄRTIGE METADATENANWENDUNGENGEMEINSAM?
7
Sasaki – Markupforum 2014
Metadaten = Containerlabel
8
http://d-nb.info/gnd/4058282-6
http://id.loc.gov/authorities/names/n79110280
http://viaf.org/viaf/153084910/
Sasaki – Markupforum 2014
Metadaten – der nächste Schritt:Vom Container in die Inhalte
9
Sasaki – Markupforum 2014
Überblick
• Metadaten: Was und warum?
• Demo zu neuen Metadaten:Tooling für Inhaltsanreicherung
• Was fehlt für Content Authors?
• Was ist Linked Data? – Kurzeinführung ...
• Offene Datenquellen im Web
• Nächste Schritte
10
Sasaki – Markupforum 2014
Schritt 1: AutomatischeErkennung von Eigennamen
• <p>Welcome to Stuttgart.</p>
Input
• <p>Welcome to <span its-ta-ident-ref="http://dbpedia.org/resource/Stuttgart"...>Stuttgart</span>!.</p>
Output (als ITS 2.0 “Text Analysis” Markup)
11
Sasaki – Markupforum 2014
Schritt 2: Anreicherung der Inhalte durch Zugriff auf DBpedia via SPARQL
Nutzt DBpedia URIs aus Schritt 1.
• SELECT ?wikiURI ...WHERE{ http://dbpedia.org/resource/Stuttgartrdf:type <http://schema.org/Place>.... }
Beispielabfrage, prüft ob Entität ein Ort (place) ist
12
Sasaki – Markupforum 2014
Schritt 3: Generierung von Schema.orgMarkup und Inhalten
• Teil 1: SPARQL Query Ausgabe und
• Teil 2: Dokument
• <p>Welcome to <span its-ta-ident-ref="http://dbpedia.org/resource/Stuttgart"...>Stuttgart</span>!</p>
Input
• <p>Welcome to <span ... Itemscope=""
itemtype="http://schema.org/Place">… Stuttgart</span>! Population: 600038</p>
Output: Dokument mit Schema.org Markup
13
Sasaki – Markupforum 2014
Outputtest mit„Structured Data Testing Tool“
14
http://www.google.com/webmasters/tools/richsnippets
Sasaki – Markupforum 2014
Überblick
• Metadaten: Was und warum?
• Demo zu neuen Metadaten:Tooling für Inhaltsanreicherung
• Was fehlt für Content Authors?
• Was ist Linked Data? – Kurzeinführung ...
• Offene Datenquellen im Web
• Nächste Schritte
15
Sasaki – Markupforum 2014
1) Tooling für Content Authors
• Beispiel oXygen Editor Modifikation
• Informationsquellen aus dem Web holen
– Autor muss Quellen und Abfragen auswählen können
– Strukturgenerierung muss konfigurierbar sein
16
Sasaki – Markupforum 2014
1) Tooling für Content Authors• Abfrage von Datenquellen macht Inhalte
dynamisch – Inhalte werden intelligent und „fragen die Datenquellen ab“– Beispiel: Einwohnerzahl für Orte aus DBpedia
17
Sasaki – Markupforum 2014
1) Tooling für Content Authors• Abfrage von Datenquellen macht Inhalte
dynamisch – Inhalte werden intelligent und „fragen die Datenquellen ab“– Beispiel: Geburtsdatum für Personen aus DBpedia
18
Sasaki – Markupforum 2014
2) Wissen umDatenquellen und Technologien
• Technologien In a Nutshell– RDF um Daten zu repräsentieren
– SPARQL zur Abfrage
– ITS 2.0 „Text Analysis“ um Identikatoren in Inhalten zu Speichern > Link zur Linked Data Cloud
• Relevante Datenquellen– Allgemein: DBpedia
– Speziell: Abhängig von der Domäne + dem Anwendungsfall
– (Potential): die eigenen, angereicherten Inhalte selbst
– Beispiel: Reiseführer über Stuttgart
19
Sasaki – Markupforum 2014
Überblick
• Metadaten: Was und warum?
• Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung
• Was fehlt für Content Authors?
• Was ist Linked Data? – Kurzeinführung ...
• Offene Datenquellen im Web
• Nächste Schritte
20
Sasaki – Markupforum 2014
WAS IST LINKED DATA?KURZEINFÜHRUNG …
21
Sasaki – Markupforum 2014
Bausteine für das Web
<p>All content on this site is licensed under<a
href="http://creativecommons.org/licenses/by/3.0/">a Creative Commons License</a>. </p>
22
Sasaki – Markupforum 2014
Inhalt
<p>All content on this site is licensed under<a
href="http://creativecommons.org/licenses/by/3.0/">a Creative Commons License</a>. </p>
23
Sasaki – Markupforum 2014
Links (oder “Identifier”)
<p>All content on this site is licensed under<a
href="http://creativecommons.org/licenses/by/3.0/">a Creative Commons License</a>. </p>
24
Sasaki – Markupforum 2014
Einfach: “Finde alle Seiten mit Links zu http://creativecommons.org/licenses/by/3.0/“
<p>All content on this site is licensed under<a
href="http://creativecommons.org/licenses/by/3.0/">a Creative Commons License</a>. </p>
25
✔
Sasaki – Markupforum 2014
Noch schwierig: “Finde alle Inhalte die unter einer Creative Commons Lizenz stehen“
<p>All content on this site is licensed under<a
href="http://creativecommons.org/licenses/by/3.0/">a Creative Commons License</a>. </p>
26
?
Sasaki – Markupforum 2014
Linked Data =maschinenlesbare Information im Web
<p>All content on this site is licensed under<a property="http://creativecommons.org/ns#license"
href="http://creativecommons.org/licenses/by/3.0/">a Creative Commons License</a>. </p>
27
?
Sasaki – Markupforum 2014
Linked Data =maschinenlesbare Information im Web
28
Web der Dokumente Web der Daten
Sasaki – Markupforum 2014
AUFGABEN & TECHNOLOGIEN
29
Sasaki – Markupforum 2014
Aufgaben …
Linked Data erzeugen
Linked Data Vokabulare definieren
Abfrage
30
Sasaki – Markupforum 2014
Technologien
• Linked Data erzeugen: RDF (Resource Description Framework)
• Vokabulare definieren: RDFS, SKOS, OWL (für komplexe wissensbasierte Modellierung -Ontologien)
• Abfrage: SPARQL
31
Sasaki – Markupforum 2014
Linked Data = RDF „Aussagen“
32
http://www.w3.org/Talks/2014/1114-sasaki-metadata/
http://creativecommons.org/licenses/by/3.0/
http://creativecommons.org/ns#license
Referenz zu einer Lizenz als RDF Aussage (Visualisierung):
Sasaki – Markupforum 2014
Turtle Syntax
33
http://www.w3.org/Talks/2014/1114-sasaki-metadata/
http://creativecommons.org/licenses/by/3.0/
http://creativecommons.org/ns#license
Referenz zu einer Lizenz als RDF Aussage (Visualisierung) + Turtle Syntax:
@prefix cc: <http://creativecommons.org/ns#>.@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>.<http://www.w3.org/Talks/2014/1114-sasaki-metadata/>
cc:license<http://creativecommons.org/licenses/by/3.0/>.
Sasaki – Markupforum 2014
RDF Aussagen …
34
http://www.w3.org/Talks/2014/1114-sasaki-metadata/
http://creativecommons.org/licenses/by/3.0/
http://creativecommons.org/ns#license
Sasaki – Markupforum 2014
… auf der Basis vonVokabularien
35
http://www.w3.org/Talks/2014/1114-sasaki-metadata/
http://creativecommons.org/licenses/by/3.0/
cc:license rdf:Propertyrdf:Type
ex:Presentationsrdf:Type
RDF Schema- Definition von Classes (example “Presentations”) und properties (like “cc:license”)OWL (Web Ontology Language)- Definition weiterer (logischer) Constraints für VokabulareSKOS- Beschreibung von Thesauri, Taxonomien, Klassifikationen
Sasaki – Markupforum 2014
Query - SPARQL
• Query Sprache für RDF
• Muster in Linkstrukturen
• Z.B. „Finde Präsentationen mit CC ... Lizenz“
Ergebnis:
http://www.w3.org/Talks/2014/1114-sasaki-metadata/
36
PREFIX cc: <http://creativecommons.org/ns#>SELECT ?presentation WHERE {?presentation cc:license <http://creativecommons.org/licenses/by/3.0/>.}
Sasaki – Markupforum 2014
SPARQL Abfrage mit Dbpedia: „Personen die in Stuttgart vor 1900 geboren wurden“:
http://tinyurl.com/dbpedia-bsp
37
Sasaki – Markupforum 2014
Q/A in Suchmaschinen heute
38
Beispiel nach Noz Urbina, Präsentation bei „Soap!“ Konferenz, Oktober 2014
Sasaki – Markupforum 2014
Potential: Q/A selbstgemacht
• Suche traditional
– Volltextindexierung, Linkgewichtung
• Metadaten heute
– Zugang zu Containern
• Metadaten morgen: Linked Data
– Neue Anwendungsszenarien, z.B. Q/A selbst gemacht
39
Sasaki – Markupforum 2014
Wiederholung:Metadaten = Containerlabel
40
http://d-nb.info/gnd/4058282-6
http://id.loc.gov/authorities/names/n79110280
http://viaf.org/viaf/153084910/
Sasaki – Markupforum 2014
Potential: Buchproduktionsprozess für Anwendung „Q/A via Metadaten in Inhalten“
41
Sasaki – Markupforum 2014
Potential: Buchauslieferung = Inhalte + Anreicherung
42
Sasaki – Markupforum 2014
Potential: Buchauslieferung = Inhalte + Anreicherung + Service Linked Data Abfrage über die Anreicherungen!
43
Abfrage „Personen die in Stuttgart vor 1900 geboren wurden“• Ergebnis ist anders als Abfrage gegenüber DBpedia
„Gustav Schwab“• Buch als Linked Data Quelle in verschiedenen Sprachen zugänglich• Linked Data Anreicherung + Anfragen: spezifisch für Markt
Reiseführer, Technische Dokumentation, ...
Sasaki – Markupforum 2014
Überblick
• Metadaten: Was und warum?
• Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung
• Was fehlt für Content Authors?
• Was ist Linked Data? – Kurzeinführung ...
• Offene Datenquellen im Web
• Nächste Schritte
44
Sasaki – Markupforum 2014
Linked Data 1/3
Sasaki – Markupforum 2014
Linked Data 2/3
Linked Open Data Cloud
Sasaki – Markupforum 2014
Linked Data 2/3
Linked Open Data Cloud
Umfasst DNB, Library of Congress Subject Headings, VIAF, ...
Sasaki – Markupforum 2014
Linked Data 3/3
Linguistic Linked Open Data Cloud
Sasaki – Markupforum 2014
Linked Open Data Clouds –Datensätze und Themen
Linked Open Data LinguisticLinked Open Data
Öffentliche Daten 183 18.05%Publikations(Meta)daten 96 9.47%Medizin, Biologie 83 8.19%User-generated Content 48 4.73%Domänenübergreifend 41 4.04%Multimedia 22 2.17%Geoinformationen 21 2.07%Soziales Web 520 51.28%
Total 1014
LexikaThesauriEinzelsprachlichMehrsprachig…
Sasaki – Markupforum 2014
Überblick
• Metadaten: Was und warum?
• Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung
• Was fehlt für Content Authors?
• Was ist Linked Data? – Kurzeinführung ...
• Offene Datenquellen im Web
• Nächste Schritte
50
Sasaki – Markupforum 2014
Nächste Schritte(und Herausforderungen)
• Datenquellen finden– Zugangspunkt
http://datahub.io/dataset?tags=lod
• Datenqualität
• Vereinfachen: Linked Data erzeugen– Z.B. CSV als Linked Data verarbeiten
• Linked Data Tooling zur Inhaltsanreicherung in Authoring Prozesse einbauen
• Abfrage + Services für Endnutzer bereit stellen
51
Sasaki – Markupforum 2014
Einstieg/Loslegen
W3C LD4LT (Linked Data for Language Technology) Community Group
• http://www.w3.org/community/ld4lt/
• https://www.w3.org/community/ld4lt/join
• https://www.w3.org/community/ld4lt/wiki/Lider_roadmapping_activities
• Teilnahme ist frei
LIDER: EU Projekt, November 2013 – Oktober 2015
• Basisplanung („Roadmap“) für eine umfangreiche „Linguistic Linked Data Cloud“ und Anwendungen im Bereich Content Analytics zu schaffen
• Anwendungsszenarien und Anforderungen von … Ihnen
Sasaki – Markupforum 2014
Zusammenfassung
• Metadaten zur Anreicherung von Inhalten ist möglich• Prototypen Tools für Content Authors existieren• Externe, offene Linked Data Datenquellen wie DBpedia
sind wichtiger Bestandteil der Anreicherung• Angereicherte Inhalte können Basis für neue
Anwendungen wie SEO sein• Angereicherte Inhalte können selbst zur Datenquelle
werden und neue Anwendungen wie (mehrsprachige) Q/A Services erlauben
• Nächste Schritte u.a.: Bereitstellung einfacher Toolkomponenten für die Markupwelt
53
Sasaki – Markupforum 2014
Tools, offene Daten, Vokabulare und Anwendungsszenarien für
semi-automatische Metadatengenerierung
Felix Sasaki
DFKI / W3C Fellow
54