LOD @ SpringerNature [16. DINI Jahrestagung]...LOD @ SpringerNature – 16. DINI Jahrestagung –...

19
LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15 0 LOD @ SpringerNature [16. DINI Jahrestagung] Markus Kaindl, SpringerNature Kai Eckert, HdM Stuttgart 28. Oktober 2015 DNB Frankfurt/Main

Transcript of LOD @ SpringerNature [16. DINI Jahrestagung]...LOD @ SpringerNature – 16. DINI Jahrestagung –...

Page 1: LOD @ SpringerNature [16. DINI Jahrestagung]...LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15 4 Ziel: Daten über Konferenzpublikationen in strukturiertem Format von vertrauenswürdiger

LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15

0

LOD @ SpringerNature [16. DINI Jahrestagung]

Markus Kaindl, SpringerNature

Kai Eckert, HdM Stuttgart

28. Oktober 2015 • DNB Frankfurt/Main

Page 2: LOD @ SpringerNature [16. DINI Jahrestagung]...LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15 4 Ziel: Daten über Konferenzpublikationen in strukturiertem Format von vertrauenswürdiger

LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15

1

Motivation: Sichtbarkeit & Auffindbarkeit von Konferenzpublikationen

Page 3: LOD @ SpringerNature [16. DINI Jahrestagung]...LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15 4 Ziel: Daten über Konferenzpublikationen in strukturiertem Format von vertrauenswürdiger

LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15

2

Motivation: maschinelle Verarbeitung von Konferenz-Informationen

Page 4: LOD @ SpringerNature [16. DINI Jahrestagung]...LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15 4 Ziel: Daten über Konferenzpublikationen in strukturiertem Format von vertrauenswürdiger

LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15

3

Motivation: Warum ein Linked Data Pilotprojekt?

• Mehrwert für Konferenz-Autoren und Organisatoren • Mehr Leser, mehr Zitate, mehr Downloads

• Zusätzlicher Datenverkehr, Manuskript-Einreichungen, Konferenzbesucher etc.

• Zusammenarbeit mit

• Forschern (z.B. Nutzung der Daten bei der Semantic Publishing Challenge 2015)

• Bibliotheken (z.B. Linked Data Initiativen) und Angebot besserer Datendienste

• Interne Planung (Entwicklung von Konferenzen, Priorisierung) etc.

• Ad-hoc Analysen, z.B. wo wurden die meisten Konferenzen abgehalten (Stadt, Land) oder ähnliche Abfragen – siehe SPARQL-Beispiele auf der Portalseite

Page 5: LOD @ SpringerNature [16. DINI Jahrestagung]...LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15 4 Ziel: Daten über Konferenzpublikationen in strukturiertem Format von vertrauenswürdiger

LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15

4

Ziel: Daten über Konferenzpublikationen in strukturiertem Format von vertrauenswürdiger Quelle ➔ Konferenz- und nicht Buch-Fokus

Linked Open Data Pilot: Kooperation mit LOD2-Projekt

<ConferenceInfo>

<ConfSeriesName ID=”semweb”>

International Semantic Web Conference </ConfSeriesName>

<ConfEventAbbreviation>ISWC</ConfEventAbbreviation>

<ConfNumber>12</ConfNumber>

<ConfEventLocation>

<City>Sydney, NSW</City>

<Country>Australia</Country>

</ConfEventLocation>

<ConfEventDateStart>

<Year>2013</Year><Month>10</Month>

<Day>21</Day></ConfEventDateStart>

<ConfEventDateEnd>

<Year>2013</Year><Month>10</Month>

<Day>25</Day></ConfEventDateEnd>

</ConferenceInfo>

Unstrukturiertes Format Strukturiertes Format

Page 6: LOD @ SpringerNature [16. DINI Jahrestagung]...LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15 4 Ziel: Daten über Konferenzpublikationen in strukturiertem Format von vertrauenswürdiger

LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15

5

Projektpartner

• Forschungsgruppe “Data and Web Science” der Universität Mannheim

• NetWise: Systemintegration, Verbindung

zum Produktionssystem, Visualisierung etc.

Volha Bryl Kai Eckert Chris Bizer

Page 7: LOD @ SpringerNature [16. DINI Jahrestagung]...LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15 4 Ziel: Daten über Konferenzpublikationen in strukturiertem Format von vertrauenswürdiger

LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15

6

• LNCS (Lecture Notes in Computer Science)

• LNBIP (Lecture Notes in Business Information Processing)

• CCIS (Communications in Computer and Information Science)

• IFIP-AICT (Advances in Information and Communication Technology)

• LNICST (Lecture Notes of the Institute for Computer Sciences, Social Informatics and Telecommunications Engineering)

+++ Manuelle Qualitätskontrolle von Kerndaten, ähnlich wie bei DBLP

(Gegenwärtig durch die tägliche Arbeit des LNCS-Teams gewährleistet)

Welche LNCS-Reihen sind enthalten?

Page 8: LOD @ SpringerNature [16. DINI Jahrestagung]...LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15 4 Ziel: Daten über Konferenzpublikationen in strukturiertem Format von vertrauenswürdiger

LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15

7

Zahlen zum Piloten

38

7.999 Konferenzen

15,000

1.233 Konferenzreihen

11th Extended Semantic Web Conference

10th Extended Semantic Web Conference

...

Extended Semantic Web Conference

International Semantic Web Conference

...

Veröffentlicht in:

Page 9: LOD @ SpringerNature [16. DINI Jahrestagung]...LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15 4 Ziel: Daten über Konferenzpublikationen in strukturiertem Format von vertrauenswürdiger

LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15

8

Implementierung des LOD Piloten

• Verwendete Software

• Apache Jena Fuseki als Store

• Pubby in der deutlich erweiterten DM2E-Version: https://github.com/DM2E/pubby

• Diverse Skripte zum Integrieren und Laden der Daten.

Page 10: LOD @ SpringerNature [16. DINI Jahrestagung]...LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15 4 Ziel: Daten über Konferenzpublikationen in strukturiertem Format von vertrauenswürdiger

LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15

9

Datenbasis

• Daten erreichen uns aus verschiedenen Quellen:

• Kerndaten aus den Systemen von Springer.

• Manuell von Springer gepflegte zusätzliche Daten.

• Von externen Anbietern gelieferte Daten, die durch Springer aufbereitet werden (z.B. Rankings).

• Fertige RDF-Daten von Kooperationspartnern (z.B. die Komitee-Daten der TU Wien).

Page 11: LOD @ SpringerNature [16. DINI Jahrestagung]...LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15 4 Ziel: Daten über Konferenzpublikationen in strukturiertem Format von vertrauenswürdiger

LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15

10

Die Ontologie entsteht mit den Daten

Datenextraktion

Aufbereitung Anpassung der

Ontologie

Laden der Daten

Page 12: LOD @ SpringerNature [16. DINI Jahrestagung]...LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15 4 Ziel: Daten über Konferenzpublikationen in strukturiertem Format von vertrauenswürdiger

LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15

11

Erste Veröffentlichung (aktueller Stand)

Page 13: LOD @ SpringerNature [16. DINI Jahrestagung]...LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15 4 Ziel: Daten über Konferenzpublikationen in strukturiertem Format von vertrauenswürdiger

LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15

12

Ontologie-Entwicklung

• Die Ontologie ist noch nicht stabil und wird weiterhin überarbeitet.

• Designprinzipien:

• Alle verwendeten Properties und Classes werden unter dem Springer-Namespace erstellt und dann mit externen Vokabularen verlinkt.

• Ausnahme: Bei der Beschreibung der Datenprovenienz wird direkt void und Dublin Core verwendet, da hier eine möglichst einfache Beschreibung das Ziel ist.

• Modellierungsmuster werden nach Möglichkeit von existierenden Ontologien übernommen, um eine direkte Verlinkung und damit eine leichte Datenintegration zu unterstützen.

• Feedback aus der Community (danke dafür!) wird berücksichtigt und eingearbeitet.

Ziel: Eine umfangreiche, einheitlich nutzbare und leicht integrierbare Ontologie, die nur enthält, was tatsächlich genutzt wird und mit Daten befüllt werden kann.

Page 14: LOD @ SpringerNature [16. DINI Jahrestagung]...LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15 4 Ziel: Daten über Konferenzpublikationen in strukturiertem Format von vertrauenswürdiger

LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15

13

Datenintegration Schritt für Schritt

• Wie verlinke ich Strings?

• Prinzip:

• Der ursprüngliche String muss erhalten bleiben!

• Die Verlinkung soll unabhängig von den Kerndaten sein.

• Beschreibung einer Mitgliedschaft:

• Membership hasDisambiguatedAffiliation [ literalValue „Stuttgart Media University“; disambiguatedValue dbpedia:Hochschule_der_Medien; ].

Program Committee - … - Kai Eckert, Stuttgart Media University, Stuttgart

Komitee - … - Dr. Kai Eckert, Universität Mannheim, Mannheim

Davon kann es mehere Aussagen aus verschiedenen Quellen geben!

Page 15: LOD @ SpringerNature [16. DINI Jahrestagung]...LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15 4 Ziel: Daten über Konferenzpublikationen in strukturiertem Format von vertrauenswürdiger

LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15

14

Redesign in Arbeit

Page 16: LOD @ SpringerNature [16. DINI Jahrestagung]...LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15 4 Ziel: Daten über Konferenzpublikationen in strukturiertem Format von vertrauenswürdiger

LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15

15

Grafische Aufbereitung der Daten

Page 17: LOD @ SpringerNature [16. DINI Jahrestagung]...LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15 4 Ziel: Daten über Konferenzpublikationen in strukturiertem Format von vertrauenswürdiger

LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15

16

Nächste Schritte

• Daten von über 2000 weiteren LNSC-Konferenzen und anderen Disziplinen (z.B. Technik & Maschinenbau) werden hinzugefügt

• Dedizierte Konferenzseiten auf SpringerLink: Geschichte der Konferenzen, Darstellung der am häufigsten zitierten Artikel und der erfolgreichsten Autoren

• Informationen über den Peer Review Prozess bei den Konferenzen

• Beispiel hier. Kooperation mit dem PEERE-Projekt.

• Informationen über Konferenzbewertungen

• CORE/ERA, QUALIS/CA PES, CCF – Beispiellink

• Informationen über das Programmkomitee einer Konferenz

(Kooperation mit der Technischen Universität Wien)

• Daten von Elsevier-Konferenzen • Daten über den Indexierungsstatus bei Scopus (via API)

Page 18: LOD @ SpringerNature [16. DINI Jahrestagung]...LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15 4 Ziel: Daten über Konferenzpublikationen in strukturiertem Format von vertrauenswürdiger

LOD @ SpringerNature – 16. DINI Jahrestagung – 28/10/15

17

Integration mit NPG Linked Data

• NPG Linked Data Platform und NPG Core

Ontology data.nature.com