Die ZBW ist Mitglied der Leibniz-Gemeinschaft
„Über sieben Brücken musst Du gehn‘,…“ Erfahrungsbericht zu Aufbau und Pflege von Crosskonkordanzen des Standard-Thesaurus Wirtschaft zu anderen Vokabularen Andreas Oskar Kempf, Joachim Neubert, Manfred FadenZBW – Leibniz-Informationszentrum Wirtschaft
Göttingen, 11. Mai 2017 SI&IT Workshop
Gliederung1. Standard-Thesaurus Wirtschaft (STW)
2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der
ZBW
3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach
unterschiedlichen Mapping-Ansätzen:
3.1 Mapping-Ansatz vornehmlich intellektuell
3.2 Mapping-Ansatz ausschließlich automatisiert
3.3 Mapping-Ansatz automatisiert/intellektuell kombiniert
JEL-Mapping unter Verwendung von AMALGAME
Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools
4. Fazit: „Lessons learned“
Seite 2
Gliederung1. Standard-Thesaurus Wirtschaft (STW)
2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der
ZBW
3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach
unterschiedlichen Mapping-Ansätzen:
3.1 Mapping-Ansatz vornehmlich intellektuell
3.2 Mapping-Ansatz ausschließlich automatisiert
3.3 Mapping-Ansatz automatisiert/intellektuell kombiniert
JEL-Mapping unter Verwendung von AMALGAME
Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools
4. Fazit: „Lessons learned“
Seite 3
Standard-Thesaurus Wirtschaft (STW)
Seite 4
Weltweit umfassendstes bilinguales Fachvokabular zur Repräsentation und Recherche nach wirtschaftswissen-schaftlichen Inhalten
Permanente Weiterentwicklung entsprechend den Veränderungen in der Fachterminologie
Web-Veröffentlichung & freier Download in unterschiedlichen Formaten
Verknüpfung mit anderen Vokabularen über Crosskonkordanzen http://zbw.eu/stw/versions/latest/about
Gliederung1. Standard-Thesaurus Wirtschaft (STW)
2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der
ZBW
3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach
unterschiedlichen Mapping-Ansätzen:
3.1 Mapping-Ansatz vornehmlich intellektuell
3.2 Mapping-Ansatz ausschließlich automatisiert
3.3 Mapping-Ansatz automatisiert/intellektuell kombiniert
JEL-Mapping unter Verwendung von AMALGAME
Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools
4. Fazit: „Lessons learned“
Seite 5
STW-CK: Gesamtüberblick und Ausblick
Legende:
Seite 6
Jahr Vokabular Aufbau / Pflege Verfahren Projektkontext2002-04 GND DNB, ZBW / DNB, ZBW „CK-Wirtschaft“2004-07 TheSoz GESIS, ZBW / KoMoHe2009 DBpedia ZBW2010-11 AGROVOC FAO2012 WKD WKD LOD2-Projekt2016 Subject-Matter
Domains Class.ZBW
Automatische (Vor-)VerarbeitungIntellektuelle Bearbeitung
Jahr Vokabular Aufbau / Pflege Verfahren Projektkontext2017 JEL ZBW internt.b.c EuroVoc Publication Office (EU), ZBWt.b.c Wikidata ZBW intern
Ausblick:
Bisherige STW-CK:
Seite 7
CK-Einsatz in der ZBWIndexerweiterung in EconBiz
Seite 8
CK-Einsatz in der ZBWIndexerweiterung in EconBiz
Seite 9
CK-Einsatz in der ZBWIndexerweiterung in EconBiz
GND
STW
CK-Einsatz in der ZBW
Seite 10
Erweiterte Suchvorschläge in EconStor
CK-Einsatz in der ZBW
Seite 11
Erweiterte Suchvorschläge in EconStor
inkl. Äquivalenzrelationen aus den CK
Gliederung1. Standard-Thesaurus Wirtschaft (STW)
2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der
ZBW
3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach
unterschiedlichen Mapping-Ansätzen:
3.1 Mapping-Ansatz vornehmlich intellektuell
3.2 Mapping-Ansatz ausschließlich automatisiert
3.3 Mapping-Ansatz automatisiert/intellektuell kombiniert
JEL-Mapping unter Verwendung von AMALGAME
Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools
4. Fazit: „Lessons learned“
Seite 12
Mapping-Ansatz vorwiegend intellektuellProjekt zur Erstellung der CK-Wirtschaft zu SWD/GND• Projektpartner: DNB, USB Köln, ZBW (HWWA) & unterstützend
VZG• Beantragte/angenommene Projektlaufzeit 18 Monate, nach
Verlängerung 31 Monate (03.2002 – 09.2004)• 8 Personen mit verschiedenen Zeitanteilen, Unterstützung durch
jeweilige IT
Seite 13
Mapping-Ansatz vorwiegend intellektuellZiel:Entwicklung und Implementierung eines Crosswalks zwischen dem
Standard Thesaurus Wirtschaft (STW) und dem Bereich Wirtschaft der Schlagwortnormdatei (SWD) zur Steigerung der Effektivität des Retrievals in den Wirtschaftswissenschaften.
Ausgangslage:
Seite 14
SWDca. 12500 Deskriptoren
(Sachschlagwörter) und ca. 16000 Nicht-Deskriptoren im Bereich WiWi (DNB/USB-Köln)
STWca. 5000 Deskriptoren und
18000 Nichtdeskriptoren (ZBW/HWWA)
Mapping-Ansatz vorwiegend intellektuellBearbeitung in der WinIBW – Aufbau der CK
Seite 15
Doublettencheck - einfaches string
matching-Verfahren, Auswahl der
SWD-Schlagworte durch
Zuordnung zu SWD-
Sachgruppen (SWD-Systematik)
Ergebnis: Ca. 52500 Relationen
Davon nach intellektueller
Bearbeitung ca. 15.000 erhalten.
Löschung der restlichen Relationen
größtenteils von Hand
Mapping-Ansatz vorwiegend intellektuellBearbeitung in der WinIBW – Aufbau der CK
Seite 16
Bearbeitung zuerst in verteilten
Excel-Listen. Wurde als zu
fehleranfällig und aufwändig
verworfen.
Weitere Bearbeitung über
eingespielte Daten im
Pica/WinIBW-System Iltis der
DNB
Mapping-Ansatz vorwiegend intellektuell
Bearbeitung in der WinIBW – Aufbau der CK
Seite 17
Mapping-Ansatz vorwiegend intellektuell
Seite 18
Ansicht in der WinIBW – Pflege der CK
Gliederung1. Standard-Thesaurus Wirtschaft (STW)
2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der
ZBW
3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach
unterschiedlichen Mapping-Ansätzen:
3.1 Mapping-Ansatz vornehmlich intellektuell
3.2 Mapping-Ansatz ausschließlich automatisiert
3.3 Mapping-Ansatz automatisiert/intellektuell kombiniert
JEL-Mapping unter Verwendung von AMALGAME
Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools
4. Fazit: „Lessons learned“
Seite 19
DBpedia als Mappingziel
- ermöglicht Links zu Wikipedia-Seiten im Online-STW- 2009 Zentrum der „Linked Data Cloud“- aus englischer Wikipedia extrahierter strukturierter Datenbestand (in
RDF)- zusätzlich deutsche (u.a.) Labels auf Grundlage von „interlanguage
links“ in Wikipedia- Redirects von früheren oder gemergten auf aktuelle Seitentitel- große Datenmenge
Seite 20
DBpedia Matchingstrategie
- eigenentwickelte Perlprozeduren- normalisierte Strings aus
- prefLabel + altLabel des STW
- Seitentitel + Redirects von DBpedia
jeweils für Deutsch und Englisch gematcht
- nachgeschaltete Evaluierung der Matches
- skos:closeMatch, falls mindestens einer der prefLabel matcht
- skos:exactMatch, falls beide (de und en) matchen
Seite 21
DBpedia Ergebnisse (2009)
Seite 22
Mängel des DBpedia Mappings und Konsequenzen
- inhaltlich falsche Matches aufgrund von Quasi-Synonymen im STW- z.B. „Tropische Frucht“ (STW) matcht „Ananas“ (DBpedia)
- unzutreffende „interlanguage links“ in Wikipedia / DBpedia- beschränkte Datengrundlage (spezifisch „deutsche“ Begriffe nicht in
englischer Wikipedia enthalten)- Keine Fortschreibung=>- neuer Ansatz auf Grundlage von Wikidata- intellektuelle Verifizierung
Seite 23
Gliederung1. Standard-Thesaurus Wirtschaft (STW)
2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der
ZBW
3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach
unterschiedlichen Mapping-Ansätzen:
3.1 Mapping-Ansatz vornehmlich intellektuell
3.2 Mapping-Ansatz ausschließlich automatisiert
3.3 Mapping-Ansatz automatisiert/intellektuell kombiniert
JEL-Mapping unter Verwendung von AMALGAME
Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools
4. Fazit: „Lessons learned“
Seite 24
Mapping-Ansatz automatisiert/intellektuell kombiniert Erfahrungen mit dem
Amsterdam AlignmentGeneration Metatool(AMALGAME) auf Basis der STW-Systematik
Ausblick: Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools
Seite 25
AMALGAME
page 26
Zwei Mapping-Durchläufe in AMALGAME Erster Mapping-Durchlauf: Upload des STW in SKOS
http://zbw.eu/stw/versions/latest/download/about.de.html
Upload der JEL-Klassifikation in SKOS http://zbw.eu/beta/external_identifiers/jel/about.en.html
Exakter sprachabhängiger String-Abgleich zwischen den Bezeichnungen der STW-Systematik und den JEL-Klassen
AMALGAME Mapping-Graph des ersten Durchlaufs
AMALGAME
page 27
Zweiter Mapping-Durchlauf:Anreicherung der STW-Systematik und der JEL-Klassen: STW-Systematik: STW Deskriptoren + (Quasi-)
Synonyme Äquivalenzrelationen
(exactMatch) zu Begriffen (Deskriptoren & (Quasi-)Synoymen) anderer Vokabulare(GND, TheSoz, DBpedia, AGROVOC)
JEL Klassen: JEL Keywords aus dem JEL
Guide https://www.aeaweb.org/jel/guide/jel.php
Deutsch & Englisch (sofern vorhanden)
AMALGAME Mapping-Graph des zweiten Durchlaufs
AMALGAME
page 28
Angereicherte STW-Systematik: STW Deskriptoren + (Quasi-)Synonyme Äquivalenzrelationen zu Begriffen
(Deskriptoren & (Quasi-)Synoymen) anderer Vokabulare (GND, TheSoz, DBpedia, AGROVOC)
Angereicherte JEL-Klassen: JEL Keywords aus dem JEL Guide
https://www.aeaweb.org/jel/guide/jel.php
Gliederung1. Standard-Thesaurus Wirtschaft (STW)
2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der
ZBW
3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach
unterschiedlichen Mapping-Ansätzen:
3.1 Mapping-Ansatz vornehmlich intellektuell
3.2 Mapping-Ansatz ausschließlich automatisiert
3.3 Mapping-Ansatz automatisiert/intellektuell kombiniert
JEL-Mapping unter Verwendung von AMALGAME
Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools
4. Fazit: „Lessons learned“
Seite 29
Wikidata-Mapping mit Mix‘n‘match
Öffentlich zugängliches Tool zum Laden externer DBs, um sie mit Wikidata abzugleichen, zu verknüpfen, oder Einträge dort einzufügen
Setzt auf spezifischem Wikidata-Property für das jeweilige Vokabular auf
Derzeit 430 externe Vokabulare Mapping des STW für die nächste Version geplant Mapping für Autoren-IDs der „Research Papers in Economics“ hier
als Beispiel
Seite 30
Import
Seite 31
Mix’n’match Übersichtsseite
Seite 32
“Automatically matched”: Intellektueller Abgleich
Seite 33
… mit Links zu mehr Informationen
Seite 34
“Unmatched” mit Such- und Einfügeoptionen
Seite 35
Visual Matching Tool (Beispiel: Museen)
Seite 36
Wikidata-Property für STW-ID
Seite 37https://www.wikidata.org/wiki/Wikidata:Property_proposal/STW_Thesaurus_for_Economics_ID
Mapping-Vorschläge STW ./. Wikidata
http://zbw.eu/beta/sparql-lab/?endpoint=http://zbw.eu/beta/sparql/stw/query&queryRef=https://api.github.com/repos/zbw/sparql-queries/contents/stw/wikidata_mapping_candidates_via_gnd.rq
Seite 38
… können mit Hilfe der Crosskonkordanz Wirtschaft für alle gemappten GND-Schlagwörter generiert werden, die ihrerseits bereits mit Wikidata verknüpft sind (knapp 2000)
Vorteile des Wikidata-Mappings
Stets aktuelle Links zu deutschen und englischen Wikipedia-Seiten Laufende Pflege und Ergänzung über die Wikidata-Pflegeoberfläche
(z.B. jeweils anhand der Liste neuer Deskriptoren) – keine eigeneDatenhaltung und Arbeitumgebung erforderlich
Crowdsourcing (der Pflege und auch des initialenMappingprozesses!)
Policies und Tools zur Qualitätskontrolle in Place (z.B. RePEc, GND) Automatisiertes Einfügen fehlender Items in Wikidata ist möglich Zusatznutzen durch bereits existierende Mappings
Seite 39
Nachteile des Wikidata-Mappings
Verlust der institutionellen Kontrolle
Seite 40
FazitAls zentrale Einflussfaktoren auf die äußeren Rahmen-bedingungen bei Aufbau und Pflege von Crosskonkordanzenkönnen genannt werden:
Ressourcenverfügbarkeit (z.B. Inwieweit stehen Ressourcen für ein nachhaltiges CK-Management zur Verfügung?)
Kooperationen(z.B. Erfolgen CK-Aufbau und -Pflege kollaborativ?)
Verfügbarkeit von Tools(z.B. Lassen sich Tools für eine automatische Vorverarbeitung nutzen?)
Anwendungsszenarien (z.B. Ist die CK für eine integrierte Suche notwendig oder leistet sie „lediglich“ alternative Sucheinstiege?)
Seite 41
Fazit
Lessons learned:
Zusätzlich zum CK-Aufbau ist die kontinuierliche CK-Pflege wichtig Ausschließlich oder überwiegend manuelle Verfahren sind nicht
mehr finanzierbar Mapping-Strategien, die den intellektuellen Anteil reduzieren helfen,
sind notwendig Ausschließlich automatisierte Verfahren bringen nur unzureichende
Ergebnisse Erforderlich ist die Entwicklung einer Mapping-Strategie aus
automatischen und intellektuellen Mapping-Schritten in Kombination, die die übergeordneten Rahmenbedingungen des Mappings berücksichtigt
Seite 42
Vielen Dank für Ihre Aufmerksamkeit!
KontaktDr. Andreas Oskar [email protected]
Joachim [email protected]
Manfred [email protected]
Seite 43
Quellen:Dolud, Lena; Kreis, Constanze. Die Crosskonkordanz Wirtschaft zwischen dem STW und
der GND: Ein Instrument zur kooperativen Inhaltserschließung und zur Vernetzung im Semantic Web. Dialog mit Bibliotheken, 24(2): 13-19, 2012.
Kempf, Andreas O.; Neubert, Joachim; Faden, Manfred The Missing Link: A Vocabulary Mapping Effort in Economics. Presentation at the 14th European Networked Knowledge Organization System (NKOS) Workshop, Poznan, Poland, 2015.
Mayr, Philipp; Petras, Vivien (2008a): Building a terminology network for search: theKoMoHe project. pp. 177-182. In: Greenberg, Jane; Klas, Wolfgang (eds.): Metadata forsemantic and social applications: Proceedings of the 8. International conference on Dublin Core and Metadata Applications. Berlin: Uni.-Verl. Göttingen. URL: edoc.hu-berlin.de/conferences/dc-2008/mayr-philipp-177/PDF/mayr.pdf
Seite 44
Top Related