Esther Scheven ISO 25964 - Thesauri und Interoperabilität ... · Durch eine internationale...

33
| Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 1 ISO 25964 - Thesauri und Interoperabilität mit anderen Vokabularien Esther Scheven

Transcript of Esther Scheven ISO 25964 - Thesauri und Interoperabilität ... · Durch eine internationale...

  • | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 1

    ISO 25964 - Thesauri und Interoperabilität mit anderen Vokabularien

    Esther Scheven

  • Inhaltsverzeichnis

    Allgemeines zu ISO 25964

    Interoperabilität (Allgemeines)

    Datenmodell (Teil 1 Thesauri)

    ISO 25964 Teil 2

    Empfehlungen für das Mapping

    Bezug von ISO 25964

    | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 2

  • | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013

    ISO 25964: Thesauri and interoperability with other vocabularies

    - Part 1: Thesauri for information retrieval

    - Part 2: Interoperability with other vocabularies

    Der Teil 1 umfasst monolinguale und multilinguale Thesauri.

    Der Teil 2 beschäftigt sich mit “mappings” (Thesaurusföderation)

    zwischen Thesauri und anderen Typen von Vokabularien, die der

    Informationswiedergewinnung (information retrieval) dienen.

    Teil 1: 2011 veröffentlicht.

    Teil 2: Anfang März 2013 veröffentlicht.

    Durch eine internationale Arbeitsgruppe von 2008-2013 erarbeitet.

    Projektleiterin: Stella Dextre Clarke, Großbritannien

    Inhalt von ISO 25964

    3

  • | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 4

    Vorgänger von ISO 25964

    – ISO 2788-1986 Guidelines for the establishment and development of monolingual thesauri

    = BS 5723:1987

    – ISO 5964-1985 Guidelines for the establishment and development of multilingual thesauri

    = BS 6723:1985

    BS 8723: Structured vocabularies for information retrieval – Guide

    Part 1: Definitions, symbols and abbreviations Part 2: Thesauri Part 3: Vocabularies other than thesauri Part 4: Interoperability between vocabularies Part 5: Exchange formats and protocols for interoperability

    veröffentlicht 2005-2008

  • ISO 2788 (1986)

    ISO 5964 (1985) +

    Neue Inhalte,

    angepasst aus

    BS8723

    +

    Neue Inhalte,

    angepasst aus

    BS8723

    ISO 25964 Teil 1

    (veröffentlicht 2011)

    ISO 25964 Teil 2

    (veröffentlicht 2013)

    Gründliche Revision

    | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013

    Schwerpunkt: Interoperabilität

    5

  • ISO 25964: ein Puzzle-Stück relevanter Standards zur Interoperabilität

    | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 6

    ISO25964

    OWL

    RDF

    XML SRU

    Z39.19 MARC 21

    REST

    HTTP

    BS 8723

    ZThes

    SPARQL

    JSON

    ISO2709 Z39.50

  • Warum Interoperabilität?

    – Wir möchten gemeinsam Ressourcen nutzen.

    – Wir möchten Kosten reduzieren.

    – Wir möchten alle Dokumente der Welt von unserem Computer erreichen.

    – Die Suche soll einfach, intuitiv und automatisch erfolgen.

    | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 7

    Aber: Es ist sehr aufwändig, die gewünschten Ressourcen gemeinsam aufzuspüren. Sie liegen an ganz unterschiedlichen Stellen, oft noch verborgen hinter Schranken wie kontrollierte Vokabulare, die sich nicht sofort erschließen.

  • Was bedeutet „Interoperabilität“?

    8

    Definition: Die Fähigkeit, dass zwei oder mehrere Systeme oder Teilsysteme Informationen austauschen und die ausgetauschte Information nutzen können.

    Bezogen auf Thesauri und andere Wissensorganisationssysteme (KOS = Knowledge Organisation System) gibt es zwei Ebenen, um Interoperabilität herzustellen: - Die Daten werden in einer normierten Weise erstellt und

    vorgehalten, damit sie in andere Systeme importiert und von ihnen nachgenutzt werden können.

    - Es werden „Mappings“ zwischen den Begriffen („concepts“) des

    einen Wissensorganisationssystems und denen des anderen erstellt.

    | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013

  • Wie unterstützt ISO 25964 Interoperabilität?

    Teil 1:

    Richtlinien zur Thesauruserstellung

    Richtlinien zum Umgang mit Multilingualität

    Datenmodell für die Erstellung eines Thesaurus in UML (UML: Unified Modeling Language)

    Teil 2:

    Richtlinien zur Thesaurusföderationen („Mappings“) Strukturmodelle

    Typen von Verbindungen zwischen Thesauri und anderen

    Vokabularien

    Umgang mit Präkombination und Präkoordination

    Management von Mappings

    | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 9

  • Warum ein Datenmodell für Thesauri? (Teil 1: Thesauri for information retrieval)

    – Nicht jedermanns Sache, aber ein Programmierer versteht es.

    – Es sorgt für eine stringente Erstellung des Thesaurus.

    – Es ist für die Erstellung aller Arten von Thesauri anwendbar.

    – Es erleichtert den Datenaustausch.

    – Auch ein so bekanntes Vokabular wie die DDC hat sicherlich ein Datenmodell.

    – Aber wo ist ein allgemeines Datenmodell für Klassifikationen an sich?

    | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 10

  • | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 11

    Datenmodell für Thesauri

    Das Modell repräsentiert

    Begriffe eines Thesaurus (ThesaurusConcept)

    traditionelle hierarchische und assoziative Relationen sowie nutzerdefinierbare Relationstypen zwischen Begriffen

    textuelle Anmerkungen wie Erläuterungen (Scope notes), Änderungsvermerke, Definitionen, redaktionelle Anmerkungen ...

    bevorzugte Benennungen (Deskriptoren) und nichtbevorzugte Benennungen (Nichtdeskriptoren) sowie nichtbevorzugte Komposita (Verweisungen in Begriffskombinationen)

    Begriffsreihen (Arrays) und Node labels

    Begriffsgruppen, anwendungsspezifisch typisierbar

    Es ist mit SKOS kompatibel, enthält aber Erweiterungen.

  • Datenmodell (frei zugänglich)

    | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013

  • | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 13

    Begriffe (ThesaurusConcept) und Bezeichnungen (ThesaurusTerm)

    Ein Thesaurus besteht aus Begriffen (ThesaurusConcept)

    Begriffe werden durch ihre natürlichsprachigen Bezeichnungen (ThesaurusTerm) repräsentiert

    Jeder Begriff hat genau eine bevorzugte Benennung (PreferredTerm; Deskriptor) pro Sprache

    Jeder Begriff kann beliebig viele alternative Benennungen (SimpleNonPreferredTerm; Nichtdeskriptor) haben

  • | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 14

    Relationen zwischen Begriffen (ThesaurusConcept)

    Hierarchierelationen können allgemein (BT/NT) oder spezifiziert nach Rolle (BTG/NTG, BTP/NTP, BTI/NTI) ausgewiesen werden (in der GND spezifisch angegeben durch Relationscodes: obge, obpa, obin)

    Assoziationsrelationen können allgemein (RT) oder spezifiziert nach Rolle (Teil/Ganzes, Ursache/Wirkung, ...) ausgewiesen werden (in der GND spezifisch mittels Relationscodes)

  • | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 15

    Beispiel Begriffssatz (Deskriptorensatz):

    Thesaurus der Bundestagsbibliothek

    (Polianthes)

    Bevorzugte Benennung

    Synonyme

    Scope Notes

    Hierarchierelation

    Assoziationsrelation

    Quelle http://opac.bibliothek.bundestag.de/aDISWeb/app;jsessionid=2C1B579E93D1FB87BEDC597FCE253AC5?service=direct/1/POOLBTLI@@@@@@@@_43003500_257C5680/syncLink

    http://opac.bibliothek.bundestag.de/aDISWeb/app;jsessionid=2C1B579E93D1FB87BEDC597FCE253AC5?service=direct/1/POOLBTLI@@@@@@@@_43003500_257C5680/syncLinkhttp://opac.bibliothek.bundestag.de/aDISWeb/app;jsessionid=2C1B579E93D1FB87BEDC597FCE253AC5?service=direct/1/POOLBTLI@@@@@@@@_43003500_257C5680/syncLinkhttp://opac.bibliothek.bundestag.de/aDISWeb/app;jsessionid=2C1B579E93D1FB87BEDC597FCE253AC5?service=direct/1/POOLBTLI@@@@@@@@_43003500_257C5680/syncLinkhttp://opac.bibliothek.bundestag.de/aDISWeb/app;jsessionid=2C1B579E93D1FB87BEDC597FCE253AC5?service=direct/1/POOLBTLI@@@@@@@@_43003500_257C5680/syncLink

  • | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 16

    Begriffsreihe und Node label (Darstellung von Polydimensionalität)

    Eine Begriffsreihe (ThesaurusArray) ist eine Gruppierung von Geschwisterbegriffen (Begriffe, die einen gemeinsamen Oberbegriff haben).

    Ein Node label bezeichnet das Unterteilungs-merkmal, das zur Bildung der Begriffsreihe herangezogen wurde; z.B. (Personen nach Alter).

    Einem Node label können beliebig viele Begriffe (ThesaurusConcept) untergeordnet sein. N.B.: Diese Relation ist keine BT/NT-Relation.

  • | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 17

    Beispiel Begriffsreihe und Node label:

    Art & Architecture Thesaurus (AAT)

    Quelle: http://www.getty.edu/vow/AATHierarchy?find=&logic=AND&note=&subjectid=300008407

    Node labels werden im AAT Guide Terms genannt. Dem Node label sind die mit Pfeilen markierten Node labels untergeordnet.

    Alle hier gelisteten Begriffe, wie z.B. capital cities, municipalities, bastides oder military towns sind Unterbegriffe (NT) des Oberbegriffs (BT) inhabited places. Node labels gruppieren diese Begriffe unter bestimmten Aspekten (z.B. nach Art der Funktion: administrativ oder militärisch). Die Begriffe unter einem Node label bilden eine Begriffsreihe (ThesaurusArray).

    Begriffs-reihe

    http://www.getty.edu/vow/AATHierarchy?find=&logic=AND&note=&subjectid=300008407

  • | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 18

    Begriffsgruppe (ConceptGroup)

    a

    Begriffsgruppen repräsentieren systematisierende Strukturen wie z.B. Klassen einer Klassifikation, Teilthesauri, Sachgruppen, Kategorien, etc.

    Der Typ der Begriffsgruppe (z.B. Klassifikation, Taxonomie, Systematik) kann spezifiziert werden.

    Jeder Begriffsgruppe können beliebig viele (meist in der Bedeutung spezifischere) Begriffsgruppen untergeordnet werden. N.B.: Diese Relation ist keine BT/NT-Relation.

    Jeder Begriffsgruppe können beliebig viele Begriffe (ThesaurusConcept) zugeordnet werden. N.B.: Diese Relation ist keine BT/NT-Relation.

  • | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 19

    Beispiel Begriffsgruppe: Standard-Thesaurus Wirtschaft (STW)

    Begriffsgruppen; im STW Hauptteile genannt

    Der Begriffsgruppe B untergeordnete spezifischere Begriffsgruppen

    Der Begriffsgruppe B.07 zugeordnete Begriffe

    Quelle: http://zbw.eu/stw/versions/8.04/thsys/b/about.de.html

    http://zbw.eu/stw/versions/8.04/thsys/b/about.de.html

  • | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 20

    Beispiel Begriffssatz (Deskriptorensatz):

    Thesaurus der Bundestagsbibliothek

    (Polianthes)

    Quelle http://opac.bibliothek.bundestag.de/aDISWeb/app;jsessionid=2C1B579E93D1FB87BEDC597FCE253AC5?service=direct/1/POOLBTLI@@@@@@@@_43003500_257C5680/syncLink

    Begriffsgruppe

    http://opac.bibliothek.bundestag.de/aDISWeb/app;jsessionid=2C1B579E93D1FB87BEDC597FCE253AC5?service=direct/1/POOLBTLI@@@@@@@@_43003500_257C5680/syncLinkhttp://opac.bibliothek.bundestag.de/aDISWeb/app;jsessionid=2C1B579E93D1FB87BEDC597FCE253AC5?service=direct/1/POOLBTLI@@@@@@@@_43003500_257C5680/syncLinkhttp://opac.bibliothek.bundestag.de/aDISWeb/app;jsessionid=2C1B579E93D1FB87BEDC597FCE253AC5?service=direct/1/POOLBTLI@@@@@@@@_43003500_257C5680/syncLinkhttp://opac.bibliothek.bundestag.de/aDISWeb/app;jsessionid=2C1B579E93D1FB87BEDC597FCE253AC5?service=direct/1/POOLBTLI@@@@@@@@_43003500_257C5680/syncLink

  • | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 21

    Teil 2: Interoperability with other vocabularies

    Ziel (Scope):

    “This part of ISO 25964 deals with thesauri and other types of vocabulary that are commonly used for information retrieval. It describes, compares and contrasts the elements and features of these vocabularies that are implicated when interoperability is needed. It gives recommendations for the establishment and maintenance of mappings between multiple thesauri, or between thesauri and other types of vocabularies.”

    Herausforderung Thesaurusföderation: Die Begriffe („concepts“) unterschiedlicher Voka- bularien werden aufeinander abgebildet („gemappt“).

  • | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 22

    Teil 2: Interoperability with other vocabularies

    Inhalt:- allgemeine Aussagen zu Thesaurusföderation - Definitionen, Symbole - Strukturell verschiedene Modelle zur Erlangung von Interoperabilität

    zwischen Vokabularien - Anweisungen zur Erstellung von „mappings“ - Einfluss der Anwendung auf das „mapping“ - Datenverwaltung, Darstellung (display), Funktionalität - Austauschformat

    - Darstellung von bestimmten Vokabularien unter dem Gesichtspunkt der Thesaurusföderation

    - Thesauri - Klassifikationen - Aktenpläne und Ordnungssysteme für die Schriftgutverwaltung - Taxonomien - Schlagwortlisten (subject heading schemes) - Ontologien - Terminologiedatenbanken (Termbanken) - Normierte Namensverzeichnisse, Normdateien für Individualnamen

    (name authority lists) - Synonymringe

  • Normativ: Aussagen zu Thesaurus-Föderationen

    Deskriptiv: Kurzdarstellungen der Vokabulare

    | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 23

    Warum sind Vokabulare wie Termbanken oder Synonymringe enthalten, die nicht dem Indexieren dienen?

    Weil sie die Recherche und auch die Indexierung entscheidend unter- stützen können durch Anreicherung von Suchvokabular. Die zu be- achtenden Prinzipien können auch auf sie angewandt werden.

    Umgang mit Ontologien (nur heavyweight-Ontologien) Ontologie ≠ Thesaurus andere Elemente und Ziele -> keine „Mappings“ empfohlen, sondern ergänzender Einsatz einer Ontologie

    Teil 2: Interoperability with other vocabularies

  • Beispiel für einen Ausschnitt aus einer Ontologie

    | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 24

    Ontologie: Netzwerk von Informationen mit logischen Relationen

  • | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013

    Zwei zu unterscheidende Vokabulartypen Strukturgleichheit (structural unity): Die Vokabulare, die aufeinander abgebildet werden sollen, sind in ihrer Struktur gleich. Die Äquivalenz der Begriffe zweier oder mehrerer solcher Vokabularien wird durch die Position in der Vokabularstruktur ausgedrückt. Alle Begriffsrelationen entsprechen einander; die Bezeichnungen für die Begriffe können sogar automatisch miteinander zu Pärchen verbunden werden. (z.B. bei von Anfang an multilingual erstellten Thesauri von Behörden) nur echte Äquivalenzpaare: =EQ

    25

  • | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 26

    Zwei zu unterscheidenden Vokabulartypen Strukturungleichheit (structural disunity): Die beteiligten Vokabularien sind in ihrer Struktur ungleich. Die Äquivalenz der Begriffe zweier oder mehrerer solcher Vokabularien hat mit der Position in der Struktur nichts zu tun. Die Begriffe müssen unabhängig von der Struktur auf einander bezogen werden. Das „Mapping“ erzeugt sowohl richtige Äquivalenzpaare als auch viele Paare, bei denen der Begriffsumfang und der Begriffsinhalt nicht wirklich übereinstimmen.

    Verschiedene Typen der Äquivalenz: Exakte Äquivalenz: =EQ Nichtexakte Äquivalenz: ~EQ Weiterer Begriffsumfang: BM („Broader Mapping“) Geringerer Begriffsumfang: NM („Narrower Mapping“) Inhaltlich irgendwie verwandt: RM („Related Mapping“) 1:n-Beziehungen: - Aufzählung von einzelnen, engeren Deskriptoren - Kombination von mehreren Deskriptoren

  • Strukturmodelle für Mappings

    | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 27

    Welche werden empfohlen?

    A B

    C D

    P Q R S

    E

    F

    G

    H

  • | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 28

    Strukturmodelle für Mappings

    1. Alle Begriffe der verschiedenen Vokabularien werden jeweils miteinander zu Pärchen gebündelt.

    A B

    C D - bei strukturgleichen Vokabularien: nur echte Äquivalenzpaare

    - bei strukturungleichen Vokabularien: echte Äquivalenzpaare und viele Paare, die nur sehr schlecht zusammenpassen

    - sehr aufwändig; nur bei wenigen beteiligten Vokabularien geeignet

  • | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 29

    2. Ein Vokabular dient als Drehscheibe („hub“); die Begriffe der verschiedenen Vokabularien werden jeweils nur mit den Begriffen dieses Vokabulars in Beziehung gesetzt.

    Strukturmodelle für Mappings

    E

    F

    G

    H

    -> für strukturungleiche Vokabularien geeignet, - besonders wenn viele verschiedene Vokabularien miteinander verbunden werden sollen. - wenn es ein Vokabular mit herausgehobenem Status gibt.

  • Empfohlene Typen von Verbindungen

    zwischen verschiedenen Vokabularen

    – Äquivalenz

    – Hierarchie

    – Assoziation

    – Optional stärkere Differenzierung - „exakt“ und „nicht-exakte“ Äquivalenzpaare

    - Äquivalenz durch Kombination, entweder als Schnittmenge oder

    kumulativ

    | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 30

    Weibliche Führungskräfte EQ Frau + Führungskraft

    Äquivalenz durch Kombination

    Inlandwasserwege EQ Fluss | Kanal

  • | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013 31

    - Typisch für Klassifikationen, Schlagwortsysteme, Taxonomien

    -> Äquivalenz durch Kombination; kann sehr komplex werden

    Präkombination / Präkoordination

    Einsatz des Mappings

    z.B. - In der Recherche von der Klassifikation ausgehend - In der Recherche von dem Thesaurus ausgehend

    -> Anwendungen haben Auswirkung auf die Mappings

  • | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013

    Bezug von ISO 25964

    In Deutschland: beide Teile der ISO 25964 über den Beuth-Verlag http://www.beuth.de/de/

    oder direkt über ISO http://www.iso.org

    Teil 1: http://www.iso.org/iso/home/store/catalogue_tc/catalogue_detail.htm?csnumber=53657 (238,00 CHF)

    Teil 2: http://www.iso.org/iso/home/store/catalogue_tc/catalogue_detail.htm?csnumber=53658 (196,00 CHF)

    Datenmodell: http://www.niso.org/schemas/iso25964 (und weitere allgemeine Informationen zu ISO 25964)

    32

    http://www.beuth.de/de/http://www.iso.org/http://www.iso.org/iso/home/store/catalogue_tc/catalogue_detail.htm?csnumber=53657http://www.iso.org/iso/home/store/catalogue_tc/catalogue_detail.htm?csnumber=53657http://www.iso.org/iso/home/store/catalogue_tc/catalogue_detail.htm?csnumber=53658http://www.iso.org/iso/home/store/catalogue_tc/catalogue_detail.htm?csnumber=53658http://www.niso.org/schemas/iso25964

  • | Bibliothekskongress - Leipzig | ISO 25964 - Scheven |14.03.2013

    33

    Vielen Dank! Esther Scheven [email protected]

    mailto:[email protected]