06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

Transcript

Page 1: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 1

Heinrich-Heine-Universität Düsseldorf - Informationswissenschaft

Wissensrepräsentation

Wolfgang G. Stock

HHU Düsseldorf – SS 2005 Wissensrepräsentation 2

Wissensrepräsentation

Wissensrepräsentation – Was ist das?

Wissen – Informationsinhalt – „Content“

Erschließen von Wissen

Erschließen von Dokumentengenauer: Erschließen des Inhalts von Dokumenten

Page 3: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 3

Wissensrepräsentation

ASPEKT 1Aufbau von Werkzeugen

derWissensrepräsentation

z.B.Aufbau eines Klassifikations-

systemsThesaurusaufbau

Regelwerk für Abstracting

ASPEKT 2Inhaltserschließung

konkreterDokumente

z.B.Klassieren eines Buches nach dem

KlassifikationssystemIndexieren nach dem Thesaurus

Verfassen eines Abstracts

Page 4: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 4

Wissensrepräsentation

• „Wissensrepräsentation“ : Abbildung von Wissen („Content“) vor allem in digitalen Systemen; Erschließung des Informationsinhalts

• Ziel: Wissen bei Bedarf (möglichst) exakt zu finden und in die aktuellen Arbeitsläufe einzubinden

• hierbei benötigt: – METHODEN der Wissensrepräsentation (wie Thesaurus,

Klassifikation usw.)– und konkrete WERKZEUGE (etwa den Standard-

Thesaurus Wirtschaft oder die IPC)– praktische Tätigkeit: INDEXIEREN

Page 5: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 5

Wissensrepräsentation

• inhaltlich erschlossene Retrievalsysteme finden Einsatz als– Suchwerkzeug für das WWW oder für einen

Ausschnitt daraus (derzeit kaum realisiert)– Suchwerkzeug bei kommerziellen Anbietern

elektronischer Informationsdienste (nahezu durchgängig realisiert)

– Suchwerkzeug bei unternehmensweiten Intranets oder „Enterprise Information Portals“ (derzeit in „Boomphase“ im Zusammenhang mit KnowledgeManagement)

Page 6: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 6

Wissens- repräsentation

Infor-mations-bedarf

DBE

Dok. Bezugs-

einheiten

DEDokumen-

tations-einheiten

Frage

Treffer

Information Retrieval

Information Indexing

Vergleich Vergleich der der

BegriffeBegriffe

Page 7: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 7

Wissensrepräsentation / Themen (1)

Geschichte der Wissensrepräsentation

Begriffe und Begriffsordnungen:Gegenstände, Begriffe, Synonyme, Homonyme, Definitionen,

Begriffsordnungen, paradigmatische und syntagmatische Relationen, Mono- und Polyhierarchie, Dimensionalität,

Facetten

Dokumente und ihre Strukturierung:Dokumente: Texte und Objekte - Datenstrukturierung

(Metadaten) - Datenbankdesign - formale Erfassung, inhaltliche Erschließung

Page 8: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 8

Wissensrepräsentation / Themen (2)

Dokumentationssprachen I: KlassifikationssystemeKlasse und Notation, Universalklassifikationen (Bsp.: Dezimalklassifika-

tion), Technikklassifikationen (Bsp.: Internationale Patentklassifikation), Wirtschaftsklassifikationen (Bsp.: Branchen- und

Produktklassifikationen), Klassifikationen im WWW (Bsp.: Yahoo!), Medizinklassifikation (Bsp.: ICD-10)

Dokumentationssprachen II: Schlagwortmethode

Dokumentationssprachen III: ThesauriThesauruserstellung nach DIN 1463, Deskriptoren und Relationen,

multilinguale Thesauri, gleichordnendes Indexieren, syntaktisches Indexieren, „höhere“ Thesaurusformen

Bsp.: Standard-Thesaurus Wirtschaft, Thesaurus Technik und Management, EXPO-INFO 2000

Page 9: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 9

Wissensrepräsentation / Themen (3)

Textsprachliche Methoden:Volltextspeicherung, Titelindexierung,

Textwortmethode, Bsp.: Datenbank zur österreichischen Philosophie,Zitationsindexierung, Bsp.: Web of Science (ISI)

Nicht-thematische Informationsfilter:Zielgruppe, Art der Themenbehandlung, Verfallsdatum

Automatische Indexierung:Klassifikation nach Ähnlichkeit – zuteilende Indexierung bei Einsatz einer

Dokumentationsmethode

Page 10: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 10

Wissensrepräsentation / Themen (4)

Abstracts:Inhaltsangaben nach DIN 1426, indikative, informative, analytische

Abstracts, Sammelreferate, automatisches Abstracting

Informationsextraktion:Extraktionsmethoden, Informationsagenten

Das semantische Web:Ontologien, Topic Maps

Informationsfilter und –verdichter im Überblick:Informationsarchitektur, Zusammenfassung der Methoden der

Wissensrepräsentation

Page 11: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 11

Wissensrepräsentation - Basisliteratur

• Rainer Kuhlen, Thomas Seeger, Dietmar Strauch (Hrsg.): Grundlagen der praktischen Information und Dokumentation. – München: Saur, 52004.

• Donald B. Cleveland; Ana D.Cleveland: Introduction to Indexing and Abstracting. – Englewood, NJ: Libraries Unlimited, 1990.

• Heting Chu: Information Representation and Retrieval in the Digital Age. –Medford, NJ: Information Today, 2003. – (Chap. 1 – 4).

• Robert Fugmann: Inhaltserschließung durch Indexieren: Prinzipien und Praxis. – Frankfurt: DGD, 1999.

• Wilhelm Gaus: Dokumentations- und Ordnungslehre. – Berlin: Springer, 2002.

• Christa Ladewig: Grundlagen der inhaltlichen Erschließung. – Potsdam: Institut für Information und Dokumentation, 1997.

• F. Wilfrid Lancaster: Indexing and Abstracting in Theory and Practice. –Champaigne, IL.: Graduate School of Library and Information Science, 21998.

• Wolfgang G. Stock: Informationswirtschaft. Management externen Wissens. - München; Wien: Oldenbourg, 2000. – (Kapitel 3).

Page 12: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

Geschichte der Wissensrepräsentation

Page 13: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 13

Geschichte der Wissensrepräsentation

• Aufstellordnungen in Bibliotheken (ab Antike)• Abstracts (19. Jahrhundert)• Wortschätze (19. Jahrhundert)• Klassifikationssysteme (19. Jahrhundert)• Thesauri (ca. 1950)• Zitationsindexierung (ca. 1960)• Textwortmethode (ca. 1970)• automatische Indexierung mit kontrolliertem Vokabular (ca.

1990)• Topic Maps und Ontologien (ca. 1990)• semantisches Web (ca. 2010 – wenn überhaupt)

Evgenij I. Samurin: Geschichte der bibliothekarisch-bibliographischen Klassifikation. – Pullach: Verl. Dokumentation, 1967 (Bd. 1), 1968 (Bd. 2).

Ingetraut Dahlberg: Grundlagen universaler Wissensordnung. – Pullach: Verl. Dokumentation, 1974.

Page 14: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 14

Geschichte der Wissensrepräsentation

• „Pinakes“ des Kallimachos von Kyrene (ca. 310 – 240 v.Chr.)

• systematischer Katalog der Bibliothek von Alexandria

• Systematik für rund 120.000 Schriftrollen• Hauptklassen:

– Rhetorik– Recht– Epik– Tragödie– Komödie– Lyrik– Geschichte– Medizin– Mathematik– Naturwissenschaft– Verschiedenes

Rudolf Blum: Kallimachos: The Alexandrian Library and the Origins ofBibliography. – Madison, Wisc.: Univ. of Wisconsin Press, 1991.

Page 15: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 15

Geschichte der Wissensrepräsentation

• Systematik der Buchaufstellung im Mittelalter:„Geheimwissenschaft“

Umberto Eco: Il nome della rosa. – Milano:Ed. Fabbri-Bompiani, 1980.

Eco‘s „Labyrinth“ in „Der Name der Rose“

Page 16: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 16

Geschichte der Wissensrepräsentation

• „Ars Magna“ von Raimundus Lullus (ca. 1232 – 1316)• universelles Begriffssystem

auf der Basis der Kombinatorik

• konzentrische Scheiben, jeweils mit zentralen Begriffen einer Kategorie

• Scheiben können gedreht werden, so dass Kombinationen der Begriffe entstehen

Norbert Henrichs: Wissensmanagement auf Pergament und Schweinsleder. Die ars magna des Raimundus Lullus. – In: Josef Herget; Rainer Kuhlen (Hrsg.): Pragmatische Aspekte

beim Entwurf und Betrieb von Informationssystemen,Konstanz: Universitätsverl. Konstanz, 1990, S. 567-573.

Page 17: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 17

Geschichte der Wissensrepräsentation

• „Ars Magna“ von Raimundus Lullus (ca. 1232 – 1316)

Page 18: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 18

Geschichte der Wissensrepräsentation

• Frühe Zeitschriften als Medium der Wissensverdichtung

• „Journal des Scavans“: erste Zeitschrift, gegründet 1665

• Aufgabe: zunächst Überblicksartikel, da das Wissen in Büchern zu umfangreich wurde

• später: Publikation von Forschungsberichten• Aufschwung der Zeitschriftenliteratur• Folge: auch das Wissen in Zeitschriften

wurde zu umfangreich

Manfred Bonitz: Notes on the development of secondary periodicals from the „Journal des Scavans“ to the„Pharmaceutisches Central-Blatt“. – In: International Forum on Information and Documentation 2 (1977) 1, S. 26-31.

Page 19: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 19

Geschichte

• Gründung von Referatezeitschriften

• „Geburt“ der Abstracts als Form der Wissensverdichtung

• 1830: Pharmaceutisches Central-Blatt; später: Chemisches Zentralblatt

• 1907: Chemical Abstracts

Page 20: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 20

Geschichte der Wissensrepräsentation

• Thesaurus of English Words and Phrases (1852)• Peter Mark Roget (1779 – 1869)• Sekretär der „Royal Society“ - London• Thesaurus kreiert: 1805; publiziert: 1852• System „of the ideas which are expressible

by language“ – rund 15.000 Worte

• Klassen:– I: Abstract Relations– II: Space– III: Matter– IV: Intellectual Faculties– V: Voluntary Powers

• Synonymwörterbuch

Werner Hüllen: A History of Roget‘s Thesaurus – Origins,Development, and Design. – Oxford: Oxford Univ. Press,

2003.

Page 21: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 21

Geschichte der Wissensrepräsentation

• Roget. Faksimile des ersten Eintrags (Skript zur ersten Auflage)

• „Existence“• CLASS I: WORDS EXPRESSING

ABSTRACT RELATIONS• SECTION I. EXISTENCE• 1. BEING, IN THE ABSTRACT• #1. Existence.-- N. existence, being,

entity, ens[Lat], esse[Lat],subsistence. reality, actuality; positiveness c. adj.; fact, matter of fact, soberreality; truth c. 494; actual existence. presence c. (existence in space) 186; coexistence c. 120. stubborn fact, hard fact; ...

Page 22: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 22

Geschichte der Wissensrepräsentation

• DDC (Dewey Decimal Classification) – 1876• Melvil (Melville Louis Kossuth) Dewey

(1851 – 1931)

• 1870: Student am Amherst College• stud. Hilfskraft an der Bibliothek• 1874: Abschluss in Bibliothekswesen• Aufbau eines Klassifikationssystem für die

Bibliothek des Amherst College

Stephen Gordon; Judith Kramer-Greene: Melvil Dewey: The Man and the Classification. – Albany: Forest Press,1983.

Fremont Rider: American Library Pioneers VI: Melvil Dewey. – Chicago: American Library Association, 1972.

Sarah Vahn: Melvin Dewey: His Enduring Presence in Librarianship. – Littletown: Libraries Unlimited,1978.

Page 23: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 23

Geschichte der Wissensrepräsentation

• DDC (Dewey Decimal Classification) – 1876• „A Classification and Subject Index for Cataloguing and

Arranging the Books and Pamphlets of a Library“ (1876; anonym)

• 1876: Bibliothekar in Boston• 1883: Bibliothekar am

Columbia College (später: Direktor der New York State Library)

• 1890: Präsident der ALA (American Library Association)

Bibliothek des Amherst College

Page 24: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 24

Geschichte der Wissensrepräsentation

• DDC. Grundidee: Notationen der Klassen als Dezimalzahlen– 000 Generalities– 100 Philosophy– 200 Religion– 300 Social Sciences– 400 Language– 500 Natural Sciences, Mathematics– 600 Technology (Applied Sciences)– 700 The Fine Arts– 800 Literature and Rhetoric– 900 Geography, History

• Die Grundidee erweist sich als sehr erfolgreich.

Page 25: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 25

Geschichte der Wissensrepräsentation

• DDC. Beispiel einer Katalogkarte• Original von Dewey• Class 207:

Religion: Study and Teaching

• Book P:Princeton

Page 26: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 26

Geschichte der Wissensrepräsentation

• Paul Otlet (1868 - 1944 ) und Henri La Fontaine (1854 – 1943)

• (1) „Väter“ der Dokumentation• (2) Einführung der dezimalen Klassifikation in

Europa• (3) Gründung eines internationalen Verbandes für

DokumentationW. Boyd Rayward: The Universe of Information. The Work of Paul Otlet for Documentation and International

Organization. – Moscow: VINITI, 1975.Eric H.W. van Binsbergen: La philosophie de la Classification décimale universelle. – Liège: Centre de

Lecture Publique, 1994.Georges Lorphèvre: Henri LaFontaine, 1854-1943 – Paul Otlet, 1868-1944. – In: Revue de la Documentation

21 (1954) 3, 89-103.Hervé Hasquin: Henri la Fontaine – un Prix Nobel de la Paix: tracé(s) d‘une vie. – Mons: Mundaneum, 2002.

Page 27: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 27

Geschichte der Wissensrepräsentation

• Henri La Fontaine• geb. 1854 in Brüssel• Prof. für Internationales Recht• Mitglied des belgischen Senats• Friedensbewegung (u.a. Präsident

des „International Peace Bureau“)• 1895: Gründung des „Institut

International de Bibliographie“ (mit Otlet)

• Friedensnobelpreis 1913

Page 28: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 28

Geschichte der Wissensrepräsentation

• Paul Otlet • geb. 1868 in Brüssel• 1895: Gründung des „Institut

International de Bibliographie“ (mit La Fontaine)

• ab 90er Jahre: Reorganisation und (französische) Übersetzung von Deweys Dezimalklassifikation

• 1904-1907: Erste komplette Ausgabe der „Classification Décimale Universelle“ –CDU („Universal Decimal Classification“ – UDC bzw. „Dezimalklassifikation“ DK)

• DK: Haupttafel (wie DDC) und „Anhängezahlen“

Page 29: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 29

Geschichte der Wissensrepräsentation

• Paul Otlet • (mit La Fontaine): ab 1919 in

Brüssel: Plan eines Zentrums für das gesamte Weltwissen –systematisch geordnet als Welt-bibliographie: „Mundaneum“ (Plan scheiterte – Mundaneum heute Museum in Mons)

• 1934: „Traité de documentation“ . –Bruxelles: Ed. Mundaneum. (Grundlagenwerk der Dokumentation)

www.mundaneum.be

Page 30: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 30

Geschichte der Wissensrepräsentation

• FID• 1895: Institut International de

Bibliographie (von Otlet und La Fontaine in Brüssel gegründet)

• ab 1895: Publikation einzelner DK-Tafeln

• 1931: Institut International de Documentation

• 1986: Fédération Internationale d‘Information et de Documentation – FID (heute in Den Haag) Sonderstempel der österreichischen Post

www.fid.nlCent ans de l‘Office International de Bibliographie: 1895 – 1995. – Mons: Ed. Mundaneum, 1995.

Page 31: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 31

Geschichte der Wissensrepräsentation

• Shiyali Ramamrita Ranganathan (1892 – 1972)Facettenklassifikation

• zunächst Bibliothekar (in Madras), danach Professor für Bibliothekswissenschaft (in

Varanasi und Delhi), später Leiter des „Documentation Research and Training Centre“ (Bangalore)

• Kritik der DDC / DK: zu starr• Einsatz von Facetten: „Colon Classification“

(1933)• syntaktisches Indexieren mittels Ketten: „Headings and

Canons“ (1955)

Eugene Garfield: A tribute to S.R.Ranganathan. Part 1: Life and works. – In: Eugene Garfield: Essays of an Information Scientist. Vol. 7. – Philadelphia, PA: ISI Press, 1984, 37-44.

Page 32: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 32

Geschichte der Wissensrepräsentation

• Shiyali Ramamrita Ranganathan (1892 – 1972)Facettenklassifikation

• fünf Grundfacetten (PMEST)– Wer? – Personalität (Trennzeichen: , )– Was? – Material ( ; )– Wie? – Energie ( : „colon“)– Wo? – Raum ( . )– Wann? – Zeit ( ' ) – zusätzlich: Disziplin

• Beispiel: L,45;421:6;253:f.44‘N5Medizin , Lunge ; (Tuberkulose : Behandlung) ; (Röntgenstrahlen : Forschung) . Indien ' 2004

Page 33: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 33

Geschichte der Wissensrepräsentation

• Thesauri: DAS VorbildMeSH

• Medical Subject Headings (MeSH)• erstellt von der National Library of Medicine (USA)• entworfen ab ca. 1954 (Vorläufer ab ca. 1940)• publiziert mit dem neuen „Index Medicus“ 1960

Carolyn E. Lipscomb: Medical Subject Headings (MeSH). – In: Bulletin of the Medical Library Association 88(2000), 265-266.

W.D.Miles: A History of the National Library of Medicine. – Bethesda, MD: U.S. Dept. of Health and HumanServices, 1982.

Page 34: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 34

Geschichte der Wissensrepräsentation

• MeSH• kontrolliertes Vokabular• Relationen zwischen den Begriffen• alphabetische Ordnung der Worte• systematische Ordnung der Begriffe• syntaktisches Indexieren durch Aspekte („subheadings“)

möglich• gewichtete Indexierung im Zwei-Klassen-Verfahren• Thesaurus wird als dynamische Liste der Begriffe

verstanden. Änderungen sind jederzeit möglich• 1960: Start des Projektes MEDLARS (Medical Literature

Analysis and Retrieval System) unter Einsatz von Computern• auch MeSH wird mittels EDVA gepflegt

Page 35: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 35

Geschichte der Wissensrepräsentation

Fokus-Deskriptormit Subheading

Fokus-Deskriptor

Deskriptor mitSubheading

Page 36: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 36

Geschichte der Wissensrepräsentation

• Thesauri• erweisen sich im Laufe der 60er Jahre (und später) als

erfolgreich• eine Periode der Zweiteilung der Methoden der

Wissensrepräsentation beginnt:• (1) Klassifikationssysteme: Einsatz vor allem in Bibliotheken;

Einsatz ohne Zuhilfenahme der EDV• (2) Thesauri: Einsatz vor allem bei fachlichen Datenbanken;

EDV-Einsatz• zusätzlich: Suche nach alternativen Ansätzen

I.Lerch: Das Dokumentationshilfsmittel Thesaurus. – In: Bibliothek. Forschung und Praxis 6 (1982), 47-73.N. Roberts: Historical studies in documentation: The pre-history of the information retrieval thesaurus. – In:

Journal of Documentation 40 (1984), 271-285.

Page 37: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 37

Geschichte der Wissensrepräsentation

• Zitationsindexierung• Eugene Garfield (1925 - )• ab 1951: Mitarbeit bei der

Medizindokumentation• Kritik an MeSH: Indexierung ist zu

langsam; Vokabular ist zu starr; Indexierung fremdsprachiger Artikel problematisch

• Entdeckung der wissenschaft-

lichen Fußnote als Hilfsmittel der Wissensrepräsentation

• 1958: Gründung des Institute for Scientific Information (ISI)

Eugene Garfield: Citation Indexing. – New York [u.a.]: Wiley, 1979. - Eugene Garfield; Wolfgang G. Stock: Citation Consciousness (Interview mit Garfield). – In: Password Nr. 6 (2002), 22-25.

Page 38: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 38

Geschichte der Wissensrepräsentation

• Titelindexierung• Hans Peter Luhn (1896 – 1964)• geb. 1896 in Barmen; ab 1924 in den

USA; ab 1941 bei IBM• Extraktion von Stichworten aus den

Sachtiteln der Dokumente• 1958: Keyword in Context: KWIC• „Entdeckung“ des Leerzeichens• Stoppworte

Claire K.Schultz: H.P.Luhn: Pioneer of Information Science – Selected Works. – London: Macmillan, 1968.

Page 39: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 39

Geschichte der Wissensrepräsentation

• Textwortmethode• Norbert Henrichs (1935 - )• wörterbuchunabhängige

Dokumentationsmethode• entwickelt an der

Forschungsabteilung für philosophische Information und Dokumentation der Universität Düsseldorf

• ab ca. 1967

Norbert Henrichs: Philosophische Dokumentation. - In: Zeitschrift für philosophische Forschung 23 (1969), 122-131.

Page 40: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 40

Geschichte der Wissensrepräsentation

• Erste Online-Informationsanbieter („Hosts“)• Entwicklungen in den 60er und frühen 70er Jahren• DIALOG (maßgeblich: Roger Summit); online: 1972• ORBIT (Carlos Cuadra); online: 1972 (heute: Questel-Orbit)• Mead Data Central (Richard Giering); online: 1973 (heute:

LexisNexis)• BRS (Jan Edgeland; Linda Palmer; Ron Quake); online: 1977

(heute: Ovid Technologies)• Methoden und Werkzeuge der Wissensrepräsentation

müssen online-tauglich werden.

Charles P. Bourne; Trudi Bellardo Hahn: A History of Online Information Services, 1963-1976. – Cambridge, Mass.;London: MIT Press, 2003.

Page 41: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 41

Geschichte der Wissensrepräsentation

• 1989: Einführung der automatischen Indexierung beim Einsatz einer Dokumentationssprache

• bei Reuters Ltd. London• eingesetzt wird CONSTRUE – TIS

(Categorization of News STories Rapidly, Uniformly, and Extensible – Topic Identification System)

• CONSTRUE-TIS: Entwicklung bei der Carnegie Group in Pittsburgh

• arbeitet mit einer Zuverlässigkeit von 90% gegenüber menschlichen Indexern (zumindest nach eigenen Aussagen)

Philip J. Hayes; Steven P. Weinstein: Construe-TIS: A system for content-based indexing of a database of newsstories. – In: Alain Rappaport; Reid Smith (Ed.): Proceedings of the IAAI-90 Conference on Innovative Applications

of Artificial Intelligence. Bd. 2. – Cambridge, Mass.: MIT Press, 1991, 49-66.

Page 42: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 42

Geschichte der Wissensrepräsentation

• Tim Berners-Lee (1955 - )Sir Timothy John Berners-Lee

• geb. 1955 in London• ab 1984: Mitarbeiter beim CERN• Entwicklung des WWW• August 1991: erste Webseite (CERN)

1994: Gründung des World Wide WebConsortiums (Laboratory for Computer Science / MIT)seit 90er Jahre: Bemühungen um dassemantische Web

T.Berners-Lee; R.Cailliau; A.Luotonen; H.F.Nielsen; A.Secret: The World Wide Web. – In: Communications of the ACM 37 (1994) 8, 76-82.

Tim Berners-Lee; Mark Fischetti: Weaving the Web. – San Francisco: Harper, 1999.

Page 43: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 43

Geschichte der Wissensrepräsentation

• Winfried Gödert• der Experte für Wissensrepräsentation im

deutschsprachigen Raum• Leiter des Labors für bibliographisches Information

Retrieval der FH Köln• bibliographische Datenbank zur Inhaltserschließung• Linkliste zu Klassifikationssystemen und Thesauri im WWW• dt. Übersetzung der DDC

Winfried Gödert: Einführung in Probleme und Methoden der inhaltlichen Dokumenterschließung. – Köln: FH Köln,1997. – [Begleitmaterial zu Lehrveranstaltungen].

Datenbank: www.fbi.fh-koeln.de/institut/labor/bir/suche.htmLinkliste: www.fbi.fh-koeln.de/institut/labor/bir/thesauri_new/index.htm

Page 44: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

Begriffe und Begriffsordnungen

Page 45: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 45

Begriffe und Begriffsordnungen

Begriffe / BegriffsordnungenGrundlegende Literatur• DIN 2330: Begriffe und Benennungen• DIN 2331: Begriffssysteme und ihre Darstellung• ISO 704:2000: Terminology Work – Principles and Methods• Albert Menne: Einführung in die Methodologie. –

Darmstadt: Wissenschaftliche Buchgesellschaft, 1980.• Tadeusz Pawlowski: Begriffsbildung und Definition. – Berlin

/ New York: de Gruyter, 1980• Ingetraut Dahlberg: Die gegenstandsbezogene, analytische

Begriffstheorie und ihre Definitionsarten. – In: Beiträge zur Begriffsanalyse. – Mannheim [u.a.]: BI Wissenschaftsverl., 1987, 9-22.

Page 46: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 46

Begriffe und Begriffsordnungen

GEGENSTAND

• Gegenstand: “alles, was uns entgegensteht”, “etwas als etwas erkennen”

• Gegenstände im Rahmen der “Gegenstandstheorie” (Alexius Meinong):

Gegenstand psychischer Akt ErlebniGegenstand psychischer Akt ErlebnissObjekt Empfindung / Phantasie VorstellenSachverhalt Urteil / Annahme Denken

Alexius Meinng: Über Gegenstandstheorie. – In: A.Meinong (Hrsg.): Untersuchungen zur Gegenstandstheorie undPsychologie. – Leipzig: Barth, 1904, 1-50.

Page 47: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 47

Begriffe und Begriffsordnungen

GEGENSTAND einer dokumentarischen Bezugseinheit (DBE)• Empfindungsobjekt: Information über reale Gegenstände (Bsp.: Baker

Street in London)• Phantasieobjekt: Information über fiktive Gegenstände (Bsp.: Sherlock

Holmes Wohnung in der Baker Street)• Urteilssachverhalt: Information über Tatsachenaussagen (im Rahmen

einer Theorie für wahr angesehene Aussage)• Annahmesachverhalt: Information über hypothetische Aussagen (im

Rahmen einer Theorie für plausibel angesehene Aussage, deren Wahrheit offen ist)

OBJEKTE in DBE werden in DE durch Begriffe, SACHVERHALTE der DBE werden in DE durch Sätze beschrieben.

Page 48: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 48

Begriffe und Begriffsordnungen

BEGRIFF• Ein Begriff ist die Zusammenfassung gewisser Objekte

unter eine Klasse.• Begriffsbestimmung

– extensional (Begriffsumfang; Aufzählung der Elemente der Klasse). M =df {x1, x2, ...., xi, ...}Bsp.: „Deutsche Bundesländer“ =df {Nordrhein-Westfalen, Bayern, ..., Berlin}

– intensional (Begriffsinhalt; Angabe der klassen-bildenden Merkmale). M =df ∀x. f(x) u f‘(x) u f‘‘(x) ... Bsp.: „Deutsche Bundesländer“ =df „ist ein Bundesland“ u „liegt in der Bundesrepublik Deutschland“

Page 49: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 49

Begriffe und Begriffsordnungen

BEGRIFF

Objekt(e)

Begriff (Klasse)Benennung(en)z.B. Wort

Merkmale

Page 50: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 50

Begriffe und Begriffsordnungen

HHU Düsseldorf – SS 2004 Wissensrepräsentation 48

Begriffe und Begriffsordnungen

BEGRIFF

Objekt(e)

Begriff (Klasse)Benennung(en)z.B. Wort

Merkmale

„Wirklichkeit“

Nutzer

(andere) Zeichen

Page 51: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 51

Begriffe und Begriffsordnungen

BEGRIFF• SYNTAKTIK. Struktur der Benennung;

Beziehungen der Benennung (Zeichen) zu anderen Zeichen

• SEMANTIK: Beziehungen zwischen Benennung (Zeichen) und Objekt (bzw. Vorstellungsinhalt)

• PRAGMATIK: Beziehungen zwischen Benennung (Zeichen) und Zeichenbenutzer

Was heißt das?BAPHA

Page 52: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 52

Begriffe und Begriffsordnungen

BEGRIFF• Begriffsarten

– Individualbegriff (Klasse hat genau ein Element) –Benennung: (Eigen-)NameBsp.: Karl Marx; Sherlock Holmes; Bayessches Theorem, 2. Hauptsatz der Thermodynamik

– Allgemeinbegriff (Klasse hat mehrere Elemente)Bsp.: Stuhl, Zahl, Studentin der Informationswissen-schaft, NaCl

– Kategorie (Begriff allgemeinster Art)Bsp.: Person, Materie, Energie, Raum, Zeit (à la Ranganathan)oder: Branche, Raum, Aspekt (im Kontext der Wirtschaft)

Page 53: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 53

Begriffe und Begriffsordnungen

EXAKTHEIT von Begriffen• exakter Begriff: Klassengrenze ist genau bestimmbar• vager Begriff: Klassengrenze ist - an den „Rändern“ - nicht genau

bestimmbar, „fuzzy“)Beispiel: Stuhl-Museum von Max Black

SELBSTÄNDIGKEIT von Begriffen• kategorematischer Begriff: Begriff steht für sich allein• synkategorematischer Begriff: Begriff kann in einem Kontext nicht

allein stehenBeispiel:

10 - 12

Max Black: Vagueness. An exercise in logical analysis. – In: Philosophy of Science 4 (1937), 425-455.

... mit FilterZigarette

Page 54: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 54

Begriffe und Begriffsordnungen

• Wort: (nicht unbedingt eindeutiger) sprachlicher Ausdruck eines Begriffs

• Synonym: Begriff, der durch mehrere Worte ausgedrückt werden kann (Beispiel: Samstag, Sonnabend)

• Homonym: Wort, das mehrere unterschiedliche Begriffe ausdrückt, wobei die Worte unterschiedlichen Ursprüngen entstammen (Beispiel: kosten [„schmecken“ - althochdt. koston], kosten [„wert sein“ - altfrz. coster])

• Homophon: Homonym im Laut (Beispiel: Leere – Lehre)• Polysem: Wort, das mehrere unterschiedliche Begriffe

ausdrückt, wobei die Worte einen gleichen Ursprung haben (Beispiel: Knie [Gelenk am Körper], Knie [Werkstück])

• Der Unterschied zwischen Homonym und Polysem ist nicht immer klar; in der Informationswissenschaft werden die hierdurch entstehenden Probleme gemeinsam behandelt.

Page 55: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 55

Begriffe und Begriffsordnungen

STICHWORT - SCHLAGWORT• Stichwort: Wort, das faktisch in einer dokumentarischen

Bezugseinheit vorkommt („token“: konkrete Realisierung eines Wortes, eines „types“)

• Lexem: grammatikalische Grundform eines WortesBeispiel: ... den Kühen ... ; Lexem: Kuh

• Wortstamm: entsteht durch Präfix- oder Suffixabtrennung Beispiel: ... retrieved ...; Stamm: retriev

• Schlagwort: Wort (in Grundform), das einer dokumen-tarischen Bezugseinheit zugeordnet wird

• Thema: Objekt, das in einer dokumentarischen Bezugseinheit abgehandelt wird; „das, worüber es geht“; Repräsentation eines Thema in einer Dokumentations-einheit: durch Stich- oder Schlagworte

Page 56: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 56

Begriffe und Begriffsordnungen

DEFINITION• (1) Definition als Abkürzung. Definiendum =df Definiens

Beispiele: M =df 1.000Erpel =df männliche Ente

• (2) Deutungsvorschrift von Kalkülen. Deutung bzw. Interpretation von ZeichenBeispiel: p ---> ( q v ~q)

w w w w f w w f w wf w w w ff w f w w

Deutung: p, q Aussagevariablen; w, f Wahrheitswerte~ Negation; --> Implikation; v Disjunktion

Page 57: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 57

Begriffe und Begriffsordnungen

• (3) Begriffserklärung Begriff =df Teilbegriff1 + Teilbegriff2 + ...

• Begriffssynthese: ausgehend von Teilbegriffen Begriffsanalyse: ausgehend vom Begriff

• “Klassische” Variante: Definition durch genus und differentia– genus: Artbegriff– differentia: “wesenskonstitutiver” Unterschied– accidens: zufällige Eigenschaft (darf nicht verwendet werden)

Beispiel “Homo est animal rationale”: Mensch =df Lebewesen + vernunftbegabtnicht: Mensch =df Lebewesen + Haarfarbe nicht blond

• Begriffserklärungen eignen sich besonders gut für hierarchische Begriffsordnungen (Klassifikation oder Thesaurus)

Page 58: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 58

Begriffe und Begriffsordnungen

• (4) Zeichenerklärung (Nominaldefinition) Feststellung der Bedeutung eines Begriffes in einem bestimmten Kontext. Aussage mit (zu begründendem) Wahrheitsanspruch.Beispiele: “Metaphysik” bei Aristoteles

“Steuererhöhung” bei der Bundesregierung“Armut” in der empirischen Sozialforschung

• (5) Sacherklärung (Realdefinition) Feststellung der Bedeutung eines Begriffes durch das “Wesen” seines Gegenstandes. Aussage mit (zu begründendem) Wahrheitsanspruch. Beispiel: Artikel „Geschirrspülmaschine“ im Brockhaus

• Zeichen- und Sacherklärungen kommen typisch in enzyklopädischen Wörterbüchern vor.

Page 59: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 59

Begriffe und Begriffsordnungen

• (6) Explikation Übernahme (ggf. ungenauer) Alltagsbegriffe in die Wissenschaftssprache, dabei Präzisierung

• Bedingungen:– wissenschaftliche Nützlichkeit– Präzision– Ähnlichkeit mit dem Ausgangsbegriff– EinfachheitBeispiel: Alltagsbegriff: Arbeit

Physik: Arbeit =df Kraft * Weg * WinkelSoziologie: Arbeit =df auf ein wirtschaftliches Ziel gerichtete, planmäßige menschliche Tätigkeit

Page 60: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 60

Begriffe und Begriffsordnungen

• (7) Definition von Bedeutungsfamilien Einige Begriffe können nicht über eine Konjunktion von Merkmalen definiert werden, die für alle gelten; vielmehr liegen unterschiedliche Teilmengen vor (Ludwig Wittgenstein: “Familienähnlichkeit”)Beispiel: Gemüse =df Wurzel- und Knollengemüse, Blatt-und Stielgemüse, Fruchtgemüse, Kohlgemüse

• (8) Persuasive Definition Begriffsbildung mit emotionalen Einstellungen (gefühls-mäßigen Assoziationen)Beispiele: rein (Waschmittelwerbung; positive Einstellung)Jude (Nazi-Deutschland; negative Einstellung)

Page 61: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 61

Begriffe und Begriffsordnungen

• Im Überblick: Definitionsarten

• (1) Definition als Abkürzung

• (2) Deutungsvorschrift eines Kalküls

• (3) Begriffserklärung• (4) Nominaldefinition• (5) Realdefinition • (6) Explikation• (7) Bedeutungsfamilien• (8) persuasive Definition

• Definitionen in Systemen der Wissensrepräsentation:

• jeder in einer Dokumen-tationssprache verwendete Begriff sollte in Extension und Intension klar und deut-lich sein

• für hierarchische Systeme eignen sich besonders Begriffserklärungen und Definitionen mit Bedeutungs-familien

Page 62: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 62

Begriffe und Begriffsordnungen

Ordnung• Gesamt einer Menge M von Objekten x, y, ... und einer

Menge von Relationen ρ zwischen den Objekten O = M, ρ

• Bei Begriffsordnungen sind die Objekte Begriffe und die Relationen Beziehungen zwischen Begriffen

• Es gibt zweistellige Relationen (Bsp.: ρ = „x ist Oberbegriff von y“) und mehrstellige Relationen (Bsp.: ρ = „heilt x [jemanden] mittels y [Arznei] von z [Krankheit]“)

• Relationen sind reflexiv (irreflexiv), symmetrisch (asymmetrisch) bzw. transitiv (intransitiv) R - S - T

Page 63: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 63

Begriffe und Begriffsordnungen

RST (bei zweistelligen Relationen)• Reflexivität: x ρ x (Bsp.: „ist identisch mit“)• Irreflexivität: -(x ρ x) (Bsp.: „ist Ursache von“)• Symmetrie: x ρ y y ρ x (Bsp.: „ist gleich“)• Asymmetrie: x ρ y -(y ρ x) (Bsp.: „liebt unglücklich)“• Transitivität: [(x ρ y) u (y ρ z)] (x ρ z) (Bsp.: „ist größer als“) • Intransitivität: [(x ρ y) u (y ρ z)] -(x ρ z) (Bsp.: „ist ähnlich mit“)Allgemeine Relationen in Begriffsordnungen• Äquivalenz: x ist äquivalent y (R - S - T)• Unterbegriff*: x ist Unterbegriff von y (-R - -S - T)• Oberbegriff*: x ist Oberbegriff von y (-R - -S - T)• verwandter Begriff: x ist mit y verwandt (-R - S - -T)

* (Abstraktionsrelation)

Page 64: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 64

Begriffe und Begriffsordnungen

Relationen in Begriffssystemen

Topterm

BottomtermsAssoziations-relation

Hierarchierelation

Poly-hierarchie

Begriffsle

iterA

B C

D E F

G H I

Begriffs- -reihe

Page 65: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 65

Begriffe und Begriffsordnungen

Terminologische Kontrolle• durch Zusammenfassung bestimmter Bezeichnungen zu

einem Begriff (Synonyme, Akronyme, Quasi-Synonyme) mittels Äquivalenzrelation

• durch Trennung homonymer Bezeichnungen zu unter-schiedlichen Begriffen

• ggf. durch Zerlegung („Zerlegungskontrolle“)• wenn möglich; stets wenn nötig: Definition• Arten terminologischer Kontrolle:

– mit Vorzugsbenennungen (gearbeitet wird ausschließlich mit der Vorzugsbenennung; von den äquivalenten Bezeichnungen wird verwiesen)

– ohne Vorzugsbenennungen (alle äquivalenten Bezeichnungen sind zugelassen; in der Datenbank werden sie zu einem Begriff zusammengefasst)

Page 66: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 66

Begriffe und Begriffsordnungen

Relationen• Hierarchierelation (Begriffsleiter: Oberbegriff - Unterbegriff,

Begriffsreihe: Begriffe in gleicher hierarchischen Ebene)– Abstraktionsrelation (logische Sicht)

• Ein Unterbegriff im Sinne der Abstraktionsrelation hat alle Merkmale des Ausgangsbegriffs, dazu aber mindestens ein weiteres (Bsp.: Vogel - Singvogel)

• stets transitiv– Bestandsrelation (gegenständliche Sicht: Meronyme

[Teil einer Ganzheit]; Holonyme [Ganzheit von Teilen])• Ein Unterbegriff im Sinne der Bestandsrelation drückt

einen Teil des Ausgangsbegriffs aus (Bsp.: Vogel - Kralle)• Geographika sind i.d.R. Begriffe in Bestandsrelation (Bsp.:

Deutschland - Nordrhein-Westfalen - Regierungsbezirk Köln – Rhein-Erft-Kreis - Kerpen - Kerpen-Sindorf)

• zwei Varianten: (a) transitiv – (b) intransitiv

Page 67: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 67

Begriffe und Begriffsordnungen

Bestandsrelation / Meronymie• Variante 1: transitiv (z.B. Geographica)

• Variante 2: nicht transitiv– Es gibt Bäume im Wald;

aber auch welche außerhalb von Wäldern.

RindeBaumWald

Deutschland

NRW

Page 68: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 68

Begriffe und Begriffsordnungen

Relationen• Element-Klasse-Relation für Individualbegriffe• „... ist ein(e) ...“: x ist ein M• M =df {x1, x2, ...., xi, ...}, wobei xi Namen von

Individualbegriffen sind• Beispiele:

– {G.Schröder, J.Fischer, H.Eichel, P.Struck, ...} ist ein Mitglied der derzeitigen Bundesregierung

– {G.Schröder, H.Eichel, P.Struck, R.Scharping, ...} ist einMitglied der SPD

– Persil ist ein Waschmittel– Donald Duck ist ein Bewohner Entenhausens

Page 69: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 69

Begriffe und Begriffsordnungen

Relationen• weitere Relationen

– Antonymie-Relation (Gegensätze) – Ähnlichkeitsrelation– Nachfolgerelation (Vorgänger - Nachfolger)– Kausalrelation (Ursache - Wirkung)

• Nützlichkeitsrelation• Schädlichkeitsrelation

– genetische Relation (Produzent - Produkt)– Herstellungsrelation (Material - Produkt)– Transmissionsrelation (Sender - Empfänger)– instrumentelle Relation (Werkzeug - Anwendung des

Werkzeugs)– funktionelle Relation (Argument - Funktion)– usw.

Page 70: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 70

Begriffe und Begriffsordnungen

• Präkombinationsgrad (bei Begriffen mit mehreren Komponenten) - Zerlegungskontrolle– Präkombination: Kombination mehrerer Begriffe zu

genau einen [zusammengesetzten] Begriff in der Begriffsordnung (Bsp.: Mädchenhandelsschule)

– Präkoordination: Kombination der Begriffe, die in der Begriffsordnung vorkommen, durch Verkettung beim Information Indexing (Bsp.: Mädchen + Handelsschule bzw. Mädchenhandel + Schule) – macht der Indexer

– Postkoordination: Kombination der Begriffe erst beim Information Retrieval (Bsp.: Mädchen UND Handelsschule bzw.Mädchenhandel UND Schule) – macht der Recherchierende

Page 71: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 71

Begriffe und Begriffsordnungen

Monohierarchie:jeder Begriff hat entweder keinen oder genau einen

Oberbegriff

Obstbaum

Kernobstbaum Steinobstbaum

Apfelbaum Birnbaum Kirschbaum Pfirsichbaum

Margarete Burkart: Dokumentationssprachen. – In: Grundlagen der praktischen Information und Dokumentation. –München [u.a.]: Saur, 31990, 143-182.

Page 72: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 72

Begriffe und Begriffsordnungen

Polyhierarchie:

ein Begriff kann mehrere Oberbegriffe haben

Obstbaum Holzwirtschaft

Kernobstbaum Nutzholz

Apfelbaum Birnbaum Buche

Page 73: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 73

Begriffe und Begriffsordnungen

Dimensionalität: Anzahl der Dimensionen der klassenbildendenMerkmale bei der Bildung von Unterbegriffen– monodimensional (nur genau eine Dimension zugelassen).

Bsp.: Obstbaum» Kernobstbaum» Steinobstbaum

Klassenbildung durch die Dimension: Beschaffenheit des Samens– polydimensional (mehrere Dimensionen zugelassen)

Bsp.: Obstbaum» Kernobstbaum» Steinobstbaum» hochstämmiger Obstbaum» niederstämmiger Obstbaum

Klassenbildung durch die zwei Dimensionen: Beschaffenheit des Samens und: Größe des Stammes

Page 74: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 74

Begriffe und Begriffsordnungen

Auflösung der Polydimensionalität• aus einer polydimensionalen Ordnung soll eine

monodimensionale gebildet werden• schafft eine übersichtliche und logische Struktur

Bsp.: Obstbaum• Obstbaum nach Samenbeschaffenheit

– Steinobstbaum– Kernobstbaum

• Obstbaum nach Stammgröße– hochstämmiger Obstbaum– niederstämmiger Obstbaum

• bei der Auflösung der Polydimensionalität werden „Zwischen-begriffe“ bzw. „Stützbegriffe“ kreiert

• sehr wahrscheinlich gibt es keine DBE über solche Stützbegriffe

Stützbegriff

Page 75: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 75

Begriffe und Begriffsordnungen

Facettierte Begriffsordnung• Mehrere unterschiedliche Begriffsordnungen innerhalb

eines Systems, aufgeteilt nach KategorienBsp.: drei Facetten (Obstbäume):Kategorie 1: Kategorie 2: Kategorie 3:Frucht Stammgröße ErntezeitApfel hoch frühBirne nieder spät

Bsp.: vier Facetten (Wirtschaftsnachrichten / Factiva):• Branche• Region• Aspekt• Unternehmen

Page 76: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 76

Begriffe und Begriffsordnungen

Begriffsordnung und natürliche Sprache

• unabhängig von natürlicher Sprache: Verwendung eines eigenen Vokabulars aus Ziffern und BuchstabenBsp.: 291.213.4 (in der Dezimalklassifikation: Bezeichnung für„Ahnenkult. Kult der Hausgötter: Manen, Laren, Penaten“)Bsp.: H05B-3/00 (in der Internationalen Patentklassifikation:Bezeichnung für „elektrische Heizung / Widerstandsheizung“)

• sprachabhängig (Verwendung von national- bzw. fach-sprachigen Bezeichnungen)

Page 77: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 77

Begriffe und Begriffsordnungen

• Paradigmatische Relation

• „fest verdrahtete“ Begriffe durch Relationen in Begriffsordnungen

• Bsp.: Obstbaum sei Ober-begriff zu KernobstbaumObstbaum

Kernobstbaum

• Syntagmatische Relation• Begriffe, deren Beziehung

dadurch zustande kommt, dass sie gemeinsam in DE auftreten

• Bsp.: Eine DE enthalte: Obstbaum, Bauer, SteiermarkObstbaum

Steiermark

paradigmatischeRelation

syntagmatischeRelation

Page 78: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 78

Begriffe und Begriffsordnungen

Paradigmatische und syntagmatische Relation

Singvögel füttern ihre JungenMeisen füttern ihre Jungen mit InsektenBlaumeisen füttern ihre Jungen mit grünen Raupen

paradigmatisch syntagmatisch„fest verdrahtet“ „im konkretenhier: Kontext“Hierarchierelation

Page 79: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

Dokumente und ihre Strukturierung

Page 80: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 80

Dokumente und ihre Strukturierung

Was ist ein Dokument?• „Dokumentation“ (d.h. die Repräsentation des Wissens

durch Indexieren oder Referieren) kommt von „Dokument“• klar: (gedruckter) Text ist „Dokument“• aber: Objekte als Dokumente? (Ansatz von Suzanne Briet)

Gegenstand Dokument?Stern am Himmel neinFoto des Sterns jaStein in einem Fluss neinStein in einem Museum jaTier in der Wildnis neinTier im Zoo ja

Michael K. Buckland: What is a document? – In: Journal of the American Society for Information Science 48(1997), 804-809.

Page 81: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 81

Dokumente und ihre Strukturierung

Was ist ein Dokument? Kriterien:• 1. Materialität (physikalisch, einschließlich digital)• 2. Intentionalität (trägt Sinn bzw. Bedeutung)• 3. Erarbeitung (wird geschaffen)• 4. Wahrnehmung (wird als Dokument bezeichnet)

Dokument• (A) Text• (B) (nicht-textuelles) Objekt • alle Dokumentformen werden sprachlich indexiert

Page 82: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 82

Dokumente und ihre Strukturierung

• (A 1) Publikationen– Bücher– (wissenschaftliche) Artikel– Zeitungsartikel, Agenturmeldungen– Gesetze, Erlasse– Urteile– Normen– Patente, Gebrauchsmuster,

Geschmacksmuster, Marken– Hochschulschriften– Noten– Kartenwerke

Page 83: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 83

Dokumente und ihre Strukturierung

• (A 2) andere, nicht (formal) publizierte Texte– digitale Dokumente im Internet (Sonderform:

Wikis – kooperativ geprüft)– Akten – andere Archivmaterialien

(z.B. Nachlässe)

Page 84: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 84

Dokumente und ihre Strukturierung

• (B 1) WTM-Fakten (Wissenschaft / Technik / Medizin)– Stoffe und ihre Eigenschaften– Krankheiten und ihre Symptome– Patienten (Krankenakten)– demographische Daten– statistische Daten

Page 85: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 85

Dokumente und ihre Strukturierung

• (B 2) Wirtschaft– Branchen– Unternehmen– Produkte

Page 86: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 86

Dokumente und ihre Strukturierung

• (B 3) audiovisuelle Dokumente– Bilder– Filme / Filmsequenzen

• Sonderform: generische Sequenzen

Page 87: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 87

Dokumente und ihre Strukturierung

• (B 3) audiovisuelle Dokumente– Ton (Schall)

• Musik• gesprochene Sprache („Wortarchiv“)• Geräusche

• (B 4) multimediale Dokumente (Mischformen)

Page 88: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 88

Dokumente und ihre Strukturierung

• (B 5) Museumsdokumente– archäologische Funde– Kunstwerke– kulturgeschichtliche Gegenstände

Page 89: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 89

Dokumente und ihre Strukturierung

• Die Einheit der Dokumente (Texte – Objekte):Dokumentarische Bezugseinheit (DBE)stets gleichbleibende Einheit der Vorlagen, die in einen Informationsspeicher aufgenommen werden, hierbei ggf. analytische „Zerlegung“ der VorlagenBeispiele:Buch (als Ganzes) - Buchkapiteldto. - Abbildung; TabelleZeitschrift (als Ganzes) - ArtikelKorrespondenz - einzelner BriefFilm - FilmsequenzMünzsammlung - einzelne Münze

Page 90: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 90

Dokumente und ihre Strukturierung

• Was wird in die Datenbank aufgenommen?Dokumentationswürdigkeit Kriterienkatalog, der die Entscheidung fundiert, ob eine bestimmte DBE in den Informationsspeicher aufgenommen wird oder nichtGrundaspekte:– Relevanz des Dokuments– Informationsbedarf der Nutzer– bisheriger Stand der DatenbankSpezifische Aspekte:– thematische Kriterien– formale Kriterien (Bsp.: nur wissenschaftliche Artikel;

nur HTML-Dateien) – Finanzrahmen - Personalressourcen - Zeit– ggf.: Neuigkeit– ggf.: kritische Prüfung des Inhalts

Page 91: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 91

Dokumente und ihre Strukturierung

• Datenstrukturierung::Identifikation kleinster Beschreibungseinheiten für bestimmte Typen von dokumentarischen Bezugseinheiten (DBE)

• Bsp.: wissenschaftlicher Aufsatz. FELDER:

• Autor(en)• Sachtitel• Zeitschriftentitel• Jahrgang• Seitenzahl• Themen usw.

• Dokumentstrukturierung: Zerlegung eines bestimmten Typesvon dokumentarischen Bezugseinheiten (DBE) - auch - im Sinne von Markup-Sprachen

• Bsp.: wissenschaftlicher Aufsatz. STRUKTUR:

• Sachtitel• Autor(en)• Titel des 1. Abschnitts• Text des 1. Abschnitts:

Problemstellung• darin: Fußnote(n)• Titel des 2. Abschnitts • Text des 2. Abschnitts: Methodik

usw.

Meta-daten

Struk-tur-

daten

Page 92: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 92

Dokumente und ihre Strukturierung

Dokumentstrukturierung (bei digitalen Dokumenten)– Beschreibung einer Dokumentstruktur innerhalb des

Dokuments mittels einer besonderen Sprache (Markup Language, Seitenbeschreibungssprache)

– für Textverarbeitung und -publikation (seit 1986): Standardized Generalized Markup Language (SGML). Umfassendes Konzept einer Markup-Sprache

– für Beschreibung verlinkter Dokumente (seit 1989): Hypertext Markup Language (HTML). Eingeschränkte Sprache (ohne Möglichkeit zur wissensabbildenden Dokumentstrukturierung), dafür aber für Hypertextstrukturen anwendbar

– Seitenbeschreibung und Hypertext: eXtensible Markup Language (XML). Bündelung der Vorteile von SGML und HTML. „Industriestandard“. Wissensrepräsentation möglich.

Page 93: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 93

Dokumente und ihre Strukturierung

• Datenstrukturierung / Definition der Metadaten: Vorgehen

• 1. Datenbankdesign: Feldschema• 2. Zusammenspiel der Datenbanken (falls mehrere)• 3. Beschreibung der Felder

– Suchfelder (möglichst kontrolliertes Vokabular)– Anzeigefelder

• 4. Regelwerk (konkrete Anweisungen für jedes Feld)• 5. (ggf.) Nutzung von Hilfsmitteln (z.B. Normlisten von

Ländernamen oder Thesauri)

Page 94: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 94

Dokumente und ihre Strukturierung

Datenstrukturierung• Datenbankdesign: Beschreibung des Dokuments in einem

Feldschema, dabei Festlegung von Merkmalen für jedes Feld – Feldname Jahrgang– Kurzbezeichnung YR– Schlüsselfeld (ja, nein) nein– Anzahl Werte (ein Wert, genau 1 Wert

mehrere Werte: Subfelder)– Typ der Feldwerte (alpha- ganze Zahl

numerisch, Formel, Datum, Betrag, Text, ganze Zahl, ...)

– Normdaten ja– ggf.: Feldlänge 4 Stellen– Index (ja, nein) ja

• Wortindex ja• Phrasenindex nein

Page 95: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 95

Dokumente und ihre Strukturierung

• Zusammenspiel der Datenbanken• Beispiel:

Kunstwerke• Categories for the

Descriptions of Works of Art (CDWA)

• Getty Standards Program

Categories for the Descriptions of Works of Art.www.getty.edu/research/conducting_research/standards/cdwa/index.html

Page 96: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 96

Dokumente und ihre Strukturierung

• Feldsschema. Beispiel: Kunstwerke

Page 97: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 97

Dokumente und ihre Strukturierung

• Feldbeschreibung. Beispiel: Feld: Abmessungen - Subfeld: Dimensionen

Page 98: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 98

Dokumente und ihre Strukturierung

• Feldschema.Beispiel:Wissenschaftliche Literatur

Page 99: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 99

Dokumente und ihre Strukturierung

Ansichteiner

Webseite

Metadatenin

„Meta Tags“

Beispiel: Webseite

Page 100: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 100

Dokumente und ihre Strukturierung

Metadaten

formalbibliographische Metadaten

inhaltsbezogene Metadaten

formaleErfassung

Inhalts-erschließung

Page 101: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 101

Dokumente und ihre Strukturierung

Metadaten: Formale Erfassung• Abbildung nicht inhaltsbezogener Informationen der

dokumentarischen Bezugseinheit auf die Erfassungsfelder einer Datenbank

• für jedes Feld werden Erfassungsregeln definiert• soweit möglich: für jedes Feld werden Normdaten

gesammelt• Regelwerk für formale Erfassung von

Bibliotheksmaterialen: AACR (Anglo-American Cataloging Rules) (mit Sonderregeln für audiovisuelle Materialien, Musikalien, Karten und unselbständig erschienener Werke)

• für die Erfassung von Internet-Dokumenten werden die Dublin-Core-Elements diskutiert

Page 102: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 102

Dokumente und ihre Strukturierung

Formale Erfassung / Regelwerk / NormdatenBeispiel: ... wenn man versucht, ohne auszukommenRegister:Henzinger MHenzinger MonikaHenzinger Monika RHenzinger Monika RauchHenzinger Monika R.Henzinger, MHenzinger, MonikaHenzinger, Monika RHenzinger, Monika RauchHenzinger, Monika R.

Monika HenzingerMonika R HenzingerMonika Rauch HenzingerMonika Rauch-HenzingerMonika R. HenzingerRauch Henzinger MonikaRauch Henzinger, MonikaRauch-Henzinger MonikaRauch-Henzinger, Monika

Page 103: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 103

Dokumente und ihre Strukturierung

Formale Erfassung / Regelwerk / Normdaten• mit Regel: bei Personennamen Ansetzung: Nachname

Komma Leerzeichen Vorname (ausgeschrieben) Leerzeichen zweiter Vorname oder Mittelname (nur erster Buchstabe mit Punkt)

• Beispiel: Register: Henzinger, Monika R.Rauch, Monika

• mit Normdaten: je Person ein DatensatzName in Normform:Henzinger, Monika R.Geburtsdatum: tt.mm.jjjjZusatzinformationen: ehemalige Forschungsleiterin GoogleVerweis: Rauch, Monika

• Beispiel: Register: Henzinger, Monika R.

Page 104: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 104

Dokumente und ihre Strukturierung

Formale Erfassung / Regelwerk / Normdaten. Beispiele:Gertrud von Le Fort Le Fort, Gertrud von (dt.)Ernst Aus‘m Weerth Aus‘m Weerth, Ernst (dt.)Julia Rauh-von der Schule Rauh-von der Schule, Julia (dt.)Jean de la Fontaine La Fontaine, Jean de (fr.)Louis de Broglie Broglie, Louis de (fr.)Louis de Rouvroy Duc de Saint-Simon, Louis de Rouvroy Saint-Simon Duc de (fr.)Ali ibn Haduga Ibn Haduga, Ali (arab.)Lola Réz (verh.: Kosáry) Kosáryné-Réz, Lola (ungar.)Anton der Kinderen Kinderen, Anton der (nl.)Anton Du Perron Du Perron, Anton (nl.)Andrej N. Rimskij-Korsakov Rimskij-Korsakov, Andrej Nikolajevich (russ.)Constance Lytton (Tochter Lytton, Lady Constance (engl. UK)eines Dukes)

Page 105: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 105

Dokumente und ihre Strukturierung

Formale Erfassung • Ansetzung der Namen von Körperschaften

– Beispiel „untergeordnete Körperschaft“: Referat Frauenpolitik der SPD. Ansetzungsform: Sozialdemokratische Partei Deutschlands / Referat Frauenpolitik

– Beispiel „selbständige Körperschaft“: ifo Institut, München. Ansetzungsform: ifo Institut für Wirtschaftsforschung e.V. <München>

– Beispiel „Gebietskörperschaft“: Kongeriget Danmark. Ansetzungsform: Danmark. Bsp.: Polizeidirektion Bonn. Ansetzungsform: Nordrhein-Westfalen / Polizeidirektion <Bonn>

• bei nicht-lateinischen Schriften: Transliteration (etwa nach: ISO)– Beispiel: BAPHA (bulg.). Transliteration: Varna

• bei allen Ansetzungen: Verweise von möglichen Varianten auf die Normansetzung

Uta Krischker: Formale Analyse (Erfassung) von Dokumenten. – In: Grundlagen der praktischen Information und Dokumentation. – München [u.a.]: Saur, 31990, 63-89.

Page 106: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 106

Dokumente und ihre Strukturierung

Formale Erfassung.• Erfassung von Webseiten• „Dublin Core Elements“ Feldname (Version 1.0)

– Titel title– Autor/Urheber creator– Thema/Schlagwörter subject

(vorgeschlagen: kontrolliertes Vokabular oder Klassifikation)– Inhaltsbeschreibung description

(Abstract bzw. Beschreibung nicht-textueller Dokumente)– Herausgeber/Verlag publisher– anderer Beteiligter contributor

(etwa: Illustrator, Übersetzer)– Datum (in der Form: yyyy-mm-dd) date– Dokumenttyp resource type

(etwa: Homepage, Arbeitspapier, Gedicht, Foto)

Page 107: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 107

Dokumente und ihre Strukturierung

• „Dublin Core Elements“ (2) Feldname (Version 1.0)– Datenformat format

(Dateityp, ggf. Dateigröße)– Identifikation der Ressource identifier

(URL [uniform resource locator], DOI [digital object identifier], ...)– Quelle source– Sprache language– Beziehungen relation– thematische Abdeckung coverage

(räumliche und zeitliche Charakteristika des Inhalts)– Rechte rights

(Vermerk über Rechteinhaber)

• Bisher konnten sich die „Dublin Core Elements“ im WWW [noch?] nicht durchsetzen.

Page 108: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 108

Dokumente und ihre Strukturierung

• Metadaten: Inhaltserschließung• Abbildung inhaltsbezogener Informationen der dokumentari-

schen Bezugseinheit auf die Erschließungsfelder einer Daten-bank

• Inhaltserschließung geschieht durch INDEXIEREN und REFERIEREN – Indexieren ist die Abbildung der Themen (ggf. der

Themenkomplexe) durch Begriffe (Ursprung des Wortes: Buchindex)

– Referieren ist die Abbildung der thematisierten Sachverhalte durch (wenige) Sätze

• Inhaltserschließung geschieht entweder automatisch oder intellektuell (oder Mischform)

• Inhaltserschließung macht von eigenen Methoden und von spezifischen Werkzeugen Gebrauch.

Page 109: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 109

Dokumente und ihre Strukturierung

Inhaltserschließung

Funktion 1:Informations-

filter

Funktion 2:Informations-verdichtung

Indexieren Referieren

Optimales Suchen und Finden von Dokumenten

Page 110: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

Dokumentationssprachen I:Klassifikationssysteme

(Taxonomien)

Page 111: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 111

Klassifikationssysteme

Klassifikation - Grundlegende Literatur• Brian Buchanan: Bibliothekarische Klassifikationstheorie. –

München: Saur, 1989.• DIN 32705: Klassifikationssysteme• Konrad Umlauf: Einführung in die bibliothekarische Klassifikations-

theorie und –praxis. – Berlin: HU / Inst. f. Bibl.wiss., 1999. (www.ib.hu-berlin.de/~kumlau/handreichungen/h67/).

• Advances in Classification Research. Proceedings of the xxth ASIS&T SIG/CR Workshop. – Medford: Information Today (derzeit Bd. 13, 2004).

• Hans-Jürgen Manecke: Klassifikation, Klassieren. – In: Grundlagen der praktischen Information und Dokumentation. – München: Saur, 52004, 127-140.

• Evgenij I. Samurin: Geschichte der bibliothekarisch-bibliographi-schen Klassifikation. – Pullach: Verl. Dokumentation, 1967 (Bd. 1), 1968 (Bd. 2).

Page 112: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 112

Klassifikationssysteme

Klassifikation ist ein Hilfsmittel zur ORDNUNG von Gegenständen oder von Wissen über Gegenstände– praktische Aufgabe: Ordnen von Gegenständen (in einem

Lager, im Supermarkt, im Küchenschrank, ...)– informationswissenschaftliche und -praktische Aufgabe:

Anordnen, Bei-, Neben- und Einordnen, Einteilen, Gruppieren, Unterordnen, Zusammenordnen, Zuordnen von Wissen

– wissenschaftliche Aufgabe: angemessene Darstellung von Wissenseinheiten (z.B. Taxonomie in der Biologie: „Systema naturae“ von Carl von Linné, oder Physik: Periodensystem der Elemente)

– erkenntnisvermittelnde Aufgabe: Aufhellung von Zusammenhängen anhand geordneten Wissens

Page 113: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 113

Klassifikationssysteme

Grundbegriffe• Klasse: (intensional oder extensional) definierter Gegenstand

(Allgemein- oder Individualbegriff)• Klassifizieren: Erstellen eines Klassifikationssystems; Bilden

von Klassen• Klassieren: Einordnen von DBE in Klassen• Notation: nicht-natürlichsprachiges Wort als Name einer

Klasse • Bezeichnungen: natürlichsprachige Übersetzungen einer

Notation• Die Erstellung und Weiterentwicklung von Klassifikations-

systemen ist in Deutschland normiert.• DIN 32705. Klassifikationssysteme (1987)

Page 114: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 114

Klassifikationssysteme

Notationsformen• strukturabbildend hierarchische Notation (Notation bildet

Hierarchierelation ab). Bsp.:Klasse A: Notation: 1Klasse B: Notation: 11Klasse D: Notation: 111Klasse C: Notation: 15

• sequentielle Notation. Bsp.:Klasse A: Notation: 1Klasse B: Notation: 3Klasse D: Notation: 8Klasse C: Notation: 5

• hierarchisch-sequentielle Notation - Mischform (Notation auf gewissen Hierarchieebenen hierarchisch, sonst sequentiell)

Relationen in Begriffssystemen

Topterm

BottomtermsAssoziations-relation

Hierarchierelation

Poly-hierarchie

Begriffsle

iterA

B C

D E F

G H I

Begriffs- -reihe

Page 115: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 115

Klassifikationssysteme

• Vorteil der Notation: international einsetzbarBeispiel: vacuum cleanerStaubsaugerdammsugarenaspirateur DK 648.525aspiratore di polvereaspirador de polvoodkurzacz

• Nachteil der Notation: mnemotechnisch nicht beherrschbar

Page 116: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 116

Klassifikationssysteme

• Präkombinationsgrad der Begriffe: i.d.R. hoch (präkombinierte Begriffe bevorzugt). Bsp.: „Witterungsabläufe in Mittel-gebirgslagen subtropischer Zonen“ als 1 Klasse

• i.d.R. monohierarchisch (ohne Unterscheidung nach Abstraktions-und Bestandsrelation); zusätzlich: (Quasi-)Synonyme; Assoziationsrelation sehr eingeschränkt

• häufig: neben einer Basiskategorie weitere spezielle Kategorien (als „Anhängezahlen“, „Ergänzungszahlen“ oder „Indexcodes“)

• Klassifikationssystem:– (1) Lexikon: systematische Tafeln, ggf. Hilfstafeln (jeweils Notationen

und Bezeichnung/en); hierzu: Register (mit Synonymen)– (2) Grammatik: spezielle Zeichen, Regeln für den Umgang mit den

Zeichen– (3) Hinweise: u.a. Anmerkungen, Querverweise oder Vorrangregeln

Page 117: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 117

Klassifikationssysteme

• Grundlegende Regeln: – ein Objekt - eine Klasse– damit: ein Objekt - eine Notation– eine Notation - mehrere Bezeichnungen (Fremdsprachen,

Akronyme, Synonyme)– jede Bezeichnung sollte für sich selbst sprechen (u.U.

definierende Zusätze anbringen)– Einstieg für Nutzer über Systematik (Notationen) und

Bezeichnungen (möglichst in unterschiedlichen natürlichen Sprachen) gewährleisten

– homonyme Bezeichnungen in die einzelnen Objekte überführen und auf unterschiedliche Klassen verweisen

– i.d.R. monodimensional (polydimensional nur in Ausnahme-fällen)

– Polyhierarchie schlecht oder gar nicht ausdrückbar

Page 118: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 118

Klassifikationssysteme

Klassifikationstypen nach Einsatzgebieten– Universalklassifikationen

• zur Ordnung von Beständen (sprachlich wie fachlich) universal ausgerichteter Informationseinrichtungen (z.B. Universitätsbibliotheken)

• als Zugangshilfe zu Dokumenten im World Wide Web– Klassifikationen gewerblicher Schutzrechte– Wirtschaftsklassifikationen

• Branchenklassifikationen (auch zum Zwecke amtlicher Statistik)

• Produktklassifikationen– Geographische Klassifikationen– Medizinische Klassifikationen

Page 119: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 119

Klassifikationssysteme

Universalklassifikationen• Dewey Decimal Classification (DDC) - von Melvil

Dewey 1876 erstmals eingeführt• Dezimalklassifikation (DK / UDC / CDU) - auf der

Basis der DDC von Paul Otlet und Henri LaFontaine um 1900 entwickelt

• Colon Classification (CC) - facettierte Klassifikation von S.R.Ranganathan (1. Aufl. 1933)

• Allgemeine Systematik für Öffentliche Bibliotheken (ASB) - als Aufstellordnung in ÖBs (seit 1956) verwendet

• Yahoo! - Klassifikation• Open Directory Project (ODP) - Systeme zur

Klassierung von Websites

DK:unser

1. Beispiel

Yahoo!unser

2. Beispiel

Page 120: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 120

Klassifikationssysteme

Dezimalklassifikation (DK)• Haupttafel / Aufbau:

– 0 Allgemeines– 1 Philosophie, Psychologie– 2 Religion, Theologie– 3 Sozialwissenschaften– 4 [derzeit frei]– 5 Mathematik, Naturwissenschaften– 6 Angewandte Wissenschaften, Medizin, Technik– 7 Kunst, Musik, Sport, Spiele– 8 Literaturwissenschaft, Sprachwissenschaft– 9 Geographie, Biographien, Geschichte

I.C.McIlwaine: The Universal Decimal Classification: Guide to its Use. – The Hague: UDC Consortium, 2000.Karl Fill: Einführung in das Wesen der Dezimalklassifikation. - Berlin, Köln: Beuth Verl., 1981.

Online: www.udcc.org/ (Ausschnitte aus der DK)

Page 121: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 121

Klassifikationssysteme

Dezimalklassifikation (DK) - Notationsbeispiel 1

2 Religion, Theologie29 Nichtchristliche Religionen291 Allgemeine und vergleichende Religionswissenschaft291.2 Religiöse Lehren. Dogmen291.21 Gottheiten. Gegenstand der Religion. Verehrung der

Gottheiten. Göttersagen. Funktionen der Götter. Götter-und Geisterwelten

291.213 Verehrung von Menschen, Halbgöttern, Helden, Heiligen, Herrschern (Apotheose)

291.213.4 Ahnenkult. Kult der Hausgötter: Manen, Laren, Penaten

Page 122: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 122

Klassifikationssysteme

Dezimalklassifikation (DK) - Notationsbeispiel 2669 Metallurgie. Metalle und Legierungen669.1 Eisenhüttenkunde. Eisen und Stahl669.16 Herstellung von Roheisen669.162 Roheisenerzeugung. Erste Schmelzung669.162.2 Hochöfen669.162.26 Betrieb von Hochöfen669.162.266 Hochofenabstich669.162.266.2 Roheisenabstich669.162.266.23 Abstechen in Gießbetten und Herstellen der Masselbetten669.162.266.232 Abstechen in Gießbetten669.162.266.232.6 Abstechen in Gießmaschinen669.162.266.232.64 in Gießmaschinen mit endlosen Bändern

synkategorematischer Begriff; wird erst mit nächsthöherer Ebene vollständig.

Page 123: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 123

Klassifikationssysteme

• Neben den Systematischen Tafeln hat die DK für spezielle Kategorien Ergänzungstafeln

• Allgemeine Ergänzungszahlen KATEGORIE SYMBOL

– Sprache =...– Form (0...)– Ort (1/... bis 9/...)– Zeit „...“– Materialien -03– Personen -05

• Besondere Ergänzungszahlen– Kennzeichnungen (-...)– Aspekte u.a. (.0...)– Synthese (’...)

Page 124: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 124

Klassifikationssysteme

• Allgemeine Ergänzungszahlen der Zeit (Beispiele)

– „-“ vorchristliche Zeit– „+“ christliche Zeit– „04/14“ Mittelalter– „15/19“ Neuzeit– „32“ Jahreszeiten– „321“ Frühling– „322“ Sommer– ...– „36“ Zeit in Sicht der

Not– „362“ Friedenszeit– „364“ Kriegszeit

• Allgemeine Ergänzungszahlen der Sprache (Beispiele)

– =00 mehrsprachig– =20 englisch– =30 deutsch– =392 friesisch– =393 niederländisch– =393.2 flämisch– =393.6 afrikaans– =40 französisch– =490 provenzalisch– =499 katalanisch– =50 italienisch– =60 spanisch

Page 125: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 125

Klassifikationssysteme

• Besondere Ergänzungszahlen (Aspekte) im Bereich DK 7 (Beispiele)

– 7.061 Fälschungen– 7.07 Arten der

Beschäftigung mit Kunst

– 7.071 Künstler– 7.072 Kunstwissen-

schaft– 7.073 Kunstliebhaber– 7.075 Kunsthändler– 7.078 öffentliche

Förderung der Kunst

• Systematische Tafel im Bereich DK 7 (Ausschnitt)– 737.1 Münzen– 738.5 Mosaik– 739.8 Nippes

• Kombination Systematik-Notation und besondere Ergänzungszahl

– 737.1.061 Fälschungen von Münzen

– 738.5.061 Fälschungen von Mosaiken

– 739.8.075 Händler von Nippes

Page 126: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 126

Klassifikationssysteme

DK-Register• enthält in einer natürlichen Sprache alle Benennungen der

Notationen aus den systematischen Tafeln und aus den Ergänzungstafeln

• enthält Synonyme und Quasi-Synonyme der Benennungen• Assoziationsrelation („siehe auch“)• unterscheidet Homonyme bzw. PolysemeAusschnittbeispiele:Deutschland (Geographie) 914.3--- (Geschichte) 943--- (Ortsanhängezahl) (43)Dock ... siehe auch TrockendocksPinakothek siehe GemäldegalerienSchlangen (Zoologie) 598.12Schlangen (Tierzucht) 636.98

Notation aus Ergänzungstafel

Notation aus systematischer Tafel

Assoziationsrelation

Homonym-kontrolle

Synonym

Page 127: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 127

Klassifikationssysteme

Mehrere Klassen verbinden (syntaktisches Indexieren)

– (1.) Beziehung. Symbol: :Beispiel: Lichtbrechung von RubinenRubin 549.517.1Lichtbrechung 535.323also: 549.517.1:535.323

– (2.) Beiordnung. Symbol: +Beispiel: Mathematik und PhysikMathematik 51Physik 53also: 51+53

– (3.) gerichtete BeziehungSymbol: ::

Beispiel: VerkehrsmedizinVerkehr 656Medizin 61also: 61::656

– (4.) Erstreckung (von-bis)Symbol: /

Beispiel: der Gesamtbereich Biologie, Botanik, ZoologieBiologie 57Botanik 58Zoologie 59also: 57/59

Page 128: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 128

Klassifikationssysteme

• (5.) Kombination einer DK-Zahl der Haupttafel mit einer allgemeinen Ergänzungszahl

• Zahl aus Haupttafel [Zeichen für Typ der Ergänzungszahl] Ergänzungszahl

• Beispiel: Prostitution in DeutschlandProstitution 176.5Zeichen für Ort (...) allgemeine ErgänzungszahlDeutschland 43

also: 176.5(43)

• (6.) Kombination einer DK-Zahl der Haupttafel mit einer speziellen ErgänzungszahlZahl aus Haupttafel [Zeichen für Typ der Ergänzungszahl] Ergänzungszahl für markierten BereichBeispiel: Fälschungen von Mosaiken (siehe oben!)Mosaik 738.5Zeichen Ergänzungszahl.0 ... spezielle ErgänzungszahlFälschungen 61 (darf im Bereich 7 eingesetzt werden)also: 738.5.061

Page 129: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 129

Klassifikationssysteme

Fallbeispiel: DK-Suche beim Katalog der ETH Zürich: Index

Suchargument

Page 130: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 130

Klassifikationssysteme

DK-Suche beim Katalog der ETH Zürich: Katalogkarte

Page 131: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 131

Klassifikationssysteme

Yahoo!• Gründer und derzeitige

CEOs: Jerry Yang und David Filo

• entstanden 1993 aus einem Verzeichnis von Bookmarks

• Yahoo: (unsympathische) Wesen aus „Gullivers Reisen“; Akronym für „yet another hierarchical officious oracle“ oder auch schlicht Ausruf

Page 132: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 132

Klassifikationssysteme

Polydimensionale Ordnung

@: Wechsel der Begriffsleiter(unechte) Polyhierarchie

Page 133: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 133

Klassifikationssysteme

Zuordnung einerWebsite zu mehreren

Klassen

Page 134: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 134

Klassifikationssysteme

88malFrauen alsBenennung

fürunterschied-

licheKlassen

Klassen-bezeichnun-

gen beiYahoo! sind

synkate-gorematisch.

Page 135: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 135

Yahoo ! - Baumstruktur (Ausschnitt / fingiertes Beispiel: Suchenach: „The Game of Go“) - Patent US 5991756

Yahoo's Main Menu

1 Recreation 16 Restaurants

6 URL 8 Tournaments

9 Boating

21 Joe's Pizza To Go

22 "To Go" Delivery Services

7 Chess

5 URL

20 Food To Go

4 Go

3 Board Games

2 Games

„Game$“„Go$“

Kein direkter Treffer

Page 136: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 136

Klassifikationssysteme

Yahoo! Suchalgorithmus• bei Phrase: Anzeige der direkten Treffer (Categories [d.h.:

Klassenbenennungen], Sites, News)• sonst: Elimination von Stoppwörtern• automatische Rechtsfragmentierung (stets: SUCHTERM*)• bei genau 1 Suchwort sowie bei mit ODER verknüpften

Suchwörtern: Anzeige der direkten Treffer• bei mehreren mit UND verknüpften Suchwörtern:• 1. Anzeige der direkten Treffer• 2. Anzeige der indirekten Treffer (min. 1 Suchwort direkter Treffer,

anderes Suchwort Unterbegriff eines direkten Treffers) -Aufhebung der Probleme mit den Synkategoremata

Jiong Wu: Information Retrieval from Hierarchical Compound Documents / Yahoo Inc. – Patent US 5991756 vom 23.11.1999. – Mechtild Stock; Wolfgang G. Stock: Recherchieren im Internet. – Renningen: expert-verl., 2004, Kap. 2.

Page 137: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 137

Dokumenten-speicher

1 9 - Recreation Desc. Fun Cat.2 8 1 Games Desc. - Cat.3 8 2 Board Games Desc. - Cat.4 6 3 Go Desc. - Cat.5 - 4 Title / URL Desc. - Site6 - 4 Title / URL Desc. - Site7 8 3 Chess Desc. - Cat.8 ... 7 Tournements Desc. Contests Cat.9 ... 1 Boating Desc. Sailing Cat.

...Game: 2, 3, NullGamele: 10,12, NullGander: 39, 67, 102, Null...Go: 4, 20, 21, 22, ...Gobble: 82, 102, Null...The: Ignore

Wort-index

Such-maschine

The Gameof Go Ausgabeliste

Anfrage

Treffer-liste

AnfrageDoku-ment

Dok. Zeit Intervall der "Kinder"1 xxx 00/00/0000 2-9 -2 xxx 00/00/0000 3-8 -3 xxx 00/00/0000 4-8 -4 xxx 00/00/0000 5-6 -5 xxx 00/00/0000 ∅ 106 xxx 00/00/0000 ∅ 5

Gewichtung

Struktur derIndices

beiYahoo!

PatentUS 5991756

Page 138: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 138

Klassifikationssysteme

Klassifikation gewerblicher Schutzrechte

• Patente und Gebrauchsmuster: – Internationale Patentklassifikation (IPC)– ECLA

• Marken:– Wiener Klassifikation der figürlichen Darstellungen– Nizza Klassifikation der Waren

• Geschmacksmuster:– Locarno Klassifikation der Waren

• alle Klassifikationen gewerblicher Schutzrechte werden von der World Intellectual Property Organization (WIPO) in Genf gepflegt

unsereBeispiele

Online: classifications.wipo.int

Page 139: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 139

Klassifikationssysteme

Internationale Patentklassifikation / International Patent Classification (IPC)

• nach dem Straßburger Abkommen über die IPC (1971; in Kraft getreten 1975) einheitliche Klassierung aller Patentschriften weltweit

• neben den Patentämtern halten sich alle Datenbank-produzenten beim Indexieren an die IPC

• Gegenstandsbereich: alles, was patentiert werden kann, d.h. alle technischen Gegenstände (Anm.: Dieser Bereich kann sich von Zeit zu Zeit wandeln; z.Z. etwa bei den Softwarepatenten)

• derzeit (7.Aufl.) rund 69.000 Klassen

Page 140: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 140

Klassifikationssysteme

IPC - Lexikon in 8 Sektionen:– A Täglicher Lebensbedarf (ca. 7.500 Gruppen)– B Arbeitsverfahren; Transportieren (16.500)– C Chemie; Hüttenwesen (13.500)– D Textilien; Papier (3.000)– E Bauwesen; Erdbohren; Bergbau (3.000)– F Maschinenbau; Beleuchtung; Heizung;

Waffen; Sprengen (8.000)– G Physik (7.000)– H Elektrotechnik (7.000)

Page 141: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 141

Klassifikationssysteme

Struktur der IPCSektion: 1 Stelle (z.B. B)- Klasse: 2 weitere Stellen (z.B. B64)- Unterklasse: 1 Stelle (z.B. B64C)- Gruppen: 3 Stellen (z.B. B64C 025)- Hauptgruppe: 2 Stellen stets 00 (z.B. B64C 025/00)- Untergruppe: i.d.R 2 Stellen (nicht 00), u.U. bis zu

4 Stellen (z.B. B64C 025/02)• bis zur Gruppenebene: Notationen strukturabbildend hierarchisch• Untergruppenebene: Notationen sequentiell

Page 142: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 142

Klassifikationssysteme

B Arbeitsverfahren; TransportierenB64 Luftfahrzeuge; Flugwesen; RaumfahrtB64C Flugzeuge; Hubschrauber; Drehflügelflugz.B64C 025 --B64C 025/00 Start- bzw. LandegestelleB64C 025/02 . FahrgestelleB64C 025/08 .. nicht fest angeordnet, z.B. abwerfbarB64C 025/10 ... einfahrbar, klappbar oder dgl.B64C 025/18 .... BetätigungsmittelB64C 025/26 ..... Steuerung oder Verriegelung dafürB64C 025/30 ...... Notbetätigung

Page 143: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 143

Klassifikationssysteme

Hinweise– allgemeine Querverweise

Beispiel: H05B 3/03 Widerstandsheizung / Elektroden (elektrothermische Behandlung von Erzen C22B 4/00)

– Vorrangregel (falls ein Gegenstand an mehreren Stellen klassiert werden kann, aber nur an einer Stelle klassiert werden sollte) Beispiel: H05B 3/40 Heizelemente ... (3/62, 3/68, 3/78 haben Vorrang)

– Orientierungsverweis (Hinweis auf verwandte Gegenstände)

Page 144: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 144

Klassifikationssysteme

Hybrid-System– Hybrid-Systeme: an manchen Stellen der IPC sind Index-Codes

vorgesehen, die nur in Verbindung mit (dort definierten) anderenNotationen zu verwenden sind (statt des Schrägstriches hier: Doppelpunkt). Beispiel: B62D (Motorfahrzeuge), B62D 101:00 (Fahrgeschwindigkeit)

– analog zu den speziellen Ergänzungstafeln der DK– verbundene Index-Codes: Darstellung einer Notation und eines

Index-Codes in einer Klammer; Beispiel: (C08F 210/16, 214:06) -Themenkette i.S. syntaktischen Indexierens

– nicht verbundene Index-Codes: Darstellung des Index-Codes allein als allgemeine Zusatzinformation

Page 145: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 145

Klassifikationssysteme

• Klassierung von Erfindungsobjekten– Funktionsorientierung eines Gegenstandes (z.B. Kolben) und

Anwendungsorientierung eines Gegenstandes (z.B. Anordnung von Kolben in einem Motor) berücksichtigen!

– System als Ganzes sei Gegenstand: dann auch die nicht trivialen Einzelheiten klassieren (z.B. gesamte Radaufhängung: wenn wichtig, auch die Blattfeder berücksichtigen)!

– chemische Formeln (insb. organische Verbindungen): alle vollständig identifizierten Verbindungen berücksichtigen!

– soviele IPC-Notationen wie nötig, um alle Ansprüche des Patentes wiederzugeben

– die Notation(en) des Hauptanspruches als erste nennen, dann Nebenansprüche (einige Patentämter klassieren nur den Hauptanspruch)

– X-Notationen: X (an beliebiger Stelle einer Notation) zeigt an, dass die IPC den abzubildenden Gegenstand nicht genau trifft; hier ist Handlungsbedarf für Weiterentwicklungen der IPC

Page 146: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 146

Klassifikationssysteme

• Klassierung von Erfindungsobjekten– Hauptklasse(n)

Hauptansprüche der Erfindungsschrift– Nebenklasse(n)

Nebenansprüche der Erfindungsschrift– Doppelstrichklasse(n)

„Zusatzinformationen“; nicht rechtlicher, sondern ausschließlich technischer Natur (von den Erfindungsinformationen durch einen Doppelstrich // getrennt)

– Indexklasse(n)verbundene / unverbundene Indexcodes

Page 147: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 147

Klassifikationssysteme

Fallbeispiel: IPC bei DEPATISnet (DPMA)• Suche in der IPC: mit schwarzem Balken am Rand:

Indexcodes; sonst: Notationen

Nota-tionen

Index-Codes

Page 148: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 148

Klassifikationssysteme

IPC in der Version bei DEPATISnet

Index-codes

Page 149: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 149

Klassifikationssysteme

Detailsucheder Experten-

maskenach:

Hauptklasse,Nebenklasse,Doppelstrich-

klasse,Indexklasse

möglich

Page 150: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 150

Klassifikationssysteme

Anzeige derbibliogra-phischen

undinhalts-

erschließen-den

Informationen

zusätzlich:Volltext(PDF)

Page 151: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 151

Klassifikationssysteme

ECLA: European Classification System– IPC: in gewissen Technikbereichen nicht tief genug

gegliedert– ECLA erweitert IPC „nach unten“ und verfeinert das

System– erarbeitet beim Europäischen Patentamt; wird bei

einigen großen Patentdatenbanken bei Questel-Orbit eingesetzt

– Bsp.: H04N-007/24C12M2IPC ECLA

– z.T. diverse neue Klassen (und damit lange Notationen)

David T. Dickens: The ECLA Classification System. – In: World Patent Information 16 (1994), 28-32.

Page 152: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 152

Klassifikationssysteme

ECLA: Bsp. G06F-17/30 Information Retrieval

Online: l2.espacenet.com/espacenet/eclasrch

Page 153: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 153

Klassifikationssysteme

Wiener Klassifikation der figürlichen Darstellungen– Einsatz bei Markendatenbanken zur inhaltlichen

Beschreibung von Bildmarken (wie die „lila Kuh“ von Milka)

– seit 1973 (verabschiedet in Wien) international eingesetzt

– 3 Hierarchieebenen:• 29 Kategorien• 144 Abteilungen• 1.634 Sektionen (in Haupt- und Hilfstafeln)

– formale Graphikelemente (etwa 26: geometrische Figuren oder 29: Farben) und inhaltliche Aspekte (etwa 2: Menschen oder 22: Musikinstrumente)

Page 154: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 154

Klassifikationssysteme

Wiener Klassifikation der figürlichen Darstellungen / Ausschnitt– 03 Animals

• 03.01 Quadrupeds (Series I)– 03.01.01. Lions– 03.01.04. Tigers or other large felines– 03.01.06. Cats or other small felines– 03.01.08. Dogs, wolves, foxes

• ... (gekürzt)• Auxiliary Section Associated with Principal Section 3.1.1

– A 03.01.02 Heraldic lions– Auxiliary Section Associated with Principal Section 3.1.1-3.1.15

– A 03.01.17 Animals of Series I standing– A 03.01.24 Animals of Series I stylized

– Klassierungsbeispiel: stilisierter Hund– 03.01.08 / 03.01.24

Page 155: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 155

Klassifikationssysteme

Wirtschaftsklassifikationen• Klassifikationen der Amtlichen Statistik

– NACE (Europäische Union)– WZ 03 (Deutschland)– SIC (USA - veraltet)– NAICS (Nordamerika)

• Spezielle Branchenklassifikationen– European Business Classification (Schober)

• Produktklassifikationen– Predicasts Product Codes (Gale Group)– Kompass– Dun & Bradstreet SIC

Anneliese Krobath: Analyse von amtlichen und proprietären Wirtschaftsklassifikationen anhand eines Kriterien-katalogs. – Dipl.-Arb. Karl-Franzens-Univ. Graz, 2004.

Mechtild Stock; Wolfgang G. Stock: Qualität professioneller Firmeninformationen im World Wide Web. - In:Willi Bredemeier et al.: Die Branche elektronischer Geschäftsinformation in Deutschland 2000/2001. –

Hattingen; Kerpen; Köln, 2001, Kap. 3.2: Branchen- und Produktklassifikationen, 355-377.

Page 156: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 156

Klassifikationssysteme

NACE• Nomenclature général des activités économiques dans les

Communautés Européens• NACE (Rev. 1) seit 1993 verbindliche Klassifikation der

Wirtschaftszweige in der EU• 4-stellige Notationen; derzeit 640 Klassen• 3 Hierarchieebenen Beispiel

– Abteilung (2 Stellen) 29– Gruppen (1 weitere Stelle) 29.5– Klassen (1 weitere Stelle) 29.56– zusätzlich: Abschnitte (Buchstabennotationen),die

Abteilungen sequentiell zusammenfassen, Bsp.: D für die Abteilungen 15 - 37NACE Rev. 1: Statistische Systematik der Wirtschaftszweige in der Europäischen Gemeinschaft. – Luxembourg:

Amt für Amtliche Veröffentlichungen der Europäischen Gemeinschaften, 1996. – (Themenkreis 2: Wirtschaftund Finanzen; Reihe E: Methoden). - Letzte Änderung: NACE Rev. 1.1 (2003).

Online: europa.eu.int/comm/eurostat/ramon/geninfo/geninfo_de.html

Page 157: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 157

KlassifikationssystemeA Land- und Fortwirtschaft 01, 02B Fischerei und Fischzucht 05C Bergbau und Gewinnung von Steinen und Erden 10 bis 14D Verarbeitendes Gewerbe 15 bis 37E Energie- und Wasserversorgung 40, 41F Baugewerbe 45G Handel, Instandhaltung und Reparatur von Kraftfahr-

zeugen und Gebrauchsgütern 50 bis 52H Gastgewerbe 55I Verkehr und Nachrichtenübermittlung 60 bis 64J Kredit- und Versicherungsgewerbe 65 bis 67K Grundstücks- und Wohnungswesen, Vermietung beweglicher

Sachen, Erbringung von Dienstleistungen f. Unternehmen 70 bis 74L Öffentliche Verwaltung, Verteidigung, Sozialversicherung 75M Erziehung und Unterricht 80N Gesundheits-, Veterinär- und Sozialwesen 85O Erbringung von sonstigen öffentlichen und

persönlichen Dienstleistungen 90 bis 93P Private Haushalte 95Q Exterritoriale Organisationen und Körperschaften 99

NACE1. Hierarchie-

ebene

Page 158: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 158

Klassifikationssysteme

WZ 93 / WZ 03• Übernahme der NACE in die deutsche amtliche Statistik ab

1993 als „Klassifikation der Wirtschaftszweige“ (WZ 93) –Überarbeitung 2003

• 5-stelliger Code (die letzte Stelle gilt nur für Deutschland)• 1.700 Klassen• Einsatz bei

– Statistisches Bundesamt, Bürgel, Creditreform, Hoppenstedt, AZ Bertelsmann, Schober

• Achtung: z.T. Klassen ohne Änderung der Definition gegenüber Oberbegriffen

• Beispiel: 35.3 (Luft- und Raumfahrzeugbau)– 35.30 (Luft- und Raumfahrzeugbau (bis hierhin: NACE Rev. 1) - ohne

Informationsgewinn» 35.30.0 (Luft- und Raumfahrzeugbau (5. Stelle der WZ 93) - wiederum

ohne Informationsgewinn

Page 159: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 159

Klassifikationssysteme

NACE - WZ 03 / Beispiel: Druckmaschinen• 29 (Maschinenbau)• 29.5 (Herstellung von Maschinen für sonstige

bestimmte Wirtschaftszweige)• 29.56 (Herstellung von Maschinen für bestimmte

Wirtschaftszweige a.n.g.) - bis hierhin: NACE• 29.56.1 (Herstellung von Maschinen für das

Druckgewerbe) - nur für den Gebrauch in Deutschland

Alphabetisches Verzeichnis zur Klassifikation der Wirtschaftszweige, Ausgabe 1993. – Stuttgart:Metzler-Poeschel, 1993.

Online: www.destatis.de/allg/d/klassif/wz2003.htm

Page 160: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 160

Klassifikationssysteme

Standard Industrial Classification (SIC)• 1939 - 1997 Klassifikation der Amtlichen Statistik der USA• letzte erschienene Revision: 1987• abgelöst durch NAICS 1997• wird derzeit noch von vielen Informationsproduzenten

eingesetzt, u.a. Information Access Group, Dun & Bradstreet, Hoppenstedt, Schober

• 4-stellige Notationen - rund 1.000 Klassen• hierarchischer Notationsaufbau, 4 Hierarchieebenen• stets mit „0“ auf vier Stellen aufgefüllt

Online: www.osha.gov/oshstats/sicser.html

Page 161: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 161

Klassifikationssysteme

SIC / Grundstruktur– 0 Landwirtschaft, Forstwirtschaft, Fischerei– 1 Bergbau, Rohstoffe, Hoch- und Tiefbau– 2 Herstellung kurzlebiger Verbrauchsgüter– 3 Herstellung langlebiger Gebrauchsgüter– 4 Transport, Nachrichtentechnik, Versorgungsbetriebe– 5 Groß- und Einzelhandel– 6 Finanzdienstleistungen– 7 (andere) Dienstleistungen– 8 Gesundheit und Bildung– 9 Staat, Regierung

SIC / Beispiel: Druckmaschinen3000 (Herstellung langlebiger Gebrauchsgüter)

3500 (Maschinenbau)3550 (Maschinenbau - Spezialmaschinen)

3555 (Maschinenbau - Druck)

Page 162: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 162

Klassifikationssysteme

NAICS / North American Industry Classification System• keine SIC-Revision, sondern neues System

– durchgehend neu: Notationen– aus SIC unverändert übernommen: 422 Klassen– aus SIC revidiert übernommen: 390 Klassen– neue Klassen: 358 Klassen (z.B. „51 Information“)– 6-stelliger Code - 1.170 Klassen– 5 Hierarchieebenen

• Sektoren (2 Stellen) - sequentielle Notationen• Subsektor (1 weitere Stelle) - ab hier hierarchische Notationen• Branchengruppe (1 Stelle)• Branche (1 Stelle) - bis hierhin international (NAFTA-Länder)• Teilbranche (1 Stelle) - landesspezifisch für USA, Kanada,

Mexiko

Page 163: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 163

Klassifikationssysteme

• 11 Agriculture, Forestry, Fishing and Hunting

• 21 Mining• 22 Utilities• 23 Construction• 31-33 Manufacturing• 42 Wholesale Trade• 44-45 Retail Trade• 48-49 Transportation and

Warehousing• 51 Information• 52 Finance and Insurance• 53 Real Estate and Rental and

Leasing• 54 Professional, Scientific, and

Technical Services

• 55 Management of Companies and Enterprises

• 56 Administrative and Support and Waste Management and Remediation Services

• 61 Educational Services• 62 Health Care and Social

Assistance• 71 Arts, Entertainment, and

Recreation• 72 Accommodation and Food

Services• 81 Other Services (except Public

Administration)• 92 Public Administration

NAICS: 1. Hierarchieebene

Page 164: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 164

Klassifikationssysteme

NAICS• eingesetzt bei:

– Amtlicher Statistik USA, Kanada und Mexiko– Datenbanken der Gale Group (u.a. PROMT)– (einigen) Firmendatenbanken in den USA

• Beispiel: Druckmaschinen– 31 - 33 (Manufacturing)– 333 (Machinery Manufacturing)– 3332 (Industrial Machinery Manufacturing)– 33329 (Other Industrial Machinery Manufacturing)– 333293 (Printing Machinery and Equipment

Manufacturing)North American Industry Classification System. – Lanham, MD: Bernan Press, 1998. Letzte Änderung: NAICS 2002.Ruth A. Pagell; Patricia J.S. Weaver: NAICS: NAFTA‘s industrial classification system. – In: Business Information

Review 14 (1997) 1, 36-44.Online: www.naics.com

Page 165: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 165

Klassifikationssysteme

Spezielle Branchenklassifikation: Schober– „European Business Classification“ (EBC)– rund 10.000 Klassen für Wirtschaftsbranchen und

Wirtschaftsaktivitäten zur Unterstützung der Suche in einer B-to-B-Adressdatenbank

– Beispiele für Klassen der Wirtschaftsaktivitäten• 6679 DIMA Düsseldorf• 5273 INFOBASE Intern. Fachmesse für Kommunikation Frankfurt

– Beispiel Druckmaschinen• 703 Druckmaschinen Hersteller• 2557 Papier- und Druckmaschinen Hersteller

Page 166: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 166

Klassifikationssysteme

Produktklassifikation 1: Gale-Codes (Predicasts-Codes)• angelehnt an SIC; erweitert auf 7 Stellen• Beispiel: 0174 (Zitrusfrüchte)

– 0174007 Pampelmusen– 0174012 Zitronen– 0174013 Limonen– 0174015 Apfelsinen– 0174019 Mandarinen– 0174021 Tangelos– 0174022 Temples– 0174024 Orangen, Valencia– 0174099 Zítrusfrüchte, sonstige

• Einsatz: in diversen Gale-Datenbanken

Online: support.dialog.com/searchaids/dialog/galecodes/

Page 167: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 167

Klassifikationssysteme

Produktklassifikation 2: Dun & Bradstreet SIC• Erweiterung der SIC um zwei weitere Hierarchieebenen

(jeweils 2-stellig)• über 18.000 Klassen• Stellen 1 bis 4: SIC• Stellen 5 und 6: Produktgruppe• Stellen 7 und 8: Produkte• wie bei SIC üblich: Auffüllen nach rechts freier Stellen

durch Nullen• Einsatz: (geplant bzw. derzeit in Arbeit): bei der D&B-

Firmendatenbank

Page 168: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 168

Klassifikationssysteme

D&B SIC. Beispiel Druckmaschinen35550000 (Printing Trades Machinery)

35550100 (Printing Presses)35550101 (Presses, Envelope, Printing)35550102 (Presses, Gravure)

35550200 (Printing Plades)35550201 (Plates, Metal: Engravers')35550202 (Plates, Offset)

usw. (gekürzt)35559900 (Printing Trades Machinery, NEC)

35559901 (Bronzing or Dusting Machines for the Printing Trade)usw. (gekürzt)35559906 (Typographic Numbering Machines).

Page 169: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 169

Klassifikationssysteme

Produktklassifikation 3: Kompass• Eigenes Produktklassifikationssystem der Kompass-

Firmendatenbanken• Gegenstand: B-to-B Produkte und Dienstleistungen - rund

50.000 Klassen• 3 Hierarchieebenen:

– Branche (2-stellig)– Fachgruppen (weitere 3 Stellen)– Produkte (weitere 2 Stellen)

• auf der Ebene der Fachgruppe zusätzlich: I / E (Import- bzw. Exportaktivitäten einer Firma)

• auf der Ebene der Produkte zusätzlich P / D / S (Produktion, Distribution, Service)

Online: www.kompass.com/

Page 170: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 170

Klassifikationssysteme

KompassMeist hierarchisch strukturiert:• 20 (Nahrungs- und Genussmittel)• 20420 (Fische in Konserven und anderen Verpackungen)• 2042052 (Fischfrikadellen, -bällchen und -kuchen in Dosen)

• ... aber mit Ausnahmen:• 20427 (Fische in Konserven und anderen Verpackungen /

Landesspezifische Produkte / Frankreich)• 2042701 (Bouillabaisse in Konserven)

Page 171: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 171

Klassifikationssysteme

44 (Maschinen und Anlagen für die Zellstoff-, Papier- und Druckindustrie.Büromaschinen und Anlagen für die elektronische Datenverarbeitung)

44140 (Druckmaschinen und Zubehör / Teil 1)4414001 (Druckmaschinen, Hochdruck, Flachdruckprinzip)4414002 (Druckmaschinen, Hochdruck, Rotationsoffsetprinzip)usw. (gekürzt)4414053 (Druckmaschinen, Heliografieverfahren)

44141 (Druckmaschinen und Zubehör / Teil 2)4414122 (Druckmaschinen, Mehrfarben)4414124 (Druckmaschinen, multifunktional)usw. (gekürzt)4414151 (Zylinder für Druckmaschinen)4414152 (Trockner für Druckmaschinen)usw. (gekürzt)

44149 (Druckmaschinen und Zubehör)4414901 (Andruckpressen, Flexodruck, Anilindruck)

44160 (Spezielle Druckmaschinen und Zubehör)usw. (gekürzt)

Achtungbei 44140

und 44141:

SequentielleNotation!

Kompass.Bsp.: Druck-maschinen

Page 172: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 172

Klassifikationssysteme

Branchen-Ebene:Import / Export

Produkt-Ebene:Produzent / Handel /

Dienstleister

Kompass-KlassifikationSuchoberfläche

Page 173: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 173

Klassifikationssysteme

Geographische Klassifikationen– finden in diversen Datenbanken (auch Wirtschaftsdaten-

banken) zusätzlich zu anderen Systemen Einsatz– haben ihre Wurzeln teilweise in der amtlichen Statistik

und finden auch dort ihren Einsatz– werden auch als Gebietsbeschreibungen in wissen-

schaftlichen Untersuchungen (etwa Regionalforschung oder Ökonomie) verwendet

– bedeutende Klassifikationssysteme• NUTS• Gale Group Country Codes• sowie Derivate davon

Page 174: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 174

Klassifikationssysteme

NUTS. Nomenclature des unités territoriales statistiques – entwickelt von der EU zur

amtlichen Statistik und zur Verwendung bei eigenen Datenbanken (etwa TED)

– hierarchisches System • Landesbezeichnung (2-stellig

mit Buchstaben) • Untereinheit (1-stellig mit

Zahlen; falls mehr als 10 Untereinheiten: zusätzlich mit Buchstaben)

• weitere Untereinheiten (bis zur Kreisebene bzw. bis zu den kreisfreien Städten)

Beispiele:

AT ÖsterreichAT2 SüdösterreichAT22 SteiermarkAT221 Graz

DE DeutschlandDEA Nordrhein-WestfalenDEA2 Regierungsbezirk KölnDEA27 Rhein-Erft-KreisDEA2A Oberbergischer

Kreis

Online: europa.eu.int/comm/ramon/nuts/home_regions_de.html

Page 175: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 175

Klassifikationssysteme

NUTS: Suche via Landkarten

Page 176: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 176

Klassifikationssysteme

GALE Group Country Codes– entwickelt von Predicasts, übernommen von Gale– derzeit Industriestandard im Bereich der Wirtschaftsdatenbanken– beinhaltet Weltregionen (0 bis 9), Staatengemeinschaften (soweit

vorhanden) und einzelne Länder– Gliederung

• 0 Internationales• 1 Nordamerika• 2 Mittelamerika• 3 Südamerika• 4 Europa• 5 Karibik• 6 Afrika• 7 Mittlerer Osten• 8 Australien, Ozeanien• 9 Asien

Online: support.dialog.com/searchaids/dialog/galecodes/

Page 177: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 177

Klassifikationssysteme

GALE Group Country Codes– Beispiele:

1 Nordamerika1USA USA gesamt1U9 Staaten der Westküste1U9CA KalifornienAchtung: Suchen nach USA gesamt und ihrer Staaten in der Form: 1U*

4 Europa4EU Europäische Union4EUGE Deutschland

Hier nicht strukturabbildendhierarchische Notation

Page 178: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 178

Klassifikationssysteme

Derivate der GALE Group Country Codes• da die Gale CC nur bis zur Länderebene reichen, gibt es

Erweiterungen• Beispiel: Ländercode der ifo Literaturdatenbank für Deutschland• bis Länderebene: wie Gale CC (also für Deutschland: 4EUGE)• Bundesländergruppe (1-stellig, N für neue Länder, A für alte

Bundesländer)• Bundesland (3-stellig, Buchstabencodes)• Kreise, Städte (Autokennzeichen)• Beispiel:

– 4EUGE Deutschland– 4EUGEA alte Bundesländer– 4EUGEABAY Bayern– 4EUGEABAYFFB Landkreis Fürstenfeldbruck– 4EUGEABAYFS Landkreis Freising

Bei letzter Hierarchie-ebene: sequentielle

Notation

Page 179: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 179

KlassifikationssystemeMedizinklassifikation: International Statistical Classificationof Diseases – Ausgabe 10 (ICD-10)

• Auf internationaler Ebene erstellt von der World Health Organization (WHO)

• In Deutschland gepflegt von DIMDI (Köln)• Einsatz:

– Abrechnung im öffentlichen Gesundheitswesen (u.a. Krankenhäusern)

– Abrechnung der niedergelassenen Ärzte– Statistik (u.a. Todesursachenstatistik)

• Haupttafeln mit „Schlüsselnummern“ (Notationen)• Bei den Klassen (i.d.R. bei den Dreistellern): Definitionen• Klassierregeln für die jeweiligen Klassen• Allgemeine Klassierregeln• Zusatzkennzeichen (allgemeine Ergänzungszeichen)

Online: www.dimdi.de/dynamic/de/klassi/download/index.html

Page 180: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 180

Klassifikationssysteme

ICD-10 – Haupttafel in 21 Kapiteln. Beispiele:A00-B99 I. Infektiöse und parasitäre KrankheitenC00-D48 II. NeubildungenD50-D89 III. Krankheiten des BlutesE00-E90 IV. Ernährungs- und StoffwechselkrankheitenF00-F99 V. Psychische und VerhaltensstörungenG00-G99 VI. Krankheiten des NervensystemsH00-H59 VII. AugenkrankheitenH60-H95 VIII. Ohrenkrankheiten...S00-T98 XIX. Verletzungen, Vergiftungen und andere Folgen

äußerer UrsachenV01-Y98 XX. Äußere Ursachen von Morbidität und MortalitätZ00-Z99 XXI. Faktoren, die den Gesundheitszustand beeinflussen

und zur Inanspruchnahme des Gesundheitswesens führen

Page 181: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 181

Klassifikationssysteme

ICD-10. Beispiel Haupttafel: Verletzung nach FahrradunfallV01-Y98 Äußere Ursachen von Morbidität und Mortalität

V01-X59 UnfälleV01-V99 Transportmittelunfälle

V01-V09 Fußgänger bei Transportmittelunfall verletztV10-V19 Benutzer eines Fahrrades bei Transportmittel-

unfall verletztV10 Benutzer eines Fahrrades bei Zusammenstoß mit

Fußgänger oder Tier verletztV11 Benutzer eines Fahrrades bei Zusammenstoß mit

einem anderen Fahrrad verletzt...V18 Benutzer eines Fahrrades bei Transportmittelunfall

ohne Zusammenstoß verletztjeweils: 4. Stelle: besondere Ergänzungszahl

Page 182: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 182

Klassifikationssysteme

ICD-10. Beispiel Haupttafel: Fahrradunfall

Besondere Ergänzungszahlen bei V10-V18:.0 Fahrer bei Transportmittelunfall außerhalb des Verkehrs verletzt.1 Mitfahrer bei Transportmittelunfall außerhalb des Verkehrs verletzt....3 Person beim Auf- und Absteigen verletzt...

Notation einer Verletzung durch Stürzen beim Aufsteigen auf ein Fahrrad (ohne Zusammenstoß)V18.3

Page 183: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 183

Klassifikationssysteme

ICD-10. Allgemeine Klassierregeln(1) Kreuz-Stern-System

– Mit einem Kreuz (+) versehene Klassen bedürfen einer Ergänzung– Mit einem Stern (*) versehene Klassen dürfen nur an eine Kreuz-

Klasse angebunden werden.– Beispiel: diabetische Retinopathie bei Typ I-Diabetes

• E10 Primär insulinabhängiger Diabetes mellitus• .3+ (besondere Ergänzungszahl) mit Augenkomplikationen • H36.0* Retinopathia diabetica• Also: E10.3+H36.0*

(2) Optionale Klassen– Mit einem Ausrufezeichen (!) versehene Klassen dürfen an eine

andere Klasse angebunden werden.Beispiel: Z51.0! Strahlentherapie-Sitzung

Page 184: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 184

Klassifikationssysteme

ICD-10– Zusatzkennzeichen (allgemeine

Ergänzungsnotationen)– Es sind max. 2 (der 6) Zusatzkennzeichen hinter

einer Notation zugelassen– R rechts– L links– B beidseits– V Verdachtsdiagnose– Z (symptomloser) Zustand nach der

betreffenden Diagnose– A ausgeschlossene Diagnose

Page 185: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 185

Klassifikationssysteme

ICD-10Diagnosethesaurus

– Register zur ICD– rund 60.000 Einträge

Page 186: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 186

Klassifikationssysteme

ICD-10 bei DIMDI

Page 187: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 187

Klassifikationssysteme

Klassifikationen. Fazit• Klassifikationssysteme spielen eine nicht umgehbare Rolle

in der Informationswirtschaft• Universalklassifikationen: Nutzung vorwiegend in großen

Bibliotheken• WWW: Wenn im Web überhaupt intellektuell ausgewertet

wird, dann klassifikatorisch• Gewerbliche Schutzrechte (Patente, Gebrauchsmuster,

Marken, Geschmacksmuster): international eingesetzte und akzeptierte Systeme. Die professionelle Suche nach Schutzrechtsdokumente geht ausschließlich über die jeweiligen Klassifikationssysteme.

• Wirtschaft: in vielen Wirtschaftsdatenbanken werden Branchen- oder Produktklassifikationen eingesetzt

• Medizin: keine Abrechnung, keine Statistik ohne ICD

Page 188: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 188

Klassifikationssysteme

Klassifikationen. Fazit• Es gibt einige Klassifikationssysteme, die sich hersteller-

übergreifend durchgesetzt haben:– Wirtschaft

• in Europa: NACE• in Nordamerika: NAICS• weltweit (obwohl veraltet): SIC

– Gewerbliche Schutzrechte• Patente, Gebrauchsmuster: IPC• Marken: Wiener Klassifikation, Nizza Klassifikation

– Länder• Gale CC • NUTS

– Medizin: ICD

Page 189: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 189

Klassifikationssysteme

Klassifikationen. Fazit• Aus den „Standardsystemen“ werden Derivate abgeleitet:

• WZ 93 aus NACE• Gale Product-Codes aus SIC• D&B-Product-Codes aus SIC• ifo Ländercode aus Gale CC

• zusätzlich existieren herstellerspezifische Klassifikations-systeme (Schobers EBC, Kompass, ...)

• Eigene, selbsterstellte Klassifikationen eignen sich zum Einsatz in unternehmensweiten Netzen (Intranets, Enterprise Information Portals) sowie zur Strukturierung von Katalogen (im E-Commerce)

Page 190: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 190

Klassifikationssysteme

Vorteile von Klassifikationen (egal, ob bei professionellen Datenbanken oder in [irgendeinem] Unternehmen)– übersichtliche Navigation durch die Hierarchieebenen– sprachunabhängiges System (ggf. Nachteil: Notationen sind

für Laien kaum recherchierbar; Ausgleich durch natürlichsprachige Oberflächen)

– vielfältige Ausdrucksmöglichkeiten durch Trennung von Haupttafeln und Ergänzungstafeln

– einfaches hierarchisches Retrieval durch Truncation (beistrukturabbildend hierarchischen Notationen)

Page 191: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 191

Klassifikationssysteme

Nachteile von Klassifikationen– Die Struktur ist zwar nach unten hin stetig erweiterbar, aber

nur sehr schwer im Grundaufbau zu verändern. Beispiele für Probleme:

• DK: bildet die Wissenschaftsstruktur des späten 19.Jahrhunderts ab

• SIC: musste als Ganzes abgelöst werden, da die neueren wirtschaftlichen Entwicklungen (etwa: Aufkommen der Dienstleistungen) nicht integriert werden konnten

– Bei den Relationen dominiert eindeutig die Hierarchierelation (in der monohierarchischen Variante). Alle Gegenstände, die sich „natürlich“ monohierarchisch gliedern, können gut klassifikatorisch erfasst werden; alle anderen nicht.

Page 192: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 192

Dokumentationssprachen II:Schlagwortmethode

Page 193: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 193

Schlagwortmethode

Schlagwortmethode• einfache Form der verbalen Inhaltserschließung• kontrolliertes Vokabular (Schlagworte)• Vokabular wird der natürlichen Sprache entnommen• Einteilung des Gesamtvokabulars in Facetten

(empfehlenswert, aber nicht zwingend)• Relationen:

– (Quasi-)Synonymie (BF: benutzt für)– Assoziation (allgemeiner „siehe auch“-Verweis;

VB: verwandter Begriff))– chronologische Verweisung (falls nötig)– keine Hierarchierelationen (ansonsten läge ein Thesaurus

vor)

Page 194: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 194

Schlagwortmethode

Beispiel: RSWK („Regeln für den Schlagwort-katalog“ und SWD („Schlagwortnormdatei“)

• eingesetzt bei deutschen Bibliotheken• erarbeitet ab 80er Jahre des 20. Jahrhunderts von der DBI-

Kommission für Sacherschließung; Publikation 1986• Einsatz von Facetten (Person – Ort – „Sache“ – Zeit –

Form)• teilweise Verwendung hierarchischer Relationen („auf dem

Weg zu einem Thesaurus“; hier nicht berücksichtigt)

Regeln für den Schlagwortkatalog: RSWK. – Berlin: Deutsches Bibliotheksinstitut, 31998.Beispielsammlung zu den Regeln für den Schlagwortkatalog. – Berlin: Deutsches Bibliotheksinstitut, 1991.

Konrad Umlauf: Regeln für den Schlagwortkatalog. Die Grundregeln der RSWK. – Berlin: HU Berlin / Institutfür Bibliothekswissenschaft, 1999. – (Berliner Handreichungen zur Bibliothekswissenschaft; 66).

Page 195: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 195

Schlagwortmethode

RSWK / SWD• syntaktisches Indexieren durch Schlagwortketten• Schlagwortketten sind stets in der Reihenfolge Person –

Ort – „Sache“ – Zeit – Form anzugeben• jede Kette drückt ein Objekt der dokumentarischen

Bezugseinheit möglichst präzise und vollständig aus• Wahl des engsten Schlagwortes

– Bsp.: Objekt „Untersuchungen zum HAWIK“– Schlagwort: HAWIK– nicht: Intelligenztest / Kind / HAWIK (mitunter problematisch!)

• Vermeiden von Pleonasmen – überflüssige Häufung sinngleicher Bezeichnungen (z.B.

Zukunftsprognose)– problematisch bei wenig bekannten Begriffen (z.B.

Nuraghenkultur; hier entfällt „Sardinien“ als pleonastisch)• Homonymzusatz (z.B. Atlas <Gebirge>)

Page 196: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 196

Schlagwortmethode

RSWK / SWD. Personenschlagwort

• Eigennamen von Personen (einschließlich fiktiver Personen)

• Familiennamen (z.B. Fugger <Familie>)

• umfassende Liste von Ansetzungsvarianten

• in SWD in Facette p

Page 197: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 197

Schlagwortmethode

RSWK / SWD. Geographisches und ethnographische Schlagwort

• Namen von Gebietskörperschaften

• Namen von Landschaften, Flüssen, Gebirgen, Wegstrecken usw.

• Namen von Völkern, Rassen, Stämmen

• in SWD in Facette g

Page 198: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 198

Schlagwortmethode

RSWK / SWD. Geographisches und ethnographische Schlagwort

• Namensänderungen (z.B. St. Piterburch - St. Petersburg –Petrograd – Leningrad – St. Petersburg)

• Variante 1: aktueller Name als Schlagwort, Verweise von allen anderen Namen

Page 199: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 199

Schlagwortmethode

RSWK / SWD. Geographisches und ethnographische Schlagwort

• Namensänderungen (z.B. St. Piterburch - St. Petersburg –Petrograd – Leningrad – St. Petersburg)

• Variante 2: Chronologische Relation (früher – später)– CF (chronologisch früher) – CS (chronologisch später)– zusätzlich: Hinweis auf den Zeitraum

• Leningrad (Hinweis: 1924 – 1991)CF Petrograd (dort Hinweis: 1919 – 1924)CS Sankt Petersburg (dort Hinweis: ab 1991)

Page 200: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 200

Schlagwortmethode

RSWK / SWD. Sachschlagwort• in SWD in Facette s

MO: mehrgliedriger Oberbegriff

Page 201: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 201

Schlagwortmethode

RSWK / SWD. Sachschlagwort• Einzelbegriff (Bsp.: Pest)• Kompositum (Bsp.: Luftverschmutzung)• Adjektiv-Substantiv-Verbindung (Bsp.: Juristische Person)• ggf. mit Homonymzusatz (Bsp.: Krebs <Medizin>)• stehende Wendung (Bsp.: Information und Dokumentation)• Besonderheit: Werktitel (Facette t)

Page 202: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 202

Schlagwortmethode

RSWK / SWD. Zeitschlagwort• Variante 1: Verbale Epochen-

bezeichnung oder historische Einzelereignisse (als Sach-schlagwort)

Page 203: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 203

Schlagwortmethode

RSWK / SWD. Zeitschlagwort• Variante 2: konkrete Jahresangaben in Verbindung mit

„Geschichte“ (oder „Prognose“ o.ä.)• nicht in SWD enthalten

Page 204: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 204

Schlagwortmethode

RSWK / SWD. Formschlagwort• Erscheinungsweise, literarische oder physische Form der

dokumentarischen Bezugseinheit• nur zu berücksichtigen, wenn der Inhalt tangiert wird

(ansonsten bei formalen Angaben unter Dokumenttyp)

Page 205: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 205

Schlagwortmethode

RSWK / SWD. Ansetzung von Namen von Körperschaften

• ortsgebundene Körperschaften (stets unter dem Ort anzusetzen)

• Facette c

Page 206: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 206

Schlagwortmethode

RSWK / SWD. Ansetzung von Namen von Körperschaften

• nicht ortsgebundene Körperschaften, darunter alle Wirtschaftsbetriebe (unter dem Körperschaftsnamen anzusetzen) – Facette k

• bei Namenswechsel: chronologische Relation (CF – CS)

Page 207: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 207

Schlagwortmethode

RSWK / SWD. Syntaktisches Indexieren durch Schlagwortketten

• pro Kette ein Objekt• so viele Ketten wie unterschiedliche Objekte

Page 208: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 208

Dokumentationssprachen III:Thesauri

Page 209: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 209

Thesauri

Grundlegende Literatur• Jean Aitchison, Alan Gilchrist, David Bowden: Thesaurus

Construction and Use. - London: Fitzroy Dearborn, 42000• Margarete Burkart: Thesaurus. – In: Grundlagen der praktischen

Information und Dokumentation. – München: Saur, 52004, 141-154.

• DIN 1463/1: Erstellung und Weiterentwicklung von Thesauri• DIN 1463/2: Multilinguale Thesauri• DIN 31623/1; DIN31623/2; DIN 31623/3: Indexierung zur

inhaltlichen Erschließung von Dokumenten• Winfried Schmitz-Esser: EXPO-INFO 2000. - Berlin [u.a.]:

Springer, 2000• Gernot Wersig: Thesaurus-Leitfaden. – München [u.a.]: Saur,

21985

Page 210: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 210

Thesauri

ThesaurusEinsatzgebiete

– in eng umgrenzten Fachgebieten• Terminologie eines Faches• Terminologie eines Unternehmens

– in Gebieten, wo fachliches Wissen durch ein (von den betreffenden Fachleuten akzeptiertes) Begriffssystem repräsentiert werden kann

– wenn ausschließlich mit Begriffen der natürlichen Sprache gearbeitet werden soll

– wenn die Struktur des Gebietes über eine monohierarchische Ordnung hinausgeht

– Anmerkung: Klassifikation und Thesaurus schließen sich nicht gegenseitig aus. Geschickt eingesetzt, ergänzen sie sich.

Page 211: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 211

Thesauri

„Thesaurus“ nach DIN 1463/1„Ein Thesaurus im Bereich der Information und Dokumentation ist eine geordnete Zusammenstellung von Begriffen und ihren (vorwiegend natürlichsprachigen) Bezeichnungen, die in einem Dokumentationsgebiet zum Indexieren, Speichern undWiederauffinden dient.“

• Merkmale eines Thesaurus:• 1. Terminologische Kontrolle durch natürlichsprachige

DESKRIPTOREN• 2. Beziehungen zwischen den Begriffen bzw. Bezeichnungen

durch (zweistellige) RELATIONEN• Thesaurus-Software (Freeware, nicht optimal, aber zum Üben

geeignet):• Thew33 von Tim Craven (Univ. of Western Ontario)• http://publish.uwo.ca/~craven/freeware.htm

Page 212: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 212

Thesauri

Terminologische Kontrolle– durch Deskriptoren (Vorzugsbenennungen)– durch Nicht-Deskriptoren (Verweise auf Deskriptoren)– der Deskriptor und die zugehörigen Nicht-Deskriptoren sind

entweder Synonyme (Bsp.: Heirat, Eheschließung) oder Quasi-Synonyme, je nach Zweck des Thesaurus als synonym „erklärte“ Bezeichnungen (Bsp.: Retrieval, Recherche in einem Wirtschaftsthesaurus)

– sowohl beim Indexieren als auch bei Recherchieren wird ausschließlich mit Deskriptoren gearbeitet werden

– eine Recherche mit einem Nicht-Deskriptor im CT-Feld einer professionellen Datenbank führt stets zu null Treffern

Page 213: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 213

Thesauri

Deskriptoren – sollten in der Fachliteratur verwendete Terminologie

widerspiegeln– Einwort- wie Mehrwort-Deskriptoren sind möglich– Mehrwort-Deskriptoren in der natürlichen Wortfolge

belassen– bei Mehrwortbegriffen, die in ihre Aspekte zerlegt

werden sollen: Zerlegungskontrolle• morphologische Zerlegung (Bsp.: Blumengesteck

Blume, Gesteck; falsches Bsp.: Eisenbahn Eisen, Bahn)• semantische Zerlegung (Bsp.: Eisenbahn: Schienenbahn,

Überlandverkehr)– zerlegen? (Postkoordination)

• nur dann, wenn die Kombination der Einzelbegriffe den korrekten Mehrwortbegriff ergibt

• nicht, wenn eine hohe begriffliche Spezifizierung angestrebt wird

Page 214: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 214

Thesauri

Deskriptoren – nicht zerlegen? (Präkombination)

• dann, wenn die Einzelbegriffe eine andere Bedeutung als die Präkombination haben (Bsp.: Schlüsselbein, Öffentlichkeitsarbeit)

• wenn ballastarme Suche ermöglicht werden soll• ggf. Einsatz eines Kombinationsverweises (Bsp.:

Bibliotheksstatistik benutze Kombination Statistik, Bibliothek

– Wortarten• vorzugsweise Substantive; Verben in substantivierter Form• Adjektive an Substantiv gebunden (Bsp.: Internationale

Beziehungen)• Substantiv im Nominativ Singular; Ausnahmen bei nicht

gebräuchlichen Singularformen (Bsp.: Eltern) oder bei Bedeutungsunterschied Singular – Plural (Bsp.: Kosten)

• Abkürzungen bzw. Akronyme nur bei Bekanntheit (Bsp.: UKW)

Page 215: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 215

ThesauriDeskriptoren

– Homonyme / Polyseme:• Unterscheidung durch Klammerzusatz als klärendes Element

Bsp. Homonym: Kiefer [Knochen] – Kiefer [Nadelholz] Bsp. Polysem: Knie [Gelenk] – Knie [Werkstück]

• Unterscheidung durch Verweise von homonymen Nicht-Deskriptorenauf eindeutige DeskriptorenBsp.: Eiweiß benutze Synonym Eiklar oder Protein

– Deskriptorsatz• Bezeichnung des Deskriptors• Auflistung aller Nicht-Deskriptoren• Auflistung aller Deskriptoren, mit denen der Deskriptor in direkter

Beziehung steht• Erläuterung zum Gebrauch (nicht zwingend) – Abk.: H (Hinweis) oder

SN (Scope Note)• Definition (nicht zwingend)• Übersetzungen (nicht zwingend)• Konkordanzen zu anderen Erschließungssystemen (nicht zwingend)

Page 216: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 216

Thesauri

Nicht-Deskriptoren – verweisen auf „ihren“ Deskriptor– alle Synonyme des Deskriptors auflisten– alle Quasi-Synonyme und weitere Bezeichnungen auflisten– Varianten:

• Äquivalenz (Synonyme und Quasi-Synonyme) Bsp: Heirat benutze Synonym (BS) Eheschließung

• Begriffskombination (Verweis von einem Mehrwort-Nicht-Deskriptor auf die einzelnen zerlegten Deskriptoren) Bsp.: Lehrerbildungsgesetz benutze Kombination (BK) Lehrer – Bildung – Gesetz

• Bündelung (Verweis auf einen Oberbegriff) Bsp.: Zitrone benutze Oberbegriff (BO) Zitrusfrucht

Page 217: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 217

Thesauri

Deskriptorsatz / Beispiel: Standard-Thesaurus WirtschaftHWWA

Deskriptor

Klasse

NACE-Konkordanz

Nicht-Deskriptoren

Oberbegriffe

verwandteBegriffe

Unterbegriffe

Erläuterung

Page 218: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 218

Thesauri

Relationen• Äquivalenzrelation

– Synonyme– Quasi-Synonyme– abweichender Sprachgebrauch (Bsp.:

Massenkommunikationsmittel - Massenmedien)– Abkürzung (Bsp.: DNS – Desoxyribonucleinsäure)– gebräuchliche fremdsprachliche Bezeichnung (Bsp.:

Computer – Rechenanlage)– Schreibweise (Bsp.: Fotografie, Photographie)– invertierte Form (Bsp.: verarbeitendes Gewerbe – Gewerbe,

verarbeitendes)

Page 219: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 219

Thesauri

Relationen• Äquivalenzrelation

– Nichtdeskriptor – Deskriptor – RelationAbk.: BS (benutze Synonym) – BF (benutzt für)

USE – UF (used for)Bsp.: Auto BF Personenkraftwagen

Personenkraftwagen BS Auto– Nichtdeskriptor – Begriffskombination – Relation

Abk.: BK (benutze Kombination) – KB (benutzt in Kombination)Bsp.: Binnenschifffahrt KB Binnenschifffahrtsstatistik

Schifffahrtsstatistik KB BinnenschifffahrtsstatistikBinnenschifffahrtsstatistik BK Binnenschifffahrt -Schifffahrtsstatistik

Page 220: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 220

Thesauri

RelationenHierarchierelation

Abstraktionsrelation Bestandsrelation

logische Sicht gegenständliche Sicht

Page 221: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 221

Thesauri

Relationen• Hierarchierelation (allgemein)

– Nichtdeskriptor – Deskriptor – Hierarchierelation (Bündelung)Abk.: BO (benutze Oberbegriff) – FU (benutzt für Unterbegriff)Bsp.: Zitrusfrucht FU Zitrone

Zitrone BO Zitrusfrucht– Deskriptor – Deskriptor – Relation (der Normalfall)

Abk.: OB (Oberbegriff) – UB (Unterbegriff)BT (broader term) – NT (narrower term)

Bsp.: Universität OB HochschuleHochschule UB Universität

– Deskriptor – oberes Ende der BegriffsleiterAbk.: TT (Top Term)Bsp.: Universität TT Bildungseinrichtung

Page 222: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 222

Thesauri

Relationen• Hierarchierelation. Version 1: Abstraktionsrelation• Der Begriffsinhalt des Unterbegriffs enthält mindestens ein

Merkmal mehr als der Begriffsinhalt des Oberbegriffs.• Ober- und Unterbegriff gehören i.d.R. derselben Dimension an.

Abk.: OA (Oberbegriff Abstraktionsrelation) – UABTG (broader term – generic) – NTG

Bsp.: Meise OA SingvogelSingvogel UA Meise

• Aus logischen Gründen kann es u.U. zwingend sein, Hierarchie-ebenen einzuführen, auch wenn es dazu keine Dokumente gibt (Stützdeskriptoren).

Page 223: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 223

Thesauri

• Hierarchierelation. Version 1: Abstraktionsrelation• Stützdeskriptor. Beispiel: Thesaurus Technik und Management

Stützdeskriptoren

Page 224: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 224

Thesauri

• Hierarchierelation. Version 1: Abstraktionsrelation• Stützdeskriptor. Beispiel: Thesaurus Technik und Management

Stützdeskriptor

Page 225: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 225

Thesauri

• Hierarchierelation. Version 1: Abstraktionsrelation• Beispiel einer Begriffsleiter als Baum

Quelle: EMBASEbei Ovid

Page 226: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 226

Thesauri

Relationen• Hierarchierelation. Version 2: Bestandsrelation• Der übergeordnete Begriff (Holonym) entspricht einem Ganzen,

der untergeordnete Begriff einem Bestandteil dieses Ganzen (Meronym).

• alle Geographika sind BestandsrelationenAbk.: SP (Verbandsbegriff) – TP (Teilbegriff)

BTP (broader term – partitive) – NTPBsp.: Putenkeule SP Truthahn

Truthahn TP PutenkeuleKerpen SP ErftkreisErftkreis TP Kerpen

Page 227: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 227

Thesauri

Relationen• Hierarchierelation.

Version 2: Bestandsrelation

• Transitive Bestandsrelationen eignen sich gut für graphische Darstellungen

• Beispiel: Hoppenstedt Firmendatenbank

Page 228: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 228

Thesauri

Thesaurus als Recherchehilfsmittel bei der hierarchischen Suche. Beispiel: STW bei GBI

Suchargument:EU sowie alle Mitglieds-

länder

Begriffe einsammeln:

-Deskriptor-alle Unterbegriffe-alle Oberbegriffe

-alle verwandten Begriffe-einzelne Begriffe

Page 229: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 229

Thesauri

Thesaurus als Recherchehilfsmittel bei der hierarchischen Suche. Beispiel: STW bei GBI

ausgewählte Begriffe„Begriffskorb“

nächster Schritt:

Auswahl der Datenbank

Page 230: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 230

Thesauri

Thesaurus als Recherchehilfsmittel bei der hierarchischen Suche. Beispiel: STW bei GBI

Die ausgewähltenBegriffe werden

in die Suchmaskeübernommen und

mit dem BooleschenODER verbunden.

Page 231: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 231

Thesauri

Relationen• Assoziationsrelation

– nach DIN 1463 sehr allgemeine und unspezifische Relation

– „verwandter“ Begriff– Begriffsbeziehung, die weder hierarchischer noch

äquivalenter Art ist– im Sinne von „siehe auch“ oder „denke auch an“Abk.: VB (verwandter Begriff)

RT (related term)Bsp.: Apfel VB Birne

Birne VB Apfel

Page 232: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 232

Thesauri

Multilinguale Thesauri (nach DIN 1463/2)• Deskriptoren: müssen stets in allen Sprachen vorhanden

sein• Nicht-Deskriptoren: es können zusätzlich zu übersetzten

Nicht-Deskriptoren weitere Nicht-Deskriptoren für jede Sprache eingeführt werden

• Hierarchierelation(en): es gibt nur genau EINE hierarchische Struktur– ggf. Stützdeskriptoren verwendet– ggf. neue Fremdworte in Sprache einführen

• Assoziationsrelation: die Strukturen sollten multilingual übereinstimmen, es kann jedoch sprachabhängige Ausnahmen geben

Page 233: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 233

Thesauri

Multilinguale Thesauri• Fremdwort in einer Sprache (aufnehmen; ggf. Definition)

Bsp.:deutsch: Teenager englisch: teenagersD: Person zwischen 13 und 19 Jahren

• Wortprägung (wenn nicht als Fremdwort aufnehmbar, dann Übersetzung, ggf. mit Hinweis)Bsp.:französisch: enfant a cle deutsch: SchlüsselkindNE: equivalent du terme allemand„Schlüsselkind“

Page 234: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 234

Thesauri

Multilinguale Thesauri• Äquivalenz (problemlose Eins-zu-eins-Übersetzung)

– sprachliche VerwandtschaftBsp.: Physik (dt.) – physics (engl.) – physique (franz.)

– sprachliche Unabhängigkeit; semantische GleichheitBsp.: Amsel (dt.) – blackbirds (engl.) – merle (franz.)

– gleicher oder ähnlicher Begriffsumfang, anderer BegriffsinhaltBsp.: alkoholfreies Getränk (dt.) – soft drinks (engl.) – boisson non alcoolisee (franz.)

• Probleme mit der Äquivalenz– Teil-Äquivalenz (engerer oder weiterer Begriffsumfang)

Bsp.: Wissenschaft – scienceLösungsmöglichkeit: einen der Terme als Fremdwort einführenDeskriptorsatz englisch: Wissenschaft; SN: loan term adopted from German; NT scienceDeskriptorsatz deutsch: Wissenschaft; UB Naturwissenschaft

Page 235: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 235

Thesauri

Multilinguale Thesauri• Probleme mit der Äquivalenz

– Begriffszerlegung bzw. –kombinationBsp.: skidding (engl.): rutschen und schleudernLösungsmöglichkeit: jeweils parallele Begriffe konstruierenDeskriptorsatz englisch: skidding; NT skidding (forwards), NT skidding (sideways)Deskriptorsatz deutsch: Rutschen/Schleudern; UB Rutschen; UB Schleudern

• Homonym / Polysem sprachübergreifend– Lösung: Sprachkürzel als Homonymzusatz

Bsp.: Gift (de) – poison; Geschenk – gift (en)• International gebräuchliche Abkürzungen

– Lösung: internationale Variante verwenden; nationale Variante als Nicht-Deskriptor

– nur nationale gebräuchliche Abkürzungen vermeiden

Page 236: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 236

Thesauri

Multilinguale Thesauri. Beispiel: Thesaurus Technik und Management

Zielsprache deutschWörterbücher dt. – engl. und

engl. - dt.

Page 237: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 237

Thesauri

Multilinguale Thesauri. Beispiel: UNESCO Thesaurus

Beispiel

Zielsprache englischWörterbücher engl. – franz. –

span.

Page 238: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 238

Thesauri

Multilinguale Thesauri. Beispiel: UNESCO Thesaurus

DeskriptorsatzAbk.: MT: Micro-ThesaurusFR: Deskriptor französisch

SP: Deskriptor spanisch

Page 239: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 239

Thesauri

Aspekte• nähere Erläuterung eines Deskriptors mittels eines „Aspektes“• der Deskriptor bildet zusammen mit seinem Aspekt eine Einheit

(keine UND-Verknüpfung)

Quelle: EMBASEbei Ovid

Page 240: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 240

Thesauri

Relationen im Thesaurus, die über den DIN-Thesaurus hinausgehen

• (Quasi-)Synonymie-Relation zwischen Deskriptoren– haben wir bereits bei der Schlagwortmethode kennengelernt– chronologische Relation (früher – später)

Abk.: Deskriptor(en) des früheren Gegenstandes CS (chronologisch später) Deskriptor(en) des späteren Gegenstandes; umgekehrt: CF (chronologisch früher)

– bei den Deskriptoren als Hinweis den Zeitraum angeben!Bsp.: Sindorf. H: eigenständige Gemeinde bis 31.12.1974

Kerpen-Sindorf. H: Ortsteil von Kerpen ab 1.1.1975

Page 241: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 241

Thesauri

• chronologische Relation Bsp. (eineindeutige Relation): Sindorf CS Kerpen-SindorfKerpen-Sindorf CF SindorfBsp.: (einmehrdeutige Relation):Garmisch CS Garmisch-PartenkirchenPartenkirchen CS Garmisch-PartenkirchenGarmisch-Partenkirchen CF Garmisch

CF Partenkirchen– Die chronologische Relation kann u.U. über mehrere Schritte

laufen.Bsp.: Chemnitz CF Karl-Marx-Stadt

Karl-Marx-Stadt CF Chemnitz [vor 1953]

Page 242: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 242

Thesauri

weitere Relationen (Vorschlag: Winfried Schmitz-Esser für die EXPO 2000) – Generik (analog zur Abstraktionsrelation des DIN-Thesaurus)

Abk.: weiterer/engerer Begriff: WB – EBBsp.: vegetal products EB coconuts

coconuts WB vegetal products– Nützlichkeit

Abk.: nützlich für (NF) – profitiert von (PV)Bsp.: tree planting NF water balance regulation

water balance regulation PV tree planting– Schädlichkeit

Abk.: schädlich für (SF) – wird beeinträchtigt von (WG)Bsp.: overfertilization SF biotopes

biotopes WG overfertilization

Page 243: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 243

Thesauri

weitere Relationen (Vorschlag: Winfried Schmitz-Esser für die EXPO 2000) – Partition 1 (dinglich, gedanklich, ideell)

Abk.: ist Bestandteil von (BV) – setzt sich zusammen aus (BA)Bsp.: booster BV missile

missile BA booster– Partition 2 (geographisch, topographisch,

administrativ)Abk.: ist Teil von (TV) – besteht aus den Teilen (BT)Bsp.: South America TV Latin America

Latin American BT South AmericaWinfried Schmitz-Esser: EXPO – INFO 2000. Visuelles Besucherinformationssystem für Weltausstellungen. –

Berlin [u.a.]: Springer, 2000.

Page 244: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 244

Thesauri

Allgemeine Thesaurusstruktur

Deskriptor 1 inSprache 1

Deskriptor 1 inSprache i

Deskriptor 1 inSprache n

Deskriptor n inSprache i

Nicht-DeskriptorSprache i

Deskriptor m inSprache i

Deskriptor n inSprache 1

Deskriptor m inSprache 1

Rel 1 Rel 2

Rel 2Rel 1

Page 245: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 245

Thesauri

Visualisierung eines Thesaurus für LaienDarstellung eines Deskriptors

Deskriptor

Definition / Hinweise:

text text text text text text text

Graphik oder

Videosequenz

Anzahl der Dokumente: [Zahl]Thema merken zurück zum Themenraum

Page 246: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 246

Thesauri

Visualisierung eines Thesaurus für LaienDarstellung eines Deskriptors. Beispiel

Butter

Definition:(grch. „bútyron“: Kuhquark) Speisefett, das aus Kuhmilch gewonnen wird. Beim Buttern in der Molkerei wird der reife Milchrahm mechanisch bearbeitet, bis sich die Fettkügelchen absetzen.

Graphik oder

Videosequenz

Anzahl der Dokumente: 13Thema merken zurück zum Themenraum

Page 247: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 247

Thesauri

Visualisierung eines Thesaurus für LaienDarstellung der Relationen (Themenraum)

DeskriptorDeskriptor

DeskriptorDeskriptor DeskriptorDeskriptor

DeskriptorDeskriptor

ist nützlich für

ist schädlich für

ist Bestandteil von

besteht aus den Teilen

Page 248: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 248

Thesauri

Visualisierung eines Thesaurus für LaienDarstellung der Relationen (Themenraum). Beispiel

ButterButter

BrotbelagBrotbelag

Cholesterin-spiegel

BratenBraten

HerzHerz MagenMagen

MilchMilch

ButterfettButterfett

MolkeMolke

SalzSalz

ist nützlich für

ist schädlich für

ist Bestandteil von

besteht aus den Teilen

Page 249: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 249

Thesauri

• Thesaurusauf- und –ausbau– Thesaurusaufbau

• Sammlung der Fachbegriffe durch (sprach-)empirische Erhebungen; Quellen: Terminologie der Fachliteratur, Experten, potentielle Benutzer

• Zusammenfassen (quasi-)synonymer Bezeichnungen; Auswahl der (vorläufigen) Vorzugsbenennungen

• Überprüfung jeder Vorzugsbenennung („Deskriptor-Kandidat“); Kriterien für Deskriptoren:

– relative Häufigkeit in der Literatur– erwartetes Vorkommen bei Abfragen– Art der Relationen zu bereits akzeptierten Deskriptoren– Authentizität der Terminologie des Fachgebiets– Zweckmäßigkeit für die Erfassung von Inhalt und Umfang des

Begriffs

Page 250: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 250

Thesauri

• Thesaurusauf- und –ausbau– Thesaurusausbau (Thesauruspflege)

• Eliminierung von Deskriptoren (sofern diese beim Indexieren nicht oder kaum genutzt werden)

– alle Relationen des Deskriptors werden mit gelöscht– beim Deskriptorsatz vermerken: verwendet bis ... [Datum]– oder: Dokumente neu indexieren

• Differenzierung von Deskriptoren (sofern sehr viele Dokumente darunter fallen)

– neue Deskriptoren als Unterbegriffe in den Thesaurus einführen

– beim Deskriptorsatz vermerken: ohne Unterbegriffe verwendet bis ... [Datum]

– oder: Dokumente neu indexieren• Aufnahme neuer Deskriptoren (beim Aufkommen neuer

Terme im Fachgebiet)– neue Deskriptoren in die Relationen einhängen– beim Deskriptorsatz vermerken: verwendet ab ... [Datum]

Page 251: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 251

Thesauri

• Indexieren mittels eines Thesaurus– gleichordnendes Indexieren (nach DIN 31.623/2)

Deskriptoren werden einem Dokument gleichrangig und unstrukturiert zugeordnetBeispiel: Ein Dokument behandle im ersten Teil den Export italienischer Weine nach Deutschland und im zweiten Teil den Import deutscher Autos nach Italien.Indexat:Export; Import; Italien; Deutschland; Wein; Auto

Problem: führt u.U. zu Informationsballast (Bsp.: Suche nach dem Export deutscher Weine mit dem Argument „Wein AND Deutschland AND Export“ findet fälschlich unser Beispiel)

Page 252: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 252

Thesauri

• Indexieren mittels eines Thesaurus– syntaktisches Indexieren (nach DIN 31.623/3)

Deskriptoren werden einem Dokument unter Wahrung ihrer thematischen Zusammenhänge zugeordnet (Bildung von thematischen Teilmengen)Indexat:Wein – Export – Italien.Wein – Import – Deutschland.Auto – Export – Deutschland.Auto – Import – Italien.Italien – Deutschland – Außenhandel - Wein.Italien – Deutschland – Außenhandel - Auto.

– Themenketten werden mit Abstandsoperator (etwa: SAME) und nicht mit dem Booleschen UND durchsucht

– Probleme: wird ggf. von den Nutzern nicht verstanden; ist teuer

Page 253: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 253

Thesauri

Syntaktisches Indexieren Beispiel: HWWA

Zwei Themenketten

Page 254: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 254

Thesauri

• Gewichtetes Indexieren • Vorgehen

– Variante 1: intellektuelle Zuordnung von numerischen Werten zu den einzelnen Deskriptoren (wird derzeit nicht durchgeführt)

– Variante 2: Zwei-Klassen-Verfahren:• Auszeichnung der zentralen Deskriptoren zu einem

Dokument als „Fokus“ (besonders wichtig in der dokumentarischen Bezugseinheit abgehandelt)

• Ziel: Ermöglichen des Suchens nach nur solchen Dokumenten, in denen das Thema zentral vorkommt

Page 255: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 255

Thesauri

Klasse 1 – Deskriptorenwichtig – Fokus(mit Sternchen *)

Klasse 2 – Deskriptoren

Quelle: EMBASE bei Ovid

Page 256: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 256

Thesauri

• Indexieren mittels eines Thesaurus. Vorgehen– dokumentarische Bezugseinheit (quer)lesen– Verstehen des Dokumenteninhalts – besondere Konzentration auf Terme aus:

• Titel• Einleitung• Zusammenfassung• Autorenabstract• Kapitelüberschriften• Bildtitel• hervorgehobene Textstellen• Sätze, die Schlussfolgerungen enthalten („Reizterme“:

also, somit, ...)• häufig vorkommende Terme

Page 257: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 257

Thesauri

• Indexieren– Ermittlung der Terme

• Extraktionsmethode: Entnahme von Termen, die im vorliegenden Text vorkommen (Minimierung der Gefahr von Missverständnissen)

• Additionsmethode: Zuteilung von Termen, die im Text nicht enthalten sind (Achtung: Fehlinterpretationen sind möglich)einzig mögliche Methode bei nicht-textuellen Medien (Bildern, Videosequenzen, ...)

– alle ermittelten Terme notieren

Page 258: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 258

Thesauri

• Indexieren– Aufsuchen der ermittelten Terme im Thesaurus

• ermittelter Term ist Deskriptor: Deskriptor übernehmen• ermittelter Term ist Nicht-Deskriptor: zugehörigen

Deskriptor übernehmen• ermittelter Term ist weder Deskriptor noch Nicht-

Deskriptor: Gibt es einen bestpassenden anderen Deskriptor? Wenn ja: diesen übernehmen

• Wenn nein: 1) Term in Vorschlagsliste für die Modifikation des Thesaurus notieren; 2) ggf. Term als „freien Begriff“ dem Dokument zuordnen

• bei jedem Deskriptor den Relationen folgen: gibt es weitere passende Deskriptoren bei Oberbegriffen, Unterbegriffen, verwandten Begriffen usw.?

• bei mehreren Kandidaten in der selben Begriffsleiter: ggf. nur den spezifischeren Deskriptor wählen (muss durch Regelwerk geklärt werden)

Page 259: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 259

Thesauri

• Kriterien der Deskriptor-Auswahl: Indexierungstiefe• muss durch Regelwerk eindeutig vorgegeben sein (sonst

würde die Datenbasis uneinheitlich indexiert)• Kriterium 1: Indexierungsbreite. Anzahl der zu vergebenden

Deskriptoren (pro Dokument, pro Seite, pro Zeichen, ...)Bsp.: ifo Literaturdatenbank: ca. 0,5 bis 2 Deskriptoren pro TextseiteBsp.: Bibliodata: ca. 1 bis 2 Schlagworte pro Buch

• Kriterium 2: Indexierungsspezifität. Trennschärfe der Deskriptoren

– bereits häufig vergebene Deskriptoren sind wenig selektiv– Deskriptoren, die hoch in einer Begriffsleiter stehen, sind u.U.

wenig selektiv– deshalb: wenig spezifische Deskriptoren möglichst mit anderen,

trennscharfen Deskriptoren kombinieren

Page 260: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 260

Thesauri

• Kriterien der Deskriptor-Auswahl:Dokumentationswürdigkeit von Deskriptoren– analog zur Dokumentationswürdigkeit von Dokumenten– (1) Relevanz im Dokument: Ist der Deskriptor im Rahmen

des Dokumentes wichtig?– (2) Informationsbedarf der Nutzer: Braucht ein Nutzer das

Dokument, der nach dem Deskriptor sucht? Sucht ein Nutzer überhaupt unter diesem Deskriptor nach dem Dokument?

– (3) Bisheriger Stand der Datenbank: Gibt es „bessere“ Dokumente zu dem Deskriptor? Sagt das Dokument zum Deskriptor etwas Neues aus?

Page 261: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 261

Thesauri

• Indexierungstiefe: Wie das Optimum finden?– zu wenige oder zu spezifische Deskriptoren: Informationsverlust– zu viele oder zu unspezifische Deskriptoren: Informationsballast– „gute“ Indexierung: Gratwanderung zwischen Informationsverlust

und Informationsballast• Indexierungstiefe und Nutzertyp (Laie vs. Experte)

– Laie sucht Überblick UND Indexierungstiefe niedrig: Rechercheergebnis zufriedenstellend (+)

– Laie sucht Überblick UND Indexierungstiefe hoch: Rechercheergebnis bringt zu viele Treffer (-)

– Experte sucht Spezialwissen UND Indexierungstiefe niedrig: Rechercheergebnis bringt zu wenige genaue Treffer (-)

– Experte sucht Spezialwissen UND Indexierungstiefe hoch: Rechercheergebnis zufriedenstellend (+)

Page 262: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 262

Thesauri

• Sicherung gleichbleibender Indexierungsqualität: Indexierungskonsistenz– Inter-Indexer-Konsistenz (Vergleich der Indexate zur

selben DBE verschiedener Indexer)– Intra-Indexer-Konsistenz (Vergleich der Indexate des

selben Indexers zur selben DBE zu unterschiedlichen Zeiten)

– bei der Produktion der Datenbasis ist eine möglichst hohe Indexierungskonsistenz zu gewährleisten

– Methode: in periodischen Abständen (etwa: monatlich) Tests durchführen; die Ergebnisse im Indexierer-Team besprechen; dabei:

• Verbesserungen des Thesaurus (Thesauruspflege)• Verbesserungen des Indexierungshandbuchs

Page 263: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 263

Thesauri

• Thesauri. Fazit– In der kommerziellen Informationswirtschaft sind die

Thesauri DIE Methode der Wissensrepräsentation.– Thesauri eignen sich auch für den Einsatz bei Intranets

bzw. Enterprise Information Portals.– Es existieren weltweit weit über 1.000 Thesauri.– Der „Standard“: Der DIN-Thesaurus kennt Synonyme

(Nicht-Deskriptor – Deskriptor-Relation), Hierarchie-relationen (Abstraktions- und Bestandsrelation) sowie die Assoziationsrelation.

– Weitere (2-stellige) Relationen sind problemlos hinzufügbar (etwa: Nützlichkeit – Schädlichkeit).

Page 264: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 264

Thesauri

• Thesauri. Fazit– Neben Profi-Oberflächen sollte man Thesaurus-

Oberflächen für Laien herstellen, die diesen die Navigation erleichtern.

– Thesauri werden ständig überarbeitet und dem Stand der Terminologie eines Faches angepasst (Thesaurus-pflege).

– Indexierung geschieht entweder gleichordnend (der Standardfall) oder syntaktisch (durch Markierung der Themenketten).

– Die Qualität der Indexierung einer Datenbasis ist von der Indexierungstiefe (Indexierungsbreite und –spezifität) und von der Indexierungskonsistenz abhängig.

Page 265: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 265

Thesauri

• Vorteile von Thesauri– Navigation durch diverse Relationen möglich– Können die Strukturen eines Fachgebiets umfassend

terminologisch abbilden– Arbeiten mit der natürlichen Sprache (ggf. Nachteil:

Beschränkung auf eine Sprache; Ausgleich durch multilinguale Thesauri)

– Sind (relativ) leicht modifizierbar (zumindest leichter als Klassifikationssysteme)

Page 266: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 266

Thesauri

• Nachteile von Thesauri– Der Thesaurusaufbau und die Thesauruspflege ist

aufwendig und damit (z.T.: sehr) teuer.– Laien kommen u.U. (insbesondere, wenn keine eigenen

Laien-Oberflächen geschaffen werden) mit Thesauri nicht zurecht.

– Der Einsatz eines Thesaurus erfordert zusätzlich den Einsatz spezifischer Software (etwa: Weiterleitung bei der Eingabe von Nicht-Deskriptoren, Einbeziehen von Deskriptoren aus Relationen in eine Suche)

– Wie bei der Klassifikation bildet ein Thesaurus nur Begriffe und deren Relationen ab, aber nicht die Sachverhalte, die dazu ausgesagt werden (und die das Wissen des Fachbereichs repräsentieren)

Page 267: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 267

Textsprachliche Methoden

VolltextspeicherungTitelindexierung

TextwortmethodeZitationsindexierung

Page 268: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 268

Textsprachliche Methoden

• Volltextspeicherung– Speicherung des Fließtextes im ASCII-Format (für die Suche)– Speicherung des Originallayouts im PDF-Format (für die

Anzeige)– falls PDF nicht möglich: Fließtext (wenn möglich in Quasi-

Faksimile) und Links zu Graphiken oder Abbildungen– Grundsatz: Volltexte nie „solo“ (ohne intellektuelle Inhalts-

erschließung oder ohne automatische Indexierung) ablegen• Suchfunktionalität bei Volltexten

– einfache Boolesche Retrievalsysteme ungeeignet– Boolesche Systeme mit Abstandsoperatoren

Mindestanforderung– Systeme mit automatischer Indexierung und mit Relevance

Ranking erforderlich

Page 269: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 269

Textsprachliche Methoden

• Volltextspeicherung: Warum nicht den Volltext ohne Inhaltserschließung?– Das Vorkommen eines Wortes bedeutet nicht, dass auch

etwas darüber ausgesagt wird („Dieser Artikel sagt nichts über die Zustände in Ungarn aus“ als Treffer einer Suchfrage nach „Ungarn“).

– keinerlei kontrolliertes Vokabular zur Suche vorhanden:• Probleme mit Synonymen und Homonymen• Probleme mit Fremdsprachen• elliptische Formulierungen oder Wortspiele

– Der Volltext solo erfüllt nicht die Anforderung eines Informationsfilters.

– Volltext (ASCII) ist nur zur ergänzenden Suche geeignet.

Page 270: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 270

Textsprachliche Methoden

• VolltextspeicherungZusammenspiel von:

Metadaten,ASCII-Volltext,Faksimile (bei

digitalen Dokumenten),Kopien-Service

(bei nicht-digitalenDokumenten)

Beispiel:Konzeption der deutschen Virtuellen Fachbibliotheken

( EconDoc; GetInfo; infoconnex; MedPilot)

Page 271: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 271

Textsprachliche Methoden

• Titelindexierung– Übernahme von Stichworten aus den Sachtiteln von

Büchern oder Artikeln– frühes Verfahren der Wissensrepräsentation; eingesetzt

vor allem bei Registern– Methoden:

• KWIC (Keyword in Context)• KWOC (Keyword out of Context)• KWAC (Keyword and Context)• Permutierte Stichworte• Stichworte in grammatischer Grundform• stets: Elimination von Stoppworten

Page 272: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 272

Textsprachliche Methoden

• TitelindexierungBeispiel: Titel: Mehrwerte von Information – Professionalisierung der Informationsarbeit (lfd.Nr.: 5)

KWICMehrwerte von Information – Professionalisierung der Informationsarbeit 5Mehrwerte von Information – Professionalisierung der Informationsarbeit 5Mehrwerte von Information – Professionalisierung der Informationsarbeit 5Mehrwerte von Information – Professionalisierung der Informationsarbeit 5

KWOCInformation Mehrwerte von ... – Professionalisierung der Informationsarbeit 5Informationsarbeit Mehrwerte von Information – Professionalisierung der ... 5Mehrwerte ... von Information – Professionalisierung der Informationsarbeit 5Professionalisierung Mehrwerte von Information – ... der Informationsarbeit 5

Page 273: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 273

Textsprachliche Methoden

• TitelindexierungBeispiel: Titel: Mehrwerte von Information – Professionalisierung der Informationsarbeit (lfd.Nr.: 5)

KWACInformation Mehrwerte von Information – Professionalisierung der Informationsarbeit 5Informationsarbeit Mehrwerte von Information – Professionalisierung der Informationsarbeit 5Mehrwerte Mehrwerte von Information – Professionalisierung der Informationsarbeit 5Professionalisierung Mehrwerte von Information – Professionalisierung der Informationsarbeit 5

Permutierte Stichworte (mit grammatischer Grundform)Information – Informationsarbeit 5Information – Mehrwert(e) 5Information – Professionalisierung 5Informationsarbeit – Information 5...

Page 274: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 274

Textsprachliche Methoden

• Titelindexierung– Vorteile

• schnell zu erstellen• kostengünstig• bei gewissen bibliothekarischen Projekten (etwa

Retrokatalogisierung): einzig praktikable Methode– Nachteile:

• kein kontrolliertes Vokabular (analog zu den Problemen der Volltextspeicherung)

• Informationsverlust– je nach Dokumenttyp (sehr hoch bei Zeitungsartikeln, bei

Patenten und bei Büchern, weniger hoch bei wissen-schaftlichen Artikeln)

– je nach Fach (hoch bei Geisteswissenschaften, weniger hoch bei Naturwissenschaften und Medizin)

– Beispiel: Philosophie / Artikel: Verlust von über 80% im Vergleich zur Textwortmethode

Page 275: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 275

Textsprachliche Methoden

• Titelindexierung– die Nachteile überwiegen– als einzige Methode der Wissensrepräsentation nicht

geeignet– trotzdem: in Datenbanken spezielles Feld (bzw.

speziellen Tag bei HTML- bzw. XML-Dokumenten) für die Aufnahme der Titel definieren, das u.U. im Retrieval genutzt werden kann

– KWIC im Volltext bei der Ausgabe nutzen: die Suchargumente im Kontext (hervorgehoben) anzeigen

KWIC bei derTrefferliste von Google

Page 276: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 276

Textsprachliche Methoden

Textwortmethodeentwickelt von:

Norbert Henrichs

an der

Forschungsabt. für philosophische Information und Dokumentation der Universität Düsseldorf

(Ende der 60er Jahre des 20. Jahrhunderts)

Ziel:Entwicklung einer

wörterbuchunabhängigenDokumentationsmethode.

ursprünglicher Einsatzbereich:Philosophie

Norbert Henrichs: Philosophische Dokumentation. - In: Zeitschrift für philosophische Forschung 23 (1969), 122-131.

Page 277: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 277

Textsprachliche Methoden

• Textwortmethode– Einsatzgebiet

• außerhalb fester Terminologien– als einzige Methode (in Disziplinen mit prinzipiell nicht-fester

Terminologie; etwa: Philosophie)– oder ergänzende Methode (zur Aufnahme von Begriffen, die

ein aktuell eingesetztes Klassifikationssystem oder ein Thesaurus nicht enthalten)

• wenn noch keine Terminologie vorhanden ist (Textwortmethode bringt empirisches Termmaterial für den Aufbau von Dokumentationssprachen)

– Basis der Wissensabbildung• ausschließlich der konkret vorliegende Text• KEIN vorgegebenes Begriffssystem

Page 278: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 278

Textsprachliche Methoden

• Textwortmethode– Methode

• Auswahlverfahren zur Markierung von „Sucheinstiegen“ in Texte (N.B.: „Die Sprache ist das HAUS des Seins“, Heidegger. Texte werden als Häuser verstanden, die durch unterschiedliche Einstiege betreten werden.)

• syntaktisches Indexieren: keine Einzelthemen, sondern thematische Ketten

– Auswahlregeln• Textwörter aus Titeln und Zwischentiteln• häufig vorkommende Textwörter• Textwörter aus textlichen Schlüsselstellen• Bevorzugung von Neologismen• Bevorzugung von informationsreichen (Mehrwort-)

Ausdrücken• je nach Textdichte ca. 0,5 bis 2 Textwörter pro Textseite im

Durchschnitt

Page 279: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 279

Textsprachliche Methoden

• Textwortmethode– Varianten

• nur originalsprachig (Henrichs‘ Methode). Problem: Nutzer muss alle einschlägigen Textwörter in allen Textsprachen der Datenbank kennen

• originalsprachig mit zusätzlicher Übersetzung in eine Zielsprache (Methode der Datenbank „Grazer Schule“)

– Indexierung• intellektuell (sehr aufwendig, daher sehr teuer)• Variante eines automatischen Indexierens (bislang noch

nicht erprobt)• ermöglicht stets gewichtetes Retrieval

Page 280: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 280

Textsprachliche Methoden

• Textwortmethode

– informetrische Verdichtungsmethoden

• innerhalb genau einer Dokumentationseinheit

– Gewichtungswert der Terme

• gesamte Datenbasis oder Teilmenge davon

– Wortfelder

– Häufigkeit und Wichtigkeit von Termen

– semantische Netze von Termen (Themennetze)

Wolfgang G. Stock: Textwortmethode [Norbert Henrichs zum 65.]. – In: Password Nr 7+8 (2000), S. 26-35.

Page 281: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 281

Textsprachliche Methoden

• Textwortmethode. Beispiel eines IndexatsMeinong, Alexius: Über Gegenstandstheorie, in: Untersuchungen zur Gegenstandstheorie und Psychologie, hg. v. Alexius Meinong. Leipzig: Johann Ambrosius Barth, 1904, 1-50.Thematischer Rahmen:Sachthemen: Gegenstandstheorie (1-18); Etwas (1); Gegenstand (1-15); Wirkliche, das (2-3); Erkenntnis (2,10); Objektiv (3,10); Sein (4,6-8); Existenz (4-5); Bestand (4); Sosein (5-6); Nichtsein (5); Unabhängigkeit (6); Gegenstand, reiner (7-8); Außersein (7-8); Quasisein (7); Psychologie (9); Erkenntnisgegenstand (10); Objekt (10); Logik, reine (11); Psychologismus (11-12); Erkenntnistheorie (12); Mathematik (13,18); Wissenschaft (14,18); Gegenstandstheorie, allgemeine (15); Gegenstandstheorie, spezielle (15,18); Philosophie (17); Metaphysik (17); Gegebene, das (17); Empirie (17); Apriorische, das (17); Gesamtheit-der-Wissenschaften (18)Namen: Mally, Ernst (6); Husserl, Edmund (11); Höfler, Alois (16)

Page 282: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 282

Textsprachliche Methoden

• Textwortmethode mit Übersetzungsrelation. Beispiel eines Indexats

Veber, France: 07. O samoopazovanju kot posebni metodi znanstvenega raziskovanja, in: France Veber: Analiticna Psihologija. - Ljubljana: Kleinmayr & Bamberg, 1924, 39-50.Thematischer Rahmen:

Sachthemen in Originalsprache: Sachthemen in Einheitssprache:samoopazovanje (1-6) Selbstbeobachtung (1-6)metoda (1) Methode (1)dozivljaj (2,5) Erlebnis (2,5)psihologija (3) Psychologie (3)opazovanje (4) Beobachtung (4)pristnost (5) Echtheit (5)dozivljanje (5) Erleben (5)spoznanje (6) Erkenntnis (6)

Page 283: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 283

Textsprachliche Methoden

Syntagmatische Relationen zwischen den Begriffen

Basis für – Thesaurus-

aufbau – Wissen-

schafts-geschichte

– Nutzung als „einstell-barer“ Thesaurus

– Syntagma als Basis für Paradigma

Page 284: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 284

Textsprachliche Methoden

• Textwortmethode– Vorteile

• nimmt die Sprache der Autoren ernst• keinerlei paradigmatische Relationen, kein kontrolliertes

Vokabular• einsetzbar in Gebieten, in denen Dokumentationssprachen nicht

anwendbar sind• objektive Basis (im Gegensatz zu Dokumentationssprachen, die

die Texte stets durch die Brille ihres Systems sehen); damit relativ interpretationsarm

• Basis für diverse Weiterverarbeitungen (Thesaurusaufbau, Wissenschaftsgeschichte usw.)

– Nachteile• aufwendig und teuer• u.U. mangelhafte Indexierungskonsistenz• Retrieval schwierig (kann jedoch durch Übersetzungen und

durch informetrische Funktionen gemildert werden)

Page 285: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 285

Textsprachliche Methoden

Zitationsindexierung(Citation Indexing)entwickelt von:

Eugene Garfield

Institute for ScientificInformation (Philadelphia; europäische Zentrale: London)

(Mitte/Ende der 50er Jahre des 20. Jahrhunderts)

Eugene Garfield: Citation Indexing. – New York [u.a.]: Wiley, 1979.

Page 286: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 286

Textsprachliche Methoden

• Einsatzgebiete: überall, wo zitiert wird– Recht: Urteile– Patente– wissenschaftliche Literatur

• Grundidee: Das Notieren von Fußnoten (oder anderen bibliographischen Angaben) gibt über den Inhalt eines wissenschaftlichen Artikels Auskunft

• das Verfahren erfordert nur minimalen intellektuellen Aufwand und ist daher - als Methode der Inhaltserschließung - relativ kostengünstig herzustellen

• das Institute for Scientific Information (ISI) verfügt nahezu über eine Monopolstellung bei der zitatenanalytischen Auswertung wissenschaftlicher Literatur (Ausnahme: u.a. CiteSeer)

Page 287: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 287

Textsprachliche Methoden

1 Stegmüller, Wolfgang: Probleme und Resultate der Wissenschaftstheorie und Analytischen Philosophie. -Band 4: Personelle und Statistische Wahrscheinlichkeit. Studienausgabe Teil A. - Berlin; Heidelberg; New York: Springer, 1973, S. 5.

2 ebd., S. 5.3 ebd., S. 5.4 ebd., S. 6.5 ebd., S. 6.6 Haller, Rudolf: Wandlungen der Wissenschaftsauffassung. -

In: Erhard Busek; Wolfgang Mantl; Meinrad Peterlik (Hrsg.): Wissenschaft und Freiheit. - Wien: Verlag für Geschichte und Politik; München: Oldenbourg, 1989, S. 46-58, hier: S. 57.

7 vgl. ebd., S. 55.

Zitat 1

Zitat 2

Mehrfachnennungen werden übergangen

Page 288: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 288

Textsprachliche Methoden

Zitierender Artikel

Zitierter Artikel

Informationsübermittlung

Zeit

„Referenz“

Reputation

„Zitation“

Page 289: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 289

Textsprachliche Methoden

• Zitationsindexierung beim ISI. Geschichte• Vorgeschichte: Shepards‘ Citations, Zitationsindex für

Gerichtsurteile (das Vorbild)• 1955: Garfield entwickelt die Idee wissenschaftlicher

Zitationsindices• 1958: Gründung des Institute for Scientific Information (ISI)

in Philadelphia, MA• erstes Produkt des ISI: Current Contents (CC)• 1961: Science Citation Index (SCI)• 1973: Social Sciences Citation Index (SSCI)• 1976: Journal Citation Reports (JCR)• 1978: Arts & Humanities Citation Index (A&HCI)• 1997: Web of Science (WoS)• 2001: Essential Science Indicators (ESI); Web of Knowledge

Page 290: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 290

Textsprachliche Methoden

• Zitatenindexierung wissenschaftlicher Zeitschriftenliteratur beim Web of Science:– SCI. Zuwachs: 17.000 Quellenartikel mit 300.000

Zitationen pro Update (d.h. pro Woche); ab 1945– SSCI. Zuwachs: 2.800 Quellenartikel mit 50.000

Zitationen pro Woche; ab 1956– A&HCI. Zuwachs: 2.200 Quellenartikel mit 15.000

Zitationen; ab 1975• zusätzlich via Online-Archive (z.B. DIALOG)

recherchierbar sowie (als Auftragsforschung) beim ISI (Research Services Group)

Page 291: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 291

Textsprachliche Methoden

• Kriterien der Zeitschriftenauswahl (derzeit: rund 8.000 ausgewertet)• Kernzeitschriften pro Disziplin (Ausnutzung des Garfieldschen Gesetzes) -

Problem: Gesetz sagt etwas über eine Anzahl von Zeitschriften im Kern aus, welche Titel jeweils darin sind, ändert sich andauernd

• deshalb: intellektuelle Durchsicht neuer (oder neu angebotener) Zeitschriften (ca. 2000 Zeitschriften jährlich, Auswahl von rund 10-12%)

• Auswahlkriterien nach „Basic Standards“– regelmäßige und termingerechte Erscheinungsweise– aussagekräftiger Zeitschriftentitel– aussagekräftige Artikeltitel– vollständige bibliographische Angaben bei Fuß- und Endnoten– englische Artikeltitel (bei nicht-englischer Literatur: Übersetzungen)– englische Abstracts, englische Keywords– Peer Review– internationale Ausrichtung (ggf. auch wichtige regionale Ausrichtung)– Neuigkeit des Inhalts (liegen schon ähnliche Zeitschriften beim ISI vor?)

• Expertenurteile

Page 292: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 292

Textsprachliche Methoden

• Retrievalfunktionen bei Zitationsdatenbanken– Rekonstruktion der

Informationsübermittlungen nach „hinten“, d.h. zur zitierten Literatur (via Referenzen)

– Rekonstruktion der Informationsübermittlungen nach „vorne“, d.h. zur zitierenden Literatur (via Zitationen)

– assoziatives Retrieval nach „verwandter“ Literatur (über gemeinsame Referenzen)

– (Zugang zu den Volltexten)

Page 293: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 293

Textsprachliche Methoden

Web of ScienceTrefferanzeige

ReferenzenZitationen

Page 294: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 294

Textsprachliche Methoden

Web of ScienceAnzeige der Zitationen

Page 295: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 295

Textsprachliche Methoden

• Zitationsindexierung. Probleme– Autoren zitieren nicht alle einschlägigen Quellen (u.a.

„Super-Klassiker“)– Autoren zitieren Quellen, die nicht einschlägig sind (u.a.,

weil sie die eigene Meinung stützen)– Autoren haben unterschiedliche Zitationsstile– Selbstzitationen („Inzest“)– Zitationskartell (Selbstzitation einer Gruppe)– Zitationsebenen (nach Blaise Cronin)

• V. Lebenswerk (im Text, zitatenanalytisch nicht erfasst)• IV. Motiv (im Text, zitatenanalytisch nicht erfasst)• III. Werk: Buch, Artikel (zitatenanalytisch sauber fassbar)• II. Kapitel, Abschnitt (wird Ebene III zugeschrieben)• I. Detail (wird Ebene III zugeschrieben)

Page 296: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 296

Textsprachliche Methoden

• Zitationsindexierung beim ISI. Probleme– Repräsentativität der selektierten Zeitschriften von

Disziplin zu Disziplin (und von Land zu Land) unterschiedlich

– Titel der Quellenartikel nur in englisch– Zitationen werden (mehr oder minder) einheitlich

abgekürzt; für Laien: „Verstümmelung von Fußnoten“– versteckte Literaturangaben im Text werden nicht immer

(bei SCI und SSCI: gar nicht) berücksichtigt– Publikations- und Zitationsraten des ISI haben große

Bedeutung in der Wissenschaftsforschung und Wissenschaftsevaluation (auch z.B. bei Lehrstuhlbesetzungen); deshalb sehr wichtig: Kenntnis der methodischen Probleme bei der Zitationsindexierung)

Page 297: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 297

Textsprachliche Methoden

• Navigation auf den Zitationen bei CrossRef– CrossRef:

Zusammenschluss wichtiger Wissenschafts-verlage mit digitalen Volltexten

– Die Artikel sind –über die Referenzen –miteinander verlinkt

– Technik: DOI (digital object identifyer)

Page 298: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 298

Textsprachliche Methoden

• Shepardizing – bewertende Zitationsindexierung– Anwendungsfeld: juristische Entscheidungen– eingesetzt bei LexisNexis– Klassen (1. Hierarchieebene)

• Warnung: negative Referenz (Signalfarbe: rot)• in Frage gestellt – Gültigkeit eines Urteils wird hinterfragt

(orange)• Vorsicht: mögliche negative Sicht (gelb)• positiv – Fall wird zustimmend diskutiert (grün)• neutral – weder negativ noch positiv (blaues "A")• Zitationsinformationen in anderen Quellen zugänglich (blaues

"I")

Page 299: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 299

Textsprachliche Methoden

• Shepardizing

Page 300: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 300

Textsprachliche Methoden

• Assoziative Suche über Zitationen / LexisNexis

Page 301: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 301

Textsprachliche Methoden

• Zitatenindexierung– Vorteile:

• ergänzt durch die besondere Form der Wissensabbildung jede andere Erschließungsmethode

• ermöglicht Navigation über die Referenzen (CrossRef, ISI) und Zitationen (ISI, CiteSeer, Shepards‘)

• ermöglicht assoziatives Retrieval über die Menge gemein-samer Referenzen bei unterschiedlichen Artikeln

– Nachteile:• nur Artikel in Zeitschriften, Proceedings und

Sammelbänden (keine Monographien) als Quellen• bei Referenzen wird u.U. „geschummelt“• praktische Probleme beim ISI: u.a. Auswahl der

Quellenwerke

Page 302: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 302

Nicht-thematische Informationsfilter

Page 303: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 303

Nicht-thematische Informationsfilter

Nicht-thematischer Informationsfilter (1):Zielgruppe• jeder dokumentarischen Bezugseinheit die spezifische(n)

Zielgruppe(n) zuordnen• Grund: nicht jedes Dokument ist für jeden Nutzertyp

interessant• Bsp.: bei fachlicher Literaturdatenbank:

– interessierter Laie– Schüler (Oberstufe – Leistungskursniveau)– Student (B.A.-Niveau)– Student (M.A.-Niveau)– Forscher (mit allgemeinem Fachwissen)– Forscher (mit speziellem Fachwissen)

• im Bsp.: Abfrage im Feld „Zielgruppe“ frei selektierbar; keine Zugangsbeschränkung

Page 304: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 304

Nicht-thematische Informationsfilter

Nicht-thematischer Informationsfilter (1):Zielgruppe• Bsp.: bei unternehmensspezifischer Datenbank (im Intranet

und Extranet):– (registrierter) Zulieferer– (anderer) Zulieferer– (registrierter) Kunde– (anderer) Kunde– Unternehmensmitarbeiter– Management– Forscher / Entwickler– Marketing– Betriebsrat

• im Bsp.: Zugang zu bestimmten Dokumentationseinheiten nur mit gesondertem Passwort

Page 305: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 305

Nicht-thematische Informationsfilter

Nicht-thematischer Informationsfilter (1):Zielgruppe• Bsp.: bei Datenbank über Kunstwerke:

– interessierter Laie– Kaufinteressent– Künstler– Kunsthistoriker– Politiker– Journalist

• für jede Datenbank sind die Zielgruppen zu bestimmen (Segmentierung über empirische Erhebung oder –einfacher, aber unzuverlässiger – über „intuitive“ Definition)

Page 306: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 306

Nicht-thematische Informationsfilter

Nicht-thematischer Informationsfilter (2):Art der Themenbehandlung• Niveau der dokumentarischen Bezugseinheit hinsichtlich

der Darstellung• nicht zu verwechseln mit dem Dokumenttyp (wie Zeit-

schriftenartikel, Artikel in Proceedings, Buch, Rezension)• Bsp.: bei fachlicher Literaturdatenbank

– Überblicksartikel– empirische Studie– theoretische Abhandlung– methodologische Studie

• Die Bezeichnungen für das Dokumentniveau sind als kontrolliertes Vokabular abzulegen.

Page 307: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 307

Nicht-thematische Informationsfilter

Nicht-thematischer Informationsfilter (2):Art der ThemenbehandlungVariante 1: Art der Themenbehandlung als DeskriptorNachteil: „versteckt“ bei den thematischen Deskriptoren

Quelle: EMBASEbei Ovid

Page 308: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 308

Nicht-thematische Informationsfilter

Nicht-thematischer Informationsfilter (2):Art der ThemenbehandlungVariante 2: Art der Themenbehandlung als separates Feld

Quelle: TEMA beiFIZ Technik

Page 309: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 309

Nicht-thematische Informationsfilter

Nicht-thematischer Informationsfilter (3):Verfallsdatum

• nur bei zeitkritischen Dokumenten• Angabe eines Datums, nach dem die Dokumentations-

einheit aus dem aktiven Informationssystem entfernt wird• entweder: löschen• oder: im Archiv weiterhin bereithalten

Page 310: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 310

Automatische Indexierung

Page 311: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 311

Automatische Indexierung

• Automatische Indexierung unter Nutzung von Informationsfiltern• Hinweis: ohne definierte Informationsfilter: Textstatistik /

Linktopologie (Vorl. „Einführung in die Informationswissenschaft“)• Voraussetzung: Einsatz informationslinguistischer Verfahren• Varianten:• (1) ohne Dokumentationswerkzeug: Klassifikation von

Dokumenten nach Ähnlichkeit– a) permanent: Klassifikation über die gesamte Datenbasis– b) temporär: für jede Suchanfrage

• (2) mit Dokumentationswerkzeug (Schlagwortliste, Klassifikationssystem, Thesaurus): Dokumentanalyse –Zuordnung von Notationen, Schlagworten bzw. Deskriptoren

Page 312: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 312

Automatische Indexierung

• Klassifikation von Dokumenten nach Ähnlichkeit• Ziel: Zusammenfassen ähnlicher Dokumente unter eine Klasse

(möglichst große Ähnlichkeit innerhalb der Klasse, möglichst große Unähnlichkeit zu anderen Dokumenten bzw. Klassen)

• Basis: Worte und (erkannte) Phrasen von jeweils zwei Dokumenten in Grundform oder Wortstamm

• Anzahl der Worte/Phrasen in Dokument A: a• Anzahl der Worte/Phrasen in Dokument B: b• Anzahl der in A und B gemeinsam vorkommenden

Worte/Phrasen: g• ggf. zusätzlich: jeweils Gewichtungswert (IDF, WDF, Position)

jedes Wortes bzw. jeder Phrase (i)

Edie Rasmussen: Clustering Algorithms. – In: William B. Frakes; Ricardo Baezo-Yates (Hrsg.): InformationRetrieval. Data Structures & Algorithms. – Upper Saddle River, NJ: Prentice Hall PTR, 1992, 419-442.

Page 313: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 313

Automatische Indexierung

• Klassifikation von Dokumenten nach Ähnlichkeit• Ähnlichkeitsmaße• Koeffizient nach DICE

• Ähnlichkeit(A,B) = 2g / (a + b)

2 * Σ (Gewicht(i,A) * Gewicht(i,B))• gewichtete Ähnlichkeit(A,B) = ------------------------------------------------

Σ (Gewicht(i,A))2 + Σ (Gewicht(i,B))2

wobei i : Wort/Phrase in A und B

Page 314: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 314

Automatische Indexierung

• Klassifikation von Dokumenten nach Ähnlichkeit• Ähnlichkeitsmaße• Koeffizient nach JACCARD

• Ähnlichkeit(A,B) = g / (a + b - g)

Σ (Gewicht(i,A) * Gewicht(i,B))• Ä(A,B) = --------------------------------------------------------------------------------------------

Σ (Gewicht(i,A))2 + Σ (Gewicht(i,B))2 – Σ (Gewicht(i,A) * Gewicht(i,B))

wobei i : Wort/Phrase in A und B

Page 315: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 315

Automatische Indexierung

• Klassifikation von Dokumenten nach Ähnlichkeit• Ähnlichkeitsmaße• Cosinus-Koeffizient

• Ähnlichkeit(A,B) = g / (a * b)1/2

Σ (Gewicht(i,A) * Gewicht(i,B))• Gew. Ähnlichkeit(A,B) = ------------------------------------------------------------

( Σ (Gewicht(i,A))2 * Σ (Gewicht(i,B))2 )1/2

wobei i : Wort/Phrase in A und B

Page 316: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 316

Automatische Indexierung

• Klassifikation von Dokumenten nach Ähnlichkeit• Ähnlichkeitsmaße

• Beispiel: Dokument A: 100 Worte (a=100); Dokument B= 200 Worte (b=200); gemeinsame Worte in A und B: 15 (g=15)

• Ähnlichkeit(A,B) nach DICE = 2g / (a + b), also: 30 / (100 + 200) = 0,1• Ähnlichkeit(A,B) nach JACCARD = g / (a + b - g), also

15 / (100 + 200 – 15) = 15 / 285 = 0,053• Cosinus-Ähnlichkeit(A,B) = g / (a * b)1/2, also: 15 / (100 * 200)1/2 =

15 / (20.000)1/2 = 15 / 141,42 = 0,106

Page 317: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 317

Automatische Indexierung

• Klassifikation von Dokumenten nach Ähnlichkeit• Errechnung der Ähnlichkeit für alle Dokumentpaare (einer

Datenbank oder eines Suchergebnisses)• Herstellen einer Ähnlichkeitsmatrix

Dok1 Dok2 Dok3 DoknDok1 1Dok2 Ä(2,1) 1Dok3 Ä(3,1) Ä(3,2) 1...Dokn Ä(n,1) Ä(n,2) Ä(n,3) 1

Page 318: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 318

Automatische Indexierung

• Klassifikation von Dokumenten nach Ähnlichkeit• Clusteranalyse• Single-Link-Verfahren:

– Ausgang: Paar (A,B) mit der höchsten Ähnlichkeit, das in noch keinem Cluster enthalten ist

– Hinzufügen von allen Dokumenten, die mit A ähnlich sind (d.h. die einen Schwellenwert überschreiten), sagen wir: C und D

– Hinzufügen von allen Dokumenten, die mit B ähnlich sind, sagen wir: E, F und G

– Hinzufügen von allen Dokumenten, die mit C ähnlich sind– usw. ...– ... bis kein Dokument mehr vorhanden ist, das den Schwellenwert

überschreitet– nächstes Paar (wie oben)

• das Single-Link-Verfahren erzeugt u.U. sehr große Cluster

Page 319: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 319

Automatische Indexierung

• Klassifikation von Dokumenten nach Ähnlichkeit• Single-Link-Verfahren. Beispiel. Schwellenwert Ähnlichkeit = 0,2

A B

FD E

JIH

0,30

0,250,24

0,27 0,21 0,29

0,290,25

0,22

Klasse

Page 320: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 320

Automatische Indexierung

• Klassifikation von Dokumenten nach Ähnlichkeit• Clusteranalyse• Complete-Link-Verfahren:

– Ausgang: Paar (A,B) mit der höchsten Ähnlichkeit, das in noch keinem Cluster enthalten ist

– Hinzufügen von allen Dokumenten, die mit A und B ähnlich sind (d.h. einen Schwellenwert überschreiten)

– und die untereinander ähnlich sind (d.h. den Schwellenwert überschreiten)

• das Complete-Link-Verfahren erzeugt u.U. sehr kleine Cluster

Page 321: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 321

Automatische Indexierung

• Klassifikation von Dokumenten nach Ähnlichkeit• Complete-Link-Verfahren. Beispiel. Alle Ähnlichkeitswerte liegen

über dem Schwellenwert

A B

Klasse

Page 322: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 322

Automatische Indexierung

• Klassifikation von Dokumenten nach Ähnlichkeit• Clusteranalyse• Group-Average-Link-Verfahren:

– Mittelstellung zwischen Single-Link- und Complete-Link-Verfahren– Ausgang: wie Single-Link-Verfahren– Errechnung der durchschnittlichen Ähnlichkeit aller Paare– durchschnittliche Ähnlichkeit als Schwellenwert– alle Paare verbleiben im Cluster, deren Ähnlichkeit über dem

Schwellenwert liegen

Page 323: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 323

Automatische Indexierung

• Klassifikation von Dokumenten nach Ähnlichkeit• Group-Average-Link-Verfahren. Beispiel. Entfernen der Paare, die

unter der Durchschnittsähnlichkeit im Single-Link-Cluster (im Beispiel: 24,9) liegen

A B

C FE

0,30

0,25

0,27

0,290,25

Klasse

0,29

Page 324: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 324

Automatische Indexierung

• Klassifikation von Dokumenten nach Ähnlichkeit• Nicht-hierarchische Klassifikation• Hierarchische Klassifikation

– mehrfache Anwendung der Clusterbildung innerhalb bereits erkannter Cluster

– Abbruch, wenn unterer Schwellenwert (minimale Anzahl von Dokumenten im Cluster) erreicht wird

• letzter Schritt: Finden einer aussagekräftige Klassenbenennung (Wort(e)/Phrase(n) mit höchsten Gewichtungswerten)

• Einsatzgebiet der Klassifikation nach Ähnlichkeit– unternehmensinterne Dokumentsammlungen, die überhaupt nicht

indexiert worden sind

Page 325: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 325

Automatische Indexierung

• Automatische Zuordnung von Schlagworten• Voraussetzung: Dokumentationswerkzeug (Schlagwort-

liste, Klassifikationssystem, Thesaurus) liegt vor• Ansatz 1. Probabilistische Verfahren:

Wie groß ist die Wahrscheinlichkeit, dass einem gegebenen Dokument ein bestimmtes Schlagwort (Schlagwort i.e.S., Notation, Deskriptor) zuzuordnen ist?– Voraussetzung: Vorliegen von Wahrscheinlichkeits-

informationen (zum „Training“ des Systems)– Beispiel: AIR/PHYS

Page 326: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 326

Automatische Indexierung

• Automatische Zuordnung von Schlagworten• Ansatz 2: Textstatistische Verfahren: Welche Textworte

(Phrasen) mit welcher Gewichtung müssen vorliegen, damit ein bestimmtes Schlagwort zuzuordnen ist?

• Ansatz 3: Regelbasierte Verfahren: Wenn Textworte und ihre Umgebung gewissen Regeln folgen, wird ein bestimmtes Schlagwort zugeordnet.

• Im praktischen Einsatz: Mischformen aus den drei Ansätzen– Beispiele: Reuters – Factiva („Intelligent Indexing“),

Dialog Profound („InfoSort“), Dialog NewsEdge („Real-time Content Refinery System“) – Convera („RetrievalWare“)

Page 327: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 327

Automatische Indexierung

• Automatische Zuordnung von Schlagworten -probabilistisches Verfahren

• Beispiel AIR/PHYS• Projekt der TH Darmstadt mit FIZ Karlsruhe• Physikdatenbank – Erschließungsbasis: Abstracts –

Sprache: englisch• Erschließungswerkzeug: Physik-Thesaurus• ca. 392.000 intellektuell indexierte Dokumente (Abstracts

und Deskriptoren) liegen vor und dienen als Basis für das Wörterbuch PHYS-PILOT

Peter Biebricher; Norbert Fuhr; Gerhard Lustig; Michael Schwantner; Gerhard Knorz: The automatic indexingsystem AIR/PHYS – From research to application. – In: Proceedings of the 11th Annual International Conference

on Research and Development in Information Retrieval. – New York: ACM, 1988, 333-342.

Page 328: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 328

Automatische Indexierung

• AIR/PHYS• Wörterbuch PHYS/PILOT• Vokabular aus den intellektuell indexierten Dokumenten

– #Dok(t) : Anzahl der Dokumente, die den Term t im Abstract enthalten

– #Dok(t,s) : Anzahl der Dokumente aus #Dok(t), die den Deskriptor s enthalten

• Wahrscheinlichkeit für ein Term-Deskriptor-Paar z(t,s) = #Dok(t,s) / #Dok(t)

• Schwellenwerte– #Dok(t,s) = 2– z(t,s) = 0,29

• Ergebnis: 800.000 Term-Deskriptor-Paare, davon 350.000 genutzt

Page 329: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 329

Automatische Indexierung

• AIR/PHYS - Wörterbuch PHYS/PILOT – Beispiel

Term Deskriptor #Dok(t,s) #Dok(t) z(t,s)stellar wind STELLARS WINDS 359 479 0,74molecular outflow 11 19 0,57hot star wind 13 17 0,76terminal stellar wind velocity 12 13 0,92

Relationen im Thesaurus• Nicht-Deskriptor – Deskriptor• Hierarchie• Antonymie• formaler Einschluss (Bsp.: collision – atom collision)

Page 330: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 330

Automatische Indexierung

• AIR/PHYS - Indexierung

• a(x(d,s)) ist abhängig von– z(t,s) – t ist im Abstract vorhanden, t-s ist als Relation erkannt– Häufigkeit des Auftretens von s im Abstract– Auftreten von s im Titel– ... weitere 30 Komponenten

Dokument d – Deskriptor s

Relevanzbeschreibungx(d,s)

Indexierungsgewichtg = a(x(d,s))

Page 331: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 331

Automatische Indexierung

• AIR/PHYS – Indexierung• a ist weiterhin abhängig von Deskriptor – Deskriptor – Relationen

(etwa Begriff – Oberbegriff)• die Berechnung von a(x(d,s)) durchläuft mehrere Iterationsrunden• Transformation der gewichteten Deskriptorkandidaten in

ungewichtete (0-1-Entscheidung)– wenn a(x(d,s)) größer als / gleich Schwellenwert d wird durch s

indexiert– wenn a(x(d,s)) kleiner als Schwellenwert s wird nicht

berücksichtigt• Güte der automatischen Indexierung (Stand: 1987)

– 19% der Dokumente: von Indexern als brauchbar gewertet– 63%: brauchbar bei kleineren Korrekturen– 18%: unbrauchbar

Page 332: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 332

Automatische Indexierung

• AIR/PHYS – Indexierung• nur 44% der Deskriptoren sind durch die Relation z fundiert (also

durch die bereits erkannten Zusammenhänge zwischen intellektuell zugeteilten Deskriptoren und Termen im Abstract)

• bei halbautomatischer Indexierung (d.h. Fehlerkorrektur der automatisch generierten Deskriptoren durch professionelle Indexer) steigt die Anzahl der erkannten Zusammenhänge zwischen t und s

• das Wörterbuch wird fortgeschrieben• das System wird dadurch „trainiert“• das System müsste entsprechend fortlaufend besser werden• ... dies allerdings nur in der Theorie – die Datenbank PHYS und

damit deren automatische Indexierung wurden inzwischen eingestellt

Page 333: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 333

Automatische Indexierung

• Automatische Zuordnung von Schlagworten –regelbasiertes Verfahren

• Beispiel Construe-TIS• Projekt von Reuters Ltd. in Kooperation mit der Carnegie

Group (Pittsburgh)• Datenbank mit Agenturmeldungen und Zeitungsartikeln –

Erschließungsbasis: Volltexte – Sprachen: zunächst englisch, derzeit: 22

• Erschließungswerkzeug: Reuters-Thesaurus (derzeit: „Factiva Intelligent Indexing“)

of Artificial Intelligence. Bd. 2. – Cambridge, Mass.: MIT Press, 1991, 49-66.

Page 334: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 334

Automatische Indexierung

• Topic Identification System (TIS)• Phase 1: Begriffserkennung• Begriff wird durch das Vorkommen bzw. Nicht-Vorkommen

von Worten bzw. von Phrasen erkannt• Beispiel: Begriff GOLD (im Sinne einer Ware)• Operator &n : „und nicht in der selben Phrase“ (weitere

Operatoren: „im selben Satz“, „im selben Dokument“)• beim Begriffssatz GOLD hinterlegt:

(gold (&n (reserve ! medal ! jewelry))• im Text: „... gold production ...“ GOLD• im Text: „... gold medal ...“ NULL

Page 335: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 335

Automatische Indexierung

• Topic Identification System (TIS)• Phase 1: Begriffserkennung• Zuordnung eines Gewichtungswertes zu den Begriffen in

Abhängigkeit von gemeinsam vorkommenden Termen• Beispiel: Begriff FOREIGN EXCHANGE• Satz 1: „... the Fed intervented in the money market ...“• Satz 2: „... currency speculation ...“• Satz 1 hat eine höhere Wahrscheinlichkeit für FOREIGN

EXCHANGE als Satz 2

Page 336: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 336

Automatische Indexierung

• Topic Identification System (TIS)• Phase 2: Regeln für Kategorisierung (Klassierung)• Wenn-dann-Regeln mit Booleschen Operatoren; angewandt

auf erkannte Begriffe• erkannter Begriff: „concept“; vorgegebener Deskriptor:

„category“• Beispiel: Zuordnung des Deskriptors AUSTRALIAN

DOLLAR zu einem Dokument• zu beachten: Dollars gibt es auch in den USA, in Singapur

usw.

Page 337: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 337

Automatische Indexierung

• Topic Identification System (TIS)• Phase 2: Regeln für Kategorisierung (Klassenbildung)• Regel:

(iftest: (or [australian-dollar-concept]

(and [dollar-concept][australia-concept](not [us-dollar-concept])(not [singapure-dollar-concept])(not ...))

action: (assign australian-dollar-category))• Solche Regeln können auf Satz-, Absatz- oder Textebene

angewandt werden, alternativ auch auf Wortabstände.

Page 338: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 338

Automatische Indexierung

• Topic Identification System (TIS)• Phase 2: Regeln für Kategorisierung (Klassenbildung)• Ein Text mit dem Satz

„Australia announced today that it would devalue the dollar.“bekommt nach der Regel den Deskriptor AUSTRALIAN DOLLAR zugeordnet.

• weitere Regeln berücksichtigen die Anzahl des Vorkommens eines Begriffs oder die Position im Text

Page 339: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 339

Automatische Indexierung

• Topic Identification System (TIS)• Phase 2: Regeln für Kategorisierung (Klassenbildung)• Regel

(iftest: or (and [gold-concept :scope headline 1]

[gold-concept :scope body 1])[gold-concept :scope body 4])

action: (assign gold catagory))• Anmerkung: Diese Regel kann durch textstatistische Maße

(WDF, IDF, Positionswert) noch verfeinert werden.

Page 340: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 340

Automatische Indexierung

Weiteres Beispiel:

Convera RetrievalWare

Page 341: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 341

Abstracts

Page 342: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 342

Abstracts

Grundlegende Literatur• Brigitte Endres-Niggemeyer: Summarizing Information. –

Berlin [u.a.]: Springer, 1998.• Edward T. Cremmins: The Art of Abstracting. - Philadelphia:

ISI Press, 1982.• Harold Borko; C.L.Bernier: Abstracting Concepts and

Methods. – New York: Academic Press, 1975.• Josef Koblitz: Methoden des Referierens von Dokumenten.

– Leipzig: Bibliographisches Institut, 21968.• Rainer Kuhlen: Informationsaufbereitung III: Referieren

(Abstracts – Abstracting – Grundlagen). – In: Grundlagen der praktischen Information und Dokumentation. –München: Saur, 52004, 189-206.

• DIN 1426: Kurzreferate.

Page 343: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 343

Abstracts

• Inhaltsangaben nach DIN 1426– Formen von Inhaltsangaben:

• Auszug (Inf.verdichtung: nicht geeignet, da selektiv)• Zusammenfassung (Inf.verdichtung: nicht geeignet, da Kenntnis

des Textes vorausgesetzt wird)• Rezension (Inf.verdichtung: nur sehr bedingt geeignet; i.d.R. zu

lang – günstig aber als Zusatzinformation)• Literaturbericht (Inf.verdichtung über mehrere Dokumente,

wegen zu großer Länge nicht geeignet)• Annotation (Inf.verdichtung über Stichworte: nicht geeignet, so

etwas macht man mittels Thesaurus, Klassifikation oder Textwortmethode)

• Inhaltsverzeichnis (Inf.verdichtung: bei Monographien bedingt geeignet)

• Sammelreferat (Inf.verdichtung über mehrere Dokumente; sehr geeignet)

• Kurzreferat / Abstract (Inf.verdichtung eines Dokuments; sehr geeignet)

Page 344: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 344

Abstracts

• Inhaltsangaben nach DIN 1426– Kurzreferat / Abstract (bei genau einer DBE – der Standardfall)

Sammelreferat (bei mehreren DBE):• Vollständigkeit• Genauigkeit• Objektivität• Kürze• Verständlichkeit

– Ziele:• grundlegende Inhalte der Dokumente sollen vom Nutzer schnell

und exakt erkannt werden• die Relevanz der Dokumente für eine Fragestellung muss klar

werden• Nutzer muss entscheiden können, ob der Volltext benötigt wird • letztlich: Fundierung einer ja/nein-Entscheidung, ob der Volltext

eingesehen wird (dem Link gefolgt wird; das Dokument gekauft oder eine Übersetzung in Auftrag gegeben wird)

Page 345: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 345

Abstracts

• Kurzreferat / Abstract – Gliederung nach DIN 1463

• zentrale Aussage des Dokuments• ggf. Dokumenttyp spezifizieren (etwa: Forschungsbericht; Letter)• ggf. Art der Themenbehandlung nennen (Überblick, theoretische

Arbeit, empirische Arbeit)• Hypothesen• Zielsetzung• Bezug zu anderen Arbeiten• Methodik (Untersuchungsgegenstand, -methoden, -techniken)• Ergebnisse und Schlussfolgerungen• Herkunftsvermerk: entweder „Autor“ oder Kürzel des Bearbeiters

– Länge• Kurzmitteilung: max. 200 Zeichen• Zeitschriftenartikel: max. 500 Zeichen• umfangreiche Monographie: max. 1.000 Zeichen

Page 346: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 346

Abstracts

• Kurzreferat / Abstract– Autorenabstract

• Vorteile: – liegt mit der Publikation direkt vor– Autor bringt einschlägiges Fachwissen mit

• Nachteile: – Autor ist nie objektiv– Autorensprache kann durchaus unverständlich sein– Inter-Abstractor-Konsistenz nicht gegeben

– Fremdabstract• Vorteile:

– objektiver (und wahrscheinlich verständlicher) als ein Autorenabstract

– Konsistenz ist trainierbar– dokumentarisch-informationswissenschaftlicher Sachverstand

• Nachteile:– muss erstellt werden (es fallen Kosten an)– Fachwissen ist nicht immer ausreichend vorhanden

Page 347: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 347

Abstracts

• Kurzreferat / Abstract– Sprache

• in Zielsprache(n) der Datenbasis• Vorteil für Nutzer: Kurzüberblick auch über Dokumente in

Sprachen, die der Nutzer nicht beherrscht• deshalb sinnvoll anzuschließen: Übersetzungsservice für

die Volltexte• bei digital vorliegenden Dokumenten: u.U. langt zunächst

eine automatische Übersetzung (Bsp.: AltaVista‘s Babelfish oder Google‘s „translate tool“)

Page 348: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 348

Abstracts

• Kurzreferat / Abstract– NICHT ins Abstract gehören

• Titel (wäre redundant)• Negativa (wäre im Retrieval über den Abstract-Index irreführend)

– Problem: Wahrheitsgehalt• Lösung 1: Referieren ohne Überprüfung des Wahrheitsgehalts

der Vorlage („... Die Quadratur des Kreises arbeitet nach der Methode ...“)

• Lösung 2: Überprüfung des Wahrheitsgehaltes der Vorlage und Markieren von zweifelhaften Aussagen („... Verf. behauptet, die Quadratur des Kreises geschehe nach der Methode ...“)

– Typen des Kurzreferats / Abstracts• indikatives Referat• informatives Referat• analytisches Referat

Page 349: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 349

Abstracts

• Kurzreferat / Abstract: Was wird aufgenommen?– das, worum es in einem Text geht – „aboutness“

• extensionale Aboutness: inhärente Aboutness eines Textes – diese ist Basis für Abstracts

• intensionale Aboutness: Bedeutung (Stellenwert) eines Textes im Kontext anderer Texte – nicht für Abstractsgeeignet (für Intertextualität ist die Zitationsindexierung zuständig)

– im Sinne der Textlinguistik: „Makrostruktur“ eines Textes

• Entscheidung, was weggelassen wird• Entscheidung, was (aus den speziellen Aussagen)

verallgemeinert wirdHelen R. Tibbo: Abstracting, Information Retrieval and the Humanities. – Chicago; London: American Library

Association, 1993. (Chapter 2: Abstracts and Abstracting. Fundamental Considerations, 18-39).

Page 350: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 350

Abstracts

• Kurzreferat / Abstract: homomorphe versus paramorphe Reduktion Text mit

Makrostruktur

homomorphe Reduktion paramorphe Reduktion

Page 351: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 351

Abstracts

• Kurzreferat / Abstract: homomorphe versus paramorphe Reduktion– isomorphe Reduktion: die Makrostrukturen von Text

und Abstract sind gleich (etwa: Thema A im Text 25% und Thema B im Text 16% des Umfangs, dann auch im Abstract A 25% und B 16%) – faktisch nicht durchführbar

– homomorphe Reduktion: die Makrostrukturen von Text und Abstract sind ähnlich – bei Abstracts anzustreben

– paramorphe Reduktion: die Makrostrukturen von Text und Abstract sind unterschiedlich (böse gesagt: das Abstract liegt „daneben“ [para, grch. = neben]) – oder u.U. positiv: perspektivisches Abstract

Page 352: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 352

Abstracts

• Texttypologie– erzählende Texte (Geschichten, Geschichte, ...)– prozedurale Texte (Gebrauchsanweisungen, Rezepte, ...)– verhaltensbeeinflussende Texte (politische Reden,

Werbetexte, ...)– erklärende Texte (wissenschaftliche Literatur, „Essays“, ...)

• disziplinspezifische Texte– etwa: naturwissenschaftliche Texte mit i.d.R. straffer und

anerkannter Strukturierung (hieran orientiert sich die deutsche Norm DIN 1463)

– etwa: geisteswissenschaftliche Texte mit i.d.R. eher loser Strukturierung, wobei die Struktur allgemein kaum vorgegeben ist

• Abstracts sind abhängig vom Texttyp der Vorlage und (bei erklärenden Texten) von der Fachdisziplin

Page 353: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 353

Abstracts

• disziplinspezifisches Abstracting. Beispiel• bei technischen Dokumenten (etwa Patenten oder

Gebrauchsmustern): zusätzlich zentral wichtige Zeichnung

Page 354: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 354

Abstracts

• Indikatives Kurzreferat / Abstract

Inhaltsanalyse

referierwürdiges Dokument

referierwürdige Inhalts-komponenten- Themen (weiße Kästen)- Aussagen zu den Themen

(schraffierte Kästen)

Indikatives Abstract:Wiedergabe der Themen in vollständigen Sätzen

Page 355: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 355

Abstracts

• Indikatives Kurzreferat / Abstract - Beispiel

• Russ, Hans: Einzelhandel (Ost): Optimistische Geschäftserwartungen

• Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3• Abstract: Die Geschäftslage des ostdeutschen Einzelhandels im

Januar 1993 wird beschrieben. Skizziert wird der in den nächstensechs Monaten zu erwartende Geschäftsverlauf. Im einzelnen geht es um den Gebrauchsgüterbereich und den Verbrauchs-güterbereich.

Page 356: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 356

Abstracts

• Informatives Kurzreferat / AbstractInhaltsanalyse

referierwürdiges Dokument

referierwürdige Inhalts-komponenten- Themen (weiße Kästen)- Aussagen zu den Themen

(schraffierte Kästen)

Informatives Abstract:Wiedergabe der Aussagen zu den Themenin vollständigen Sätzen

Page 357: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 357

Abstracts

• Informatives Kurzreferat / Abstract – Beispiel

• Russ, Hans: Einzelhandel (Ost): Optimistische Geschäftserwartungen

• Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3• Abstract: Die Geschäftslage des ostdeutschen Einzelhandels hat

sich im Januar 1993 im Vergleich zum Vormonat deutlich verschlechtert. Hinsichtlich des in den nächsten sechs Monaten zu erwartenden Geschäftsverlaufs äußerten sich die Teilnehmer am ifo Konjunkturtest allerdings zuversichtlich. Im Gebrauchs-güterbereich ist die Geschäftslage im Durchschnitt zufrieden-stellend; im Verbrauchsgüterbereich überwiegen negative Urteile.

Page 358: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 358

Abstracts

• Analytisches Kurzreferat / Abstract (Strukturreferat)Inhaltsanalyse

referierwürdiges Dokument

referierwürdige Inhalts-komponenten- Themen (weiße Kästen)- Aussagen zu den Themen

(schraffierte Kästen)

Analytisches Abstract:Wiedergabe der Themen sowie der Aussagen zu den Themenin tabellarischer Form

Page 359: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 359

Abstracts

• Analytisches Kurzreferat / Abstract – Beispiel

• Russ, Hans: Einzelhandel (Ost): Optimistische Geschäftserwartungen

• Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3• Inhalt:• Gegenstand: Ostdeutscher Einzelhandel im Januar 1993• Methode: ifo Konjunkturtest• Ergebnisse:• --- Geschäftslage: merklich verschlechtert gegenüber Vormonat• --- Erwartungen: zuversichtlich (für die nächsten 6 Monate)• --- Gebrauchsgüter: schwache Umsatzeinbußen, zufriedenstellend• --- Verbrauchsgüter: starke Umsatzeinbußen, 1/3 aller

Testteilnehmer äußern sich unzufrieden

Page 360: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 360

Abstracts

• Kurzreferat / Abstract - Vor- und Nachteile

Vorteile Nachteile

indikativ kostengünstig informationsarmunübersichtlich

informativ informationsreich bei langen Vorlagen kaumdurchzuführenunübersichtlichteuer

analytisch informationsreich sehr teuerstrukturiert nicht für jede Art von

Vorlagen geeignet

Page 361: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 361

Abstracts

• Sammelreferat– Auswahl eines aktuellen („heißen“) Themas – Zusammenstellung der Menge einschlägiger Dokumente– Abstractingprozess wie bei Einzelabstract; jeweils

jedoch bezug auf die Einzeldokumente nehmen (etwa durch End- oder Fußnoten)

– außer Abstracting auch redaktionelle Arbeiten– Länge: 1 bis 3 Seiten– in den Endnoten oder in einer Bibliographie die

bibliographischen Angaben der Dokumente nennen (ggf. dahin verlinken)

– Einsatzgebiet: thematischer Pushdienst

Page 362: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 362

Abstracts

• Sammelreferat – Beispiel: KnowledgeSummaries

Willi Bredemeier: Knowledge Summaries. Journalistische Professionalität mit Verbesserungsmöglichkeiten beiThemenfindung und Quellenauswahl. – In: Password Nr. 3 (2004), 10-15.

Page 363: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 363

Abstracts

• Sammelreferat – Beispiel: KnowledgeSummaries

Page 364: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 364

Abstracts

• Automatisches Abstracting– Bemühungen seit Jahrzehnten; jedoch bisher in der Praxis wenig

erfolgreich; nur experimentelle Systeme– Basismethode: Extraktion der „wichtigen“ Sätze aus einem Text

anhand von Wahrscheinlichkeitswerten (P) für „Wichtigkeit“• (1) Satzlänge (Mindestlänge: etwa 5 Worte):

P(1) = 0 für Sätze mit weniger als 5 Worten); P(1) = 1 für alle anderen Sätze

• (2) Indikatorphrasen (Sätze, die gewisse Phrasen – z.B. „in conclusion“ – enthalten, werden hoch bewertet): P(2) für Sätze mit Indikatorphrasen > P(2) für Sätze ohne Indikatorphrasen

Brigitte Endres-Niggemeyer: Textzusammenfassung. – In: Computerlinguistik und Sprachtechnologie. Eine Einführung. – München: Elsevier – Spektrum 22004, 511-516.

Page 365: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 365

Abstracts

• Automatisches Abstracting• (3) Absatzstruktur (Sätze in den vorderen und hinteren Ansätzen

werden höher bewertet als solche in mittleren Absätzen): P(3) für Sätze in den ersten n Absätzen bzw. in den letzten m Absätzen > P(3) für alle anderen Sätze

• (4) Sätze ranken nach Termgewichten (für alle Terme WDF und IDFberechnen – Termgewichte jedes Satzes addieren): P(4) = Summe der Termgewichte im Satz

• (5) ggf. Sätze, in denen Akronyme vorkommen (z.B. IBM, SPD), höher bewerten: P(5) für Sätze mit einem Akronym > P(5) für Sätze ohne Akronyme

• Errechnung der Wichtigkeitswahrscheinlichkeit für jeden Satz: P(Satz) = P(1) * P(2) * P(3) * P(4) * P(5)

Page 366: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 366

Abstracts

• Automatisches Abstracting• Sortierung der Sätze nach P(Satz)• Auszählen der Länge (Anzahl der Zeichen) für jeden Satz• Vergleich mit Schwellenwert (maximale Länge des Abstracts)• Markieren der ersten n Sätze, deren Gesamtzeichenanzahl unter der

maximalen Abstractlänge liegt• Herstellen der ursprünglichen Reihenfolge für diese n Sätze• diese n Sätze bilden das Abstract

– verfeinerte Methoden• Vergleiche mit „Trainingsdaten“ (Abstracts professioneller –

menschlicher – Abstracter sowie ihrer Ausgangstexte)• Kürzen von Sätzen• Zusammenfassen mehrerer Sätze

Page 367: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 367

Abstracts

• Abstracts. Fazit– Referate ergänzen den Titel einer DE und ermöglichen dem

Nutzer zu entscheiden, ob die DBE benötigt wird (auch bei fremdsprachlicher Literatur: Übersetzung!)

– außer bei sehr kurzen Dokumenten (z.B. Kurzmeldungen bei Zeitungsartikeln) benötigt jede DE ein Abstract

– die Informationsverdichtung geschieht so knapp, aber auch so aussagekräftig wie möglich, die Makrostruktur der Vorlage bleibt(nahezu) erhalten (homomorphe Reduktion)

– Referate sind abhängig vom Texttyp und vom Fach der DBE– Typen der Informationsverdichtung des Inhalts eines Dokuments

sind das indikative, informative (Standard) und das analytische Abstract

– technische Dokumente benötigen u.U. eine Zeichnung zur Unterstützung des Abstracts

– Informationsverdichtung mehrerer Dokumente geschieht über Sammelreferate, eingesetzt als thematischer Pushdienst

Page 368: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 368

Abstracts

• Abstracts. Fazit– automatisches Abstracting: Berechnung der „Wichtigkeit“ von

Sätzen innerhalb eines Dokuments (derzeit wenig ausgereifte Systeme)

Page 369: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 369

Informationsextraktion

Page 370: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 370

Informationsextraktion

• Informationsextraktion– bei der Suche nach oder der laufenden Beobachtung von

konkreten Sachverhalten im WWW– nicht: Angabe einer Webseite– sondern: Angabe des Sachverhalts (und nur diesen) -

analog zu den analytischen Kurzreferaten– die Sachverhalte werden den Webseiten entnommen (aus

diesen „extrahiert“)– derzeitige Einsatzgebiete: vergleichende Informationen

aus Webseiten bei Spezialsuchmaschinen oder Shopping Malls (z.B. Preisvergleiche); Informationsagenten

Günter Neumann: Informationsextraktion. – In: Computerlinguistik und Sprachtechnologie. Eine Einführung. – München: Elsevier – Spektrum 22004, 502-510.

Page 371: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 371

Informationsextraktion

• Informationsextraktion– vorgegeben: Menge von Objekten bzw. Merkmalen, die einen

Sachverhalt bilden (z.B. Produktbezeichnung und Preis, Autor undBuch)

– Extraktionsprozess: Wrapper („Einpacker“)• Startmenge: „typische“ Webseiten für die gesuchte Relation (bei Brin: 5

Bücher mit deren Autorennamen)• Retrieval: Suche nach Webseiten, in denen die gesuchte Relation

vorkommt (also die 5 Bücher und Autorennamen)• Erkennen der Muster des Ausdrucks des Sachverhaltes (der „patterns“)

– Worte, die den Zusammenhang ausdrücken – z.B. „by author“, „written by“

• Suche nach allen Webseiten, die einen solchen Sachverhalt ausdrücken

– Ergebnis: konkrete Werte der Merkmale (z.B. Karl May - Winnetou)Sergey Brin: Extracting patterns and relations from the World Wide Web. – In: Lecture Notes in Computer Science,

Vol. 1590. – Berlin [u.a.]: Springer, 1998, 172-183.

Page 372: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 372

Informationsextraktion

hier: bis Rang 80Meldung /data sheet oder Katalog

hier: ab Rang 81automatisch

(Informationsextraktion)

Page 373: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 373

Informationsextraktion

Page 374: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 374

Informationsextraktion

• Informationsextraktion– Ansätze:– (1) „Knowledge Engineering Approach“

die Sachverhalte sowie die Muster (patterns) werden intellektuell erstellt

– (2) „Automatically Trainable Systems“Suche nach Sachverhalten und Mustern mittels informationsstatistischer und –linguistischer Algorithmen (z.T. Verwendung von Trainingsdaten –etwa indexierte Korpora)

– Weiterentwicklung der Forschungen zur Informations-extraktion durch MUC („Message Unterstanding Conferences“ – seit 1987)

Douglas E. Appelt; David J. Israel: Introduction to Information Extraction Technology. – In: International JointConference on Artificial Intelligence 1999 (IJCAI-99).

Line Eikvil: Information Extraction from World Wide Web. A Survey. – Oslo: Norwegian Computing Center,1999. – (Technical Report; 945).

Page 375: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 375

Informationsextraktion

• Informationsextraktion– Einsatz beim konkreten Informationsbedarf (Faktenfrage)

• Kennzeichnung des Typs des Informationsbedarfs durch Nutzer

• Beschreibung des gesuchten Sachverhalt (etwa 1. „Wie heißt die Hauptstadt von NRW?“ 2. „Wie heißen die Hauptstädte aller 25 EU-Länder?“

• automatisches Vorgehen nach Ansatz (2) „Automatically Trainable Systems“ – ggf. Dialog zur Abklärung der Mustererkennung

• Aufsuchen der Webseiten – Informationsextraktion• Ausgabe nur des nachgefragten Sachverhalts

zu Frage 1: Hauptstadt NRW : Düsseldorf (URL: ...) zu Frage 2: Hauptstadt Belgien : Brüssel (URL: ...)

Hauptstadt Dänemark : Kopenhagen ... Hauptstadt Zypern : Nikosia (URL: ...)

Page 376: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 376

Informationsextraktion

• Informationsagenten– laufende Beobachtung von Sachverhalten (Fakten) im

WWW

– periodischer Einsatz der Informationsextraktion („SDI für Fakten“)

– Einsatzgebiet (Beispiel):

• Wettbewerberbeobachtung (Personen im Management, Preisänderungen, Umsatzzahlen, ...)

Nicholas Kushmerick; Bernd Thomas: Adaptive Information Extraction. Core Technologies for Information Agents. –Koblenz: Universität Koblenz-Landau / Institut für Informatik, 2003. – (Fachberichte Informatik 9/2003).

Page 377: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 377

Informationsextraktion

• Informationsextraktion. Fazit– Informationsextraktion: Erkennen einzelner Sachverhalte,

Extrahieren konkreter Sachverhalte aus digitalen Dokumenten• Einsatz innerhalb spezifischer Wissensbereiche (z.B.

Produkte) – recht ausgereifte Systeme (z.B. Froogle)• Einsatz im WWW allgemein (beim konkreten

Informationsbedarf) – derzeit Ansätze, keine laufenden Systeme)

– Informationsagenten: SDI für Sachverhalte

Page 378: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 378

Das „semantische Web“:Ontologien – Topic Maps

Page 379: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 379

Semantisches Web

Grundlegende Literatur• Dieter Fensel et al. (Eds.): Spinning the Semantic Web. –

Cambridge, Mass.; London: MIT, 2003.• Richard Widhalm; Thomas Mück: Topic Maps. Semantische

Suche im Internet. – Berlin [u.a.]: Springer, 2002.• Tim Berners-Lee: Semantic Web – XML 2000. (Folien).

Online: www.w3.org/2000/Talks/1206-xml/2k-tbl

Page 380: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 380

Semantisches Web

• Ontologien– bilden ab: Objekte (durch Begriffe) – analog zu

Dokumentationssprachen und– (zumindest rudimentär) Sachverhalte (durch Sätze in

einer formalisierten Sprache) – analog zu Abstracts– Die „Ontologie“ ist die explizite Spezifizierung eines

(i.d.R. sehr kleinen) Wissensbereiches, so dass dieser in einem Informationssystem abgebildet werden kann.

– Aspekte• Relationen (2-stellig)• Funktionen (n-stellige Relationen)• Feldschema (Kategorien – Top Level Begriffe)• Klassen (Allgemeinbegriffe)• Instanzen (Individualbegriffe)• Axiome (Regeln)

Page 381: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 381

Semantisches Web

• Ontologien– Ursprung: Forschungen zur Künstlichen Intelligenz (u.a.

von Tom R. Gruber – Stanford Knowledge Systems Lab)– da Ontologien jeweils einen engen

Wissensbereich repräsentieren, sind Konkordanzen zwischen unterschied-lichen Ontologien nötig

– Realisierung in XML– RDF: Resource Description Framework– innerhalb RDF: URI (Universal Resource

Identifier) – benutzt wie eine URL bei Links (enthält die Relationen bzw. Funktionen zwischen den Klassen bzw. Instanzen)

Tom R. Gruber: A translation approach to portable ontologies. – In: Knowledge Acquisition 5 (1993), 199-220.

Page 382: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 382

Semantisches Web

• Ontologien

DasWorld Wide

Web inheutiger

Form

Quelle:W3C

Page 383: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 383

Semantisches Web

• Ontologien

DasWorld Wide

Webmit

Ontologie

Quelle:W3C

Page 384: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 384

Semantisches Web

• Ontologien– Schichten-

modell von Berners-Lee

Tim Berners-Lee: Semantic Web – XML 2000. (Folien). Online: www.w3.org/2000/Talks/1206-xml/2k-tbl

Page 385: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 385

Semantisches Web

• Ontologien– Abfrageagenten

• übersetzen die Frage des Nutzers• kommunizieren via Ontologien mit Informations-

systemen• geben bei (einfachen) Faktenfragen eine Antwort• bereiten Transaktionen vor• können sich auch auf (intelligente) Geräte richten

– Beispiel 1: Gerätesteuerung• Stereoanlage läuft – Telefon klingelt: wenn Nutzer ans

Telefon geht, schaltet sich die Stereoanlage leiser (Vor.: Stereoanlage ist URI; Regel: Wenn Telefongespräch, dann Anlage leise)

Page 386: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 386

Semantisches Web

• Ontologien– Beispiel 2: Faktenfrage

• Anfrage: „Welche Arznei hilft gegen Vampirbisse?“• Klassen: in Kategorie Arznei: Arznei, Vampirbissarznei• ... in Kategorie Krankheit: Vampirbiss• ... in Kategorie Nebenwirkungen: Unsterblichkeit• Instanz: Dracuex • Funktion: ... hilft gegen ... mit Nebenwirkung ... - 3-stellige

Relation• Axiom: [Arznei] hilft gegen [Krankheit] mit Nebenwirkung

[Nebenwirkung] • Relation: Vampirbissarznei OB Arznei• Relationen: ... ist ein/e ...; ... hat Nebenwirkung ...• Axiom: Dracuex ist eine Vampirbissarznei• Axiom: Dracuex hat Nebenwirkung Unsterblichkeit• Ausgabe: Dracuex hilft gegen Vampirbisse mit

Nebenwirkung Unsterblichkeit

Page 387: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 387

Semantisches Web

• Ontologien– Beispiel 3: Transaktionsvorbereitung

• Anfrage: Wo ist das nächstgelegene koreanische Restaurant, das gebratenen Hund führt und in einer halben Stunde für zwei Personen einen Tisch frei hat?

– Einsatzbereiche von Ontologien• Intranet von Unternehmen• Kataloge im E-Commerce• Informationssysteme in (überschaubaren)

Wissensbereichen

Page 388: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 388

Semantisches Web

• Topic Maps– Begriffe und (rudimentär) Sachverhalte

(wie bei Ontologien)– Topic Maps sind eigene Dokumente, die

auf andere Dokumente verweisen (letztere

haben mit den Topic Maps nichts zu tun)

– aufgebaut seit Beginn der 90er Jahre; federführend u.a. Steven R. Newcomb und Michel Biezunski

Michel Biezunski

– geregelt durch ISO 13.250 (1999)– Basistechnik: XML (wichtig: DTD)– unter Verwendung von: URI– Einsatzbereiche:

• Aufbaustruktur einer Website• Zugriff auf Dokumentmengen mittels

unterschiedlicher Topic Maps

Steve Newcomb

Page 389: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 389

Semantisches Web

• Topic Maps– Topic: Begriff– Topic Name: ähnlich wie Deskriptor im Thesaurus (mit

Nicht-Deskriptoren als Synonymen)– Scope: Lösung des Homonymproblems (durch Zusatz)– Type: Einordnung eines Topic in eine Kategorie („vom

Typ“)– Association Role: (n-stellige) Relation– Facet: Aussage zu einem Topic– Occurrence: Dokument (u.a. Webseite) – liegt außerhalb

des Topic Map

Page 390: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 390

Semantisches Web

• Topic Map (Beispiel)

„D-Mark“„Deutsche Mark“

Deutschland

Occurrence

TopicMark

warWährung inRole

Frankreich

Land

vom Typvom Typ

Type

Paris

ist Haupt-Stadt von

GeographieScope

hat10 Mio.

EinwohnerFacet

grenzt an

Page 391: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 391

Semantisches Web

• Topic Maps

• Website mit Topic Map

Michel Biezunski; Steven R. Newcomb: Topic Maps: The Inventor‘s Perspective on Subject-based Access.(Vortrag bei der Library of Congress, Okt. 2003).

Online: www.coolheads.com/PUBS/LC2003/

Page 392: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 392

Semantisches Web

• Informationsverdichtung durch Ontologien oder Topic Maps– Vorteile

• nicht nur Begriffssysteme, sondern (zumindest rudimentär) Sachverhalte

• „semantisches Retrieval“• zur Wissensabbildung in kleinen (überschaubaren)

Wissensdomänen geeignet– Nachteile

• der Wissensstand einer Zeit wird festgeschrieben (zwar nicht prinzipiell, aber faktisch wegen riesigem Aufwand, das semantische Netz aktuell zu halten)

• sehr aufwendig in der Entwicklung

Page 393: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 393

Informationsfilter und Informationsverdichter im Überblick

Page 394: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 394

Informationsfilter und –verdichter im Überblick

Informationsfilter

Thematische Filter Nicht-thematische Filter

Textsprachl. Methoden Dokumentationsmethoden

Volltext (ASCII)

Textwortmethode

Zitationsindexierung

Titelindexierung

Thesaurus

KlassifikationZielgruppe

Themen-behandlung

Schlagwortmethode

Page 395: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 395

Informationsfilter und –verdichter im Überblick

Informationsverdichter

Referate semantisches Web

Sammelreferat

Kurzreferat

analytisch

indikativOntologie

Topic Mapinformativ

Informations-extraktion

Informations-agent

Page 396: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 396

Informationsfilter und –verdichter im Überblick

Informationsarchitektur• Aufbau eines unternehmensweiten Informationssystems• Zusammenwirken von (Wirtschafts-)Informatik (Hardware,

Software, Netze), Betriebswirtschaftslehre (Management, Organisation) und Informationswissenschaft (Content, Informationsfilter, Informationsverdichter)

• Sicherstellen der Interoperabilität (etwa mittels XML)• Metadaten (Aufbau von Regelwerken für Dokumentauswertung)• Informationsfilter (Aufbau einer oder mehrerer Begriffsordnungen)• Informationsverdichtung (Aufbau von Regelwerken für Abstracting)• Nutzerschnittstellen• Organisation des laufenden Betriebs

Alan Gilchrist; Barry Mahon (Eds.): Information Architecture. Designing Information Environments forPurpose. – London: Facet Publ., 2004.

Page 397: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 397

Informationsfilter und –verdichter im Überblick

Informationsarchitektur – strategisches Management der Informationsfilter und -verdichter

• Aufbau des/der grundlegenden Informationsfilter/s• Grundsatzentscheidung: Welche Methoden einsetzen?• Kandidaten:

– Klassifikation– Schlagwortmethode– Thesaurus– Textwortmethode– Zitationsindexierung– Ontologie / Topic Map

• stets zusätzlich: Informationsverdichtung durch Abstracting

Page 398: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 398

Informationsfilter und –verdichter im Überblick

Informationsarchitektur – strategisches Management der Informationsfilter und -verdichter

• Festlegen von dokumentarischer/n Bezugseinheit/en und Dokumentationswürdigkeit

• Variante 1: ein Kriterienpaket für alle Dokumente, stets gleichbleibende DBE

• Variante 2: mehrere Kriterienpakete, abhängig von der Relevanz der Dokumente für die Datenbank („Schalenmodell“ von Krause)

– Kern (hochrelevante Dokumente): tiefe und qualitativ hochwertigeErschließung; Abstracts

– Schale 1 (weniger relevante Dokumente): nur Erschließung (mit Thesaurus, Klassifikation, Schlagwortmethode), keine Abstracts

– ...– Schale n (noch weniger relevante Dokumente): nur automatische

TitelindexierungJürgen Krause: Informationserschließung und –bereitstellung zwischen Deregulierung, Kommerzialisierung und

weltweiter Vernutzung – Schalenmodell. – Bonn: IZ Sozialwissenschaften, 1996. – (IZ-Arbeitsbericht; 6).

Page 399: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 399

Informationsfilter und –verdichter im Überblick

Page 400: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 400

Informationsfilter und –verdichter im Überblick

Informationsarchitektur – strategisches Management der Informationsfilter und –verdichter

• Dokumentationseinheiten selbst erstellen und/oder zukaufen?

• soweit externe Dokumentationseinheiten vorhanden sind: kaufen!

• mittels unternehmensinternen Indexierungsmethoden und Hilfsmitteln neu indexieren (möglichst vollautomatisch)

• interne Dokumente können nur selbst bearbeitet werden

Page 401: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 401

Informationsfilter und –verdichter im Überblick

Quelle:Factiva

externe Dokumentationseinheiten:

zukaufen! neu indexieren!

interne Dokumente:

selbst indexieren!

Page 402: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 402

Informationsfilter und –verdichter im Überblick

Informationsarchitektur – Organisation des laufenden Betriebs

• Input: Wer erstellt die Dokumentationseinheiten?• Variante 1: intellektuell

– zuerst: Verfasser der dokumentarischen Bezugseinheiten (Abstracts, Deskriptoren/Notationen/Schlagworte)

– dann: Korrekturen / Ergänzungen durch Informations-wissenschaftler

• Variante 2: automatisch– Verfasser stellen die Dokumente in das Informations-

system (Abstracts möglichst intellektuell erstellen!)– Indexieren erfolgt durch Software (etwa FAST, Convera

oder Verity)• Variante 3: semiautomatisch

Page 403: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 403

Informationsfilter und –verdichter im Überblick

Informationsarchitektur – Organisation des laufenden Betriebs

• Datenbank: Wer pflegt die Datenbank und die Informations-filter?– technisch: Netzwerkadministration– Content: Content-Administration (Informationswissen-

schaftler)• Output: Wer recherchiert?

– einfache Anfragen; Bearbeiten der SDI: Endnutzer– komplizierte Anfragen; Anlegen der SDI: Content-

Administration– weitere Dienste (z.B. Mitarbeiterzeitschrift, nicht georderte

Pushdienste): Content-Administration

Page 404: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 404

Informationsfilter und –verdichter im Überblick

Informationsarchitektur – Organisation des laufenden Betriebs

• Aufbau der grundlegenden Informationskompetenz beim Endnutzer– Einführung in die Systemtechnik (Softwareschulung)– Einführung in die Informationsfilter (zum Selbstindexieren

und zum Recherchieren)– Einführung in die Informationsverdichtung (zum

Verfassen der Abstracts)– laufende Betreuung („Coaching“) der Nutzer

• Wie?– Seminare (werden nicht immer besucht, da die laufende

Arbeit Vorrang hat)– „Lunch-time Kurse“ (Nutzung der Mittagspausen)

Page 405: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 405

Informationsfilter und –verdichter im Überblick

Informationsfilter und –verdichter hinsichtlich Präkombinationsgrad der Begriffe

Prä- Prä- Post-kombination koordination koordination

Klassifikation ++ + 0Schlagwortmethode 0 + ++Thesaurus 0 + ++Textwortmethode 0 ++ 0Zitationsindexierung 0 0 +Abstracts 0 0 0Ontologie / Topic Map ++ ++ +

Page 406: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 406

Informationsfilter und –verdichter im Überblick

Informationsfilter und –verdichter hinsichtlich Suchen und Stöbern („Browsen“)

Suchen StöbernKlassifikation + ++Schlagwortmethode + 0Thesaurus ++ ++*Textwortmethode +** +***Zitationsindexierung + 0Abstracts 0 0Ontologie / Topic Map ++ ++

* : nur bei graphischer Aufbereitung** : Probleme wg. Vielfalt der Textworte und deren Sprachen*** : nur bei informetrischer Aufbereitung

Page 407: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 407

Informationsfilter und –verdichter im Überblick

Informationsfilter und –verdichter hinsichtlich Sprach-einsatz

kontroll. Notations- natürliche Vokabular* sprache Sprache**

Klassifikation 0 + 0Schlagwortmethode + 0 0Thesaurus + 0 0Textwortmethode 0 0 +Zitationsindexierung 0 0 +***Abstracts 0 0 +Ontologie / Topic Map + 0 0

* : Vokabular einer natürlichen Sprache** : ohne jede terminologische Kontrolle *** : Zitation als Teil natürlicher Sprache

Page 408: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 408

Informationsfilter und –verdichter im Überblick

Informationsfilter und –verdichter in einem multinationalen (mehrsprachigen) Unternehmen

mehrsprachig einsetzbar?Klassifikation ++Schlagwortmethode +*Thesaurus ++**Textwortmethode 0Zitationsindexierung ++Abstracts +*Ontologie / Topic Map +**

* : Zugriff nur über genau eine Sprache** : nur wenn multilingual, ansonsten Zugriff nur über genau eine

Sprache

Page 409: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 409

Informationsfilter und –verdichter im Überblick

Informationsfilter und –verdichter hinsichtlich paradigmatischer und syntagmatischer Relationen

paradigm. syntagmatischeRelation Relation

Klassifikation + +Schlagwortmethode 0 +Thesaurus + +Textwortmethode 0 +Zitationsindexierung 0 +Abstracts 0 +*Ontologie / Topic Map + 0

* : nur beim Einsatz von Text Mining

Page 410: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 410

Informationsfilter und –verdichter im Überblick

Informationsfilter und –verdichter hinsichtlich Änderbarkeit (neue Begriffe aufnehmen, alte ändern)

keinerlei Änderung ÄnderungAufwand „unten“ in Struktur

Klassifikation 0 + 0 (aufwendig)Schlagwortmethode + (nur Aufwand für Abstimmung)Thesaurus 0 + +Textwortmethode +Zitationsindexierung + (da keine Ordnung vorhanden)Abstracts + (da keine Ordnung vorhanden)Ontologie / Topic Map 0 + +

Page 411: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 411

Informationsfilter und –verdichter im Überblick

Fazit– Die Informationsarchitektur liegt im Bereich des strategischen

Management und definiert die Grundlagen der Informations-versorgung eines Unternehmens.

• Grundsatzentscheidung: Welche(r) Informationsfilter? • u.U. Schalenmodell realisieren• Entscheidung, welche Informationen gekauft und welche selbst

erstellt werden• Organisation des laufenden Betriebs

– Klärung der Anforderungen an die Informationsarchitektur (etwa: Ausbaufähigkeit der Begriffsordnung; Darstellbarkeit syntagmatischer Relationen) hinsichtlich der Informationsfilter und der Methoden zur Informationsverdichtung

Page 412: Wolfgang G. Stock - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/06390.pdf · • DDC (Dewey Decimal Classification) – 1876 • Melvil (Melville Louis Kossuth) Dewey (1851

HHU Düsseldorf – SS 2005 Wissensrepräsentation 412

Wissensrepräsentation

... das war‘s

Lehr-/Lernziele: Hörer/innen haben eine solide Basis in theoretischen Ansätzen sowie Methoden der Wissensrepräsentation und wissen, diese Methoden in der Praxis einzusetzen

Top Related

BM13: Dewey

EIN SEMANTISCHES NETZ FÜR DIE SUCHE MIT DER DEWEY ...eprints.rclis.org/16249/1/beitrag_effenberger_ddc-versionierung.pdf · das Projekt DDC Deutsch [DDCDeutsch] durchgeführt, bei

Andreas Antic Lippmann, Dewey und die digitale Vernetzung ..._Dewey... · Lippmann, Dewey und die digitale Vernetzung der Öffentlichkeit r. Einleitung Wie jede historische Erfindung

John Dewey: Der Begriff des Experience · Mead als Hauptvertreter des amerikanischen Pragmatismus. Für Dewey steht ... James formte diese Logik der Hypothesenbildung in eine Theorie

Vorwort · John Dewey (1859 bis 1952) wird häufig als Vater der Projektmethode bezeichnet. Obwohl er nicht der Erfinder dieser Idee ist, fundieren seine Theorien der Erziehung auch

Gunar Musik PRAGMATISCHE ÄSTHETIK - JOHN DEWEY ... - zkm.de · PRAGMATISCHE ÄSTHETIK - JOHN DEWEY: KUNST ALS ERFAHRUNG John Dewey (1859 - 1952) wurde vor allem als pragmatischer

Inhaltsverzeichnis · Einen vertiefenden Blick auf John Dewey und den Pragmatismus wirft Daniela Dietrich im zweiten Beitrag dieses Buches. Dabei geht sie zunächst auf einige wichtige

12 Partizipation 19 22 2016 November 26 32€¦ · John Dewey (1859–1952) Wenn man von Partizipation in der Schule spricht, kommt man kaum um den Namen des amerikanischen Phi-losophen