HHU Düsseldorf – SS 2005 Wissensrepräsentation 1
Heinrich-Heine-Universität Düsseldorf - Informationswissenschaft
Wissensrepräsentation
Wolfgang G. Stock
HHU Düsseldorf – SS 2005 Wissensrepräsentation 2
Wissensrepräsentation
Wissensrepräsentation – Was ist das?
Wissen – Informationsinhalt – „Content“
Erschließen von Wissen
Erschließen von Dokumentengenauer: Erschließen des Inhalts von Dokumenten
HHU Düsseldorf – SS 2005 Wissensrepräsentation 3
Wissensrepräsentation
ASPEKT 1Aufbau von Werkzeugen
derWissensrepräsentation
z.B.Aufbau eines Klassifikations-
systemsThesaurusaufbau
Regelwerk für Abstracting
ASPEKT 2Inhaltserschließung
konkreterDokumente
z.B.Klassieren eines Buches nach dem
KlassifikationssystemIndexieren nach dem Thesaurus
Verfassen eines Abstracts
HHU Düsseldorf – SS 2005 Wissensrepräsentation 4
Wissensrepräsentation
• „Wissensrepräsentation“ : Abbildung von Wissen („Content“) vor allem in digitalen Systemen; Erschließung des Informationsinhalts
• Ziel: Wissen bei Bedarf (möglichst) exakt zu finden und in die aktuellen Arbeitsläufe einzubinden
• hierbei benötigt: – METHODEN der Wissensrepräsentation (wie Thesaurus,
Klassifikation usw.)– und konkrete WERKZEUGE (etwa den Standard-
Thesaurus Wirtschaft oder die IPC)– praktische Tätigkeit: INDEXIEREN
HHU Düsseldorf – SS 2005 Wissensrepräsentation 5
Wissensrepräsentation
• inhaltlich erschlossene Retrievalsysteme finden Einsatz als– Suchwerkzeug für das WWW oder für einen
Ausschnitt daraus (derzeit kaum realisiert)– Suchwerkzeug bei kommerziellen Anbietern
elektronischer Informationsdienste (nahezu durchgängig realisiert)
– Suchwerkzeug bei unternehmensweiten Intranets oder „Enterprise Information Portals“ (derzeit in „Boomphase“ im Zusammenhang mit KnowledgeManagement)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 6
Wissens- repräsentation
Infor-mations-bedarf
DBE
Dok. Bezugs-
einheiten
DEDokumen-
tations-einheiten
Frage
Treffer
Information Retrieval
Information Indexing
Vergleich Vergleich der der
BegriffeBegriffe
HHU Düsseldorf – SS 2005 Wissensrepräsentation 7
Wissensrepräsentation / Themen (1)
Geschichte der Wissensrepräsentation
Begriffe und Begriffsordnungen:Gegenstände, Begriffe, Synonyme, Homonyme, Definitionen,
Begriffsordnungen, paradigmatische und syntagmatische Relationen, Mono- und Polyhierarchie, Dimensionalität,
Facetten
Dokumente und ihre Strukturierung:Dokumente: Texte und Objekte - Datenstrukturierung
(Metadaten) - Datenbankdesign - formale Erfassung, inhaltliche Erschließung
HHU Düsseldorf – SS 2005 Wissensrepräsentation 8
Wissensrepräsentation / Themen (2)
Dokumentationssprachen I: KlassifikationssystemeKlasse und Notation, Universalklassifikationen (Bsp.: Dezimalklassifika-
tion), Technikklassifikationen (Bsp.: Internationale Patentklassifikation), Wirtschaftsklassifikationen (Bsp.: Branchen- und
Produktklassifikationen), Klassifikationen im WWW (Bsp.: Yahoo!), Medizinklassifikation (Bsp.: ICD-10)
Dokumentationssprachen II: Schlagwortmethode
Dokumentationssprachen III: ThesauriThesauruserstellung nach DIN 1463, Deskriptoren und Relationen,
multilinguale Thesauri, gleichordnendes Indexieren, syntaktisches Indexieren, „höhere“ Thesaurusformen
Bsp.: Standard-Thesaurus Wirtschaft, Thesaurus Technik und Management, EXPO-INFO 2000
HHU Düsseldorf – SS 2005 Wissensrepräsentation 9
Wissensrepräsentation / Themen (3)
Textsprachliche Methoden:Volltextspeicherung, Titelindexierung,
Textwortmethode, Bsp.: Datenbank zur österreichischen Philosophie,Zitationsindexierung, Bsp.: Web of Science (ISI)
Nicht-thematische Informationsfilter:Zielgruppe, Art der Themenbehandlung, Verfallsdatum
Automatische Indexierung:Klassifikation nach Ähnlichkeit – zuteilende Indexierung bei Einsatz einer
Dokumentationsmethode
HHU Düsseldorf – SS 2005 Wissensrepräsentation 10
Wissensrepräsentation / Themen (4)
Abstracts:Inhaltsangaben nach DIN 1426, indikative, informative, analytische
Abstracts, Sammelreferate, automatisches Abstracting
Informationsextraktion:Extraktionsmethoden, Informationsagenten
Das semantische Web:Ontologien, Topic Maps
Informationsfilter und –verdichter im Überblick:Informationsarchitektur, Zusammenfassung der Methoden der
Wissensrepräsentation
HHU Düsseldorf – SS 2005 Wissensrepräsentation 11
Wissensrepräsentation - Basisliteratur
• Rainer Kuhlen, Thomas Seeger, Dietmar Strauch (Hrsg.): Grundlagen der praktischen Information und Dokumentation. – München: Saur, 52004.
• Donald B. Cleveland; Ana D.Cleveland: Introduction to Indexing and Abstracting. – Englewood, NJ: Libraries Unlimited, 1990.
• Heting Chu: Information Representation and Retrieval in the Digital Age. –Medford, NJ: Information Today, 2003. – (Chap. 1 – 4).
• Robert Fugmann: Inhaltserschließung durch Indexieren: Prinzipien und Praxis. – Frankfurt: DGD, 1999.
• Wilhelm Gaus: Dokumentations- und Ordnungslehre. – Berlin: Springer, 2002.
• Christa Ladewig: Grundlagen der inhaltlichen Erschließung. – Potsdam: Institut für Information und Dokumentation, 1997.
• F. Wilfrid Lancaster: Indexing and Abstracting in Theory and Practice. –Champaigne, IL.: Graduate School of Library and Information Science, 21998.
• Wolfgang G. Stock: Informationswirtschaft. Management externen Wissens. - München; Wien: Oldenbourg, 2000. – (Kapitel 3).
Geschichte der Wissensrepräsentation
HHU Düsseldorf – SS 2005 Wissensrepräsentation 13
Geschichte der Wissensrepräsentation
• Aufstellordnungen in Bibliotheken (ab Antike)• Abstracts (19. Jahrhundert)• Wortschätze (19. Jahrhundert)• Klassifikationssysteme (19. Jahrhundert)• Thesauri (ca. 1950)• Zitationsindexierung (ca. 1960)• Textwortmethode (ca. 1970)• automatische Indexierung mit kontrolliertem Vokabular (ca.
1990)• Topic Maps und Ontologien (ca. 1990)• semantisches Web (ca. 2010 – wenn überhaupt)
Evgenij I. Samurin: Geschichte der bibliothekarisch-bibliographischen Klassifikation. – Pullach: Verl. Dokumentation, 1967 (Bd. 1), 1968 (Bd. 2).
Ingetraut Dahlberg: Grundlagen universaler Wissensordnung. – Pullach: Verl. Dokumentation, 1974.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 14
Geschichte der Wissensrepräsentation
• „Pinakes“ des Kallimachos von Kyrene (ca. 310 – 240 v.Chr.)
• systematischer Katalog der Bibliothek von Alexandria
• Systematik für rund 120.000 Schriftrollen• Hauptklassen:
– Rhetorik– Recht– Epik– Tragödie– Komödie– Lyrik– Geschichte– Medizin– Mathematik– Naturwissenschaft– Verschiedenes
Rudolf Blum: Kallimachos: The Alexandrian Library and the Origins ofBibliography. – Madison, Wisc.: Univ. of Wisconsin Press, 1991.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 15
Geschichte der Wissensrepräsentation
• Systematik der Buchaufstellung im Mittelalter:„Geheimwissenschaft“
Umberto Eco: Il nome della rosa. – Milano:Ed. Fabbri-Bompiani, 1980.
Eco‘s „Labyrinth“ in „Der Name der Rose“
HHU Düsseldorf – SS 2005 Wissensrepräsentation 16
Geschichte der Wissensrepräsentation
• „Ars Magna“ von Raimundus Lullus (ca. 1232 – 1316)• universelles Begriffssystem
auf der Basis der Kombinatorik
• konzentrische Scheiben, jeweils mit zentralen Begriffen einer Kategorie
• Scheiben können gedreht werden, so dass Kombinationen der Begriffe entstehen
Norbert Henrichs: Wissensmanagement auf Pergament und Schweinsleder. Die ars magna des Raimundus Lullus. – In: Josef Herget; Rainer Kuhlen (Hrsg.): Pragmatische Aspekte
beim Entwurf und Betrieb von Informationssystemen,Konstanz: Universitätsverl. Konstanz, 1990, S. 567-573.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 17
Geschichte der Wissensrepräsentation
• „Ars Magna“ von Raimundus Lullus (ca. 1232 – 1316)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 18
Geschichte der Wissensrepräsentation
• Frühe Zeitschriften als Medium der Wissensverdichtung
• „Journal des Scavans“: erste Zeitschrift, gegründet 1665
• Aufgabe: zunächst Überblicksartikel, da das Wissen in Büchern zu umfangreich wurde
• später: Publikation von Forschungsberichten• Aufschwung der Zeitschriftenliteratur• Folge: auch das Wissen in Zeitschriften
wurde zu umfangreich
Manfred Bonitz: Notes on the development of secondary periodicals from the „Journal des Scavans“ to the„Pharmaceutisches Central-Blatt“. – In: International Forum on Information and Documentation 2 (1977) 1, S. 26-31.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 19
Geschichte
• Gründung von Referatezeitschriften
• „Geburt“ der Abstracts als Form der Wissensverdichtung
• 1830: Pharmaceutisches Central-Blatt; später: Chemisches Zentralblatt
• 1907: Chemical Abstracts
HHU Düsseldorf – SS 2005 Wissensrepräsentation 20
Geschichte der Wissensrepräsentation
• Thesaurus of English Words and Phrases (1852)• Peter Mark Roget (1779 – 1869)• Sekretär der „Royal Society“ - London• Thesaurus kreiert: 1805; publiziert: 1852• System „of the ideas which are expressible
by language“ – rund 15.000 Worte
• Klassen:– I: Abstract Relations– II: Space– III: Matter– IV: Intellectual Faculties– V: Voluntary Powers
• Synonymwörterbuch
Werner Hüllen: A History of Roget‘s Thesaurus – Origins,Development, and Design. – Oxford: Oxford Univ. Press,
2003.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 21
Geschichte der Wissensrepräsentation
• Roget. Faksimile des ersten Eintrags (Skript zur ersten Auflage)
• „Existence“• CLASS I: WORDS EXPRESSING
ABSTRACT RELATIONS• SECTION I. EXISTENCE• 1. BEING, IN THE ABSTRACT• #1. Existence.-- N. existence, being,
entity, ens[Lat], esse[Lat],subsistence. reality, actuality; positiveness c. adj.; fact, matter of fact, soberreality; truth c. 494; actual existence. presence c. (existence in space) 186; coexistence c. 120. stubborn fact, hard fact; ...
HHU Düsseldorf – SS 2005 Wissensrepräsentation 22
Geschichte der Wissensrepräsentation
• DDC (Dewey Decimal Classification) – 1876• Melvil (Melville Louis Kossuth) Dewey
(1851 – 1931)
• 1870: Student am Amherst College• stud. Hilfskraft an der Bibliothek• 1874: Abschluss in Bibliothekswesen• Aufbau eines Klassifikationssystem für die
Bibliothek des Amherst College
Stephen Gordon; Judith Kramer-Greene: Melvil Dewey: The Man and the Classification. – Albany: Forest Press,1983.
Fremont Rider: American Library Pioneers VI: Melvil Dewey. – Chicago: American Library Association, 1972.
Sarah Vahn: Melvin Dewey: His Enduring Presence in Librarianship. – Littletown: Libraries Unlimited,1978.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 23
Geschichte der Wissensrepräsentation
• DDC (Dewey Decimal Classification) – 1876• „A Classification and Subject Index for Cataloguing and
Arranging the Books and Pamphlets of a Library“ (1876; anonym)
• 1876: Bibliothekar in Boston• 1883: Bibliothekar am
Columbia College (später: Direktor der New York State Library)
• 1890: Präsident der ALA (American Library Association)
Bibliothek des Amherst College
HHU Düsseldorf – SS 2005 Wissensrepräsentation 24
Geschichte der Wissensrepräsentation
• DDC. Grundidee: Notationen der Klassen als Dezimalzahlen– 000 Generalities– 100 Philosophy– 200 Religion– 300 Social Sciences– 400 Language– 500 Natural Sciences, Mathematics– 600 Technology (Applied Sciences)– 700 The Fine Arts– 800 Literature and Rhetoric– 900 Geography, History
• Die Grundidee erweist sich als sehr erfolgreich.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 25
Geschichte der Wissensrepräsentation
• DDC. Beispiel einer Katalogkarte• Original von Dewey• Class 207:
Religion: Study and Teaching
• Book P:Princeton
HHU Düsseldorf – SS 2005 Wissensrepräsentation 26
Geschichte der Wissensrepräsentation
• Paul Otlet (1868 - 1944 ) und Henri La Fontaine (1854 – 1943)
• (1) „Väter“ der Dokumentation• (2) Einführung der dezimalen Klassifikation in
Europa• (3) Gründung eines internationalen Verbandes für
DokumentationW. Boyd Rayward: The Universe of Information. The Work of Paul Otlet for Documentation and International
Organization. – Moscow: VINITI, 1975.Eric H.W. van Binsbergen: La philosophie de la Classification décimale universelle. – Liège: Centre de
Lecture Publique, 1994.Georges Lorphèvre: Henri LaFontaine, 1854-1943 – Paul Otlet, 1868-1944. – In: Revue de la Documentation
21 (1954) 3, 89-103.Hervé Hasquin: Henri la Fontaine – un Prix Nobel de la Paix: tracé(s) d‘une vie. – Mons: Mundaneum, 2002.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 27
Geschichte der Wissensrepräsentation
• Henri La Fontaine• geb. 1854 in Brüssel• Prof. für Internationales Recht• Mitglied des belgischen Senats• Friedensbewegung (u.a. Präsident
des „International Peace Bureau“)• 1895: Gründung des „Institut
International de Bibliographie“ (mit Otlet)
• Friedensnobelpreis 1913
HHU Düsseldorf – SS 2005 Wissensrepräsentation 28
Geschichte der Wissensrepräsentation
• Paul Otlet • geb. 1868 in Brüssel• 1895: Gründung des „Institut
International de Bibliographie“ (mit La Fontaine)
• ab 90er Jahre: Reorganisation und (französische) Übersetzung von Deweys Dezimalklassifikation
• 1904-1907: Erste komplette Ausgabe der „Classification Décimale Universelle“ –CDU („Universal Decimal Classification“ – UDC bzw. „Dezimalklassifikation“ DK)
• DK: Haupttafel (wie DDC) und „Anhängezahlen“
HHU Düsseldorf – SS 2005 Wissensrepräsentation 29
Geschichte der Wissensrepräsentation
• Paul Otlet • (mit La Fontaine): ab 1919 in
Brüssel: Plan eines Zentrums für das gesamte Weltwissen –systematisch geordnet als Welt-bibliographie: „Mundaneum“ (Plan scheiterte – Mundaneum heute Museum in Mons)
• 1934: „Traité de documentation“ . –Bruxelles: Ed. Mundaneum. (Grundlagenwerk der Dokumentation)
www.mundaneum.be
HHU Düsseldorf – SS 2005 Wissensrepräsentation 30
Geschichte der Wissensrepräsentation
• FID• 1895: Institut International de
Bibliographie (von Otlet und La Fontaine in Brüssel gegründet)
• ab 1895: Publikation einzelner DK-Tafeln
• 1931: Institut International de Documentation
• 1986: Fédération Internationale d‘Information et de Documentation – FID (heute in Den Haag) Sonderstempel der österreichischen Post
www.fid.nlCent ans de l‘Office International de Bibliographie: 1895 – 1995. – Mons: Ed. Mundaneum, 1995.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 31
Geschichte der Wissensrepräsentation
• Shiyali Ramamrita Ranganathan (1892 – 1972)Facettenklassifikation
• zunächst Bibliothekar (in Madras), danach Professor für Bibliothekswissenschaft (in
Varanasi und Delhi), später Leiter des „Documentation Research and Training Centre“ (Bangalore)
• Kritik der DDC / DK: zu starr• Einsatz von Facetten: „Colon Classification“
(1933)• syntaktisches Indexieren mittels Ketten: „Headings and
Canons“ (1955)
Eugene Garfield: A tribute to S.R.Ranganathan. Part 1: Life and works. – In: Eugene Garfield: Essays of an Information Scientist. Vol. 7. – Philadelphia, PA: ISI Press, 1984, 37-44.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 32
Geschichte der Wissensrepräsentation
• Shiyali Ramamrita Ranganathan (1892 – 1972)Facettenklassifikation
• fünf Grundfacetten (PMEST)– Wer? – Personalität (Trennzeichen: , )– Was? – Material ( ; )– Wie? – Energie ( : „colon“)– Wo? – Raum ( . )– Wann? – Zeit ( ' ) – zusätzlich: Disziplin
• Beispiel: L,45;421:6;253:f.44‘N5Medizin , Lunge ; (Tuberkulose : Behandlung) ; (Röntgenstrahlen : Forschung) . Indien ' 2004
HHU Düsseldorf – SS 2005 Wissensrepräsentation 33
Geschichte der Wissensrepräsentation
• Thesauri: DAS VorbildMeSH
• Medical Subject Headings (MeSH)• erstellt von der National Library of Medicine (USA)• entworfen ab ca. 1954 (Vorläufer ab ca. 1940)• publiziert mit dem neuen „Index Medicus“ 1960
Carolyn E. Lipscomb: Medical Subject Headings (MeSH). – In: Bulletin of the Medical Library Association 88(2000), 265-266.
W.D.Miles: A History of the National Library of Medicine. – Bethesda, MD: U.S. Dept. of Health and HumanServices, 1982.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 34
Geschichte der Wissensrepräsentation
• MeSH• kontrolliertes Vokabular• Relationen zwischen den Begriffen• alphabetische Ordnung der Worte• systematische Ordnung der Begriffe• syntaktisches Indexieren durch Aspekte („subheadings“)
möglich• gewichtete Indexierung im Zwei-Klassen-Verfahren• Thesaurus wird als dynamische Liste der Begriffe
verstanden. Änderungen sind jederzeit möglich• 1960: Start des Projektes MEDLARS (Medical Literature
Analysis and Retrieval System) unter Einsatz von Computern• auch MeSH wird mittels EDVA gepflegt
HHU Düsseldorf – SS 2005 Wissensrepräsentation 35
Geschichte der Wissensrepräsentation
Fokus-Deskriptormit Subheading
Fokus-Deskriptor
Deskriptor mitSubheading
HHU Düsseldorf – SS 2005 Wissensrepräsentation 36
Geschichte der Wissensrepräsentation
• Thesauri• erweisen sich im Laufe der 60er Jahre (und später) als
erfolgreich• eine Periode der Zweiteilung der Methoden der
Wissensrepräsentation beginnt:• (1) Klassifikationssysteme: Einsatz vor allem in Bibliotheken;
Einsatz ohne Zuhilfenahme der EDV• (2) Thesauri: Einsatz vor allem bei fachlichen Datenbanken;
EDV-Einsatz• zusätzlich: Suche nach alternativen Ansätzen
I.Lerch: Das Dokumentationshilfsmittel Thesaurus. – In: Bibliothek. Forschung und Praxis 6 (1982), 47-73.N. Roberts: Historical studies in documentation: The pre-history of the information retrieval thesaurus. – In:
Journal of Documentation 40 (1984), 271-285.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 37
Geschichte der Wissensrepräsentation
• Zitationsindexierung• Eugene Garfield (1925 - )• ab 1951: Mitarbeit bei der
Medizindokumentation• Kritik an MeSH: Indexierung ist zu
langsam; Vokabular ist zu starr; Indexierung fremdsprachiger Artikel problematisch
• Entdeckung der wissenschaft-
lichen Fußnote als Hilfsmittel der Wissensrepräsentation
• 1958: Gründung des Institute for Scientific Information (ISI)
Eugene Garfield: Citation Indexing. – New York [u.a.]: Wiley, 1979. - Eugene Garfield; Wolfgang G. Stock: Citation Consciousness (Interview mit Garfield). – In: Password Nr. 6 (2002), 22-25.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 38
Geschichte der Wissensrepräsentation
• Titelindexierung• Hans Peter Luhn (1896 – 1964)• geb. 1896 in Barmen; ab 1924 in den
USA; ab 1941 bei IBM• Extraktion von Stichworten aus den
Sachtiteln der Dokumente• 1958: Keyword in Context: KWIC• „Entdeckung“ des Leerzeichens• Stoppworte
Claire K.Schultz: H.P.Luhn: Pioneer of Information Science – Selected Works. – London: Macmillan, 1968.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 39
Geschichte der Wissensrepräsentation
• Textwortmethode• Norbert Henrichs (1935 - )• wörterbuchunabhängige
Dokumentationsmethode• entwickelt an der
Forschungsabteilung für philosophische Information und Dokumentation der Universität Düsseldorf
• ab ca. 1967
Norbert Henrichs: Philosophische Dokumentation. - In: Zeitschrift für philosophische Forschung 23 (1969), 122-131.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 40
Geschichte der Wissensrepräsentation
• Erste Online-Informationsanbieter („Hosts“)• Entwicklungen in den 60er und frühen 70er Jahren• DIALOG (maßgeblich: Roger Summit); online: 1972• ORBIT (Carlos Cuadra); online: 1972 (heute: Questel-Orbit)• Mead Data Central (Richard Giering); online: 1973 (heute:
LexisNexis)• BRS (Jan Edgeland; Linda Palmer; Ron Quake); online: 1977
(heute: Ovid Technologies)• Methoden und Werkzeuge der Wissensrepräsentation
müssen online-tauglich werden.
Charles P. Bourne; Trudi Bellardo Hahn: A History of Online Information Services, 1963-1976. – Cambridge, Mass.;London: MIT Press, 2003.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 41
Geschichte der Wissensrepräsentation
• 1989: Einführung der automatischen Indexierung beim Einsatz einer Dokumentationssprache
• bei Reuters Ltd. London• eingesetzt wird CONSTRUE – TIS
(Categorization of News STories Rapidly, Uniformly, and Extensible – Topic Identification System)
• CONSTRUE-TIS: Entwicklung bei der Carnegie Group in Pittsburgh
• arbeitet mit einer Zuverlässigkeit von 90% gegenüber menschlichen Indexern (zumindest nach eigenen Aussagen)
Philip J. Hayes; Steven P. Weinstein: Construe-TIS: A system for content-based indexing of a database of newsstories. – In: Alain Rappaport; Reid Smith (Ed.): Proceedings of the IAAI-90 Conference on Innovative Applications
of Artificial Intelligence. Bd. 2. – Cambridge, Mass.: MIT Press, 1991, 49-66.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 42
Geschichte der Wissensrepräsentation
• Tim Berners-Lee (1955 - )Sir Timothy John Berners-Lee
• geb. 1955 in London• ab 1984: Mitarbeiter beim CERN• Entwicklung des WWW• August 1991: erste Webseite (CERN)
1994: Gründung des World Wide WebConsortiums (Laboratory for Computer Science / MIT)seit 90er Jahre: Bemühungen um dassemantische Web
T.Berners-Lee; R.Cailliau; A.Luotonen; H.F.Nielsen; A.Secret: The World Wide Web. – In: Communications of the ACM 37 (1994) 8, 76-82.
Tim Berners-Lee; Mark Fischetti: Weaving the Web. – San Francisco: Harper, 1999.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 43
Geschichte der Wissensrepräsentation
• Winfried Gödert• der Experte für Wissensrepräsentation im
deutschsprachigen Raum• Leiter des Labors für bibliographisches Information
Retrieval der FH Köln• bibliographische Datenbank zur Inhaltserschließung• Linkliste zu Klassifikationssystemen und Thesauri im WWW• dt. Übersetzung der DDC
Winfried Gödert: Einführung in Probleme und Methoden der inhaltlichen Dokumenterschließung. – Köln: FH Köln,1997. – [Begleitmaterial zu Lehrveranstaltungen].
Datenbank: www.fbi.fh-koeln.de/institut/labor/bir/suche.htmLinkliste: www.fbi.fh-koeln.de/institut/labor/bir/thesauri_new/index.htm
Begriffe und Begriffsordnungen
HHU Düsseldorf – SS 2005 Wissensrepräsentation 45
Begriffe und Begriffsordnungen
Begriffe / BegriffsordnungenGrundlegende Literatur• DIN 2330: Begriffe und Benennungen• DIN 2331: Begriffssysteme und ihre Darstellung• ISO 704:2000: Terminology Work – Principles and Methods• Albert Menne: Einführung in die Methodologie. –
Darmstadt: Wissenschaftliche Buchgesellschaft, 1980.• Tadeusz Pawlowski: Begriffsbildung und Definition. – Berlin
/ New York: de Gruyter, 1980• Ingetraut Dahlberg: Die gegenstandsbezogene, analytische
Begriffstheorie und ihre Definitionsarten. – In: Beiträge zur Begriffsanalyse. – Mannheim [u.a.]: BI Wissenschaftsverl., 1987, 9-22.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 46
Begriffe und Begriffsordnungen
GEGENSTAND
• Gegenstand: “alles, was uns entgegensteht”, “etwas als etwas erkennen”
• Gegenstände im Rahmen der “Gegenstandstheorie” (Alexius Meinong):
Gegenstand psychischer Akt ErlebniGegenstand psychischer Akt ErlebnissObjekt Empfindung / Phantasie VorstellenSachverhalt Urteil / Annahme Denken
Alexius Meinng: Über Gegenstandstheorie. – In: A.Meinong (Hrsg.): Untersuchungen zur Gegenstandstheorie undPsychologie. – Leipzig: Barth, 1904, 1-50.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 47
Begriffe und Begriffsordnungen
GEGENSTAND einer dokumentarischen Bezugseinheit (DBE)• Empfindungsobjekt: Information über reale Gegenstände (Bsp.: Baker
Street in London)• Phantasieobjekt: Information über fiktive Gegenstände (Bsp.: Sherlock
Holmes Wohnung in der Baker Street)• Urteilssachverhalt: Information über Tatsachenaussagen (im Rahmen
einer Theorie für wahr angesehene Aussage)• Annahmesachverhalt: Information über hypothetische Aussagen (im
Rahmen einer Theorie für plausibel angesehene Aussage, deren Wahrheit offen ist)
OBJEKTE in DBE werden in DE durch Begriffe, SACHVERHALTE der DBE werden in DE durch Sätze beschrieben.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 48
Begriffe und Begriffsordnungen
BEGRIFF• Ein Begriff ist die Zusammenfassung gewisser Objekte
unter eine Klasse.• Begriffsbestimmung
– extensional (Begriffsumfang; Aufzählung der Elemente der Klasse). M =df {x1, x2, ...., xi, ...}Bsp.: „Deutsche Bundesländer“ =df {Nordrhein-Westfalen, Bayern, ..., Berlin}
– intensional (Begriffsinhalt; Angabe der klassen-bildenden Merkmale). M =df ∀x. f(x) u f‘(x) u f‘‘(x) ... Bsp.: „Deutsche Bundesländer“ =df „ist ein Bundesland“ u „liegt in der Bundesrepublik Deutschland“
HHU Düsseldorf – SS 2005 Wissensrepräsentation 49
Begriffe und Begriffsordnungen
BEGRIFF
Objekt(e)
Begriff (Klasse)Benennung(en)z.B. Wort
Merkmale
HHU Düsseldorf – SS 2005 Wissensrepräsentation 50
Begriffe und Begriffsordnungen
HHU Düsseldorf – SS 2004 Wissensrepräsentation 48
Begriffe und Begriffsordnungen
BEGRIFF
Objekt(e)
Begriff (Klasse)Benennung(en)z.B. Wort
Merkmale
„Wirklichkeit“
Nutzer
(andere) Zeichen
HHU Düsseldorf – SS 2005 Wissensrepräsentation 51
Begriffe und Begriffsordnungen
BEGRIFF• SYNTAKTIK. Struktur der Benennung;
Beziehungen der Benennung (Zeichen) zu anderen Zeichen
• SEMANTIK: Beziehungen zwischen Benennung (Zeichen) und Objekt (bzw. Vorstellungsinhalt)
• PRAGMATIK: Beziehungen zwischen Benennung (Zeichen) und Zeichenbenutzer
Was heißt das?BAPHA
HHU Düsseldorf – SS 2005 Wissensrepräsentation 52
Begriffe und Begriffsordnungen
BEGRIFF• Begriffsarten
– Individualbegriff (Klasse hat genau ein Element) –Benennung: (Eigen-)NameBsp.: Karl Marx; Sherlock Holmes; Bayessches Theorem, 2. Hauptsatz der Thermodynamik
– Allgemeinbegriff (Klasse hat mehrere Elemente)Bsp.: Stuhl, Zahl, Studentin der Informationswissen-schaft, NaCl
– Kategorie (Begriff allgemeinster Art)Bsp.: Person, Materie, Energie, Raum, Zeit (à la Ranganathan)oder: Branche, Raum, Aspekt (im Kontext der Wirtschaft)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 53
Begriffe und Begriffsordnungen
EXAKTHEIT von Begriffen• exakter Begriff: Klassengrenze ist genau bestimmbar• vager Begriff: Klassengrenze ist - an den „Rändern“ - nicht genau
bestimmbar, „fuzzy“)Beispiel: Stuhl-Museum von Max Black
SELBSTÄNDIGKEIT von Begriffen• kategorematischer Begriff: Begriff steht für sich allein• synkategorematischer Begriff: Begriff kann in einem Kontext nicht
allein stehenBeispiel:
10 - 12
Max Black: Vagueness. An exercise in logical analysis. – In: Philosophy of Science 4 (1937), 425-455.
... mit FilterZigarette
HHU Düsseldorf – SS 2005 Wissensrepräsentation 54
Begriffe und Begriffsordnungen
• Wort: (nicht unbedingt eindeutiger) sprachlicher Ausdruck eines Begriffs
• Synonym: Begriff, der durch mehrere Worte ausgedrückt werden kann (Beispiel: Samstag, Sonnabend)
• Homonym: Wort, das mehrere unterschiedliche Begriffe ausdrückt, wobei die Worte unterschiedlichen Ursprüngen entstammen (Beispiel: kosten [„schmecken“ - althochdt. koston], kosten [„wert sein“ - altfrz. coster])
• Homophon: Homonym im Laut (Beispiel: Leere – Lehre)• Polysem: Wort, das mehrere unterschiedliche Begriffe
ausdrückt, wobei die Worte einen gleichen Ursprung haben (Beispiel: Knie [Gelenk am Körper], Knie [Werkstück])
• Der Unterschied zwischen Homonym und Polysem ist nicht immer klar; in der Informationswissenschaft werden die hierdurch entstehenden Probleme gemeinsam behandelt.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 55
Begriffe und Begriffsordnungen
STICHWORT - SCHLAGWORT• Stichwort: Wort, das faktisch in einer dokumentarischen
Bezugseinheit vorkommt („token“: konkrete Realisierung eines Wortes, eines „types“)
• Lexem: grammatikalische Grundform eines WortesBeispiel: ... den Kühen ... ; Lexem: Kuh
• Wortstamm: entsteht durch Präfix- oder Suffixabtrennung Beispiel: ... retrieved ...; Stamm: retriev
• Schlagwort: Wort (in Grundform), das einer dokumen-tarischen Bezugseinheit zugeordnet wird
• Thema: Objekt, das in einer dokumentarischen Bezugseinheit abgehandelt wird; „das, worüber es geht“; Repräsentation eines Thema in einer Dokumentations-einheit: durch Stich- oder Schlagworte
HHU Düsseldorf – SS 2005 Wissensrepräsentation 56
Begriffe und Begriffsordnungen
DEFINITION• (1) Definition als Abkürzung. Definiendum =df Definiens
Beispiele: M =df 1.000Erpel =df männliche Ente
• (2) Deutungsvorschrift von Kalkülen. Deutung bzw. Interpretation von ZeichenBeispiel: p ---> ( q v ~q)
w w w w f w w f w wf w w w ff w f w w
Deutung: p, q Aussagevariablen; w, f Wahrheitswerte~ Negation; --> Implikation; v Disjunktion
HHU Düsseldorf – SS 2005 Wissensrepräsentation 57
Begriffe und Begriffsordnungen
• (3) Begriffserklärung Begriff =df Teilbegriff1 + Teilbegriff2 + ...
• Begriffssynthese: ausgehend von Teilbegriffen Begriffsanalyse: ausgehend vom Begriff
• “Klassische” Variante: Definition durch genus und differentia– genus: Artbegriff– differentia: “wesenskonstitutiver” Unterschied– accidens: zufällige Eigenschaft (darf nicht verwendet werden)
Beispiel “Homo est animal rationale”: Mensch =df Lebewesen + vernunftbegabtnicht: Mensch =df Lebewesen + Haarfarbe nicht blond
• Begriffserklärungen eignen sich besonders gut für hierarchische Begriffsordnungen (Klassifikation oder Thesaurus)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 58
Begriffe und Begriffsordnungen
• (4) Zeichenerklärung (Nominaldefinition) Feststellung der Bedeutung eines Begriffes in einem bestimmten Kontext. Aussage mit (zu begründendem) Wahrheitsanspruch.Beispiele: “Metaphysik” bei Aristoteles
“Steuererhöhung” bei der Bundesregierung“Armut” in der empirischen Sozialforschung
• (5) Sacherklärung (Realdefinition) Feststellung der Bedeutung eines Begriffes durch das “Wesen” seines Gegenstandes. Aussage mit (zu begründendem) Wahrheitsanspruch. Beispiel: Artikel „Geschirrspülmaschine“ im Brockhaus
• Zeichen- und Sacherklärungen kommen typisch in enzyklopädischen Wörterbüchern vor.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 59
Begriffe und Begriffsordnungen
• (6) Explikation Übernahme (ggf. ungenauer) Alltagsbegriffe in die Wissenschaftssprache, dabei Präzisierung
• Bedingungen:– wissenschaftliche Nützlichkeit– Präzision– Ähnlichkeit mit dem Ausgangsbegriff– EinfachheitBeispiel: Alltagsbegriff: Arbeit
Physik: Arbeit =df Kraft * Weg * WinkelSoziologie: Arbeit =df auf ein wirtschaftliches Ziel gerichtete, planmäßige menschliche Tätigkeit
HHU Düsseldorf – SS 2005 Wissensrepräsentation 60
Begriffe und Begriffsordnungen
• (7) Definition von Bedeutungsfamilien Einige Begriffe können nicht über eine Konjunktion von Merkmalen definiert werden, die für alle gelten; vielmehr liegen unterschiedliche Teilmengen vor (Ludwig Wittgenstein: “Familienähnlichkeit”)Beispiel: Gemüse =df Wurzel- und Knollengemüse, Blatt-und Stielgemüse, Fruchtgemüse, Kohlgemüse
• (8) Persuasive Definition Begriffsbildung mit emotionalen Einstellungen (gefühls-mäßigen Assoziationen)Beispiele: rein (Waschmittelwerbung; positive Einstellung)Jude (Nazi-Deutschland; negative Einstellung)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 61
Begriffe und Begriffsordnungen
• Im Überblick: Definitionsarten
• (1) Definition als Abkürzung
• (2) Deutungsvorschrift eines Kalküls
• (3) Begriffserklärung• (4) Nominaldefinition• (5) Realdefinition • (6) Explikation• (7) Bedeutungsfamilien• (8) persuasive Definition
• Definitionen in Systemen der Wissensrepräsentation:
• jeder in einer Dokumen-tationssprache verwendete Begriff sollte in Extension und Intension klar und deut-lich sein
• für hierarchische Systeme eignen sich besonders Begriffserklärungen und Definitionen mit Bedeutungs-familien
HHU Düsseldorf – SS 2005 Wissensrepräsentation 62
Begriffe und Begriffsordnungen
Ordnung• Gesamt einer Menge M von Objekten x, y, ... und einer
Menge von Relationen ρ zwischen den Objekten O = M, ρ
• Bei Begriffsordnungen sind die Objekte Begriffe und die Relationen Beziehungen zwischen Begriffen
• Es gibt zweistellige Relationen (Bsp.: ρ = „x ist Oberbegriff von y“) und mehrstellige Relationen (Bsp.: ρ = „heilt x [jemanden] mittels y [Arznei] von z [Krankheit]“)
• Relationen sind reflexiv (irreflexiv), symmetrisch (asymmetrisch) bzw. transitiv (intransitiv) R - S - T
HHU Düsseldorf – SS 2005 Wissensrepräsentation 63
Begriffe und Begriffsordnungen
RST (bei zweistelligen Relationen)• Reflexivität: x ρ x (Bsp.: „ist identisch mit“)• Irreflexivität: -(x ρ x) (Bsp.: „ist Ursache von“)• Symmetrie: x ρ y y ρ x (Bsp.: „ist gleich“)• Asymmetrie: x ρ y -(y ρ x) (Bsp.: „liebt unglücklich)“• Transitivität: [(x ρ y) u (y ρ z)] (x ρ z) (Bsp.: „ist größer als“) • Intransitivität: [(x ρ y) u (y ρ z)] -(x ρ z) (Bsp.: „ist ähnlich mit“)Allgemeine Relationen in Begriffsordnungen• Äquivalenz: x ist äquivalent y (R - S - T)• Unterbegriff*: x ist Unterbegriff von y (-R - -S - T)• Oberbegriff*: x ist Oberbegriff von y (-R - -S - T)• verwandter Begriff: x ist mit y verwandt (-R - S - -T)
* (Abstraktionsrelation)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 64
Begriffe und Begriffsordnungen
Relationen in Begriffssystemen
Topterm
BottomtermsAssoziations-relation
Hierarchierelation
Poly-hierarchie
Begriffsle
iterA
B C
D E F
G H I
Begriffs- -reihe
HHU Düsseldorf – SS 2005 Wissensrepräsentation 65
Begriffe und Begriffsordnungen
Terminologische Kontrolle• durch Zusammenfassung bestimmter Bezeichnungen zu
einem Begriff (Synonyme, Akronyme, Quasi-Synonyme) mittels Äquivalenzrelation
• durch Trennung homonymer Bezeichnungen zu unter-schiedlichen Begriffen
• ggf. durch Zerlegung („Zerlegungskontrolle“)• wenn möglich; stets wenn nötig: Definition• Arten terminologischer Kontrolle:
– mit Vorzugsbenennungen (gearbeitet wird ausschließlich mit der Vorzugsbenennung; von den äquivalenten Bezeichnungen wird verwiesen)
– ohne Vorzugsbenennungen (alle äquivalenten Bezeichnungen sind zugelassen; in der Datenbank werden sie zu einem Begriff zusammengefasst)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 66
Begriffe und Begriffsordnungen
Relationen• Hierarchierelation (Begriffsleiter: Oberbegriff - Unterbegriff,
Begriffsreihe: Begriffe in gleicher hierarchischen Ebene)– Abstraktionsrelation (logische Sicht)
• Ein Unterbegriff im Sinne der Abstraktionsrelation hat alle Merkmale des Ausgangsbegriffs, dazu aber mindestens ein weiteres (Bsp.: Vogel - Singvogel)
• stets transitiv– Bestandsrelation (gegenständliche Sicht: Meronyme
[Teil einer Ganzheit]; Holonyme [Ganzheit von Teilen])• Ein Unterbegriff im Sinne der Bestandsrelation drückt
einen Teil des Ausgangsbegriffs aus (Bsp.: Vogel - Kralle)• Geographika sind i.d.R. Begriffe in Bestandsrelation (Bsp.:
Deutschland - Nordrhein-Westfalen - Regierungsbezirk Köln – Rhein-Erft-Kreis - Kerpen - Kerpen-Sindorf)
• zwei Varianten: (a) transitiv – (b) intransitiv
HHU Düsseldorf – SS 2005 Wissensrepräsentation 67
Begriffe und Begriffsordnungen
Bestandsrelation / Meronymie• Variante 1: transitiv (z.B. Geographica)
• Variante 2: nicht transitiv– Es gibt Bäume im Wald;
aber auch welche außerhalb von Wäldern.
RindeBaumWald
Deutschland
NRW
D
HHU Düsseldorf – SS 2005 Wissensrepräsentation 68
Begriffe und Begriffsordnungen
Relationen• Element-Klasse-Relation für Individualbegriffe• „... ist ein(e) ...“: x ist ein M• M =df {x1, x2, ...., xi, ...}, wobei xi Namen von
Individualbegriffen sind• Beispiele:
– {G.Schröder, J.Fischer, H.Eichel, P.Struck, ...} ist ein Mitglied der derzeitigen Bundesregierung
– {G.Schröder, H.Eichel, P.Struck, R.Scharping, ...} ist einMitglied der SPD
– Persil ist ein Waschmittel– Donald Duck ist ein Bewohner Entenhausens
HHU Düsseldorf – SS 2005 Wissensrepräsentation 69
Begriffe und Begriffsordnungen
Relationen• weitere Relationen
– Antonymie-Relation (Gegensätze) – Ähnlichkeitsrelation– Nachfolgerelation (Vorgänger - Nachfolger)– Kausalrelation (Ursache - Wirkung)
• Nützlichkeitsrelation• Schädlichkeitsrelation
– genetische Relation (Produzent - Produkt)– Herstellungsrelation (Material - Produkt)– Transmissionsrelation (Sender - Empfänger)– instrumentelle Relation (Werkzeug - Anwendung des
Werkzeugs)– funktionelle Relation (Argument - Funktion)– usw.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 70
Begriffe und Begriffsordnungen
• Präkombinationsgrad (bei Begriffen mit mehreren Komponenten) - Zerlegungskontrolle– Präkombination: Kombination mehrerer Begriffe zu
genau einen [zusammengesetzten] Begriff in der Begriffsordnung (Bsp.: Mädchenhandelsschule)
– Präkoordination: Kombination der Begriffe, die in der Begriffsordnung vorkommen, durch Verkettung beim Information Indexing (Bsp.: Mädchen + Handelsschule bzw. Mädchenhandel + Schule) – macht der Indexer
– Postkoordination: Kombination der Begriffe erst beim Information Retrieval (Bsp.: Mädchen UND Handelsschule bzw.Mädchenhandel UND Schule) – macht der Recherchierende
HHU Düsseldorf – SS 2005 Wissensrepräsentation 71
Begriffe und Begriffsordnungen
Monohierarchie:jeder Begriff hat entweder keinen oder genau einen
Oberbegriff
Obstbaum
Kernobstbaum Steinobstbaum
Apfelbaum Birnbaum Kirschbaum Pfirsichbaum
Margarete Burkart: Dokumentationssprachen. – In: Grundlagen der praktischen Information und Dokumentation. –München [u.a.]: Saur, 31990, 143-182.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 72
Begriffe und Begriffsordnungen
Polyhierarchie:
ein Begriff kann mehrere Oberbegriffe haben
Obstbaum Holzwirtschaft
Kernobstbaum Nutzholz
Apfelbaum Birnbaum Buche
HHU Düsseldorf – SS 2005 Wissensrepräsentation 73
Begriffe und Begriffsordnungen
Dimensionalität: Anzahl der Dimensionen der klassenbildendenMerkmale bei der Bildung von Unterbegriffen– monodimensional (nur genau eine Dimension zugelassen).
Bsp.: Obstbaum» Kernobstbaum» Steinobstbaum
Klassenbildung durch die Dimension: Beschaffenheit des Samens– polydimensional (mehrere Dimensionen zugelassen)
Bsp.: Obstbaum» Kernobstbaum» Steinobstbaum» hochstämmiger Obstbaum» niederstämmiger Obstbaum
Klassenbildung durch die zwei Dimensionen: Beschaffenheit des Samens und: Größe des Stammes
HHU Düsseldorf – SS 2005 Wissensrepräsentation 74
Begriffe und Begriffsordnungen
Auflösung der Polydimensionalität• aus einer polydimensionalen Ordnung soll eine
monodimensionale gebildet werden• schafft eine übersichtliche und logische Struktur
Bsp.: Obstbaum• Obstbaum nach Samenbeschaffenheit
– Steinobstbaum– Kernobstbaum
• Obstbaum nach Stammgröße– hochstämmiger Obstbaum– niederstämmiger Obstbaum
• bei der Auflösung der Polydimensionalität werden „Zwischen-begriffe“ bzw. „Stützbegriffe“ kreiert
• sehr wahrscheinlich gibt es keine DBE über solche Stützbegriffe
Stützbegriff
HHU Düsseldorf – SS 2005 Wissensrepräsentation 75
Begriffe und Begriffsordnungen
Facettierte Begriffsordnung• Mehrere unterschiedliche Begriffsordnungen innerhalb
eines Systems, aufgeteilt nach KategorienBsp.: drei Facetten (Obstbäume):Kategorie 1: Kategorie 2: Kategorie 3:Frucht Stammgröße ErntezeitApfel hoch frühBirne nieder spät
Bsp.: vier Facetten (Wirtschaftsnachrichten / Factiva):• Branche• Region• Aspekt• Unternehmen
HHU Düsseldorf – SS 2005 Wissensrepräsentation 76
Begriffe und Begriffsordnungen
Begriffsordnung und natürliche Sprache
• unabhängig von natürlicher Sprache: Verwendung eines eigenen Vokabulars aus Ziffern und BuchstabenBsp.: 291.213.4 (in der Dezimalklassifikation: Bezeichnung für„Ahnenkult. Kult der Hausgötter: Manen, Laren, Penaten“)Bsp.: H05B-3/00 (in der Internationalen Patentklassifikation:Bezeichnung für „elektrische Heizung / Widerstandsheizung“)
• sprachabhängig (Verwendung von national- bzw. fach-sprachigen Bezeichnungen)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 77
Begriffe und Begriffsordnungen
• Paradigmatische Relation
• „fest verdrahtete“ Begriffe durch Relationen in Begriffsordnungen
• Bsp.: Obstbaum sei Ober-begriff zu KernobstbaumObstbaum
Kernobstbaum
• Syntagmatische Relation• Begriffe, deren Beziehung
dadurch zustande kommt, dass sie gemeinsam in DE auftreten
• Bsp.: Eine DE enthalte: Obstbaum, Bauer, SteiermarkObstbaum
Steiermark
paradigmatischeRelation
syntagmatischeRelation
HHU Düsseldorf – SS 2005 Wissensrepräsentation 78
Begriffe und Begriffsordnungen
Paradigmatische und syntagmatische Relation
Singvögel füttern ihre JungenMeisen füttern ihre Jungen mit InsektenBlaumeisen füttern ihre Jungen mit grünen Raupen
paradigmatisch syntagmatisch„fest verdrahtet“ „im konkretenhier: Kontext“Hierarchierelation
Dokumente und ihre Strukturierung
HHU Düsseldorf – SS 2005 Wissensrepräsentation 80
Dokumente und ihre Strukturierung
Was ist ein Dokument?• „Dokumentation“ (d.h. die Repräsentation des Wissens
durch Indexieren oder Referieren) kommt von „Dokument“• klar: (gedruckter) Text ist „Dokument“• aber: Objekte als Dokumente? (Ansatz von Suzanne Briet)
Gegenstand Dokument?Stern am Himmel neinFoto des Sterns jaStein in einem Fluss neinStein in einem Museum jaTier in der Wildnis neinTier im Zoo ja
Michael K. Buckland: What is a document? – In: Journal of the American Society for Information Science 48(1997), 804-809.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 81
Dokumente und ihre Strukturierung
Was ist ein Dokument? Kriterien:• 1. Materialität (physikalisch, einschließlich digital)• 2. Intentionalität (trägt Sinn bzw. Bedeutung)• 3. Erarbeitung (wird geschaffen)• 4. Wahrnehmung (wird als Dokument bezeichnet)
Dokument• (A) Text• (B) (nicht-textuelles) Objekt • alle Dokumentformen werden sprachlich indexiert
HHU Düsseldorf – SS 2005 Wissensrepräsentation 82
Dokumente und ihre Strukturierung
• (A 1) Publikationen– Bücher– (wissenschaftliche) Artikel– Zeitungsartikel, Agenturmeldungen– Gesetze, Erlasse– Urteile– Normen– Patente, Gebrauchsmuster,
Geschmacksmuster, Marken– Hochschulschriften– Noten– Kartenwerke
HHU Düsseldorf – SS 2005 Wissensrepräsentation 83
Dokumente und ihre Strukturierung
• (A 2) andere, nicht (formal) publizierte Texte– digitale Dokumente im Internet (Sonderform:
Wikis – kooperativ geprüft)– Akten – andere Archivmaterialien
(z.B. Nachlässe)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 84
Dokumente und ihre Strukturierung
• (B 1) WTM-Fakten (Wissenschaft / Technik / Medizin)– Stoffe und ihre Eigenschaften– Krankheiten und ihre Symptome– Patienten (Krankenakten)– demographische Daten– statistische Daten
HHU Düsseldorf – SS 2005 Wissensrepräsentation 85
Dokumente und ihre Strukturierung
• (B 2) Wirtschaft– Branchen– Unternehmen– Produkte
HHU Düsseldorf – SS 2005 Wissensrepräsentation 86
Dokumente und ihre Strukturierung
• (B 3) audiovisuelle Dokumente– Bilder– Filme / Filmsequenzen
• Sonderform: generische Sequenzen
HHU Düsseldorf – SS 2005 Wissensrepräsentation 87
Dokumente und ihre Strukturierung
• (B 3) audiovisuelle Dokumente– Ton (Schall)
• Musik• gesprochene Sprache („Wortarchiv“)• Geräusche
• (B 4) multimediale Dokumente (Mischformen)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 88
Dokumente und ihre Strukturierung
• (B 5) Museumsdokumente– archäologische Funde– Kunstwerke– kulturgeschichtliche Gegenstände
HHU Düsseldorf – SS 2005 Wissensrepräsentation 89
Dokumente und ihre Strukturierung
• Die Einheit der Dokumente (Texte – Objekte):Dokumentarische Bezugseinheit (DBE)stets gleichbleibende Einheit der Vorlagen, die in einen Informationsspeicher aufgenommen werden, hierbei ggf. analytische „Zerlegung“ der VorlagenBeispiele:Buch (als Ganzes) - Buchkapiteldto. - Abbildung; TabelleZeitschrift (als Ganzes) - ArtikelKorrespondenz - einzelner BriefFilm - FilmsequenzMünzsammlung - einzelne Münze
HHU Düsseldorf – SS 2005 Wissensrepräsentation 90
Dokumente und ihre Strukturierung
• Was wird in die Datenbank aufgenommen?Dokumentationswürdigkeit Kriterienkatalog, der die Entscheidung fundiert, ob eine bestimmte DBE in den Informationsspeicher aufgenommen wird oder nichtGrundaspekte:– Relevanz des Dokuments– Informationsbedarf der Nutzer– bisheriger Stand der DatenbankSpezifische Aspekte:– thematische Kriterien– formale Kriterien (Bsp.: nur wissenschaftliche Artikel;
nur HTML-Dateien) – Finanzrahmen - Personalressourcen - Zeit– ggf.: Neuigkeit– ggf.: kritische Prüfung des Inhalts
HHU Düsseldorf – SS 2005 Wissensrepräsentation 91
Dokumente und ihre Strukturierung
• Datenstrukturierung::Identifikation kleinster Beschreibungseinheiten für bestimmte Typen von dokumentarischen Bezugseinheiten (DBE)
• Bsp.: wissenschaftlicher Aufsatz. FELDER:
• Autor(en)• Sachtitel• Zeitschriftentitel• Jahrgang• Seitenzahl• Themen usw.
• Dokumentstrukturierung: Zerlegung eines bestimmten Typesvon dokumentarischen Bezugseinheiten (DBE) - auch - im Sinne von Markup-Sprachen
• Bsp.: wissenschaftlicher Aufsatz. STRUKTUR:
• Sachtitel• Autor(en)• Titel des 1. Abschnitts• Text des 1. Abschnitts:
Problemstellung• darin: Fußnote(n)• Titel des 2. Abschnitts • Text des 2. Abschnitts: Methodik
usw.
Meta-daten
Struk-tur-
daten
HHU Düsseldorf – SS 2005 Wissensrepräsentation 92
Dokumente und ihre Strukturierung
Dokumentstrukturierung (bei digitalen Dokumenten)– Beschreibung einer Dokumentstruktur innerhalb des
Dokuments mittels einer besonderen Sprache (Markup Language, Seitenbeschreibungssprache)
– für Textverarbeitung und -publikation (seit 1986): Standardized Generalized Markup Language (SGML). Umfassendes Konzept einer Markup-Sprache
– für Beschreibung verlinkter Dokumente (seit 1989): Hypertext Markup Language (HTML). Eingeschränkte Sprache (ohne Möglichkeit zur wissensabbildenden Dokumentstrukturierung), dafür aber für Hypertextstrukturen anwendbar
– Seitenbeschreibung und Hypertext: eXtensible Markup Language (XML). Bündelung der Vorteile von SGML und HTML. „Industriestandard“. Wissensrepräsentation möglich.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 93
Dokumente und ihre Strukturierung
• Datenstrukturierung / Definition der Metadaten: Vorgehen
• 1. Datenbankdesign: Feldschema• 2. Zusammenspiel der Datenbanken (falls mehrere)• 3. Beschreibung der Felder
– Suchfelder (möglichst kontrolliertes Vokabular)– Anzeigefelder
• 4. Regelwerk (konkrete Anweisungen für jedes Feld)• 5. (ggf.) Nutzung von Hilfsmitteln (z.B. Normlisten von
Ländernamen oder Thesauri)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 94
Dokumente und ihre Strukturierung
Datenstrukturierung• Datenbankdesign: Beschreibung des Dokuments in einem
Feldschema, dabei Festlegung von Merkmalen für jedes Feld – Feldname Jahrgang– Kurzbezeichnung YR– Schlüsselfeld (ja, nein) nein– Anzahl Werte (ein Wert, genau 1 Wert
mehrere Werte: Subfelder)– Typ der Feldwerte (alpha- ganze Zahl
numerisch, Formel, Datum, Betrag, Text, ganze Zahl, ...)
– Normdaten ja– ggf.: Feldlänge 4 Stellen– Index (ja, nein) ja
• Wortindex ja• Phrasenindex nein
HHU Düsseldorf – SS 2005 Wissensrepräsentation 95
Dokumente und ihre Strukturierung
• Zusammenspiel der Datenbanken• Beispiel:
Kunstwerke• Categories for the
Descriptions of Works of Art (CDWA)
• Getty Standards Program
Categories for the Descriptions of Works of Art.www.getty.edu/research/conducting_research/standards/cdwa/index.html
HHU Düsseldorf – SS 2005 Wissensrepräsentation 96
Dokumente und ihre Strukturierung
• Feldsschema. Beispiel: Kunstwerke
HHU Düsseldorf – SS 2005 Wissensrepräsentation 97
Dokumente und ihre Strukturierung
• Feldbeschreibung. Beispiel: Feld: Abmessungen - Subfeld: Dimensionen
HHU Düsseldorf – SS 2005 Wissensrepräsentation 98
Dokumente und ihre Strukturierung
• Feldschema.Beispiel:Wissenschaftliche Literatur
HHU Düsseldorf – SS 2005 Wissensrepräsentation 99
Dokumente und ihre Strukturierung
Ansichteiner
Webseite
Metadatenin
„Meta Tags“
Beispiel: Webseite
HHU Düsseldorf – SS 2005 Wissensrepräsentation 100
Dokumente und ihre Strukturierung
Metadaten
formalbibliographische Metadaten
inhaltsbezogene Metadaten
formaleErfassung
Inhalts-erschließung
HHU Düsseldorf – SS 2005 Wissensrepräsentation 101
Dokumente und ihre Strukturierung
Metadaten: Formale Erfassung• Abbildung nicht inhaltsbezogener Informationen der
dokumentarischen Bezugseinheit auf die Erfassungsfelder einer Datenbank
• für jedes Feld werden Erfassungsregeln definiert• soweit möglich: für jedes Feld werden Normdaten
gesammelt• Regelwerk für formale Erfassung von
Bibliotheksmaterialen: AACR (Anglo-American Cataloging Rules) (mit Sonderregeln für audiovisuelle Materialien, Musikalien, Karten und unselbständig erschienener Werke)
• für die Erfassung von Internet-Dokumenten werden die Dublin-Core-Elements diskutiert
HHU Düsseldorf – SS 2005 Wissensrepräsentation 102
Dokumente und ihre Strukturierung
Formale Erfassung / Regelwerk / NormdatenBeispiel: ... wenn man versucht, ohne auszukommenRegister:Henzinger MHenzinger MonikaHenzinger Monika RHenzinger Monika RauchHenzinger Monika R.Henzinger, MHenzinger, MonikaHenzinger, Monika RHenzinger, Monika RauchHenzinger, Monika R.
Monika HenzingerMonika R HenzingerMonika Rauch HenzingerMonika Rauch-HenzingerMonika R. HenzingerRauch Henzinger MonikaRauch Henzinger, MonikaRauch-Henzinger MonikaRauch-Henzinger, Monika
HHU Düsseldorf – SS 2005 Wissensrepräsentation 103
Dokumente und ihre Strukturierung
Formale Erfassung / Regelwerk / Normdaten• mit Regel: bei Personennamen Ansetzung: Nachname
Komma Leerzeichen Vorname (ausgeschrieben) Leerzeichen zweiter Vorname oder Mittelname (nur erster Buchstabe mit Punkt)
• Beispiel: Register: Henzinger, Monika R.Rauch, Monika
• mit Normdaten: je Person ein DatensatzName in Normform:Henzinger, Monika R.Geburtsdatum: tt.mm.jjjjZusatzinformationen: ehemalige Forschungsleiterin GoogleVerweis: Rauch, Monika
• Beispiel: Register: Henzinger, Monika R.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 104
Dokumente und ihre Strukturierung
Formale Erfassung / Regelwerk / Normdaten. Beispiele:Gertrud von Le Fort Le Fort, Gertrud von (dt.)Ernst Aus‘m Weerth Aus‘m Weerth, Ernst (dt.)Julia Rauh-von der Schule Rauh-von der Schule, Julia (dt.)Jean de la Fontaine La Fontaine, Jean de (fr.)Louis de Broglie Broglie, Louis de (fr.)Louis de Rouvroy Duc de Saint-Simon, Louis de Rouvroy Saint-Simon Duc de (fr.)Ali ibn Haduga Ibn Haduga, Ali (arab.)Lola Réz (verh.: Kosáry) Kosáryné-Réz, Lola (ungar.)Anton der Kinderen Kinderen, Anton der (nl.)Anton Du Perron Du Perron, Anton (nl.)Andrej N. Rimskij-Korsakov Rimskij-Korsakov, Andrej Nikolajevich (russ.)Constance Lytton (Tochter Lytton, Lady Constance (engl. UK)eines Dukes)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 105
Dokumente und ihre Strukturierung
Formale Erfassung • Ansetzung der Namen von Körperschaften
– Beispiel „untergeordnete Körperschaft“: Referat Frauenpolitik der SPD. Ansetzungsform: Sozialdemokratische Partei Deutschlands / Referat Frauenpolitik
– Beispiel „selbständige Körperschaft“: ifo Institut, München. Ansetzungsform: ifo Institut für Wirtschaftsforschung e.V. <München>
– Beispiel „Gebietskörperschaft“: Kongeriget Danmark. Ansetzungsform: Danmark. Bsp.: Polizeidirektion Bonn. Ansetzungsform: Nordrhein-Westfalen / Polizeidirektion <Bonn>
• bei nicht-lateinischen Schriften: Transliteration (etwa nach: ISO)– Beispiel: BAPHA (bulg.). Transliteration: Varna
• bei allen Ansetzungen: Verweise von möglichen Varianten auf die Normansetzung
Uta Krischker: Formale Analyse (Erfassung) von Dokumenten. – In: Grundlagen der praktischen Information und Dokumentation. – München [u.a.]: Saur, 31990, 63-89.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 106
Dokumente und ihre Strukturierung
Formale Erfassung.• Erfassung von Webseiten• „Dublin Core Elements“ Feldname (Version 1.0)
– Titel title– Autor/Urheber creator– Thema/Schlagwörter subject
(vorgeschlagen: kontrolliertes Vokabular oder Klassifikation)– Inhaltsbeschreibung description
(Abstract bzw. Beschreibung nicht-textueller Dokumente)– Herausgeber/Verlag publisher– anderer Beteiligter contributor
(etwa: Illustrator, Übersetzer)– Datum (in der Form: yyyy-mm-dd) date– Dokumenttyp resource type
(etwa: Homepage, Arbeitspapier, Gedicht, Foto)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 107
Dokumente und ihre Strukturierung
• „Dublin Core Elements“ (2) Feldname (Version 1.0)– Datenformat format
(Dateityp, ggf. Dateigröße)– Identifikation der Ressource identifier
(URL [uniform resource locator], DOI [digital object identifier], ...)– Quelle source– Sprache language– Beziehungen relation– thematische Abdeckung coverage
(räumliche und zeitliche Charakteristika des Inhalts)– Rechte rights
(Vermerk über Rechteinhaber)
• Bisher konnten sich die „Dublin Core Elements“ im WWW [noch?] nicht durchsetzen.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 108
Dokumente und ihre Strukturierung
• Metadaten: Inhaltserschließung• Abbildung inhaltsbezogener Informationen der dokumentari-
schen Bezugseinheit auf die Erschließungsfelder einer Daten-bank
• Inhaltserschließung geschieht durch INDEXIEREN und REFERIEREN – Indexieren ist die Abbildung der Themen (ggf. der
Themenkomplexe) durch Begriffe (Ursprung des Wortes: Buchindex)
– Referieren ist die Abbildung der thematisierten Sachverhalte durch (wenige) Sätze
• Inhaltserschließung geschieht entweder automatisch oder intellektuell (oder Mischform)
• Inhaltserschließung macht von eigenen Methoden und von spezifischen Werkzeugen Gebrauch.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 109
Dokumente und ihre Strukturierung
Inhaltserschließung
Funktion 1:Informations-
filter
Funktion 2:Informations-verdichtung
Indexieren Referieren
Optimales Suchen und Finden von Dokumenten
Dokumentationssprachen I:Klassifikationssysteme
(Taxonomien)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 111
Klassifikationssysteme
Klassifikation - Grundlegende Literatur• Brian Buchanan: Bibliothekarische Klassifikationstheorie. –
München: Saur, 1989.• DIN 32705: Klassifikationssysteme• Konrad Umlauf: Einführung in die bibliothekarische Klassifikations-
theorie und –praxis. – Berlin: HU / Inst. f. Bibl.wiss., 1999. (www.ib.hu-berlin.de/~kumlau/handreichungen/h67/).
• Advances in Classification Research. Proceedings of the xxth ASIS&T SIG/CR Workshop. – Medford: Information Today (derzeit Bd. 13, 2004).
• Hans-Jürgen Manecke: Klassifikation, Klassieren. – In: Grundlagen der praktischen Information und Dokumentation. – München: Saur, 52004, 127-140.
• Evgenij I. Samurin: Geschichte der bibliothekarisch-bibliographi-schen Klassifikation. – Pullach: Verl. Dokumentation, 1967 (Bd. 1), 1968 (Bd. 2).
HHU Düsseldorf – SS 2005 Wissensrepräsentation 112
Klassifikationssysteme
Klassifikation ist ein Hilfsmittel zur ORDNUNG von Gegenständen oder von Wissen über Gegenstände– praktische Aufgabe: Ordnen von Gegenständen (in einem
Lager, im Supermarkt, im Küchenschrank, ...)– informationswissenschaftliche und -praktische Aufgabe:
Anordnen, Bei-, Neben- und Einordnen, Einteilen, Gruppieren, Unterordnen, Zusammenordnen, Zuordnen von Wissen
– wissenschaftliche Aufgabe: angemessene Darstellung von Wissenseinheiten (z.B. Taxonomie in der Biologie: „Systema naturae“ von Carl von Linné, oder Physik: Periodensystem der Elemente)
– erkenntnisvermittelnde Aufgabe: Aufhellung von Zusammenhängen anhand geordneten Wissens
HHU Düsseldorf – SS 2005 Wissensrepräsentation 113
Klassifikationssysteme
Grundbegriffe• Klasse: (intensional oder extensional) definierter Gegenstand
(Allgemein- oder Individualbegriff)• Klassifizieren: Erstellen eines Klassifikationssystems; Bilden
von Klassen• Klassieren: Einordnen von DBE in Klassen• Notation: nicht-natürlichsprachiges Wort als Name einer
Klasse • Bezeichnungen: natürlichsprachige Übersetzungen einer
Notation• Die Erstellung und Weiterentwicklung von Klassifikations-
systemen ist in Deutschland normiert.• DIN 32705. Klassifikationssysteme (1987)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 114
Klassifikationssysteme
Notationsformen• strukturabbildend hierarchische Notation (Notation bildet
Hierarchierelation ab). Bsp.:Klasse A: Notation: 1Klasse B: Notation: 11Klasse D: Notation: 111Klasse C: Notation: 15
• sequentielle Notation. Bsp.:Klasse A: Notation: 1Klasse B: Notation: 3Klasse D: Notation: 8Klasse C: Notation: 5
• hierarchisch-sequentielle Notation - Mischform (Notation auf gewissen Hierarchieebenen hierarchisch, sonst sequentiell)
Relationen in Begriffssystemen
Topterm
BottomtermsAssoziations-relation
Hierarchierelation
Poly-hierarchie
Begriffsle
iterA
B C
D E F
G H I
Begriffs- -reihe
HHU Düsseldorf – SS 2005 Wissensrepräsentation 115
Klassifikationssysteme
• Vorteil der Notation: international einsetzbarBeispiel: vacuum cleanerStaubsaugerdammsugarenaspirateur DK 648.525aspiratore di polvereaspirador de polvoodkurzacz
• Nachteil der Notation: mnemotechnisch nicht beherrschbar
HHU Düsseldorf – SS 2005 Wissensrepräsentation 116
Klassifikationssysteme
• Präkombinationsgrad der Begriffe: i.d.R. hoch (präkombinierte Begriffe bevorzugt). Bsp.: „Witterungsabläufe in Mittel-gebirgslagen subtropischer Zonen“ als 1 Klasse
• i.d.R. monohierarchisch (ohne Unterscheidung nach Abstraktions-und Bestandsrelation); zusätzlich: (Quasi-)Synonyme; Assoziationsrelation sehr eingeschränkt
• häufig: neben einer Basiskategorie weitere spezielle Kategorien (als „Anhängezahlen“, „Ergänzungszahlen“ oder „Indexcodes“)
• Klassifikationssystem:– (1) Lexikon: systematische Tafeln, ggf. Hilfstafeln (jeweils Notationen
und Bezeichnung/en); hierzu: Register (mit Synonymen)– (2) Grammatik: spezielle Zeichen, Regeln für den Umgang mit den
Zeichen– (3) Hinweise: u.a. Anmerkungen, Querverweise oder Vorrangregeln
HHU Düsseldorf – SS 2005 Wissensrepräsentation 117
Klassifikationssysteme
• Grundlegende Regeln: – ein Objekt - eine Klasse– damit: ein Objekt - eine Notation– eine Notation - mehrere Bezeichnungen (Fremdsprachen,
Akronyme, Synonyme)– jede Bezeichnung sollte für sich selbst sprechen (u.U.
definierende Zusätze anbringen)– Einstieg für Nutzer über Systematik (Notationen) und
Bezeichnungen (möglichst in unterschiedlichen natürlichen Sprachen) gewährleisten
– homonyme Bezeichnungen in die einzelnen Objekte überführen und auf unterschiedliche Klassen verweisen
– i.d.R. monodimensional (polydimensional nur in Ausnahme-fällen)
– Polyhierarchie schlecht oder gar nicht ausdrückbar
HHU Düsseldorf – SS 2005 Wissensrepräsentation 118
Klassifikationssysteme
Klassifikationstypen nach Einsatzgebieten– Universalklassifikationen
• zur Ordnung von Beständen (sprachlich wie fachlich) universal ausgerichteter Informationseinrichtungen (z.B. Universitätsbibliotheken)
• als Zugangshilfe zu Dokumenten im World Wide Web– Klassifikationen gewerblicher Schutzrechte– Wirtschaftsklassifikationen
• Branchenklassifikationen (auch zum Zwecke amtlicher Statistik)
• Produktklassifikationen– Geographische Klassifikationen– Medizinische Klassifikationen
HHU Düsseldorf – SS 2005 Wissensrepräsentation 119
Klassifikationssysteme
Universalklassifikationen• Dewey Decimal Classification (DDC) - von Melvil
Dewey 1876 erstmals eingeführt• Dezimalklassifikation (DK / UDC / CDU) - auf der
Basis der DDC von Paul Otlet und Henri LaFontaine um 1900 entwickelt
• Colon Classification (CC) - facettierte Klassifikation von S.R.Ranganathan (1. Aufl. 1933)
• Allgemeine Systematik für Öffentliche Bibliotheken (ASB) - als Aufstellordnung in ÖBs (seit 1956) verwendet
• Yahoo! - Klassifikation• Open Directory Project (ODP) - Systeme zur
Klassierung von Websites
DK:unser
1. Beispiel
Yahoo!unser
2. Beispiel
HHU Düsseldorf – SS 2005 Wissensrepräsentation 120
Klassifikationssysteme
Dezimalklassifikation (DK)• Haupttafel / Aufbau:
– 0 Allgemeines– 1 Philosophie, Psychologie– 2 Religion, Theologie– 3 Sozialwissenschaften– 4 [derzeit frei]– 5 Mathematik, Naturwissenschaften– 6 Angewandte Wissenschaften, Medizin, Technik– 7 Kunst, Musik, Sport, Spiele– 8 Literaturwissenschaft, Sprachwissenschaft– 9 Geographie, Biographien, Geschichte
I.C.McIlwaine: The Universal Decimal Classification: Guide to its Use. – The Hague: UDC Consortium, 2000.Karl Fill: Einführung in das Wesen der Dezimalklassifikation. - Berlin, Köln: Beuth Verl., 1981.
Online: www.udcc.org/ (Ausschnitte aus der DK)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 121
Klassifikationssysteme
Dezimalklassifikation (DK) - Notationsbeispiel 1
2 Religion, Theologie29 Nichtchristliche Religionen291 Allgemeine und vergleichende Religionswissenschaft291.2 Religiöse Lehren. Dogmen291.21 Gottheiten. Gegenstand der Religion. Verehrung der
Gottheiten. Göttersagen. Funktionen der Götter. Götter-und Geisterwelten
291.213 Verehrung von Menschen, Halbgöttern, Helden, Heiligen, Herrschern (Apotheose)
291.213.4 Ahnenkult. Kult der Hausgötter: Manen, Laren, Penaten
HHU Düsseldorf – SS 2005 Wissensrepräsentation 122
Klassifikationssysteme
Dezimalklassifikation (DK) - Notationsbeispiel 2669 Metallurgie. Metalle und Legierungen669.1 Eisenhüttenkunde. Eisen und Stahl669.16 Herstellung von Roheisen669.162 Roheisenerzeugung. Erste Schmelzung669.162.2 Hochöfen669.162.26 Betrieb von Hochöfen669.162.266 Hochofenabstich669.162.266.2 Roheisenabstich669.162.266.23 Abstechen in Gießbetten und Herstellen der Masselbetten669.162.266.232 Abstechen in Gießbetten669.162.266.232.6 Abstechen in Gießmaschinen669.162.266.232.64 in Gießmaschinen mit endlosen Bändern
synkategorematischer Begriff; wird erst mit nächsthöherer Ebene vollständig.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 123
Klassifikationssysteme
• Neben den Systematischen Tafeln hat die DK für spezielle Kategorien Ergänzungstafeln
• Allgemeine Ergänzungszahlen KATEGORIE SYMBOL
– Sprache =...– Form (0...)– Ort (1/... bis 9/...)– Zeit „...“– Materialien -03– Personen -05
• Besondere Ergänzungszahlen– Kennzeichnungen (-...)– Aspekte u.a. (.0...)– Synthese (’...)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 124
Klassifikationssysteme
• Allgemeine Ergänzungszahlen der Zeit (Beispiele)
– „-“ vorchristliche Zeit– „+“ christliche Zeit– „04/14“ Mittelalter– „15/19“ Neuzeit– „32“ Jahreszeiten– „321“ Frühling– „322“ Sommer– ...– „36“ Zeit in Sicht der
Not– „362“ Friedenszeit– „364“ Kriegszeit
• Allgemeine Ergänzungszahlen der Sprache (Beispiele)
– =00 mehrsprachig– =20 englisch– =30 deutsch– =392 friesisch– =393 niederländisch– =393.2 flämisch– =393.6 afrikaans– =40 französisch– =490 provenzalisch– =499 katalanisch– =50 italienisch– =60 spanisch
HHU Düsseldorf – SS 2005 Wissensrepräsentation 125
Klassifikationssysteme
• Besondere Ergänzungszahlen (Aspekte) im Bereich DK 7 (Beispiele)
– 7.061 Fälschungen– 7.07 Arten der
Beschäftigung mit Kunst
– 7.071 Künstler– 7.072 Kunstwissen-
schaft– 7.073 Kunstliebhaber– 7.075 Kunsthändler– 7.078 öffentliche
Förderung der Kunst
• Systematische Tafel im Bereich DK 7 (Ausschnitt)– 737.1 Münzen– 738.5 Mosaik– 739.8 Nippes
• Kombination Systematik-Notation und besondere Ergänzungszahl
– 737.1.061 Fälschungen von Münzen
– 738.5.061 Fälschungen von Mosaiken
– 739.8.075 Händler von Nippes
HHU Düsseldorf – SS 2005 Wissensrepräsentation 126
Klassifikationssysteme
DK-Register• enthält in einer natürlichen Sprache alle Benennungen der
Notationen aus den systematischen Tafeln und aus den Ergänzungstafeln
• enthält Synonyme und Quasi-Synonyme der Benennungen• Assoziationsrelation („siehe auch“)• unterscheidet Homonyme bzw. PolysemeAusschnittbeispiele:Deutschland (Geographie) 914.3--- (Geschichte) 943--- (Ortsanhängezahl) (43)Dock ... siehe auch TrockendocksPinakothek siehe GemäldegalerienSchlangen (Zoologie) 598.12Schlangen (Tierzucht) 636.98
Notation aus Ergänzungstafel
Notation aus systematischer Tafel
Assoziationsrelation
Homonym-kontrolle
Synonym
HHU Düsseldorf – SS 2005 Wissensrepräsentation 127
Klassifikationssysteme
Mehrere Klassen verbinden (syntaktisches Indexieren)
– (1.) Beziehung. Symbol: :Beispiel: Lichtbrechung von RubinenRubin 549.517.1Lichtbrechung 535.323also: 549.517.1:535.323
– (2.) Beiordnung. Symbol: +Beispiel: Mathematik und PhysikMathematik 51Physik 53also: 51+53
– (3.) gerichtete BeziehungSymbol: ::
Beispiel: VerkehrsmedizinVerkehr 656Medizin 61also: 61::656
– (4.) Erstreckung (von-bis)Symbol: /
Beispiel: der Gesamtbereich Biologie, Botanik, ZoologieBiologie 57Botanik 58Zoologie 59also: 57/59
HHU Düsseldorf – SS 2005 Wissensrepräsentation 128
Klassifikationssysteme
• (5.) Kombination einer DK-Zahl der Haupttafel mit einer allgemeinen Ergänzungszahl
• Zahl aus Haupttafel [Zeichen für Typ der Ergänzungszahl] Ergänzungszahl
• Beispiel: Prostitution in DeutschlandProstitution 176.5Zeichen für Ort (...) allgemeine ErgänzungszahlDeutschland 43
also: 176.5(43)
• (6.) Kombination einer DK-Zahl der Haupttafel mit einer speziellen ErgänzungszahlZahl aus Haupttafel [Zeichen für Typ der Ergänzungszahl] Ergänzungszahl für markierten BereichBeispiel: Fälschungen von Mosaiken (siehe oben!)Mosaik 738.5Zeichen Ergänzungszahl.0 ... spezielle ErgänzungszahlFälschungen 61 (darf im Bereich 7 eingesetzt werden)also: 738.5.061
HHU Düsseldorf – SS 2005 Wissensrepräsentation 129
Klassifikationssysteme
Fallbeispiel: DK-Suche beim Katalog der ETH Zürich: Index
Suchargument
HHU Düsseldorf – SS 2005 Wissensrepräsentation 130
Klassifikationssysteme
DK-Suche beim Katalog der ETH Zürich: Katalogkarte
HHU Düsseldorf – SS 2005 Wissensrepräsentation 131
Klassifikationssysteme
Yahoo!• Gründer und derzeitige
CEOs: Jerry Yang und David Filo
• entstanden 1993 aus einem Verzeichnis von Bookmarks
• Yahoo: (unsympathische) Wesen aus „Gullivers Reisen“; Akronym für „yet another hierarchical officious oracle“ oder auch schlicht Ausruf
HHU Düsseldorf – SS 2005 Wissensrepräsentation 132
Klassifikationssysteme
Polydimensionale Ordnung
@: Wechsel der Begriffsleiter(unechte) Polyhierarchie
HHU Düsseldorf – SS 2005 Wissensrepräsentation 133
Klassifikationssysteme
Zuordnung einerWebsite zu mehreren
Klassen
HHU Düsseldorf – SS 2005 Wissensrepräsentation 134
Klassifikationssysteme
88malFrauen alsBenennung
fürunterschied-
licheKlassen
Klassen-bezeichnun-
gen beiYahoo! sind
synkate-gorematisch.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 135
Yahoo ! - Baumstruktur (Ausschnitt / fingiertes Beispiel: Suchenach: „The Game of Go“) - Patent US 5991756
Yahoo's Main Menu
1 Recreation 16 Restaurants
6 URL 8 Tournaments
9 Boating
21 Joe's Pizza To Go
22 "To Go" Delivery Services
7 Chess
5 URL
20 Food To Go
4 Go
3 Board Games
2 Games
„Game$“„Go$“
Kein direkter Treffer
HHU Düsseldorf – SS 2005 Wissensrepräsentation 136
Klassifikationssysteme
Yahoo! Suchalgorithmus• bei Phrase: Anzeige der direkten Treffer (Categories [d.h.:
Klassenbenennungen], Sites, News)• sonst: Elimination von Stoppwörtern• automatische Rechtsfragmentierung (stets: SUCHTERM*)• bei genau 1 Suchwort sowie bei mit ODER verknüpften
Suchwörtern: Anzeige der direkten Treffer• bei mehreren mit UND verknüpften Suchwörtern:• 1. Anzeige der direkten Treffer• 2. Anzeige der indirekten Treffer (min. 1 Suchwort direkter Treffer,
anderes Suchwort Unterbegriff eines direkten Treffers) -Aufhebung der Probleme mit den Synkategoremata
Jiong Wu: Information Retrieval from Hierarchical Compound Documents / Yahoo Inc. – Patent US 5991756 vom 23.11.1999. – Mechtild Stock; Wolfgang G. Stock: Recherchieren im Internet. – Renningen: expert-verl., 2004, Kap. 2.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 137
Dokumenten-speicher
1 9 - Recreation Desc. Fun Cat.2 8 1 Games Desc. - Cat.3 8 2 Board Games Desc. - Cat.4 6 3 Go Desc. - Cat.5 - 4 Title / URL Desc. - Site6 - 4 Title / URL Desc. - Site7 8 3 Chess Desc. - Cat.8 ... 7 Tournements Desc. Contests Cat.9 ... 1 Boating Desc. Sailing Cat.
...Game: 2, 3, NullGamele: 10,12, NullGander: 39, 67, 102, Null...Go: 4, 20, 21, 22, ...Gobble: 82, 102, Null...The: Ignore
Wort-index
Such-maschine
The Gameof Go Ausgabeliste
Anfrage
Treffer-liste
AnfrageDoku-ment
Dok. Zeit Intervall der "Kinder"1 xxx 00/00/0000 2-9 -2 xxx 00/00/0000 3-8 -3 xxx 00/00/0000 4-8 -4 xxx 00/00/0000 5-6 -5 xxx 00/00/0000 ∅ 106 xxx 00/00/0000 ∅ 5
Gewichtung
Struktur derIndices
beiYahoo!
PatentUS 5991756
HHU Düsseldorf – SS 2005 Wissensrepräsentation 138
Klassifikationssysteme
Klassifikation gewerblicher Schutzrechte
• Patente und Gebrauchsmuster: – Internationale Patentklassifikation (IPC)– ECLA
• Marken:– Wiener Klassifikation der figürlichen Darstellungen– Nizza Klassifikation der Waren
• Geschmacksmuster:– Locarno Klassifikation der Waren
• alle Klassifikationen gewerblicher Schutzrechte werden von der World Intellectual Property Organization (WIPO) in Genf gepflegt
unsereBeispiele
Online: classifications.wipo.int
HHU Düsseldorf – SS 2005 Wissensrepräsentation 139
Klassifikationssysteme
Internationale Patentklassifikation / International Patent Classification (IPC)
• nach dem Straßburger Abkommen über die IPC (1971; in Kraft getreten 1975) einheitliche Klassierung aller Patentschriften weltweit
• neben den Patentämtern halten sich alle Datenbank-produzenten beim Indexieren an die IPC
• Gegenstandsbereich: alles, was patentiert werden kann, d.h. alle technischen Gegenstände (Anm.: Dieser Bereich kann sich von Zeit zu Zeit wandeln; z.Z. etwa bei den Softwarepatenten)
• derzeit (7.Aufl.) rund 69.000 Klassen
HHU Düsseldorf – SS 2005 Wissensrepräsentation 140
Klassifikationssysteme
IPC - Lexikon in 8 Sektionen:– A Täglicher Lebensbedarf (ca. 7.500 Gruppen)– B Arbeitsverfahren; Transportieren (16.500)– C Chemie; Hüttenwesen (13.500)– D Textilien; Papier (3.000)– E Bauwesen; Erdbohren; Bergbau (3.000)– F Maschinenbau; Beleuchtung; Heizung;
Waffen; Sprengen (8.000)– G Physik (7.000)– H Elektrotechnik (7.000)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 141
Klassifikationssysteme
Struktur der IPCSektion: 1 Stelle (z.B. B)- Klasse: 2 weitere Stellen (z.B. B64)- Unterklasse: 1 Stelle (z.B. B64C)- Gruppen: 3 Stellen (z.B. B64C 025)- Hauptgruppe: 2 Stellen stets 00 (z.B. B64C 025/00)- Untergruppe: i.d.R 2 Stellen (nicht 00), u.U. bis zu
4 Stellen (z.B. B64C 025/02)• bis zur Gruppenebene: Notationen strukturabbildend hierarchisch• Untergruppenebene: Notationen sequentiell
HHU Düsseldorf – SS 2005 Wissensrepräsentation 142
Klassifikationssysteme
B Arbeitsverfahren; TransportierenB64 Luftfahrzeuge; Flugwesen; RaumfahrtB64C Flugzeuge; Hubschrauber; Drehflügelflugz.B64C 025 --B64C 025/00 Start- bzw. LandegestelleB64C 025/02 . FahrgestelleB64C 025/08 .. nicht fest angeordnet, z.B. abwerfbarB64C 025/10 ... einfahrbar, klappbar oder dgl.B64C 025/18 .... BetätigungsmittelB64C 025/26 ..... Steuerung oder Verriegelung dafürB64C 025/30 ...... Notbetätigung
HHU Düsseldorf – SS 2005 Wissensrepräsentation 143
Klassifikationssysteme
Hinweise– allgemeine Querverweise
Beispiel: H05B 3/03 Widerstandsheizung / Elektroden (elektrothermische Behandlung von Erzen C22B 4/00)
– Vorrangregel (falls ein Gegenstand an mehreren Stellen klassiert werden kann, aber nur an einer Stelle klassiert werden sollte) Beispiel: H05B 3/40 Heizelemente ... (3/62, 3/68, 3/78 haben Vorrang)
– Orientierungsverweis (Hinweis auf verwandte Gegenstände)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 144
Klassifikationssysteme
Hybrid-System– Hybrid-Systeme: an manchen Stellen der IPC sind Index-Codes
vorgesehen, die nur in Verbindung mit (dort definierten) anderenNotationen zu verwenden sind (statt des Schrägstriches hier: Doppelpunkt). Beispiel: B62D (Motorfahrzeuge), B62D 101:00 (Fahrgeschwindigkeit)
– analog zu den speziellen Ergänzungstafeln der DK– verbundene Index-Codes: Darstellung einer Notation und eines
Index-Codes in einer Klammer; Beispiel: (C08F 210/16, 214:06) -Themenkette i.S. syntaktischen Indexierens
– nicht verbundene Index-Codes: Darstellung des Index-Codes allein als allgemeine Zusatzinformation
HHU Düsseldorf – SS 2005 Wissensrepräsentation 145
Klassifikationssysteme
• Klassierung von Erfindungsobjekten– Funktionsorientierung eines Gegenstandes (z.B. Kolben) und
Anwendungsorientierung eines Gegenstandes (z.B. Anordnung von Kolben in einem Motor) berücksichtigen!
– System als Ganzes sei Gegenstand: dann auch die nicht trivialen Einzelheiten klassieren (z.B. gesamte Radaufhängung: wenn wichtig, auch die Blattfeder berücksichtigen)!
– chemische Formeln (insb. organische Verbindungen): alle vollständig identifizierten Verbindungen berücksichtigen!
– soviele IPC-Notationen wie nötig, um alle Ansprüche des Patentes wiederzugeben
– die Notation(en) des Hauptanspruches als erste nennen, dann Nebenansprüche (einige Patentämter klassieren nur den Hauptanspruch)
– X-Notationen: X (an beliebiger Stelle einer Notation) zeigt an, dass die IPC den abzubildenden Gegenstand nicht genau trifft; hier ist Handlungsbedarf für Weiterentwicklungen der IPC
HHU Düsseldorf – SS 2005 Wissensrepräsentation 146
Klassifikationssysteme
• Klassierung von Erfindungsobjekten– Hauptklasse(n)
Hauptansprüche der Erfindungsschrift– Nebenklasse(n)
Nebenansprüche der Erfindungsschrift– Doppelstrichklasse(n)
„Zusatzinformationen“; nicht rechtlicher, sondern ausschließlich technischer Natur (von den Erfindungsinformationen durch einen Doppelstrich // getrennt)
– Indexklasse(n)verbundene / unverbundene Indexcodes
HHU Düsseldorf – SS 2005 Wissensrepräsentation 147
Klassifikationssysteme
Fallbeispiel: IPC bei DEPATISnet (DPMA)• Suche in der IPC: mit schwarzem Balken am Rand:
Indexcodes; sonst: Notationen
Nota-tionen
Index-Codes
HHU Düsseldorf – SS 2005 Wissensrepräsentation 148
Klassifikationssysteme
IPC in der Version bei DEPATISnet
Index-codes
HHU Düsseldorf – SS 2005 Wissensrepräsentation 149
Klassifikationssysteme
Detailsucheder Experten-
maskenach:
Hauptklasse,Nebenklasse,Doppelstrich-
klasse,Indexklasse
möglich
HHU Düsseldorf – SS 2005 Wissensrepräsentation 150
Klassifikationssysteme
Anzeige derbibliogra-phischen
undinhalts-
erschließen-den
Informationen
zusätzlich:Volltext(PDF)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 151
Klassifikationssysteme
ECLA: European Classification System– IPC: in gewissen Technikbereichen nicht tief genug
gegliedert– ECLA erweitert IPC „nach unten“ und verfeinert das
System– erarbeitet beim Europäischen Patentamt; wird bei
einigen großen Patentdatenbanken bei Questel-Orbit eingesetzt
– Bsp.: H04N-007/24C12M2IPC ECLA
– z.T. diverse neue Klassen (und damit lange Notationen)
David T. Dickens: The ECLA Classification System. – In: World Patent Information 16 (1994), 28-32.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 152
Klassifikationssysteme
ECLA: Bsp. G06F-17/30 Information Retrieval
Online: l2.espacenet.com/espacenet/eclasrch
HHU Düsseldorf – SS 2005 Wissensrepräsentation 153
Klassifikationssysteme
Wiener Klassifikation der figürlichen Darstellungen– Einsatz bei Markendatenbanken zur inhaltlichen
Beschreibung von Bildmarken (wie die „lila Kuh“ von Milka)
– seit 1973 (verabschiedet in Wien) international eingesetzt
– 3 Hierarchieebenen:• 29 Kategorien• 144 Abteilungen• 1.634 Sektionen (in Haupt- und Hilfstafeln)
– formale Graphikelemente (etwa 26: geometrische Figuren oder 29: Farben) und inhaltliche Aspekte (etwa 2: Menschen oder 22: Musikinstrumente)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 154
Klassifikationssysteme
Wiener Klassifikation der figürlichen Darstellungen / Ausschnitt– 03 Animals
• 03.01 Quadrupeds (Series I)– 03.01.01. Lions– 03.01.04. Tigers or other large felines– 03.01.06. Cats or other small felines– 03.01.08. Dogs, wolves, foxes
• ... (gekürzt)• Auxiliary Section Associated with Principal Section 3.1.1
– A 03.01.02 Heraldic lions– Auxiliary Section Associated with Principal Section 3.1.1-3.1.15
– A 03.01.17 Animals of Series I standing– A 03.01.24 Animals of Series I stylized
– Klassierungsbeispiel: stilisierter Hund– 03.01.08 / 03.01.24
HHU Düsseldorf – SS 2005 Wissensrepräsentation 155
Klassifikationssysteme
Wirtschaftsklassifikationen• Klassifikationen der Amtlichen Statistik
– NACE (Europäische Union)– WZ 03 (Deutschland)– SIC (USA - veraltet)– NAICS (Nordamerika)
• Spezielle Branchenklassifikationen– European Business Classification (Schober)
• Produktklassifikationen– Predicasts Product Codes (Gale Group)– Kompass– Dun & Bradstreet SIC
Anneliese Krobath: Analyse von amtlichen und proprietären Wirtschaftsklassifikationen anhand eines Kriterien-katalogs. – Dipl.-Arb. Karl-Franzens-Univ. Graz, 2004.
Mechtild Stock; Wolfgang G. Stock: Qualität professioneller Firmeninformationen im World Wide Web. - In:Willi Bredemeier et al.: Die Branche elektronischer Geschäftsinformation in Deutschland 2000/2001. –
Hattingen; Kerpen; Köln, 2001, Kap. 3.2: Branchen- und Produktklassifikationen, 355-377.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 156
Klassifikationssysteme
NACE• Nomenclature général des activités économiques dans les
Communautés Européens• NACE (Rev. 1) seit 1993 verbindliche Klassifikation der
Wirtschaftszweige in der EU• 4-stellige Notationen; derzeit 640 Klassen• 3 Hierarchieebenen Beispiel
– Abteilung (2 Stellen) 29– Gruppen (1 weitere Stelle) 29.5– Klassen (1 weitere Stelle) 29.56– zusätzlich: Abschnitte (Buchstabennotationen),die
Abteilungen sequentiell zusammenfassen, Bsp.: D für die Abteilungen 15 - 37NACE Rev. 1: Statistische Systematik der Wirtschaftszweige in der Europäischen Gemeinschaft. – Luxembourg:
Amt für Amtliche Veröffentlichungen der Europäischen Gemeinschaften, 1996. – (Themenkreis 2: Wirtschaftund Finanzen; Reihe E: Methoden). - Letzte Änderung: NACE Rev. 1.1 (2003).
Online: europa.eu.int/comm/eurostat/ramon/geninfo/geninfo_de.html
HHU Düsseldorf – SS 2005 Wissensrepräsentation 157
KlassifikationssystemeA Land- und Fortwirtschaft 01, 02B Fischerei und Fischzucht 05C Bergbau und Gewinnung von Steinen und Erden 10 bis 14D Verarbeitendes Gewerbe 15 bis 37E Energie- und Wasserversorgung 40, 41F Baugewerbe 45G Handel, Instandhaltung und Reparatur von Kraftfahr-
zeugen und Gebrauchsgütern 50 bis 52H Gastgewerbe 55I Verkehr und Nachrichtenübermittlung 60 bis 64J Kredit- und Versicherungsgewerbe 65 bis 67K Grundstücks- und Wohnungswesen, Vermietung beweglicher
Sachen, Erbringung von Dienstleistungen f. Unternehmen 70 bis 74L Öffentliche Verwaltung, Verteidigung, Sozialversicherung 75M Erziehung und Unterricht 80N Gesundheits-, Veterinär- und Sozialwesen 85O Erbringung von sonstigen öffentlichen und
persönlichen Dienstleistungen 90 bis 93P Private Haushalte 95Q Exterritoriale Organisationen und Körperschaften 99
NACE1. Hierarchie-
ebene
HHU Düsseldorf – SS 2005 Wissensrepräsentation 158
Klassifikationssysteme
WZ 93 / WZ 03• Übernahme der NACE in die deutsche amtliche Statistik ab
1993 als „Klassifikation der Wirtschaftszweige“ (WZ 93) –Überarbeitung 2003
• 5-stelliger Code (die letzte Stelle gilt nur für Deutschland)• 1.700 Klassen• Einsatz bei
– Statistisches Bundesamt, Bürgel, Creditreform, Hoppenstedt, AZ Bertelsmann, Schober
• Achtung: z.T. Klassen ohne Änderung der Definition gegenüber Oberbegriffen
• Beispiel: 35.3 (Luft- und Raumfahrzeugbau)– 35.30 (Luft- und Raumfahrzeugbau (bis hierhin: NACE Rev. 1) - ohne
Informationsgewinn» 35.30.0 (Luft- und Raumfahrzeugbau (5. Stelle der WZ 93) - wiederum
ohne Informationsgewinn
HHU Düsseldorf – SS 2005 Wissensrepräsentation 159
Klassifikationssysteme
NACE - WZ 03 / Beispiel: Druckmaschinen• 29 (Maschinenbau)• 29.5 (Herstellung von Maschinen für sonstige
bestimmte Wirtschaftszweige)• 29.56 (Herstellung von Maschinen für bestimmte
Wirtschaftszweige a.n.g.) - bis hierhin: NACE• 29.56.1 (Herstellung von Maschinen für das
Druckgewerbe) - nur für den Gebrauch in Deutschland
Alphabetisches Verzeichnis zur Klassifikation der Wirtschaftszweige, Ausgabe 1993. – Stuttgart:Metzler-Poeschel, 1993.
Online: www.destatis.de/allg/d/klassif/wz2003.htm
HHU Düsseldorf – SS 2005 Wissensrepräsentation 160
Klassifikationssysteme
Standard Industrial Classification (SIC)• 1939 - 1997 Klassifikation der Amtlichen Statistik der USA• letzte erschienene Revision: 1987• abgelöst durch NAICS 1997• wird derzeit noch von vielen Informationsproduzenten
eingesetzt, u.a. Information Access Group, Dun & Bradstreet, Hoppenstedt, Schober
• 4-stellige Notationen - rund 1.000 Klassen• hierarchischer Notationsaufbau, 4 Hierarchieebenen• stets mit „0“ auf vier Stellen aufgefüllt
Online: www.osha.gov/oshstats/sicser.html
HHU Düsseldorf – SS 2005 Wissensrepräsentation 161
Klassifikationssysteme
SIC / Grundstruktur– 0 Landwirtschaft, Forstwirtschaft, Fischerei– 1 Bergbau, Rohstoffe, Hoch- und Tiefbau– 2 Herstellung kurzlebiger Verbrauchsgüter– 3 Herstellung langlebiger Gebrauchsgüter– 4 Transport, Nachrichtentechnik, Versorgungsbetriebe– 5 Groß- und Einzelhandel– 6 Finanzdienstleistungen– 7 (andere) Dienstleistungen– 8 Gesundheit und Bildung– 9 Staat, Regierung
SIC / Beispiel: Druckmaschinen3000 (Herstellung langlebiger Gebrauchsgüter)
3500 (Maschinenbau)3550 (Maschinenbau - Spezialmaschinen)
3555 (Maschinenbau - Druck)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 162
Klassifikationssysteme
NAICS / North American Industry Classification System• keine SIC-Revision, sondern neues System
– durchgehend neu: Notationen– aus SIC unverändert übernommen: 422 Klassen– aus SIC revidiert übernommen: 390 Klassen– neue Klassen: 358 Klassen (z.B. „51 Information“)– 6-stelliger Code - 1.170 Klassen– 5 Hierarchieebenen
• Sektoren (2 Stellen) - sequentielle Notationen• Subsektor (1 weitere Stelle) - ab hier hierarchische Notationen• Branchengruppe (1 Stelle)• Branche (1 Stelle) - bis hierhin international (NAFTA-Länder)• Teilbranche (1 Stelle) - landesspezifisch für USA, Kanada,
Mexiko
HHU Düsseldorf – SS 2005 Wissensrepräsentation 163
Klassifikationssysteme
• 11 Agriculture, Forestry, Fishing and Hunting
• 21 Mining• 22 Utilities• 23 Construction• 31-33 Manufacturing• 42 Wholesale Trade• 44-45 Retail Trade• 48-49 Transportation and
Warehousing• 51 Information• 52 Finance and Insurance• 53 Real Estate and Rental and
Leasing• 54 Professional, Scientific, and
Technical Services
• 55 Management of Companies and Enterprises
• 56 Administrative and Support and Waste Management and Remediation Services
• 61 Educational Services• 62 Health Care and Social
Assistance• 71 Arts, Entertainment, and
Recreation• 72 Accommodation and Food
Services• 81 Other Services (except Public
Administration)• 92 Public Administration
NAICS: 1. Hierarchieebene
HHU Düsseldorf – SS 2005 Wissensrepräsentation 164
Klassifikationssysteme
NAICS• eingesetzt bei:
– Amtlicher Statistik USA, Kanada und Mexiko– Datenbanken der Gale Group (u.a. PROMT)– (einigen) Firmendatenbanken in den USA
• Beispiel: Druckmaschinen– 31 - 33 (Manufacturing)– 333 (Machinery Manufacturing)– 3332 (Industrial Machinery Manufacturing)– 33329 (Other Industrial Machinery Manufacturing)– 333293 (Printing Machinery and Equipment
Manufacturing)North American Industry Classification System. – Lanham, MD: Bernan Press, 1998. Letzte Änderung: NAICS 2002.Ruth A. Pagell; Patricia J.S. Weaver: NAICS: NAFTA‘s industrial classification system. – In: Business Information
Review 14 (1997) 1, 36-44.Online: www.naics.com
HHU Düsseldorf – SS 2005 Wissensrepräsentation 165
Klassifikationssysteme
Spezielle Branchenklassifikation: Schober– „European Business Classification“ (EBC)– rund 10.000 Klassen für Wirtschaftsbranchen und
Wirtschaftsaktivitäten zur Unterstützung der Suche in einer B-to-B-Adressdatenbank
– Beispiele für Klassen der Wirtschaftsaktivitäten• 6679 DIMA Düsseldorf• 5273 INFOBASE Intern. Fachmesse für Kommunikation Frankfurt
– Beispiel Druckmaschinen• 703 Druckmaschinen Hersteller• 2557 Papier- und Druckmaschinen Hersteller
HHU Düsseldorf – SS 2005 Wissensrepräsentation 166
Klassifikationssysteme
Produktklassifikation 1: Gale-Codes (Predicasts-Codes)• angelehnt an SIC; erweitert auf 7 Stellen• Beispiel: 0174 (Zitrusfrüchte)
– 0174007 Pampelmusen– 0174012 Zitronen– 0174013 Limonen– 0174015 Apfelsinen– 0174019 Mandarinen– 0174021 Tangelos– 0174022 Temples– 0174024 Orangen, Valencia– 0174099 Zítrusfrüchte, sonstige
• Einsatz: in diversen Gale-Datenbanken
Online: support.dialog.com/searchaids/dialog/galecodes/
HHU Düsseldorf – SS 2005 Wissensrepräsentation 167
Klassifikationssysteme
Produktklassifikation 2: Dun & Bradstreet SIC• Erweiterung der SIC um zwei weitere Hierarchieebenen
(jeweils 2-stellig)• über 18.000 Klassen• Stellen 1 bis 4: SIC• Stellen 5 und 6: Produktgruppe• Stellen 7 und 8: Produkte• wie bei SIC üblich: Auffüllen nach rechts freier Stellen
durch Nullen• Einsatz: (geplant bzw. derzeit in Arbeit): bei der D&B-
Firmendatenbank
HHU Düsseldorf – SS 2005 Wissensrepräsentation 168
Klassifikationssysteme
D&B SIC. Beispiel Druckmaschinen35550000 (Printing Trades Machinery)
35550100 (Printing Presses)35550101 (Presses, Envelope, Printing)35550102 (Presses, Gravure)
35550200 (Printing Plades)35550201 (Plates, Metal: Engravers')35550202 (Plates, Offset)
usw. (gekürzt)35559900 (Printing Trades Machinery, NEC)
35559901 (Bronzing or Dusting Machines for the Printing Trade)usw. (gekürzt)35559906 (Typographic Numbering Machines).
HHU Düsseldorf – SS 2005 Wissensrepräsentation 169
Klassifikationssysteme
Produktklassifikation 3: Kompass• Eigenes Produktklassifikationssystem der Kompass-
Firmendatenbanken• Gegenstand: B-to-B Produkte und Dienstleistungen - rund
50.000 Klassen• 3 Hierarchieebenen:
– Branche (2-stellig)– Fachgruppen (weitere 3 Stellen)– Produkte (weitere 2 Stellen)
• auf der Ebene der Fachgruppe zusätzlich: I / E (Import- bzw. Exportaktivitäten einer Firma)
• auf der Ebene der Produkte zusätzlich P / D / S (Produktion, Distribution, Service)
Online: www.kompass.com/
HHU Düsseldorf – SS 2005 Wissensrepräsentation 170
Klassifikationssysteme
KompassMeist hierarchisch strukturiert:• 20 (Nahrungs- und Genussmittel)• 20420 (Fische in Konserven und anderen Verpackungen)• 2042052 (Fischfrikadellen, -bällchen und -kuchen in Dosen)
• ... aber mit Ausnahmen:• 20427 (Fische in Konserven und anderen Verpackungen /
Landesspezifische Produkte / Frankreich)• 2042701 (Bouillabaisse in Konserven)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 171
Klassifikationssysteme
44 (Maschinen und Anlagen für die Zellstoff-, Papier- und Druckindustrie.Büromaschinen und Anlagen für die elektronische Datenverarbeitung)
44140 (Druckmaschinen und Zubehör / Teil 1)4414001 (Druckmaschinen, Hochdruck, Flachdruckprinzip)4414002 (Druckmaschinen, Hochdruck, Rotationsoffsetprinzip)usw. (gekürzt)4414053 (Druckmaschinen, Heliografieverfahren)
44141 (Druckmaschinen und Zubehör / Teil 2)4414122 (Druckmaschinen, Mehrfarben)4414124 (Druckmaschinen, multifunktional)usw. (gekürzt)4414151 (Zylinder für Druckmaschinen)4414152 (Trockner für Druckmaschinen)usw. (gekürzt)
44149 (Druckmaschinen und Zubehör)4414901 (Andruckpressen, Flexodruck, Anilindruck)
44160 (Spezielle Druckmaschinen und Zubehör)usw. (gekürzt)
Achtungbei 44140
und 44141:
SequentielleNotation!
Kompass.Bsp.: Druck-maschinen
HHU Düsseldorf – SS 2005 Wissensrepräsentation 172
Klassifikationssysteme
Branchen-Ebene:Import / Export
Produkt-Ebene:Produzent / Handel /
Dienstleister
Kompass-KlassifikationSuchoberfläche
HHU Düsseldorf – SS 2005 Wissensrepräsentation 173
Klassifikationssysteme
Geographische Klassifikationen– finden in diversen Datenbanken (auch Wirtschaftsdaten-
banken) zusätzlich zu anderen Systemen Einsatz– haben ihre Wurzeln teilweise in der amtlichen Statistik
und finden auch dort ihren Einsatz– werden auch als Gebietsbeschreibungen in wissen-
schaftlichen Untersuchungen (etwa Regionalforschung oder Ökonomie) verwendet
– bedeutende Klassifikationssysteme• NUTS• Gale Group Country Codes• sowie Derivate davon
HHU Düsseldorf – SS 2005 Wissensrepräsentation 174
Klassifikationssysteme
NUTS. Nomenclature des unités territoriales statistiques – entwickelt von der EU zur
amtlichen Statistik und zur Verwendung bei eigenen Datenbanken (etwa TED)
– hierarchisches System • Landesbezeichnung (2-stellig
mit Buchstaben) • Untereinheit (1-stellig mit
Zahlen; falls mehr als 10 Untereinheiten: zusätzlich mit Buchstaben)
• weitere Untereinheiten (bis zur Kreisebene bzw. bis zu den kreisfreien Städten)
Beispiele:
AT ÖsterreichAT2 SüdösterreichAT22 SteiermarkAT221 Graz
DE DeutschlandDEA Nordrhein-WestfalenDEA2 Regierungsbezirk KölnDEA27 Rhein-Erft-KreisDEA2A Oberbergischer
Kreis
Online: europa.eu.int/comm/ramon/nuts/home_regions_de.html
HHU Düsseldorf – SS 2005 Wissensrepräsentation 175
Klassifikationssysteme
NUTS: Suche via Landkarten
HHU Düsseldorf – SS 2005 Wissensrepräsentation 176
Klassifikationssysteme
GALE Group Country Codes– entwickelt von Predicasts, übernommen von Gale– derzeit Industriestandard im Bereich der Wirtschaftsdatenbanken– beinhaltet Weltregionen (0 bis 9), Staatengemeinschaften (soweit
vorhanden) und einzelne Länder– Gliederung
• 0 Internationales• 1 Nordamerika• 2 Mittelamerika• 3 Südamerika• 4 Europa• 5 Karibik• 6 Afrika• 7 Mittlerer Osten• 8 Australien, Ozeanien• 9 Asien
Online: support.dialog.com/searchaids/dialog/galecodes/
HHU Düsseldorf – SS 2005 Wissensrepräsentation 177
Klassifikationssysteme
GALE Group Country Codes– Beispiele:
1 Nordamerika1USA USA gesamt1U9 Staaten der Westküste1U9CA KalifornienAchtung: Suchen nach USA gesamt und ihrer Staaten in der Form: 1U*
4 Europa4EU Europäische Union4EUGE Deutschland
Hier nicht strukturabbildendhierarchische Notation
HHU Düsseldorf – SS 2005 Wissensrepräsentation 178
Klassifikationssysteme
Derivate der GALE Group Country Codes• da die Gale CC nur bis zur Länderebene reichen, gibt es
Erweiterungen• Beispiel: Ländercode der ifo Literaturdatenbank für Deutschland• bis Länderebene: wie Gale CC (also für Deutschland: 4EUGE)• Bundesländergruppe (1-stellig, N für neue Länder, A für alte
Bundesländer)• Bundesland (3-stellig, Buchstabencodes)• Kreise, Städte (Autokennzeichen)• Beispiel:
– 4EUGE Deutschland– 4EUGEA alte Bundesländer– 4EUGEABAY Bayern– 4EUGEABAYFFB Landkreis Fürstenfeldbruck– 4EUGEABAYFS Landkreis Freising
Bei letzter Hierarchie-ebene: sequentielle
Notation
HHU Düsseldorf – SS 2005 Wissensrepräsentation 179
KlassifikationssystemeMedizinklassifikation: International Statistical Classificationof Diseases – Ausgabe 10 (ICD-10)
• Auf internationaler Ebene erstellt von der World Health Organization (WHO)
• In Deutschland gepflegt von DIMDI (Köln)• Einsatz:
– Abrechnung im öffentlichen Gesundheitswesen (u.a. Krankenhäusern)
– Abrechnung der niedergelassenen Ärzte– Statistik (u.a. Todesursachenstatistik)
• Haupttafeln mit „Schlüsselnummern“ (Notationen)• Bei den Klassen (i.d.R. bei den Dreistellern): Definitionen• Klassierregeln für die jeweiligen Klassen• Allgemeine Klassierregeln• Zusatzkennzeichen (allgemeine Ergänzungszeichen)
Online: www.dimdi.de/dynamic/de/klassi/download/index.html
HHU Düsseldorf – SS 2005 Wissensrepräsentation 180
Klassifikationssysteme
ICD-10 – Haupttafel in 21 Kapiteln. Beispiele:A00-B99 I. Infektiöse und parasitäre KrankheitenC00-D48 II. NeubildungenD50-D89 III. Krankheiten des BlutesE00-E90 IV. Ernährungs- und StoffwechselkrankheitenF00-F99 V. Psychische und VerhaltensstörungenG00-G99 VI. Krankheiten des NervensystemsH00-H59 VII. AugenkrankheitenH60-H95 VIII. Ohrenkrankheiten...S00-T98 XIX. Verletzungen, Vergiftungen und andere Folgen
äußerer UrsachenV01-Y98 XX. Äußere Ursachen von Morbidität und MortalitätZ00-Z99 XXI. Faktoren, die den Gesundheitszustand beeinflussen
und zur Inanspruchnahme des Gesundheitswesens führen
HHU Düsseldorf – SS 2005 Wissensrepräsentation 181
Klassifikationssysteme
ICD-10. Beispiel Haupttafel: Verletzung nach FahrradunfallV01-Y98 Äußere Ursachen von Morbidität und Mortalität
V01-X59 UnfälleV01-V99 Transportmittelunfälle
V01-V09 Fußgänger bei Transportmittelunfall verletztV10-V19 Benutzer eines Fahrrades bei Transportmittel-
unfall verletztV10 Benutzer eines Fahrrades bei Zusammenstoß mit
Fußgänger oder Tier verletztV11 Benutzer eines Fahrrades bei Zusammenstoß mit
einem anderen Fahrrad verletzt...V18 Benutzer eines Fahrrades bei Transportmittelunfall
ohne Zusammenstoß verletztjeweils: 4. Stelle: besondere Ergänzungszahl
HHU Düsseldorf – SS 2005 Wissensrepräsentation 182
Klassifikationssysteme
ICD-10. Beispiel Haupttafel: Fahrradunfall
Besondere Ergänzungszahlen bei V10-V18:.0 Fahrer bei Transportmittelunfall außerhalb des Verkehrs verletzt.1 Mitfahrer bei Transportmittelunfall außerhalb des Verkehrs verletzt....3 Person beim Auf- und Absteigen verletzt...
Notation einer Verletzung durch Stürzen beim Aufsteigen auf ein Fahrrad (ohne Zusammenstoß)V18.3
HHU Düsseldorf – SS 2005 Wissensrepräsentation 183
Klassifikationssysteme
ICD-10. Allgemeine Klassierregeln(1) Kreuz-Stern-System
– Mit einem Kreuz (+) versehene Klassen bedürfen einer Ergänzung– Mit einem Stern (*) versehene Klassen dürfen nur an eine Kreuz-
Klasse angebunden werden.– Beispiel: diabetische Retinopathie bei Typ I-Diabetes
• E10 Primär insulinabhängiger Diabetes mellitus• .3+ (besondere Ergänzungszahl) mit Augenkomplikationen • H36.0* Retinopathia diabetica• Also: E10.3+H36.0*
(2) Optionale Klassen– Mit einem Ausrufezeichen (!) versehene Klassen dürfen an eine
andere Klasse angebunden werden.Beispiel: Z51.0! Strahlentherapie-Sitzung
HHU Düsseldorf – SS 2005 Wissensrepräsentation 184
Klassifikationssysteme
ICD-10– Zusatzkennzeichen (allgemeine
Ergänzungsnotationen)– Es sind max. 2 (der 6) Zusatzkennzeichen hinter
einer Notation zugelassen– R rechts– L links– B beidseits– V Verdachtsdiagnose– Z (symptomloser) Zustand nach der
betreffenden Diagnose– A ausgeschlossene Diagnose
HHU Düsseldorf – SS 2005 Wissensrepräsentation 185
Klassifikationssysteme
ICD-10Diagnosethesaurus
– Register zur ICD– rund 60.000 Einträge
HHU Düsseldorf – SS 2005 Wissensrepräsentation 186
Klassifikationssysteme
ICD-10 bei DIMDI
HHU Düsseldorf – SS 2005 Wissensrepräsentation 187
Klassifikationssysteme
Klassifikationen. Fazit• Klassifikationssysteme spielen eine nicht umgehbare Rolle
in der Informationswirtschaft• Universalklassifikationen: Nutzung vorwiegend in großen
Bibliotheken• WWW: Wenn im Web überhaupt intellektuell ausgewertet
wird, dann klassifikatorisch• Gewerbliche Schutzrechte (Patente, Gebrauchsmuster,
Marken, Geschmacksmuster): international eingesetzte und akzeptierte Systeme. Die professionelle Suche nach Schutzrechtsdokumente geht ausschließlich über die jeweiligen Klassifikationssysteme.
• Wirtschaft: in vielen Wirtschaftsdatenbanken werden Branchen- oder Produktklassifikationen eingesetzt
• Medizin: keine Abrechnung, keine Statistik ohne ICD
HHU Düsseldorf – SS 2005 Wissensrepräsentation 188
Klassifikationssysteme
Klassifikationen. Fazit• Es gibt einige Klassifikationssysteme, die sich hersteller-
übergreifend durchgesetzt haben:– Wirtschaft
• in Europa: NACE• in Nordamerika: NAICS• weltweit (obwohl veraltet): SIC
– Gewerbliche Schutzrechte• Patente, Gebrauchsmuster: IPC• Marken: Wiener Klassifikation, Nizza Klassifikation
– Länder• Gale CC • NUTS
– Medizin: ICD
HHU Düsseldorf – SS 2005 Wissensrepräsentation 189
Klassifikationssysteme
Klassifikationen. Fazit• Aus den „Standardsystemen“ werden Derivate abgeleitet:
• WZ 93 aus NACE• Gale Product-Codes aus SIC• D&B-Product-Codes aus SIC• ifo Ländercode aus Gale CC
• zusätzlich existieren herstellerspezifische Klassifikations-systeme (Schobers EBC, Kompass, ...)
• Eigene, selbsterstellte Klassifikationen eignen sich zum Einsatz in unternehmensweiten Netzen (Intranets, Enterprise Information Portals) sowie zur Strukturierung von Katalogen (im E-Commerce)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 190
Klassifikationssysteme
Vorteile von Klassifikationen (egal, ob bei professionellen Datenbanken oder in [irgendeinem] Unternehmen)– übersichtliche Navigation durch die Hierarchieebenen– sprachunabhängiges System (ggf. Nachteil: Notationen sind
für Laien kaum recherchierbar; Ausgleich durch natürlichsprachige Oberflächen)
– vielfältige Ausdrucksmöglichkeiten durch Trennung von Haupttafeln und Ergänzungstafeln
– einfaches hierarchisches Retrieval durch Truncation (beistrukturabbildend hierarchischen Notationen)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 191
Klassifikationssysteme
Nachteile von Klassifikationen– Die Struktur ist zwar nach unten hin stetig erweiterbar, aber
nur sehr schwer im Grundaufbau zu verändern. Beispiele für Probleme:
• DK: bildet die Wissenschaftsstruktur des späten 19.Jahrhunderts ab
• SIC: musste als Ganzes abgelöst werden, da die neueren wirtschaftlichen Entwicklungen (etwa: Aufkommen der Dienstleistungen) nicht integriert werden konnten
– Bei den Relationen dominiert eindeutig die Hierarchierelation (in der monohierarchischen Variante). Alle Gegenstände, die sich „natürlich“ monohierarchisch gliedern, können gut klassifikatorisch erfasst werden; alle anderen nicht.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 192
Dokumentationssprachen II:Schlagwortmethode
HHU Düsseldorf – SS 2005 Wissensrepräsentation 193
Schlagwortmethode
Schlagwortmethode• einfache Form der verbalen Inhaltserschließung• kontrolliertes Vokabular (Schlagworte)• Vokabular wird der natürlichen Sprache entnommen• Einteilung des Gesamtvokabulars in Facetten
(empfehlenswert, aber nicht zwingend)• Relationen:
– (Quasi-)Synonymie (BF: benutzt für)– Assoziation (allgemeiner „siehe auch“-Verweis;
VB: verwandter Begriff))– chronologische Verweisung (falls nötig)– keine Hierarchierelationen (ansonsten läge ein Thesaurus
vor)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 194
Schlagwortmethode
Beispiel: RSWK („Regeln für den Schlagwort-katalog“ und SWD („Schlagwortnormdatei“)
• eingesetzt bei deutschen Bibliotheken• erarbeitet ab 80er Jahre des 20. Jahrhunderts von der DBI-
Kommission für Sacherschließung; Publikation 1986• Einsatz von Facetten (Person – Ort – „Sache“ – Zeit –
Form)• teilweise Verwendung hierarchischer Relationen („auf dem
Weg zu einem Thesaurus“; hier nicht berücksichtigt)
Regeln für den Schlagwortkatalog: RSWK. – Berlin: Deutsches Bibliotheksinstitut, 31998.Beispielsammlung zu den Regeln für den Schlagwortkatalog. – Berlin: Deutsches Bibliotheksinstitut, 1991.
Konrad Umlauf: Regeln für den Schlagwortkatalog. Die Grundregeln der RSWK. – Berlin: HU Berlin / Institutfür Bibliothekswissenschaft, 1999. – (Berliner Handreichungen zur Bibliothekswissenschaft; 66).
HHU Düsseldorf – SS 2005 Wissensrepräsentation 195
Schlagwortmethode
RSWK / SWD• syntaktisches Indexieren durch Schlagwortketten• Schlagwortketten sind stets in der Reihenfolge Person –
Ort – „Sache“ – Zeit – Form anzugeben• jede Kette drückt ein Objekt der dokumentarischen
Bezugseinheit möglichst präzise und vollständig aus• Wahl des engsten Schlagwortes
– Bsp.: Objekt „Untersuchungen zum HAWIK“– Schlagwort: HAWIK– nicht: Intelligenztest / Kind / HAWIK (mitunter problematisch!)
• Vermeiden von Pleonasmen – überflüssige Häufung sinngleicher Bezeichnungen (z.B.
Zukunftsprognose)– problematisch bei wenig bekannten Begriffen (z.B.
Nuraghenkultur; hier entfällt „Sardinien“ als pleonastisch)• Homonymzusatz (z.B. Atlas <Gebirge>)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 196
Schlagwortmethode
RSWK / SWD. Personenschlagwort
• Eigennamen von Personen (einschließlich fiktiver Personen)
• Familiennamen (z.B. Fugger <Familie>)
• umfassende Liste von Ansetzungsvarianten
• in SWD in Facette p
HHU Düsseldorf – SS 2005 Wissensrepräsentation 197
Schlagwortmethode
RSWK / SWD. Geographisches und ethnographische Schlagwort
• Namen von Gebietskörperschaften
• Namen von Landschaften, Flüssen, Gebirgen, Wegstrecken usw.
• Namen von Völkern, Rassen, Stämmen
• in SWD in Facette g
HHU Düsseldorf – SS 2005 Wissensrepräsentation 198
Schlagwortmethode
RSWK / SWD. Geographisches und ethnographische Schlagwort
• Namensänderungen (z.B. St. Piterburch - St. Petersburg –Petrograd – Leningrad – St. Petersburg)
• Variante 1: aktueller Name als Schlagwort, Verweise von allen anderen Namen
HHU Düsseldorf – SS 2005 Wissensrepräsentation 199
Schlagwortmethode
RSWK / SWD. Geographisches und ethnographische Schlagwort
• Namensänderungen (z.B. St. Piterburch - St. Petersburg –Petrograd – Leningrad – St. Petersburg)
• Variante 2: Chronologische Relation (früher – später)– CF (chronologisch früher) – CS (chronologisch später)– zusätzlich: Hinweis auf den Zeitraum
• Leningrad (Hinweis: 1924 – 1991)CF Petrograd (dort Hinweis: 1919 – 1924)CS Sankt Petersburg (dort Hinweis: ab 1991)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 200
Schlagwortmethode
RSWK / SWD. Sachschlagwort• in SWD in Facette s
MO: mehrgliedriger Oberbegriff
HHU Düsseldorf – SS 2005 Wissensrepräsentation 201
Schlagwortmethode
RSWK / SWD. Sachschlagwort• Einzelbegriff (Bsp.: Pest)• Kompositum (Bsp.: Luftverschmutzung)• Adjektiv-Substantiv-Verbindung (Bsp.: Juristische Person)• ggf. mit Homonymzusatz (Bsp.: Krebs <Medizin>)• stehende Wendung (Bsp.: Information und Dokumentation)• Besonderheit: Werktitel (Facette t)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 202
Schlagwortmethode
RSWK / SWD. Zeitschlagwort• Variante 1: Verbale Epochen-
bezeichnung oder historische Einzelereignisse (als Sach-schlagwort)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 203
Schlagwortmethode
RSWK / SWD. Zeitschlagwort• Variante 2: konkrete Jahresangaben in Verbindung mit
„Geschichte“ (oder „Prognose“ o.ä.)• nicht in SWD enthalten
HHU Düsseldorf – SS 2005 Wissensrepräsentation 204
Schlagwortmethode
RSWK / SWD. Formschlagwort• Erscheinungsweise, literarische oder physische Form der
dokumentarischen Bezugseinheit• nur zu berücksichtigen, wenn der Inhalt tangiert wird
(ansonsten bei formalen Angaben unter Dokumenttyp)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 205
Schlagwortmethode
RSWK / SWD. Ansetzung von Namen von Körperschaften
• ortsgebundene Körperschaften (stets unter dem Ort anzusetzen)
• Facette c
HHU Düsseldorf – SS 2005 Wissensrepräsentation 206
Schlagwortmethode
RSWK / SWD. Ansetzung von Namen von Körperschaften
• nicht ortsgebundene Körperschaften, darunter alle Wirtschaftsbetriebe (unter dem Körperschaftsnamen anzusetzen) – Facette k
• bei Namenswechsel: chronologische Relation (CF – CS)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 207
Schlagwortmethode
RSWK / SWD. Syntaktisches Indexieren durch Schlagwortketten
• pro Kette ein Objekt• so viele Ketten wie unterschiedliche Objekte
HHU Düsseldorf – SS 2005 Wissensrepräsentation 208
Dokumentationssprachen III:Thesauri
HHU Düsseldorf – SS 2005 Wissensrepräsentation 209
Thesauri
Grundlegende Literatur• Jean Aitchison, Alan Gilchrist, David Bowden: Thesaurus
Construction and Use. - London: Fitzroy Dearborn, 42000• Margarete Burkart: Thesaurus. – In: Grundlagen der praktischen
Information und Dokumentation. – München: Saur, 52004, 141-154.
• DIN 1463/1: Erstellung und Weiterentwicklung von Thesauri• DIN 1463/2: Multilinguale Thesauri• DIN 31623/1; DIN31623/2; DIN 31623/3: Indexierung zur
inhaltlichen Erschließung von Dokumenten• Winfried Schmitz-Esser: EXPO-INFO 2000. - Berlin [u.a.]:
Springer, 2000• Gernot Wersig: Thesaurus-Leitfaden. – München [u.a.]: Saur,
21985
HHU Düsseldorf – SS 2005 Wissensrepräsentation 210
Thesauri
ThesaurusEinsatzgebiete
– in eng umgrenzten Fachgebieten• Terminologie eines Faches• Terminologie eines Unternehmens
– in Gebieten, wo fachliches Wissen durch ein (von den betreffenden Fachleuten akzeptiertes) Begriffssystem repräsentiert werden kann
– wenn ausschließlich mit Begriffen der natürlichen Sprache gearbeitet werden soll
– wenn die Struktur des Gebietes über eine monohierarchische Ordnung hinausgeht
– Anmerkung: Klassifikation und Thesaurus schließen sich nicht gegenseitig aus. Geschickt eingesetzt, ergänzen sie sich.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 211
Thesauri
„Thesaurus“ nach DIN 1463/1„Ein Thesaurus im Bereich der Information und Dokumentation ist eine geordnete Zusammenstellung von Begriffen und ihren (vorwiegend natürlichsprachigen) Bezeichnungen, die in einem Dokumentationsgebiet zum Indexieren, Speichern undWiederauffinden dient.“
• Merkmale eines Thesaurus:• 1. Terminologische Kontrolle durch natürlichsprachige
DESKRIPTOREN• 2. Beziehungen zwischen den Begriffen bzw. Bezeichnungen
durch (zweistellige) RELATIONEN• Thesaurus-Software (Freeware, nicht optimal, aber zum Üben
geeignet):• Thew33 von Tim Craven (Univ. of Western Ontario)• http://publish.uwo.ca/~craven/freeware.htm
HHU Düsseldorf – SS 2005 Wissensrepräsentation 212
Thesauri
Terminologische Kontrolle– durch Deskriptoren (Vorzugsbenennungen)– durch Nicht-Deskriptoren (Verweise auf Deskriptoren)– der Deskriptor und die zugehörigen Nicht-Deskriptoren sind
entweder Synonyme (Bsp.: Heirat, Eheschließung) oder Quasi-Synonyme, je nach Zweck des Thesaurus als synonym „erklärte“ Bezeichnungen (Bsp.: Retrieval, Recherche in einem Wirtschaftsthesaurus)
– sowohl beim Indexieren als auch bei Recherchieren wird ausschließlich mit Deskriptoren gearbeitet werden
– eine Recherche mit einem Nicht-Deskriptor im CT-Feld einer professionellen Datenbank führt stets zu null Treffern
HHU Düsseldorf – SS 2005 Wissensrepräsentation 213
Thesauri
Deskriptoren – sollten in der Fachliteratur verwendete Terminologie
widerspiegeln– Einwort- wie Mehrwort-Deskriptoren sind möglich– Mehrwort-Deskriptoren in der natürlichen Wortfolge
belassen– bei Mehrwortbegriffen, die in ihre Aspekte zerlegt
werden sollen: Zerlegungskontrolle• morphologische Zerlegung (Bsp.: Blumengesteck
Blume, Gesteck; falsches Bsp.: Eisenbahn Eisen, Bahn)• semantische Zerlegung (Bsp.: Eisenbahn: Schienenbahn,
Überlandverkehr)– zerlegen? (Postkoordination)
• nur dann, wenn die Kombination der Einzelbegriffe den korrekten Mehrwortbegriff ergibt
• nicht, wenn eine hohe begriffliche Spezifizierung angestrebt wird
HHU Düsseldorf – SS 2005 Wissensrepräsentation 214
Thesauri
Deskriptoren – nicht zerlegen? (Präkombination)
• dann, wenn die Einzelbegriffe eine andere Bedeutung als die Präkombination haben (Bsp.: Schlüsselbein, Öffentlichkeitsarbeit)
• wenn ballastarme Suche ermöglicht werden soll• ggf. Einsatz eines Kombinationsverweises (Bsp.:
Bibliotheksstatistik benutze Kombination Statistik, Bibliothek
– Wortarten• vorzugsweise Substantive; Verben in substantivierter Form• Adjektive an Substantiv gebunden (Bsp.: Internationale
Beziehungen)• Substantiv im Nominativ Singular; Ausnahmen bei nicht
gebräuchlichen Singularformen (Bsp.: Eltern) oder bei Bedeutungsunterschied Singular – Plural (Bsp.: Kosten)
• Abkürzungen bzw. Akronyme nur bei Bekanntheit (Bsp.: UKW)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 215
ThesauriDeskriptoren
– Homonyme / Polyseme:• Unterscheidung durch Klammerzusatz als klärendes Element
Bsp. Homonym: Kiefer [Knochen] – Kiefer [Nadelholz] Bsp. Polysem: Knie [Gelenk] – Knie [Werkstück]
• Unterscheidung durch Verweise von homonymen Nicht-Deskriptorenauf eindeutige DeskriptorenBsp.: Eiweiß benutze Synonym Eiklar oder Protein
– Deskriptorsatz• Bezeichnung des Deskriptors• Auflistung aller Nicht-Deskriptoren• Auflistung aller Deskriptoren, mit denen der Deskriptor in direkter
Beziehung steht• Erläuterung zum Gebrauch (nicht zwingend) – Abk.: H (Hinweis) oder
SN (Scope Note)• Definition (nicht zwingend)• Übersetzungen (nicht zwingend)• Konkordanzen zu anderen Erschließungssystemen (nicht zwingend)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 216
Thesauri
Nicht-Deskriptoren – verweisen auf „ihren“ Deskriptor– alle Synonyme des Deskriptors auflisten– alle Quasi-Synonyme und weitere Bezeichnungen auflisten– Varianten:
• Äquivalenz (Synonyme und Quasi-Synonyme) Bsp: Heirat benutze Synonym (BS) Eheschließung
• Begriffskombination (Verweis von einem Mehrwort-Nicht-Deskriptor auf die einzelnen zerlegten Deskriptoren) Bsp.: Lehrerbildungsgesetz benutze Kombination (BK) Lehrer – Bildung – Gesetz
• Bündelung (Verweis auf einen Oberbegriff) Bsp.: Zitrone benutze Oberbegriff (BO) Zitrusfrucht
HHU Düsseldorf – SS 2005 Wissensrepräsentation 217
Thesauri
Deskriptorsatz / Beispiel: Standard-Thesaurus WirtschaftHWWA
Deskriptor
Klasse
NACE-Konkordanz
Nicht-Deskriptoren
Oberbegriffe
verwandteBegriffe
Unterbegriffe
Erläuterung
HHU Düsseldorf – SS 2005 Wissensrepräsentation 218
Thesauri
Relationen• Äquivalenzrelation
– Synonyme– Quasi-Synonyme– abweichender Sprachgebrauch (Bsp.:
Massenkommunikationsmittel - Massenmedien)– Abkürzung (Bsp.: DNS – Desoxyribonucleinsäure)– gebräuchliche fremdsprachliche Bezeichnung (Bsp.:
Computer – Rechenanlage)– Schreibweise (Bsp.: Fotografie, Photographie)– invertierte Form (Bsp.: verarbeitendes Gewerbe – Gewerbe,
verarbeitendes)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 219
Thesauri
Relationen• Äquivalenzrelation
– Nichtdeskriptor – Deskriptor – RelationAbk.: BS (benutze Synonym) – BF (benutzt für)
USE – UF (used for)Bsp.: Auto BF Personenkraftwagen
Personenkraftwagen BS Auto– Nichtdeskriptor – Begriffskombination – Relation
Abk.: BK (benutze Kombination) – KB (benutzt in Kombination)Bsp.: Binnenschifffahrt KB Binnenschifffahrtsstatistik
Schifffahrtsstatistik KB BinnenschifffahrtsstatistikBinnenschifffahrtsstatistik BK Binnenschifffahrt -Schifffahrtsstatistik
HHU Düsseldorf – SS 2005 Wissensrepräsentation 220
Thesauri
RelationenHierarchierelation
Abstraktionsrelation Bestandsrelation
logische Sicht gegenständliche Sicht
HHU Düsseldorf – SS 2005 Wissensrepräsentation 221
Thesauri
Relationen• Hierarchierelation (allgemein)
– Nichtdeskriptor – Deskriptor – Hierarchierelation (Bündelung)Abk.: BO (benutze Oberbegriff) – FU (benutzt für Unterbegriff)Bsp.: Zitrusfrucht FU Zitrone
Zitrone BO Zitrusfrucht– Deskriptor – Deskriptor – Relation (der Normalfall)
Abk.: OB (Oberbegriff) – UB (Unterbegriff)BT (broader term) – NT (narrower term)
Bsp.: Universität OB HochschuleHochschule UB Universität
– Deskriptor – oberes Ende der BegriffsleiterAbk.: TT (Top Term)Bsp.: Universität TT Bildungseinrichtung
HHU Düsseldorf – SS 2005 Wissensrepräsentation 222
Thesauri
Relationen• Hierarchierelation. Version 1: Abstraktionsrelation• Der Begriffsinhalt des Unterbegriffs enthält mindestens ein
Merkmal mehr als der Begriffsinhalt des Oberbegriffs.• Ober- und Unterbegriff gehören i.d.R. derselben Dimension an.
Abk.: OA (Oberbegriff Abstraktionsrelation) – UABTG (broader term – generic) – NTG
Bsp.: Meise OA SingvogelSingvogel UA Meise
• Aus logischen Gründen kann es u.U. zwingend sein, Hierarchie-ebenen einzuführen, auch wenn es dazu keine Dokumente gibt (Stützdeskriptoren).
HHU Düsseldorf – SS 2005 Wissensrepräsentation 223
Thesauri
• Hierarchierelation. Version 1: Abstraktionsrelation• Stützdeskriptor. Beispiel: Thesaurus Technik und Management
Stützdeskriptoren
HHU Düsseldorf – SS 2005 Wissensrepräsentation 224
Thesauri
• Hierarchierelation. Version 1: Abstraktionsrelation• Stützdeskriptor. Beispiel: Thesaurus Technik und Management
Stützdeskriptor
HHU Düsseldorf – SS 2005 Wissensrepräsentation 225
Thesauri
• Hierarchierelation. Version 1: Abstraktionsrelation• Beispiel einer Begriffsleiter als Baum
Quelle: EMBASEbei Ovid
HHU Düsseldorf – SS 2005 Wissensrepräsentation 226
Thesauri
Relationen• Hierarchierelation. Version 2: Bestandsrelation• Der übergeordnete Begriff (Holonym) entspricht einem Ganzen,
der untergeordnete Begriff einem Bestandteil dieses Ganzen (Meronym).
• alle Geographika sind BestandsrelationenAbk.: SP (Verbandsbegriff) – TP (Teilbegriff)
BTP (broader term – partitive) – NTPBsp.: Putenkeule SP Truthahn
Truthahn TP PutenkeuleKerpen SP ErftkreisErftkreis TP Kerpen
HHU Düsseldorf – SS 2005 Wissensrepräsentation 227
Thesauri
Relationen• Hierarchierelation.
Version 2: Bestandsrelation
• Transitive Bestandsrelationen eignen sich gut für graphische Darstellungen
• Beispiel: Hoppenstedt Firmendatenbank
HHU Düsseldorf – SS 2005 Wissensrepräsentation 228
Thesauri
Thesaurus als Recherchehilfsmittel bei der hierarchischen Suche. Beispiel: STW bei GBI
Suchargument:EU sowie alle Mitglieds-
länder
Begriffe einsammeln:
-Deskriptor-alle Unterbegriffe-alle Oberbegriffe
-alle verwandten Begriffe-einzelne Begriffe
HHU Düsseldorf – SS 2005 Wissensrepräsentation 229
Thesauri
Thesaurus als Recherchehilfsmittel bei der hierarchischen Suche. Beispiel: STW bei GBI
ausgewählte Begriffe„Begriffskorb“
nächster Schritt:
Auswahl der Datenbank
HHU Düsseldorf – SS 2005 Wissensrepräsentation 230
Thesauri
Thesaurus als Recherchehilfsmittel bei der hierarchischen Suche. Beispiel: STW bei GBI
Die ausgewähltenBegriffe werden
in die Suchmaskeübernommen und
mit dem BooleschenODER verbunden.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 231
Thesauri
Relationen• Assoziationsrelation
– nach DIN 1463 sehr allgemeine und unspezifische Relation
– „verwandter“ Begriff– Begriffsbeziehung, die weder hierarchischer noch
äquivalenter Art ist– im Sinne von „siehe auch“ oder „denke auch an“Abk.: VB (verwandter Begriff)
RT (related term)Bsp.: Apfel VB Birne
Birne VB Apfel
HHU Düsseldorf – SS 2005 Wissensrepräsentation 232
Thesauri
Multilinguale Thesauri (nach DIN 1463/2)• Deskriptoren: müssen stets in allen Sprachen vorhanden
sein• Nicht-Deskriptoren: es können zusätzlich zu übersetzten
Nicht-Deskriptoren weitere Nicht-Deskriptoren für jede Sprache eingeführt werden
• Hierarchierelation(en): es gibt nur genau EINE hierarchische Struktur– ggf. Stützdeskriptoren verwendet– ggf. neue Fremdworte in Sprache einführen
• Assoziationsrelation: die Strukturen sollten multilingual übereinstimmen, es kann jedoch sprachabhängige Ausnahmen geben
HHU Düsseldorf – SS 2005 Wissensrepräsentation 233
Thesauri
Multilinguale Thesauri• Fremdwort in einer Sprache (aufnehmen; ggf. Definition)
Bsp.:deutsch: Teenager englisch: teenagersD: Person zwischen 13 und 19 Jahren
• Wortprägung (wenn nicht als Fremdwort aufnehmbar, dann Übersetzung, ggf. mit Hinweis)Bsp.:französisch: enfant a cle deutsch: SchlüsselkindNE: equivalent du terme allemand„Schlüsselkind“
HHU Düsseldorf – SS 2005 Wissensrepräsentation 234
Thesauri
Multilinguale Thesauri• Äquivalenz (problemlose Eins-zu-eins-Übersetzung)
– sprachliche VerwandtschaftBsp.: Physik (dt.) – physics (engl.) – physique (franz.)
– sprachliche Unabhängigkeit; semantische GleichheitBsp.: Amsel (dt.) – blackbirds (engl.) – merle (franz.)
– gleicher oder ähnlicher Begriffsumfang, anderer BegriffsinhaltBsp.: alkoholfreies Getränk (dt.) – soft drinks (engl.) – boisson non alcoolisee (franz.)
• Probleme mit der Äquivalenz– Teil-Äquivalenz (engerer oder weiterer Begriffsumfang)
Bsp.: Wissenschaft – scienceLösungsmöglichkeit: einen der Terme als Fremdwort einführenDeskriptorsatz englisch: Wissenschaft; SN: loan term adopted from German; NT scienceDeskriptorsatz deutsch: Wissenschaft; UB Naturwissenschaft
HHU Düsseldorf – SS 2005 Wissensrepräsentation 235
Thesauri
Multilinguale Thesauri• Probleme mit der Äquivalenz
– Begriffszerlegung bzw. –kombinationBsp.: skidding (engl.): rutschen und schleudernLösungsmöglichkeit: jeweils parallele Begriffe konstruierenDeskriptorsatz englisch: skidding; NT skidding (forwards), NT skidding (sideways)Deskriptorsatz deutsch: Rutschen/Schleudern; UB Rutschen; UB Schleudern
• Homonym / Polysem sprachübergreifend– Lösung: Sprachkürzel als Homonymzusatz
Bsp.: Gift (de) – poison; Geschenk – gift (en)• International gebräuchliche Abkürzungen
– Lösung: internationale Variante verwenden; nationale Variante als Nicht-Deskriptor
– nur nationale gebräuchliche Abkürzungen vermeiden
HHU Düsseldorf – SS 2005 Wissensrepräsentation 236
Thesauri
Multilinguale Thesauri. Beispiel: Thesaurus Technik und Management
Zielsprache deutschWörterbücher dt. – engl. und
engl. - dt.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 237
Thesauri
Multilinguale Thesauri. Beispiel: UNESCO Thesaurus
Beispiel
Zielsprache englischWörterbücher engl. – franz. –
span.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 238
Thesauri
Multilinguale Thesauri. Beispiel: UNESCO Thesaurus
DeskriptorsatzAbk.: MT: Micro-ThesaurusFR: Deskriptor französisch
SP: Deskriptor spanisch
HHU Düsseldorf – SS 2005 Wissensrepräsentation 239
Thesauri
Aspekte• nähere Erläuterung eines Deskriptors mittels eines „Aspektes“• der Deskriptor bildet zusammen mit seinem Aspekt eine Einheit
(keine UND-Verknüpfung)
Quelle: EMBASEbei Ovid
HHU Düsseldorf – SS 2005 Wissensrepräsentation 240
Thesauri
Relationen im Thesaurus, die über den DIN-Thesaurus hinausgehen
• (Quasi-)Synonymie-Relation zwischen Deskriptoren– haben wir bereits bei der Schlagwortmethode kennengelernt– chronologische Relation (früher – später)
Abk.: Deskriptor(en) des früheren Gegenstandes CS (chronologisch später) Deskriptor(en) des späteren Gegenstandes; umgekehrt: CF (chronologisch früher)
– bei den Deskriptoren als Hinweis den Zeitraum angeben!Bsp.: Sindorf. H: eigenständige Gemeinde bis 31.12.1974
Kerpen-Sindorf. H: Ortsteil von Kerpen ab 1.1.1975
HHU Düsseldorf – SS 2005 Wissensrepräsentation 241
Thesauri
• chronologische Relation Bsp. (eineindeutige Relation): Sindorf CS Kerpen-SindorfKerpen-Sindorf CF SindorfBsp.: (einmehrdeutige Relation):Garmisch CS Garmisch-PartenkirchenPartenkirchen CS Garmisch-PartenkirchenGarmisch-Partenkirchen CF Garmisch
CF Partenkirchen– Die chronologische Relation kann u.U. über mehrere Schritte
laufen.Bsp.: Chemnitz CF Karl-Marx-Stadt
Karl-Marx-Stadt CF Chemnitz [vor 1953]
HHU Düsseldorf – SS 2005 Wissensrepräsentation 242
Thesauri
weitere Relationen (Vorschlag: Winfried Schmitz-Esser für die EXPO 2000) – Generik (analog zur Abstraktionsrelation des DIN-Thesaurus)
Abk.: weiterer/engerer Begriff: WB – EBBsp.: vegetal products EB coconuts
coconuts WB vegetal products– Nützlichkeit
Abk.: nützlich für (NF) – profitiert von (PV)Bsp.: tree planting NF water balance regulation
water balance regulation PV tree planting– Schädlichkeit
Abk.: schädlich für (SF) – wird beeinträchtigt von (WG)Bsp.: overfertilization SF biotopes
biotopes WG overfertilization
HHU Düsseldorf – SS 2005 Wissensrepräsentation 243
Thesauri
weitere Relationen (Vorschlag: Winfried Schmitz-Esser für die EXPO 2000) – Partition 1 (dinglich, gedanklich, ideell)
Abk.: ist Bestandteil von (BV) – setzt sich zusammen aus (BA)Bsp.: booster BV missile
missile BA booster– Partition 2 (geographisch, topographisch,
administrativ)Abk.: ist Teil von (TV) – besteht aus den Teilen (BT)Bsp.: South America TV Latin America
Latin American BT South AmericaWinfried Schmitz-Esser: EXPO – INFO 2000. Visuelles Besucherinformationssystem für Weltausstellungen. –
Berlin [u.a.]: Springer, 2000.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 244
Thesauri
Allgemeine Thesaurusstruktur
Deskriptor 1 inSprache 1
Deskriptor 1 inSprache i
Deskriptor 1 inSprache n
Deskriptor n inSprache i
Nicht-DeskriptorSprache i
Nicht-DeskriptorSprache i
Nicht-DeskriptorSprache i
Nicht-DeskriptorSprache i
Deskriptor m inSprache i
Deskriptor n inSprache 1
Deskriptor m inSprache 1
Rel 1 Rel 2
Rel 2Rel 1
HHU Düsseldorf – SS 2005 Wissensrepräsentation 245
Thesauri
Visualisierung eines Thesaurus für LaienDarstellung eines Deskriptors
Deskriptor
Definition / Hinweise:
text text text text text text text
text text text text text text text
text text text text text text text
text text text text text text text
Graphik oder
Videosequenz
Anzahl der Dokumente: [Zahl]Thema merken zurück zum Themenraum
HHU Düsseldorf – SS 2005 Wissensrepräsentation 246
Thesauri
Visualisierung eines Thesaurus für LaienDarstellung eines Deskriptors. Beispiel
Butter
Definition:(grch. „bútyron“: Kuhquark) Speisefett, das aus Kuhmilch gewonnen wird. Beim Buttern in der Molkerei wird der reife Milchrahm mechanisch bearbeitet, bis sich die Fettkügelchen absetzen.
Graphik oder
Videosequenz
Anzahl der Dokumente: 13Thema merken zurück zum Themenraum
HHU Düsseldorf – SS 2005 Wissensrepräsentation 247
Thesauri
Visualisierung eines Thesaurus für LaienDarstellung der Relationen (Themenraum)
DeskriptorDeskriptor
DeskriptorDeskriptor
DeskriptorDeskriptor
DeskriptorDeskriptor
DeskriptorDeskriptor DeskriptorDeskriptor
DeskriptorDeskriptor
DeskriptorDeskriptor
DeskriptorDeskriptor
DeskriptorDeskriptor
ist nützlich für
ist schädlich für
ist Bestandteil von
besteht aus den Teilen
HHU Düsseldorf – SS 2005 Wissensrepräsentation 248
Thesauri
Visualisierung eines Thesaurus für LaienDarstellung der Relationen (Themenraum). Beispiel
ButterButter
BrotbelagBrotbelag
Cholesterin-spiegel
Cholesterin-spiegel
BratenBraten
HerzHerz MagenMagen
MilchMilch
ButterfettButterfett
MolkeMolke
SalzSalz
ist nützlich für
ist schädlich für
ist Bestandteil von
besteht aus den Teilen
HHU Düsseldorf – SS 2005 Wissensrepräsentation 249
Thesauri
• Thesaurusauf- und –ausbau– Thesaurusaufbau
• Sammlung der Fachbegriffe durch (sprach-)empirische Erhebungen; Quellen: Terminologie der Fachliteratur, Experten, potentielle Benutzer
• Zusammenfassen (quasi-)synonymer Bezeichnungen; Auswahl der (vorläufigen) Vorzugsbenennungen
• Überprüfung jeder Vorzugsbenennung („Deskriptor-Kandidat“); Kriterien für Deskriptoren:
– relative Häufigkeit in der Literatur– erwartetes Vorkommen bei Abfragen– Art der Relationen zu bereits akzeptierten Deskriptoren– Authentizität der Terminologie des Fachgebiets– Zweckmäßigkeit für die Erfassung von Inhalt und Umfang des
Begriffs
HHU Düsseldorf – SS 2005 Wissensrepräsentation 250
Thesauri
• Thesaurusauf- und –ausbau– Thesaurusausbau (Thesauruspflege)
• Eliminierung von Deskriptoren (sofern diese beim Indexieren nicht oder kaum genutzt werden)
– alle Relationen des Deskriptors werden mit gelöscht– beim Deskriptorsatz vermerken: verwendet bis ... [Datum]– oder: Dokumente neu indexieren
• Differenzierung von Deskriptoren (sofern sehr viele Dokumente darunter fallen)
– neue Deskriptoren als Unterbegriffe in den Thesaurus einführen
– beim Deskriptorsatz vermerken: ohne Unterbegriffe verwendet bis ... [Datum]
– oder: Dokumente neu indexieren• Aufnahme neuer Deskriptoren (beim Aufkommen neuer
Terme im Fachgebiet)– neue Deskriptoren in die Relationen einhängen– beim Deskriptorsatz vermerken: verwendet ab ... [Datum]
HHU Düsseldorf – SS 2005 Wissensrepräsentation 251
Thesauri
• Indexieren mittels eines Thesaurus– gleichordnendes Indexieren (nach DIN 31.623/2)
Deskriptoren werden einem Dokument gleichrangig und unstrukturiert zugeordnetBeispiel: Ein Dokument behandle im ersten Teil den Export italienischer Weine nach Deutschland und im zweiten Teil den Import deutscher Autos nach Italien.Indexat:Export; Import; Italien; Deutschland; Wein; Auto
Problem: führt u.U. zu Informationsballast (Bsp.: Suche nach dem Export deutscher Weine mit dem Argument „Wein AND Deutschland AND Export“ findet fälschlich unser Beispiel)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 252
Thesauri
• Indexieren mittels eines Thesaurus– syntaktisches Indexieren (nach DIN 31.623/3)
Deskriptoren werden einem Dokument unter Wahrung ihrer thematischen Zusammenhänge zugeordnet (Bildung von thematischen Teilmengen)Indexat:Wein – Export – Italien.Wein – Import – Deutschland.Auto – Export – Deutschland.Auto – Import – Italien.Italien – Deutschland – Außenhandel - Wein.Italien – Deutschland – Außenhandel - Auto.
– Themenketten werden mit Abstandsoperator (etwa: SAME) und nicht mit dem Booleschen UND durchsucht
– Probleme: wird ggf. von den Nutzern nicht verstanden; ist teuer
HHU Düsseldorf – SS 2005 Wissensrepräsentation 253
Thesauri
Syntaktisches Indexieren Beispiel: HWWA
Zwei Themenketten
HHU Düsseldorf – SS 2005 Wissensrepräsentation 254
Thesauri
• Gewichtetes Indexieren • Vorgehen
– Variante 1: intellektuelle Zuordnung von numerischen Werten zu den einzelnen Deskriptoren (wird derzeit nicht durchgeführt)
– Variante 2: Zwei-Klassen-Verfahren:• Auszeichnung der zentralen Deskriptoren zu einem
Dokument als „Fokus“ (besonders wichtig in der dokumentarischen Bezugseinheit abgehandelt)
• Ziel: Ermöglichen des Suchens nach nur solchen Dokumenten, in denen das Thema zentral vorkommt
HHU Düsseldorf – SS 2005 Wissensrepräsentation 255
Thesauri
Klasse 1 – Deskriptorenwichtig – Fokus(mit Sternchen *)
Klasse 2 – Deskriptoren
Quelle: EMBASE bei Ovid
HHU Düsseldorf – SS 2005 Wissensrepräsentation 256
Thesauri
• Indexieren mittels eines Thesaurus. Vorgehen– dokumentarische Bezugseinheit (quer)lesen– Verstehen des Dokumenteninhalts – besondere Konzentration auf Terme aus:
• Titel• Einleitung• Zusammenfassung• Autorenabstract• Kapitelüberschriften• Bildtitel• hervorgehobene Textstellen• Sätze, die Schlussfolgerungen enthalten („Reizterme“:
also, somit, ...)• häufig vorkommende Terme
HHU Düsseldorf – SS 2005 Wissensrepräsentation 257
Thesauri
• Indexieren– Ermittlung der Terme
• Extraktionsmethode: Entnahme von Termen, die im vorliegenden Text vorkommen (Minimierung der Gefahr von Missverständnissen)
• Additionsmethode: Zuteilung von Termen, die im Text nicht enthalten sind (Achtung: Fehlinterpretationen sind möglich)einzig mögliche Methode bei nicht-textuellen Medien (Bildern, Videosequenzen, ...)
– alle ermittelten Terme notieren
HHU Düsseldorf – SS 2005 Wissensrepräsentation 258
Thesauri
• Indexieren– Aufsuchen der ermittelten Terme im Thesaurus
• ermittelter Term ist Deskriptor: Deskriptor übernehmen• ermittelter Term ist Nicht-Deskriptor: zugehörigen
Deskriptor übernehmen• ermittelter Term ist weder Deskriptor noch Nicht-
Deskriptor: Gibt es einen bestpassenden anderen Deskriptor? Wenn ja: diesen übernehmen
• Wenn nein: 1) Term in Vorschlagsliste für die Modifikation des Thesaurus notieren; 2) ggf. Term als „freien Begriff“ dem Dokument zuordnen
• bei jedem Deskriptor den Relationen folgen: gibt es weitere passende Deskriptoren bei Oberbegriffen, Unterbegriffen, verwandten Begriffen usw.?
• bei mehreren Kandidaten in der selben Begriffsleiter: ggf. nur den spezifischeren Deskriptor wählen (muss durch Regelwerk geklärt werden)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 259
Thesauri
• Kriterien der Deskriptor-Auswahl: Indexierungstiefe• muss durch Regelwerk eindeutig vorgegeben sein (sonst
würde die Datenbasis uneinheitlich indexiert)• Kriterium 1: Indexierungsbreite. Anzahl der zu vergebenden
Deskriptoren (pro Dokument, pro Seite, pro Zeichen, ...)Bsp.: ifo Literaturdatenbank: ca. 0,5 bis 2 Deskriptoren pro TextseiteBsp.: Bibliodata: ca. 1 bis 2 Schlagworte pro Buch
• Kriterium 2: Indexierungsspezifität. Trennschärfe der Deskriptoren
– bereits häufig vergebene Deskriptoren sind wenig selektiv– Deskriptoren, die hoch in einer Begriffsleiter stehen, sind u.U.
wenig selektiv– deshalb: wenig spezifische Deskriptoren möglichst mit anderen,
trennscharfen Deskriptoren kombinieren
HHU Düsseldorf – SS 2005 Wissensrepräsentation 260
Thesauri
• Kriterien der Deskriptor-Auswahl:Dokumentationswürdigkeit von Deskriptoren– analog zur Dokumentationswürdigkeit von Dokumenten– (1) Relevanz im Dokument: Ist der Deskriptor im Rahmen
des Dokumentes wichtig?– (2) Informationsbedarf der Nutzer: Braucht ein Nutzer das
Dokument, der nach dem Deskriptor sucht? Sucht ein Nutzer überhaupt unter diesem Deskriptor nach dem Dokument?
– (3) Bisheriger Stand der Datenbank: Gibt es „bessere“ Dokumente zu dem Deskriptor? Sagt das Dokument zum Deskriptor etwas Neues aus?
HHU Düsseldorf – SS 2005 Wissensrepräsentation 261
Thesauri
• Indexierungstiefe: Wie das Optimum finden?– zu wenige oder zu spezifische Deskriptoren: Informationsverlust– zu viele oder zu unspezifische Deskriptoren: Informationsballast– „gute“ Indexierung: Gratwanderung zwischen Informationsverlust
und Informationsballast• Indexierungstiefe und Nutzertyp (Laie vs. Experte)
– Laie sucht Überblick UND Indexierungstiefe niedrig: Rechercheergebnis zufriedenstellend (+)
– Laie sucht Überblick UND Indexierungstiefe hoch: Rechercheergebnis bringt zu viele Treffer (-)
– Experte sucht Spezialwissen UND Indexierungstiefe niedrig: Rechercheergebnis bringt zu wenige genaue Treffer (-)
– Experte sucht Spezialwissen UND Indexierungstiefe hoch: Rechercheergebnis zufriedenstellend (+)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 262
Thesauri
• Sicherung gleichbleibender Indexierungsqualität: Indexierungskonsistenz– Inter-Indexer-Konsistenz (Vergleich der Indexate zur
selben DBE verschiedener Indexer)– Intra-Indexer-Konsistenz (Vergleich der Indexate des
selben Indexers zur selben DBE zu unterschiedlichen Zeiten)
– bei der Produktion der Datenbasis ist eine möglichst hohe Indexierungskonsistenz zu gewährleisten
– Methode: in periodischen Abständen (etwa: monatlich) Tests durchführen; die Ergebnisse im Indexierer-Team besprechen; dabei:
• Verbesserungen des Thesaurus (Thesauruspflege)• Verbesserungen des Indexierungshandbuchs
HHU Düsseldorf – SS 2005 Wissensrepräsentation 263
Thesauri
• Thesauri. Fazit– In der kommerziellen Informationswirtschaft sind die
Thesauri DIE Methode der Wissensrepräsentation.– Thesauri eignen sich auch für den Einsatz bei Intranets
bzw. Enterprise Information Portals.– Es existieren weltweit weit über 1.000 Thesauri.– Der „Standard“: Der DIN-Thesaurus kennt Synonyme
(Nicht-Deskriptor – Deskriptor-Relation), Hierarchie-relationen (Abstraktions- und Bestandsrelation) sowie die Assoziationsrelation.
– Weitere (2-stellige) Relationen sind problemlos hinzufügbar (etwa: Nützlichkeit – Schädlichkeit).
HHU Düsseldorf – SS 2005 Wissensrepräsentation 264
Thesauri
• Thesauri. Fazit– Neben Profi-Oberflächen sollte man Thesaurus-
Oberflächen für Laien herstellen, die diesen die Navigation erleichtern.
– Thesauri werden ständig überarbeitet und dem Stand der Terminologie eines Faches angepasst (Thesaurus-pflege).
– Indexierung geschieht entweder gleichordnend (der Standardfall) oder syntaktisch (durch Markierung der Themenketten).
– Die Qualität der Indexierung einer Datenbasis ist von der Indexierungstiefe (Indexierungsbreite und –spezifität) und von der Indexierungskonsistenz abhängig.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 265
Thesauri
• Vorteile von Thesauri– Navigation durch diverse Relationen möglich– Können die Strukturen eines Fachgebiets umfassend
terminologisch abbilden– Arbeiten mit der natürlichen Sprache (ggf. Nachteil:
Beschränkung auf eine Sprache; Ausgleich durch multilinguale Thesauri)
– Sind (relativ) leicht modifizierbar (zumindest leichter als Klassifikationssysteme)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 266
Thesauri
• Nachteile von Thesauri– Der Thesaurusaufbau und die Thesauruspflege ist
aufwendig und damit (z.T.: sehr) teuer.– Laien kommen u.U. (insbesondere, wenn keine eigenen
Laien-Oberflächen geschaffen werden) mit Thesauri nicht zurecht.
– Der Einsatz eines Thesaurus erfordert zusätzlich den Einsatz spezifischer Software (etwa: Weiterleitung bei der Eingabe von Nicht-Deskriptoren, Einbeziehen von Deskriptoren aus Relationen in eine Suche)
– Wie bei der Klassifikation bildet ein Thesaurus nur Begriffe und deren Relationen ab, aber nicht die Sachverhalte, die dazu ausgesagt werden (und die das Wissen des Fachbereichs repräsentieren)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 267
Textsprachliche Methoden
VolltextspeicherungTitelindexierung
TextwortmethodeZitationsindexierung
HHU Düsseldorf – SS 2005 Wissensrepräsentation 268
Textsprachliche Methoden
• Volltextspeicherung– Speicherung des Fließtextes im ASCII-Format (für die Suche)– Speicherung des Originallayouts im PDF-Format (für die
Anzeige)– falls PDF nicht möglich: Fließtext (wenn möglich in Quasi-
Faksimile) und Links zu Graphiken oder Abbildungen– Grundsatz: Volltexte nie „solo“ (ohne intellektuelle Inhalts-
erschließung oder ohne automatische Indexierung) ablegen• Suchfunktionalität bei Volltexten
– einfache Boolesche Retrievalsysteme ungeeignet– Boolesche Systeme mit Abstandsoperatoren
Mindestanforderung– Systeme mit automatischer Indexierung und mit Relevance
Ranking erforderlich
HHU Düsseldorf – SS 2005 Wissensrepräsentation 269
Textsprachliche Methoden
• Volltextspeicherung: Warum nicht den Volltext ohne Inhaltserschließung?– Das Vorkommen eines Wortes bedeutet nicht, dass auch
etwas darüber ausgesagt wird („Dieser Artikel sagt nichts über die Zustände in Ungarn aus“ als Treffer einer Suchfrage nach „Ungarn“).
– keinerlei kontrolliertes Vokabular zur Suche vorhanden:• Probleme mit Synonymen und Homonymen• Probleme mit Fremdsprachen• elliptische Formulierungen oder Wortspiele
– Der Volltext solo erfüllt nicht die Anforderung eines Informationsfilters.
– Volltext (ASCII) ist nur zur ergänzenden Suche geeignet.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 270
Textsprachliche Methoden
• VolltextspeicherungZusammenspiel von:
Metadaten,ASCII-Volltext,Faksimile (bei
digitalen Dokumenten),Kopien-Service
(bei nicht-digitalenDokumenten)
Beispiel:Konzeption der deutschen Virtuellen Fachbibliotheken
( EconDoc; GetInfo; infoconnex; MedPilot)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 271
Textsprachliche Methoden
• Titelindexierung– Übernahme von Stichworten aus den Sachtiteln von
Büchern oder Artikeln– frühes Verfahren der Wissensrepräsentation; eingesetzt
vor allem bei Registern– Methoden:
• KWIC (Keyword in Context)• KWOC (Keyword out of Context)• KWAC (Keyword and Context)• Permutierte Stichworte• Stichworte in grammatischer Grundform• stets: Elimination von Stoppworten
HHU Düsseldorf – SS 2005 Wissensrepräsentation 272
Textsprachliche Methoden
• TitelindexierungBeispiel: Titel: Mehrwerte von Information – Professionalisierung der Informationsarbeit (lfd.Nr.: 5)
KWICMehrwerte von Information – Professionalisierung der Informationsarbeit 5Mehrwerte von Information – Professionalisierung der Informationsarbeit 5Mehrwerte von Information – Professionalisierung der Informationsarbeit 5Mehrwerte von Information – Professionalisierung der Informationsarbeit 5
KWOCInformation Mehrwerte von ... – Professionalisierung der Informationsarbeit 5Informationsarbeit Mehrwerte von Information – Professionalisierung der ... 5Mehrwerte ... von Information – Professionalisierung der Informationsarbeit 5Professionalisierung Mehrwerte von Information – ... der Informationsarbeit 5
HHU Düsseldorf – SS 2005 Wissensrepräsentation 273
Textsprachliche Methoden
• TitelindexierungBeispiel: Titel: Mehrwerte von Information – Professionalisierung der Informationsarbeit (lfd.Nr.: 5)
KWACInformation Mehrwerte von Information – Professionalisierung der Informationsarbeit 5Informationsarbeit Mehrwerte von Information – Professionalisierung der Informationsarbeit 5Mehrwerte Mehrwerte von Information – Professionalisierung der Informationsarbeit 5Professionalisierung Mehrwerte von Information – Professionalisierung der Informationsarbeit 5
Permutierte Stichworte (mit grammatischer Grundform)Information – Informationsarbeit 5Information – Mehrwert(e) 5Information – Professionalisierung 5Informationsarbeit – Information 5...
HHU Düsseldorf – SS 2005 Wissensrepräsentation 274
Textsprachliche Methoden
• Titelindexierung– Vorteile
• schnell zu erstellen• kostengünstig• bei gewissen bibliothekarischen Projekten (etwa
Retrokatalogisierung): einzig praktikable Methode– Nachteile:
• kein kontrolliertes Vokabular (analog zu den Problemen der Volltextspeicherung)
• Informationsverlust– je nach Dokumenttyp (sehr hoch bei Zeitungsartikeln, bei
Patenten und bei Büchern, weniger hoch bei wissen-schaftlichen Artikeln)
– je nach Fach (hoch bei Geisteswissenschaften, weniger hoch bei Naturwissenschaften und Medizin)
– Beispiel: Philosophie / Artikel: Verlust von über 80% im Vergleich zur Textwortmethode
HHU Düsseldorf – SS 2005 Wissensrepräsentation 275
Textsprachliche Methoden
• Titelindexierung– die Nachteile überwiegen– als einzige Methode der Wissensrepräsentation nicht
geeignet– trotzdem: in Datenbanken spezielles Feld (bzw.
speziellen Tag bei HTML- bzw. XML-Dokumenten) für die Aufnahme der Titel definieren, das u.U. im Retrieval genutzt werden kann
– KWIC im Volltext bei der Ausgabe nutzen: die Suchargumente im Kontext (hervorgehoben) anzeigen
KWIC bei derTrefferliste von Google
HHU Düsseldorf – SS 2005 Wissensrepräsentation 276
Textsprachliche Methoden
Textwortmethodeentwickelt von:
Norbert Henrichs
an der
Forschungsabt. für philosophische Information und Dokumentation der Universität Düsseldorf
(Ende der 60er Jahre des 20. Jahrhunderts)
Ziel:Entwicklung einer
wörterbuchunabhängigenDokumentationsmethode.
ursprünglicher Einsatzbereich:Philosophie
Norbert Henrichs: Philosophische Dokumentation. - In: Zeitschrift für philosophische Forschung 23 (1969), 122-131.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 277
Textsprachliche Methoden
• Textwortmethode– Einsatzgebiet
• außerhalb fester Terminologien– als einzige Methode (in Disziplinen mit prinzipiell nicht-fester
Terminologie; etwa: Philosophie)– oder ergänzende Methode (zur Aufnahme von Begriffen, die
ein aktuell eingesetztes Klassifikationssystem oder ein Thesaurus nicht enthalten)
• wenn noch keine Terminologie vorhanden ist (Textwortmethode bringt empirisches Termmaterial für den Aufbau von Dokumentationssprachen)
– Basis der Wissensabbildung• ausschließlich der konkret vorliegende Text• KEIN vorgegebenes Begriffssystem
HHU Düsseldorf – SS 2005 Wissensrepräsentation 278
Textsprachliche Methoden
• Textwortmethode– Methode
• Auswahlverfahren zur Markierung von „Sucheinstiegen“ in Texte (N.B.: „Die Sprache ist das HAUS des Seins“, Heidegger. Texte werden als Häuser verstanden, die durch unterschiedliche Einstiege betreten werden.)
• syntaktisches Indexieren: keine Einzelthemen, sondern thematische Ketten
– Auswahlregeln• Textwörter aus Titeln und Zwischentiteln• häufig vorkommende Textwörter• Textwörter aus textlichen Schlüsselstellen• Bevorzugung von Neologismen• Bevorzugung von informationsreichen (Mehrwort-)
Ausdrücken• je nach Textdichte ca. 0,5 bis 2 Textwörter pro Textseite im
Durchschnitt
HHU Düsseldorf – SS 2005 Wissensrepräsentation 279
Textsprachliche Methoden
• Textwortmethode– Varianten
• nur originalsprachig (Henrichs‘ Methode). Problem: Nutzer muss alle einschlägigen Textwörter in allen Textsprachen der Datenbank kennen
• originalsprachig mit zusätzlicher Übersetzung in eine Zielsprache (Methode der Datenbank „Grazer Schule“)
– Indexierung• intellektuell (sehr aufwendig, daher sehr teuer)• Variante eines automatischen Indexierens (bislang noch
nicht erprobt)• ermöglicht stets gewichtetes Retrieval
HHU Düsseldorf – SS 2005 Wissensrepräsentation 280
Textsprachliche Methoden
• Textwortmethode
– informetrische Verdichtungsmethoden
• innerhalb genau einer Dokumentationseinheit
– Gewichtungswert der Terme
• gesamte Datenbasis oder Teilmenge davon
– Wortfelder
– Häufigkeit und Wichtigkeit von Termen
– semantische Netze von Termen (Themennetze)
Wolfgang G. Stock: Textwortmethode [Norbert Henrichs zum 65.]. – In: Password Nr 7+8 (2000), S. 26-35.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 281
Textsprachliche Methoden
• Textwortmethode. Beispiel eines IndexatsMeinong, Alexius: Über Gegenstandstheorie, in: Untersuchungen zur Gegenstandstheorie und Psychologie, hg. v. Alexius Meinong. Leipzig: Johann Ambrosius Barth, 1904, 1-50.Thematischer Rahmen:Sachthemen: Gegenstandstheorie (1-18); Etwas (1); Gegenstand (1-15); Wirkliche, das (2-3); Erkenntnis (2,10); Objektiv (3,10); Sein (4,6-8); Existenz (4-5); Bestand (4); Sosein (5-6); Nichtsein (5); Unabhängigkeit (6); Gegenstand, reiner (7-8); Außersein (7-8); Quasisein (7); Psychologie (9); Erkenntnisgegenstand (10); Objekt (10); Logik, reine (11); Psychologismus (11-12); Erkenntnistheorie (12); Mathematik (13,18); Wissenschaft (14,18); Gegenstandstheorie, allgemeine (15); Gegenstandstheorie, spezielle (15,18); Philosophie (17); Metaphysik (17); Gegebene, das (17); Empirie (17); Apriorische, das (17); Gesamtheit-der-Wissenschaften (18)Namen: Mally, Ernst (6); Husserl, Edmund (11); Höfler, Alois (16)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 282
Textsprachliche Methoden
• Textwortmethode mit Übersetzungsrelation. Beispiel eines Indexats
Veber, France: 07. O samoopazovanju kot posebni metodi znanstvenega raziskovanja, in: France Veber: Analiticna Psihologija. - Ljubljana: Kleinmayr & Bamberg, 1924, 39-50.Thematischer Rahmen:
Sachthemen in Originalsprache: Sachthemen in Einheitssprache:samoopazovanje (1-6) Selbstbeobachtung (1-6)metoda (1) Methode (1)dozivljaj (2,5) Erlebnis (2,5)psihologija (3) Psychologie (3)opazovanje (4) Beobachtung (4)pristnost (5) Echtheit (5)dozivljanje (5) Erleben (5)spoznanje (6) Erkenntnis (6)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 283
Textsprachliche Methoden
Syntagmatische Relationen zwischen den Begriffen
Basis für – Thesaurus-
aufbau – Wissen-
schafts-geschichte
– Nutzung als „einstell-barer“ Thesaurus
– Syntagma als Basis für Paradigma
HHU Düsseldorf – SS 2005 Wissensrepräsentation 284
Textsprachliche Methoden
• Textwortmethode– Vorteile
• nimmt die Sprache der Autoren ernst• keinerlei paradigmatische Relationen, kein kontrolliertes
Vokabular• einsetzbar in Gebieten, in denen Dokumentationssprachen nicht
anwendbar sind• objektive Basis (im Gegensatz zu Dokumentationssprachen, die
die Texte stets durch die Brille ihres Systems sehen); damit relativ interpretationsarm
• Basis für diverse Weiterverarbeitungen (Thesaurusaufbau, Wissenschaftsgeschichte usw.)
– Nachteile• aufwendig und teuer• u.U. mangelhafte Indexierungskonsistenz• Retrieval schwierig (kann jedoch durch Übersetzungen und
durch informetrische Funktionen gemildert werden)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 285
Textsprachliche Methoden
Zitationsindexierung(Citation Indexing)entwickelt von:
Eugene Garfield
am
Institute for ScientificInformation (Philadelphia; europäische Zentrale: London)
(Mitte/Ende der 50er Jahre des 20. Jahrhunderts)
Eugene Garfield: Citation Indexing. – New York [u.a.]: Wiley, 1979.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 286
Textsprachliche Methoden
• Einsatzgebiete: überall, wo zitiert wird– Recht: Urteile– Patente– wissenschaftliche Literatur
• Grundidee: Das Notieren von Fußnoten (oder anderen bibliographischen Angaben) gibt über den Inhalt eines wissenschaftlichen Artikels Auskunft
• das Verfahren erfordert nur minimalen intellektuellen Aufwand und ist daher - als Methode der Inhaltserschließung - relativ kostengünstig herzustellen
• das Institute for Scientific Information (ISI) verfügt nahezu über eine Monopolstellung bei der zitatenanalytischen Auswertung wissenschaftlicher Literatur (Ausnahme: u.a. CiteSeer)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 287
Textsprachliche Methoden
1 Stegmüller, Wolfgang: Probleme und Resultate der Wissenschaftstheorie und Analytischen Philosophie. -Band 4: Personelle und Statistische Wahrscheinlichkeit. Studienausgabe Teil A. - Berlin; Heidelberg; New York: Springer, 1973, S. 5.
2 ebd., S. 5.3 ebd., S. 5.4 ebd., S. 6.5 ebd., S. 6.6 Haller, Rudolf: Wandlungen der Wissenschaftsauffassung. -
In: Erhard Busek; Wolfgang Mantl; Meinrad Peterlik (Hrsg.): Wissenschaft und Freiheit. - Wien: Verlag für Geschichte und Politik; München: Oldenbourg, 1989, S. 46-58, hier: S. 57.
7 vgl. ebd., S. 55.
Zitat 1
Zitat 2
Mehrfachnennungen werden übergangen
HHU Düsseldorf – SS 2005 Wissensrepräsentation 288
Textsprachliche Methoden
Zitierender Artikel
Zitierter Artikel
Informationsübermittlung
Zeit
„Referenz“
Reputation
„Zitation“
HHU Düsseldorf – SS 2005 Wissensrepräsentation 289
Textsprachliche Methoden
• Zitationsindexierung beim ISI. Geschichte• Vorgeschichte: Shepards‘ Citations, Zitationsindex für
Gerichtsurteile (das Vorbild)• 1955: Garfield entwickelt die Idee wissenschaftlicher
Zitationsindices• 1958: Gründung des Institute for Scientific Information (ISI)
in Philadelphia, MA• erstes Produkt des ISI: Current Contents (CC)• 1961: Science Citation Index (SCI)• 1973: Social Sciences Citation Index (SSCI)• 1976: Journal Citation Reports (JCR)• 1978: Arts & Humanities Citation Index (A&HCI)• 1997: Web of Science (WoS)• 2001: Essential Science Indicators (ESI); Web of Knowledge
HHU Düsseldorf – SS 2005 Wissensrepräsentation 290
Textsprachliche Methoden
• Zitatenindexierung wissenschaftlicher Zeitschriftenliteratur beim Web of Science:– SCI. Zuwachs: 17.000 Quellenartikel mit 300.000
Zitationen pro Update (d.h. pro Woche); ab 1945– SSCI. Zuwachs: 2.800 Quellenartikel mit 50.000
Zitationen pro Woche; ab 1956– A&HCI. Zuwachs: 2.200 Quellenartikel mit 15.000
Zitationen; ab 1975• zusätzlich via Online-Archive (z.B. DIALOG)
recherchierbar sowie (als Auftragsforschung) beim ISI (Research Services Group)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 291
Textsprachliche Methoden
• Kriterien der Zeitschriftenauswahl (derzeit: rund 8.000 ausgewertet)• Kernzeitschriften pro Disziplin (Ausnutzung des Garfieldschen Gesetzes) -
Problem: Gesetz sagt etwas über eine Anzahl von Zeitschriften im Kern aus, welche Titel jeweils darin sind, ändert sich andauernd
• deshalb: intellektuelle Durchsicht neuer (oder neu angebotener) Zeitschriften (ca. 2000 Zeitschriften jährlich, Auswahl von rund 10-12%)
• Auswahlkriterien nach „Basic Standards“– regelmäßige und termingerechte Erscheinungsweise– aussagekräftiger Zeitschriftentitel– aussagekräftige Artikeltitel– vollständige bibliographische Angaben bei Fuß- und Endnoten– englische Artikeltitel (bei nicht-englischer Literatur: Übersetzungen)– englische Abstracts, englische Keywords– Peer Review– internationale Ausrichtung (ggf. auch wichtige regionale Ausrichtung)– Neuigkeit des Inhalts (liegen schon ähnliche Zeitschriften beim ISI vor?)
• Expertenurteile
HHU Düsseldorf – SS 2005 Wissensrepräsentation 292
Textsprachliche Methoden
• Retrievalfunktionen bei Zitationsdatenbanken– Rekonstruktion der
Informationsübermittlungen nach „hinten“, d.h. zur zitierten Literatur (via Referenzen)
– Rekonstruktion der Informationsübermittlungen nach „vorne“, d.h. zur zitierenden Literatur (via Zitationen)
– assoziatives Retrieval nach „verwandter“ Literatur (über gemeinsame Referenzen)
– (Zugang zu den Volltexten)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 293
Textsprachliche Methoden
Web of ScienceTrefferanzeige
ReferenzenZitationen
HHU Düsseldorf – SS 2005 Wissensrepräsentation 294
Textsprachliche Methoden
Web of ScienceAnzeige der Zitationen
HHU Düsseldorf – SS 2005 Wissensrepräsentation 295
Textsprachliche Methoden
• Zitationsindexierung. Probleme– Autoren zitieren nicht alle einschlägigen Quellen (u.a.
„Super-Klassiker“)– Autoren zitieren Quellen, die nicht einschlägig sind (u.a.,
weil sie die eigene Meinung stützen)– Autoren haben unterschiedliche Zitationsstile– Selbstzitationen („Inzest“)– Zitationskartell (Selbstzitation einer Gruppe)– Zitationsebenen (nach Blaise Cronin)
• V. Lebenswerk (im Text, zitatenanalytisch nicht erfasst)• IV. Motiv (im Text, zitatenanalytisch nicht erfasst)• III. Werk: Buch, Artikel (zitatenanalytisch sauber fassbar)• II. Kapitel, Abschnitt (wird Ebene III zugeschrieben)• I. Detail (wird Ebene III zugeschrieben)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 296
Textsprachliche Methoden
• Zitationsindexierung beim ISI. Probleme– Repräsentativität der selektierten Zeitschriften von
Disziplin zu Disziplin (und von Land zu Land) unterschiedlich
– Titel der Quellenartikel nur in englisch– Zitationen werden (mehr oder minder) einheitlich
abgekürzt; für Laien: „Verstümmelung von Fußnoten“– versteckte Literaturangaben im Text werden nicht immer
(bei SCI und SSCI: gar nicht) berücksichtigt– Publikations- und Zitationsraten des ISI haben große
Bedeutung in der Wissenschaftsforschung und Wissenschaftsevaluation (auch z.B. bei Lehrstuhlbesetzungen); deshalb sehr wichtig: Kenntnis der methodischen Probleme bei der Zitationsindexierung)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 297
Textsprachliche Methoden
• Navigation auf den Zitationen bei CrossRef– CrossRef:
Zusammenschluss wichtiger Wissenschafts-verlage mit digitalen Volltexten
– Die Artikel sind –über die Referenzen –miteinander verlinkt
– Technik: DOI (digital object identifyer)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 298
Textsprachliche Methoden
• Shepardizing – bewertende Zitationsindexierung– Anwendungsfeld: juristische Entscheidungen– eingesetzt bei LexisNexis– Klassen (1. Hierarchieebene)
• Warnung: negative Referenz (Signalfarbe: rot)• in Frage gestellt – Gültigkeit eines Urteils wird hinterfragt
(orange)• Vorsicht: mögliche negative Sicht (gelb)• positiv – Fall wird zustimmend diskutiert (grün)• neutral – weder negativ noch positiv (blaues "A")• Zitationsinformationen in anderen Quellen zugänglich (blaues
"I")
HHU Düsseldorf – SS 2005 Wissensrepräsentation 299
Textsprachliche Methoden
• Shepardizing
HHU Düsseldorf – SS 2005 Wissensrepräsentation 300
Textsprachliche Methoden
• Assoziative Suche über Zitationen / LexisNexis
HHU Düsseldorf – SS 2005 Wissensrepräsentation 301
Textsprachliche Methoden
• Zitatenindexierung– Vorteile:
• ergänzt durch die besondere Form der Wissensabbildung jede andere Erschließungsmethode
• ermöglicht Navigation über die Referenzen (CrossRef, ISI) und Zitationen (ISI, CiteSeer, Shepards‘)
• ermöglicht assoziatives Retrieval über die Menge gemein-samer Referenzen bei unterschiedlichen Artikeln
– Nachteile:• nur Artikel in Zeitschriften, Proceedings und
Sammelbänden (keine Monographien) als Quellen• bei Referenzen wird u.U. „geschummelt“• praktische Probleme beim ISI: u.a. Auswahl der
Quellenwerke
HHU Düsseldorf – SS 2005 Wissensrepräsentation 302
Nicht-thematische Informationsfilter
HHU Düsseldorf – SS 2005 Wissensrepräsentation 303
Nicht-thematische Informationsfilter
Nicht-thematischer Informationsfilter (1):Zielgruppe• jeder dokumentarischen Bezugseinheit die spezifische(n)
Zielgruppe(n) zuordnen• Grund: nicht jedes Dokument ist für jeden Nutzertyp
interessant• Bsp.: bei fachlicher Literaturdatenbank:
– interessierter Laie– Schüler (Oberstufe – Leistungskursniveau)– Student (B.A.-Niveau)– Student (M.A.-Niveau)– Forscher (mit allgemeinem Fachwissen)– Forscher (mit speziellem Fachwissen)
• im Bsp.: Abfrage im Feld „Zielgruppe“ frei selektierbar; keine Zugangsbeschränkung
HHU Düsseldorf – SS 2005 Wissensrepräsentation 304
Nicht-thematische Informationsfilter
Nicht-thematischer Informationsfilter (1):Zielgruppe• Bsp.: bei unternehmensspezifischer Datenbank (im Intranet
und Extranet):– (registrierter) Zulieferer– (anderer) Zulieferer– (registrierter) Kunde– (anderer) Kunde– Unternehmensmitarbeiter– Management– Forscher / Entwickler– Marketing– Betriebsrat
• im Bsp.: Zugang zu bestimmten Dokumentationseinheiten nur mit gesondertem Passwort
HHU Düsseldorf – SS 2005 Wissensrepräsentation 305
Nicht-thematische Informationsfilter
Nicht-thematischer Informationsfilter (1):Zielgruppe• Bsp.: bei Datenbank über Kunstwerke:
– interessierter Laie– Kaufinteressent– Künstler– Kunsthistoriker– Politiker– Journalist
• für jede Datenbank sind die Zielgruppen zu bestimmen (Segmentierung über empirische Erhebung oder –einfacher, aber unzuverlässiger – über „intuitive“ Definition)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 306
Nicht-thematische Informationsfilter
Nicht-thematischer Informationsfilter (2):Art der Themenbehandlung• Niveau der dokumentarischen Bezugseinheit hinsichtlich
der Darstellung• nicht zu verwechseln mit dem Dokumenttyp (wie Zeit-
schriftenartikel, Artikel in Proceedings, Buch, Rezension)• Bsp.: bei fachlicher Literaturdatenbank
– Überblicksartikel– empirische Studie– theoretische Abhandlung– methodologische Studie
• Die Bezeichnungen für das Dokumentniveau sind als kontrolliertes Vokabular abzulegen.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 307
Nicht-thematische Informationsfilter
Nicht-thematischer Informationsfilter (2):Art der ThemenbehandlungVariante 1: Art der Themenbehandlung als DeskriptorNachteil: „versteckt“ bei den thematischen Deskriptoren
Quelle: EMBASEbei Ovid
HHU Düsseldorf – SS 2005 Wissensrepräsentation 308
Nicht-thematische Informationsfilter
Nicht-thematischer Informationsfilter (2):Art der ThemenbehandlungVariante 2: Art der Themenbehandlung als separates Feld
Quelle: TEMA beiFIZ Technik
HHU Düsseldorf – SS 2005 Wissensrepräsentation 309
Nicht-thematische Informationsfilter
Nicht-thematischer Informationsfilter (3):Verfallsdatum
• nur bei zeitkritischen Dokumenten• Angabe eines Datums, nach dem die Dokumentations-
einheit aus dem aktiven Informationssystem entfernt wird• entweder: löschen• oder: im Archiv weiterhin bereithalten
HHU Düsseldorf – SS 2005 Wissensrepräsentation 310
Automatische Indexierung
HHU Düsseldorf – SS 2005 Wissensrepräsentation 311
Automatische Indexierung
• Automatische Indexierung unter Nutzung von Informationsfiltern• Hinweis: ohne definierte Informationsfilter: Textstatistik /
Linktopologie (Vorl. „Einführung in die Informationswissenschaft“)• Voraussetzung: Einsatz informationslinguistischer Verfahren• Varianten:• (1) ohne Dokumentationswerkzeug: Klassifikation von
Dokumenten nach Ähnlichkeit– a) permanent: Klassifikation über die gesamte Datenbasis– b) temporär: für jede Suchanfrage
• (2) mit Dokumentationswerkzeug (Schlagwortliste, Klassifikationssystem, Thesaurus): Dokumentanalyse –Zuordnung von Notationen, Schlagworten bzw. Deskriptoren
HHU Düsseldorf – SS 2005 Wissensrepräsentation 312
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit• Ziel: Zusammenfassen ähnlicher Dokumente unter eine Klasse
(möglichst große Ähnlichkeit innerhalb der Klasse, möglichst große Unähnlichkeit zu anderen Dokumenten bzw. Klassen)
• Basis: Worte und (erkannte) Phrasen von jeweils zwei Dokumenten in Grundform oder Wortstamm
• Anzahl der Worte/Phrasen in Dokument A: a• Anzahl der Worte/Phrasen in Dokument B: b• Anzahl der in A und B gemeinsam vorkommenden
Worte/Phrasen: g• ggf. zusätzlich: jeweils Gewichtungswert (IDF, WDF, Position)
jedes Wortes bzw. jeder Phrase (i)
Edie Rasmussen: Clustering Algorithms. – In: William B. Frakes; Ricardo Baezo-Yates (Hrsg.): InformationRetrieval. Data Structures & Algorithms. – Upper Saddle River, NJ: Prentice Hall PTR, 1992, 419-442.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 313
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit• Ähnlichkeitsmaße• Koeffizient nach DICE
• Ähnlichkeit(A,B) = 2g / (a + b)
2 * Σ (Gewicht(i,A) * Gewicht(i,B))• gewichtete Ähnlichkeit(A,B) = ------------------------------------------------
Σ (Gewicht(i,A))2 + Σ (Gewicht(i,B))2
wobei i : Wort/Phrase in A und B
HHU Düsseldorf – SS 2005 Wissensrepräsentation 314
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit• Ähnlichkeitsmaße• Koeffizient nach JACCARD
• Ähnlichkeit(A,B) = g / (a + b - g)
Σ (Gewicht(i,A) * Gewicht(i,B))• Ä(A,B) = --------------------------------------------------------------------------------------------
Σ (Gewicht(i,A))2 + Σ (Gewicht(i,B))2 – Σ (Gewicht(i,A) * Gewicht(i,B))
wobei i : Wort/Phrase in A und B
HHU Düsseldorf – SS 2005 Wissensrepräsentation 315
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit• Ähnlichkeitsmaße• Cosinus-Koeffizient
• Ähnlichkeit(A,B) = g / (a * b)1/2
Σ (Gewicht(i,A) * Gewicht(i,B))• Gew. Ähnlichkeit(A,B) = ------------------------------------------------------------
( Σ (Gewicht(i,A))2 * Σ (Gewicht(i,B))2 )1/2
wobei i : Wort/Phrase in A und B
HHU Düsseldorf – SS 2005 Wissensrepräsentation 316
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit• Ähnlichkeitsmaße
• Beispiel: Dokument A: 100 Worte (a=100); Dokument B= 200 Worte (b=200); gemeinsame Worte in A und B: 15 (g=15)
• Ähnlichkeit(A,B) nach DICE = 2g / (a + b), also: 30 / (100 + 200) = 0,1• Ähnlichkeit(A,B) nach JACCARD = g / (a + b - g), also
15 / (100 + 200 – 15) = 15 / 285 = 0,053• Cosinus-Ähnlichkeit(A,B) = g / (a * b)1/2, also: 15 / (100 * 200)1/2 =
15 / (20.000)1/2 = 15 / 141,42 = 0,106
HHU Düsseldorf – SS 2005 Wissensrepräsentation 317
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit• Errechnung der Ähnlichkeit für alle Dokumentpaare (einer
Datenbank oder eines Suchergebnisses)• Herstellen einer Ähnlichkeitsmatrix
Dok1 Dok2 Dok3 DoknDok1 1Dok2 Ä(2,1) 1Dok3 Ä(3,1) Ä(3,2) 1...Dokn Ä(n,1) Ä(n,2) Ä(n,3) 1
HHU Düsseldorf – SS 2005 Wissensrepräsentation 318
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit• Clusteranalyse• Single-Link-Verfahren:
– Ausgang: Paar (A,B) mit der höchsten Ähnlichkeit, das in noch keinem Cluster enthalten ist
– Hinzufügen von allen Dokumenten, die mit A ähnlich sind (d.h. die einen Schwellenwert überschreiten), sagen wir: C und D
– Hinzufügen von allen Dokumenten, die mit B ähnlich sind, sagen wir: E, F und G
– Hinzufügen von allen Dokumenten, die mit C ähnlich sind– usw. ...– ... bis kein Dokument mehr vorhanden ist, das den Schwellenwert
überschreitet– nächstes Paar (wie oben)
• das Single-Link-Verfahren erzeugt u.U. sehr große Cluster
HHU Düsseldorf – SS 2005 Wissensrepräsentation 319
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit• Single-Link-Verfahren. Beispiel. Schwellenwert Ähnlichkeit = 0,2
A B
C
G
FD E
JIH
0,30
0,250,24
0,27 0,21 0,29
0,290,25
0,22
Klasse
HHU Düsseldorf – SS 2005 Wissensrepräsentation 320
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit• Clusteranalyse• Complete-Link-Verfahren:
– Ausgang: Paar (A,B) mit der höchsten Ähnlichkeit, das in noch keinem Cluster enthalten ist
– Hinzufügen von allen Dokumenten, die mit A und B ähnlich sind (d.h. einen Schwellenwert überschreiten)
– und die untereinander ähnlich sind (d.h. den Schwellenwert überschreiten)
• das Complete-Link-Verfahren erzeugt u.U. sehr kleine Cluster
HHU Düsseldorf – SS 2005 Wissensrepräsentation 321
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit• Complete-Link-Verfahren. Beispiel. Alle Ähnlichkeitswerte liegen
über dem Schwellenwert
A B
C
G
F
H
Klasse
HHU Düsseldorf – SS 2005 Wissensrepräsentation 322
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit• Clusteranalyse• Group-Average-Link-Verfahren:
– Mittelstellung zwischen Single-Link- und Complete-Link-Verfahren– Ausgang: wie Single-Link-Verfahren– Errechnung der durchschnittlichen Ähnlichkeit aller Paare– durchschnittliche Ähnlichkeit als Schwellenwert– alle Paare verbleiben im Cluster, deren Ähnlichkeit über dem
Schwellenwert liegen
HHU Düsseldorf – SS 2005 Wissensrepräsentation 323
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit• Group-Average-Link-Verfahren. Beispiel. Entfernen der Paare, die
unter der Durchschnittsähnlichkeit im Single-Link-Cluster (im Beispiel: 24,9) liegen
A B
C FE
H
0,30
0,25
0,27
0,290,25
Klasse
G
0,29
HHU Düsseldorf – SS 2005 Wissensrepräsentation 324
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit• Nicht-hierarchische Klassifikation• Hierarchische Klassifikation
– mehrfache Anwendung der Clusterbildung innerhalb bereits erkannter Cluster
– Abbruch, wenn unterer Schwellenwert (minimale Anzahl von Dokumenten im Cluster) erreicht wird
• letzter Schritt: Finden einer aussagekräftige Klassenbenennung (Wort(e)/Phrase(n) mit höchsten Gewichtungswerten)
• Einsatzgebiet der Klassifikation nach Ähnlichkeit– unternehmensinterne Dokumentsammlungen, die überhaupt nicht
indexiert worden sind
HHU Düsseldorf – SS 2005 Wissensrepräsentation 325
Automatische Indexierung
• Automatische Zuordnung von Schlagworten• Voraussetzung: Dokumentationswerkzeug (Schlagwort-
liste, Klassifikationssystem, Thesaurus) liegt vor• Ansatz 1. Probabilistische Verfahren:
Wie groß ist die Wahrscheinlichkeit, dass einem gegebenen Dokument ein bestimmtes Schlagwort (Schlagwort i.e.S., Notation, Deskriptor) zuzuordnen ist?– Voraussetzung: Vorliegen von Wahrscheinlichkeits-
informationen (zum „Training“ des Systems)– Beispiel: AIR/PHYS
HHU Düsseldorf – SS 2005 Wissensrepräsentation 326
Automatische Indexierung
• Automatische Zuordnung von Schlagworten• Ansatz 2: Textstatistische Verfahren: Welche Textworte
(Phrasen) mit welcher Gewichtung müssen vorliegen, damit ein bestimmtes Schlagwort zuzuordnen ist?
• Ansatz 3: Regelbasierte Verfahren: Wenn Textworte und ihre Umgebung gewissen Regeln folgen, wird ein bestimmtes Schlagwort zugeordnet.
• Im praktischen Einsatz: Mischformen aus den drei Ansätzen– Beispiele: Reuters – Factiva („Intelligent Indexing“),
Dialog Profound („InfoSort“), Dialog NewsEdge („Real-time Content Refinery System“) – Convera („RetrievalWare“)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 327
Automatische Indexierung
• Automatische Zuordnung von Schlagworten -probabilistisches Verfahren
• Beispiel AIR/PHYS• Projekt der TH Darmstadt mit FIZ Karlsruhe• Physikdatenbank – Erschließungsbasis: Abstracts –
Sprache: englisch• Erschließungswerkzeug: Physik-Thesaurus• ca. 392.000 intellektuell indexierte Dokumente (Abstracts
und Deskriptoren) liegen vor und dienen als Basis für das Wörterbuch PHYS-PILOT
Peter Biebricher; Norbert Fuhr; Gerhard Lustig; Michael Schwantner; Gerhard Knorz: The automatic indexingsystem AIR/PHYS – From research to application. – In: Proceedings of the 11th Annual International Conference
on Research and Development in Information Retrieval. – New York: ACM, 1988, 333-342.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 328
Automatische Indexierung
• AIR/PHYS• Wörterbuch PHYS/PILOT• Vokabular aus den intellektuell indexierten Dokumenten
– #Dok(t) : Anzahl der Dokumente, die den Term t im Abstract enthalten
– #Dok(t,s) : Anzahl der Dokumente aus #Dok(t), die den Deskriptor s enthalten
• Wahrscheinlichkeit für ein Term-Deskriptor-Paar z(t,s) = #Dok(t,s) / #Dok(t)
• Schwellenwerte– #Dok(t,s) = 2– z(t,s) = 0,29
• Ergebnis: 800.000 Term-Deskriptor-Paare, davon 350.000 genutzt
HHU Düsseldorf – SS 2005 Wissensrepräsentation 329
Automatische Indexierung
• AIR/PHYS - Wörterbuch PHYS/PILOT – Beispiel
Term Deskriptor #Dok(t,s) #Dok(t) z(t,s)stellar wind STELLARS WINDS 359 479 0,74molecular outflow 11 19 0,57hot star wind 13 17 0,76terminal stellar wind velocity 12 13 0,92
Relationen im Thesaurus• Nicht-Deskriptor – Deskriptor• Hierarchie• Antonymie• formaler Einschluss (Bsp.: collision – atom collision)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 330
Automatische Indexierung
• AIR/PHYS - Indexierung
• a(x(d,s)) ist abhängig von– z(t,s) – t ist im Abstract vorhanden, t-s ist als Relation erkannt– Häufigkeit des Auftretens von s im Abstract– Auftreten von s im Titel– ... weitere 30 Komponenten
Dokument d – Deskriptor s
Relevanzbeschreibungx(d,s)
Indexierungsgewichtg = a(x(d,s))
HHU Düsseldorf – SS 2005 Wissensrepräsentation 331
Automatische Indexierung
• AIR/PHYS – Indexierung• a ist weiterhin abhängig von Deskriptor – Deskriptor – Relationen
(etwa Begriff – Oberbegriff)• die Berechnung von a(x(d,s)) durchläuft mehrere Iterationsrunden• Transformation der gewichteten Deskriptorkandidaten in
ungewichtete (0-1-Entscheidung)– wenn a(x(d,s)) größer als / gleich Schwellenwert d wird durch s
indexiert– wenn a(x(d,s)) kleiner als Schwellenwert s wird nicht
berücksichtigt• Güte der automatischen Indexierung (Stand: 1987)
– 19% der Dokumente: von Indexern als brauchbar gewertet– 63%: brauchbar bei kleineren Korrekturen– 18%: unbrauchbar
HHU Düsseldorf – SS 2005 Wissensrepräsentation 332
Automatische Indexierung
• AIR/PHYS – Indexierung• nur 44% der Deskriptoren sind durch die Relation z fundiert (also
durch die bereits erkannten Zusammenhänge zwischen intellektuell zugeteilten Deskriptoren und Termen im Abstract)
• bei halbautomatischer Indexierung (d.h. Fehlerkorrektur der automatisch generierten Deskriptoren durch professionelle Indexer) steigt die Anzahl der erkannten Zusammenhänge zwischen t und s
• das Wörterbuch wird fortgeschrieben• das System wird dadurch „trainiert“• das System müsste entsprechend fortlaufend besser werden• ... dies allerdings nur in der Theorie – die Datenbank PHYS und
damit deren automatische Indexierung wurden inzwischen eingestellt
HHU Düsseldorf – SS 2005 Wissensrepräsentation 333
Automatische Indexierung
• Automatische Zuordnung von Schlagworten –regelbasiertes Verfahren
• Beispiel Construe-TIS• Projekt von Reuters Ltd. in Kooperation mit der Carnegie
Group (Pittsburgh)• Datenbank mit Agenturmeldungen und Zeitungsartikeln –
Erschließungsbasis: Volltexte – Sprachen: zunächst englisch, derzeit: 22
• Erschließungswerkzeug: Reuters-Thesaurus (derzeit: „Factiva Intelligent Indexing“)
Philip J. Hayes; Steven P. Weinstein: Construe-TIS: A system for content-based indexing of a database of newsstories. – In: Alain Rappaport; Reid Smith (Ed.): Proceedings of the IAAI-90 Conference on Innovative Applications
of Artificial Intelligence. Bd. 2. – Cambridge, Mass.: MIT Press, 1991, 49-66.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 334
Automatische Indexierung
• Topic Identification System (TIS)• Phase 1: Begriffserkennung• Begriff wird durch das Vorkommen bzw. Nicht-Vorkommen
von Worten bzw. von Phrasen erkannt• Beispiel: Begriff GOLD (im Sinne einer Ware)• Operator &n : „und nicht in der selben Phrase“ (weitere
Operatoren: „im selben Satz“, „im selben Dokument“)• beim Begriffssatz GOLD hinterlegt:
(gold (&n (reserve ! medal ! jewelry))• im Text: „... gold production ...“ GOLD• im Text: „... gold medal ...“ NULL
HHU Düsseldorf – SS 2005 Wissensrepräsentation 335
Automatische Indexierung
• Topic Identification System (TIS)• Phase 1: Begriffserkennung• Zuordnung eines Gewichtungswertes zu den Begriffen in
Abhängigkeit von gemeinsam vorkommenden Termen• Beispiel: Begriff FOREIGN EXCHANGE• Satz 1: „... the Fed intervented in the money market ...“• Satz 2: „... currency speculation ...“• Satz 1 hat eine höhere Wahrscheinlichkeit für FOREIGN
EXCHANGE als Satz 2
HHU Düsseldorf – SS 2005 Wissensrepräsentation 336
Automatische Indexierung
• Topic Identification System (TIS)• Phase 2: Regeln für Kategorisierung (Klassierung)• Wenn-dann-Regeln mit Booleschen Operatoren; angewandt
auf erkannte Begriffe• erkannter Begriff: „concept“; vorgegebener Deskriptor:
„category“• Beispiel: Zuordnung des Deskriptors AUSTRALIAN
DOLLAR zu einem Dokument• zu beachten: Dollars gibt es auch in den USA, in Singapur
usw.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 337
Automatische Indexierung
• Topic Identification System (TIS)• Phase 2: Regeln für Kategorisierung (Klassenbildung)• Regel:
(iftest: (or [australian-dollar-concept]
(and [dollar-concept][australia-concept](not [us-dollar-concept])(not [singapure-dollar-concept])(not ...))
action: (assign australian-dollar-category))• Solche Regeln können auf Satz-, Absatz- oder Textebene
angewandt werden, alternativ auch auf Wortabstände.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 338
Automatische Indexierung
• Topic Identification System (TIS)• Phase 2: Regeln für Kategorisierung (Klassenbildung)• Ein Text mit dem Satz
„Australia announced today that it would devalue the dollar.“bekommt nach der Regel den Deskriptor AUSTRALIAN DOLLAR zugeordnet.
• weitere Regeln berücksichtigen die Anzahl des Vorkommens eines Begriffs oder die Position im Text
HHU Düsseldorf – SS 2005 Wissensrepräsentation 339
Automatische Indexierung
• Topic Identification System (TIS)• Phase 2: Regeln für Kategorisierung (Klassenbildung)• Regel
(iftest: or (and [gold-concept :scope headline 1]
[gold-concept :scope body 1])[gold-concept :scope body 4])
action: (assign gold catagory))• Anmerkung: Diese Regel kann durch textstatistische Maße
(WDF, IDF, Positionswert) noch verfeinert werden.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 340
Automatische Indexierung
Weiteres Beispiel:
Convera RetrievalWare
HHU Düsseldorf – SS 2005 Wissensrepräsentation 341
Abstracts
HHU Düsseldorf – SS 2005 Wissensrepräsentation 342
Abstracts
Grundlegende Literatur• Brigitte Endres-Niggemeyer: Summarizing Information. –
Berlin [u.a.]: Springer, 1998.• Edward T. Cremmins: The Art of Abstracting. - Philadelphia:
ISI Press, 1982.• Harold Borko; C.L.Bernier: Abstracting Concepts and
Methods. – New York: Academic Press, 1975.• Josef Koblitz: Methoden des Referierens von Dokumenten.
– Leipzig: Bibliographisches Institut, 21968.• Rainer Kuhlen: Informationsaufbereitung III: Referieren
(Abstracts – Abstracting – Grundlagen). – In: Grundlagen der praktischen Information und Dokumentation. –München: Saur, 52004, 189-206.
• DIN 1426: Kurzreferate.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 343
Abstracts
• Inhaltsangaben nach DIN 1426– Formen von Inhaltsangaben:
• Auszug (Inf.verdichtung: nicht geeignet, da selektiv)• Zusammenfassung (Inf.verdichtung: nicht geeignet, da Kenntnis
des Textes vorausgesetzt wird)• Rezension (Inf.verdichtung: nur sehr bedingt geeignet; i.d.R. zu
lang – günstig aber als Zusatzinformation)• Literaturbericht (Inf.verdichtung über mehrere Dokumente,
wegen zu großer Länge nicht geeignet)• Annotation (Inf.verdichtung über Stichworte: nicht geeignet, so
etwas macht man mittels Thesaurus, Klassifikation oder Textwortmethode)
• Inhaltsverzeichnis (Inf.verdichtung: bei Monographien bedingt geeignet)
• Sammelreferat (Inf.verdichtung über mehrere Dokumente; sehr geeignet)
• Kurzreferat / Abstract (Inf.verdichtung eines Dokuments; sehr geeignet)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 344
Abstracts
• Inhaltsangaben nach DIN 1426– Kurzreferat / Abstract (bei genau einer DBE – der Standardfall)
Sammelreferat (bei mehreren DBE):• Vollständigkeit• Genauigkeit• Objektivität• Kürze• Verständlichkeit
– Ziele:• grundlegende Inhalte der Dokumente sollen vom Nutzer schnell
und exakt erkannt werden• die Relevanz der Dokumente für eine Fragestellung muss klar
werden• Nutzer muss entscheiden können, ob der Volltext benötigt wird • letztlich: Fundierung einer ja/nein-Entscheidung, ob der Volltext
eingesehen wird (dem Link gefolgt wird; das Dokument gekauft oder eine Übersetzung in Auftrag gegeben wird)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 345
Abstracts
• Kurzreferat / Abstract – Gliederung nach DIN 1463
• zentrale Aussage des Dokuments• ggf. Dokumenttyp spezifizieren (etwa: Forschungsbericht; Letter)• ggf. Art der Themenbehandlung nennen (Überblick, theoretische
Arbeit, empirische Arbeit)• Hypothesen• Zielsetzung• Bezug zu anderen Arbeiten• Methodik (Untersuchungsgegenstand, -methoden, -techniken)• Ergebnisse und Schlussfolgerungen• Herkunftsvermerk: entweder „Autor“ oder Kürzel des Bearbeiters
– Länge• Kurzmitteilung: max. 200 Zeichen• Zeitschriftenartikel: max. 500 Zeichen• umfangreiche Monographie: max. 1.000 Zeichen
HHU Düsseldorf – SS 2005 Wissensrepräsentation 346
Abstracts
• Kurzreferat / Abstract– Autorenabstract
• Vorteile: – liegt mit der Publikation direkt vor– Autor bringt einschlägiges Fachwissen mit
• Nachteile: – Autor ist nie objektiv– Autorensprache kann durchaus unverständlich sein– Inter-Abstractor-Konsistenz nicht gegeben
– Fremdabstract• Vorteile:
– objektiver (und wahrscheinlich verständlicher) als ein Autorenabstract
– Konsistenz ist trainierbar– dokumentarisch-informationswissenschaftlicher Sachverstand
• Nachteile:– muss erstellt werden (es fallen Kosten an)– Fachwissen ist nicht immer ausreichend vorhanden
HHU Düsseldorf – SS 2005 Wissensrepräsentation 347
Abstracts
• Kurzreferat / Abstract– Sprache
• in Zielsprache(n) der Datenbasis• Vorteil für Nutzer: Kurzüberblick auch über Dokumente in
Sprachen, die der Nutzer nicht beherrscht• deshalb sinnvoll anzuschließen: Übersetzungsservice für
die Volltexte• bei digital vorliegenden Dokumenten: u.U. langt zunächst
eine automatische Übersetzung (Bsp.: AltaVista‘s Babelfish oder Google‘s „translate tool“)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 348
Abstracts
• Kurzreferat / Abstract– NICHT ins Abstract gehören
• Titel (wäre redundant)• Negativa (wäre im Retrieval über den Abstract-Index irreführend)
– Problem: Wahrheitsgehalt• Lösung 1: Referieren ohne Überprüfung des Wahrheitsgehalts
der Vorlage („... Die Quadratur des Kreises arbeitet nach der Methode ...“)
• Lösung 2: Überprüfung des Wahrheitsgehaltes der Vorlage und Markieren von zweifelhaften Aussagen („... Verf. behauptet, die Quadratur des Kreises geschehe nach der Methode ...“)
– Typen des Kurzreferats / Abstracts• indikatives Referat• informatives Referat• analytisches Referat
HHU Düsseldorf – SS 2005 Wissensrepräsentation 349
Abstracts
• Kurzreferat / Abstract: Was wird aufgenommen?– das, worum es in einem Text geht – „aboutness“
• extensionale Aboutness: inhärente Aboutness eines Textes – diese ist Basis für Abstracts
• intensionale Aboutness: Bedeutung (Stellenwert) eines Textes im Kontext anderer Texte – nicht für Abstractsgeeignet (für Intertextualität ist die Zitationsindexierung zuständig)
– im Sinne der Textlinguistik: „Makrostruktur“ eines Textes
• Entscheidung, was weggelassen wird• Entscheidung, was (aus den speziellen Aussagen)
verallgemeinert wirdHelen R. Tibbo: Abstracting, Information Retrieval and the Humanities. – Chicago; London: American Library
Association, 1993. (Chapter 2: Abstracts and Abstracting. Fundamental Considerations, 18-39).
HHU Düsseldorf – SS 2005 Wissensrepräsentation 350
Abstracts
• Kurzreferat / Abstract: homomorphe versus paramorphe Reduktion Text mit
Makrostruktur
homomorphe Reduktion paramorphe Reduktion
HHU Düsseldorf – SS 2005 Wissensrepräsentation 351
Abstracts
• Kurzreferat / Abstract: homomorphe versus paramorphe Reduktion– isomorphe Reduktion: die Makrostrukturen von Text
und Abstract sind gleich (etwa: Thema A im Text 25% und Thema B im Text 16% des Umfangs, dann auch im Abstract A 25% und B 16%) – faktisch nicht durchführbar
– homomorphe Reduktion: die Makrostrukturen von Text und Abstract sind ähnlich – bei Abstracts anzustreben
– paramorphe Reduktion: die Makrostrukturen von Text und Abstract sind unterschiedlich (böse gesagt: das Abstract liegt „daneben“ [para, grch. = neben]) – oder u.U. positiv: perspektivisches Abstract
HHU Düsseldorf – SS 2005 Wissensrepräsentation 352
Abstracts
• Texttypologie– erzählende Texte (Geschichten, Geschichte, ...)– prozedurale Texte (Gebrauchsanweisungen, Rezepte, ...)– verhaltensbeeinflussende Texte (politische Reden,
Werbetexte, ...)– erklärende Texte (wissenschaftliche Literatur, „Essays“, ...)
• disziplinspezifische Texte– etwa: naturwissenschaftliche Texte mit i.d.R. straffer und
anerkannter Strukturierung (hieran orientiert sich die deutsche Norm DIN 1463)
– etwa: geisteswissenschaftliche Texte mit i.d.R. eher loser Strukturierung, wobei die Struktur allgemein kaum vorgegeben ist
• Abstracts sind abhängig vom Texttyp der Vorlage und (bei erklärenden Texten) von der Fachdisziplin
HHU Düsseldorf – SS 2005 Wissensrepräsentation 353
Abstracts
• disziplinspezifisches Abstracting. Beispiel• bei technischen Dokumenten (etwa Patenten oder
Gebrauchsmustern): zusätzlich zentral wichtige Zeichnung
HHU Düsseldorf – SS 2005 Wissensrepräsentation 354
Abstracts
• Indikatives Kurzreferat / Abstract
Inhaltsanalyse
referierwürdiges Dokument
referierwürdige Inhalts-komponenten- Themen (weiße Kästen)- Aussagen zu den Themen
(schraffierte Kästen)
Indikatives Abstract:Wiedergabe der Themen in vollständigen Sätzen
HHU Düsseldorf – SS 2005 Wissensrepräsentation 355
Abstracts
• Indikatives Kurzreferat / Abstract - Beispiel
• Russ, Hans: Einzelhandel (Ost): Optimistische Geschäftserwartungen
• Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3• Abstract: Die Geschäftslage des ostdeutschen Einzelhandels im
Januar 1993 wird beschrieben. Skizziert wird der in den nächstensechs Monaten zu erwartende Geschäftsverlauf. Im einzelnen geht es um den Gebrauchsgüterbereich und den Verbrauchs-güterbereich.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 356
Abstracts
• Informatives Kurzreferat / AbstractInhaltsanalyse
referierwürdiges Dokument
referierwürdige Inhalts-komponenten- Themen (weiße Kästen)- Aussagen zu den Themen
(schraffierte Kästen)
Informatives Abstract:Wiedergabe der Aussagen zu den Themenin vollständigen Sätzen
HHU Düsseldorf – SS 2005 Wissensrepräsentation 357
Abstracts
• Informatives Kurzreferat / Abstract – Beispiel
• Russ, Hans: Einzelhandel (Ost): Optimistische Geschäftserwartungen
• Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3• Abstract: Die Geschäftslage des ostdeutschen Einzelhandels hat
sich im Januar 1993 im Vergleich zum Vormonat deutlich verschlechtert. Hinsichtlich des in den nächsten sechs Monaten zu erwartenden Geschäftsverlaufs äußerten sich die Teilnehmer am ifo Konjunkturtest allerdings zuversichtlich. Im Gebrauchs-güterbereich ist die Geschäftslage im Durchschnitt zufrieden-stellend; im Verbrauchsgüterbereich überwiegen negative Urteile.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 358
Abstracts
• Analytisches Kurzreferat / Abstract (Strukturreferat)Inhaltsanalyse
referierwürdiges Dokument
referierwürdige Inhalts-komponenten- Themen (weiße Kästen)- Aussagen zu den Themen
(schraffierte Kästen)
Analytisches Abstract:Wiedergabe der Themen sowie der Aussagen zu den Themenin tabellarischer Form
HHU Düsseldorf – SS 2005 Wissensrepräsentation 359
Abstracts
• Analytisches Kurzreferat / Abstract – Beispiel
• Russ, Hans: Einzelhandel (Ost): Optimistische Geschäftserwartungen
• Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3• Inhalt:• Gegenstand: Ostdeutscher Einzelhandel im Januar 1993• Methode: ifo Konjunkturtest• Ergebnisse:• --- Geschäftslage: merklich verschlechtert gegenüber Vormonat• --- Erwartungen: zuversichtlich (für die nächsten 6 Monate)• --- Gebrauchsgüter: schwache Umsatzeinbußen, zufriedenstellend• --- Verbrauchsgüter: starke Umsatzeinbußen, 1/3 aller
Testteilnehmer äußern sich unzufrieden
HHU Düsseldorf – SS 2005 Wissensrepräsentation 360
Abstracts
• Kurzreferat / Abstract - Vor- und Nachteile
Vorteile Nachteile
indikativ kostengünstig informationsarmunübersichtlich
informativ informationsreich bei langen Vorlagen kaumdurchzuführenunübersichtlichteuer
analytisch informationsreich sehr teuerstrukturiert nicht für jede Art von
Vorlagen geeignet
HHU Düsseldorf – SS 2005 Wissensrepräsentation 361
Abstracts
• Sammelreferat– Auswahl eines aktuellen („heißen“) Themas – Zusammenstellung der Menge einschlägiger Dokumente– Abstractingprozess wie bei Einzelabstract; jeweils
jedoch bezug auf die Einzeldokumente nehmen (etwa durch End- oder Fußnoten)
– außer Abstracting auch redaktionelle Arbeiten– Länge: 1 bis 3 Seiten– in den Endnoten oder in einer Bibliographie die
bibliographischen Angaben der Dokumente nennen (ggf. dahin verlinken)
– Einsatzgebiet: thematischer Pushdienst
HHU Düsseldorf – SS 2005 Wissensrepräsentation 362
Abstracts
• Sammelreferat – Beispiel: KnowledgeSummaries
Willi Bredemeier: Knowledge Summaries. Journalistische Professionalität mit Verbesserungsmöglichkeiten beiThemenfindung und Quellenauswahl. – In: Password Nr. 3 (2004), 10-15.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 363
Abstracts
• Sammelreferat – Beispiel: KnowledgeSummaries
HHU Düsseldorf – SS 2005 Wissensrepräsentation 364
Abstracts
• Automatisches Abstracting– Bemühungen seit Jahrzehnten; jedoch bisher in der Praxis wenig
erfolgreich; nur experimentelle Systeme– Basismethode: Extraktion der „wichtigen“ Sätze aus einem Text
anhand von Wahrscheinlichkeitswerten (P) für „Wichtigkeit“• (1) Satzlänge (Mindestlänge: etwa 5 Worte):
P(1) = 0 für Sätze mit weniger als 5 Worten); P(1) = 1 für alle anderen Sätze
• (2) Indikatorphrasen (Sätze, die gewisse Phrasen – z.B. „in conclusion“ – enthalten, werden hoch bewertet): P(2) für Sätze mit Indikatorphrasen > P(2) für Sätze ohne Indikatorphrasen
Brigitte Endres-Niggemeyer: Textzusammenfassung. – In: Computerlinguistik und Sprachtechnologie. Eine Einführung. – München: Elsevier – Spektrum 22004, 511-516.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 365
Abstracts
• Automatisches Abstracting• (3) Absatzstruktur (Sätze in den vorderen und hinteren Ansätzen
werden höher bewertet als solche in mittleren Absätzen): P(3) für Sätze in den ersten n Absätzen bzw. in den letzten m Absätzen > P(3) für alle anderen Sätze
• (4) Sätze ranken nach Termgewichten (für alle Terme WDF und IDFberechnen – Termgewichte jedes Satzes addieren): P(4) = Summe der Termgewichte im Satz
• (5) ggf. Sätze, in denen Akronyme vorkommen (z.B. IBM, SPD), höher bewerten: P(5) für Sätze mit einem Akronym > P(5) für Sätze ohne Akronyme
• Errechnung der Wichtigkeitswahrscheinlichkeit für jeden Satz: P(Satz) = P(1) * P(2) * P(3) * P(4) * P(5)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 366
Abstracts
• Automatisches Abstracting• Sortierung der Sätze nach P(Satz)• Auszählen der Länge (Anzahl der Zeichen) für jeden Satz• Vergleich mit Schwellenwert (maximale Länge des Abstracts)• Markieren der ersten n Sätze, deren Gesamtzeichenanzahl unter der
maximalen Abstractlänge liegt• Herstellen der ursprünglichen Reihenfolge für diese n Sätze• diese n Sätze bilden das Abstract
– verfeinerte Methoden• Vergleiche mit „Trainingsdaten“ (Abstracts professioneller –
menschlicher – Abstracter sowie ihrer Ausgangstexte)• Kürzen von Sätzen• Zusammenfassen mehrerer Sätze
HHU Düsseldorf – SS 2005 Wissensrepräsentation 367
Abstracts
• Abstracts. Fazit– Referate ergänzen den Titel einer DE und ermöglichen dem
Nutzer zu entscheiden, ob die DBE benötigt wird (auch bei fremdsprachlicher Literatur: Übersetzung!)
– außer bei sehr kurzen Dokumenten (z.B. Kurzmeldungen bei Zeitungsartikeln) benötigt jede DE ein Abstract
– die Informationsverdichtung geschieht so knapp, aber auch so aussagekräftig wie möglich, die Makrostruktur der Vorlage bleibt(nahezu) erhalten (homomorphe Reduktion)
– Referate sind abhängig vom Texttyp und vom Fach der DBE– Typen der Informationsverdichtung des Inhalts eines Dokuments
sind das indikative, informative (Standard) und das analytische Abstract
– technische Dokumente benötigen u.U. eine Zeichnung zur Unterstützung des Abstracts
– Informationsverdichtung mehrerer Dokumente geschieht über Sammelreferate, eingesetzt als thematischer Pushdienst
HHU Düsseldorf – SS 2005 Wissensrepräsentation 368
Abstracts
• Abstracts. Fazit– automatisches Abstracting: Berechnung der „Wichtigkeit“ von
Sätzen innerhalb eines Dokuments (derzeit wenig ausgereifte Systeme)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 369
Informationsextraktion
HHU Düsseldorf – SS 2005 Wissensrepräsentation 370
Informationsextraktion
• Informationsextraktion– bei der Suche nach oder der laufenden Beobachtung von
konkreten Sachverhalten im WWW– nicht: Angabe einer Webseite– sondern: Angabe des Sachverhalts (und nur diesen) -
analog zu den analytischen Kurzreferaten– die Sachverhalte werden den Webseiten entnommen (aus
diesen „extrahiert“)– derzeitige Einsatzgebiete: vergleichende Informationen
aus Webseiten bei Spezialsuchmaschinen oder Shopping Malls (z.B. Preisvergleiche); Informationsagenten
Günter Neumann: Informationsextraktion. – In: Computerlinguistik und Sprachtechnologie. Eine Einführung. – München: Elsevier – Spektrum 22004, 502-510.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 371
Informationsextraktion
• Informationsextraktion– vorgegeben: Menge von Objekten bzw. Merkmalen, die einen
Sachverhalt bilden (z.B. Produktbezeichnung und Preis, Autor undBuch)
– Extraktionsprozess: Wrapper („Einpacker“)• Startmenge: „typische“ Webseiten für die gesuchte Relation (bei Brin: 5
Bücher mit deren Autorennamen)• Retrieval: Suche nach Webseiten, in denen die gesuchte Relation
vorkommt (also die 5 Bücher und Autorennamen)• Erkennen der Muster des Ausdrucks des Sachverhaltes (der „patterns“)
– Worte, die den Zusammenhang ausdrücken – z.B. „by author“, „written by“
• Suche nach allen Webseiten, die einen solchen Sachverhalt ausdrücken
– Ergebnis: konkrete Werte der Merkmale (z.B. Karl May - Winnetou)Sergey Brin: Extracting patterns and relations from the World Wide Web. – In: Lecture Notes in Computer Science,
Vol. 1590. – Berlin [u.a.]: Springer, 1998, 172-183.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 372
Informationsextraktion
hier: bis Rang 80Meldung /data sheet oder Katalog
hier: ab Rang 81automatisch
(Informationsextraktion)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 373
Informationsextraktion
HHU Düsseldorf – SS 2005 Wissensrepräsentation 374
Informationsextraktion
• Informationsextraktion– Ansätze:– (1) „Knowledge Engineering Approach“
die Sachverhalte sowie die Muster (patterns) werden intellektuell erstellt
– (2) „Automatically Trainable Systems“Suche nach Sachverhalten und Mustern mittels informationsstatistischer und –linguistischer Algorithmen (z.T. Verwendung von Trainingsdaten –etwa indexierte Korpora)
– Weiterentwicklung der Forschungen zur Informations-extraktion durch MUC („Message Unterstanding Conferences“ – seit 1987)
Douglas E. Appelt; David J. Israel: Introduction to Information Extraction Technology. – In: International JointConference on Artificial Intelligence 1999 (IJCAI-99).
Line Eikvil: Information Extraction from World Wide Web. A Survey. – Oslo: Norwegian Computing Center,1999. – (Technical Report; 945).
HHU Düsseldorf – SS 2005 Wissensrepräsentation 375
Informationsextraktion
• Informationsextraktion– Einsatz beim konkreten Informationsbedarf (Faktenfrage)
• Kennzeichnung des Typs des Informationsbedarfs durch Nutzer
• Beschreibung des gesuchten Sachverhalt (etwa 1. „Wie heißt die Hauptstadt von NRW?“ 2. „Wie heißen die Hauptstädte aller 25 EU-Länder?“
• automatisches Vorgehen nach Ansatz (2) „Automatically Trainable Systems“ – ggf. Dialog zur Abklärung der Mustererkennung
• Aufsuchen der Webseiten – Informationsextraktion• Ausgabe nur des nachgefragten Sachverhalts
zu Frage 1: Hauptstadt NRW : Düsseldorf (URL: ...) zu Frage 2: Hauptstadt Belgien : Brüssel (URL: ...)
Hauptstadt Dänemark : Kopenhagen ... Hauptstadt Zypern : Nikosia (URL: ...)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 376
Informationsextraktion
• Informationsagenten– laufende Beobachtung von Sachverhalten (Fakten) im
WWW
– periodischer Einsatz der Informationsextraktion („SDI für Fakten“)
– Einsatzgebiet (Beispiel):
• Wettbewerberbeobachtung (Personen im Management, Preisänderungen, Umsatzzahlen, ...)
Nicholas Kushmerick; Bernd Thomas: Adaptive Information Extraction. Core Technologies for Information Agents. –Koblenz: Universität Koblenz-Landau / Institut für Informatik, 2003. – (Fachberichte Informatik 9/2003).
HHU Düsseldorf – SS 2005 Wissensrepräsentation 377
Informationsextraktion
• Informationsextraktion. Fazit– Informationsextraktion: Erkennen einzelner Sachverhalte,
Extrahieren konkreter Sachverhalte aus digitalen Dokumenten• Einsatz innerhalb spezifischer Wissensbereiche (z.B.
Produkte) – recht ausgereifte Systeme (z.B. Froogle)• Einsatz im WWW allgemein (beim konkreten
Informationsbedarf) – derzeit Ansätze, keine laufenden Systeme)
– Informationsagenten: SDI für Sachverhalte
HHU Düsseldorf – SS 2005 Wissensrepräsentation 378
Das „semantische Web“:Ontologien – Topic Maps
HHU Düsseldorf – SS 2005 Wissensrepräsentation 379
Semantisches Web
Grundlegende Literatur• Dieter Fensel et al. (Eds.): Spinning the Semantic Web. –
Cambridge, Mass.; London: MIT, 2003.• Richard Widhalm; Thomas Mück: Topic Maps. Semantische
Suche im Internet. – Berlin [u.a.]: Springer, 2002.• Tim Berners-Lee: Semantic Web – XML 2000. (Folien).
Online: www.w3.org/2000/Talks/1206-xml/2k-tbl
HHU Düsseldorf – SS 2005 Wissensrepräsentation 380
Semantisches Web
• Ontologien– bilden ab: Objekte (durch Begriffe) – analog zu
Dokumentationssprachen und– (zumindest rudimentär) Sachverhalte (durch Sätze in
einer formalisierten Sprache) – analog zu Abstracts– Die „Ontologie“ ist die explizite Spezifizierung eines
(i.d.R. sehr kleinen) Wissensbereiches, so dass dieser in einem Informationssystem abgebildet werden kann.
– Aspekte• Relationen (2-stellig)• Funktionen (n-stellige Relationen)• Feldschema (Kategorien – Top Level Begriffe)• Klassen (Allgemeinbegriffe)• Instanzen (Individualbegriffe)• Axiome (Regeln)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 381
Semantisches Web
• Ontologien– Ursprung: Forschungen zur Künstlichen Intelligenz (u.a.
von Tom R. Gruber – Stanford Knowledge Systems Lab)– da Ontologien jeweils einen engen
Wissensbereich repräsentieren, sind Konkordanzen zwischen unterschied-lichen Ontologien nötig
– Realisierung in XML– RDF: Resource Description Framework– innerhalb RDF: URI (Universal Resource
Identifier) – benutzt wie eine URL bei Links (enthält die Relationen bzw. Funktionen zwischen den Klassen bzw. Instanzen)
Tom R. Gruber: A translation approach to portable ontologies. – In: Knowledge Acquisition 5 (1993), 199-220.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 382
Semantisches Web
• Ontologien
DasWorld Wide
Web inheutiger
Form
Quelle:W3C
HHU Düsseldorf – SS 2005 Wissensrepräsentation 383
Semantisches Web
• Ontologien
DasWorld Wide
Webmit
Ontologie
Quelle:W3C
HHU Düsseldorf – SS 2005 Wissensrepräsentation 384
Semantisches Web
• Ontologien– Schichten-
modell von Berners-Lee
Tim Berners-Lee: Semantic Web – XML 2000. (Folien). Online: www.w3.org/2000/Talks/1206-xml/2k-tbl
HHU Düsseldorf – SS 2005 Wissensrepräsentation 385
Semantisches Web
• Ontologien– Abfrageagenten
• übersetzen die Frage des Nutzers• kommunizieren via Ontologien mit Informations-
systemen• geben bei (einfachen) Faktenfragen eine Antwort• bereiten Transaktionen vor• können sich auch auf (intelligente) Geräte richten
– Beispiel 1: Gerätesteuerung• Stereoanlage läuft – Telefon klingelt: wenn Nutzer ans
Telefon geht, schaltet sich die Stereoanlage leiser (Vor.: Stereoanlage ist URI; Regel: Wenn Telefongespräch, dann Anlage leise)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 386
Semantisches Web
• Ontologien– Beispiel 2: Faktenfrage
• Anfrage: „Welche Arznei hilft gegen Vampirbisse?“• Klassen: in Kategorie Arznei: Arznei, Vampirbissarznei• ... in Kategorie Krankheit: Vampirbiss• ... in Kategorie Nebenwirkungen: Unsterblichkeit• Instanz: Dracuex • Funktion: ... hilft gegen ... mit Nebenwirkung ... - 3-stellige
Relation• Axiom: [Arznei] hilft gegen [Krankheit] mit Nebenwirkung
[Nebenwirkung] • Relation: Vampirbissarznei OB Arznei• Relationen: ... ist ein/e ...; ... hat Nebenwirkung ...• Axiom: Dracuex ist eine Vampirbissarznei• Axiom: Dracuex hat Nebenwirkung Unsterblichkeit• Ausgabe: Dracuex hilft gegen Vampirbisse mit
Nebenwirkung Unsterblichkeit
HHU Düsseldorf – SS 2005 Wissensrepräsentation 387
Semantisches Web
• Ontologien– Beispiel 3: Transaktionsvorbereitung
• Anfrage: Wo ist das nächstgelegene koreanische Restaurant, das gebratenen Hund führt und in einer halben Stunde für zwei Personen einen Tisch frei hat?
– Einsatzbereiche von Ontologien• Intranet von Unternehmen• Kataloge im E-Commerce• Informationssysteme in (überschaubaren)
Wissensbereichen
HHU Düsseldorf – SS 2005 Wissensrepräsentation 388
Semantisches Web
• Topic Maps– Begriffe und (rudimentär) Sachverhalte
(wie bei Ontologien)– Topic Maps sind eigene Dokumente, die
auf andere Dokumente verweisen (letztere
haben mit den Topic Maps nichts zu tun)
– aufgebaut seit Beginn der 90er Jahre; federführend u.a. Steven R. Newcomb und Michel Biezunski
Michel Biezunski
– geregelt durch ISO 13.250 (1999)– Basistechnik: XML (wichtig: DTD)– unter Verwendung von: URI– Einsatzbereiche:
• Aufbaustruktur einer Website• Zugriff auf Dokumentmengen mittels
unterschiedlicher Topic Maps
Steve Newcomb
HHU Düsseldorf – SS 2005 Wissensrepräsentation 389
Semantisches Web
• Topic Maps– Topic: Begriff– Topic Name: ähnlich wie Deskriptor im Thesaurus (mit
Nicht-Deskriptoren als Synonymen)– Scope: Lösung des Homonymproblems (durch Zusatz)– Type: Einordnung eines Topic in eine Kategorie („vom
Typ“)– Association Role: (n-stellige) Relation– Facet: Aussage zu einem Topic– Occurrence: Dokument (u.a. Webseite) – liegt außerhalb
des Topic Map
HHU Düsseldorf – SS 2005 Wissensrepräsentation 390
Semantisches Web
• Topic Map (Beispiel)
„D-Mark“„Deutsche Mark“
Deutschland
Occurrence
TopicMark
warWährung inRole
Frankreich
Land
vom Typvom Typ
Type
Paris
ist Haupt-Stadt von
GeographieScope
hat10 Mio.
EinwohnerFacet
grenzt an
HHU Düsseldorf – SS 2005 Wissensrepräsentation 391
Semantisches Web
• Topic Maps
• Website mit Topic Map
Michel Biezunski; Steven R. Newcomb: Topic Maps: The Inventor‘s Perspective on Subject-based Access.(Vortrag bei der Library of Congress, Okt. 2003).
Online: www.coolheads.com/PUBS/LC2003/
HHU Düsseldorf – SS 2005 Wissensrepräsentation 392
Semantisches Web
• Informationsverdichtung durch Ontologien oder Topic Maps– Vorteile
• nicht nur Begriffssysteme, sondern (zumindest rudimentär) Sachverhalte
• „semantisches Retrieval“• zur Wissensabbildung in kleinen (überschaubaren)
Wissensdomänen geeignet– Nachteile
• der Wissensstand einer Zeit wird festgeschrieben (zwar nicht prinzipiell, aber faktisch wegen riesigem Aufwand, das semantische Netz aktuell zu halten)
• sehr aufwendig in der Entwicklung
HHU Düsseldorf – SS 2005 Wissensrepräsentation 393
Informationsfilter und Informationsverdichter im Überblick
HHU Düsseldorf – SS 2005 Wissensrepräsentation 394
Informationsfilter und –verdichter im Überblick
Informationsfilter
Thematische Filter Nicht-thematische Filter
Textsprachl. Methoden Dokumentationsmethoden
Volltext (ASCII)
Textwortmethode
Zitationsindexierung
Titelindexierung
Thesaurus
KlassifikationZielgruppe
Themen-behandlung
Schlagwortmethode
HHU Düsseldorf – SS 2005 Wissensrepräsentation 395
Informationsfilter und –verdichter im Überblick
Informationsverdichter
Referate semantisches Web
Sammelreferat
Kurzreferat
analytisch
indikativOntologie
Topic Mapinformativ
Informations-extraktion
Informations-agent
HHU Düsseldorf – SS 2005 Wissensrepräsentation 396
Informationsfilter und –verdichter im Überblick
Informationsarchitektur• Aufbau eines unternehmensweiten Informationssystems• Zusammenwirken von (Wirtschafts-)Informatik (Hardware,
Software, Netze), Betriebswirtschaftslehre (Management, Organisation) und Informationswissenschaft (Content, Informationsfilter, Informationsverdichter)
• Sicherstellen der Interoperabilität (etwa mittels XML)• Metadaten (Aufbau von Regelwerken für Dokumentauswertung)• Informationsfilter (Aufbau einer oder mehrerer Begriffsordnungen)• Informationsverdichtung (Aufbau von Regelwerken für Abstracting)• Nutzerschnittstellen• Organisation des laufenden Betriebs
Alan Gilchrist; Barry Mahon (Eds.): Information Architecture. Designing Information Environments forPurpose. – London: Facet Publ., 2004.
HHU Düsseldorf – SS 2005 Wissensrepräsentation 397
Informationsfilter und –verdichter im Überblick
Informationsarchitektur – strategisches Management der Informationsfilter und -verdichter
• Aufbau des/der grundlegenden Informationsfilter/s• Grundsatzentscheidung: Welche Methoden einsetzen?• Kandidaten:
– Klassifikation– Schlagwortmethode– Thesaurus– Textwortmethode– Zitationsindexierung– Ontologie / Topic Map
• stets zusätzlich: Informationsverdichtung durch Abstracting
HHU Düsseldorf – SS 2005 Wissensrepräsentation 398
Informationsfilter und –verdichter im Überblick
Informationsarchitektur – strategisches Management der Informationsfilter und -verdichter
• Festlegen von dokumentarischer/n Bezugseinheit/en und Dokumentationswürdigkeit
• Variante 1: ein Kriterienpaket für alle Dokumente, stets gleichbleibende DBE
• Variante 2: mehrere Kriterienpakete, abhängig von der Relevanz der Dokumente für die Datenbank („Schalenmodell“ von Krause)
– Kern (hochrelevante Dokumente): tiefe und qualitativ hochwertigeErschließung; Abstracts
– Schale 1 (weniger relevante Dokumente): nur Erschließung (mit Thesaurus, Klassifikation, Schlagwortmethode), keine Abstracts
– ...– Schale n (noch weniger relevante Dokumente): nur automatische
TitelindexierungJürgen Krause: Informationserschließung und –bereitstellung zwischen Deregulierung, Kommerzialisierung und
weltweiter Vernutzung – Schalenmodell. – Bonn: IZ Sozialwissenschaften, 1996. – (IZ-Arbeitsbericht; 6).
HHU Düsseldorf – SS 2005 Wissensrepräsentation 399
Informationsfilter und –verdichter im Überblick
HHU Düsseldorf – SS 2005 Wissensrepräsentation 400
Informationsfilter und –verdichter im Überblick
Informationsarchitektur – strategisches Management der Informationsfilter und –verdichter
• Dokumentationseinheiten selbst erstellen und/oder zukaufen?
• soweit externe Dokumentationseinheiten vorhanden sind: kaufen!
• mittels unternehmensinternen Indexierungsmethoden und Hilfsmitteln neu indexieren (möglichst vollautomatisch)
• interne Dokumente können nur selbst bearbeitet werden
HHU Düsseldorf – SS 2005 Wissensrepräsentation 401
Informationsfilter und –verdichter im Überblick
Quelle:Factiva
externe Dokumentationseinheiten:
zukaufen! neu indexieren!
interne Dokumente:
selbst indexieren!
HHU Düsseldorf – SS 2005 Wissensrepräsentation 402
Informationsfilter und –verdichter im Überblick
Informationsarchitektur – Organisation des laufenden Betriebs
• Input: Wer erstellt die Dokumentationseinheiten?• Variante 1: intellektuell
– zuerst: Verfasser der dokumentarischen Bezugseinheiten (Abstracts, Deskriptoren/Notationen/Schlagworte)
– dann: Korrekturen / Ergänzungen durch Informations-wissenschaftler
• Variante 2: automatisch– Verfasser stellen die Dokumente in das Informations-
system (Abstracts möglichst intellektuell erstellen!)– Indexieren erfolgt durch Software (etwa FAST, Convera
oder Verity)• Variante 3: semiautomatisch
HHU Düsseldorf – SS 2005 Wissensrepräsentation 403
Informationsfilter und –verdichter im Überblick
Informationsarchitektur – Organisation des laufenden Betriebs
• Datenbank: Wer pflegt die Datenbank und die Informations-filter?– technisch: Netzwerkadministration– Content: Content-Administration (Informationswissen-
schaftler)• Output: Wer recherchiert?
– einfache Anfragen; Bearbeiten der SDI: Endnutzer– komplizierte Anfragen; Anlegen der SDI: Content-
Administration– weitere Dienste (z.B. Mitarbeiterzeitschrift, nicht georderte
Pushdienste): Content-Administration
HHU Düsseldorf – SS 2005 Wissensrepräsentation 404
Informationsfilter und –verdichter im Überblick
Informationsarchitektur – Organisation des laufenden Betriebs
• Aufbau der grundlegenden Informationskompetenz beim Endnutzer– Einführung in die Systemtechnik (Softwareschulung)– Einführung in die Informationsfilter (zum Selbstindexieren
und zum Recherchieren)– Einführung in die Informationsverdichtung (zum
Verfassen der Abstracts)– laufende Betreuung („Coaching“) der Nutzer
• Wie?– Seminare (werden nicht immer besucht, da die laufende
Arbeit Vorrang hat)– „Lunch-time Kurse“ (Nutzung der Mittagspausen)
HHU Düsseldorf – SS 2005 Wissensrepräsentation 405
Informationsfilter und –verdichter im Überblick
Informationsfilter und –verdichter hinsichtlich Präkombinationsgrad der Begriffe
Prä- Prä- Post-kombination koordination koordination
Klassifikation ++ + 0Schlagwortmethode 0 + ++Thesaurus 0 + ++Textwortmethode 0 ++ 0Zitationsindexierung 0 0 +Abstracts 0 0 0Ontologie / Topic Map ++ ++ +
HHU Düsseldorf – SS 2005 Wissensrepräsentation 406
Informationsfilter und –verdichter im Überblick
Informationsfilter und –verdichter hinsichtlich Suchen und Stöbern („Browsen“)
Suchen StöbernKlassifikation + ++Schlagwortmethode + 0Thesaurus ++ ++*Textwortmethode +** +***Zitationsindexierung + 0Abstracts 0 0Ontologie / Topic Map ++ ++
* : nur bei graphischer Aufbereitung** : Probleme wg. Vielfalt der Textworte und deren Sprachen*** : nur bei informetrischer Aufbereitung
HHU Düsseldorf – SS 2005 Wissensrepräsentation 407
Informationsfilter und –verdichter im Überblick
Informationsfilter und –verdichter hinsichtlich Sprach-einsatz
kontroll. Notations- natürliche Vokabular* sprache Sprache**
Klassifikation 0 + 0Schlagwortmethode + 0 0Thesaurus + 0 0Textwortmethode 0 0 +Zitationsindexierung 0 0 +***Abstracts 0 0 +Ontologie / Topic Map + 0 0
* : Vokabular einer natürlichen Sprache** : ohne jede terminologische Kontrolle *** : Zitation als Teil natürlicher Sprache
HHU Düsseldorf – SS 2005 Wissensrepräsentation 408
Informationsfilter und –verdichter im Überblick
Informationsfilter und –verdichter in einem multinationalen (mehrsprachigen) Unternehmen
mehrsprachig einsetzbar?Klassifikation ++Schlagwortmethode +*Thesaurus ++**Textwortmethode 0Zitationsindexierung ++Abstracts +*Ontologie / Topic Map +**
* : Zugriff nur über genau eine Sprache** : nur wenn multilingual, ansonsten Zugriff nur über genau eine
Sprache
HHU Düsseldorf – SS 2005 Wissensrepräsentation 409
Informationsfilter und –verdichter im Überblick
Informationsfilter und –verdichter hinsichtlich paradigmatischer und syntagmatischer Relationen
paradigm. syntagmatischeRelation Relation
Klassifikation + +Schlagwortmethode 0 +Thesaurus + +Textwortmethode 0 +Zitationsindexierung 0 +Abstracts 0 +*Ontologie / Topic Map + 0
* : nur beim Einsatz von Text Mining
HHU Düsseldorf – SS 2005 Wissensrepräsentation 410
Informationsfilter und –verdichter im Überblick
Informationsfilter und –verdichter hinsichtlich Änderbarkeit (neue Begriffe aufnehmen, alte ändern)
keinerlei Änderung ÄnderungAufwand „unten“ in Struktur
Klassifikation 0 + 0 (aufwendig)Schlagwortmethode + (nur Aufwand für Abstimmung)Thesaurus 0 + +Textwortmethode +Zitationsindexierung + (da keine Ordnung vorhanden)Abstracts + (da keine Ordnung vorhanden)Ontologie / Topic Map 0 + +
HHU Düsseldorf – SS 2005 Wissensrepräsentation 411
Informationsfilter und –verdichter im Überblick
Fazit– Die Informationsarchitektur liegt im Bereich des strategischen
Management und definiert die Grundlagen der Informations-versorgung eines Unternehmens.
• Grundsatzentscheidung: Welche(r) Informationsfilter? • u.U. Schalenmodell realisieren• Entscheidung, welche Informationen gekauft und welche selbst
erstellt werden• Organisation des laufenden Betriebs
– Klärung der Anforderungen an die Informationsarchitektur (etwa: Ausbaufähigkeit der Begriffsordnung; Darstellbarkeit syntagmatischer Relationen) hinsichtlich der Informationsfilter und der Methoden zur Informationsverdichtung
HHU Düsseldorf – SS 2005 Wissensrepräsentation 412
Wissensrepräsentation
... das war‘s
Lehr-/Lernziele: Hörer/innen haben eine solide Basis in theoretischen Ansätzen sowie Methoden der Wissensrepräsentation und wissen, diese Methoden in der Praxis einzusetzen
Top Related