GESIS
Sacherschließung in Deutschland
Lösungsansätze für eine Welt der polyzentrischen Informationsversorgung
10. März 2005, MagdeburgLeitreferat zur 29. Jahrestagung der Gesellschaft für Klassifikation
Jürgen Krause
Informationszentrum Sozialwissenschaften, Bonn
Koblenz - Landau
2GESIS
Situation Bibliotheken: Formalerschließung
Formalerschließung und Austauschformate:• RAK-WB: Regeln für die alphabetische
Katalogisierung, wissenschaftliche Bibliotheken• MAB-Format: Maschinelles Austauschformat für
Bibliotheken
• MARC21-Austauschformat: Machine Readable Cataloging Records
• AACR2: Anglo - american Cataloguing rules
DDB –Projekt: Umstieg auf internationale Formate
• Fachdatenbanken wie SOLIS• WWW – Quellen wissenschaftliche Institutionen
etc. DDI, XML ….
¬ s. Krause/Niggemann/Schwänzl 2003 und DDB
3GESIS
Sacherschließung (Inhaltserschließung)
Bibliotheken:
Verbale und klassifikatorische Inhaltserschließung• Zerbst/Klein 1993: 81% erschließen sachlich• KNS 2003, S. 22: “ … durch den hohen Anteil an
Alt-daten … besitzt insgesamt aber dennoch nur der kleinere Teil der Datensätze … inhaltserschlie-ßende Elemente … verbale Erschließung …ca 12% im Südwestverbund und ca 46% im Bayrischen Bibliotheksverbund“.
Verbal: SWD (Schlagwortnormdatei)Klassifikatorisch: Regensburger Verbundkatalog (RVK),
Basisklassifikation (BK), …. Internat. Verbal: LCSH (Library of Congress Subj.
Head.)Klass. DDC (Dewey Dec. Class.), Library of
Congress Classification)
4GESIS
Fachdatenbanken, Web - Quellen
Fachdatenbanken:
• Fachthesauri wie die von SOLIS/FORIS, ZPID
• Fachklassifikationen
Web – Quellen:
• Beliebig, freie Terme
• Fachklassifikationen, DDC
International:
• Mehrsprachige Thesauri:
Z. B. Soz.wiss.: Deutsch – Englisch –Französisch – Russisch
• Unabhängige Entwickungen: z.B. CSA
5GESIS
Beispiel: „Etablierte“ Produktlinie IZ
SOLIS, FORISOnline bei STN, GBI + CD-WISO IIIGBI WISO-NET SOWI + Integration inBibliotheksverbund
FORIS Ausschnitt GESIS WWW-Angebot
SOFIDs ...
Internationale Datenbankangebote:Sociological Abstracts (CSA) ….
BibliothekskatalogeAG Verbundsysteme
6GESIS
Polyzentrischer, dezentraler Informationsraum
trans fer and c o o rd in a tio n
u s ers
Ap p licationarea n
h igh relevanceh igh quali tycontent analys is
M 6
M 4
less relevanceno ab s trac tsh igh quali ty ind exing
M 5low relevancewww-d ocum entssearch access by search engines
M 1
h igh relevanceh igh quali tycontent analys is
M 3only ti tless im p le au tom atic indexing
M 2h igh relevanceproba li lis tic autom atic indexing of fu ll text
decentralized/polycentric docum ent space
www-d ocum entsc .a. B y sc ientis ts
in fo r m at ions er vic ec en ter s
p u b l is h ers
s c ien t is ts
l ib ra r iesl ib rar yc ata lo gues
wwwelec tron icp ub l is h ing
7GESIS
81 76 80
40
60
80
100
Mehrfachnutzer Professoren Mittelbau
GESIS-Web-Befragung 2003: 97% würden das IZ wieder besuchen, 91% weiterempfehlen
TRI:M-Studie Mehrfachnutzer 1997, Befragung Soziologieprofessoren/innen 2001, Mittelbaubefragung 2003
AkzeptanzBinder / Stahl / jk
Kundenzufriedenheitsindex
8GESIS
Nutzung der Datenbanken FORIS & SOLIS
9GESIS
Nutzerbefragungen (BKP 2003, GESIS und IZ 1997 - 2003, IMAC 2002, ...)
Fachportale
Volltexte direkt
Fachcluster für interdisziplinäre Überschneidungsbereiche
Allgem. Internetsuchmaschinen unzureichend „kein Müll“
Nicht nur Literaturdatenbanken oder OPACS ALLES
Vom Arbeitsplatz,
hochintegriert
Im Einklang mit theoretisch-
analytischen Überlegungen
Informationswiss. + Information Retrieval
Neuere Nutzerbefragungen
10GESIS
Entwicklungsperspektive Fachportale
Hohe Erschließungsqualität + Langfristigkeit +
Verlässlichkeit der Inhalte
Je ein integrierendes Portal für die Fachwissen-schaften … (Inhalte national und international)
mit qualitativ hochwertigen Such- und Selektionsinstrumenten
alle wissenschaftsrelevante Informationen (Texte, Institutionen, Fakten, Medien ...)
eingebettet in Fachcluster und in ein übergeordnetes Wissenschaftsportal einschließlich genereller bibliothekarischer Zugang
11GESIS
Schlagwort Evaluationsforschung (SWD) findet:
USB Köln (SWD) 56 TrefferSOLIS (IZ Thesaurus) 0 Treffer
Suche in SOLIS hätte sein müssen: wissenschaftliche Begleitung
327 Treffer
müller / jk
Unvermeidlich verbleibende Heterogenität
Retrieval
Metadaten
Heterogenitäts- behandlung
Dokumente
12GESIS
Retrieval
Metadaten
Heterogenitätsbehandlung
• Crosskonkordanzen
• Quantitativ-statistische Verfahren
• Deduktive Verfahren
Dokumente
Algorithmische Metadatenermittlung
Transfermodule
13GESIS
Leistungsfähigkeit Heterogenitätskomponenten
Verbesserung Recall* Precision* Kosinus
IZ SWDCrosskonkordanz,
intellektuell+ 45,1% + 30,2% + 36,2%
SWD IZCrosskonkordanz,
intellektuell+ 41,0% + 44,2% + 42,5%
* = Term-Recall -, Term – Precision - Messungen auf der Basis Parallelcorpus USB mit etwa 16 000 Dokumenten
Dissertation Matthias Müller
14GESIS
Verbreitung Grundidee
„Strategie für die Standardisierung der Informations- und Kommunikationstechnik (ICT)“ (DIN Berlin, Sept. 2003)
„Standardisierung ist von der verbleibenden Heterogenität her zu denken. …“
DIN SICT-Papier: Deutsche Position
DFG-Positionspapier:
Aktuelle Anforderungen der wissenschaftlichen Informationsversorgung, Mai 2004
„… Raum für eine neue Sichtweise auf Konsistenzerhaltung und Interoperabilität zu schaffen: Die Standardisierung ist von der verbleibenden Heterogenität her zu denken.“
15GESIS
Schwerpunkt Entwicklung IZ
Sozialwiss.SOWIPORT
PädagogikPsychologie
Als Mehrwertdienst von
vascoda und von SOWIPORT
Stempfhuber / jk
E-SCIENCE Initiative BMBF
16GESIS
Suchmaske vascoda staatsfunktion
Beispiele 25. Mai 2004
17GESIS
Vascoda Ergebnisliste staatsfunktion
18GESIS
infoconnex Recherche: staatsfunktion
19GESIS
20GESIS
infoconnex Pädagogik Ergebnisliste staatsfunktion
21GESIS
infoconnex Ergebnis Staatsfunktion
22GESIS
Volltext
23GESIS
24GESIS
vascoda Recherche Jugendarbeitslosigkeit / Fachauswahl
25GESIS
vascoda Ergebnisliste Jugendarbeitslosigkeit
29GESIS
Google Jugendarbeitslosigkeit
30GESIS
31GESIS
Funktionsweise Heterogenitätsbehandlungm. müller
32GESIS
m. müller
Heterogenitätsbehandlung
33GESIS
Bilaterale Vagheitsbehandlung
Anfrage
V1:Vagheitsrelation zwischen Anfrage- und DB Termen
A B C
Dokument Term Mengen pro Datenbank
V3V2
V2/V3: Bilaterale Vagheitsbehandlung
34GESIS
Standard method: one step transformation
non-differentiated handling of vagueness
AB C
document term sets
Question
35GESIS
Retrieval
Metadaten
Heterogenitätsbehandlung
• Crosskonkordanzen
• Quantitativ-statistische Verfahren
• Deduktive Verfahren
Dokumente
Algorithmische Metadatenermittlung
Transfermodule
36GESIS
Mathematik – Physik: MSC and PACS
statistical:
PACS 62.30.+d Mechanical and elastic waves; vibrations (Mechanische und elastische Wellen, Schwingungslehre)
MSC 74S15 Boundary element methods (Randelementmethode)
intellectual:
PACS 62. Not connected
37GESIS
Example: semantic-pragmatic relation
Einfache Suche
Suchbegriff Dominanz(dominance)
Zahl der relevanten Treffer 16
G. Binder
38GESIS
Erweiterte Suche
Transferbegriffe Dominanz, Messen, Mongolei, Nichtregierungsorganisation, Flugzeug, Datenaustausch, Kommunikationsraum, Kommunikationstechnolo-gie, Medienpädagogik, Wüste
Zahl zusätzliche relev. Treffer
7
Anteil der zusätzlichen relev. Treffer an den zusätzl. Treffern
50%
G. Binder
Mitglieder des Vereins wom@n reisten zur UNO Frauenkonferenz nach Beijing. Auf der Fahrt durch die Mongolei und die Wüste ...
39GESIS
Statistical and Neural networks transformation
• Co-occurence-based similarity
• In ViBSoz: statistical crosswalk between two different thesauri (SWD as a universal thesaurus and SOLIS as a special thesaurus),
• in ELVIRA between a thesaurus for data and free text terms
• Transformation networks • USB Thesaurus to the IZ Thesaurus
• the USB Thesaurus or IZ Thesaurus to the IZ
LSI and Transformation network x Statistical methods
Fig. 3: Transformation network USB Thesaurus to IZ Thesaurus (Fig. 7-12 from Mandl 2000:206)
Recall
Precision
40GESIS
Parallel Corpora
document set 2document set 1
document
document
document
document
document
document
thesaurus orclassification:
a
b
c
d
thesaurus or classification:
x
a
y
z
know relation ofdocuments
derivedrelation ofterms
GESIS
Text fact integration: simple directed transfer in ELVIRA
Transformations
Texts?
Facts?
Formalization
InformationNeed
TexteTexteTexts
TexteTexteFacts
Text-Query
Fact-Query
Direct Links
IterativeSearch
IterativeSearch
42GESIS
Schalenmodell
43GESIS
Entwicklung (Ausschnitt)
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
SO
WIP
OR
T
Sy
ste
me
Mo
de
lleIn
ha
lte
DBClear
MORESS
Kompetenzzentrum Modellbildung, HeterogenitätStempfhuber / jk
Gru
nd
lag
en
CARMEN
Heterogenität Softwareergonomie Evaluation
Dissertation Heterogenität
Dissertation rough set theory
SE, Text–Fakt, Heterogenität
44GESIS
Ende
45GESIS
Treffer mit VB Gesch.
Top Related