Analyse wissenschaftlicher Publikationen

download Analyse wissenschaftlicher Publikationen

If you can't read please download the document

  • date post

    13-Dec-2014
  • Category

    Technology

  • view

    3.185
  • download

    2

Embed Size (px)

description

Integration und Analyse wissenschaftlicher Publikationen in Artefect-Actor-Networks. (2) Open Access Quellen: DOAJ, EZB, NDLTD; Einbindung Ontologie (3) Formate für Metadaten (BurST, OAI-PMH) (Dublin Core, FOAF, SWRC) (4) Extraktion von Publikationen aus PDFs (ParsCit, CRF++) (5) Bibliometrie, Zitationsanalyse, Co-citation Coupling, Bibliographic Coupling, h-Index, g-Index

Transcript of Analyse wissenschaftlicher Publikationen

  • 1. A N A LY S E WISSENSCHAFTLICHERP U B L I K AT I O N E N adrian wilke inhaltsverzeichnis 1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . .22 Open Access journals . . . . . . . . . . . . . . . . . . . . . . . . .. . . .22.1 Einfhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . .22.2 Verzeichnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .32.2.1 Directory of Open Access Journals . . . . . . . . . . . . . . . .32.2.2 Zeitschriftenbibliothek der Uni Regensburg . . . . . . .. . . .42.2.3 Networked Digital Library of Theses and Dissertations . . . .42.3 Directory of Open Access Journals im AAN System . . . . . . . . .52.3.1 Parser-Entwicklung: Best Practices . . . . . . . . . . . .. . . .52.3.2 Ontologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .62.3.3 Herausforderungen . . . . . . . . . . . . . . . . . . . . . . . . .62.4 Ansatzpunkte zur weiteren Recherche . . . . . . . . . . . . . . . . .73 Formate zum Austausch von Publikations-Metadaten . . . . . .. . . .83.1 Standard-Vokabularien . . . . . . . . . . . . . . . . . . . . . . . . . .83.1.1 Dublin Core . . . . . . . . . . . . . . . . . . . . . . . . . . . . .83.1.2 Semantic Web for Research Communities . . . . . . . . . . . .83.1.3 The Friend of a Friend project . . . . . . . . . . . . . . .. . . .93.2 Bibliography Management using RSS Technology . . . . . .. . . .93.3 OAI Protocol for Metadata Harvesting . . . . . . . . . . . . .. . . .93.4 Ansatzpunkte zur weiteren Recherche . . . . . . . . . . . . . . . . . 114 Daten-Extraktion aus PDF-Dateien . . . . . . . . . . . . . . . . . .. . . . 124.1 ParsCit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124.1.1 Arbeitsweise . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 124.1.2 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134.1.3 Training . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 154.2 Weitere Software . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 164.3 Herausforderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174.4 Ansatzpunkte zur weiteren Recherche . . . . . . . . . . . . . . . . . 175 Szientometrie, Bibliometrie und Zitationsanalyse . . . . . . . . .. . . . 175.1 Begriffsklrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175.2 Zitationsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 185.2.1 Co-authorship . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185.2.2 Co-citation Coupling . . . . . . . . . . . . . . . . . . . .. . . . 195.2.3 Bibliographic Coupling . . . . . . . . . . . . . . . . . . .. . . . 205.3 Bibliometrisches Mae . . . . . . . . . . . . . . . . . . . . . . . . . . 215.3.1 h-Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215.3.2 g-Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225.4 Bewertungen basierend auf semantischen Relationen . . . . . . . . 235.5 Ansatzpunkte zur weiteren Recherche . . . . . . . . . . . . . . . . . 236 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 [email protected][REMOVE]adrianwilke.de1

2. 1 einleitungDiese Seminarausarbeitung behandelt die Analyse wissenschaftlicher Publikationen. Dies geschieht im Kontext von Artefact-Actor-Networks (AAN). Daher ist das Gebiet nicht auf die Analyse beschrnkt, sondern behandelt Bereiche von der Suche nach passenden Quellen bis zur Analyse selbst. Das umfasst als Erstes Vorschlge fr Sammlungen und Kataloge von Open Access Dokumenten (2), die passende Daten zur Verfgung stellen. Hierzu zhlt eine bereits bestehende Anbindung an ein Verzeichnis, deren Aufbau fr die praktische Arbeit von Entwick- lern ntzlich sein kann. Kataloge bieten verschiedene Schnittstellen und Datenformate (3) fr den Zugriff auf bereitgestellte Metadaten. Diese knnen in der AAN Referenzimplementierung sowohl fr den Import, als auch fr den Export genutzt werden. In diesem Zuge werden ver- schiedene Standards fr die Beschreibung von Konzepten im Rahmen des Semantic Web vorgestellt. Nach einer Auswahl von Publikations- Quellen und der abgeschlossenen Datenbeschaffung werden Entwickler vor die Herausforderung gestellt, Daten im PDF-Format zu extrahieren (4). Hierfr wurden bereits erste Anstze erfolgreich getestet. Nachdem Metadaten und Volltexte aus wissenschaftlichen Verffentlichungen extrahiert und im System abgelegt worden sind, kann mit der Analyse begonnen werden. Dazu knnen Metriken und Mae der Zitations- analyse (5) angewandt werden.Die betrachteten Gebiete werden so dargestellt, dass sie eine Ar- beit mit AANs untersttzen. Deshalb wird jeder Unterabschnitt mit Ansatzpunkten zur weiteren Recherche abgeschlossen. In diesen Lis- ten sind Links zu ofziellen Webseiten oder auch Wikipedia-Artikeln aufgefhrt. Wichtige Quellen aus Publikationen sind im Literaturteil aufgefhrt.2 open access journalsDie Anzahl der Dokumente, die unter dem Begriff Open Access (OA) verffentlicht werden, steigt weiter an. Es gibt gute Grnde fr Autoren, ihre Texte frei zugnglich zu verffentlichen. Neben diesen Grnden werden im Folgenden Verzeichnisse vorgestellt, in denen OA Doku- mente gesammelt werden. Zustzlich wird eine implementierte An- bindung an eines dieser Verzeichnisse seitens des AAN Systems prsen- tiert.2.1EinfhrungDie Recherche nach Literatur kann auch fr erfahrene Wissenschaftler Hrden auftun: Bcher sind nicht unmittelbar zugreifbar, Zeitschriften sind vergriffen oder elektronische Ressourcen bentigen eine Mit- gliedschaft in einer Organisation. Diese Hindernisse sollen durch den Gebrauch von Open Access berwunden werden. Der Begriff Open Access wird von verschiedenen Organisationen unterschiedlich aus- gelegt. Einige der wichtigsten Punkte kann man der Denition der Budapest Open Access Initiative [3] entnehmen: Open Access ist im f- fentlichen Internet frei verfgbar. Es erlaubt Benutzern, Artikel zu lesen, zu kopieren, herunterzuladen, zu verbreiten, zu drucken, zu suchen oder deren Volltexte zu verlinken. Dies und mehr soll ohne nanzielle, rechtliche oder technische Hrden (der Zugang zum Internet selbst ausgeschlossen) mglich sein. Einzig den jeweiligen Autoren sollten Rechte, wie das Urheberrecht, vorbehalten werden.Das Konzept wirkt aus der Sicht einer nach relevanten Informationen suchenden Person verlockend, aber inwieweit hat es sich bei Autoren durchgesetzt? Nach einer Studie [2] sind 20,4% aller Publikationen aus dem Jahr 2008 online zugreifbar. Diese Zahl ergibt sich mit 8,5% aus2 3. Abbildung 1: Open Access Verfgbarkeit nach Fachgebieten, Quelle: [2]dem Publizieren ber den goldenen Weg, also dem direkten Weg des OA, vornehmlich ber den Herausgeber, und mit 11,9% ber den gr- nen Weg, also z.B. der Verffentlichung auf der Webseite der Autoren. Eine bersicht ber die OA Verfgbarkeit von Artikeln nach Fachge- bieten nach goldenem und grnem Weg ist in Grak 1 dargestellt. Die Vorteile fr beruiche und private Leser liegen klar auf der Hand, Texte sind schnell zugreifbar und zudem kostenlos. Was sollte Autoren dazu bewegen, ihre Artikel im Internet frei zugnglich zu publizieren? Auch das ist naheliegend: Durch den einfachen Zugriff werden weniger Leser ausgeschlossen, mehr Personen lesen einen Text und daraus resultiert eine hhere Zahl von Zitierungen. Es wurde gezeigt [6], dass OA Artikel signikant mehr Zitierungen bekommen, als auf herkmmlichen Weg publizierte Texte. Fr die Analyse von Akteuren und Artefakten in einem AAN bie- ten sich OA Daten ebenfalls an. Mit geeigneten Werkzeugen knnen aus Publikationen Volltexte, Autoren, Referenzen (also semantische Relationen) und andere Metadaten extrahiert werden. Bei solch einem Vorhaben ist eine umfangreiche Datenbasis, die bestenfalls ber eine wohl-denierte Schnittstelle zugreifbar ist, wnschenswert. Im Folgen- den werden Beispiele fr mgliche Quellen gegeben.2.2 VerzeichnisseDie hier vorgestellten Verzeichnisse sind eine Auswahl von Sammlun- gen, die Metadaten, Referenzierungen und zum Teil auch Volltexte zu wissenschaftlichen Texten sowie Zeitschriften bereitstellen. Die Ver- zeichnisse bieten sich, neben der Nutzung zur persnlichen Recherche, zur Sammlung und Extraktion von analysierbaren Daten an.2.2.1Directory of Open Access Journals (DOAJ) Das Directory of Open Access Journals ist ein Service, der einen Zugang zu Open Access Journals anbietet. Das Angebot wird von der Biblio- thek der Universitt Lund (Schweden) zur Verfgung gestellt. Die an- gebotenen Zeitschriften unterliegen verschiedenen Aufnahmekriterien. Neben dem freien Zugang muss eine Zeitschrift eine Qualittskontrolle, z.B. ein Peer-Review, durchfhren. Die freie Verffentlichung muss ohne Verzgerung geschehen, eine Registrierung durch Benutzer fr den Zugriff wird erlaubt, solange diese kostenlos ist. Jede Zeitschrift bentigt eine International Standard Serial Number (ISSN), mit der ein3 4. Journal identiziert werden kann. Nach eigenen Angaben [8] bietet das DOAJ (Stand: 03. Januar 2011): 5.935 Zeitschriften, 2.495 davon mit Artikel-Metadaten Insgesamt 491.409 Artikel 247 Informatik-Zeitschriften.Ein groer Teil der Daten kann ber das OAI-Protokoll (siehe Ab- schnitt 3.3) bezogen werden. Es werden zwei Basis-URLs zur Verfgung gestellt, mit denen es mglich ist, Metadaten von Zeitschriften oder Artikeln abzufragen. Eine andere Quelle in deutscher Sprache, in der erheblich mehr Zeitschriften verzeichnet sind, ist die EZB.2.2.2 Die Elektronische Zeitschriftenbibliothek der Universitt Regensburg Die Grundlage der Elektronischen Zeitschriftenbibliothek (EZB) wurde um Januar 2001 durch einen Kooperationsvereinbarung zwischen ver- schiedenen Bibliotheken geschaffen. Die angebotenen Zeitschriften werden nach 41 Fachgebieten geordnet angeboten. Durch Bilder mit verschiedenfarbigen Punkten ist auf der Webseite zu erkennen, welche Zugriffsmglichkeiten (z