Download - Analyse wissenschaftlicher Publikationen

Transcript
Page 1: Analyse wissenschaftlicher Publikationen

A N A LY S EW I S S E N S C H A F T L I C H E R

P U B L I K AT I O N E N

adrian wilke∗

inhaltsverzeichnis

1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2 Open Access journals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.2 Verzeichnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.2.1 Directory of Open Access Journals . . . . . . . . . . . . . . . . 3

2.2.2 Zeitschriftenbibliothek der Uni Regensburg . . . . . . . . . . . 4

2.2.3 Networked Digital Library of Theses and Dissertations . . . . 4

2.3 Directory of Open Access Journals im AAN System . . . . . . . . . 5

2.3.1 Parser-Entwicklung: Best Practices . . . . . . . . . . . . . . . . 5

2.3.2 Ontologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.3.3 Herausforderungen . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.4 Ansatzpunkte zur weiteren Recherche . . . . . . . . . . . . . . . . . 7

3 Formate zum Austausch von Publikations-Metadaten . . . . . . . . . . 8

3.1 Standard-Vokabularien . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3.1.1 Dublin Core . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3.1.2 Semantic Web for Research Communities . . . . . . . . . . . . 8

3.1.3 The Friend of a Friend project . . . . . . . . . . . . . . . . . . . 9

3.2 Bibliography Management using RSS Technology . . . . . . . . . . 9

3.3 OAI Protocol for Metadata Harvesting . . . . . . . . . . . . . . . . . 9

3.4 Ansatzpunkte zur weiteren Recherche . . . . . . . . . . . . . . . . . 11

4 Daten-Extraktion aus PDF-Dateien . . . . . . . . . . . . . . . . . . . . . . 12

4.1 ParsCit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

4.1.1 Arbeitsweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

4.1.2 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4.1.3 Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4.2 Weitere Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4.3 Herausforderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4.4 Ansatzpunkte zur weiteren Recherche . . . . . . . . . . . . . . . . . 17

5 Szientometrie, Bibliometrie und Zitationsanalyse . . . . . . . . . . . . . 17

5.1 Begriffsklärung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

5.2 Zitationsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

5.2.1 Co-authorship . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

5.2.2 Co-citation Coupling . . . . . . . . . . . . . . . . . . . . . . . . 19

5.2.3 Bibliographic Coupling . . . . . . . . . . . . . . . . . . . . . . . 20

5.3 Bibliometrisches Maße . . . . . . . . . . . . . . . . . . . . . . . . . . 21

5.3.1 h-Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

5.3.2 g-Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

5.4 Bewertungen basierend auf semantischen Relationen . . . . . . . . 23

5.5 Ansatzpunkte zur weiteren Recherche . . . . . . . . . . . . . . . . . 23

6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

∗ info@[REMOVE]adrianwilke.de

1

Page 2: Analyse wissenschaftlicher Publikationen

1 einleitung

Diese Seminarausarbeitung behandelt die Analyse wissenschaftlicherPublikationen. Dies geschieht im Kontext von Artefact-Actor-Networks(AAN). Daher ist das Gebiet nicht auf die Analyse beschränkt, sondernbehandelt Bereiche von der Suche nach passenden Quellen bis zurAnalyse selbst. Das umfasst als Erstes Vorschläge für Sammlungen undKataloge von Open Access Dokumenten (2), die passende Daten zurVerfügung stellen. Hierzu zählt eine bereits bestehende Anbindung anein Verzeichnis, deren Aufbau für die praktische Arbeit von Entwick-lern nützlich sein kann. Kataloge bieten verschiedene Schnittstellen undDatenformate (3) für den Zugriff auf bereitgestellte Metadaten. Diesekönnen in der AAN Referenzimplementierung sowohl für den Import,als auch für den Export genutzt werden. In diesem Zuge werden ver-schiedene Standards für die Beschreibung von Konzepten im Rahmendes Semantic Web vorgestellt. Nach einer Auswahl von Publikations-Quellen und der abgeschlossenen Datenbeschaffung werden Entwicklervor die Herausforderung gestellt, Daten im PDF-Format zu extrahieren(4). Hierfür wurden bereits erste Ansätze erfolgreich getestet. NachdemMetadaten und Volltexte aus wissenschaftlichen Veröffentlichungenextrahiert und im System abgelegt worden sind, kann mit der Analysebegonnen werden. Dazu können Metriken und Maße der Zitations-analyse (5) angewandt werden.

Die betrachteten Gebiete werden so dargestellt, dass sie eine Ar-beit mit AANs unterstützen. Deshalb wird jeder Unterabschnitt mitAnsatzpunkten zur weiteren Recherche abgeschlossen. In diesen Lis-ten sind Links zu offiziellen Webseiten oder auch Wikipedia-Artikelnaufgeführt. Wichtige Quellen aus Publikationen sind im Literaturteilaufgeführt.

2 open access journals

Die Anzahl der Dokumente, die unter dem Begriff Open Access (OA)veröffentlicht werden, steigt weiter an. Es gibt gute Gründe für Autoren,ihre Texte frei zugänglich zu veröffentlichen. Neben diesen Gründenwerden im Folgenden Verzeichnisse vorgestellt, in denen OA Doku-mente gesammelt werden. Zusätzlich wird eine implementierte An-bindung an eines dieser Verzeichnisse seitens des AAN Systems präsen-tiert.

2.1 Einführung

Die Recherche nach Literatur kann auch für erfahrene WissenschaftlerHürden auftun: Bücher sind nicht unmittelbar zugreifbar, Zeitschriftensind vergriffen oder elektronische Ressourcen benötigen eine Mit-gliedschaft in einer Organisation. Diese Hindernisse sollen durch denGebrauch von Open Access überwunden werden. Der Begriff OpenAccess wird von verschiedenen Organisationen unterschiedlich aus-gelegt. Einige der wichtigsten Punkte kann man der Definition derBudapest Open Access Initiative [3] entnehmen: Open Access ist im öf-fentlichen Internet frei verfügbar. Es erlaubt Benutzern, Artikel zu lesen,zu kopieren, herunterzuladen, zu verbreiten, zu drucken, zu suchenoder deren Volltexte zu verlinken. Dies und mehr soll ohne finanzielle,rechtliche oder technische Hürden (der Zugang zum Internet selbstausgeschlossen) möglich sein. Einzig den jeweiligen Autoren solltenRechte, wie das Urheberrecht, vorbehalten werden.

Das Konzept wirkt aus der Sicht einer nach relevanten Informationensuchenden Person verlockend, aber inwieweit hat es sich bei Autorendurchgesetzt? Nach einer Studie [2] sind 20,4% aller Publikationen ausdem Jahr 2008 online zugreifbar. Diese Zahl ergibt sich mit 8,5% aus

2

Page 3: Analyse wissenschaftlicher Publikationen

Abbildung 1: Open Access Verfügbarkeit nach Fachgebieten, Quelle: [2]

dem Publizieren über den goldenen Weg, also dem direkten Weg desOA, vornehmlich über den Herausgeber, und mit 11,9% über den grü-nen Weg, also z.B. der Veröffentlichung auf der Webseite der Autoren.Eine Übersicht über die OA Verfügbarkeit von Artikeln nach Fachge-bieten nach goldenem und grünem Weg ist in Grafik 1 dargestellt.

Die Vorteile für berufliche und private Leser liegen klar auf derHand, Texte sind schnell zugreifbar und zudem kostenlos. Was sollteAutoren dazu bewegen, ihre Artikel im Internet frei zugänglich zupublizieren? Auch das ist naheliegend: Durch den einfachen Zugriffwerden weniger Leser ausgeschlossen, mehr Personen lesen einen Textund daraus resultiert eine höhere Zahl von Zitierungen. Es wurdegezeigt [6], dass OA Artikel signifikant mehr Zitierungen bekommen,als auf herkömmlichen Weg publizierte Texte.

Für die Analyse von Akteuren und Artefakten in einem AAN bie-ten sich OA Daten ebenfalls an. Mit geeigneten Werkzeugen könnenaus Publikationen Volltexte, Autoren, Referenzen (also semantischeRelationen) und andere Metadaten extrahiert werden. Bei solch einemVorhaben ist eine umfangreiche Datenbasis, die bestenfalls über einewohl-definierte Schnittstelle zugreifbar ist, wünschenswert. Im Folgen-den werden Beispiele für mögliche Quellen gegeben.

2.2 Verzeichnisse

Die hier vorgestellten Verzeichnisse sind eine Auswahl von Sammlun-gen, die Metadaten, Referenzierungen und zum Teil auch Volltextezu wissenschaftlichen Texten sowie Zeitschriften bereitstellen. Die Ver-zeichnisse bieten sich, neben der Nutzung zur persönlichen Recherche,zur Sammlung und Extraktion von analysierbaren Daten an.

2.2.1 Directory of Open Access Journals (DOAJ)

Das Directory of Open Access Journals ist ein Service, der einen Zugangzu Open Access Journals anbietet. Das Angebot wird von der Biblio-thek der Universität Lund (Schweden) zur Verfügung gestellt. Die an-gebotenen Zeitschriften unterliegen verschiedenen Aufnahmekriterien.Neben dem freien Zugang muss eine Zeitschrift eine Qualitätskontrolle,z.B. ein Peer-Review, durchführen. Die freie Veröffentlichung mussohne Verzögerung geschehen, eine Registrierung durch Benutzer fürden Zugriff wird erlaubt, solange diese kostenlos ist. Jede Zeitschriftbenötigt eine International Standard Serial Number (ISSN), mit der ein

3

Page 4: Analyse wissenschaftlicher Publikationen

Journal identifiziert werden kann. Nach eigenen Angaben [8] bietet dasDOAJ (Stand: 03. Januar 2011):

• 5.935 Zeitschriften, 2.495 davon mit Artikel-Metadaten

• Insgesamt 491.409 Artikel

• 247 Informatik-Zeitschriften.

Ein großer Teil der Daten kann über das OAI-Protokoll (siehe Ab-schnitt 3.3) bezogen werden. Es werden zwei Basis-URLs zur Verfügunggestellt, mit denen es möglich ist, Metadaten von Zeitschriften oderArtikeln abzufragen.

Eine andere Quelle in deutscher Sprache, in der erheblich mehrZeitschriften verzeichnet sind, ist die EZB.

2.2.2 Die Elektronische Zeitschriftenbibliothek der Universität Regensburg

Die Grundlage der Elektronischen Zeitschriftenbibliothek (EZB) wurdeum Januar 2001 durch einen Kooperationsvereinbarung zwischen ver-schiedenen Bibliotheken geschaffen. Die angebotenen Zeitschriftenwerden nach 41 Fachgebieten geordnet angeboten. Durch Bilder mitverschiedenfarbigen Punkten ist auf der Webseite zu erkennen, welcheZugriffsmöglichkeiten (z.B. frei zugänglicher Volltext) für den Benutzerbestehen. Eine Übersicht über das Angebot nach Angaben der Univer-sität [11] zeigt die folgende Liste. Die Anzahl der Treffer der Informatik-Zeitschriften ergab sich durch eine Suchanfrage auf der Webseite.

• 51.936 Titel zu allen Fachgebieten

• 6.999 davon sind reine Online-Zeitschriften

• 26.919 Fachzeitschriften sind im Volltext frei zugänglich

• 454 Informatik-Zeitschriften mit frei zugänglichen Volltexten

Zusätzlich zur Suche auf der Webseite konnte keine weitere Schnittstellezum Angebot der EZB gefunden werden.

Neben OA Quellen für Publikationen existieren auch Verzeichnissefür wissenschaftliche Arbeiten, wie die NDLTD.

2.2.3 Networked Digital Library of Theses and Dissertations (NDLTD)

Die Networked Digital Library of Theses and Dissertations (NDLTD)ist eine Vereinigung verschiedener Institutionen, hauptsächlich Uni-versitäten der Vereinigten Staaten. Die NDLTD bietet seit 1996 einengemeinsamen Katalog an, in dem Metadaten zu elektronischen Ab-schlussarbeiten und Dissertationen (electronic theses and dissertations,ETDs) verzeichnet sind. Nach Angaben auf der Webseite [10] und einerAnfrage über die angebotene Scirus ETD Suche nach „Computer Sci-ence“ im Bereich „Engineering, Energy and Technology“ ergab für dasAngebot folgende Zahlen:

• über 1.000.000 Einträge zu ETDs

• 133.996 Einträge für den Bereich Informatik

Neben der Scirus ETD Suche des Verlags für wissenschaftliche Zeit-schriften Elsevier, über die auch ein Zugriff zu Volltexten möglichist, wird eine Suche über den VTLS Visualizer angeboten. Dort kön-nen erweiterte Möglichkeiten der Sortierung und Filterung angegebenwerden.

Zusätzlich zu den hier vorgestellten Quellen wird im Folgenden einAnsatz zur Anbindung einer der oben aufgeführten Quellen vorgestellt.

4

Page 5: Analyse wissenschaftlicher Publikationen

2.3 Directory of Open Access Journals im AAN System

Im Rahmen des Seminars „Future Social Learning Networks“ im Win-tersemester 2010/11 an der Universität Paderborn wird derzeit einPrototyp zur Datenbeschaffung aus dem DOAJ entwickelt. Die Ent-wicklung findet unter dem Thema „Tools for Awareness in DistributedResearch Networks“ statt und soll mit Unterstützung des AAN Systemserweiterte Möglichkeiten bieten, gezielte Einblicke in wissenschaftlicheArbeiten zu werfen, um das Bewusstsein über vorhandene und aktuelleEntwicklungen zu erweitern. An dieser Stelle wird ein Einblick in dieVorgehensweise der Entwicklung gegeben.

2.3.1 Parser-Entwicklung: Best Practices

Bei der Entwicklung von Parser-Komponenten als Teil der AAN Ref-erenzimplementierung hat sich eine Reihenfolge von Teilabläufen alspraktikabel erwiesen. Die einzelnen Abläufe sollten sich in Teilen über-lappen, um eine flüssige Integration und eine Minimierung von Pro-blemen zu gewährleisten. Diese Punkte wurden für die KomponenteDoajParser in großen Teilen abgeschlossen:

1. Sichtung verfügbarer Daten

2. Vergleich zugreifbarer Schnittstellen

3. Extraktion von Daten

4. Entwicklung einer Ontologie

5. Datenspeicherung

Der erste Schritt ist die Sichtung verfügbarer Daten. Dazu werdendie von einem potenziellen Quellnetzwerk angebotenen Daten nachEignung für AANs untersucht. Nutzbare Daten sind durch eine Er-weiterung der Grundontologie in das semantische Modell integrierbarund passen inhaltlich zu den aktuellen Zielen, die umgesetzt werdensollen. Im DOAJ sind dies im Wesentlichen die wissenschaftlichenPublikationen und deren Autoren, die als Artefakte und Akteure in-tegrierbar sind. Im zweiten Schritt wird eine passende Schnittstellegewählt. Diese sollte möglichst alle öffentlich zugänglichen Daten zurVerfügung stellen und nicht durch Restriktionen eingeschränkt sein.Gängige Schnittstellen sind APIs oder andere Interfaces, die Daten inder XML anbieten. Eine Schnittstelle, die fast in jedem Fall möglich ist,ist das Parsen des HTML-Codes. Auf der DOAJ Webseite werden zweiURIs (siehe Abschnitt 2.4) angeboten, über die Daten zu Artikeln undZeitschriften im Format des OAI-Protokolls (siehe Abschnitt 3.3) zu-greifbar sind. Die Extraktion der Daten sollte vor der genauen Definitioneiner Ontologie geschehen, da bereits extrahierte und direkt zugreifbareDaten einen Überblick darüber geben, welche Daten in der Praxis tat-sächlich zur Verfügung stehen und abgelegt werden können. Die Extrak-tion der Daten verlief im Fall von DOAJ ohne Probleme. Im nächstenSchritt, der Einbettung der Daten in die Ontologie, wurde festgestellt,dass Kategorien nur für Zeitschriften und nicht für Artikel angebotenwerden. Dies ist für eine Beschreibung der Artikel schade, die Infor-mationen können jedoch nachträglich über die Zeitschrift-Ressourcenaus dem Modell beschafft werden. Während des letzten Schrittes, derDatenspeicherung, wurde festgestellt, dass die semantischen Daten eineumfangreiche Beschreibung der Datensätze liefern, die Volltexte aller-dings in einem sehr eingeschränkten Umfang zur Verfügung stehen. Eswird nur ein kleiner Teil des ursprünglichen Volltexts angeboten. Zwarwerden in den Metadaten zusätzlich Informationen einer Quelle, in denmeisten Fällen eine Webseite, bereitgestellt, die über die URL erreich-baren Ziele sind jedoch heterogen. Teils wird auf den verlinkten Seiten

5

Page 6: Analyse wissenschaftlicher Publikationen

Abbildung 2: Ontologie: Directory of Open Access Journals

ein weiter direkter Link zu zugehörigen PDF-Dateien hinterlegt, teilswird auf den verlinkten Seiten auch ein Login benötigt. In manchenFällen werden in den Metadaten auch URLs hinterlegt, die ein PDFohne Umweg über eine Webseite verlinken. Das Schema, nach demdie semantischen Beziehungen von DOAJ Ressourcen angelegt werden,wird im folgenden Abschnitt vorgestellt.

2.3.2 Ontologie

Die Ontologie zu DOAJ-Ressourcen ist in Abbildung 2 dargestellt. DieHauptklassen, OpenAccessJournal und OpenAccessJournalArticle, sindSpezialisierungen des ScientificDocumentArtefact aus dem Block AANSci-entificMedia. Extrahierte Autoren werden als ScientificDocumentActor an-gelegt und durch semantische Relationen mit Artefakten in Verbindunggesetzt. Für Zeitschriften und Artikel werden eine Reihe von Liter-alen definiert, die keiner eigenen Klasse benötigen, trotzdem aberbeschreibende Metadaten liefern. Zur Beschreibung der Ressourcengibt es zwei Spezialisierungen von Keywords, DoajCategory und Doa-jTag. Der Unterschied dieser Klassen ist, dass Kategorien vorgegebenund auswählbar sind, wohingegen Tags, z.B. direkt in Artikeln, freiwählbar sind. Kategorien sind nur für Zeitschriften definiert. Die Kate-gorie LCC wurde dem Block AANScientificMedia hinzugefügt, da dieseine Kategorie ist, die zukünftig möglicherweise zur Beschreibung vonArtefakten außerhalb von DOAJ ebenfalls genutzt werden könnte. LCCsteht für „Library of Congress Classification“, eine Klassifikation inhierarchischer Struktur. So könnte eine Zeitschrift des Bereichs Infor-matik über die LCC mit QA75.5-76.95 beschrieben werden, QA wäreMathematik und ein alleinstehendes Q betrifft den allgemeinen Bereichder Wissenschaft. Insgesamt verlief die Entwicklung der DOAJ Kom-ponente reibungslos. Um jedoch an dieser Stelle schon auf mögliche,in Zukunft auftretende, Herausforderungen einzugehen, werden diesenachfolgend beschrieben.

2.3.3 Herausforderungen

Während der Entwicklung der DOAJ Komponente wurden erste Her-ausforderungen im Hinblick auf die weitere Arbeit mit Publikationensichtbar. In diesem Teil werden diese im Hinblick auf Volltexte, URIsund Parser behandelt.

6

Page 7: Analyse wissenschaftlicher Publikationen

zugriff auf volltexte Wie bereits erwähnt, werden über dieDOAJ-Schnittstelle mindestens drei verschiedene Ressourcen zur Ver-fügung gestellt, um auf Volltexte zugreifen zu können. Im günstigstenFall wird ein PDF direkt verlinkt, so dass die Informationsquelle ohneweitere Umwege zur Verfügung steht. Auch verlinkte Webseiten, aufdenen ein Link mit dem Textinhalt „PDF“ zum Volltext aufgeführtist, sollten kein großes Hindernis darstellen. Für Webseiten, die eineAnmeldung benötigen, ist abzuwägen, ob eine Funktionalität zur Verfü-gung gestellt werden sollte, die dies automatisiert durchführt. Sinnvollerscheint dies nur, über die Anmeldung eine große Menge von Datenzur Verfügung gestellt wird. Ein möglicher Weg zur Extraktion vonDaten wird in Abschnitt 4 behandelt.

eindeutiger bezeichner für ressourcen Eine weitere Her-ausforderung ist die Generierung von eindeutigen Bezeichnern fürArtefakte und Akteure. Diese Bezeichner werden, neben der Sicher-stellung der Eindeutigkeit, benötigt, um semantische Relationen zwis-chen Artefakten festzulegen. Jede Ressource wird im AAN Systemüber eine URI identifiziert. Diese URI liegt für Web-basierte Ressourcenoft auf der Hand, da Artefakte sowie Akteure im Allgemeinen übereine eigene Webseite zugreifbar sind. Für wissenschaftliche Publika-tionen und Autoren ist dies nicht selbstverständlich. Es wurde dahervorgeschlagen, für Autoren URIs zu generieren, die einzig durch ihrenNamen zusammengesetzt werden. Für URIs von Publikationen bietetsich eine Kombination der Autoren-Namen und der Titel der jeweiligenVeröffentlichung an. Dies kann zu Problemen führen, wenn für Au-torennamen verschiedene Schreibweisen genutzt werden. Zum Beispielkönnen Vornamen abgekürzt werden, zweite Vornamen nur teilweiseauftauchen oder die Reihenfolge von Vor- und Nachnamen variieren.Ein verwandtes Problem ist die Identifizierung verschiedener Personenmit gleichem Namen.

wahl eines parsers Ein vergleichsweise minderer Umstand istdie Wahl eines geeigneten Parsers. Während eines Crawling-Jobs kön-nen Referenzen auf verschiedenartige PDF-Dateien gefunden werden.Nicht jede dieser Dateien ist zwangsläufig eine wissenschaftliche Veröf-fentlichung. Hier sollte, bei Kenntnis über die Dateiart, unterschiedenwerden, ob ein PDF zur Analyse von Publikations-Metadaten oderzur allgemeinen Extraktion von Schlüsselwörtern genutzt werden soll.Ein Ansatz wäre eine Funktionalität, mit der eine AAN Komponenteeine andere AAN Komponente vorschlagen kann, die zur Extraktiongenutzt werden sollte.

Die folgende Liste ist eine Sammlung von Punkten zur weiterenRecherche. Nach den in diesem Teil vorgestellten Quellen für wis-senschaftliche Arbeiten und Veröffentlichungen werden, im auf dieListe mit Recherche-Ansätzen folgenden Abschnitt, Möglichkeiten fürden Austausch von Publikations-Metadaten gezeigt.

2.4 Ansatzpunkte zur weiteren Recherche

• Directory of Open Access Journals (DOAJ)http://www.doaj.org/

http://www.doaj.org/doaj?func=loadTempl&templ=faq#metadata

• Die Elektronische Zeitschriftenbibliothek der Universität Regensburghttp://ezb.uni-regensburg.de/

http://rzblx1.uni-regensburg.de/ezeit/fl.phtml?colors=1&notation=SQ-SU

• Networked Digital Library of Theses and Dissertations (NDLTD)http://www.ndltd.org/

• Open Access Ressourcenhttp://www.soros.org/openaccess

http://www.lib.umich.edu/copyright/open-access

7

Page 8: Analyse wissenschaftlicher Publikationen

http://www.ndltd.org/resources/open-access

http://oad.simmons.edu/oadwiki/

• Wikipedia (de)http://de.wikipedia.org/wiki/Open_Access

http://de.wikipedia.org/wiki/Open-Access-Zeitschrift

http://de.wikipedia.org/wiki/Library_of_Congress_Classification

• Wikipedia (en)http://en.wikipedia.org/wiki/Open_access_journalt

http://en.wikipedia.org/wiki/Open_access_%28publishing%29

http://en.wikipedia.org/wiki/Library_of_Congress_Classification

3 formate zum austausch von publikations-metadaten

Es existieren verschiedene Standards, um Konzepte des Semantic Webeinheitlich zu beschreiben. Für die anschließende Vorstellung von For-maten zum Austausch von Metadaten werden an dieser Stelle einigeStandards vorgestellt, die zur Beschreibung der Austauschformate ver-wendet werden. Zur Verdeutlichung der Unterschiede zwischen denStandards werden hier gezielt die verwendeten Konzepte aufgelistet.

3.1 Standard-Vokabularien

Im Kontext des Semantic Web werden in verschiedensten ProjektenVokabularien benötigt, um Ressourcen zu klassifizieren. Innerhalb voneigenständigen Projekten wäre es möglich, individuelle Schemata zuverwenden. Spätestens bei dem Austausch von Daten werden hierschnell Inkonsistenten beobachtbar und verschiedene Schemata damitnicht vergleichbar. Zur Vereinheitlichung von Vokabularien gibt esstandardisierte Konventionen, um auf eine einheitliche Basis bei derBenennung und Nutzung von Begriffen zurückgreifen zu können. ImFolgenden werden einige ausgewählte Standards vorgestellt, die beimAustausch von Publikations-Metadaten genutzt werden.

3.1.1 Dublin Core

Das Dublin Core Metadata Element Set ist eine 15-elementige Mengevon Vokabeln, die zur einheitlichen Beschreibung von Klassen vorge-schlagen wird. Urheber dieser Menge ist die 1994 gegründete offeneOrganisation Dublin Core Metadata Initiative (DCMI). Die 15 Elementeder Menge bilden den Kern, der als RFC, ISO und ANSI/INSO Stan-dard veröffentlicht wurde. Die zugehörigen Elemente sind: contributor,coverage, creator, date, description, format, identifier, language, publisher, re-lation, rights, source, subject, title und type. Diese Menge an Elementensteht unter ständiger Weiterentwicklung. Ein zusätzlicher Namensraumschlägt folgende Elemente vor: abstract, accessRights, accrualMethod, ac-crualPeriodicity, accrualPolicy, alternative, audience, available, bibliograph-icCitation, conformsTo, created, dateAccepted, dateCopyrighted, dateSubmit-ted, educationLevel, extent, hasFormat, hasPart, hasVersion, instructional-Method, isFormatOf, isPartOf, isReferencedBy, isReplacedBy, isRequiredBy,issued, isVersionOf, license, mediator, medium, modified, provenance, refer-ences, replaces, requires, rightsHolder, spatial, tableOfContents, temporal undvalid. Diese Elemente bilden eine Grundlage, um allgemeine Artefakte,wie sie z.B. im Internet oft auffindbar sind, und deren Relationen zubeschreiben. Zusätzlich zu diesen generellen Angaben existieren weit-ere Ansätze, wie SWRC, die für die Beschreibung spezieller Kontexteausgelegt sind.

3.1.2 Semantic Web for Research Communities (SWRC)

Die SWRC Ontologie wurde am Institut für Angewandte Informatikund Formale Beschreibungsverfahren (AIFB) des Karlsruher Institus für

8

Page 9: Analyse wissenschaftlicher Publikationen

Technologie entwickelt. Sie fokussiert das Modellieren von Forschungs-Gemeinschaften, wie z.B. Organisationen, Personen oder Publikatio-nen und deren Beziehungen. Um einen guten Einblick über die Un-terschiede der Vokabularien zu geben, hier eine umfangreiche (aberunvollständige) Liste der definierten Konzepte: Proceedings, SoftwarePro-ject, ProjectReport, ResearchTopic, Association, InCollection, Booklet, InPro-ceedings, InBook, SoftwareComponent, Institute, Department, Unpublished,Lecture, MasterThesis, Manual, Manager, ResearchGroup, Exhibition, Misc,Book, FullProfessor, Lecturer, Article, AcademicStaff, Product, Meeting, Pro-jectMeeting, AssistantProfessor, Student, Undergraduate, Workshop, Event,Conference, FacultyMember, AssociateProfessor, Report, TechnicalReport, Re-searchProject, Graduate, PhDStudent, Project, DevelopmentProject, Techni-calStaff, Thesis, PhDThesis, University, Organization, Enterprise, Employee,AdministrativeStaff, Topic, Person und Publication. Es ist zu erkennen,dass eine Reihe von Konzepten aus dem Kontext von Universität, Lehreund Forschung definiert werden. Darüber hinaus gibt es Konzeptewie Chapter, ISBN, Year oder Pages, die eine hohe Korrelation mit Bib-TeX Elementen aufweisen. Ein Vokabular, das eher auf die Rollen undBeziehungen von Personen aufbaut, ist FOAF.

3.1.3 The Friend of a Friend (FOAF) project

Das Friend of a Friend (FOAF) project definiert Konzepte, mit denenPersonen, Beziehungen zwischen ihnen und den Artefakten, die sieerstellen, beschrieben werden können. Der Kern der definierten Voka-beln besteht aus den Elementen: Agent, Person, name, title, img, depiction(depicts), familyName, givenName, knows, based_near, age, made (maker),primaryTopic (primaryTopicOf), Project, Organization, Group, member, Docu-ment und Image. Außerdem existiert eine Erweiterung für die Belangedes Social Web, die etwa nick, homepage, jabberID, interest, account oderthumbnail definiert. Die hier vorgestellten Standards bilden Teile vonVersionen des Austauschformats BuRST.

3.2 Bibliography Management using RSS Technology (BuRST)

BuRST ist eine Spezifikation zum Austausch von bibliografischen Infor-mationen. Das Format wird im Rahmen des EU-Projektes SustainingTechnology Enhanced Learning at a LARge scale (STELLAR) entwickelt.Es setzt für den Austausch von Daten auf das RSS Format in Version1.0. Für die Beschreibung der Daten wird kein eigenes, neues Vokabularverwendet. Stattdessen wird vorgeschlagen, wie vorhandene Standardskombiniert werden können um Publikationen sinnvoll zu beschreiben.Dafür werden Elemente aus Dublin Core und SWRC genutzt. In der ak-tuellen Version werden keine Elemente aus dem FOAF-Projekt genutzt,voraussichtlich wird dies aber in der nächsten Version wieder der Fallsein. Um einen Eindruck des Formats zu schaffen, gibt Listing 1 einegekürzte Version eines BuRST Feeds wieder.

Das BuRST Format bietet ein breites Spektrum von Möglichkeiten,Publikationen zu beschreiben. Daher ist es ein Kandidat für den Importund Export von wissenschaftlichen Veröffentlichungen im AAN System.Eine Liste mit Institutionen, die das Format bereits für den Exportnutzen, ist in Abschnitt 3.4 aufgeführt. Der Umfang der Spezifikationund die laufende Entwicklung stellen allerdings auch Argumente gegendie Nutzung dar. Für den Austausch von Publikations-Metadaten istneben BuRST auch das OAI-Protokoll ein Kandidat.

3.3 The Open Archives Initiative Protocol for Metadata Harvesting

Das Open Archives Initiative Protocol for Metadata Harvesting ist eineSpezifikation, um Schnittstellen zum Austausch von Datensätzen bereit-

9

Page 10: Analyse wissenschaftlicher Publikationen

Listing 1: Beispiel eines BuRST Feeds<?xml version=" 1 . 0 " encoding="UTF−8" ?><?xml−s t y l e s h e e t hre f=" xmlverbatimwrapper . x s l " type=" t e x t / x s l " ?><rdf:RDF

xmlns=" h t t p : //purl . org/ r s s /1 .0/ "xmlns :rdf=" h t t p : //www. w3 . org/1999/02/22− rdf−syntax−ns# "xmlns : rdfs=" h t t p : //www. w3 . org /2000/01/ rdf−schema# "xmlns:swrc=" h t t p : //swrc . ontoware . org/ontology/ontoware# "xmlns : foa f=" h t t p : //xmlns . com/ f o a f /0 .1/ "xmlns: taxo=" h t t p : //purl . org/ r s s /1 .0/ modules/taxonomy/"xmlns:dc=" h t t p : //purl . org/dc/elements /1 .1/ "xmlns:syn=" h t t p : //purl . org/ r s s /1 .0/ modules/syndica t ion/"xmlns:admin=" h t t p : //webns . net/mvcb/"xmlns :burst=" h t t p : //xmlns . com/burst /0 .1/ "xml:base=" h t t p : //www. cs . vu . nl/~pmika/burst . rdf ">

< r s s : c h a n n e l r d f : a b o u t=" h t t p : //www. cs . vu . nl/~pmika/burst . rdf ">< r s s : t i t l e >Peter Mika ’ s publ i ca t ions </ r s s : t i t l e >< r s s : l i n k > h t t p : //www. cs . vu . nl/~pmika/research/pub . rdf </ r s s : l i n k >< r s s : d e s c r i p t i o n >

Semantic Web r e l a t e d p u b l i c a t i o n s authored by Peter Mika .</ r s s : d e s c r i p t i o n >< r s s : i t e m s >

<rdf :Seq >< r d f : l i r d f : r e s o u r c e =" h t t p : //www. cs . vu . nl/~pmika/burst #1" />< r d f : l i r d f : r e s o u r c e =" h t t p : //www. cs . vu . nl/~pmika/burst #2" />

</rdf :Seq ></ r s s : i t e m s >< r d f s : s e e A l s o r d f : r e s o u r c e =" h t t p : //www. cs . vu . nl/~mcaklein/pub . rdf " />

</r s s : c h a n n e l >

< r s s : i t e m r d f : a b o u t =" h t t p : //www. cs . vu . nl/~pmika/burst #1" >< r s s : t i t l e >Foundations f o r S e r v i c e O n t o l o g i e s : Aligning OWL−S to

DOLCE</ r s s : t i t l e >< r s s : l i n k > h t t p : //www2004 . org/proceedings/docs/1p563 . pdf</ r s s : l i n k >< r s s : d e s c r i p t i o n >An a b s t r a c t of the document</ r s s : d e s c r i p t i o n >< d c : s u b j e c t >Semantic Web</ d c : s u b j e c t >< b u r s t : p u b l i c a t i o n >

<swrc: InProceedings >< s w r c : t i t l e >Foundations f o r S e r v i c e O n t o l o g i e s : Aligning OWL−S to

DOLCE</ s w r c : t i t l e ><swrc:author >

< f o a f : P e r s o n r d f : I D =" PeterMika "><foaf:name >Peter Mika</foaf:name >< r d f s : s e e A l s o r d f : r e s o u r c e =" h t t p : //www. cs . vu . nl/~pmika/ f o a f . rdf " />

</foaf :Person ></swrc:author >< s w r c : b o o k t i t l e >Proceedings of the 13 th I n t e r n a t i o n a l World Wide Web

Conference (WWW2004) </ s w r c : b o o k t i t l e ><swrc:year >2004</ swrc:year ><swrc:pages >563−−573</swrc:pages >

</swrc: InProceedings ></ b u r s t : p u b l i c a t i o n >

</ r s s : i t e m ></rdf:RDF >

zustellen. Es basiert auf dem Hypertext Transport Protocol und derXML. Die Interoperabilität wird durch eine Strukturierung nach DublinCore gefördert. Die Schnittstelle des OAI-Protokolls wird über URLsbereitgestellt. Ein Beispiel-Aufruf einer URL ist http://archive.org/oai?verb=ListRecords &metadataPrefix=oai_dc. Hier ist der Hauptparameterjeden Aufrufs erkennbar, ein Schlüssel-Wert-Paar der Form verb=Wert.Mit diesem Verb wird einer der 6 Anfrage-Typen angegeben: Iden-tify, ListMetadataFormats, ListSets, ListIdentifiers, ListRecords oder Ge-tRecord. Das Verb ListRecords ist der häufigst genutzte Anfragetyp, seineRückgabe besteht aus einer Liste von Datensätzen. Die Flusskontrolleder Protokolls besteht nicht aus einer Form, in der der erste gewün-schte Datensatz (in der Form startEntry=50) manuell generiert werdenmuss. Die Rückgabe eines Aufrufs stellt ein sogenanntes resumption-Token Token innerhalb der XML-Daten bereit. Dieses Token kann beiFolgeaufrufen genutzt werden, um an eine Anfrage anzuknüpfen. EineBeispielrückgabe ist in Listing 2 gezeigt.

Es ist zu erkennen, dass die zurückgegebenen Felder sehr homogengeformt sind. Jedes Feld wird ausnahmslos über Dublin Core be-schrieben. Die XML-Verschachtelung eines einzelnen Eintrags wirdjedoch nicht stark genutzt, die Metadaten-Einträge befinden sich alle

10

Page 11: Analyse wissenschaftlicher Publikationen

Listing 2: Beispiel eines OAI-PMH Aufrufs<record>

<header>< i d e n t i f i e r > o a i : d o a j . org:2067 −3957</ i d e n t i f i e r ><datestamp>2010−05−12 T20 :19 :24Z</datestamp>

</header><metadata>

<oai_dc :dc x s i : [ . . . ] oai_dc . xsd ">< d c : t i t l e >

Brain . Broad Research in A r t i f i c i a l I n t e l l i g e n c e and Neuroscience</ d c : t i t l e >< d c : i d e n t i f i e r > h t t p : //brain . edusoft . ro/index . php/brain </ d c : i d e n t i f i e r >< d c : i d e n t i f i e r > i s s n : 2067−3957</ d c : i d e n t i f i e r ><dc :publ i sher >EduSoft publishing </dc :publ i sher ><dc:date >2009</ dc:date ><dc:language >English </dc:language >< d c : s u b j e c t > a r t i f i c i a l i n t e l l i g e n c e </ d c : s u b j e c t >< d c : s u b j e c t >LCC: RC321−571</ d c : s u b j e c t >< d c : s u b j e c t >LCC: RC346−429</ d c : s u b j e c t >< d c : s u b j e c t >DoajSubjectTerm: Computer Science </ d c : s u b j e c t >

</oai_dc:dc ></metadata >

</record >

auf gleicher Höhe. Wie zu erkennen ist, gibt es in dem Beispiel dreiverschiedene Arten von Kategorien. Diese werden durch ein Präfixvoneinander unterschieden. So werden verschiedene Konzepte in derBaumstruktur gleich dargestellt: Das Tag „artificial intelligence“, dieLCC-Kategorien und die DOAJ Kategorie „Computer Science“. In derPraxis hat dies jedoch kein Problem dargestellt, über die Präfixe kon-nten alle Konzepte ohne Probleme erkannt und die Daten extrahiertwerden. In Abschnitt 3.4 ist je eine Webseite mit Quellen, die per OAI-Protokoll zugreifbar sind und Richtlinien für die Implementierungeines eigenen Archivs aufgeführt.

Bis zu diesem Punkt wurden Open Access Quellen und Formate fürdie Übertragung von Metadaten vorgestellt. Mit diesen Informationenkönnen bereits Metadaten von wissenschaftlichen Veröffentlichungenextrahiert werden. Der nächste Teil dieses Textes befasst sich mit der Ex-traktion von Daten aus Publikationen im PDF-Format. Vorerst werdenaber noch Ressourcen für eine weitere Recherche bereitgestellt.

3.4 Ansatzpunkte zur weiteren Recherche

• Dublin Corehttp://dublincore.org/documents/dcmi-terms/

http://de.wikipedia.org/wiki/Dublin_Core

• Semantic Web for Research Communitieshttp://ontoware.org/swrc/

• The Friend of a Friend (FOAF) projecthttp://www.foaf-project.org/

• BuRSThttp://stellarnet.eu/d/6/3/BuRST_format_adaption_discussion

http://www.cs.vu.nl/~pmika/research/burst/BuRST.html

http://stellarnet.eu/d/6/3/Directory_of_BuRST_feeds

http://www.cs.vu.nl/~pmika/research/thesis/thesis.pdf

http://web.resource.org/rss/1.0/spec

• OAI-Protokollhttp://www.openarchives.org/pmh/

http://www.oaforum.org/tutorial/

http://www.openarchives.org/OAI/openarchivesprotocol.html

http://www.openarchives.org/Register/BrowseSites

http://www.openarchives.org/OAI/2.0/guidelines-repository.htm

11

Page 12: Analyse wissenschaftlicher Publikationen

Abbildung 3: ParsCit Demo - Ausgabe der Kopfdaten

4 daten-extraktion aus pdf-dateien

Die automatische Generierung von Publikations-Netzwerken, verbun-den durch Zitierungen ist eine nicht-triviale Aufgabe. Veröffentlichun-gen werden mit unterschiedlichen Vorgaben für Layouts erstellt. Dasgilt für die Textstruktur, wie auch für den Literatur-Abschnitt, mitdem der Kontext einer Veröffentlichung erfasst werden kann. Für dieFormatierung und die Reihenfolge von Zitaten gibt es verschiedeneStandards. Diese erschweren neben versehentlichen Fehlangaben inPublikationen die Extraktion von einzelnen Bestandteilen (z.B. Titel,Autor, Zeitschrift). Der Schwerpunkt dieses Abschnitts liegt auf derSoftware ParsCit, welche eine der führenden Umsetzungen für dieAnalyse und Extraktion von Bestandteilen wissenschaftlicher Artikelist.

4.1 ParsCit

Die quelloffene Software ParsCit stellt Funktionen zur Verfügung, umlogische Dokument-Strukturen aus einer gegebenen Publikation zuextrahieren. Priorisiert wird dabei die Extraktion und Analyse vonReferenz-Strings. Dazu wird das Conditional Random Field (CRF) Mo-dell, gekoppelt mit heuristischen Verfahrensweisen genutzt. Das CRFist ein ungerichtetes grafisches Modell zu Taggen von sequenziellenDaten, wie natürlicher Sprache. Damit ist es möglich, Lernverfahrenanzuwenden, um das CRF zu trainieren. Für ParsCit wird die CRFImplementierung CRF++ genutzt. Nachfolgend wird die Arbeitsweiseder Software und anschließend die praktische Anwendung beschrieben.

4.1.1 Arbeitsweise

Die Extraktion mittels ParsCit ist in [4] beschrieben. Zunächst müssen,basierend auf der Ausgabe von CRF++, einige Schritte durchgeführtwerden. Die Namen der Autoren verschiedener Schreibweisen (z.B.„M. Mustermann“ oder „Mustermann, Max“) werden normalisiert, alsoin ein einheitliches Format überführt. Diese Normalisierung wird auchfür Nummern („vol. 7“), Jahresangaben und Seitenzahlen („pp. 13-42“) durchgeführt. Nach der Segmentierung der Referenzen wird derHaupttext mittels regulärer Ausdrücke nach Zitaten durchsucht. Dabeiwerden drei verschiedene Typen von Formatierungen berücksichtigt:Einfache Nummerierungen („7“ oder „7.“), Strings in Klammern („(7)“,„[7, 13]“ oder „[Mustermann11]“) und unmarkierte Listen, wie beimAPA Stil. Dabei wird so vorgegangen, dass einfache Nummerierungennur genutzt werden, wenn keine Klammer-Notation gefunden wurde.Interne Referenzierungen (z.B. „siehe Abbildung 3“) werden nicht ein-bezogen. Außerdem wird jeder reguläre Ausdruck auf den Haupttextangewandt, um eine Liste von Kontext-Inhalten zu generieren. Die prak-tische Ausführung dieser Arbeitsweise wird nachfolgend beschrieben.

12

Page 13: Analyse wissenschaftlicher Publikationen

Abbildung 4: ParsCit Demo - Ausgabe einer Referenz

Listing 3: Beipiel einer ParsCit EingabeArte fac t−Actor−Networks as t i e between s o c i a lnetworks and a r t e f a c t networksWolfgang ReinhardtUnivers i ty of PaderbornI n s t i t u t e f o r Computer Sc ience33102 Paderborn , GermanyEmail : wolle@upb . de[ . . . ]Abstract−S o c i a l networks r e f l e c t communication , cooperat ionand loose acquaintances in networked communities . Numerous[ . . . ]

REFERENCES[ 1 ] CollaborateCom 2009 Programme Committee , " Ca l l f o r paperf o r the CollaborateCom 2009 , " ht tp ://www. col laboratecom . org/docs/CollaborateCom 09 cfp . pdf , 2009 .[ 2 ] J . C . Mitchel l , S o c i a l Networks in urban s i t u a t i o n s : Analyses of

personalr e l a t i o n s h i p s in Centra l Afr ican towns . Manchester : Univers i ty Press ,1969 .[ . . . ][ 2 1 ] Technorat i Inc . , " Technorati , " ht tp :// t e c h n o r a t i . com/ , r e t r i e v e d on

2009−07−17 , Ju ly 2009 .[ 2 2 ] Univers i ty of Toronto , " Blogscope , " ht tp ://www. blogscope . net / ,

r e t r i e v e don 2009−07−17 , Ju ly 2009 .[ . . . ]

4.1.2 Anwendung

ParsCit stellt zwei Wege der Anwendung bereit: Einen Webserviceund die lokale Ausführung. Hinweise zur jeweiligen Ausführung wer-den auf der Webseite (siehe Abschnitt 4.4) und in den dem Codebeigefügten Readme-Dateien gegeben. Auf der Webseite werden zu-dem Web-basierte Demonstrationen zur Verfügung gestellt. Für einenersten, grafisch aufbereiteten, Einblick wurde die Demo #1 mit der aufder Webseite verlinkten Datei E06-1050.txt ausgeführt. Teile der Aus-gabe sind in den Abbildungen 3 und 4 dargestellt. Die Kopfangabender Textdatei wurden im Vergleich auf die Quelle fehlerfrei extrahiert.Obwohl es für eine eigene Referenz nicht verwunderlich gewesen wäre,wenn alle Daten ohne Fehler erkannt worden wären, gibt es kleinere Ab-weichungen in der Ausgabe der ersten Referenz. In Abbildung 4 ist eineLegende der möglichen Felder, dem Ursprungstext, einem Ausschnittaus dem Haupttext mit dem eigentlichen Zitat und das Extraktions-Ergebnis zu sehen. Bei der Angabe des Bandes fehlt der Zusatz „(2)“und die Seitenzahlen fehlen gänzlich. Die wichtigsten Angaben, Autorund Titel werden jedoch korrekt erkannt.

Für eine praktische Verwendung innerhalb des AAN Systems bietetsich die direkte Nutzung des Codes an. Auf den Zugriff über denWebservice per Web Services Description Language (WSDL) wird daheran dieser Stelle nicht weiter eingegangen. Stattdessen wurde ParsCitauf einem Testsystem installiert. Um einen Praxistest durchzuführen,wurde eine AAN Veröffentlichung [9] ausgewertet. Dazu muss ein PDFzunächst in UTF-8 kodierten Reintext konvertiert werden. Dies kann

13

Page 14: Analyse wissenschaftlicher Publikationen

Listing 4: Beipiel einer ParsCit Ausgabe[ . . . ]

< c i t a t i o n L i s t >< c i t a t i o n va l id =" t rue ">

< t i t l e >Programme Committee , " Ca l l f o r paper f o r theCollaborateCom </ t i t l e >

<date >2009</date >< i n s t i t u t i o n >CollaborateCom </ i n s t i t u t i o n ><note >http ://www. col laboratecom . org/docs/ CollaborateCom 09

cfp . pdf</note ><contexts >

<contex t p o s i t i o n ="1330" c i t S t r = " [ 1 ] " s tar tWordPosi t ion ="175"endWordPosition ="175" > through the e x i s t e n c e ofArtefactActor−Networks . I . INTRODUCTION Computer mediatedcommunication (CMC) has evolved to an important f a c t o r ofindustry , s c i e n c e and research within the l a s t decades . As [ 1 ]puts i t , we produce j o i n t products and achieve higherp r o d u c t i v i t y by e l e c t r o n i c c o l l a b o r a t i o n between d i s t r i b u t e dteams of humans , computer a p p l i c a t i o n s , and/or autonomous robots .Todays communicati</context >

</contexts ><marker >[1] </ marker><rawString >CollaborateCom 2009 Programme Committee , " Ca l l f o r paper f o r

the CollaborateCom 2009 , " ht tp ://www. col laboratecom . org/docs/CollaborateCom 09 cfp . pdf , 2009 . </ rawString >

</ c i t a t i o n >< c i t a t i o n va l id =" t rue ">

<authors ><author > J C Mitchel l </author >

</authors >< t i t l e > S o c i a l Networks in urban s i t u a t i o n s : Analyses of personal

r e l a t i o n s h i p s in Centra l Afr ican towns</ t i t l e ><date >1969</date ><publisher >Manchester : Univers i ty Press </publisher ><contexts >

<contex t p o s i t i o n ="2258" c i t S t r = " [ 2 ] " s tar tWordPosi t ion ="317"endWordPosition ="317" > s e t of l inkages among a defined s e t ofpersons with the a d d i t i o n a l property t h a t the c h a r a c t e r i s t i c s ofthese l inkages as a whole may be used to i n t e r p r e t the s o c i a lbehaviour of the persons involved ’ [ 2 ] . By extending Mitchel l ’ si n t e r p r e t a t i o n of a s o c i a l network , we get a more gener icd e f i n i t i o n of s o c i a l networks . S o c i a l networks represent s o c i a ls t r u c t u r e s by means of t i e s between nodes . These node</context >

</contexts ><marker >[2] </ marker><rawString > J . C . Mitchel l , S o c i a l Networks in urban s i t u a t i o n s :

Analyses of personal r e l a t i o n s h i p s in Centra l Afr ican towns .Manchester : Univers i ty Press , 1969 . </ rawString >

</ c i t a t i o n >[ . . . ]< c i t a t i o n va l id =" t rue ">

<authors ><author >Technorat i Inc </author >

</authors >< t i t l e >Technorati , " ht tp :// t e c h n o r a t i . com/ , r e t r i e v e d on</ t i t l e ><date >2009</date ><pages >2009−−07</pages><contexts >

<contex t p o s i t i o n ="29725" c i t S t r = " [ 2 1 ] " s tar tWordPosi t ion ="4600"endWordPosition = " 4 6 0 0 " > [ . . . ] < / context >

</contexts ><marker >[21] </ marker><rawString >Technorat i Inc . , " Technorati , " ht tp :// t e c h n o r a t i . com/ ,

r e t r i e v e d on 2009−07−17 , Ju ly 2009 . </ rawString ></ c i t a t i o n >< c i t a t i o n va l id =" f a l s e ">

<date >2009</date ><pages >2009−−07</pages>< i n s t i t u t i o n >Univers i ty of Toronto </ i n s t i t u t i o n ><note >Blogscope , " ht tp ://www. blogscope . net / , r e t r i e v e d on</note ><contexts >

<contex t p o s i t i o n ="29731" c i t S t r = " [ 2 2 ] " s tar tWordPosi t ion ="4601"endWordPosition = " 4 6 0 1 " > [ . . . ] < / context >

</contexts ><marker >[22] </ marker><rawString >Univers i ty of Toronto , " Blogscope , "

ht tp ://www. blogscope . net / , r e t r i e v e d on 2009−07−17 , Ju ly2009 . </ rawString >

</ c i t a t i o n >[ . . . ]

mit dem Tool pdftotext geschehen. Der Parameter -raw wird benötigt,damit die Reihenfolge der Strings im Inhalt erhalten bleibt:

pdftotext -raw 2009_CC_AAN.pdf

14

Page 15: Analyse wissenschaftlicher Publikationen

Listing 5: Beipiel einer ParsCit Lernvorgabe<author> CollaborateCom 1982 Programme Committee , </author>< t i t l e > " Cal l f o r paper f o r the CollaborateCom 1982 , " </ t i t l e ><note> h t t p : //www. col laboratecom . org/docs/CollaborateCom82_cfp . pdf </note>< b o o k t i t l e > Proc . 5 th . BCS−FACS Refinement Workshop , </ b o o k t i t l e ><date> 1992 . </date><author> Brainfuck Inc . , </author>< t i t l e > " Brainfuck , " </ t i t l e ><note> h t t p : //www. muppetlabs . com/~breadbox/bf / , r e t r i e v e d on

1999−12−31 ,</note><volume> 1 ( 1 ) , </volume><date> December 1999 . </date>

Einen Eindruck der generierten Textdatei verschafft Listing 3. Wiezu sehen ist, sind die Kopfdaten, der Text und die Referenzen mitden durchschnittlichen kognitiven Fähigkeiten einer realen Personunmittelbar erkennbar. Im Eingabecode sind die ersten beiden Einträgeder Referenzliste und, für einen folgenden Vergleich, die Referenzen 21

und 22 aufgeführt. Der tatsächliche Extraktionsvorgang für Referenzenwird mit folgendem Befehl gestartet:

citeExtract.pl 2009_CC_AAN.txt > 2009_CC_AAN.xml

Die daraufhin generierte Ausgabe für die aufgeführten Referenzen derEingabe ist in Listing 4 abgebildet. Der XML Code wurde nachträglicheingerückt und drei der Zitat-Kontexte entfernt. Für jedes Zitat werden,sofern gefunden, Autoren, Titel, Datum, Herausgeber, Seiten, Institu-tion, Kommentar, Zitat-Kontext, Zitat-Markierung und der gefundeneEingabe-String ausgegeben. Bei der Ausgabe des ersten Zitates wirdder Autor nicht korrekt erkannt. Eine wahrscheinliche Ursache ist, dassdort kein Name einer Person angegeben wurde und zusätzlich eineJahreszahl verwendet wurde. Dadurch ist möglicherweise auch derzweite Teil des Namens als Bestandteil des Titels erkannt worden. DemTitel fehlt wiederum die abschließende Jahreszahl. Die Notiz und derMarker wurden erfolgreich erkannt, der fehlende Unterstrich der Notizist ein Folgefehler der Umwandlung der PDF-Datei in Reintext. DieHauptangaben des zweiten Zitats wurden erfolgreich erkannt. Hierwird der Ort der Veröffentlichung zum Herausgeber hinzugefügt, wasvernachlässigt werden kann. Das Zitat mit der Nummer 21 wurdein das Beispiel aufgenommen, da es dem Folgezitat ähnelt, welchesals nicht valide gekennzeichnet wurde. Bei beiden Zitaten handelt essich um Webseiten, deren Hinweis auf ihre Sichtung als Seitenzahlinterpretiert wurde. Lediglich Marker, Autor und Datum wurden hiererfolgreich erkannt. Diese Art von Zitat ist eine Ausnahme und spieltfür die Referenzierung von Publikationen untereinander keine Rolle,da es sich um Webseiten handelt. Der Unterschied zwischen den Va-liditätsangaben lässt sich mit den geparsten Eingaben erklären. BeimZitat 21 gibt es einen zusätzlichen Zeilenumbruch. Dieser ist eigentlicheine Fehlkonversion aus dem PDF-Format und ist bedingt durch den-raw Parameter. Interessant ist die Tatsache, dass das Zitat 21, mit dereigentlich falschen Eingabe, validiert wird.

4.1.3 Training

Basierend auf den fehlerhaften Extraktionen wurde eine Vorgabe fürein Training erstellt. Die Lernvorgabe, dargestellt in Listing 5 ist starkauf eine Verbesserung der gegebenen Zitate ausgelegt. Für das er-ste Zitat wurde lediglich ein anderes Jahr gewählt, ansonsten wurdeein zugeschnittenes Ergebnis vorgegeben. Für die Zitate 21 und 22

wurde die Struktur der Webseitenreferenzen beibehalten. Der Link unddie Angabe zum Abruf der Webseite wurden als Notiz vorgegeben.Zusätzlich wurden (versehentlich) verfremdende Angaben eingefügt,diese sollten das Ergebnis jedoch nicht stark verfälschen. Das Ergebnis

15

Page 16: Analyse wissenschaftlicher Publikationen

Listing 6: Beipiel einer ParsCit Ausgabe nach dem Training[ . . . ]

< c i t a t i o n L i s t >< c i t a t i o n va l id=" t rue ">

<authors><author>Programme Committee</author>

</authors>< t i t l e >Cal l f o r paper f o r the CollaborateCom 2009</ t i t l e ><date>2009</date>< b o o k t i t l e >CollaborateCom09 cfp . pdf</ b o o k t i t l e ><note> h t t p : //www. col laboratecom . org/docs</note>< c o n t e x t s>

<contex t p o s i t i o n =" 1330 " c i t S t r =" [ 1 ] " s tar tWordPosi t ion=" 175 "endWordPosition=" 175 "> [ . . . ] </contex t>

</ c o n t e x t s><marker> [ 1 ] </marker><rawString>CollaborateCom 2009 Programme Committee , " Ca l l f o r paper f o r

the CollaborateCom 2009 , " h t t p : //www. col laboratecom . org/docs/CollaborateCom09 cfp . pdf , 2009 .</rawString>

</ c i t a t i o n >[ . . . ]< c i t a t i o n va l id=" t rue ">

<authors><author>Technorat i Inc</author>

</authors>< t i t l e >Technorat i</ t i t l e ><date>2009</date><note> h t t p : // t e c h n o r a t i . com/ , r e t r i e v e d on 2009−07−17</note>< c o n t e x t s>

<contex t p o s i t i o n =" 29725 " c i t S t r =" [ 2 1 ] " s tar tWordPosi t ion=" 4600 "endWordPosition=" 4600 "> [ . . . ] </contex t>

</ c o n t e x t s><marker> [ 2 1 ] </marker><rawString>Technorat i Inc . , " Technorati , " h t t p : // t e c h n o r a t i . com/ ,

r e t r i e v e d on 2009−07−17 , Ju ly 2009 .</rawString></ c i t a t i o n >< c i t a t i o n va l id=" t rue ">

<authors><author>Univers i ty of Toronto</author>

</authors>< t i t l e >Blogscope</ t i t l e ><date>2009</date><note> h t t p : //www. blogscope . net / , r e t r i e v e d on 2009−07−17</note>< c o n t e x t s>

<contex t p o s i t i o n =" 29731 " c i t S t r =" [ 2 2 ] " s tar tWordPosi t ion=" 4601 "endWordPosition=" 4601 "> [ . . . ] </contex t>

</ c o n t e x t s><marker> [ 2 2 ] </marker><rawString>Univers i ty of Toronto , " Blogscope , "

h t t p : //www. blogscope . net / , r e t r i e v e d on 2009−07−17 , Ju ly2009 .</rawString>

</ c i t a t i o n >[ . . . ]

der erneuten Extraktion (siehe Listing 6) ist besser. Die Referenzenauf Webseiten wurden korrekt erkannt. Beim ersten Zitat scheint dieJahreszahl im Autorenfeld sowie das Leerzeichen in der URL ein Pro-blem darzustellen. Insgesamt ist die Ausgabe jedoch ein zufriedenstel-lendes Ergebnis.

4.2 Weitere Software

Die Verwendung von ParsCit scheint ein probates Mittel zur Extrak-tion von Referenzen zu sein. Daher folgt an dieser Stelle eine Liste(siehe Tabelle 1) von Alternativen; auf weitere umfassende Tests wirdverzichtet.

Tabelle 1: Software zur Extraktion von ReferenzenAnsatz Aktualität System KommentarParsCit 01.11.2010 Perl, CRF++FreeCite 16.04.2009 Ruby on Rails, CRF++

Biblio-Citation-Parser 02.09.2004 Perl Mike JewellParaTools 05.09.2004 Perl Mike JewellCalifornia 02.07.2008 Python Hidden Markov

Digital Library Models

16

Page 17: Analyse wissenschaftlicher Publikationen

4.3 Herausforderungen

Für die weitere Arbeit mit extrahierten Referenzen fallen zwei möglicheHindernisse ins Auge. Die Extraktion von Kopfdaten von Publikationenscheint angemessen gut zu klappen. Basierend auf diesen Daten kön-nen eindeutige URIs generiert werden, mit denen Veröffentlichungenreferenziert werden können. Eine Herausforderung ist die Zuordnungbei nicht korrekt extrahierten Datenfeldern der Referenzen. Dadurchkönnten Verweise fehlgeleitet werden. Eine mögliche Teillösung wäreeine Suche nach vorhandenen Publikationen mit gleichem oder ähn-lichen Titel, mit der ein korrektes Matching und eine Korrektur vonRelationen im Modell eingeleitet werden könnte. Die zweite Heraus-forderung ist die Live-Generierung von Trainingsdaten. Diese solltenkorrekt sein, was bei einer Extraktion nicht der Fall sein muss. Ein Lö-sungsansatz ist die Verwendung von Daten, die z.B. aus vorgegebenenXML-Daten aus sicheren Quellen extrahiert wurden und sich daher füreinen Trainingsinput eignen.

4.4 Ansatzpunkte zur weiteren Recherche

• ParsCithttp://aye.comp.nus.edu.sg/parsCit/

• Conditional Random Fieldhttp://crfpp.sourceforge.net/

http://de.wikipedia.org/wiki/Conditional_Random_Field

http://de.wikipedia.org/wiki/Web_Services_Description_Language

• FreeCitehttp://freecite.library.brown.edu/

• Biblio-Citation-Parserhttp://search.cpan.org/~mjewell/

• ParaToolshttp://paracite.eprints.org/developers/

• California Digital Libraryhttp://gales.cdlib.org/~egh/hmm-citation-extractor/

5 szientometrie , bibliometrie und zitationsanalyse

Szientometrie (Scientometrics), Bibliometrie (Bibliometrics) und Zita-tionsanalyse (Citation analysis). Mehrautorenschaft (Co-authorship),Kopplung von Kozitationen (Co-citation Coupling) und BibliografischeKopplung (Bibliographic Coupling). h-Index und g-Index? Dies wirktwie ein Gewitter von Begriffen, die irgendwie mit Zitaten und derenAnalyse zusammenhängen. Dieser Abschnitt soll wichtige Begriffeund deren Bedeutung im Kontext von Zitierungen innerhalb von wis-senschaftlichen Publikationen klären. Dazu werden zunächst Oberbe-griffe erläutert und anschließend verschiedene Metriken der Zitations-analyse vorgestellt. Das heißt, dass durch eine Analyse der Verweiseverschiedener Publikationen bestimmte Aussagen über eine Zusam-mengehörigkeit gemacht werden. Es gibt auch Ansätze, die versuchen,über die Menge der Veröffentlichungen eines Autors und deren Zi-tierungen in anderen Veröffentlichungen (der Zitierrate) Aussagen überden Status des Autors zu machen. Dies bildet den Abschluss diesesAbschnitts.

5.1 Begriffsklärung

• Die Szientometrie ist eine quantitative Methode und untersuchtdas wissenschaftliche Forschen. Es soll unter anderem die Fragebeantwortet werden, wie und warum sich ein bestimmter Wis-senschaftsbereich entwickelt. Ein oft verwendetes Werkzeug istdie Bibliometrie.

17

Page 18: Analyse wissenschaftlicher Publikationen

• Die Bibliometrie ist die quantitative Untersuchung von Publikatio-nen, Autoren und Institutionen wie Bibliotheken mittels statistis-cher Verfahren. Neben der Inhaltsanalyse ist ein weiteres Gebietdie Zitationsanalyse.

• Die Zitationsanalyse beschäftigt sich im Wesentlichen mit Be-ziehungen zwischen zitierten und zitierenden Arbeiten, also mitdem Studium von Zitationen.

5.2 Zitationsanalyse

In der Zitationsanalyse werden verschiedene Zusammenhänge vonAutoren und deren Veröffentlichungen geschlossen. Als Indikator dientoft die Anzahl von Zitierungen.

An dieser Stelle werden die Metriken Co-authorship, Co-citationCoupling und Bibliographic Coupling beschrieben.

5.2.1 Co-authorship (Mehrautorenschaft)

Eine Mehrautorenschaft bezeichnet die Verfassung eines Dokuments,an der mehrere Mitautoren beteiligt sind. Durch das Zählen gemein-sam erstellter Dokumente kann man den Grad der Zusammenarbeitzweier oder mehrerer Autoren quantitativ ermitteln. Je mehr gemein-same Dokumente eine Menge von Autoren zusammen verfasst hat,desto höher ist der Grad ihrer Zusammenarbeit. In Abbildung 5 istein Beispiel dreier Publikationen gegeben. Die Autoren A, B, C und Dwaren an der Erstellung von Dokumenten beteiligt.

C BDAA B DA

Publikation Autor

Abbildung 5: Beispiel Co-authorship

In Tabelle 2 ist eine paarweise Auswertung des Beispiels angegeben.Die Autoren A,B und A,D haben hiernach am meisten zusammengearbeitet, die Autoren B,C scheinen noch keine gemeinsame Arbeitveröffentlicht zu haben.

Tabelle 2: Auswertung des Beispiels Co-authorshipCA(A,B) CA(A,C) CA(A,D) CA(B,C) CA(B,D) CA(C,D)

2 1 2 0 1 1

Dieses Beispiel ist sehr simpel gehalten. Bei einer großen Daten-basis mit hunderten oder tausenden von Publikationen liefert diesesVerfahren aber für die Praxis hilfreiche Ergebnisse. Gerade im GebietRecommendations oder bei der Expertenfindung sind Mitautoren inter-essant.

Eine Visualisierung der für den Workshop LWA2010 [1] angenom-menen Artikeln zeigt Abbildung 6. Auch dies ist ein einfaches Beispiel.Da jeder Autor an lediglich einer Arbeit beteiligt war, sind klar trennbareCliquen zu erkennen. So ist zum Beispiel auf den ersten Blick sicht-bar, dass die Autoren Daniela Godoy und Dominikus Heckmann dieeinzigen beiden Personen sind, die eine Publikation ohne Mitautoreneingereicht haben. Aber auch nur auf den ersten Blick, denn DanielBurgos hat sowohl eine Publikation alleine, als auch eine zweite Pub-likation mit einem Mitautor eingereicht. So erklären sich auch die 11

18

Page 19: Analyse wissenschaftlicher Publikationen

Abbildung 6: Co-authorship für LWA2010, Quelle: [12]

Cluster bei 12 Publikationen des Workshops. Die Mehrautorenschaftbezieht sich auf Autoren, im Gegensatz dazu bezieht sich die nächsteMetrik auf Zitationen.

5.2.2 Co-citation Coupling (Kopplung von Kozitationen)

Durch den Ansatz der Kopplung von Kozitationen wird versucht, the-matisch verwandte Inhalte von Publikationen zu erkennen. Dazu wirddie Anzahl gemeinsamer Zitationen innerhalb weiterer Publikationenermittelt. Wenn also zwei Publikationen A und B in einer PublikationC referenziert werden, nimmt man an, dass deren Themen verwandtsind. Auch, wenn A und B nicht gegenseitig auf sich verweisen. Jemehr solche gemeinsame Zitationen gefunden werden, desto stärkerscheint ihre Beziehung zu sein. Abbildung 7 zeigt ein Beispiel mit dreiPublikationen 1 bis 3. Diese Publikationen referenzieren fünf weitereVeröffentlichungen A bis E. Welche der Veröffentlichungen A bis E sindnach dem Co-citation Coupling am stärksten thematisch verwandt?

Abbildung 7: Beispiel Co-citation Coupling

Tabelle 3 zeigt eine Auswertung des Beispiels. Die PublikationenA,B und A,D wurden beide zweimalig gemeinsam referenziert undscheinen somit am stärksten thematisch verwandt zu sein.

In Abbildung 8 ist ein weiteres Beispiel einer Visualisierung desLWA2010 Workshops gegeben. Die erkennbaren Cluster sind von denWorkshop-Beiträgen referenzierte Dokumente. Die Bildung der Clus-

19

Page 20: Analyse wissenschaftlicher Publikationen

Tabelle 3: Auswertung des Beispiels Co-Citation CouplingCCC(A,B) CCC(A,C) CCC(A,D) CCC(A,E) CCC(B,C)

2 1 2 1 1

CCC(B,D) CCC(B,E) CCC(C,D) CCC(C,E) CCC(D,E)1 0 0 0 1

ter kommt daher, dass alle Dokumente, die gemeinsam durch einenLWA2010-Beitrag referenziert wurden, durch eben diese Kozitationgekoppelt werden. Vier Knoten stechen heraus. Diese vier Knoten wur-den in jeweils zwei Workshop-Beiträgen referenziert und weisen daherjeweils eine thematische Verwandtschaft zu zwei Clustern auf.

Abbildung 8: Co-citation Coupling für LWA2010, Quelle: [12]

Die Kopplung von Kozitationen bietet sich für ältere Arbeiten anund kann sich im Lauf der Zeit verändern, was aber ist mit ganz neuenVeröffentlichungen, auf die wegen ihres Alters noch nicht verwiesenwerden kann? Dazu eignet sich die folgende Metrik.

5.2.3 Bibliographic Coupling (Bibliografische Kopplung)

Die bibliografische Kopplung verfährt auf einem ganz ähnlichen Weg.Allerdings in umgekehrter Weise. Wenn zwei Publikationen A undB eine weiteres Dokument C referenzieren, dann sind A und B nachdieser Metrik miteinander thematisch verwandt. Das BibliographicCoupling bietet sich auch für jüngere Arbeiten an, da nicht auf dieseselber verwiesen werden muss. In Abbildung 9 ist das bereits bekannteBeispiel nochmals aufgeführt. Drei Publikationen 1 bis 3 verweisen auffünf weitere Publikationen A bis E. Welche der Publikationen 1 bis 3

haben nach der hier vorgestellten Metrik die am stärksten ausgeprägtethematische Ähnlichkeit?

In Tabelle 4 ist eine Auswertung des Beispiels gegeben. Die Publika-tionen 1,2 und 2,3 haben jeweils zwei gleiche Zitierungen. Das sind Aund B im ersten Fall und A und D im zweiten Fall.

20

Page 21: Analyse wissenschaftlicher Publikationen

Abbildung 9: Beispiel Bibliographic Coupling

Tabelle 4: Auswertung des Beispiels Bibliographic CouplingBC(1,2) BC(1,3) BC(2,3)

2 1 2

In Abbildung 10 ist auch für das Bibliographic Coupling ein LWA2010

Beispiel zu sehen. Die 12 Knoten entsprechen den 12 eingereichtenBeiträgen. Acht der Beiträge weisen keine Ähnlichkeit mit anderenBeiträgen auf. Bei vier Einreichungen ist eine Ähnlichkeit erkennbar.Insbesondere bei „What is wrong with the IMS Learning Design spe-cification?“ und „On the Role of Social Tags in Filtering InterestingResources from Folksonomies“ sind jeweils zwei ähnliche Dokumenteerkennbar.

Zusätzlich zu den hier vorgestellten Zusammenhängen von Autorenund Veröffentlichungen gibt es Maße, mit denen die Produktivität vonAutoren verglichen werden kann, sogenannte bibliometrische Maße.

Abbildung 10: Bibliographic Coupling für LWA2010, Quelle: [12]

5.3 Bibliometrisches Maße

In diesem Abschnitt werden die relativ neuen (2005, 2006) Konzepteh-Index und g-Index vorgestellt. Es existieren noch weitere biblio-metrische Maße, dieser Abschnitt beschränkt sich auf die beiden bekan-ntesten.

5.3.1 h-Index (Hirsch-Index)

Der Hirsch-Index (auch Hirschfaktor) wurde im November 2005 vomamerikanischen Physik Jorge E. Hirsch [7] veröffentlicht. Er ist ein Maßfür die Produktivität und den Einfluss eines Autors. Zur Berechnungdes h-Index werden die Publikationen eines Autors nach der Anzahlihrer Zitierungen absteigend geordnet. Diese Liste geht man nun vonvorne durch und vergleicht den Index der Publikation mit ihrer Anzahlan Zitierungen. Sobald die h-te Publikation weniger als h Zitierungen

21

Page 22: Analyse wissenschaftlicher Publikationen

hat, ist der Hirsch-Index bestimmt. Abbildung 11 zeigt die Bestimmungdes h-Index bildlich.

Abbildung 11: h-Index, Quelle: http://de.wikipedia.org/wiki/H-Index

Der Hirschfaktor berücksichtigt keine besonders hervorstechendenPublikationen. So könnte ein Autor wenige Artikel mit sehr vielenZitierungen veröffentlicht haben. Dies könnte eine herausragende Leis-tung darstellen, die im h-Index nicht berücksichtigt würde, wenn dieübrigen Arbeiten des Autors nur sehr wenige Zitierungen hätten. Durchden g-Index wird versucht dies auszugleichen.

5.3.2 g-Index

Der g-Index wurde 2006 von Leo Egghe in der Zeitschrift Scientomet-rics [5] veröffentlicht. Zur Bestimmung des Index werden die Veröf-fentlichungen eines Autors ebenfalls nach der Anzahl ihrer Zitationenabsteigend sortiert. Nun wird die Summe der Zitierungen der ersten biszur g-ten Publikation berechnet und mit dem Produkt g·g verglichen.Der g-Index ist die Zahl, bei der die Summe der Zitierungen mindestensso groß ist, wie das Produkt g·g.

Tabelle 5: Beispiel zum g-IndexArtikel (g) Zitierungen Summe Zitierungen g·g

1 20 20 1

2 10 30 4

3 7 37 9

4 5 42 16

5 3 45 25

6 2 47 367 1 48 49

Ein Beispiel zur Bestimmung des g-Indexes ist in Tabelle 5 gegeben.Die Tabelle gibt die sieben meist-zitierten Publikationen eines fiktivenAutors wieder. Bis zur 6. Publikation ist die Summe der Zitierungenmindestens so groß wie das Quadrat des Indexes. Da dies bei der 7.meist-zitierten Veröffentlichung nicht mehr zutrifft, ist der g-Index 6.

Die hier vorgestellten Metriken und Maße fußen auf Zitationen. Diesekönnen als semantische Relationen zwischen Artefakten interpretiertwerden. Somit sind die Konzepte teilweise auch auf andere Artefakt-Typen erweitert werden. Im Folgenden wird zusätzlich ein Vorschlagfür eine zusätzliche Bewertung für Artefakte vorgestellt.

22

Page 23: Analyse wissenschaftlicher Publikationen

5.4 Bewertungen basierend auf semantischen Relationen

Zum aktuellen Zeitpunkt werden Ähnlichkeiten von Artefakten imAAN System über die SemSim Komponente bestimmt. Basis dieserBerechnung bilden die Inhalte der Artefakte, genauer gesagt die Stich-wörter (Tags und Kategorien), mit denen sie verbunden sind. Ein weit-erer Ansatz ist die quantitative Auswertung der Anzahl von Art2 Re-lationen. Die Verwendung von gegenseitigen Referenzierungen alsRückschluss auf eine inhaltliche Ähnlichkeit wird auch in der Zitation-sanalyse gebraucht. Hierfür sollten lediglich eingehende Relationenbetrachtet werden. Da in der AAN Ontologie für jede Relation einInverses definiert ist, der entstehende Graph also bidirektional ist,entsprechen zwei Kanten eines Artefakt-Knotens einer Relation. Einerster Ansatz wäre also, die mit einem Artefakt verbundenen Art2 Re-lationen zu zählen und diese Summe zu halbieren. Möglicherweise istes sinnvoll, Relationen wie isPartOf oder hasPart auszuschließen, umVerfälschungen des Ergebnisses zu vermeiden.

Ein Artefakt, dass von einer hohen Anzahl von anderen Artefaktenreferenziert wird, könnte zusätzlich eine höhere Wertung bekommen.So wäre es denkbar, dass Relationen, die von einem solchen hochfre-quentierten Artefakt ausgehen, höher gewertet werden, als Relationenvon einem wenig verbundenen Artefakt. Dieser Ansatz könnte itera-tiv fortgeführt werden, so dass Relationen von einem Artefakt, dassmit einem hoch frequentieren Artefakt verbunden ist, ebenfalls aufge-wertet werden. Dieser Ansatz ist in einer Variation bereits als PageRankbekannt.

Außerdem könnten solche Relationen als weitere Beschreibung vonArtefakten verwendet werden. Stichworte von direkt verbundenen Arte-fakten könnten als Stichworte zweiter Klasse dienen. Ob und welchenMehrwert eine solche Weitergabe ergibt, muss in der Praxis evaluiertwerden.

Im Folgenden ist eine Sammlung von Webseiten aufgeführt, die füreine weitere Recherche im Gebiet Bibliometrie nützlich sein können.

5.5 Ansatzpunkte zur weiteren Recherche

• Zitationsanalysehttp://www.ischool.utexas.edu/~palmquis/courses/biblio.html#Cite

http://www.harzing.com/pophelp/metrics.htm

• Wikipedia (de)http://de.wikipedia.org/wiki/Szientometrie

http://de.wikipedia.org/wiki/Bibliometrie

http://de.wikipedia.org/wiki/Zitationsanalyse

http://de.wikipedia.org/wiki/Mehrautorenschaft

http://de.wikipedia.org/wiki/Kozitation

http://de.wikipedia.org/wiki/Bibliografische_Kopplung

http://de.wikipedia.org/wiki/H-Index

• Wikipedia (en)http://en.wikipedia.org/wiki/Scientometrics

http://en.wikipedia.org/wiki/Bibliometrics

http://en.wikipedia.org/wiki/Citation_analysis

http://en.wikipedia.org/wiki/H-index

http://en.wikipedia.org/wiki/G-index

23

Page 24: Analyse wissenschaftlicher Publikationen

6 zusammenfassung

Die vorgestellten Informationen sollen einen Einstieg der Integrationvon Publikationsdaten in das AAN System erleichtern. Dazu wurdeein kompletter Einblick des Ablaufs der wichtigsten Bereiche gegeben.Dies umfasst potenzielle Quellen, Möglichkeiten der Übertragung, An-sätze zur Extraktion von Daten und Grundlagen für die abschließendeAnalyse von wissenschaftlichen Dokumenten. Wichtig für die weitereEntwicklung ist die Betrachtung kommender Herausforderungen (sieheAbschnitt 2.3.3 und 4.3), für die bereits Vorschläge zur Bewältigunggegeben wurden.

literatur

[1] ABIS. LWA2010 - Lernen, Wissen, Adaptivität. http://www.kde.cs.uni-kassel.de/conf/lwa10/abis. zugegriffen am 5. Januar2011.

[2] Bo-Christer Björk, Patrik Welling, Mikael Laakso, Peter Majlender,Turid Hedlund, and Guðni Guðnason. Open Access to the Sci-entific Journal Literature: Situation 2009. PLoS ONE, 5(6), 2010.http://dx.doi.org/10.1371%2Fjournal.pone.0011273.

[3] Budapest Open Access Initiative. What does BOAI mean by ’openaccess’? http://www.earlham.edu/~peters/fos/boaifaq.htm#

openaccess. zugegriffen am 15. Dezember 2010.

[4] Isaac G. Councill, C. Lee Giles, and Min-Yen Kan. Parscit: An open-source crf reference string parsing package. In Proceedings of theLanguage Resources and Evaluation Conference (LREC 08), Marrakesh,Morrocco, May 2008.

[5] Leo Egghe. Theory and practise of the g-index. Scientometrics,69(1):131–152, April 2006.

[6] Yassine Gargouri, Chawki Hajjem, Vincent Larivière, Yves Gingras,Les Carr, Tim Brody, and Stevan Harnad. Self-Selected or Man-dated, Open Access Increases Citation Impact for Higher QualityResearch. PLoS ONE, 5(10), 2010. http://dx.doi.org/10.1371%2Fjournal.pone.0013636.

[7] J. E. Hirsch. An index to quantify an individual’s scientific researchoutput. PNAS, 102(46), November 2005.

[8] Lund University Libraries. Directory of Open Access Journals.http://www.doaj.org/. zugegriffen am 03. Januar 2011.

[9] Wolfgang Reinhardt, Matthias Moi, , and Tobias Varlemann.Artefact-actor-networks as tie between social networks and artefactnetworks. In Proceedings of the CollaborateCom 2009.

[10] UNESCO, Adobe Systems Inc., and NDLTD members. NDLTD:Networked Digital Library of Theses and Dissertations. http:

//www.ndltd.org/. zugegriffen am 03. Januar 2011.

[11] Universitätsbibliothek Regensburg. Informationen zur Elektron-ischen Zeitschriftenbibliothek. http://ezb.uni-regensburg.de/about.phtml. zugegriffen am 16. Dezember 2010.

[12] Wolfgang Reinhardt. ABIS2010 Small-scale study. http://thales.cs.upb.de/smallscalestudies/abis2010/bibliometrics.html.zugegriffen am 5. Januar 2011.

24