Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

28
Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000

Transcript of Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Page 1: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Finden statt Suchen - Retrieval

Kerstin ZimmermannUniversität Oldenburg

Berlin, Oktober 2000

Page 2: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

2

Inhaltsverzeichnis

* Aufbau eines Harvestsystems

* Installation und Konfiguration

* Suchen mit Harvest

Page 3: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

3

Online Theses in Europe

many theses at several places

up to 10 links for theses

some theses found mostly at one place

no theses found yet

updated: April 2000

Page 4: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

4

Sorten von Archiven

bisher

a) Listen (Name, Titel, Datum)

b) zusätzlich mit Abstract

c) nur Volltext

d) Metadaten, Abtract und Volltext

später DissOnline Dokumentenserver

Page 5: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

5

Indizierte Formate• sgml x

• xml x

• html X

• ps X Text, attention: do not use graficmode ASCII required

• pdf X Text, Destiller-Options: asciipdf=on, commpressed text= off exchange do not use optimize

• doc X

• rtf X

• tex X

• dvi X

Page 6: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

6

Globale Harvest Serverstruktur

global

national

fach-spezifisch

europaweit

D D BO P A C

N D L TD

C h em ieS U B

E rz ieh u n g sw issen sch a ftenU B

In fo rm atikR Z

F ach b ere ich / In s titu tU B

M ath em atikIM P R E S S

F ach b ere ich / In s titu tU B

P h ys ikP h ysD is

D iss B roke rD issN et

Page 7: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

7

Retrieval

Server / Archive

Workstation

PC

private

public

Page 8: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

8

Harvest

WWW-SERVER

http://www.physik...

Dissertation GATHERER

BROKER

HARVEST

User

Internal Area

NWWW Browser

Result...................................

Request

Result

Page 9: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

9

<tags> and MetadataHTML Element SOIF-Element

<A HREF> url-reference{}

<ADDRESS> address{}

<H1 ... H6> headings{}

<TITLE> title{}

...

Metadaten SOIF-Element

DC.title dc.title{}

DC.author dc.author{}

...

Page 10: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

10

Rechtliche Aspekte

• Promotionsordnungen §

• Diskussion in DC.Rights 1999

- rights of the resource (un-)restricted access / use

- rights of Metadata

• DissOnline Dokumentenserver

Page 11: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

11

Harvest - Configuration

Provider

Provider

Provider

Gatherer

Broker

Broker

gdbm

objects

glimpse

SOIF

SOIFHTTP

HTTP

HTTP

Page 12: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

12

@FILE { http://www.physik.uni-oldenburg.de/Docs/THEO3/publications/metadocs/ebs.shell.structure.htmlupdate-time{9}: 938935362url-references{208}: http://www.physik.uni-oldenburg.de/Docs/THEO3/publications/ebs.shell.structure.pdfmailto:[email protected]://www.physik.uni-oldenburg.de/Docs/THEO3/publications/ebs.shell.structure.pdftitle{59}: Shell Structure and Stability of Very Neutron-Rich Isotopeskeywords{97}:

and author date eberhard ebs files hilf isotopes neutron pdf rich shell stability structure very

head{16}: -Version 1.0 -->dc.type{59}: InProceedings(SCHEME=Freetext)publication-status=publisheddc.title{59}: Shell Structure and Stability of Very Neutron-Rich Isotopesdc.publisher{18}: IKDA, TH Darmstadtdc.language{18}: (SCHEME=Z39.53)ENGdc.format{15}: application/pdfdc.date{75}: (SCHEME=ANSI.X3.30-1985)1975(SCHEME=ANSI.X3.30-1985)(TYPE=current)19990408dc.creator{126}: Eberhard R. Hilf(TYPE=email)[email protected](TYPE=phone)+49-(0)441-798-2543(TYPE=fax)+49-(0)441-798-3201body{190}: =+4>Shell Structure and Stability of Very Neutron-Rich Isotopes Author:Eberhard R. Hilf Phone: +49-(0)441-798-2543 Fax:+49-(0)441-798-3201 Files: ebs.shell.structure.pdf Date: 1975md5{32}: bc1f2750a042a8175cce710030c60d76file-size{4}: 2440type{4}: HTMLgatherer-version{6}: 1.5.19gatherer-host{31}: egoiste.physik.uni-oldenburg.degatherer-name{17}: Physics Oldenburgrefresh-rate{5}: 86400time-to-live{7}: 3888000last-modification-time{9}: 928224570description{186}: =+4>Shell Structure and Stability of Very Neutron-Rich Isotopes Author:Eberhard R. Hilf Phone: +49-(0)441-798-2543 Fax:+49-(0)441-798-3201Files: ebs.shell.structure.pdf Date: 1975}

SOIF: Example

Page 13: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

13

Harvest-Sources:

ftp://ftp.tardis.ed.ac.uk/pub/harvest/develop/snapshots/

More infos:

http://www.dissonline.org/harvest.html

Harvest Links

Page 14: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

14

Port-Nummern• Harvest 8500

• Webserver http 80

• ftp 21 tcp

• telnet 23

• smtp (email) 25

• pop3 110

• time-server 123

Page 15: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

15

Warum Harvest?

• dezentrales System

• heterogene Einträge

• plattformunabhängig

• Software public domain (-> Kostenersparnis)

• open sourcecode ( -> offene Schnittstellen)

Page 16: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

16

Harvest Anleitung• indexierbare Formate

• Softwarelink

• Handbuch

• Installationshilfe

• Fehlerquellen

http://www.dissonline.org/harvest.html

Page 17: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

17

Requirements for Harvest-Servers

Hardware:• fast processor (e.g. Sparc5...)• fast I/O• much MEMORY ( > 64 MB)• 1-2 GB free disk-space (sources take approx 25 MB)

Page 18: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

18

Requirements for Harvest-Servers

Platforms:• DEC OSF/1 2.0 or newer• SunOS 4.1.x or newer• SunSolaris 2.3 or newer• HPUX• AIX 3.x or newer• Linux all Kernel from 1999 on...• ... beginning with Version 1.5 Harvest should run under all Unix-Platforms, but WindowsNT

Page 19: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

19

Requirements for Harvest-Servers

Software:• Perl v4.0 or higher (v5.0 preferred)• gzip• tar• HTTP-Server (may be on remote machine)• GNU gcc v2.5.8 or higher• flex v2.4.7• bison v1.22

Page 20: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

20

Installationrlogin

Password:

cp harvest-1.5.20.tar.gz

gunzip harvest-1.5.20.tar.gz

tar -xf harvest-1.5.20.tar

cd harvest-1.5.20

login on remote machine

type in and forget...

copy source...

uncompress sources

unpack sources

change into sources dir

Page 21: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

21

Installation

RunHarvest

•Tuning:• Gatherer

• Editing the Gatherername.cf• Editing the RunGatherer and RunGatherd

• Broker• Editing the admin/Collection.conf• Editing the CGI-Files

Page 22: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

22

Fehlermeldungen / -quellen

Broker findet nichts

-> Glimpse-Server läuft nicht

Gatherer tut nicht

-> port-Nummer belegt

Page 23: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

23

Laufzeit und DatenmengenDFN-Netz 3 Doks pro Minute

Ladezeit vgl. Browser

indizieren [ms]

Speicherplatz 9 MB

PhysDis (Jan.‘00) 306 ‚echte‘ links

1475 Dokumente

112 Server

Gatherer 2h 4min

Page 24: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

24

Page 25: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

25

Suchergebnisse

Möglichkeiten

- Trefferlisten

- Link zum Index-file

- Link zum Volltext

(- Link zum Worttreffer im Text)

Page 26: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

26

mit Metadaten

Page 27: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

27

Zusammenfassung

geplante Suchdienststruktur

bundesweit / weltweit

Dissertation auf verschiedenen Servern

Suchdienste (Prototyp)

Harvest

technische Details

Installationshilfen

Page 28: Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000.

Kerstin Zimmermann, Universität Oldenburg

28

Diskussionspunkte• Suchtiefe

• Volltext gegenüber Metadaten und Abstrakt

• Integration alter Archive

• Zugriff

Anregungen, Kommentare

-> [email protected]