Dokumenten- und Publikationsserver der Humboldt-Universität zu Berlin Modulare Verwaltung...

Post on 05-Apr-2015

104 views 0 download

Transcript of Dokumenten- und Publikationsserver der Humboldt-Universität zu Berlin Modulare Verwaltung...

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserver

der Humboldt Universität

Jakob Voß(6.2.2003)

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Übersicht

1. Historie

2. Archivierung mit SGML/XML an der HU Berlin

3. Dokumentenorientierte XML-Formate

4. Aufbau und Verwaltung der DiML-DTD

5. Zusammenfassung und Ausblick

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Historie 1

1987 — erste Dissertations DTD (ETD) von Juri Rubinski

1997 — Überarbeitung zur Version 1.1 von Neil Kipp

Ab September 1997 Projekte an der Humboldt Universität– Anpassung der ETD als DiML zur SGML-Archivierung– Promovendenbefragung– Dokumentenvorlage für Word– Konvertierung mit SGML Author for Word

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Historie 2

April 1998 — Änderung der Promotionsordnung– Autorenschulungen zur Dokumentenvorlage– Beitritt der NDLTD (als erste dt. Universität)– Veranstaltung eines DTD-Workshops (Mai 1999)– DFG-Projekt Dissertationen Online– Unterstützung weiterer Publikationsverfahren in der

Universität (Öffentliche Vorlesungen, Zeitschriften)– Knapp 250 Dokumente in SGML + 150 in Bearbeitung

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Warum SGML/XML als Archivformat?

– Internationale Normierung durch ISO8879– Plattformunabhängig lesbar– Langzeitarchivierung (> 10 Jahre)– Medienneutrale Präsentation durch Transformation– Strukturierte Recherche und Weiterverarbeitung

durch Informationsextraktion

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Arbeitsablauf

– Publikationsvorhaben des Autors– Dokumentenvorlage, Schulung und Hilfe– Korrektur und endgültige Abgabe– Aufnahme von Metadaten und PDF– Konvertierung nach SGML/XML– Archivierung– Weiterverarbeitung (HTML, Recherche, PoD...)

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Workflow (technisch)

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Grundstruktur eines (DiML)-Dokumentes

<etd>

<front>..title...author...abstract...</front>

<body>

<chapter>

<section>

...

</body>

<back>..bibliography...appendix...vita...</back>

</etd>

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Dokumentenorientierte XML-Formate

XHTML Hypertexte

DocBook Technische Dokumentation

TEI Retrodigitalisierung, Textanalyse

OpenOffice Office-Dokumente

ISO 12083 (AAP/EPSIG), NITF, OeB...

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

KooperationPartner HU

BerlinVirginia Tech

Univ. of Iowa

Univ. of Montreal/Lyon

Tech. Univ. Helsinki

Univ. of Michigan

Univ. Oslo

DTD DiML ETD TDM TEI-Light HutPubl TEI-Light

ISO-Book

Konv.nach SGML/XML

SGML-Author for Word

SGML-Author

Majix Omnimark rtf2sgml

Frame-Maker+ SGML

Omni-mark rtf2sgml

Balise

SGMLnach HTML, PDF

Perl-script, DSSSL

Perl-script

CSS XSL DSSSL, Frame-Maker

- -

Siehe http://edoc.hu-berlin.de/epdiss/dtd-workshop

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Anforderungen an ein Dokumentenformat

• Verschiedene Arten von Dokumenten• Spezielle Anforderungen (MathML, SVG, RDF...)

-> modularisiert

• einfach benutzbar

• dokumentiert und wartbar

-> DTD

-> Erzeugung von Dokumentation und DTDaus einer Quelle

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Modularisierung

Basis-DTD

CALS(Tabellen)

Medien

MathML

Geisteswiss.

CML

Weitere

Basis-DTD– Front, Body, Back– Titelblatt– BibliographieMedien– SVG, SMIL, weitere– BitmapformateGeisteswiss.– Gedichte, RezensionWeitere– Offene definierte Schnittstelle

z.B. TEI-Module, Dublin Core

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Möglichkeiten der Verwaltung

• DDML (1/1999) ist nie über eine W3C Notehinaus und unterstützt keine Modularisierung

• XML Schema ist zu komplex (DTD-Generierung!)• Entity-Konstrukte sind schlecht wartbar und beschränkt

<!ENTITY % elements-1 "foo | bar"><!ENTITY % elements-2 "baz | foo"><!ENTITY % elements-3 ""><!ELEMENT doz (%elements-1; | %elements-2; | %elements-3;)*>

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Architektur

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Inhalte der DTDBase

– Elemente (und Enumerations, Notations)– Gruppen– Module– Externe DTDs– Beschreibung– Beispiele

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Module

text br, em, strong, sup, sub, u, tt, precommon p, head, caption, url, name, foreign…structure chapter, section, subsection…citation Zitate und Literaturangabendocuments Seitenzahlen, Fußnoten…diml front, body, back, abstract…

lists (Listen), CALStable (Tabellen), media (Grafik)mathematics (MathML), verse (Gedichte)

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Gruppen

Klassen gleichartiger Elemente

Beispiel: Gruppe inlineforeign, url... [module common]

footnote, citation [module citation]

imath [module mathematics]

Benutzung der Gruppe in anderen Elementenp := (#PCDATA | %inline.group; | ...)*

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Beispiel: Modul lists

ul,ol := (caption?, li+)(block.group)

dl := (caption?, def+) " "

def := ((term | foreign) , (dd | term)+)dd,li := (%paragraph.group;)

Elemente: ol, ul, dl, def, dd, liGruppen: blockBenötigte Elemente: captionBenötigte Gruppen: paragraph

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Abhängigkeiten zwischen Module

Aufgrund benötigter Elemente und Gruppen

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Auswahl von Module

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Elementdefinition

<element name="imath"> <refpurpose lang="en">... <refdescription lang="en">... <refpurpose lang="de">... <refdescription lang="de">... <group>inline</group> <contentspec type="children"> ... </contentspec> <attribute name="label" type="CDATA"/></element>

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Content Specification

DTDSys-Syntax in XML DTD-Syntax

<contentspec type="mixed">

<contentspec type="children">

<contentspec type="EMPTY">

<!ELEMENT x (#PCDATA | ...)>

<!ELEMENT x (...)>

<!ELEMENT x EMPTY>

<dtd-sequence>

<dtd-choice>

( ... , ... , ... )

( ... | ... | ... )

<dtd-element name= "foo">

<dtd-inclusion name="bar">

foo

%bar.group;

<... occurence="any|more|optional">

* | + | ?

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Enumerations, Notations

Wie bei Elementen in Gruppen

Notation plaintext gehört zu Gruppe altFormat

Element alt, attribut notation = Gruppe altFormat

<alt notation="plaintext">Ein Foto</alt>

Modul mathematics: TeX, LaTeX

<alt notation="TeX">e=mc^2</alt>

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Externe DTDsEinbindung fremder Formate (MathML, SVG, CML…) durch Zuweisung eines festen Namensraumes.

<imath> <alt notation="TeX">W^3</alt> <mathml:math> <mathml:apply> <mathml:power/> <mathml:ci>W</mathml:ci><mathml:cn>3</mathml:cn> </mathml:apply> </mathml:math></imath>

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

DiML-Styles

Erzeugung von HTML mit XSLT

Aufbau der Style-Bibliothek 1:1 wie in den Modulen

module-lists/html.xsl

module-lists/html/li.xsl

module-lists/html/dl.xsl

module-lists/html/ol.xsl

module-lists/html/ul.xsl

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Grenzen

– DTDSys geht nicht über DTD hinaus, da ja eine DTD weitergegeben werden soll (XML Schema?)

– Die Grenzen liegen letztendlich beim Autor

Noch nicht vollständig implementiert– Beispiele (mit Verknüpfung zu Definitionen)– Mehrsprachigkeit der Dokumentation– Styles und andere Werkzeuge

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Zusammenfassung

– Langzeitarchivierung und Weiterverarbeitung elek-tronischer Publikationen setzt XML o.ä. voraus

– DiML ist ein XML-basiertes Dokumentenformat für wissenschaftliche Publikationen

– Es ist einfach benutzbar (DTD) und trotzdem flexibel– Mit Konverter und Styles bildet DTDSys ein voll-

ständiges Toolkit zur XML-basierten Publikation– Der CMS kann weitere XML-basierte Publikations-

vorhaben (Konferenzbände...) einfach realisieren

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Quellen

Server http://edoc.hu-berlin.de

Die DiML-DTD http://edoc.hu-berlin.de/diml/

Zur Konvertierung http://edoc?????????

ProPrint http://edoc.hu-berlin.de/proprint/

http://db2-www.sub.uni-goettingen.de/

NDLTD http://www.ndltd.org

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Vielen Dank für Ihre Aufmerksamkeit! :-)

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Warum nicht XML Schema?

– Dokumente haben keine Datentypen– DTD wird breiter unterstützt– XML Schema ist zu komplex– Müsste sowieso angepasst werden– keep it simple, stupid!

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Word mit Formatvorlage

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Staroffice 6.0

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

XML-Output aus Staroffice 6.0

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

FrameMaker + SGML 6.0

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

XML-Output aus FrameMaker + SGML 6.0

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Dokumenten- und Publikationsserver

der Humboldt-Universität zu Berlin

Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003

AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß

Output aus Word + XMLWriter Add-IN Mediatext Jena