Datenformate und Standards

download Datenformate und Standards

If you can't read please download the document

description

Grundlegendes zu Datenformaten und ihrer Standardisierung mit Schwerpunkt auf Microformats. Es werden keine konkreten Formate forgestellt, sondern allgemeine Prinzipien und Kodierungen (XML, JSON etc.)

Transcript of Datenformate und Standards

  • 1. Digitale Bibliothek Jakob Voss Datenformateund Standards Digitale Bibliothek WS 2007/2008 Fachhochschule Hannover Informationsmanagement (BA) 5. November 2007

2. Datenformate

  • Abstraktes Datenmodell
  • Konkrete Syntax oder Kodierung
  • Verwendung eines Kodierungsverfahrens
  • Beispiel: Namensliste an der Tafel ...

3. Datenformate

  • Ein Datenformat definiert eine Struktur und legt darin Mglichkeiten fr Inhalte fest
  • Relevant: Syntax
  • Irrelevant: Semantik und Pragmatik
  • Letztendlich sind alles nur Daten
  • Aber: Ein Format lebt von seiner Benutzung

4. Einheitlichkeit und Validierung

  • Was nicht festgelegt ist, wird verschieden gehandhabt
  • Was nicht berprft werden kann, wird miachtet oder ignoriert
  • Was keine Auswirkungen hat ist irrelevant

5. Bibliothekarische Datenformate

  • Bernhard Eversberg(1989, 1994, 1999) : Was sind und was sollen Bibliothekarische Datenformate?http://www.allegro-c.de/formate/
  • MARC, MAB, PICA, Allegro ...
    • Insellsungen (eigener Zeichensatz, eigene Werkzeuge, eigene Sonderwege...)
  • Heute : Unicode, XML, RDF, HTML ...
    • Rein bibliothekarische Datenformate machen keinen Sinn mehr

6. Wie sind Datenformate?

  • Unterscheidung notwendig
    • Abstrakte Strukturierung
    • Konkrete Kodierung
  • Definiert durch Standards
    • Leider oft Ausnahmen und Sonderwege
  • Datenformate basieren aufeinander!

7. Beispiel: Stammbaum-Format

  • Abstrakt
    • Personen und Rollen: Vater, Mutter, Kind
    • Relation: Nachkomme (Vater, Mutter, Kind)

8. Beispiel: Stammbaum-Format

  • Abstrakt
    • Personen und Rollen: Elter, Elter, Kind
    • Relation: Nachkomme (Elter, Elter, Kind)

9. Visuelles Format 10. Prolog-Format

  • kind( helios, klymene, aigle ) .
  • kind( helios, klymene, phaetusa ) .
  • kind( helios, klymene, lampetia ) .
  • kind( helios, klymene, phaeton ) .
  • geschwister( X, Y ) :- kind( A, B, X ), kind( A, B, Y ) .

11. GEDCOM-Format

  • 0 @I1@ INDI
  • 1 NAME Helios
  • 1 FAMS @F1@
  • 0 @I2@ INDI
  • 1 NAME Klymene
  • 1 FAMS @F1@
  • 0 @F1@ FAM
  • 1 CHIL @I3@
  • 1 CHIL @I4@
  • 1 CHIL @I5@
  • 1 CHIL @I6@
  • 0 @I3@ INDI
  • 1 NAME Aigle
  • 1 FAMC @F1@
  • 0 @I4@ INDI
  • 1 NAME Phaetusa
  • 1 FAMC @F1@
  • 0 @I5@ INDI
  • 1 NAME Lampetia
  • 1 FAMC @F1@
  • 0 @I6@ INDI
  • 1 NAME Phaeto
  • 1 FAMC @F1@
  • GEnealogical Data COMmunication Format (entwickelt um die Toten zu Taufen ;-)

12. GEDCOM-XML-Format

  • Helios
  • ...
  • ...

13. Was sagt uns das?

  • Es gibt viele Wege, die gleiche Information zu kodieren
  • Unterschiedliche Formate und Kodierungen haben unterschiedliche Eigenheiten
  • Einigung, Konvertierung oder Sprachverwirrung

14. Konkrete Kodierungsformen

  • Feldbasierte Formate
  • Datenbank-Format (SQL)
  • XML
  • JSON
  • Microformats
  • RDF (Semantic Web)

15. Feldbasierte Formate

  • Einfach
    • Titel : Zettelwirtschaft
    • Autor : Krajewski, Markus
  • Pica+
    • 021A :
      • a : Zettelwirtschaft
    • 028A :
      • d : Markus
      • a : Krajeski

16. Extensible Markup Language

  • Auszeichnung mittels Tags
    • Einleitung berschrift>
    • =
    • ...
  • Hierarchische Struktur (XML-Baum)
  • Character Entities
    • & &""''
    • XX; DDD;

17. JavaScriptObjectNotation (JSON)

  • [
  • {
  • "name": "Fritzchen",
  • "alter" : 4
  • },
  • {
  • "name": "Fritz",
  • "alter" : 24
  • }
  • ]

18. Mikroformate

  • Formate zur semantischen Auszeichnung in HTML
  • Ergnzung von (X)HTML durch vereinbarte class ,relundrev -Attribute
  • Allgemeine Kodierungsmethode mit vielen konkreten Einzelformaten
  • Community-Initiative unter microformats.org
  • Akademische Alternative : RDFa

19. Beispiel: hCalendar

  • Weihnachtsfeier
  • Am 19.12.
  • findet im Neubau
  • wieder unsere alljhrliche Weihnachtsfeier statt.
  • Bitte tragt euch ein auf der
  • Infoseite!

20. Beispiel: hCalendar

    • Weihnachtsfeier
    • Am 19.12.
    • findet im Neubau
    • wieder unsere alljhrliche Weihnachtsfeier statt.
    • Bitte tragt euch ein auf der
    • Infoseite!

21. Beispiel: hCalendar

    • Weihnachtsfeier
    • Am 19.12.
    • findet im Neubau
    • wieder unsere alljhrliche Weihnachtsfeier statt.
    • Bitte tragt euch ein auf der
    • Infoseite!

summary : Weihnachtsfeier dstart : 2007-12-19 url : http://company.de/xmas/location : Neubau Datensatz 22. Konkrete Microformats

  • Beispiele
    • Veranstaltungen (hCalender)
    • Kontakte (hCard)
    • Bewertungen (hReview)
    • ...
  • Teilweise angelehnt an andere Standards (hCalendar/iCalender,hCard/vCard...)
  • Teilweise aufeinander aufbauend
  • Einbettung in XHTML, ATOM, RSS...

23. Einfaches Kopieren von Datenstzen

  • Firefox Operator-Plugin

Auf der Web 2.0 Expo in Berlin (vom 5. bis zum 8. November) von http://notizblog.org/ 24. Direkt in Firefox 3 und IE8 (?) 25. Brauchen wir noch Dateien?

  • Datenformate und Dateiformate
  • Containerformate, eingebettete Metadaten
  • Vom Hierarchischen Dateisystemzum Datenbank-Dateisystem
    • Desktopsuche
    • Assoziative Sichten
    • Drilldown

26. Standard-Mashups

  • Standards basieren auf anderen Standards
    • XML (W3C) basiert u.A. auf URI (RFC 2396), UTF-8 (RFC 2279), Sprachcodes (RFC 1766) basierend auf ISO 693 und ISO 3166 ...
    • OpenDocument basiert auf XML, ZIP, etc.
  • Deshalb: Alles mussgenaudefiniert sein!
  • Vorteil wie bei Mashups im Allgemeinen
    • Rad nicht dauernd neu erfinden
    • Nachnutzung bestehender Infrastruktur

27. Zeichen(de)kodierung

  • Werden Daten in eine Struktur eingebettet, mssen in der Regel einige Sonderzeichen speziell kodiert werden
    • XML :& < ...& < < ...;
    • URL :# + ... %23 %2B ...
  • Mehrfachkodierung ber mehrere Schichten
  • Achtung : wenn die Kodierung und Ebenen unbekannt sind, kommt Zeichensalat heraus:
    • & & & ...

28. Beispiel: OpenURL und COinS

  • OpenURL basiert auf URL
  • COinS basiert auf OpenURL(http://ocoins.info/)
  • Abstraktes Modell (siehe COinS generator)
  • Konkrete Kodierung: URL-Parameter-Kodierung + XML-Kodierung

29. Standards

  • Was ist ein Standard?
  • Was bewirken Standards?
  • Wie entstehen Standards?
  • Welche Standards gibt es?

30. z.B. DEHOMAG-Lochkarten Bild: www.jewishvirtuallibrary.org 31. Arten von Standards

  • Norm
  • Industriestandard
  • De-Facto-Standard
  • Offener Standard

32. Arten von Standards

  • Internetstandards
    • Request For Comments (RFC) der IETF
    • Recommendationsdes W3C
  • Bibliothekarische Standards
    • MARC, MAB, Z39.50, SRU, FRBR ...

33. Normierungsorganisationen

  • Nationale Normen
    • DIN, BSI, ANSI...
  • Europische Normen (EN) seit 1961
    • CEN, CENELEC, ETSI
  • ISO seit 1947/1926 (Vorlufer ISI)
    • Noch frher: MKS-System (1889)
  • Konsens-Prinzip aller Beteiligten

34. Beispiel: DIN 1

  • Deutsche Institut fr Normung e. V.
  • 1918: Erste Norm (DIN 1): EN 22339 / ISO 2339 Kegelstifte fr MG 08

35. Vor- und Nachteile von Normen

  • Vorteile
    • Qualitt
    • Sicherheit
  • Nachteile
    • Langwieriges Verfahren
    • Kosten
  • Alternative
    • Besttigung existierender Verfahren, zum Beispiel OpenDocument (ISO/IEC 26300)

36. Standards in Bibliotheken

  • Melvil Dewey (1851-1931)
    • DDC
    • Karteikarten
    • ALA
    • u.v.a.m
  • Markus Krajewski: Zettelwirtschaft : Die Geburt der Kartei aus dem Geiste der Bibliothek. Kulturverlag Kadmos, 2002

37. Schmutzige Tricks

  • Standards zur Durchsetzung von Marktinteressen
    • Microsoft OpenXML-Format
    • Google OpenSocial API
  • Monopole, Marktbehinderung, Startvorteile...
  • Nicht
    • offen diskutiert
    • frei einsehbar
    • nicht frei nutzbar

38. Schmutzige Tricks

  • Erkennungszeichen
    • Patente und andere rechtliche Einschrnkungen
    • Statt auf Etabliertes aufzubauen wird das Rad neu erfunden
      • Andere Erklrung: Ignoranz oder Inkompetenz (trifft eher auf den Bibliotheksbereich zu)
  • Alternative
    • Freie Standards und Implementierungen (sic!)

39. Offene Standards

  • Offene Organisationen (RFC , W3C)
  • Anschlieende Offenlegung(z.B. SRU/SRW)
  • Community-basiert (Microformats)
  • Offene Standards => Freie Mrkte

40. Bewertung

  • Standards sind gemeinsameVereinbarungen zur Kommunikation
  • Standards sind nur so gut wie die Verwendung
  • Standards mssen offen und nutzbar sein
  • Standards mssen berprfbar sein
  • Keep it simple and provide tools!
  • Es ist notwendig genau hinschauen, was genau ein Standard vorschreibt und wo genau er eingesetzt wird