Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010...

25
Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin

Transcript of Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010...

Page 1: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Eine Biografie aus ADB/NDB als XMLDatenbanken vs. MarkupProf Dr. Manfred ThallerWS 2009 / 2010

Referent: Bilal Erkin

Page 2: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

XML – (eXtensible Markup Language)•Auszeichnungssprache zur Darstellung hierarchisch

strukturierter Daten

•Namen der Elemente und Attribute sind frei wählbar

•Dateistruktur durch DTD oder XML Schema definierbar

•Heute: Metasprache in Text (TEI, XHTML), Grafik (SVG, X3D), Geodaten, Video (SMIL), Webservices (SOAP, WSDL), Datenbanken (Xquery) …

2

Page 3: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Vorteile von XML•Für Mensch und Maschine verständliche

Informationen (semantic Web)

•Lizenzfreiheit

•Plattformunabhängigkeit

•Medienneutralität▫Einsatz in verschiedenen Systemen▫Konvertierung in andere Dateiformate

3

Page 4: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Quelle für die Auszeichnung•Biografie aus ADB / NDB am

Beispiel von „Curt Goetz“

•Grafik

•Ohne OCR (Texterkennung)▫Deshalb nicht durchsuchbar

•Große Dateigröße

4

Page 5: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Ziel der Auszeichnung in XML• Druchsuchbarer Text (geringe Dateigröße und

suchmaschinenkonform)

• Verlinkungen innerhalb des Textes für schnelle Navigation

• (Evtl. Kopplung an die Originalgrafik bei älteren Texten)

• Schnelle Konvertierung in andere Formate (PDF, Datenbanken, CD-ROM)

• Semantische Struktur

• Für jede Personenbiografie eine Datei

5

Page 6: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Das wichtigste Element: <person>•Element <person> ist das Kernstück einer

Biografie

•Alle vorkommenden Personen werden damit ausgezeichnet und bekommen eine eindeutige ID

•Berufe und Personenbeschreibungen werden an die ID gekoppelt.

•Für die inter-biografische Verbindung wichtig!

6

Page 7: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Beispiel des Elements <person>• <person geschlecht="männlich„ id="Goetz_Curt_1">

• Attribute

▫ geschlecht = (männlich | weiblich)

▫ ID besteht aus Nachname_Vorname_Zahl Die Zahl in der ID soll verschiede Personen mit gleichem Vor- und

Nachnamen unterscheiden

• Dateinamen sind identisch mit Person ID (Goetz_Curt_1.xml)

7

Page 8: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Analyse der Kurzinfo•Name, Vorname•Beruf•Geburtsdatum / -ort; Sterbadatum / -ort•Konfession

•Orthographisch:▫Hervorhebungen (fett bei „Goetz“; kursiv bei „Curt“)▫Entities (Stern, Kreuz )

8

Page 9: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Auszeichnung der Kurzinfo

•Name wird hervorgehoben•Entities werden eingefügt (&#8224; für Kreuz)•Beruf wird an person gekoppelt durch person_ref•Beruf bekommt eine Kategorie

9

Page 10: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Absätze im Original•Absätze werden durch

<absatz>...</absatz> gekennzeichnet

10

Page 11: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Analyse der Familie•Vater•Mutter•Ehepartner(in)•Kinder

• Ineinander verschachtelte Personenbeschreibungen (teilweise sehr komplex)

•Symbole, für die es keine Entities gibt (Eheringe)

11

Page 12: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Auszeichnung des Vaters• Abschnitt innerhalb <familie>

• Personen bekommen ID

• Nähere Beschreibungen in <beschreibung> mit Referenz an die Person ID durch Attribut person_ref

12

Page 13: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Auszeichnung der Mutter• Komplexe Verschachtelung

• Struktur Nur noch im Strukturbaum ersichtlich

13

Page 14: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Auszeichnung des Ehepartners• Eheringe als Bilddatei!

• Mehrere <ehepartner> möglich

• <scheidung> kann eingefügt werden (bei Goetz nicht nötig)

• Kinder als <kind_der_ehe vater_id=„xy“ mutter_id=„xy“>

14

Page 15: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Analyse der „eigentlichen“ Biografie•Durchgehender Text

•Weitere Personen kommen vor

• In anderen Biografien: Studium, Institut und Studienjahre

•Mehrere Absätze

15

Page 16: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Auszeichnung der „eigentlichen“ Biografie•Wird von <biographie>

umschlossen

• Personen werden ausgezeichnet mittels ID

16

Page 17: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Analyse der Werke•Kategorie (Werkstyp)•Titel•Erscheinungsjahr•Sonstige Bemerkungen

17

Page 18: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Auszeichnung der Werke• <werk> bekommt Attrribute

typ und jahr• Titel in <werk_name>• Sonstiges innerhalb <werk>

18

Page 19: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Seitenumbrüche im Original•Seitenumbrüche werden in der XML

repräsentiert durch<seite umbruch="588|589"/>

•Übergang von einer Seite zur anderen durch |

•Auch Seitenzahlen nach anderem Format möglich(XV|XVI; 10a|10b; 45.1|45.2 …)

Vorteil: PDF wird 1:1 repräsentiert

19

Page 20: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Analyse des Literaturnachweises•Autor•Titel•Erscheinungsjahr•Verlag oder Seitennummer

•Literaturnachweise getrennt durch Semikolon

•Querverweise zu anderen Personen (Wilhelm Rocco)

20

Page 21: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Auszeichnung des LiteraturnachweisesEinzelne Einträge in <lit-eintrag>

• Sinvoll in autor, titel, jahr usw. zu trennen?

•Kopplung der Einträge an ID (wegen W. Rocco) ?

21

Page 22: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Analyse des Fundstelle•Werk•Autor•Seitenzahlen•Bandnummer

•Mehrere Funstellen möglich

•Unterscheidung zwischen Haupteintrag und Nebeneintrag

22

Page 23: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Auszeichnung der Fundstelle•Am Anfang der Datei in <meta>

• <fundstelle> hat alle Angaben als Attribute und als Text

•Autor separat in <autor> getaggt mit persönlicher ID

23

Page 24: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Standartisierung der Struktur•Für eine einheitliche Struktur für alle Einträge in

der ADB / NDB:

▫Mehrere verschiedene Strukturtypen taggen

▫Eine DTD oder ein XML-Schema definieren

•Dokumentation der DTD▫Welche Elemente können in welchen enthalten

sein?

24

Page 25: Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

25