Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer...
Embed Size (px)
Transcript of Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer...
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
Homogene Aufbereitung Historischer Zeitungen:
Richtlinien und Workflows des Deutschen Textarchivs
Susanne Haaf
Deutsches Textarchiv, BBAW – Berlin
Matthias Boenig, Alexander Geyken, Susanne Haaf, Bryan Jurish, Christian Thomas,
Frank Wiegand, Kay-Michael Würzner
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
Inhalt
1. Über das Projekt „Deutsches Textarchiv‟
2. Problem Statement
3. Projekte und Workflows
4. Resultierende DTABf-Anpassungen für Zeitungen
5. Nutzung der Daten
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
Das Deutsche Textarchiv
2007-2014
http://www.deutschestextarchiv.de
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
Das Deutsche Textarchiv
• Grundlage für ein Referenzkorpus zur Entwicklung der neuhochdeutschen Sprache (ca. 1600–1900)
• rd. 1500 Texte unterschiedlicher Disziplinen und Textsorten in Text und Bild, hohe Textgenauigkeit (Double Keying)
• Automatisierte linguistische Analyse (Lemmatisierung, Tokenisierung, POS-Tagging, Orthographische Normierung)
• Richtlinien für die quellennahe Transkription
• Strukturelle XML-Annotation nach TEI/P5
• Richtlinien und Vorverarbeitung der Bilder
• Web-basierte Qualitätssicherung
• Integration historischer Textdaten aus anderen Projektkontexten (z.B. Historische Zeitungen)
• Kuration und Zusammenführung verstreuter Textressourcen
• Grundlage: DTA-Infrastruktur zur Nachnutzung
• Dabei Anpassung des DTA-Workflows entsprechend den speziellen Projektanforderungen
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
Text-Bild-Ansicht im DTA
http://www.deutschestextarchiv.de/anonym_aviso_1609/7
http://www.deutschestextarchiv.de/book/view/anonym_aviso_1609?p=7
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
Textstrukturierung nach DTA-Basisformat
http://www.deutschestextarchiv.de/anonym_aviso_1609/7
http://www.deutschestextarchiv.de/book/view/anonym_aviso_1609?p=7
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
DTA ›Basisformat‹
• TEI-P5 Format für die semantische und typographische Auszeichnung historischer gedruckter Texte
• Elemente für die Textstrukturierung Teilmenge der TEI; festgelegtes Vokabular von Attributen und Werten
• Elemente für die Metadatenstrukturierung
• Ziel:
– Gute Abdeckung der behandelbaren Phänomene
– Keine Ambiguitäten für die Textauszeichnung
– Vollständige TEI-Konformität
• Kontinuierliche Anpassung an neue Phänomene
• Spezielle Richtlinien für besondere Textsorten (z.B. Funeralschriften, Zeitungen)
• DTA ist Mitglied des TEI Simple Advisory Boards
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
Qualitätssicherung im DTA
http://www.deutschestextarchiv.de/dtaq/book/view/30366?p=7
http://www.deutschestextarchiv.de/book/view/anonym_aviso_1609?p=7
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
Qualitätssicherung im DTA
Texte aus dem Modul DTA-
Erweiterungen
Texte des DTA-Kernkorpus
DTAQ
DTA Zoning; Richtlinien
Double Keying
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
DTA Zahlen
DTA Webseite (www.deutschestextarchiv.de)
1 552 Werke frei verfügbar (CC BY-NC)
461 053 Digitalisierte Seiten
~ 110 M Tokens
DTA Korpora insgesamt :
~2 400 Werke
~ 200 M Tokens
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
Problem Statement
Wissenschaft: 628
November 2014: 1552 Werke verfügbar über die DTA-Webseite
Handbücher über: Gutes Benehmen Pädagogik Gartenbau …
Kochbücher Gelegenheitsliteratur
Funeralschriften
Reisebeschreibungen …
Zeitungen
Belletristik: 507
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
Historische Zeitungen für das DTA: Laufende Projekte
1. Mannheimer Korpus historischer Zeitungen (18.–20. Jh.)
2. Neue Rheinische Zeitung (1848/49)
3. Hamburgischer Correspondent (1712–1851)
4. Die Grenzboten (1841–1922)
• Verschiedene DTAE-Workflows
• Anpassungen des DTA-Basisformats
Ziel: DTA-konforme Homogenisierung der Daten, um Interoperabilität innerhalb des DTA-Korpus zu erzielen
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
1. Mannheimer Korpus Historischer Zeitungen und Zeitschriften (MKHZ)
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
Mannheimer Korpus Historischer Zeitungen und Zeitschriften • 652 vollständige Ausgaben • aus 21 verschiedenen Zeitungen und Zeitschriften
• des 18. bis 20. Jahrhunderts
MKHZ: Workflow
Manuelle Transkription in
TUSTEP
Automatische Konvertierung in
das DTABf
IDS Microfiches
Start DTA-Workflow
DTABf-Strukturierung: manuelle Korrektur; weitere strukturelle
Auszeichnung
Automatische linguistische Annotation
Integration in das
DTA-Korpus
DTABf-konformer
Text
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
MKHZ: Nachbearbeitung im DTA
Strukturierung der Titelei
Strukturierung und
Klassifizierung der Artikel
Korrektur fehlerhafter Strukturen
-
MKHZ: Vervollständigung der Metadaten
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
MKHZ: Integration in das DTA
Der allerneuesten Europäischen Welt- und Staats-Geschichte II. Theil. No. LVIII, 30. Woche, Erfurt (Thüringen), 24. Juli 1744. http://www.deutschestextarchiv.de/dtaq/book/show/30555
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
2. Neue Rheinische Zeitung (NRhZ)
• 301 Ausgaben (1718 Seiten)
• 1. Juni 1848 - 19. Mai 1849
• Vollständig digitalisiert im Rahmen des Editions-vorhabens Marx-Engels-Gesamtausgabe an der BBAW
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
NRhZ: Workflow
Manuelle Transkription in
TUSTEP
Double Keying und reduziertes
XML-Markup
MEGA-Workflow
Start DTA-Workflow
Strukturierung: manuelle Korrektur; weitere strukturelle
Annotation
Faksimile-Edition
Automatische Konvertierung in das DTABf
Abbildungen der Quelle
Automatische linguistische Annotation
Integration in das
DTA-Korpus
DTABf- konformer
Text
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
NRhZ: Nachbereitung im DTA
-
NRhZ: Nachbereitung im DTA
[…]
[…]
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
NRhZ: Nachbereitung im DTA
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
3. Hamburgischer Correspondent
• Staats und Gelehrte Zeitung des Hamburgischen unpartheyischen Correspondenten und deren Vorgänger
• Digitalisierung von 320 ausgewählten Ausgaben
• 1712–1851
• Projekt an der Universität Paderborn (Prof. Dr. Britt-Marie Schuster), DTA ist Partner
• von Beginn an DTA-Workflow
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
Hamburgischer Correspondent: Workflow
"Zoning" der Faksimiles
Double Keying
DTA -Workflow
Bilddigi-talisate der
Quelle
Automatische linguistische Annotation
Integration in das
DTA-Korpus
DTABf- konformer
Text
Automatische Konvertierung in das DTABf
Text mit reduziertem XML-Markup
Nachnutzung des Workflows für den Aufbau des DTA-Kernkorpus DTA-Qualitätssicherung von Beginn an
Strukturierung: manuelle Korrektur; weitere strukturelle
Annotation
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
Hamburgischer Correspondent: Qualität der Bildvorlagen
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
4. Die Grenzboten
• Erschienen zwischen 1841 und 1922; Wochenzeitschrift
• Gesamtumfang: 270 Bände, 180 000 Seiten
• Vollständig digitalisiert von der Staats- und Universitätsbibliothek Bremen OCR
• DFG-Projekt (SUUB, DTA) zur automatischen Korrektur und Strukturierung des OCR Output
• Ansprechpartner DTA: Kay-Michael Würzner, Christian Thomas
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
Die Grenzboten: Semi-Automatische DTABf-Strukturierung
http://www.deutschestextarchiv.de/dtaq/book/show/grenzboten_179382_282158
-
www.deutschestextarchiv.de/doku/basisformat_zeitungen
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
DTABf-Lösungen für die Artikelstrukturierung
DTABf für Zeitungen (zusätzliche @type-Werte):
• jArticle
• jPoliticalNews
• jFinancialNews
• jFeuilleton
• jAnnouncements
• jEditorialStaff
• jExpedition
DTABf "Kern":
• poem
• act
• scene
• letter
• advertisement
• preface
• contents
• index
• …
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
Zugänglichkeit der Daten über das DTA
• Bereitstellung unter freien Lizenzen
(CC by-XXX)
• Text-Bild-Ansicht in DTAQ und
(nach Qualitätssicherung) auf
der DTA-Webseite
• Download in unterschiedlichen Formaten
(TEI-XML, HTML, ePub, TCF, CMDI, …)
• OAI-PMH und Fedora Repository
Integration in die CLARIN-D-Infrastruktur
-
Beispiel Korpusanfrage in Zeitungen
"@die *e with $p=ADJA *en with $p=NN" #has[textClassDWDS, 'Gebrauchsliteratur::Zeitung'] #has[corpus,/ready/] #random
-
S. Haaf: Homogene Aufbereitung Historischer Zeitungen
Kontakt:
Zugang zu den DTA-Korpora:
www.deutschestextarchiv.de
Jeder kann mitmachen!:
www.deutschestextarchiv.de/dtaq
www.deutschestextarchiv.de/dtae
Literatur:
www.deutschestextarchiv.de/doku/publikationen