Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer...

of 32 /32
S. Haaf: Homogene Aufbereitung Historischer Zeitungen Homogene Aufbereitung Historischer Zeitungen: Richtlinien und Workflows des Deutschen Textarchivs Susanne Haaf Deutsches Textarchiv, BBAW Berlin Matthias Boenig, Alexander Geyken, Susanne Haaf, Bryan Jurish, Christian Thomas, Frank Wiegand, Kay-Michael Würzner

Embed Size (px)

Transcript of Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer...

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    Homogene Aufbereitung Historischer Zeitungen:

    Richtlinien und Workflows des Deutschen Textarchivs

    Susanne Haaf

    Deutsches Textarchiv, BBAW – Berlin

    Matthias Boenig, Alexander Geyken, Susanne Haaf, Bryan Jurish, Christian Thomas,

    Frank Wiegand, Kay-Michael Würzner

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    Inhalt

    1. Über das Projekt „Deutsches Textarchiv‟

    2. Problem Statement

    3. Projekte und Workflows

    4. Resultierende DTABf-Anpassungen für Zeitungen

    5. Nutzung der Daten

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    Das Deutsche Textarchiv

    2007-2014

    http://www.deutschestextarchiv.de

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    Das Deutsche Textarchiv

    • Grundlage für ein Referenzkorpus zur Entwicklung der neuhochdeutschen Sprache (ca. 1600–1900)

    • rd. 1500 Texte unterschiedlicher Disziplinen und Textsorten in Text und Bild, hohe Textgenauigkeit (Double Keying)

    • Automatisierte linguistische Analyse (Lemmatisierung, Tokenisierung, POS-Tagging, Orthographische Normierung)

    • Richtlinien für die quellennahe Transkription

    • Strukturelle XML-Annotation nach TEI/P5

    • Richtlinien und Vorverarbeitung der Bilder

    • Web-basierte Qualitätssicherung

    • Integration historischer Textdaten aus anderen Projektkontexten (z.B. Historische Zeitungen)

    • Kuration und Zusammenführung verstreuter Textressourcen

    • Grundlage: DTA-Infrastruktur zur Nachnutzung

    • Dabei Anpassung des DTA-Workflows entsprechend den speziellen Projektanforderungen

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    Text-Bild-Ansicht im DTA

    http://www.deutschestextarchiv.de/anonym_aviso_1609/7

    http://www.deutschestextarchiv.de/book/view/anonym_aviso_1609?p=7

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    Textstrukturierung nach DTA-Basisformat

    http://www.deutschestextarchiv.de/anonym_aviso_1609/7

    http://www.deutschestextarchiv.de/book/view/anonym_aviso_1609?p=7

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    DTA ›Basisformat‹

    • TEI-P5 Format für die semantische und typographische Auszeichnung historischer gedruckter Texte

    • Elemente für die Textstrukturierung Teilmenge der TEI; festgelegtes Vokabular von Attributen und Werten

    • Elemente für die Metadatenstrukturierung

    • Ziel:

    – Gute Abdeckung der behandelbaren Phänomene

    – Keine Ambiguitäten für die Textauszeichnung

    – Vollständige TEI-Konformität

    • Kontinuierliche Anpassung an neue Phänomene

    • Spezielle Richtlinien für besondere Textsorten (z.B. Funeralschriften, Zeitungen)

    • DTA ist Mitglied des TEI Simple Advisory Boards

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    Qualitätssicherung im DTA

    http://www.deutschestextarchiv.de/dtaq/book/view/30366?p=7

    http://www.deutschestextarchiv.de/book/view/anonym_aviso_1609?p=7

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    Qualitätssicherung im DTA

    Texte aus dem Modul DTA-

    Erweiterungen

    Texte des DTA-Kernkorpus

    DTAQ

    DTA Zoning; Richtlinien

    Double Keying

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    DTA Zahlen

    DTA Webseite (www.deutschestextarchiv.de)

    1 552 Werke frei verfügbar (CC BY-NC)

    461 053 Digitalisierte Seiten

    ~ 110 M Tokens

    DTA Korpora insgesamt :

    ~2 400 Werke

    ~ 200 M Tokens

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    Problem Statement

    Wissenschaft: 628

    November 2014: 1552 Werke verfügbar über die DTA-Webseite

    Handbücher über: Gutes Benehmen Pädagogik Gartenbau …

    Kochbücher Gelegenheitsliteratur

    Funeralschriften

    Reisebeschreibungen …

    Zeitungen

    Belletristik: 507

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    Historische Zeitungen für das DTA: Laufende Projekte

    1. Mannheimer Korpus historischer Zeitungen (18.–20. Jh.)

    2. Neue Rheinische Zeitung (1848/49)

    3. Hamburgischer Correspondent (1712–1851)

    4. Die Grenzboten (1841–1922)

    • Verschiedene DTAE-Workflows

    • Anpassungen des DTA-Basisformats

    Ziel: DTA-konforme Homogenisierung der Daten, um Interoperabilität innerhalb des DTA-Korpus zu erzielen

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    1. Mannheimer Korpus Historischer Zeitungen und Zeitschriften (MKHZ)

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    Mannheimer Korpus Historischer Zeitungen und Zeitschriften • 652 vollständige Ausgaben • aus 21 verschiedenen Zeitungen und Zeitschriften

    • des 18. bis 20. Jahrhunderts

    MKHZ: Workflow

    Manuelle Transkription in

    TUSTEP

    Automatische Konvertierung in

    das DTABf

    IDS Microfiches

    Start DTA-Workflow

    DTABf-Strukturierung: manuelle Korrektur; weitere strukturelle

    Auszeichnung

    Automatische linguistische Annotation

    Integration in das

    DTA-Korpus

    DTABf-konformer

    Text

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    MKHZ: Nachbearbeitung im DTA

    Strukturierung der Titelei

    Strukturierung und

    Klassifizierung der Artikel

    Korrektur fehlerhafter Strukturen

  • MKHZ: Vervollständigung der Metadaten

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    MKHZ: Integration in das DTA

    Der allerneuesten Europäischen Welt- und Staats-Geschichte II. Theil. No. LVIII, 30. Woche, Erfurt (Thüringen), 24. Juli 1744. http://www.deutschestextarchiv.de/dtaq/book/show/30555

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    2. Neue Rheinische Zeitung (NRhZ)

    • 301 Ausgaben (1718 Seiten)

    • 1. Juni 1848 - 19. Mai 1849

    • Vollständig digitalisiert im Rahmen des Editions-vorhabens Marx-Engels-Gesamtausgabe an der BBAW

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    NRhZ: Workflow

    Manuelle Transkription in

    TUSTEP

    Double Keying und reduziertes

    XML-Markup

    MEGA-Workflow

    Start DTA-Workflow

    Strukturierung: manuelle Korrektur; weitere strukturelle

    Annotation

    Faksimile-Edition

    Automatische Konvertierung in das DTABf

    Abbildungen der Quelle

    Automatische linguistische Annotation

    Integration in das

    DTA-Korpus

    DTABf- konformer

    Text

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    NRhZ: Nachbereitung im DTA

  • NRhZ: Nachbereitung im DTA

    […]

    […]

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    NRhZ: Nachbereitung im DTA

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    3. Hamburgischer Correspondent

    • Staats und Gelehrte Zeitung des Hamburgischen unpartheyischen Correspondenten und deren Vorgänger

    • Digitalisierung von 320 ausgewählten Ausgaben

    • 1712–1851

    • Projekt an der Universität Paderborn (Prof. Dr. Britt-Marie Schuster), DTA ist Partner

    • von Beginn an DTA-Workflow

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    Hamburgischer Correspondent: Workflow

    "Zoning" der Faksimiles

    Double Keying

    DTA -Workflow

    Bilddigi-talisate der

    Quelle

    Automatische linguistische Annotation

    Integration in das

    DTA-Korpus

    DTABf- konformer

    Text

    Automatische Konvertierung in das DTABf

    Text mit reduziertem XML-Markup

    Nachnutzung des Workflows für den Aufbau des DTA-Kernkorpus DTA-Qualitätssicherung von Beginn an

    Strukturierung: manuelle Korrektur; weitere strukturelle

    Annotation

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    Hamburgischer Correspondent: Qualität der Bildvorlagen

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    4. Die Grenzboten

    • Erschienen zwischen 1841 und 1922; Wochenzeitschrift

    • Gesamtumfang: 270 Bände, 180 000 Seiten

    • Vollständig digitalisiert von der Staats- und Universitätsbibliothek Bremen OCR

    • DFG-Projekt (SUUB, DTA) zur automatischen Korrektur und Strukturierung des OCR Output

    • Ansprechpartner DTA: Kay-Michael Würzner, Christian Thomas

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    Die Grenzboten: Semi-Automatische DTABf-Strukturierung

    http://www.deutschestextarchiv.de/dtaq/book/show/grenzboten_179382_282158

  • www.deutschestextarchiv.de/doku/basisformat_zeitungen

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    DTABf-Lösungen für die Artikelstrukturierung

    DTABf für Zeitungen (zusätzliche @type-Werte):

    • jArticle

    • jPoliticalNews

    • jFinancialNews

    • jFeuilleton

    • jAnnouncements

    • jEditorialStaff

    • jExpedition

    DTABf "Kern":

    • poem

    • act

    • scene

    • letter

    • advertisement

    • preface

    • contents

    • index

    • …

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    Zugänglichkeit der Daten über das DTA

    • Bereitstellung unter freien Lizenzen

    (CC by-XXX)

    • Text-Bild-Ansicht in DTAQ und

    (nach Qualitätssicherung) auf

    der DTA-Webseite

    • Download in unterschiedlichen Formaten

    (TEI-XML, HTML, ePub, TCF, CMDI, …)

    • OAI-PMH und Fedora Repository

    Integration in die CLARIN-D-Infrastruktur

  • Beispiel Korpusanfrage in Zeitungen

    "@die *e with $p=ADJA *en with $p=NN" #has[textClassDWDS, 'Gebrauchsliteratur::Zeitung'] #has[corpus,/ready/] #random

  • S. Haaf: Homogene Aufbereitung Historischer Zeitungen

    Kontakt:

    [email protected]

    Zugang zu den DTA-Korpora:

    www.deutschestextarchiv.de

    Jeder kann mitmachen!:

    www.deutschestextarchiv.de/dtaq

    www.deutschestextarchiv.de/dtae

    Literatur:

    www.deutschestextarchiv.de/doku/publikationen