Digitalisierungspraxis - Müller - Zeitungsvolltexte
description
Transcript of Digitalisierungspraxis - Müller - Zeitungsvolltexte
Historische Zeitungen Online – Schritt für Schritt
Christa Müller
Österreichische Nationalbibliothek
ANNO – AustriaNNewspapers Online• http://anno.onb.ac.at/
• historische österreichische Zeitungen und Zeitschriften
• seit Mai 2003
• 6,5 Mio gescannte Zeitungsseiten online
• ca. 190 Zeitungs- und Zeitschriftentiteln
• frei und kostenlos
• täglich > 1500 Leser
Warum Zeitungen?
• internationale, regionale und lokale Geschichte, Politik, Kultur und Gesellschaftsfragen
• unmittelbarer Spiegel des Tagesgeschehens
• Verbesserung der Zugänglichkeit (Probleme für Leser)
• Integrierte Sammlungen
• Schonung der Originale
• Zusatznutzen
Massendigitalisierung: ANNO
• Dienstleister scannt – EU-weite Ausschreibung
• nicht vom MF, immer vom Original
• Auflicht und Durchlauf
• pro Jahr ca. 1 Mio Seiten
Besonderheiten der Zeitungen
• vertraute Textsorte
• nur sehr wenige Exemplare erhalten
• „Verbrauchsgut“
Verbesserungen für die Leser: Schritt für Schritt
1. Imageversion:• Titelliste
• Jahreseinstieg
Verbesserte Nutzung von Zeitschriften
• Inhaltsverzeichnisse erschließen
ANNO – OCR-Pilot
ANNO in TelPlus
Besondere Herausforderungen für OCR
• Zeitungen weniger sorgfältig gedruckt als Bücher: Druckerschwärze ungleichmäßig, dünnes Papier
• großes Format
• viele Eigennamen (Orte und Personen)
• mehrere Spalten
• kleine Schrift
ABO – Austrian Books Online
• Public-Private-Partnership
• historischen Buchbestand vom 16. bis zum 19. Jahrhundert
• 600.000 urheberrechtsfreie Werke
• 180 Millionen Seiten
Texterkennung
• Volltextsuche in Zeitungen getrennt von Büchern
• Suchworte mit Tagesdatumsangaben kombinieren
• OCR von Zeitungen nicht so gut wie von Büchern
Was nun?
• Leser findet immer etwas – was?
• Was findet er nicht?
• möglicher erster Lösungsansatz: Index offenlegen– positionierbar
– Filter
– Fuzzy Logik
– durchsuchbar
– …… ????
Danke!
• anno.onb.ac.at