Post on 06-Apr-2016
Zeitgeschichte onlineRecherchieren von 1955 bis 2005 mit modernsten Retrievalkomponenten
Rüdiger Baumberger, Content Manager APA-DeFacto
ODOK’05, Bozen
APA-DeFacto einer der mächtigsten Medienhosts im deutschsprachigen Raum ist spezialisiert auf:
• Individuelle Informationslösungen• Qualitative Analyse der Medieninhalte• Beschlagwortung und Verknüpfen
relevanter Inhalte• Aufbau und Integration von Wissensportalen
APA-DeFacto - Datenbankpool
• Multimediale Datenbanken – 175 Agentur-Datenbanken– 175 nationale und internationale
Zeitungen/Zeitschriften teilweise im Original-Design (PDF)
– Firmeninformationen– Bilder, Grafiken, Audios– Termine
• > 52 Mio. Dokumente
• Täglich 60.000 neue Dokumente in Real Time
1849 Oesterreichische CorrespondenzJoseph Tuwora
1859 Telegraphen-Korrespondenz-Bureauab 1867 „k.k.“
1922 Amtliche Nachrichtenstelle ANAunter staatlicher Leitung
1938 „Zweigstelle Wien“des Deutschen Nachrichten-Büros
1946 APA - Austria Presse Agentur1988 Erste APA-Datenbank
Die Geschichte der APA
• 1200 Archivordner
• 1,3 Millionen Seiten
• 3 Millionen Meldungen
• 6 Monate OCR-Durchlauf
• 250 GB Daten
Eckdaten
• Spiritusabzüge
• Endlosdruck
• Keine Titel und Stichworte
• Originalnummerierungen nicht verwertbar
• Fehlbestände
Herausforderungen
• Rettung des Archivs(?)
• Lückenlose Digitalisierung des gesamten Bestandes
• Einbindung in bestehende Retrievalsysteme
• Recherche im Volltext
• Faksimile
• Dossiers
Ziele
• weltweit einziges digitales Agenturarchiv – Volltext!
• einmaliges historisches Material
• Volltextdatenbank inkl. Faksimiles der Originale
• 52 Dossiers
• AOM undwww.defacto.at
Ergebnis
APA-OnlineManager (AOM) Recherchetool für Datenbankabfragen• Über 7500 User • 1500 User gleichzeitig• 21 Millionen Recherchen/Suchen pro Jahr• 36 Millionen Objekt/Artikel-Abrufe pro Jahr
• 24 Stunden / 7 Tage Hotline• Hohe Ausfallsicherheit durch Unix-Cluster und
EMC-Plattensysteme
Bestand versus Nutzung• Dokumentbestand
reicht zurück bis 1955
• Die meisten der Abfragen beziehen sich auf Dokumente der letzten Wochen
Anteil historischer Dokumente nach zeitlicher Tiefe
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
50%
55%
60%
65%
70%
75%
80%
85%
90%
95%
100%
Akt
uelle
r T
ag p
lus
Arc
hiv
1 T
ag u
nd ä
lter
> 1
Mon
at
> 2
Mon
ate
> 3
Mon
ate
> 4
Mon
ate
> 5
Mon
ate
> 6
Mon
ate
> 7
Mon
ate
> 8
Mon
ate
> 9
Mon
ate
> 10
Mon
ate
> 11
Mon
ate
> 1
Jahr
> 1
Jahr
> 1
Jahr
> 1
Jahr
> 1
Jahr
> 1
Jahr
> 1,
5 Ja
hre
> 1,
5 Ja
hre
> 1,
5 Ja
hre
> 1,
5 Ja
hre
> 1,
5 Ja
hre
> 1,
5 Ja
hre
> 2
Jahr
e
> 2
Jahr
e
> 2
Jahr
e
> 2
Jahr
e
> 2
Jahr
e
> 2
Jahr
e
> 2,
5 Ja
hre
> 2,
5 Ja
hre
> 2,
5 Ja
hre
> 2,
5 Ja
hre
Zielsetzung des Projektes mit Know-Center Graz• Durch Erweiterung der Suchmöglichkeiten
um intelligenten Retrievalkomponenten soll der User
– ohne komplexe Suchanfragen schnellstmöglich relevante Treffer erzielen
– einen raschen Überblick über die Suchergebnisse bekommen (großer Archivbestand)
– weiterführende Informationen zu Suchthema erhalten
Themen Clustering• Aussagekräftige Clusterbeschreibungen
(Uniwords und Phrasen)– Extraktion aus Volltext– Keine a priori Themenvorgabe
• Effiziente Implementierung – Clustering von 2000 Artikel dauert etwa 3 Sekunden
Themen-Visualisierung• Visualisierung der Treffermenge
– basierend auf Clustern– Zeitliche Visualisierung von Themenverläufen– Ein-, zwei- und dreidimensionale Darstellung (Landscape
Visualisierung)
• Navigation in der Treffermenge über die Visualisierungsmetaphern
Ähnlichkeitssuche
• Suche von „ähnlichen“ Meldungen – Basis ist das Vector Space Model– Extraktion von Schlüsselwörter der aktuellen Meldung
• Verweis auf weiterführende Dokumente über (semiautomatisch) extrahierte Personen/Firmen
Trefferliste mit Visualisierung der
Themencluster
Anzeige Trefferstatistik
Natürlichsprachliche Formulierung der
Suchanfrage