Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische...

24
Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs Jahrestagung der ASpB - München 8.9.2005 Markus Schek, DIZ München GmbH – Süddeutsche Zeitung

Transcript of Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische...

Page 1: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs

Jahrestagung der ASpB - München 8.9.2005

Markus Schek, DIZ München GmbH – Süddeutsche Zeitung

Page 2: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Gliederung

• Automatische Klassifizierung in Produktion

• Wissensnetz-Visualisierung in Produktion

• Arbeitsweise Ähnlichkeitsanalysen

• Clustering in der Recherche

• Möglichkeiten und Grenzen

Page 3: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

DIZ und Süddeutsche Zeitung

• Dokumentation der Süddeutschen Zeitung

• Archivierung und Erschließung der SZ und zahlreicher nationaler und internationaler Publikationen

• DIZ-Pressedatenbank für Recherche im Intra- und Internet für Redakteure, Dokumentare und Externe

• Recherchedienstleistungen für die Redaktionen der SZ

• Vermarktung der Süddeutsche Zeitung-Daten (Verlage, Rundfunkanstalten, Content-Broker, Portale, Hosts ...)

Page 4: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

• Bisher: Qualität der Erschließung sichern mit reduzierten Kapazitäten

> Einsatz Automatische Klassifizierung und Visualisierung: Produktivitätssteigerung im Lektorat

• Zukünftig: Service in der Recherche erhöhen mit gleichbleibenden Kapazitäten

> Weitere Automatisierung/Produktivitätssteigerung im Lektorat: Verlagerung Kapazitäten in die Recherche

> Verbesserte Recherche-Werkzeuge: schnellere und zielgenauere (Eigen-) Recherche

Zielvorgaben / Planung

Page 5: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

1. Automatische Klassifizierung in Produktion

• Seit 01/2004 auf Basis 90.000 DIZ-Dossiers

• Vorschläge werden mit Relevanzwert in XML-Artikeldaten SZ / Fremdpresse geschrieben und im Lektorat von Dokumentaren übernommen, ergänzt oder verworfen

• Integrierter Workflow mit Wissensnetz-Visualisierung

• Laufendes Retraining der manuellen Erschließung

• Steigerung des Gesamt-Recall seit Inbetriebnahme auf 75%

• Produktivitätssteigerung je Lektoratskapazität 47%

Page 6: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Lektorat Dossierstruktur

Page 7: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

2. Wissensnetz-Visualisierung in Produktion

• Seit 02/2004

• Visualisierung des DIZ-Wissensnetzes mit hierarchisch verlinkten Dossiers

• Darstellungskomplexität parametrierbar

• Verknüpfung mit DIZ-Pressedatenbank für Artikel-Anzeige, Ablage, Lektorat

• Recherche intuitiv und assoziativ, performanter

• Lektorat ohne Zwischen-Ablage, performanter

Page 8: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Page 9: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Page 10: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Page 11: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

• Recall-optimierter Categorizer:> Ziel „Vollständigkeit“: möglichst viele der korrekten Klassifizierungen

vorschlagen.

> Arbeitsweise: analysiert für ein unklassifiziertes Dokument seine Ähnlichkeit zu den bisher (manuell) klassifizierten Dokumenten. Die Klassifizierung der ähnlichsten Dokumente (=Dossier-Zuordnung) wird für das unklassifizierte Dokument vorgeschlagen. Die Ähnlichkeitsbewertung erfolgt aufgrund des für jedes Dokument (bei der Indexierung) berechneten sog. Dokument-Konzepts.

• Precision-optimierter Categorizer:> Ziel „Genauigkeit“: möglichst viele der vorgeschlagenen Klassifizierungen sind

korrekt.

> Arbeitsweise: analysiert für ein unklassifiziertes Dokument seine Ähnlichkeit zu den vorhandenen Klassifizierungen (= DIZ-Dossiers) und schlägt die ähnlichsten vor. Die Dossier-Konzepte werden anhand der (manuell) zugeordneten Artikel berechnet.

3. Arbeitsweise Ähnlichkeitsanalysen I: Categorizer

Page 12: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

• Freies / ungerichtetes Clustering: > Ziel: eine (Treffer-)Menge von Dokumenten nach Ähnlichkeiten frei

gruppieren.

> Arbeitsweise: bildet Cluster über die Ähnlichkeit der Konzepte von Dokumenten zueinander und fasst die jeweils zwei ähnlichsten Cluster sukzessive zu einem übergeordneten Cluster zusammen.

• Gerichtetes Clustering: > Ziel: eine (Treffer-)Menge von Dokumenten nach Ähnlichkeiten zu

vorhandenen (Dossier-)Konzepten gruppieren.

> Arbeitsweise: bildet Cluster über die Ähnlichkeit der Konzepte von Dokumenten zu den vorhandenen (Dossier-)Konzepten und weist ggf. die Cluster dem Dossier zu.

3. Arbeitsweise Ähnlichkeitsanalysen II: Clustering

Page 13: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

• Clustern von (Treffer-)Mengen:> Formal selektierte Tagesdaten werden zu „Themen des Tages“

geclustert

> Ergebnislisten von Volltextsuchen werden als Cluster strukturiert

• „Relevance Feedback“: > Trefferlisten werden interaktiv / durch Nutzer-Aktion neu sortiert

• „Ähnliche Dokumente“ finden: > Ein gewähltes Dokument(-Konzept) wird zur Sucheingabe

• Suchen erweitern („Mehr finden“): > Eine (zu) kleine Treffermenge wird zur Sucheingabe

4. Clustering und Ähnlichkeitsanalysen in der Recherche

Page 14: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Ähnlichkeitsanalysen in der Recherche: „Themen des Tages“-Cluster

Page 15: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Ähnlichkeitsanalysen in der Recherche: „weitere Treffer“ eines Clusters

Page 16: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Recherche: Ergebnis einfache Suche + verbundene Dossiers

Page 17: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Recherche: „Ähnliche Dokumente“ zu einem Artikel

Page 18: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Recherche: Dossier-Anzeige

Page 19: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Recherche: Dossier-Navigation im Wissensnetz

Page 20: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Recherche: Ergebnis Phrasensuche

Page 21: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Recherche: Expansion der Treffermenge durch „Mehr finden“

Page 22: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

• Modulare Kombination statistischer, linguistischer, heuristischer und semantischer Verfahren notwendig.

• Qualität eines Klassifikators ist indirekt proportional zur Anzahl der Klassifikationen / Notationen.

• Ein Klassifikator ist nicht selbstlernend. Für (Re-)Training / Update ist immer einer intellektuell erschlossener (Master-)Bestand notwendig.

• 100% korrekte Zuordnungen durch einen Klassifikator sind nicht möglich.

5. Möglichkeiten und Grenzen: Automatische Klassifizierung

Page 23: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

5. Möglichkeiten und Grenzen: Clustering / Ähnlichkeitsanalysen

• Formale Informationserschließung (Verifikation) ist die Basis für valide Informationsdienstleistung.

• Grosse Treffermengen nach einfacher VT-Suche können mit Clustering-Technologien sinnvoll strukturiert werden.

• Ähnlichkeitssuche anhand eines spezifischen Dokuments führt zu hervorragenden Treffern. Der Weg zum spezifischen Dokument bleibt mühsam und bedarf der manuellen Suche und intellektuellen Auswahl. Diese wird durch inhaltliche Erschließung wesentlich erleichtert und beschleunigt.

• Ähnlichkeitsanalysen bändigen die Informationsmengen. Wissen kann nur der Mensch erzeugen.

Page 24: Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Vielen Dank für Ihre Aufmerksamkeit!

[email protected]@sueddeutsche.de

© DIZ München GmbH 2005