Scanning, Inputmanagement, Data Capture – Neue Wege für Metadaten mit PDF/A-3 | Luratech Europe...
description
Transcript of Scanning, Inputmanagement, Data Capture – Neue Wege für Metadaten mit PDF/A-3 | Luratech Europe...
Neue Wege für Metadaten: Scanning, Inputmanagement, Data Capture BITKOM Arbeitskreis ECM Standards, Carsten Heiermann, LuraTech
PDF/A-3
Stuttgart, 25.10.2012
Thema:
Gescannte Dokumente in PDF/A
Begleitende Daten zu Scans: Metadaten, „Dublin Core“ bis XML, CSV
Metadaten schon immer Teil von PDF/A
„Self documenting“, Metadaten beschreiben den Kontext
Allerdings „relativ kompliziert“ mit XMP, XMP Extension Schema
Adobe Reader zeigt keine Extensions an
User sieht „XML-Strukturen“
Metadaten und PDF/A
Schon immer gelöst, aber nicht intuitiv oder interoperabel
2
Gescannte Dokumente und Metadaten
Schon seit dem ersten Normteil gut gelöst
Stapelverarbeitung / Massenkonvertierung einfach machbar
Dunkelverarbeitung möglich durch sehr vorhersagbare Ergebnisse
Wenige Konvertierungsrisiken, keine 100% Kontrolle nötig
Schon immer mit bekannten Optionen
Voll interoperable Durchsuchbarkeit
Kompressionsschemata wie JBIG2 oder MRC-/Layer-Technik verfügbar
-> War und ist oft der erste Schritt mit PDF/A
-> Am schnellsten verbreitetes Anwendungsfeld
3
Gescannte Dokumente in PDF/A
MRC-/Layer-Kompression in PDF/A
Layer PDF/A-1 PDF/A-2, 3
Text Color Foreground
JPEG JPEG JPEG2000
Text b/w Mask
TIFF G4 JBIG2
TIFF G4 JBIG2
Color Background
JPEG JPEG JPEG2000
5
MRC-/Layer-Kompression in PDF/A
TIFF
65 kB 180 kB 60 kB
TIFF G4 PDF/A-1 JPEG
23,8 MB 55 kB
PDF/A-2
erst mal
Originaldatei (Scan, TIFF)
PDF/A-1 mit einfachem Image Embedding
PDF/A-1 mit MRC-Kompression
PDF/A-2 mit MRC-Kompression
und
Volltext / Durchsuchbarkeit: OCR
und
XMP-Metadaten-Datei (notepad.exe)
XMP-Metadaten in PDF/A eingebettet
6
Wie sieht das praktisch aus?
PDF/A-3 mit einem neuen Feature: Einbettung beliebiger Dateiformate
Ein oder mehrere
Mit Bezug auf Datei, Seite, Objekt in der PDF-Datei (z.B. „ist Quelle von“)
Metadaten im Inputmanagement, Data Capture, Scanning?
CSV-Dateien
XML-Dateien
Excel-Dateien
….
7
Metadaten in PDF/A-3
Benötigt zum
z.B. Datenaustausch Scandienstleister (<)-> Kunde
z.B. Import Daten in DMS / ERP
z.B. als eigener, selbsttragender Index
z.B. zum Datenaustausch Kunde <-> Lieferant
-> Bisher:
Unverbunden, stand-alone, parallel zu den Images
-> Jetzt:
Images und Daten korrekt zugeordnet und untrennbar verbunden
Fehlervermeidend in der Image Datei eingebettet
8
Metadaten in PDF/A-3
Dienstleister scannt Rechnungen
Und bettet die Prüfdaten gleich in die gescannte Rechnung ein
Umfragerückläufer scannen und Daten erfassen
Und die Images samt der Auswertung in Excel als eine Datei
Zeichnungen scannen und Zeichnungskopf erfassen
Und Zeichnungskopfdaten als Excel o.ä. einbetten für „Copy&Paste“
Bauakten samt Daten
Personalakten samt Daten
-> Allgemein: „Images“ plus leicht lesbare / weiter verwertbare „Metadaten“
-> Sicher weit mehr Anwendungsfälle, als vorab ausgedacht!
9
Mögliche Use Cases
Dokumente werden viel „verkehrsfähiger“
Funktionieren auch außerhalb des DMS-/ECM-Systems gut
Auch für gescannte Dokumente relevant, fest verknüpft:
„Arbeitsdaten“, (wieder) im Dokumenten-Lebenszyklus
Passende archivierbare „Rendition“ der Daten
Gescannte Dokumente in PDF/A-3:
Darstellung gesichert – PDF/A
Kompression – z.B. MRC
Volltext – OCR
Kontext – Verarbeitbare Metadaten eingebettet
10
Gescannte Dokumente und PDF/A-3
erst noch mal PDF/A-2 konform:
Angehängte Dateien (nur PDF/A-Dateien einbetten!)
Dann PDF/A-3 konform:
PDF/A-3-Datei mit angehängtem Excel
11
Wie sieht das praktisch aus?
PDF/A-3 jenseits gescannter Dokumente, z.B. Rechnungen
AK Faktura Base im Bitkom, BMWi, AVW
FeRD – Forum elektronische Rechnung Deutschland
PDF/A-3 mit eingebetteten XML Rechnungsdaten
Bemühungen Richtung Norm (DIN)
Z.B. Dokumente im Lebenszyklus
Wann Archiv-Derivat erzeugen? Wie weiterentwickeln?
Hybride Archivierung, mit PDF/A-3 in einer Datei abzubilden
-> Dokumentenbasierte Prozesse prüfen, Optimierungspotential!
12
Über den Tellerrand geschaut
www.ecm-navigator.de www.bitkom.org/ecm
Vielen Dank für Ihre Aufmerksamkeit
Carsten Heiermann Geschäftsführer
LuraTech Europe GmbH 0171/3377023 [email protected]
www.luratech.com
http://ecm-navigator.de/termine/scanning-inputmanagement-data-capture-neue-wege-fuer-metadaten-mit-pdfa-3
1
Das Video zum Vortrag sowie weitere Informationen gibt es unter:
Vortrag auf dem Forum des BITKOM ECM Solutions Park zur DMS Expo 2012 25. Oktober 2012, 12:00-12:30 Uhr