Postscript- und PDF-Dokumente durchsuchen · Suche im Dokument beginnt bereits w ahrend der Eingabe...

19
Postscript- und PDF-Dokumente durchsuchen Frank Hofmann/Thomas Winde 24. M¨ arz 2012 Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. M¨ arz 2012 1 / 19

Transcript of Postscript- und PDF-Dokumente durchsuchen · Suche im Dokument beginnt bereits w ahrend der Eingabe...

Page 1: Postscript- und PDF-Dokumente durchsuchen · Suche im Dokument beginnt bereits w ahrend der Eingabe des Musters, Cursor springt zum n achsten Suchtre er Frank Hofmann/Thomas Winde

Postscript- und PDF-Dokumente durchsuchen

Frank Hofmann/Thomas Winde

24. Marz 2012

Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 1 / 19

Page 2: Postscript- und PDF-Dokumente durchsuchen · Suche im Dokument beginnt bereits w ahrend der Eingabe des Musters, Cursor springt zum n achsten Suchtre er Frank Hofmann/Thomas Winde

Inhalt

1 Uber die Referenten

2 Informationen wiederfinden

3 Aufbau der Formate PostScript und PDF

4 PostScript-Dateien durchsuchen

5 PDF-Dateien durchsuchen

6 Schlussworte

Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 2 / 19

Page 3: Postscript- und PDF-Dokumente durchsuchen · Suche im Dokument beginnt bereits w ahrend der Eingabe des Musters, Cursor springt zum n achsten Suchtre er Frank Hofmann/Thomas Winde

Uber die Referenten

Frank Hofmann – OpenSource-Aktivitaten und Projekte

2000-2007

seit 2006

seit 2009

RegionalesLUG-TreffenBerlin-Brandenburgseit 2008

Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 3 / 19

Page 4: Postscript- und PDF-Dokumente durchsuchen · Suche im Dokument beginnt bereits w ahrend der Eingabe des Musters, Cursor springt zum n achsten Suchtre er Frank Hofmann/Thomas Winde

Uber die Referenten

Uber Hofmann EDV – Linux, Layout und Satz

Layout und Satz, Druckvorstufe

Administration und Service

Betreuung von Linux-Systemen(Debian)Programmierung undAutomatisierung auf der Basis vonPHP und PythonWireless Devices fur den Innen- undAußeneinsatz

Trainings fur IT-Spezialisten

Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 4 / 19

Page 5: Postscript- und PDF-Dokumente durchsuchen · Suche im Dokument beginnt bereits w ahrend der Eingabe des Musters, Cursor springt zum n achsten Suchtre er Frank Hofmann/Thomas Winde

Uber die Referenten

Uber Thomas Winde Ausflugsfahrten

Chemnitzer Linux User Group (CLUG)

Mitorganisation der ChemnitzerLinux-Tage

Betreuung des EinsteigerforumsSponsor und Tagungsfahrdienst

Thomas Winde Ausflugsfahrten

AusflugsfahrtenMietfahrtenFlughafenzubringerGutertaxiFahrten zu Linux-Veranstaltungen

Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 5 / 19

Page 6: Postscript- und PDF-Dokumente durchsuchen · Suche im Dokument beginnt bereits w ahrend der Eingabe des Musters, Cursor springt zum n achsten Suchtre er Frank Hofmann/Thomas Winde

Informationen wiederfinden

Suchen in Daten

Werkzeug: Suchmaschine, Programm, Desktopsuche

Darstellung der Suchergebnisse als Liste, Ringe oder Waben

Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 6 / 19

Page 7: Postscript- und PDF-Dokumente durchsuchen · Suche im Dokument beginnt bereits w ahrend der Eingabe des Musters, Cursor springt zum n achsten Suchtre er Frank Hofmann/Thomas Winde

Informationen wiederfinden

Datenbasis

Ziel: Dokumente und Daten wiederfinden und thematisch zuordnen

zweckdienliche Verzeichnishierarchie anlegensinnvolle Dateinamen vergeben

Dokumente mussen durchsuchbar seinlesbar fur uns und die Maschine (Programm)

offene Dokumentation der Formate

Text als Text im PDF einbinden, nicht als Bild ;-)

Dokument klassifizierenMetainformationen setzen

Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 7 / 19

Page 8: Postscript- und PDF-Dokumente durchsuchen · Suche im Dokument beginnt bereits w ahrend der Eingabe des Musters, Cursor springt zum n achsten Suchtre er Frank Hofmann/Thomas Winde

Informationen wiederfinden

Textseite – ohne Metainformationen

Spruche

Vegetarische Gerichte schmecken besonders gut, wenn dazu

ein kleines Schnitzel gereicht wird.

Sollten Sie einmal das Schnitzel nicht finden -- es liegt

immer unter der Zitronenscheibe.

Milchreis schmeckt hervorragend, wenn man es vor dem

Verzehr durch ein saftiges Steak ersetzt.

siehe: http://www.frag-mutti.de/

Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 8 / 19

Page 9: Postscript- und PDF-Dokumente durchsuchen · Suche im Dokument beginnt bereits w ahrend der Eingabe des Musters, Cursor springt zum n achsten Suchtre er Frank Hofmann/Thomas Winde

Informationen wiederfinden

Metainformationen bei Docbook

Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 9 / 19

Page 10: Postscript- und PDF-Dokumente durchsuchen · Suche im Dokument beginnt bereits w ahrend der Eingabe des Musters, Cursor springt zum n achsten Suchtre er Frank Hofmann/Thomas Winde

Informationen wiederfinden

DVI-Dokumente

DVI: gerateunabhangigesDokumentenformat

Suche in Xdvi und Okular

unabhangig von Groß-und Kleinschreibungfarbige Hervorhebungder SuchtrefferXdvi: unterstutztRegulare Ausdrucke

auf der Kommandozeile:

dvitype datei.dvi |

grep Muster

Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 10 / 19

Page 11: Postscript- und PDF-Dokumente durchsuchen · Suche im Dokument beginnt bereits w ahrend der Eingabe des Musters, Cursor springt zum n achsten Suchtre er Frank Hofmann/Thomas Winde

Informationen wiederfinden

Metainformationen bei OpenOffice

Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 11 / 19

Page 12: Postscript- und PDF-Dokumente durchsuchen · Suche im Dokument beginnt bereits w ahrend der Eingabe des Musters, Cursor springt zum n achsten Suchtre er Frank Hofmann/Thomas Winde

Informationen wiederfinden

Metainformationen im PDF

LATEX-Paket: hyperref

Anzeigen der Metadaten mit UNIX-Kommando pdfinfo

einfach: pdfinfo datei.pdf

ausfuhrlich: pdfinfo -box datei.pdf

Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 12 / 19

Page 13: Postscript- und PDF-Dokumente durchsuchen · Suche im Dokument beginnt bereits w ahrend der Eingabe des Musters, Cursor springt zum n achsten Suchtre er Frank Hofmann/Thomas Winde

Aufbau der Formate PostScript und PDF

Das PostScript-Dokumentformat

PostScript: stackbasierteProgrammiersprache mitVariablendefinitionen,Prozeduren undZuweisungen

Prolog: Vorspann desDokuments

Script: Inhalt,Seitengroße, Grafik- undTextobjekte

Trailer: Anhang

Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 13 / 19

Page 14: Postscript- und PDF-Dokumente durchsuchen · Suche im Dokument beginnt bereits w ahrend der Eingabe des Musters, Cursor springt zum n achsten Suchtre er Frank Hofmann/Thomas Winde

Aufbau der Formate PostScript und PDF

Das PDF-Dokumentformat

PDF: Dokumentenformatvon Adobe

Header: Vorspann desDokuments mitMetainformationen

Body: Inhalt, Grafik- undTextobjekte mitPositionsangaben(genannt Object Stream)

Cross-reference Table:Inhaltsverzeichnis dereinzelnen Objekte

Trailer: Anhang

Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 14 / 19

Page 15: Postscript- und PDF-Dokumente durchsuchen · Suche im Dokument beginnt bereits w ahrend der Eingabe des Musters, Cursor springt zum n achsten Suchtre er Frank Hofmann/Thomas Winde

PostScript-Dateien durchsuchen

PostScript-Dokumente

Dokumentbetrachter: Ghostview, Kghostview, Evince und Okularbei unseren Tests funktionierte die Suchfunktion nicht

auf der Kommandozeile:

pstotext datei.ps | grep Muster

ps2ascii datei.ps | grep Muster

Nachteil: nur zuverlassig fur Encoding ISO 8859-1 (Latin-1)

Alternative uber die Konvertierung nach PDF:ps2pdf datei.ps ; pdftotext datei.pdf | grep Muster

ps2pdf datei.ps ; pdfgrep datei.pdf Muster

Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 15 / 19

Page 16: Postscript- und PDF-Dokumente durchsuchen · Suche im Dokument beginnt bereits w ahrend der Eingabe des Musters, Cursor springt zum n achsten Suchtre er Frank Hofmann/Thomas Winde

PDF-Dateien durchsuchen

PDF-Betrachter

Dokumentbetrachter:

Ghostview: keine SucheEpdfview, Evince, Okular, XpdfSuche uber Button,

”/“ (außer Xpdf) und Ctrl+F

Apvlv, Mupdf, ZathuraSuche analog zu vi(m)-Tastenschema

Suche im Dokument beginnt bereits wahrend der Eingabe desMusters, Cursor springt zum nachsten Suchtreffer

Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 16 / 19

Page 17: Postscript- und PDF-Dokumente durchsuchen · Suche im Dokument beginnt bereits w ahrend der Eingabe des Musters, Cursor springt zum n achsten Suchtre er Frank Hofmann/Thomas Winde

PDF-Dateien durchsuchen

Suche automatisieren – Variante 1

pdftotext und grep mit einer Pipe in einer for-Schleife:

for datei in $(ls *.pdf); do pdftotext $datei - | grep

--color Muster ; done

pdftotext kommt problemlos mit den Encodings ISO 8859-1, 8859-15und UTF-8 zurecht

explizite Auswahl des Encodings uber die Option -enc Encoding

Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 17 / 19

Page 18: Postscript- und PDF-Dokumente durchsuchen · Suche im Dokument beginnt bereits w ahrend der Eingabe des Musters, Cursor springt zum n achsten Suchtre er Frank Hofmann/Thomas Winde

PDF-Dateien durchsuchen

Suche automatisieren – Variante 2

... mit pdfgrep:

pdfgrep Muster

Dateiliste

Option -i: unabhangigvon Groß- undKleinschreibung

Option -n: Seite, auf derder Suchtreffer gefundenwurde

Option -C Anzahl :Ausgabe max. AnzahlZeichen

Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 18 / 19

Page 19: Postscript- und PDF-Dokumente durchsuchen · Suche im Dokument beginnt bereits w ahrend der Eingabe des Musters, Cursor springt zum n achsten Suchtre er Frank Hofmann/Thomas Winde

Schlussworte

Vielen Dank

Danke fur Eure Aufmerksamkeit :-)Kontakt:Dipl.-Inf. Frank HofmannHofmann EDV – Linux, Layout und Satzc/o buro 2.0Weigandufer 45 – 12059 BerlinEmail <[email protected]>web www.efho.de

Thomas Winde AusflugsfahrtenAm Bahrebach 140 – 09114 ChemnitzEmail <[email protected]>web www.ausflug-web.de

Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 19 / 19