PDD-D11: Vekorisierte Texte in editierbaren Text …...2014/02/13  · PDF drucken 61 Vektorisierte...

6
59 PDF drucken Praxisfälle Vektorisierte Texte in editierbaren Text umwandeln Vektorisierte Texte in editierbaren Text umwandeln Kann ich vektorisierten Text wieder in editierbaren Text umwandeln? Sollen Drucksachen neu aufbereitet werden, benötigt man den Text und die Bilder, um das Produkt neu zu gestalten und zu setzen. Immer wieder kommt es jedoch vor, dass das Originaldokument nicht mehr vorhanden ist, beschä- digt ist oder nicht mehr geöffnet werden kann. Es existiert nur noch ein PDF- Dokument, in dem die Texte aber teilweise vektorisiert wurden und somit nicht mehr aus dem PDF als Text entnommen und in das neue Layout kopiert wer- den können. Was tun? Den gesamten vektorisierten Text neu eingeben? Handelt es sich nur um ein paar Zeilen, dann stellt dies kein Problem dar, und der Text wird neu eingegeben. Wurden aber ganze Seiten oder sogar das ganze Dokument vekto- risiert, dann ist die Neueingabe zu arbeits- und zeitintensiv. Dass Acrobat Pro mit Paper Capture über eine Funktion verfügt, mit der man gescannte Texte wieder in durchsuchbaren und editierbaren Text umwandeln kann, ist mittler- weile sehr vielen Anwendern bekannt. Dass diese Funktion allerdings auch ver- wendet werden kann, um vektorisierten Text in editierbaren Text umzuwan- deln, wissen nur sehr wenige Acrobat-Anwender. Wie kann ich Texte, die in einem PDF vektorisiert vorliegen, wieder in editierbaren Text umwandeln? Die Umwandlung von gescannten und vektorisierten Texten erfolgt in Acrobat Pro über das Acrobat-eigene Plug-in Paper Capture. 1. Öffnen Sie das PDF-Dokument Vektortext-1.pdf von der beigefügten CD. 2. Da die Texterkennung auch die Texte in den Bildern erkennt und in Text umwandelt, werden zuerst die Bilder aus dem Dokument entfernt. Blenden Sie das Aufgabenfenster Werkzeuge ein und wählen Sie den Befehl Inhalt Ob- Was tun, wenn das Originaldokument nicht mehr vorhanden ist? Vektorisierte Texte können in Acrobat Pro umgewandelt werden Bilder aus Dokument ent- fernen Die Beschreibungen wurden anhand der Version ACROBAT X PRO erstellt. Versionsinfo 10 Die Beispieldateien finden Sie auf der beigefügten CD im Verzeichnis ARBEITSDATEIEN\PRAXISFAELLE\VEKTORTEXT. CD-ROM 1 2 Damit die Texte in den Bildern nicht erfasst werden, werden sie gelöscht.

Transcript of PDD-D11: Vekorisierte Texte in editierbaren Text …...2014/02/13  · PDF drucken 61 Vektorisierte...

Page 1: PDD-D11: Vekorisierte Texte in editierbaren Text …...2014/02/13  · PDF drucken 61 Vektorisierte Texte in editierbaren Text umwandeln Praxisfälle wird daraufhin ein Meldungsfenster

59 PDF drucken

PraxisfälleVektorisierte Texte in editierbaren Text umwandeln

Vektorisierte Texte in editierbaren Text umwandelnKann ich vektorisierten Text wieder in editierbaren Text umwandeln?

Sollen Drucksachen neu aufbereitet werden, benötigt man den Text und die Bilder, um das Produkt neu zu gestalten und zu setzen. Immer wieder kommt es jedoch vor, dass das Originaldokument nicht mehr vorhanden ist, beschä-digt ist oder nicht mehr geöffnet werden kann. Es existiert nur noch ein PDF-Dokument, in dem die Texte aber teilweise vektorisiert wurden und somit nicht mehr aus dem PDF als Text entnommen und in das neue Layout kopiert wer-den können.

Was tun? Den gesamten vektorisierten Text neu eingeben? Handelt es sich nur um ein paar Zeilen, dann stellt dies kein Problem dar, und der Text wird neu eingegeben. Wurden aber ganze Seiten oder sogar das ganze Dokument vekto-risiert, dann ist die Neueingabe zu arbeits- und zeitintensiv. Dass Acrobat Pro mit Paper Capture über eine Funktion verfügt, mit der man gescannte Texte wieder in durchsuchbaren und editierbaren Text umwandeln kann, ist mittler-weile sehr vielen Anwendern bekannt. Dass diese Funktion allerdings auch ver-wendet werden kann, um vektorisierten Text in editierbaren Text umzuwan-deln, wissen nur sehr wenige Acrobat-Anwender.

Wie kann ich Texte, die in einem PDF vektorisiert vorliegen, wieder in editierbaren Text umwandeln?

Die Umwandlung von gescannten und vektorisierten Texten erfolgt in Acrobat Pro über das Acrobat-eigene Plug-in Paper Capture.

1. Öffnen Sie das PDF-Dokument Vektortext-1.pdf von der beigefügten CD.

2. Da die Texterkennung auch die Texte in den Bildern erkennt und in Text umwandelt, werden zuerst die Bilder aus dem Dokument entfernt. Blenden Sie das Aufgabenfenster Werkzeuge ein und wählen Sie den Befehl Inhalt � Ob-

Was tun, wenn das Original dokument nicht mehr vorhanden ist?

Vektorisierte Texte können in Acrobat Pro umgewandelt werden

Bilder aus Dokument ent-fernen

Die Beschreibungen wurden anhand der Version ACROBAT X PRO erstellt.

Versionsinfo10

Die Beispieldateien fi nden Sie auf der beigefügten CD im Verzeichnis ARBEITSDATEIEN\PRAXISFAELLE\VEKTORTEXT.

CD-ROM

1

2

Damit die Texte in den Bildern nicht erfasst werden, werden sie gelöscht.

Page 2: PDD-D11: Vekorisierte Texte in editierbaren Text …...2014/02/13  · PDF drucken 61 Vektorisierte Texte in editierbaren Text umwandeln Praxisfälle wird daraufhin ein Meldungsfenster

60 PDF drucken

Praxisfälle Vektorisierte Texte in editierbaren Text umwandeln

jekt bearbeiten 1 . Aktivieren Sie mit dem Werkzeug Objekt bearbeiten die einzelnen Bilder und löschen 2 Sie sie aus der Datei, in-

dem Sie die Entf-Taste drücken oder den Menübefehl Bearbeiten � Löschen wählen.

3. Speichern Sie die Dokumentänderungen und starten Sie danach die Texter-kennung über den Befehl Texterkennung � In dieser Datei 3 .

4. Nach dem Befehlsaufruf wird das Dialogfenster Text erkennen eingeblen-det. Da es sich bei unserem Beispieldokument um ein mehrseitiges Dokument handelt, aktivieren Sie die Option Alle Seiten im Bereich Seiten 4 .

5. Um die aktuellen Konvertierungseinstellungen zu ändern, klicken Sie auf den Schalter Bearbeiten 5 .

6. Für unser Beispieldokument wählen Sie über das Einblendmenü Primäre OCR-Sprache 6 die Sprache Deutsch aus und legen damit fest, welches Wörterbuch für die Texterkennung verwendet werden soll.

7. Über das Einblendmenü PDF-Ausgabestil 7 wählen Sie die Option Clear-Scan. Dadurch wird das Originalbild aus der Datei entfernt, die Text elemente

werden in editierbare Texte konvertiert und die Grafi k- und Bild-elemente in einzelne Objekte umgewandelt.

8. Da Sie zuvor alle Bilder aus der Datei entfernt haben, spielt die Zielaufl ösung, die Sie über das Einblendmenü Neuberechnen auf 8 einstellen, für unser Beispiel keine Rolle.

9. Bestätigen Sie die Einstellungen, indem Sie auf den Schalter OK klicken. Starten Sie die Konvertierung, indem Sie im Fenster Text erkennen ebenfalls auf den Schalter OK klicken. Im unteren rechten Bereich des Acrobat-Fensters

Einstellungen »Text erkennen« festlegen

Konvertierungseinstel-lungen ändern

Konvertierungseinstel-lungen festlegen

3

4

5

Die OCR-Texterkennung wird über den Befehl »Texterkennung � In dieser Datei« gestartet.

Weitere Informationen zu den Texterkennungseinstellungen erhalten Sie in den Kapiteln PAPER CAPTURE IN DER PRAXIS im Heft PDF DRUCKEN Ausgabe 2 und BARRIEREFREIE PDFS: GESCANNTE VORLAGEN im Heft PDF DRUCKEN Ausgabe 10.

Verweis

Im Dialogfenster »Texterkennung – Allge-meine Einstellungen« werden die primäre OCR-Sprache und der PDF-Ausgabestil defi niert und die Neuberechnung der Bilddaten festgelegt.

Über den Meldungsbalken in der unteren rechten Fensterecke kann der Konvertie-rungsverlauf verfolgt werden.

I Di l f t T t k All

6

7

8

Page 3: PDD-D11: Vekorisierte Texte in editierbaren Text …...2014/02/13  · PDF drucken 61 Vektorisierte Texte in editierbaren Text umwandeln Praxisfälle wird daraufhin ein Meldungsfenster

61 PDF drucken

PraxisfälleVektorisierte Texte in editierbaren Text umwandeln

wird daraufhin ein Meldungsfenster angezeigt, über das Sie den Verlauf der Konvertierung verfolgen können.

10. Konnte die Konvertierung erfolgreich durchgeführt werden, können Sie anschließend den gesamten Text der Datei über das Auswahl-Werkzeug für Text und Bilder markieren, über den Menübefehl Bearbeiten � Kopieren aus dem PDF-Dokument kopieren und über den Befehl Bearbeiten � Einset-zen bzw. Einfügen in Ihr Layoutprogramm einfügen und dort weiterverar-beiten.

Sie können den Text in Acrobat Pro über den Befehl Datei � Speichern unter anschließend auch als Microsoft-Word-Dokument, als RTF- oder TXT-Dokument abspeichern und in Ihr Layoutprogramm importieren. Der Unterschied zwi-schen dem Kopieren des Textes aus der PDF-Datei und dem Speichern als ein Textdokument liegt darin, dass beim Kopieren und Einfügen jede Zeile mit einem Zeilenende abgeschlossen wird, während der Text beim Speichern unter als Fließtext abgelegt wird.

Konvertierung konnte nicht durchgeführt werdenWenn Sie den Befehl Texterkennung � In dieser Datei auf das Beispieldoku-ment Vektortext-2.pdf mit den gleichen Konvertierungseinstellungen anwen-den, erhalten Sie die nachfolgende Fehlermeldung.

Diese Fehlermeldung erhal-ten Sie, weil das Dokument auf der zweiten Seite noch richtigen Text enthält, der also weder vektorisiert wur-de noch als Bitmap-Objekt vorliegt. In diesem Fall kann die Texterkennung nicht durchgeführt werden. Des-halb sollten Sie vor dem Anwenden des Befehls erst feststellen, ob das Dokument noch Text enthält oder nicht. Am einfachsten geht das, indem Sie die Dokument-eigenschaften über den Menübefehl Datei � Eigenschaften öffnen und dort die Kategorie Schriften wählen. Ist das Fenster leer, dann ist auch kein edi-tierbarer Text mehr im PDF enthalten. Wird, wie in unserem Beispiel, noch eine Schrift angezeigt, dann befi ndet sich noch Text im Dokument.

Nach der erfolgreichen Konvertierung kann der gesamte Text markiert werden.

Über die »Dokumenteigenschaften« ganz sehr schnell ermittelt werden, ob in dem zu verarbeitenden PDF-Dokument noch editierbare Texte enthalten sind, da Schrifteninformationen in einem PDF nur enthalten sind, wenn Text als Text vorliegt und nicht vektorisiert oder als Bitmap umgewandelt wurde.

Fehlermeldung, wenn das zu konvertieren-de PDF noch editierbaren Text enthält

Page 4: PDD-D11: Vekorisierte Texte in editierbaren Text …...2014/02/13  · PDF drucken 61 Vektorisierte Texte in editierbaren Text umwandeln Praxisfälle wird daraufhin ein Meldungsfenster

62 PDF drucken

Praxisfälle Vektorisierte Texte in editierbaren Text umwandeln

Was kann ich tun, wenn nicht alle Texte im PDF vektorisiert vorliegen oder es sich um ein schreib-geschütztes PDF-Dokument handelt?

Was tun, wenn nicht alle Texte im PDF-Dokument vektorisiert oder als Bitmap vorliegen?Befi ndet sich nur Text im PDF-Dokument, der gerendert werden kann, kann die OCR-Texterkennung nicht durchgeführt werden.

In Acrobat Pro können Texte nur bei einer Transparenzreduzierung gleich-zeitig in Pfade konvertiert werden, d. h., es muss sich mindestens ein transpa-rentes Objekt im Dokument befi nden, damit überhaupt eine Transparenzredu-zierung durchgeführt werden kann. Enthält ein Dokument keine Transparenzen, können somit auch keine Texte vektorisiert werden.

Mit dem Acrobat-Plug-in Enfocus PitStop Pro ist die Umwandlung von Text in Zeichenwege recht einfach zu bewerkstelligen. Über den Inspector können ein-zelne markierte Texte seitenweise vektorisiert und über die Globalen Ände-rungen kann das Vektorisieren von Texten im gesamten Dokument durchge-führt werden. Wer über das Programm Enfocus PitStop Server verfügt, kann die Konvertierung mithilfe von Aktionslisten automatisch durchführen. Aller-dings müssen hierbei die Schriften im PDF-Dokument eingebettet oder auf der Arbeitsstation installiert und aktiv sein.

Was tun, wenn das Dokument keine Transparenzen enthält und das Plug-in Enfocus PitStop Pro nicht zur Verfügung steht?

1. Wenn Sie keine Möglichkeit haben, den editierbaren Text zu vektorisieren, dann können Sie alle Seiten oder nur die Seiten, die den editierbaren Text ent-halten, beispielsweise als Bild abspeichern. Dazu wählen Sie den Menübefehl

Datei � Speichern unter � Bild 1 und wählen eines der zur Verfügung stehenden Formate aus dem Untermenü aus. Wie die Konvertierungsein-stellungen des gewählten Formats aussehen, kön-

nen Sie zum einen über die Acrobat-Voreinstellungen in der Kategorie Aus PDF konvertieren festlegen oder für das ausgewählte Format im Dialogfenster

Schriftenvektorisierung mit Acrobat Pro

Schriftenvektorisierung mit Enfocus PitStop Pro

PDF als Bild speichernE P S P nicht zur Verfüg

enurei�

erntegen

Enfocus PitStop Pro nicht zur Verfü

1. Wenn Sie keine Möglichkeit habedann können Sie alle Seiten oder nuhalten, beispielsweise als Bild absp

Datei �eines ddem Unstellung

1

2

3

Page 5: PDD-D11: Vekorisierte Texte in editierbaren Text …...2014/02/13  · PDF drucken 61 Vektorisierte Texte in editierbaren Text umwandeln Praxisfälle wird daraufhin ein Meldungsfenster

63 PDF drucken

PraxisfälleVektorisierte Texte in editierbaren Text umwandeln

Speichern unter definieren, indem Sie dort das Speicherformat wählen und auf den Schalter Einstellungen 2 klicken und danach im Dialogfenster Als ... speichern – Einstellungen 3 die Konvertierungseinstellungen festlegen, die von Format zu Format unterschiedlich sind.

2. Konvertieren Sie danach die als Bild gespeicherten Seiten erneut zu PDF. Bei mehreren aufeinanderfolgenden Seiten können Sie in Acrobat Pro den Befehl Erstellen � Dateien in einem einzigen PDF zusammenführen 4 verwenden. Fügen Sie die zu verarbeitenden Bilddateien im Fenster Dateien zusammenfüh-ren 5 hinzu und aktivieren Sie die Option Größere Datei 6 , damit die Da-teien in hoher Qualität in das PDF-Format konvertiert werden.

3. Um die Konvertierung zu starten, klicken Sie auf den Schalter Dateien zu-sammenführen. Nach der erfolgreichen Konvertierung erhalten Sie ein neues PDF-Dokument mit der Bezeichnung Sammelmappe, das Sie auf Ihrer Arbeits-station unter einem beliebigen Namen abspeichern können.

4. Da es sich hierbei nun um ein PDF-Dokument handelt, das nur noch Pixel-daten beinhaltet, kann die OCR-Texterkennung danach ohne Fehlermeldung durchgeführt werden.

Wie kann ich vektorisierten Text in schreibgeschützten Dokumenten in edi-tierbaren Text umwandeln?Liegt die Originaldatei nicht vor und wurde das PDF-Dokument mit einem Kennwort vor Änderungen geschützt, dann tritt der schlimmste Fall ein, wenn auch noch das Kennwort vergessen wurde. Aber auch dann sollte man die Hoffnung nicht aufgeben, denn es gibt fast immer einen Weg. Dieser ist viel-leicht nicht ganz so schnell, liefert aber immerhin die Texte so, dass man sie wieder verwenden kann und nicht neu eingeben muss.

1. Öffnen Sie das Beispieldokument Vektortext-3.pdf von der beigefügten CD. Bei diesem PDF handelt es sich dabei um ein geschütztes Dokument. Das er-kennen Sie schon, wenn Sie das Dokument in Acrobat öffnen, denn zum einen wird im Navigationsfensterbereich ein Schlosssymbol angezeigt und zum an-deren wird (GESCHÜTZT) hinter dem Dateinamen in der Titelzeile angegeben.

Texte in geschützten Dokumenten vektorisieren

Achten Sie darauf, dass Sie die Seiten immer in höchster Qualität und ohne Verlust ablegen, um so ein gutes Ergebnis bei der anschließenden Texterkennung zu erhalten.

Hinweis

4

5

6

Über den Befehl »Dateien in einem einzigen PDF-Dokument zusammenführen« können mehrere PDF- und Nicht-PDF-Dokumente zu einem PDF zusammenge-führt werden.

Dass ein PDF geschützt ist, erkennt man schon mit einem Blick auf die Titelzeile oder die Navigationsfensterleiste.

Page 6: PDD-D11: Vekorisierte Texte in editierbaren Text …...2014/02/13  · PDF drucken 61 Vektorisierte Texte in editierbaren Text umwandeln Praxisfälle wird daraufhin ein Meldungsfenster

64 PDF drucken

Praxisfälle Vektorisierte Texte in editierbaren Text umwandeln

2. Bei geschützten Dokumenten kann die OCR-Texterkennung nicht durchge-führt werden auch das Speichern als Bild ist bei diesen Dokumenten nicht möglich.

3. Über die verschiedenen Erstellen-Befehle bietet Acrobat Pro jedoch die Möglichkeit, den gesamten Bildschirm, eine Fenster-aufnahme oder eine Ausschnittsaufnahme zu erstellen und daraus ein PDF-Dokument zu erzeugen. Alle diese Befehle erstellen nämlich anschließend ein PDF-Do-ment, das nur Pixeldaten enthält.

4. Wenn Sie beispielsweise nur den Text eines be-stimmten Bereichs benötigen, vergrößern Sie die Fens-

teransicht des Bereichs so groß wie möglich.

5. Danach wählen Sie beispielsweise den Menübefehl Datei � Erstellen � PDF aus Ausschnittaufnahme.

6. Nach Auswahl des Befehls ziehen Sie mit dem Auswahl-Werkzeug einen Markierungsrahmen um den Bereich auf, den Sie abfotografieren möchten.

7. Sobald Sie die Maustaste loslassen, wird das neue PDF-Dokument erstellt und automatisch auf dem Bildschirm angezeigt. Das PDF enthält nur den zuvor markierten Bereich.

8. Da es sich nun um ein Pixeldokument handelt, das nicht geschützt ist, kann die OCR-Texterkennung durchgeführt und die Texte können anschließend in das Layoutprogramm kopiert werden.

Erstellen-Befehle nutzen

Bereich markieren

Neues PDF mit Pixeldaten

Texte können danach in die Zwischenablage ko-piert werden

t i ht d B i hMit den oben hervorgehobenen Befehlen können neue PDF-Dokumente erstellt werden, die nur noch Pixeldaten enthalten.

Nach Auswahl des Befehls »PDF aus Ausschnittaufnahme« wird der Bereich eingerahmt, von dem ein neues PDF-Dokument erstellt werden soll.

Der Text des zuvor ausgewählten Bereichs kann im neuen PDF-Dokument über den Befehl »Texterkennung � In dieser Datei« in editierbaren Text gewandelt werden, der in jedes andere Programm mittels »Kopieren und Einfügen« aus der Zwischenablage eingesetzt werden kann.

Page 7: PDD-D11: Vekorisierte Texte in editierbaren Text …...2014/02/13  · PDF drucken 61 Vektorisierte Texte in editierbaren Text umwandeln Praxisfälle wird daraufhin ein Meldungsfenster

MEV Verlag GmbH Wolframstraße 3 86161 Augsburg http://www.mev.de [email protected]

Marion Tramer

PDF Aktuell

Praxislösungen für das professionelle Arbeiten mit Adobe® Acrobat® und dem PDF-Format

• Konkrete Anwendungsbeispiele• Schritt-für-Schritt-Anleitungen• Tipps und Tricks von Profis

Wichtige Hinweise:

Alle Rechte vorbehalten. Die Verwendung der Texte und Bilder, auch auszugsweise, ist ohne schriftliche Zustimmung des Verlages urheberrechtswidrig und strafbar. Dies gilt insbesondere für die Vervielfältigung, Übersetzung oder die Verwendung in Kursunterlagen und elektroni-schen Systemen.

Adobe, das Adobe-Logo und Acrobat sind Warenzeichen von Adobe Systems Incorporated. Produktnamen, Logos und Warenzeichen werden ausschließlich aus redaktionellen Gründen und ohne die Absicht der Verletzung von Rechten verwendet. Für die in diesem Werk benutz-ten eingetragenen Warenzeichen, Handelsnamen und Gebrauchsnamen gelten die entspre-chenden Schutzbestimmungen, auch wenn diese nicht speziell gekennzeichnet sind.

Alle Informationen in diesem Werk sowie der Inhalt der beiliegenden Datenträger wurden nach bestem Wissen und Gewissen erstellt und kontrolliert. Weder die Autoren noch Herausgeber und Verlag haften jedoch für Schäden, die im Zusammenhang mit der Verwendung dieses Wer-kes entstehen. Für die Mitteilung von Fehlern in diesem Werk sind Verlag und Herausgeberjederzeit dankbar.

Copyright und Bezugsinformationen:

© by MEV Verlag GmbH, Augsburg, GermanyBestell-Nr. 21670ISBN 978-3-933148-08-7

Weiteres PDF-Praxiswissen für Publisher finden Sie im Internet unter folgender Adresse:https://www.mev.de/pdfadvsearch.asp?PageNO=PDFADVSEARCH