OCR in Acrobat

Written by Detlev Hagemann. Posted in Acrobat, PDF-/Acrobat-Tipps, Print-Publishing

hagemann_PDFProblem:
In digitalen Zeiten sind nicht alle Daten so, wie wir sie haben wollen. Sie haben ein digitales Fax erhalten oder einen Brief bzw. ein Dokument gescannt. Aber der gesamte Inhalt ist immer noch ein Bild – und kein such- und findbarer Text.

Lösung:
Öffnen Sie das Bild im Acrobat und lassen OCR drüberlaufen. Und das geht so:

Schritt 1:

PDF-erstellen 1

Sie navigieren nach Aufruf des Befehls zu Ihrer TIF- oder JPG-Datei (weitere Bildformate werden auch unterstützt).

Schritt 2:

Bild öffnen

Unter dem Knopf Einstellung… verstecken sich Optionen, wie wir sie aus dem Bilderhandling vom Distiller kennen. Sie öffnen die selektierte Bilddatei, und sie wird in ein Pixel-PDF umgewandelt.

Schritt 3
Nun muss der Text im Bild erkannt werden. Dazu rufen Sie die OCR-Funktion auf.

OCR aufrufen

Folgender Dialog erschient nun:

OCR ausführen 2

Auch hier könnten Sie unter Bearbeiten … nochmals Umwandlungsoptionen verändern. Mit OK führen Sie die Umwandlung aus.

Fazit:
Sie erhalten auf diesem Weg ein PDF, das so aussieht wie das Originaldokument. Aber jetzt ist es innerhalb von Acrobat oder vom Betriebssystem aus (optimal Leopard!) durchsuchbar.
Wenn Sie nun noch Metadaten ins PDF einfügen, dann hat die Datenzukunft begonnen – doch dazu ein andermal mehr.

Trackback von deiner Website.

Kommentieren