Soll unter Ubuntu OCRmyPDF genutzt werden, ist dafür 12.04 (LTS) nicht ausreichend. Insbesondere tesseract-ocr liegt erst ab 13.x in der notwendigen Version vor.

Für parallel ist die Einbindung eines PPA notwendig.

 

wget https://github.com/fritz-hh/OCRmyPDF/archive/v2.x.zip
echo "deb http://ppa.launchpad.net/ieltonf/ppa/ubuntu oneiric main" >> /etc/apt/sources.list
echo "deb-src http://ppa.launchpad.net/ieltonf/ppa/ubuntu oneiric main " >> /etc/apt/sources.list
apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 48EFC6FFC2EE1C53
apt-get update
apt-get install zip
unzip OCRmyPDF-2.x.zip
apt-get install imagemagick poppler-utils python-lxml python-reportlab default-jre bc parallel tesseract-ocr

 

Genutzt werden kann das Programm mit folgenden Befehlen:

convert out1-150.tif out1-150.tif.pdf
convert out1-300.tif out1-300.tif.pdf
convert out1-600.tif out1-600.tif.pdf
./OCRmyPDF-2.x/OCRmyPDF.sh -l deu out1-150.tif.pdf ocrmypdf-output-150.pdf
./OCRmyPDF-2.x/OCRmyPDF.sh -l deu out1-300.tif.pdf ocrmypdf-output-300.pdf
./OCRmyPDF-2.x/OCRmyPDF.sh -l deu out1-600.tif.pdf ocrmypdf-output-600.pdf

Convert bettet vorliegende Tiff-Dateien in PDF ein und anschließend werden diese PDFs mit OCRmyPDF durchsuchbar gemacht.

150/300/600 bezieht sich jeweils auf die dpi-Zahl beim Scan der identischen Vorlage.

Dateigrößenvergleich
DateiDateigröße
out1-150.tif 6714552 B (6,5 MB)
out1-150.tif.pdf 8540465 B (8.2 MB)
ocrmypdf-output-150.pdf 176205 B (173 KB)
out1-300.tif 26857488 B (26 MB)
out1-300.tif.pdf 34063996 B (33 MB)
ocrmypdf-output-300.pdf 471069 B (461 KB)
out1-600.tif 107429232 B (103 MB)
out1-600.tif.pdf 136158065 B (130 MB)
ocrmypdf-output-600.pdf 1663777 B (1,6 MB)

Die Verwendung von 300dpi anstatt 150 dpi erzeugte eine deutlich bessere Qualität der erkannten Texte. Für die 600dpi-Vorlage galt das zwar ebenfalls, allerdings waren hier die Anforderungen zur Texterkennung und zur Bearbeiten ebenfalls deutlich erhöht.

Für die verwendete Vorlage scheint der beste Mittelweg bei einem Scan und einer Weiterverarbeitung mit 300dpi zu liegen.