Soll unter Ubuntu OCRmyPDF genutzt werden, ist dafür 12.04 (LTS) nicht ausreichend. Insbesondere tesseract-ocr liegt erst ab 13.x in der notwendigen Version vor.
Für parallel ist die Einbindung eines PPA notwendig.
wget https://github.com/fritz-hh/OCRmyPDF/archive/v2.x.zip echo "deb http://ppa.launchpad.net/ieltonf/ppa/ubuntu oneiric main" >> /etc/apt/sources.list echo "deb-src http://ppa.launchpad.net/ieltonf/ppa/ubuntu oneiric main " >> /etc/apt/sources.list apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 48EFC6FFC2EE1C53 apt-get update apt-get install zip unzip OCRmyPDF-2.x.zip apt-get install imagemagick poppler-utils python-lxml python-reportlab default-jre bc parallel tesseract-ocr
Genutzt werden kann das Programm mit folgenden Befehlen:
convert out1-150.tif out1-150.tif.pdf
convert out1-300.tif out1-300.tif.pdf
convert out1-600.tif out1-600.tif.pdf
./OCRmyPDF-2.x/OCRmyPDF.sh -l deu out1-150.tif.pdf ocrmypdf-output-150.pdf
./OCRmyPDF-2.x/OCRmyPDF.sh -l deu out1-300.tif.pdf ocrmypdf-output-300.pdf
./OCRmyPDF-2.x/OCRmyPDF.sh -l deu out1-600.tif.pdf ocrmypdf-output-600.pdf
Convert bettet vorliegende Tiff-Dateien in PDF ein und anschließend werden diese PDFs mit OCRmyPDF durchsuchbar gemacht.
150/300/600 bezieht sich jeweils auf die dpi-Zahl beim Scan der identischen Vorlage.
Datei | Dateigröße |
---|---|
out1-150.tif | 6714552 B (6,5 MB) |
out1-150.tif.pdf | 8540465 B (8.2 MB) |
ocrmypdf-output-150.pdf | 176205 B (173 KB) |
out1-300.tif | 26857488 B (26 MB) |
out1-300.tif.pdf | 34063996 B (33 MB) |
ocrmypdf-output-300.pdf | 471069 B (461 KB) |
out1-600.tif | 107429232 B (103 MB) |
out1-600.tif.pdf | 136158065 B (130 MB) |
ocrmypdf-output-600.pdf | 1663777 B (1,6 MB) |
Die Verwendung von 300dpi anstatt 150 dpi erzeugte eine deutlich bessere Qualität der erkannten Texte. Für die 600dpi-Vorlage galt das zwar ebenfalls, allerdings waren hier die Anforderungen zur Texterkennung und zur Bearbeiten ebenfalls deutlich erhöht.
Für die verwendete Vorlage scheint der beste Mittelweg bei einem Scan und einer Weiterverarbeitung mit 300dpi zu liegen.