Cómo Convertir a OCR un PDF

Procesar imágenes para capturar el texto contenido en ellas,  es un procedimiento que se conoce en castellano como Reconocimiento Óptico de Caracteres (ROC, OCR en inglés). Este procedimiento que ya tiene algunas décadas con nosotros (ya a fines de los noventas, muchas impresoras y escáneadores, incluían un disco con Iris OCR) es muchas veces necesario cuando queremos digitalizar el texto contenido como imagen en algún archivo PDF.

En Linux existe una herramienta llamada ocrmypdf, que permite llevar a cabo esta tarea por medio de la terminal. A partir de Debian 9 en adelante (y rerivados), se puede instalar esta herramienta corriendo:

sudo apt install ocrmypdf

 

Luego, la orden para emplear esta herramienta se ejecuta en el siguiente formato:

ocrmypdf origen.pdf destino.pdf

La herramienta hace un excelente trabajo, aunque puede dar algunos errores debido a la presencia de acentos en el cuerpo de texto del PDF a convertir o que no es capaz de procesar correctamente, en todo caso, el resultado final es bastante aceptable.

[tesseract] lots of diacritics - possibly poor OCR

Espero que esta breve guía te haya sido de utilidad.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *