Se trató de un pedido de digitalización de 50 números de la revista de ciencias sociales Archivos del Presente, su conversión a texto editable y posterior subida a un WordPress en la nube. A razón de 120 páginas por ejemplar, esto totalizaba 6000 páginas de denso texto con ilustraciones precolombinas incrustadas en el cuerpo del texto y un extraño juego compositivo entre las preguntas y las respuestas de las entrevistas.
Mediante software OCR de última generación se transformaron todas las imágenes en texto y se exportaron a archivos de texto. Luego se procedió a la limpieza de todos los extraños caracteres provocados tanto por las ilustraciones, como por los errores de escaneo producto de la antigüedad del material. Esto se realizó rápidamente con soft especial de automatización, búsqueda y reemplazo, a la vez, en cientos de archivos de texto. Luego se acomoda y formatea en forma manual la apariencia de los párrafos. A su vez, se corrige en forma automatizada la ortografía y la sintaxis del texto. Y por último, se realiza una revisión manual de todo el material.
RESULTADO
6000 páginas de texto, un total de 550 artículos de ciencias sociales fueron digitalizados, editabilizados, corregidos, formateados y subidos a la nube en 60 días.