Los programas de reconocimiento óptico de caracteres (OCR en inglés) son una parte importante de un sistema de gestión documental. Utilizados correctamente son de gran ayuda en el trabajo de clasificación y búsqueda de documentos pero en muchas ocasiones generan gran frustración en los usuarios que los instalan. Como en tanto otros aspectos, la felicidad no está en lo que tienes (en lo que el programa hace) si no en lo que deseas (lo que esperabas que hiciera). Muchos comerciales, sea por desconocimiento o por sus propios intereses, venden soluciones de gestión documental con un OCR que hace auténtica magia y cuando el sistema se instala el usuario queda decepcionado de la aplicación real del OCR a sus problemas de digitalización, muy por debajo de sus expectativas.
Qué hace (bien) un (buen) OCR
Un OCR convierte un documento electrónico en formato «imagen» (una foto) en un texto que se puede guardar en un documento Word, Txt, Excel… en el que podemos editar el texto, copiarlo y usarlo para buscar el propio documento a partir de las palabras que forman el texto. Transforma la «foto» de un texto escrito en «palabras», en frases que forman un documento editable.
Un contrato en papel, por ejemplo, se puede convertir en un documento Word que puedo modificar para redactar un nuevo contrato o del que puedo copiar cualquier párrafo. De una tarjeta de visita, en papel, puedo obtener el nombre, dirección, teléfono, correo electrónico… para incorporarlo a mi base de datos de clientes, o amigos. Un documento en PDF no editable (que no es más que una imagen TIFF incrustrada en un PDF, por más que parezca un texto) se puede convertir en un PDF de texto en el que sí podremos copiar el contenido y utilizarlo como texto en cualquier otro documento. Además podremos buscarlo por las palabras contenidas en el texto. (más…)