No sé si es porque me estoy haciendo mayor (que no viejo) pero lo cierto es que me gusta cada vez más el refranero español. A pesar de los avances tecnológicos, en cuanto al comportamiento humano, no hay nada nuevo bajo el sol. Y como «antes» los humanos no tenían que perder el tiempo consultando el correo y el WhatsApp continuamente, no se entretenían con Facebook o Twitter, no tenían videojuegos siempre a mano, además de no tener TV ni YouTube, pues antes, las personas dedicaban mucho más tiempo a pensar. Así que ya lo habían pensado todo. Incluso hay quien cree que la filosofía griega ya trató todos los temas posibles y poco hay posterior a ellos que merezca la pena.
Sin llegar a estos extremos, la verdad es que encuentro muy útiles muchos «consejos» que están recogidos en refranes, dichos, frases populares… y que se aplican perfectamente a la vida moderna y al uso de la tecnología.
Después de esta larga e innecesaria introducción para justificar el título de este post, vamos al grano, a hablar de un problema que se presenta cada día a todos los que digitalizamos documentos.
En una primera aproximación, simplificando, un documento en papel que digitalizo y guardo en un ordenador tiene dos partes completamente diferentes. Por un lado el propio archivo, la imagen «fotográfica» del documento, y por otra parte las etiquetas con información alfanumérica (números y letras, palabras…) sobre el documento. La más evidente es el nombre del archivo, por ejemplo: «Factura 123 de 2013 a nombre de MTC Soft.pdf». Habitualmente un programa de gestión documental permite añadir más: un título, una descripción, la fecha…
Este proceso, añadir información «estructurada» y alfanumérica a la imagen digitalizada del documento en papel se llama «indexación» y es una parte importantísima del proceso de digitalización de un archivo en papel porque enriquece la base de datos documental con información precisa sobre cada documento que me permitirá clasificar y encontrar posteriormente cualquiera de ellos, además de añadir datos concretos a cada uno.
El problema de la indexación de los documentos es que tiene un coste muy elevado y precisa de personal cualificado. Mientras que el proceso de digitalización en sí es muy rápido en papeles sueltos y es totalmente automático en muchos casos, la indexación es un trabajo manual que requiere conocer el documento que se digitaliza, decidir el contenido de las etiquetas que se van a asociar a la imagen digital y escribir este contenido, algo mucho más lento que «hacer fotos».
Tanto es así que la mayor parte del coste de un proyecto de digitalización es el proceso de indexación. Y, por tanto, es aquí donde es más necesario planificar todo el proceso antes de empezar a escanear miles y miles de papeles.
Y ahora es cuando utilizo mi refrán. Si le preguntamos al responsable del archivo cuántos datos quiere introducir en las etiquetas alfanuméricas, cuántos le gustaría tener de cada documento, seguro que contesta que «muchos», si no «todos», una palabra muy peligrosa.
Pensemos en una factura emitida por la empresa. ¿Cuáles son «todos» los datos a indexar? Número de factura, fecha de emisión, nombre del destinatario, dirección, NIF, conceptos, base sujeta, base exenta, IVA, total, fecha de pago, forma de pago… Absurdo. Es absurdo introducir todos estos datos. ¿Para qué los queremos en un programa de gestión documental?
Y si hablamos de un contrato: empresa contratante, NIF, fecha, valor del acuerdo, vigencia… Una vez más la lista es larguísima.
Lo «mejor», aparentemente meter «todos» los datos es «lo mejor», es un desastre. Y no tiene sentido.
Hay que seleccionar una muestra representativa que nos permita localizar el documento. Y que sea lo más corta posible. Cada etiqueta, cada dato, tiene un coste importante que si multiplicamos por los miles de papeles de un proyecto cualquiera representaría meses de trabajo.
Hay que centrarse y darse cuenta de que un programa de gestión documental NO ES un programa de contabilidad, ni de gestión de contratos, ni una agenda. La mayor parte de los datos de estos documentos estarán recogidos en otros programas y en la gestión documental solo hay que tener las imágenes y la información básica que me asegure que encontraré los documentos en el futuro.
Y hay otro punto muy importante. En un programa con una estructura de archivo en árbol (como las carpetas de Windows) la propia «ruta» en la que guardamos el documento ya contiene mucha información implícita que podemos ahorrar en el proceso de indexación.
Por ejemplo, cómo guardamos las facturas en la empresa. Hay una carpeta de «Contabilidad», otra de «Facturas», otra de «Emitidas» y otra por cada año, «2013». Cuando digitalizamos una factura solo hay que poner el número como nombre del archivo. ¡Ya está! Eso es todo. Al guardarla en la carpeta adecuada ya sé que es una factura emitida del año 2013. No necesito más información. Y lo mismo se aplica a muchos documentos que se reciben regularmente, como gastos mensuales, extractos bancarios, nóminas…
He visto gente que en el título de un archivo escribían: «Factura emitida del año 2013, número 123, a nombre de MTC Soft.pdf». Y frases mucho más largas que no hacen más que repetir información que se puede ahorrar con una buena definición de la estructura de archivo.
En definitiva, lo «bueno» es encontrar una solución de compromiso entre los datos mínimos que tengo que añadir a cada imagen que digitalizo para garantizar que encontraré el documento en el futuro, frente a la lista completa de información que contiene cada documento.
Lo aparentemente «mejor», guardarlo todo, tiene un coste inasumible que no se compensa con la ventaja de tener tanta información.
Como siempre, una buena explicación Fernando.
La indexación (o indización como ahora también se la llama) además tiene varios aspectos que son motivo de análisis. Como sabes, yo te hablo desde el punto de vista del Software Libre, Java y de lo que se encuentra por ahí. Existen APIs y aplicaciones de servicios web que se encargan del trabajo de indexación tanto a nivel de etiquetas (metadatos) como del texto en sí. No olvidemos que muchos documentos como factturas, albaranes, etc. están en formatos DOC, DOCX, PDF, etc. que pueden ser transformados en «background» a texto plano para que un indexador/indizador lo capture. Para estos casos podemos encontrar Apache-Lucene, Apache-Solr, etc. que ya no solo indexan la información de campos, sino que además usan tokens en distintos idiomas, se pueden usar «thesaurus» especializados y un montón de nuevas funcionalidades.
Una combinación que se está usando actualmente en este campo es integrar varios «middleware» como:
PDFBox para transformar a texto
OpenOffice/LibreOffice igualmente para transformar PDFs, DOC, etc. a texto
Tika para extraer la información de metadatos (campos) de documentos como DOC, DOCX, PDF, etc.
Apache-Lucene/Solr para indexar la información en texto
Estas APIs e interfaces están en tecnología Java pero existen similares para otros lenguajes como Python, C, etc.
Enhorabuena por tu artículo 🙂
Al escribir el post he dudado si comentar algo sobre los documentos de texto (como Word) o el OCR, ya sea completo o parcial (incluyendo zonal).
He pensado que iba a complicar la explicación y he optado por comentar una versión «simplificada» del problema.
Pero estaba seguro de que habría algún comentario para ampliar el tema. Es lo malo de tener lectores «normales», como dice el blog, pero también usuarios expertos.
Gracias por tu comentario.Un saludo.
Al leer el título del post pensaba que te ibas a referir a la cantidad de asuntos que no acaban de salir adelante porque quienes participan se obsesionan en conseguir lo mejor en vez de lanzar un buen producto y acaban naufragando en la búsqueda de El Dorado.
Por otra parte, no veo referencias a algoritmos o a inteligencia artificial que ayude o sustituya al costoso experto capaz de analizar la empresa y la documentación. Igual ese sería el factor X que permitiría diferenciar Archivatec de otros productos. ¡Venga… a cavilar! 😉
No olvidemos que este es un blog de gestión documental (no de tecnología o emprendedores) y para gente «normal». Así que el refrán se refiere al proyecto, a la digitalización de un archivo. A mucha gente que lo quiere hacer tan bien, tan bien… que nunca empieza porque se da cuenta de lo largo que va a ser el proceso.
En cuanto al «experto», sí, es un tema interesante. Claro que lo hemos tratado en ArchivaTech pero la filosofía del producto es «sencillez y agilidad de uso». Para el que quiere indexación automática utilizamos un OCR zonal, pero eso es demasiado complicado para este post. O lo haría muy largo.
¡Pero tomo nota!
Hola Fernando, como siempre tus palabras en el blog están lanzadas con sencilles y como dice el título «para gente (casi) normal», Pero seguidamente vemos los comentarios de tus seguidores, y se denota que es algo mas que gente normal y así te lo demandan (son expertos).
Al tema tratado sobre la indexación (digitación o digitação en sudamerica) creo, y es mi opinión personal, que hay que buscar el equilibrio entre el uso de reconocimiento de datos dentro del documento, y los indices a grabar en el mismo. En el caso que comentas de las carpetas en arbol que ayudan a guardar la imagen con un solo campo, hay que reconocer que también mover esa imagen hasta esa carpeta tiene su tiempo, sobre todo cuando hablas de miles de documentos. Por otro lado, los sistemas de reconocimiento, no llegan a ser al 100% fiables, pues sabemos que encontramos facturas, albaranes y demás con unas calidades donde no podemos esperar que el sistema encuentre la palabra buscada.
Yo siempre recomiendo un mix, es decir indexar la imagen con un máximo de 2-3 campos, pero que los mismos no den una información única, además de guardar la imagen con reconocimiento para la búsqueda de otros índices dentro de la misma. Con eso no tienes porque ir guardando las imágenes en carpeta, subcarpeta y subcarpetas, con un buen gestor documental seguro que casi el 100% de los documentos buscados serán localizados.
gracias por el artículo. saludos
Sí, veo que tendría que haber previsto un segundo post para completar este primero más sencillo y llegar también a los usuarios «expertos». Aunque con vuestros comentarios me lo voy a ahorrar.
Comparto tu comentario casi al 100%, con una salvedad. Soy un gran fan del sistema de archivo por carpetas. Lo uso en ArchivaTech, en Windows y en los correos (Outlook). Uso exactamente la misma estructura en los tres sistemas y me ayuda muchísimo a localizar los documentos. ¡Y también a clasificarlos! que, como dices, supone un pequeño tiempo extra.
Gracias por el comentario.
Alguien me podria indicar, que programa debo usar para indexar un pdf de documentos escaneados (contratos, facturas, etc.) para poder usar la funcion de busqueda y poder encontrar la informacion de dicho documento sin tener que buscar en tooodoo el archivo.
a quien amablemente me pueda responder, le rogaria me lo explique en castellano simple o en humano como le digo yo… ya que de programas y tecnologia no soy un experto.
gracias de antemano por su gentileza.
saludos cordiales
Pier Uceda
Puedes hacerlo de tres formas:
1.- En el propio proceso de escaneado. Si tienes un programa OCR instalado, activarlo para que genere un PDF que permita búsquedas. Un OCR es un programa de reconocimiento de caracteres (OCR en inglés) y suele venir incluido en la mayoría de los escáneres (que no sean muy baratos). También se puede comprar aparte.
2.- Utilizar el OCR que incluye el Adobe Acrobat, el programa habitual para abrir ficheros PDF. Si solo tienes la versión básica, «Reader», no puedes hacerlo. Si tienes la versión completa, es la opción del menú «Documento», «Reconocimiento de texto OCR».
3.- Utilizar un programa o servicio en Internet. Búscalo en Google y tendrás varias opciones, aunque no todas son buenas. Esta última forma no la he utilizado últimamente y no estoy seguro de que funcione bien, aunque seguro que algún programa gratuito puedes encontrar.
Un saludo.
Fernando Moreno-Torres: Gracias por enseñar ! No soy experta. Soy una principiante de la tercera edad, quien busca solución a acumulación dispersa de datos, documentos, fotos , etc y deseo ‘ desempapelarme ‘, ordenarlos para fácil y ràpida ubicación cuando se requiera. He aprendido de tus comentarios y los de otros en tu blog Gestión Documental para Gente (casi) Normal. Tema: Indexación de documentos: Lo mejor es enemigo de lo bueno, 13 de agosto 2013. Continua con tu labor » Hay màs felicidad en dar que en recibir» ( Hch 20 : 35; Pr 22:9).
Gracias por tu comentario María. Anima mucho.