Información estructurada

17 diciembre 2012 por Fernando Moreno-Torres Camy

A los informáticos, especialmente a los que diseñamos bases de datos, nos encanta lo que yo llamo información estructurada. Creo que la expresión no es mía. Seguramente la he adoptado inconscientemente en algún momento. Pero lo importante es lo que significa.

Información estructurada son los datos que están perfectamente definidos y sujetos a un formato muy concreto. En una base de datos son campos con una definición específica: una fecha, un valor numérico en una factura, el tipo de IVA, el apellido de un cliente…

Son datos que responden a un diseño previo y no admiten ambigüedad. En el campo «nombre» pondrá «Fernando», o «Enrique», pero no un 27 ó la fecha de nacimiento. En la columna de tipo de IVA habrá un 21 (%), o un 18, 12 ó 7. Seguro que ahí no pone «Fernando».

Por contra, la información desestructurada es todo lo contrario: libre y variada. El caso más extremo quizás sea una foto. Puede haber cualquier cosa: una flor, una montaña o tu perfil de Facebook. Otro ejemplo es un archivo guardado en un disco duro (o en un gestor documental): puede ser un contrato, una factura, una lista de tareas o, porqué no, una foto de tu novia.

Los programas más sencillos son los que trabajan solamente con información estructurada. Siempre pongo como ejemplo un programa de contabilidad. Tanto el diario de apuntes contables como el plan de cuentas forman la base de datos más sencilla imaginable. Es como una hoja Excel: fecha del apunte, valor, debe o haber y poco más.

En el otro lado, un programa de gestión documental tiene, por definición, que manejar información desestructurada. El usuario puede archivar cualquier tipo de documento, ya sea una foto escaneada o un contrato redactado en Word.

Esta variedad en los datos a gestionar presenta dos grandes inconvenientes que el diseñador de la aplicación debe resolver: cómo clasificar los datos no estructurados y cómo localizarlos posteriormente. La habilidad para resolver este problema es la que marcará la potencia y facilidad de uso del programa de gestión. Y esto es algo que el usuario nota inmediatamente al utilizar este software.

La tentación de todo programador es incluir el mayor número de campos estructurados en la ficha de cada documento que se va a archivar en el programa de gestión. Un código identificativo, la fecha, el tipo de documento… campos para cantidades por si es una factura, o un contrato… más campos para fechas de finalización, entrega, revisión… enlace con un fichero de clientes o interesados…

Y el menor número de campos para la inevitable información desestructurada: el propio archivo, su nombre y una descripción del documento.

El problema, siempre lo hay, es elegir correctamente la proporción de los dos tipos de campos. Hay que tomar una decisión entre las ventajas de los campos cerrados, concretos, estructurados y sus inconvenientes.

En el lado de las ventajas tenemos la facilidad para clasificar y localizar los documentos en función de los datos que se introducen en estos campos. Cualidades imprescindibles de un programa de archivo de documentos.

En cuanto a los incovenientes, que los tiene, básicamente son dos:

1.- Elegir qué datos introducir en cada «hueco» que el programador ha previsto y que no siempre corresponde con el documento que estoy añadiendo a la base de datos.

2.- La pérdida de tiempo que supone rellenar estos campos con todos los datos.

Hay programas que prácticamente eliminan los datos estructurados y se limitan a guardar el archivo con su nombre y la fecha (automática) de introducción. ¿Te suena? Esto es el explorador de Windows (o Mac). Aunque hay una parte implícita que sí está estructurada: la carpeta y subcarpeta en la que guardo el archivo.

Un programa de gestión documental que pretenda ser útil tendrá inevitablemente que añadir algún campo más, sobre todo para permitir las búsquedas por más de un criterio. Y, además, puede tener un as en la manga: indexar todos los textos asociados a un archivo y su ficha en la base de datos (por ejemplo, la descripción).

De esta forma se podrá localizar un documento a partir de cualquier palabra que esté en sus campos estructurados o no (nombre del archivo, descripción del documento y el propio documento, cuando es un texto). Esta búsqueda, que se llama «full text» me permite, por ejemplo, localizar un contrato en Word en el que aparezca el nombre de una empresa, aunque no haya utilizado ese nombre al crear la ficha del documento. Hoy ya no se concibe un programa de gestión documental sin esta funcionalidad.

Para grandes volúmenes de textos hay algunas aplicaciones que permiten extraer los datos más relevantes de una forma automática creando campos «estructurados» a partir de información no estructurada. Es lo que hace, por ejemplo, nuestra herramienta de análisis de opinión en Internet, LinguaBuzz. Pero para bases de datos de unos pocos miles de documentos y que se introducen de una forma sistemática no suele ser necesario recurrir a estos «analizadores» de textos.

En definitiva, la solución perfecta entre los dos extremos suele ser el término medio entre la libertad absoluta y los campos delimitados. En cada caso particular la mejor opción se acercará más a uno u otro lado según la materia prima a archivar. Lo que está claro es que conviene pararse un tiempo antes de empezar a guardar miles de archivos y valorar cuántos datos estructurados voy a guardar y cuántos introduciré, si acaso, en la descripción o el título.

Publicado en Diseño de BBDD | Etiquetado archivado documentos, control de documentos, gestion documental | 7 comentarios

7 respuestas

en 17 diciembre 2012 a 13:04 | Responder Mauricio Luque

Se te ha olvidado añadir un inconveniente 3 a los sistemas de información estructurada que viene de la existencia de un operador humano y es eso añade un porcentaje aleatorio de desidia, incompetencia o, directamente, sabotaje.
El programador debe introducir alguna clase de algorismo automático de verificación (visible o no al operador; siempre para el administrador) para añadir un grado más de certeza al sistema.
Hay por ahí programas de análisis semántico que… 😀
en 17 diciembre 2012 a 14:22 | Responder Fernando Moreno-Torres

Sin duda. Aunque me temo que es un inconveniente también de los campos «no estructurados». Imagínate lo que puede poner la gente en el campo «Descripción». Cualquier cosa.
Gracias por el comentario.
en 18 diciembre 2012 a 16:31 | Responder Julián Moyano

quizá las normas de calidad de documentos (iso), esquemas predefinidos de metadatos (NTI), normas de descripción de archivos (ISA…).. puedan ser una opción, pero eso es trabajo extra y ni es fácil ni es sencillo, la semántica puede ser un aliado… pero de momento es lo que es.
Automatizar tareas descriptivas puede ser posible si la información preexistente es apropiada (exif asignados, sencillos dc, o palabras clave añadidas previamente por el autor del documento)… y todo ello son valores que podrían ponderar unos documentos con respecto a otros (no es lo mismo una palabra localizada en el título que en el «full text»…. ), muchas ideas. Es un mundo con tanto trabajo como posibilidades, y que desde luego buena parte de la correcta gestión documental depende de ello.
- en 18 diciembre 2012 a 17:08 | Responder Fernando Moreno-Torres
  
  Las normas y definiciones están muy bien, pero hay que casarlas con la facilidad y agilidad de uso que en algunos casos es prioritario.
  Como bien dices, mucho por hacer.
en 12 marzo 2013 a 12:52 | Responder Información estructurada | Negocios y Empresa

[…] See on gestiondocumentalparagentenormal.com […]
en 15 octubre 2017 a 19:47 | Responder Belén

En el tercer párrafo es ahí, no «hay»
- en 15 octubre 2017 a 19:49 | Responder Fernando Moreno-Torres Camy
  
  Gracias. Corregido.

Comments RSS

Deja un comentario Cancelar la respuesta

Este sitio utiliza Akismet para reducir el spam. Conoce cómo se procesan los datos de tus comentarios.

Gestión Documental Para Gente (Casi) Normal

¡Desempapélate ya!