En todos los informes, predicciones, visiones… sobre el futuro, aparece el Big Data como una de las áreas más interesantes para trabajar.
Junto al grafeno, los coches eléctricos, el cloud computing y el «Internet de las cosas», el Big Data es omnipresente en todas las listas de tecnologías, tendencias, retos…
Esto ha provocado que todo el mundo hable del Big Data. Y esta ubicuidad ha conseguido que nadie sepa muy bien qué es exactamente. Me recuerda a la Web 3.0, de la que todo el mundo opina pero pocos saben realmente.
No voy a ser yo el que resuelva la duda, entre otras cosas porque no creo que haya, aún, una forma única de decir qué es. Pero sí tengo una opinión e, incluso, una que tiene una conexión con la gestión documental (motivo último para que aparezca este tema en este blog).
La definición obvia del «Big Data» es el tratamiento de «grandes» volúmenes de datos.
Pero con esta definición en seguida surge el primer problema: ¿cuánto de «grande» tiene que ser una base de datos para que la consideremos «Big Data»?
Teniendo en cuenta que la capacidad de los discos duros y pen-drives (y el almacenamiento gratuito en la nube) se duplica cada año o año y medio, está claro que el concepto de «grande» cambia cada poco tiempo. Y según quien lo usa. Lo que para una PYME puede ser Big Data, para Oracle o EMC es trivial. Así que tenemos que mejorar un poco esta definición.
Personalmente me gusta utilizar una un tanto subjetiva. Creo que una base de datos (de clientes, facturas, cobros…) se convierte en «Big Data» cuando se vuelve inmanejable sin la ayuda de herramientas de análisis complejas.
Los clientes de mi empresa, con sus DNIs, direcciones, facturas pendientes… son manejables mientras los puedo gestionar fácilmente con un ERP que me permite acceder a cualquiera de ellos, listar los que me deben dinero, ver los que viven en Granada.
Si le sumo, por ejemplo, el consumo eléctrico, detallado por horas y días, y hablamos de 3-4 millones de clientes con miles de datos de consumo… eso se ha convertido en Big Data. Hay mucha información en esos datos, pero necesito unos algoritmos de consulta complicados para extraerla. Es elemental saber cuales de mis clientes se llaman Fernando, pero extraer una lista de los que viven en ciudades pequeñas, ponen la lavadora el sábado por la mañana y les gusta el Real Madrid y el café (y se toman uno después de cada partido televisado), esos datos, que están ahí, necesitan un software sofisticado para conocerse.
Con la capacidad de almacenamiento y potencia de cálculo actuales, analizar estas ingentes cantidades de datos está al alcance de cualquier programador mínimamente habilidoso. Una consulta que hace 10 años habría tardado varias horas hoy la ejecutan los ordenadores personales en unos segundos. Y esto abre un mundo muy interesante de oportunidades.
¿Y qué tiene que ver la gestión documental con todo esto? Mucho. Ahora voy a ello.
Personalmente creo que hay tres tipos de bases de datos:
1.- Las alfanuméricas. Contienen campos de letras y números. Nombre y apellidos, DNIs, números de teléfono, importes de una factura, fechas de cobro…
Son las bases de datos más frecuentes y las más sencillas de utilizar. Algunas son realmente enormes y requieren un software específico para analizar y extraer información útil.
Por ejemplo, un coche de fórmula 1 tiene unos 1.000 sensores que recogen 500 medidas por segundo y las envían en tiempo real a los equipos. Analizando esta información, recomiendan al piloto frenar antes o después de una curva o cambian unos grados el ángulo de ataque del alerón delantero. Parece que los del equipo Ferrari aún están analizando los datos Australia, vistos los últimos resultados.
Es muy complicado entender tanta información, pero no deja de ser una técnica relativamente sencilla.
2.- El segundo grupo (en mi particular clasificación) incluye en la base de datos textos. Frases, comentarios, tweets, descripciones de productos… Es un nivel más en cuanto a la dificultad porque la información no está «estructurada» en campos bien definidos. Entender lo que la gente escribe utilizando el «lenguaje natural» es todo un reto. De hecho, el primer paso suele ser convertir estas frases en datos discretos. Extraer las palabras significativas de cada frase. Esto tiene mucho que ver con la Web Semántica y si te interesa, el miércoles 18 de junio hablo de esto en un evento en la sede de la Comisión Europea en Madrid (en el post anterior está la información).
3.- El tercero incluye, además, documentos. Fotos, vídeos, contratos en Word, hojas de cálculo… Una base de datos documental. Ahora la dificultad para manejar la información sube otro nivel. De hecho, un típico programa de gestión documental tiene que manejar los tres tipos de datos: campos alfanuméricos (lo que yo llamo información estructurada), campos de «texto libre» (información no estructurada) y campos que contienen documentos, que a su vez pueden contener texto (como un documento Word) o no (como una foto o un PDF escaneado sin OCR).
La gestión de la información almacenada en estos gestores documentales tiene dos retos o problemas que resolver. Primero, clasificarla de una forma ordenada y por niveles o grupos. Esto se suele hacer al introducir nuevos documentos o datos en el sistema de gestión.
El segundo reto es encontrar la información almacenada, sin conocer necesariamente el criterio usado en la clasificación.
Para esta tarea todos los programas de gestión utilizan índices en la base de datos estructurados para localizar los documentos a partir de su nombre, la fecha de introducción o cualquier dato que el usuario introduce al incorporarlo al sistema: lo que se llama «indexación» de los documentos.
Los programas un poco más avanzados (hoy día casi todos) permiten además localizarlo por cualquier palabra de la «ficha» descriptiva del documento. Sería el segundo tipo de información de la que hablaba antes.
Y los mejores programas de gestión también permiten buscar por cualquier palabra que haya «dentro» de los documentos de texto. Es lo que se llama búsquedas «full text» y aunque hace unos años era bastante poco corriente hoy no se concibe un programa de gestión documental sin esta funcionalidad.
Volviendo al tema de hoy, al «Big Data», creo que la mayoría de los programas de gestión documental no se pueden considerar en la categoría Big Data porque manejan información fácilmente accesible y no suelen incluir opciones de análisis complejo. De hecho, el acceso a ingentes cantidades de datos para extraer información «oculta» a primera vista se suele hacer de forma independiente. Es decir, una cosa es la gestión de la documentación para el uso «rutinario» del día a día de una empresa y otra cosa es buscar patrones comparando miles (o millones) de datos que están en nuestros documentos pero no de una forma evidente.
Probablemente lo mejor sería gestionar el día a día con un programa «corriente», fácil de usar y sin opciones complicadas y acceder a los datos para buscar esa información subyacente usando otro programa diseñado específicamente para ese fin.
Si quieres saber un poco más, te espero el miércoles 18 a las 9:30 en el Paseo de la Castellana, 46.
Deja una respuesta