Feeds:
Entradas
Comentarios

Archive for the ‘Diseño de BBDD’ Category

big data

En todos los informes, predicciones, visiones… sobre el futuro, aparece el Big Data como una de las áreas más interesantes para trabajar.
Junto al grafeno, los coches eléctricos, el cloud computing y el “Internet de las cosas”, el Big Data es omnipresente en todas las listas de tecnologías, tendencias, retos…

Esto ha provocado que todo el mundo hable del Big Data. Y esta ubicuidad ha conseguido que nadie sepa muy bien qué es exactamente. Me recuerda a la Web 3.0, de la que todo el mundo opina pero pocos saben realmente.

No voy a ser yo el que resuelva la duda, entre otras cosas porque no creo que haya, aún, una forma única de decir qué es. Pero sí tengo una opinión e, incluso, una que tiene una conexión con la gestión documental (motivo último para que aparezca este tema en este blog).

La definición obvia del “Big Data” es el tratamiento de “grandes” volúmenes de datos.

Pero con esta definición en seguida surge el primer problema: ¿cuánto de “grande” tiene que ser una base de datos para que la consideremos “Big Data”?

Teniendo en cuenta que la capacidad de los discos duros y pen-drives (y el almacenamiento gratuito en la nube) se duplica cada año o año y medio, está claro que el concepto de “grande” cambia cada poco tiempo. Y según quien lo usa. Lo que para una PYME puede ser Big Data, para Oracle o EMC es trivial. Así que tenemos que mejorar un poco esta definición.

Personalmente me gusta utilizar una un tanto subjetiva. Creo que una base de datos (de clientes, facturas, cobros…) se convierte en “Big Data” cuando se vuelve inmanejable sin la ayuda de herramientas de análisis complejas. (más…)

Anuncios

Read Full Post »

árbol de carpetas

Los números son unos incomprendidos. Mucha gente los odia. O al menos los evita. Pregúntale a un amigo qué numero es mayor, 3/4 ó 4/5. Como no sea un ingeniero, físico o profesor de matemáticas… seguro que te pone mala cara (por cierto, igual que si le pides a un ingeniero, físico o profesor de matemáticas que te dibuje un perro).

¿Por qué este rechazo generalizado a los números? Por que no son naturales. Es natural conocer a docenas de personas por su nombre, y a muchos por su apellidos. Es fácil de recordar y lo asociamos fácilmente a una cara. Pero ¿te sabes el número del DNI de algún amigo o familiar? ¿O tu propio número de la Seguridad Social?

Es mucho más sencillo recordar “Manual Rodríguez” que “27.439.172”.

Sin embargo, a los ordenadores les ocurre lo contrario. Y a los programadores de bases de datos. (más…)

Read Full Post »

Información estructurada

Información estructurada

A los informáticos, especialmente a los que diseñamos bases de datos, nos encanta lo que yo llamo información estructurada. Creo que la expresión no es mía. Seguramente la he adoptado inconscientemente en algún momento. Pero lo importante es lo que significa.

Información estructurada son los datos que están perfectamente definidos y sujetos a un formato muy concreto. En una base de datos son campos con una definición específica: una fecha, un valor numérico en una factura, el tipo de IVA, el apellido de un cliente…

Son datos que responden a un diseño previo y no admiten ambigüedad. En el campo “nombre” pondrá “Fernando”, o “Enrique”, pero no un 27 ó la fecha de nacimiento. En la columna de tipo de IVA habrá un 21 (%), o un 18, 12 ó 7. Seguro que ahí no pone “Fernando”.

Por contra, la información desestructurada es todo lo contrario: libre y variada. El caso más extremo quizás sea una foto. Puede haber cualquier cosa: una flor, una montaña o tu perfil de Facebook. Otro ejemplo es un archivo guardado en un disco duro (o en un gestor documental): puede ser un contrato, una factura, una lista de tareas o, porqué no, una foto de tu novia.

Los programas más sencillos son los que trabajan solamente con información estructurada. Siempre pongo como ejemplo un programa de contabilidad. Tanto el diario de apuntes contables como el plan de cuentas forman la base de datos más sencilla imaginable. Es como una hoja Excel: fecha del apunte, valor, debe o haber y poco más.

(más…)

Read Full Post »

La deduplicación está de moda. Más de lo que imaginas. De hecho, seguro que lo has “hecho” alguna vez: “deduplicar” registros de alguna de tus bases de datos. Y seguro que aún te quedan mucho por hacer. Como a mi cuñado (del que hablaré al final).

Pero empezaré por el principio. Si buscamos en Wikipedia encontramos la definición “técnica” de la deduplicación. Es una técnica que se utiliza sobre todo al hacer copias de seguridad de grandes bases de datos para ahorrar espacio. Básicamente es detectar bloques de información repetidos y guardar solo una vez este bloque, más una referencia cada vez que aparece de nuevo. A algunos nos recuerda el “viejo” compresor de ficheros de MS DOS, el PKZIP, que se popularizó tanto que Windows lo incorpora desde hace bastante años.

En bases de datos es especialmente eficiente. Si en mi lista de clientes tengo miles de “Martinez”, solo guardo la palabra “completa” una vez y luego un código, que ocupa mucho menos espacio. En la gestión documental es aún más intesante porque se puede ahorrar mucho más espacio, sobre todo en grandes bases de datos. Imagina el ahorro de guardar una copia del contrato (de varias páginas) que han firmado miles de clientes. Salvo para la primera vez, para el resto solo hay que guardar la parte final con las firmas, la que es diferente en cada caso.

Pero no quería hablar de esta visión tan técnica de la deduplicación sino de su uso a un nivel mucho más cercano. (más…)

Read Full Post »