Google tiene un problema (I)

17 octubre 2011 por Fernando Moreno-Torres Camy

Nadie duda del éxito de Google. La mayoría de nosotros lo usamos a diario para buscar «algo» en Internet. Un artículo científico, una noticia local, el último modelo de ultrabook de Lenovo… El buscador sirve para todo.

Pero ¿por qué usamos Google y no los otros? ¿Por qué Yahoo ha fracasado?, a pesar de que llegó al mercado antes que Google y era la empresa de moda en los primeros años de Internet.

La palabra que lo define todo es «relevancia«. O «algoritmo», que todo el mundo usa sin saber muy bien qué significa.

El éxito de Google fue mostrar en los primeros lugares de los resultados de las búsquedas aquello que realmente estábamos buscando.

Cómo lo hacen es un secreto tan bien guardado como la fórmula de la Coca Cola. Las famosas 200 variables (dicen) que contempla el algoritmo para clasificar las páginas Web y ordenarlas de tal forma que los resultados más «relevantes» aparezcan los primeros.

Pero yo no iba a hablar ahora del éxito de Google (es algo muy conocido) sino de su principal problema: la «basura», los resultados «no relevantes» que aparecen con frecuencia donde no deberían, es decir, en la primera página de resultados. Un problema creciente que sufrimos todos con frecuencia. Un problema que a veces no podemos resolver, a pesar de cambiar las palabras para buscar, usar las comillas, añadir otras opciones… Un problema que también afecta a Google y que su algoritmo no puede resolver, porque es un problema «estructural», de diseño. Un resquicio por el que podría colarse un competidor y superar a Google en lo que mejor sabe hacer: encontrar lo que realmente estamos buscando.

Para estudiar con detenimiento «el problema» creo que hay que mirar un poco al pasado y, de paso, jusfificar que hable de Google en un blog de gestión documental. Aunque me alargue, si resolvemos el problema de Google merecerá la pena (creo).

Ante todo una reflexión: ¿qué es Internet? Una gran base de datos de documentos (esto ya sí encaja en el blog). Miles de millones de páginas Webs con textos (similares a fin de cuentas a los que tenemos en cada oficina), archivos descargables (PDFs, por ejemplo, iguales a los que mandamos por e-mail a diario a nuestros clientes), imágenes (etiquetadas con título y otros datos)…

Y qué es Google: un programa de gestión documental. Bueno, en realidad solo una parte de él: el buscador. Cuando hago demostraciones de nuestro programa de gestión documental, la funcionalidad «estrella» es siempre la búsqueda de documentos. He perdido la cuenta de las veces que he dicho: «de nada sirve guardar los documentos si luego no eres capaz de encontrarlos». Una frase que sirve para un despacho de abogados de 5 usuarios que no encuentra un contrato entre dos o tres mil documentos en Word, pero una frase que se aplica también a un consumidor ansioso por encontrar la tienda on-line con el mejor precio de un televisor de 40 pulgadas. De hecho, mi frase habitual para que el posible cliente entienda como funciona nuestra búsqueda (en local) es decirle: «funciona como Google, puedes usar cualquier palabra del documento». Los técnicos lo llaman búsquedas «full text» pero creo que mi frase la entienden mejor mis clientes.

En definitiva, Google tiene el mismo problema que tenemos todos, buscar una manzana en un cesto lleno de manzanas (un cesto muy, muy grande). Un problema viejo que se suponía resuelto, hasta que el cesto se llenó de manzanas, miles de millones de manzanas.

Si miramos unos años al pasado encontramos soluciones interesantes. Lo más parecido que recuerdo es el sistema de archivo de las bibliotecas. Recuerdo de niño, antes de que los PCs estuvieran en todas partes, que me gustaba mucho repasar las fichas de cartón de las bibliotecas. Solían ser pequeñas, como un iPhone o algo mayores, y estaban perfectamente ordenadas y clasificadas en pequeños cajones hechos a medida. Muy estrechos y largos. Alineados en una matriz de filas y columnas, con las letras en el frontal, como en los lomos de las enciclopedias. Ordenadas por autor, encontrabas los libros de Isaac Asimov agrupados. Cada ficha un libro. Título, autor, «signatura» (me encantaba esa palabra)… Un sistema sencillo, barato… y con grandes limitaciones.

Esto es un sistema de archivo «estructurado», con una clasificación cerrada, bien definida. Sirve para una biblioteca de un colegio, o la de tu casa, pero poco más. Además de una limitación evidente en cuanto al número de volúmenes que se pueden manejar de una forma mínimamente eficiente, y el número de usuarios simultáneos (dándose codazos delante de los cajoncitos), tiene dos gravísimos defectos:

1.- Necesita un proceso manual, artesanal, lento, para añadir cada nueva entrada (en este caso libro, pero sirve igual para documentos en general). Hay que hacer una ficha con unos «campos» precisos. Esto requiere un usuario especializado que siga siempre el mismo criterio y que debería conocer el contenido del libro para hacerlo correctamente. La persona ideal es, por supuesto, la que lo ha escrito, pero esperar que el autor «etiquete» su obra es mucho pedir por lo que siempre dependeremos de una tercera persona, que puede cambiar con el tiempo, y que no siempre elegirá bien.

2.- La clasificación en una estructura «cerrada», predefinida, es por definición imprecisa, incompleta. Una relación de libros ordenados por el autor es perfecta, siempre que sepas el nombre del autor. Si lo hacemos extensivo a artículos y comentarios de todo tipo, el autor pasa a ser un dato irrelevante. La otra opción, clasificarlos por temas, ayuda, siempre y cuando el tema esté claro. Y mi criterio al buscarlo coincida con el del que eligió el tema, al clasificarlo. Y, una vez más, lo limita enormemente porque un libro puede tratar multitud de temas de interés.

Una solución, ya propia del uso de los ordenadores es añadir temas como palabras clave, no como criterio de ordenación principal. Es lo que llamamos «etiquetas». Sigue requiriendo un trabajo «artesanal» y conocer el contenido del libro o documento, pero al menos mejorará las opciones de búsqueda. El problema es que sigue siendo muy limitado. Si clasificas un libro con las palabras «gusanos» y «palmera» podrás localizarlo por esas dos, pero no por «insecticida» aunque sea lo más importante para muchos de los futuros interesados en el libro. Pero si el que lo clasifica no se lo ha leido y no añade esa tercera etiqueta nadie lo encontrará nunca por ese término.

Hasta aquí las bibliotecas «estructuradas», las bases de datos temáticas (legislación, normas, fármacos…), especializadas. Hasta aquí los primeros buscadores de Internet, como Altavista y Yahoo (simplificando mucho, lo sé).

Y entonces llegó Google y rompió moldes. ¡Lo indexó todo! Cualquier palabra dentro del documento es válida para localizarlo. Una auténtica revolución.

Si, además, usando características del documento como son el número de veces que aparece una palabra, si está en negrita, en el título, subrayada… si otros documentos enlazan con esa palabra… le doy más importancia (relevancia) y la muestro en los primeros lugares en la lista de resultados… acabamos de conseguir un buscador que deja en la prehistoria los antiguos cajoncitos con fichas de cartulina. Y de paso a Yahoo y los demás.

Pero, y este es el «pero» que da lugar a este post, ahora las palabras clave, las etiquetas, que en este sistema son todas las palabras que aparecen, son frecuentemente irrelevantes. Cuando una persona elegía de una forma manual 3 ó 4 etiquetas para indicar de qué trataba un libro, se tomaba su tiempo y trataba de elegir las más representativas. Eran pocas, pero valiosas. Ahora ocurre justamente lo contrario. Todas las palabras del documento valen lo mismo a priori. El proceso de indexado no distingue el grano de la paja. Las palabras son solo palabras, no tienen significado ni valen más para el programa de indexado por el hecho de ser el sujeto de una oración, el que hace algo, que un complemente circunstancial, una cita sin importancia.

Y, peor aún, toda la ambigüedad del lenguaje, que es mucha, se incorpora en el proceso de clasificación. ¿Cómo sabe Google que un artículo sobre casas no tiene nada que ver con una boda? No lo sabe.

Para indexar bien, para clasificar textos, deberíamos saber más del lenguaje que compone esos textos. Google lo ignora, y lo paga en los resultados.

En la próxima entrada les diré cómo resolverlo (por si alguien de Google lo quiere leer).

Publicado en casos reales, Opinión | Etiquetado archivado documentos, gestion documental, manejo de papeles, papeles en la oficina | 5 comentarios

5 respuestas

en 30 octubre 2011 a 21:20 | Responder Google tiene un problema (II). La solución « Gestión Documental Para Gente (Casi) Normal

[…] post es la continuación de uno anterior que deberías leer antes, si no lo has hecho […]
en 31 octubre 2011 a 10:54 | Responder Google y la infoxicación. De soluciones y utopías | Taller Documental

[…] ha alcanzado la mayoría de edad, o cuando menos el tiempo suficiente para avanzar con paso firme, Fernando Moreno-Torres plantea una solución capaz de solucionar los problemas generados por la falta de precisión en las […]
- en 4 noviembre 2011 a 10:45 | Responder Fernando Moreno-Torres
  
  Hola Luis. He leido el post de tu blog en el que me citas. He intentando hacer un comentario, pero no me deja registrarme, al menos con mi nombre de usuario y contraseña de este blog, que también es de WordPress. No sé si tienes limitado el acceso a los comentarios o es que no he sabido hacerlo.
  Por tanto, te hago el comentario aquí. Espero que lo leas.
  
  Me resulta muy curioso, casi gracioso, que comentes que mi solución es utópida. ¡Es real! Existe este programa, Parsalyzer, y lo estamos usando para mejorar una herramienta de análisis de opinión en Internet. A fin de cuentas, lo estamos usando para saber «qué se dice en una página concreta», o en un comentario en Twitter. Y sí, elimina polisemias, reduce ambigüedades y mejora muchísimo la precisión en las búsquedas.
  Pronto será una herramienta comercial que podrán usar los community managers para conocer la reputación digital de sus clientes o empresas.
  Es mil veces mejor que la recopilación de información basada en palabras clave y textos «planos».
  Un saludo.
en 30 diciembre 2011 a 12:58 | Responder Rossana

Buenos días,
sigo buscando, leyendo, interpretando y aprendiendo día a dia al respecto de la gestión documental, contenidos, problemas, soluciones, temas enlazados, casuisticas comunes, y dificultades que se plantean en el día a día tanto bajo la perspectiva humana como tecnológica.
No he sido jamás muy amiga de comentar publicamente mis opiniones por varios motivos, pero no he podido resistirme en este caso.
No creo en la utopía tecnológica, la única limitación de una solución es el tiempo que vivimos que nos permita o no conocerla.
En diferentes campos y áreas se ha considerado útopico la solución a problemas y cuestiones
Enhorabuena a todos aquellos que han considerado la utopia como un reto porque han sabido dar respuestas a aquellos que solo juzgaron los problemas como tal.
- en 30 diciembre 2011 a 13:20 | Responder Fernando Moreno-Torres
  
  Un comentario interesante. Un contenido difícil de refutar.
  Muchas veces considero que mi trabajo es, básicamente, resolver problemas. Normalmente con la ayuda de la tecnología (ordenadores, impresoras, cables y, por supuesto, software).
  Hacer un traductor mejor que cualquier otro, ¿es un reto o es una utopía?
  Si el objetivo es que sea «perfecto», sería una utopía.
  Si la meta es más humilde, se puede conseguir. ¡Con un gran coste! por supuesto.
  Y cuánto más divertido es alcanzar esa meta frente a la resolución de problemas corrientes, rutinarios.
  Gracias por tu comentario. Espero que caigas en la tentación más veces.

Comments RSS

Deja un comentario Cancelar la respuesta

Este sitio utiliza Akismet para reducir el spam. Conoce cómo se procesan los datos de tus comentarios.

Gestión Documental Para Gente (Casi) Normal

¡Desempapélate ya!