Google Base, un proyecto que podría servir a los bioinformáticos

Hace poco ha salido publicado en la revista Nature un artículo que habla sobre Google Base, uno de los nuevos servicios Beta de investigación que Google está desarrollando, y su uso para facilitar la minería de datos sobre contenidos almacenados en él.

Google Base es un lugar donde se puede almacenar todo tipo de contenido, ya sea enlaces a sitios web o ficheros que no se encuentran publicados en Internet. A partir de ese momento, dicho contenido se encuentra disponible e indexado en Google Base, y puede ser etiquetado y descrito con atributos (al estilo de palabras clave tipo ‘Autor’, ‘Fecha’, etc…), de forma que la búsqueda de contenidos se agilice. Si el contenido es relevante, el contenido almacenado puede llegar a aparecer incluso en las búsquedas Google.

En el artículo de la revista Nature apuntan que los principales usuarios del servicio serán científicos (entre ellos, bioinformáticos), dado que permite a cualquiera compartir, almacenar y anotar información de forma global. El funcionamiento de dicho servicio se parece al objetivo de los grupos de W3C dedicados a web semántica: contenido simultáneamente legible por las personas y procesable por los ordenadores, ya sea de forma puntual o sistemática.
La mayor parte del contenido web está diseñado para ser visto, leído y asimilado por personas, y no contiene información descriptiva adicional aprovechable por los ordenadores. Esto limita su utilidad a la hora de realizar búsquedas masivas o intentar extraer conclusiones, salvo con herramientas especializadas y muy limitadas a un determinado dominio del problema, como por ejemplo SRS en bioinformática). Otro problema es la imposibilidad de reaprovechar la mayor parte de los datos relacionados con un contenido, simplemente porque se encuentran en una tabla accesoria en un formato no manejable de forma automática por el ordenador, o redibujar las gráficas basadas en dicha tabla junto con datos adicionales.

Evidentemente, existe un inconveniente: la heterogeneidad actual en los formatos de fichero empleados en Bioinformática (tanto en los artículos como en los datos y bases de datos), incomprensibles para el sistema Google Base a pesar de encontrarse en formato textual. En ese sentido, Google Base es muy sencillo, y no se adecua a las necesidades actuales de los bioinformáticos, pero puede ser el comienzo de algo muy importante si dedican desarrollos e investigación en Google. Cuando llegue el momento, llegará la siguiente pregunta: ¿será capaz de buscar en el volumen de datos disponibles en bioinformática de forma ágil?

En cualquier caso, recomiendo la lectura de este artículo.

Enlaces:

Compartir:

2 comentarios

  1. Siempre que comento el problema de la heterogeneidad de formatos con informáticos que trabajan en biomedicina, sobre todo a nivel de desarrollo de ontologias y sistemas de análisis de datos, me responden con la misma sonrisa en los labios diciendo: "No es problema"

    Creo que se refieren a que en informática este tipo de problemas hace tiempo que esta resuelto… Pero yo no se como. Confiemos en ellos.

    Según los informáticos es muy sencillo integrar cualquier fuente de información. Pero ciertamente creo que algo de trabajo si que ha de costar.

  2. Yo soy ingeniero en informática, y te puedo decir que aunque la parte teórica de la integración sintáctica esté resuelta, la parte práctica y la integración semántica no. Además, la gracia de los formatos que usamos en bioinformática es que también evolucionan y cambian, con lo que cada release de una base de datos también puede llevar modificaciones a nivel semántico en sus campos.

    XML puede que facilite la tarea, pero no es la panacea universal. Un diseñador "bizantino" de formatos puede hacer mucho daño…

Deja un comentario