Cuando una base de datos deja de serlo

Por mi «especialidad» estoy acostumbrado a trabajar con muchas fuentes de información simultáneas: bases de datos biológicas, resultados de programas, servicios web, etc… Últimamente he tenido que trabajar bastante con bases de datos que proporcionan información sobre interacciones entre proteínas, como IntAct, DIP, MIPS/Mammalian, MIPS/Yeast, HPRD, BioGRID, MINT, … y BIND.
Todas estas bases de datos comparten ciertas similitudes, como por ejemplo que usan el formato PSI-MI (HUPO Proteomics Standards Initiative – Molecular Interactions) para publicar la descripción de las interacciones que contienen, además de sus formatos propios. Casi todas también comparten cierta dificultad a la hora de automatizar la descarga de las mismas: para descargar HPRD tienes que rellenar un formulario en cada ocasión, para el caso de BioGRID tienes que seguir una serie de páginas usando cookies, para otras tienes que tener un usuario registrado, etc…

Independientemente de todo esto, la que siempre me ha dado más quebraderos de cabeza a la hora de trabajar ha sido BIND, por el volumen de datos que contiene y la complejidad de su representación nativa. Esta base de datos de interacciones tiene mucha solera, porque junto con DIP fue una de las primeras bases de datos de interacciones. Inicialmente nació en el seno del departamento de bioquímica de la Universidad de Toronto. Tras ciertos avatares, está gestionada actualmente por una compañía llamada Unleashed Informatics, adquirida recientemente por Thomson Scientific de la corporación Thomson.

Además de trabajar con estas bases de datos, también me encargo de mantenerlas actualizadas para uso científico en el CNIO. Por eso, desde hace unas semanas me he encontrado con que ¡ya no es posible descargar por FTP o HTTP los ficheros de la base de datos BIND! Para acceder a los contenidos de BIND para usos de investigación científica hay que registrarse en su sitio web (lo cuál no es ningún problema), incluída su documentación. Estuve investigando un poco los pasados días, y ha desaparecido por completo toda referencia a su antiguo sitio FTP.

La única forma actual de obtener información de BIND de forma programática es usando sus servicios web SOAP. Esto tampoco es un problema, salvo cuando necesitas realizar consultas no contempladas en la API de SOAP, o quieres aplicar técnicas de minería de datos que implican acceder a todas las interacciones de la base de datos. ¡Y éste es justo mi caso!

Por tanto, BIND sigue siendo una magnífica fuente de datos de interacciones entre proteínas. Pero a mi parecer, el no proporcionar más sus datos de interacciones en forma de fichero, para poder trabajar sobre ellos de forma local, va en contra del espíritu científico de colaboración y entorpece (si no impide) hacer minería de datos sobre su información de interacciones. Que cada uno saque sus propias conclusiones…

Compartir:

Un comentario

Deja un comentario