La Bioinformática en la nube: CloudBioLinux

En varias ocasiones he publicado entradas en este blog relacionadas con distintas distribuciones de Linux especializadas en bioinformática. En ese sentido, estas distribuciones toman como base una versión estable de una distribución Linux (Ubuntu, Debian, Gentoo, Fedora, etc…), y sus desarrolladores añaden lo que les falta a esas distribuciones estándar: programas, paquetes o repositorios de programas de bioinformática, química computacional, text-mining, etc…

Pero también es cierto que cada vez más empezamos a mover nuestros desarrollos a entornos de computación en la nube cuando requerimos más potencia de cálculo. Ello es debido a que es en muchos casos más barato que administrar un recurso local de supercomputación y trae menos problemas logísticos: no necesitas espacio físico local, tienes alta disponibilidad, evitas instalaciones especiales de electricidad o aire acondicionado, etc… Y todo eso a pesar de sus inconvenientes, como que en las soluciones comerciales actuales de computación en la nube te cobren por el tráfico de red de entrada y/o de salida a las máquinas virtuales que corren en la nube, además de por el tiempo de computación.

Por ello no me ha extrañado encontrarme en una reunión que la gente esté usando CloudBioLinux como base para sus desarrollos en la nube. ¿Qué es CloudBioLinux? Es una imagen de Ubuntu, lista parar ser usada en los sistemas de máquina virtual (p.ej. VirtualBox) o de computación en la nube (p.ej. Amazon EC2). Al estar esta imagen preparada y mantenida en parte por el Craig Venter Institute, esta imagen viene con mucho del software de análisis de datos de ultrasecuenciación instalado (listado parcial disponible aquí). Además, estas imágenes pueden sincronizarse, mediante el script data_fabfile.py, con una imagen global que contiene los índices y los genomas de referencia usados por los programas de ultrasecuenciación que vienen. El script se descarga los índices y genomas seleccionados de manera periódica de una imagen mantenida en Amazon S3, facilitando aún más la tarea de mantenimiento.

La idea es muy buena, y todo esto está muy bien pensado, a expensas de cambiar tiempo de computación por tiempo de transferencia de red y copia de datos. Ya es cuestión de cada uno ponderar los pros y los contras de este tipo de soluciones a la hora de ir a usarlas.

Enlaces

CloudBioLinux

Presentación

Bienvenid@ al posiblemente primer weblog de Bioinformática en España. Este blog ha sido creado como un punto de encuentro y discusión de la comunidad bioinformática de nuestro ámbito más cercano. La mejor forma de enriquecer sus contenidos es contribuyendo mediante el envío de noticias, referencias a artículos interesantes aparecidos, enlaces a nuevos programas relacionados con la bioinformática (junto con un breve comentario del mismo), etc... Si queréis que alguna noticia, comentario sobre un artículo, etc... aparezca, sólo tenéis que usar el "Contacto con los bloggers" que se encuentra más abajo y mandar el contenido de la misma. La noticia será publicada tras ser aprobada por el moderador. Así mismo, podéis usar dicha pestaña para mandar vuestras sugerencias.