La Bioinformática en la nube: CloudBioLinux

En varias ocasiones he publicado entradas en este blog relacionadas con distintas distribuciones de Linux especializadas en bioinformática. En ese sentido, estas distribuciones toman como base una versión estable de una distribución Linux (Ubuntu, Debian, Gentoo, Fedora, etc…), y sus desarrolladores añaden lo que les falta a esas distribuciones estándar: programas, paquetes o repositorios de programas de bioinformática, química computacional, text-mining, etc…

Pero también es cierto que cada vez más empezamos a mover nuestros desarrollos a entornos de computación en la nube cuando requerimos más potencia de cálculo. Ello es debido a que es en muchos casos más barato que administrar un recurso local de supercomputación y trae menos problemas logísticos: no necesitas espacio físico local, tienes alta disponibilidad, evitas instalaciones especiales de electricidad o aire acondicionado, etc… Y todo eso a pesar de sus inconvenientes, como que en las soluciones comerciales actuales de computación en la nube te cobren por el tráfico de red de entrada y/o de salida a las máquinas virtuales que corren en la nube, además de por el tiempo de computación.

Por ello no me ha extrañado encontrarme en una reunión que la gente esté usando CloudBioLinux como base para sus desarrollos en la nube. ¿Qué es CloudBioLinux? Es una imagen de Ubuntu, lista parar ser usada en los sistemas de máquina virtual (p.ej. VirtualBox) o de computación en la nube (p.ej. Amazon EC2). Al estar esta imagen preparada y mantenida en parte por el Craig Venter Institute, esta imagen viene con mucho del software de análisis de datos de ultrasecuenciación instalado (listado parcial disponible aquí). Además, estas imágenes pueden sincronizarse, mediante el script data_fabfile.py, con una imagen global que contiene los índices y los genomas de referencia usados por los programas de ultrasecuenciación que vienen. El script se descarga los índices y genomas seleccionados de manera periódica de una imagen mantenida en Amazon S3, facilitando aún más la tarea de mantenimiento.

La idea es muy buena, y todo esto está muy bien pensado, a expensas de cambiar tiempo de computación por tiempo de transferencia de red y copia de datos. Ya es cuestión de cada uno ponderar los pros y los contras de este tipo de soluciones a la hora de ir a usarlas.

Enlaces

Etiquetas:
Categorias: General

Breves: la vida de un postdoctoral

Hace una semana que Txema, un compañero de trabajo, se convirtió en doctor en Bioinformática (¡Felicidades, Txema!). Pero a nivel científico, convertirse en doctor no significa que vaya a mejorar tu vida, lo cuál queda plasmado en la siguiente viñeta del blog “The Upturned Microscope”, que obtuve a través de mi amiga Nayra (debajo de la viñeta he escrito mi traducción):


Vida Postdoctoral (de forma honesta)

¿Es tu trabajo demasiado seguro?

¿Te está agobiando ese equilibrio saludable que llevas entre trabajo y vida?

¿Tu trabajo te satisface demasiado?

¿Estás cansado de ser apreciado, respetado, premiado y de ser tratado como un ser humano con necesidades humanas, sueños y aspiraciones?

Entonces, ¿por qué no intentas hacer ….? ¡¡¡Un post-doctorado!!!

Firmando un contrato post-doctoral, ¡también puedes jugar a la “ruleta rusa” con tu carrera científica! Supurando con competición y horas de trabajo inaceptables en una sociedad civilizada, ¡un PostDoc te puede ofrecer una oportunidad de perder toda esperanza a niveles profesional, financiero y existencial!

¡RADICAL!

Firma un contrato post-doctoral HOY, y siente todo el peso de la responsabilidad por tu futura caída plena y únicamente sobre tus hombros ¡¡DE FORMA INSTANTÁNEA!!

¡SIN ESPERAS!

Haciendo un PostDoc no te tendrás que preocupar de habilidades “sin sentido” como el trabajo en equipo, comunicación, capacidad de escuchar o cultivar relaciones personales con tus colegas. En un PostDoc, tu rendimiento será medido exclusivamente por el número de publicaciones que produzcas. ¡Así de sencillo!

SIMPLE. CENTRADO. POSTDOC.

¡Experimenta la soledad de la investigación académica! ¡Observa cómo va pasando tu vida! ¡Practica poner tu “cara de confianza” mientras que por dentro aumenta tu agitación y angustia CADA DÍA QUE PASA!

¡Y AHORA TEN MIEDO! (¿lo pillas?)

¡Y ESO NO ES TODO!

Si comienzas un PostDoc hoy, ¡te echaremos encima OTRO PostDoc más sin ningún gasto adicional! Estás en lo cierto: ¡realizar el trabajo de DOS PostDocs cobrando el salario de uno!

¡QUE TRATO!

Así que, ¿a qué estás esperando? ¡Firma un PostDoc y comienza TU LENTA degradación en la miasma pútrida de la investigación científica moderna AHORA!

PostDoc: Porque sólo la pasión no es suficiente

- Bueno, quizás debería escribir los folletos de ahora en adelante.

- ¿Qué? ¡Tú me dijiste “escríbelo desde la experiencia”!

Etiquetas:
Categorias: General

Recompensas por desarrollar algoritmos de compresión para NGS

Muchos de vosotros estareis familiarizados con los sistemas de concursos y recompensas usados por empresas de las tecnologías de la información, como por ejemplo Google con su GSoC (Google Summer of Code) anual, Microsoft ofreciendo una recompensa por suministrar información de botnets, o los premios ofrecidos en la conferencia BlackHat por conseguir determinados tipos de hackeos. Este mismo sistema para espolear la innovación en un sector en concreto ha sido adoptado por la Pistoia Alliance, según aparece en la noticia del 25 de Octubre de 2011 de Bio-IT World (encontrada por Christian Blaschke).

Esta alianza está compuesta por más de 50 compañías y grupos de investigación del área de ciencias de la vida, y han anunciado el lanzamiento de una competición para encontrar el mejor algoritmo de compresión para datos de ultrasecuenciación. Las tecnologías de ultrasecuenciación se están usando actualmente para realizar multitud de experimentos, tanto a nivel de investigación básica (por ejemplo, secuenciación de organismos, proyecto de los 1000 genomas, estudios de genética de poblaciones), como de investigación aplicada a nivel hospitalario, para el estudio de las alteraciones a nivel génico en un paciente de cáncer, o el estudio de enfermedades raras. El problema surge cuando empiezan a acumularse los datos de estos experimentos, ya que cada uno de ellos puede generar fácilmente varios gigabytes de información. El problema de comprimir un conjunto enorme de secuencias no es nuevo en el mundo de la bioinformática, pero no hay una solución definitiva.

La competición se llama Pistoia Alliance Sequence Squeeze Competition, y en ella los participantes tienen que crear algoritmos de código abierto que permitan comprimir datos de ultrasecuenciación en formato FASTQ lo más posible, sin pérdida de información. Los jueces de la competición tendrán que evaluar distintos parámetros de estos algoritmos, como por ejemplo la razón de compresión, la velocidad de compresión y descompresión, si el algoritmo permite descompresión sobre la marcha, etc… El premio para quienes ganen la competición es de $15000, y dicha competición está abierta hasta el 15 de Marzo de 2012.

Enlaces

Etiquetas:
Categorias: Noticias

Las XI Jornadas de Bioinformática serán en Enero de 2012

Como en casi cada edición, la fecha de celebración de las Jornadas de Bioinformática se ha desplazado un poco con respecto a la de la anterior. Por ello, las XI Jornadas de Bioinformática se van a celebrar del 23 al 25 de Enero de 2012, en Barcelona.

Tal como se puede leer en la página llamando a la participación (el famoso Call for Papers), este año las Jornadas van a dedicar una atención especial a la arquitectura genómica, anotación y diseño. En el programa de la conferencia las sesiones están enfocadas a la arquitectura genómica, bioinformática estructural, anotación de genomas, análisis de secuencias, filogenética y evolución. Además, otros temas que se van a tratar son: análisis de datos de ultrasecuenciación (NGS); algoritmos usados en biología computacional y HPC; bases de datos, herramientas y tecnologías para la biología computacional; bioinformática en transcriptómica y proteómica; biología sintética y de sistemas.

Para quienes estáis interesados en asistir, en la página de registro de JBI2012 aparecen los precios de inscripción, y las fechas clave son las siguientes:

Enlaces

Etiquetas:
Categorias: General

La importancia de los mirrors en Bioinformática

Es 1 de Agosto, fecha oficial de comienzo de las vacaciones de muchas personas en el mundo. Justo el peor momento para que algo catastrófico le ocurra a vuestro sitio web favorito. ¿Cuántos de vosotros os habéis tirado de los pelos cuando sólo por unos minutos habéis sido incapaces de acceder a vuestras cuentas de GMail, a vuestros perfiles de Facebook, o a la web de vuestro banco?

Como dicen los angloparlantes, Shit happens, y la bioinformática no iba a ser un área intocable por la mano de Murphy, ¿no? Justo ahora mismo varios sitios relacionados con la bioinformática como MyGrid, Taverna o BioMart no están disponibles porque están sufriendo problemas de algún tipo (los dos primeros, por ejemplo, está confirmado que de hardware). Algo muy común en bioinformática es la existencia de mirrors, lugares donde se encuentran replicados servicios o datos de uso generalizado entre la comunidad bioinformática.

Por ejemplo, sitios como Ensembl o PDB, que proporcionan una serie de servicios imprescindibles a día de hoy para la bioinformática, se encuentran replicados físicamente en distintos puntos geográficos del planeta. Y algo parecido sucede con las bases de datos biológicas más usadas en bioinformática, que se encuentran disponibles en sitios FTP. Los primeros mirrors que nacieron en bioinformática, en la época en que internet estaba casi en pañales y su ancho de banda era bajísimo, fueron creados por la necesidad de tener un acceso local más rápido a los recursos que proporcionaban. Otros motivos fueron más políticos, porque a principios de los años 90 el acceso a los sitios y servidores del NIH (donde se encuentran las copias primarias de GenBank, RefSeq y otras bases de datos) quedaba restringido cada vez que Estados Unidos entraba en algún conflicto bélico, y no por ello los proyectos que dependieran de esas bases de datos en Europa o Japón debían pararse.

La realidad es que a día de hoy el número de recursos bioinformáticos disponibles a través de la web es enorme, pero pocos de ellos disponen de un mirror que pueda usarse en caso de que el sitio principal se caiga, o esté inaccesible por problemas en la conexión de red.

Etiquetas:
Categorias: General

neXtProt: proteínas humanas anotadas al máximo

Durante estos días estoy asistiendo al ISMB/ECCB 2011, en Viena, Austria, y los dos primeros días no son de congreso como tal, sino dedicados a tutoriales y reuniones de SIGs (Special Interest Groups). En el SIG de CAFA (Critical Assessment on Function Prediction) escuché ayer una charla muy interesante de Amos Bairoch sobre la relación existente entre número de genes y el número de proteínas humanas, sobre UniProt y el proceso de anotación, lo que hay anotado sobre proteínas humanas y uno de los nuevos desarrollos que se están llevando a cabo en el SIB (Swiss Institute of Bioinformatics). Este desarrollo es neXProt.

¿De dónde nace este proyecto? En Septiembre de 2008 el grupo de UniProt/Swiss-Prot terminó la primera anotación manual completa de lo que se creía el conjunto completo de proteínas humanas, derivadas de alrededor de 20000 genes. Aunque fue un gran hito, por ya estar esta colección de datos bastante bien anotada con información relacionada con investigación médica biomolecular, queda todavía un gran hueco en el conocimiento disponible en términos de información funcional sobre las proteínas humanas. También queda un gran hueco que rellenar a nivel de caracterización de estas proteínas, como modificaciones postrasduccionales, interacciones con otras proteínas, localizaciones subcelulares de las mismas, etc…

Entonces, el proyecto neXtProt tiene como objetivo rellenar esos huecos, o lo que es lo mismo, utilizar todas las tecnologías, técnicas e información disponibles para caracterizar las proteínas de función desconocida. Si uno piensa en el número de genes de los que dispone el genoma humano, que son unos 20000 genes (y con cada revisión, menos), piensa que el número de proteínas tiene que estar en el mismo orden de magnitud. Pero eso es un error:

Como podéis ver, desde los genes (en el código genético) hasta las proteínas hay un largo camino, que hace que al final haya una estimación de que existen alrededor de 5 millones de proteínas en nuestro proteoma completo. Para conseguir anotar de forma adecuada todas estas proteínas neXtProt va a integrar (no enlazar, realmente integrar) en corto a medio plazo información proteómica experimental de alta calidad, datos experimentales de siRNA, datos estructurales experimentales, información de rutas metabólicas, información poblacional de CNV (cuánto se expresan las distintas variantes de proteínas en las distintas poblaciones humanas) e información disponible de interacción entre las distintas proteínas y las proteínas con fármacos y drogas.

Pero ya hay trabajo hecho. La última publicación de neXtProt ya integra información sobre casi 21000 proteínas, proveniente de las bases de datos UniProt, Ensembl, BGee, ENZYME, GO, GOA, HPA, InterPro, MeSH, PROSITE y PubMed. Me da la impresión de que este proyecto va ser una piedra angular de la bioinformática, igual que lo ha sido Ensembl en los pasados años.

Enlaces

Etiquetas:

Workshop “From Phenotypes to Pathways 2011″, en Septiembre

Del 15 al 17 de Septiembre se va a celebrar en Cambridge, Reino Unido, el workshop From Phenotypes to Pathways 2011. Esta reunión forma parte de las reuniones financiadas por el ESF (European Science Foundation), y que forma parte del ESF reseach networking programme (programa de redes de investigación) Frontiers of Functional Genomics.

La reunión está dirigida a la inferencia de la arquitectura genética (el mapeo entre el genotipo y los fenotipos de un genoma) a partir de mapeos de perturbación obtenidos a partir de técnicas modernas de HTS (High-Throughput Screening). Estas técnicas modernas hacen posible describir una respuesta biológica a miles de perturbaciones experimentales. La reunión está por ello enfocada en las nuevas estrategias experimentales y computacionales aplicables a los rastreos exhaustivos de perturbaciones realizables mediante HTS, para así poder diseccionar las redes regulatorias celulares y los mecanismos de las enfermedades.

La inscripción en el workshop está abierta hasta el próximo 31 de Julio, mediante correo electrónico a la organización (los detalles del correo están en la página). Y para quienes esteis interesados, la inscripción es gratuita.

Enlaces

Etiquetas:
Categorias: Congresos, General