‘General’

Los accession numbers de UniProt tendrán más longitud a partir de Junio

UniProt es una de las bases de datos de proteínas más curada (en su sección SW) y mantenida actualmente, y por eso es tomada como una de las bases de datos de referencia a nivel de información de proteínas. Desde que se hizo pública en Julio de 1986 Swiss-Prot (una de las integrantes de UniProt, y predecesora), cada entrada de la base de datos dispone de un accession number (AC en el formato SW) principal, que sirve para identificar de forma inequívoca cada entrada. También se almacena para cada entrada cero o más accession number secundarios, que fueron usados en el pasado para esta entrada, y que sirven tanto para mantener un historial dentro de UniProt como para poder relacionar material de investigación antiguo (por ejemplo, artículos) con los datos actuales.

Inicialmente, un identificador de Swiss-Prot o TrEMBL tenía el siguiente formato de 6 caracteres:

1 2 3 4 5 6
[O,P,Q] [0-9] [A-Z,0-9] [A-Z,0-9] [A-Z,0-9] [0-9]

lo que permitía tener 13996800 entradas diferentes (3·10·(26+10)3·10). Posteriormente, se permitieron más letras en la primera posición (y menos en la tercera):

1 2 3 4 5 6
[O,P,Q] [0-9] [A-Z,0-9] [A-Z,0-9] [A-Z,0-9] [0-9]
[A-N,R-Z] [0-9] [A-Z] [A-Z,0-9] [A-Z,0-9] [0-9]

lo cuál aumentó el número de identificadores diferentes a 91497600 ((23·10·26·(26+10)2·10) = 77500800).

Pero, en la versión de Mayo de 2014 ya hay 56555610 entradas (545388 de UniProt/SwissProt y 56010222 de UniProt/TrEMBL), eso sin contar los accession number secundarios de dichas entradas. Los encargados de UniProt han hecho sus propios cálculos de estimación del crecimiento de la base de datos y de uso de accession numbers, y se han dado cuenta que para finales de 2014 se iban a quedar sin accession numbers para proteínas nuevas. Así que, a partir del 11 de Junio podrá haber entradas que usen, además de estos formatos, accession number de 10 caracteres:

1 2 3 4 5 6 7 8 9 10
[O,P,Q] [0-9] [A-Z,0-9] [A-Z,0-9] [A-Z,0-9] [0-9]
[A-N,R-Z] [0-9] [A-Z] [A-Z,0-9] [A-Z,0-9] [0-9]
[A-N,R-Z] [0-9] [A-Z] [A-Z,0-9] [A-Z,0-9] [0-9] [A-Z] [A-Z,0-9] [A-Z,0-9] [0-9]

que proporcionarán (23·10·(26·(26+10)2·10)2) = 2.6114669568·1013 nuevos identificadores (una diferencia de 6 órdenes de magnitud), margen suficiente para varios años más.

Enlaces

Etiquetas:
Categorias: General, Noticias

Workshop de Biología Computacional y de Sistemas en Comorbilidades de Enfermedades en ECCB’14

Del 7 al 10 de Septiembre de 2014 se va a celebrar el ECCB’14 en Estrasburgo (Francia), y tal como aparece en este tweet, entre los distintos workshops asociados a dicha conferencia se encuentra uno de Biología Computacional y de Sistemas en Comorbilidades de Enfermedades. Pero ¿qué son la morbilidad, la comorbilidad, y cuándo se dan comorbilidades de enfermedades?

La morbilidad, según la RAE, es “la proporción de personas que enferman en un sitio y tiempo determinado”, por lo que es una medida para saber la prevalencia de una enfermedad (cómo de común es). Y, transcribiendo de la definición de Wikipedia, “comorbilidad” es un término médico que se refiere a dos conceptos distintos:

  • La presencia de uno o más trastornos (o enfermedades) además de la enfermedad o trastorno primario.
  • El efecto de estos trastornos o enfermedades adicionales.

Leyendo la página del workshop, la comorbilidad de enfermedades, o “multimorbilidad”, existe si dos o más desórdenes (defectos genéticos, enfermedades, etc…) afectan a los mismos individuos más frecuentemente que lo esperado en el caso común. El punto clave de la definición está en que esa coocurrencia de enfermedades sea la norma, en lugar de la excepción. Ciertos sectores de la población, como las personas mayores, están predispuestos a las multimorbilidades, lo cuál influye en la necesidad de mayores inversiones en sanidad pública para esos sectores.

Pero tal como declara la página del workshop, la reciente expansión de tanto las bases de datos biomédicas y conjuntos de datos post-genómicos asociados a distintas enfermedades, proveen ingentes cantidades de datos que permiten llevar a cabo investigaciones de comorbilidades entre los distintos desórdenes estudiados. Y justo ahí es donde entran en juego la biología computacional, la biología de sistemas y el workshop.

Tal como aparece en la página del workshop, éste está estructurado en tres sesiones, y se va a celebrar el 7 de Septiembre de 2014. Si tenéis interés de participar y aportar vuestro granito de arena a este workshop, desde el pasado 9 de Abril podéis enviar vuestros abstracts, usando el enlace de EasyChair del workshop. El plazo límite para enviar abstracts es el 15 de Mayo, y la comunicación de la aceptación o rechazo de vuestras contribuciones será el 26 de Mayo.

Enlaces

Etiquetas:
Categorias: General

TopHat 2: arreglos para algunos fallos técnicos

Una parte de la bioinformática actual gira en torno a los análisis de datos de experimentos de ultrasecuenciación: ChIP-Seq, FAIRE-Seq y DNase-Seq, exome sequecing, RNA-Seq, … Una de las herramientas es TopHat (en el momento de escribir esta entrada iba por la versión 2.0.10), que se usa en los experimentos de RNA-Seq para identificar splice junctions tipo exón-exón… Para entender qué  es esto de los splice junctions tipo exón-exón, primero hay que recordar cómo funciona la síntesis de proteínas con estos esquemas de la Wikipedia inglesa:

Cuando una proteína del código genético de la célula va a ser producida por la maquinaria celular, lo primero que se hace es, dentro del núcleo, copiar el código genético correspondiente a los exones que representan a esa proteína, descartando normalmente otros exones alternativos del mismo gen (y de los demás genes). Todos esos exones son puestos de forma consecutiva en un ARN mensajero, que es el que sale del núcleo de la célula con esa información y viaja por el citoplasma hasta llegar a un ribosoma. Pero los procesos biológicos encargados de la composición del ARN mensajero pueden fallar, por ejemplo juntando exones correspondientes a proteínas de distintos genes. Estos procesos pueden estar alterados por defectos genéticos, y por diversas enfermedades, como por ejemplo todos los tipos de cáncer.

Los experimentos de RNA-Seq tratan de capturar la información sobre parte del transcriptoma (que sería el conjunto de todos los posibles ARN mensajeros), justo aquéllos que se encuentran en uso en las muestras usadas para el experimento de RNA-Seq. TopHat usa un genoma de referencia relacionado con los datos a analizar (por ejemplo, el genoma humano), información sobre los exones conocidos y a qué genes corresponden (proveniente de UCSC Genome Browser o Ensembl), y los datos a analizar como tal (del orden de decenas de GB).

TopHat, como casi todas las herramientas y pipelines de análisis del mundo NGS, está en continuo desarrollo y es bastante complejo (está escrito en Python 2.7 y C++), con lo que es inevitable que contenga fallos técnicos. Los datos de un experimento de RNA-Seq que tuvo que analizar una compañera de trabajo han tenido la “suerte” de ser capaz de disparar tres de estos fallos técnicos.

  1. Segmentation fault en segment_juncs: Como se puede ver en esta entrada de un foro de Google Groups, es un fallo existente de antes. La suerte es que en esa entrada vienen las pistas de cómo arreglar dicho fallo en el código fuente, en el fichero src/segment_juncs.cpp .
  2. AttributeError: 'NoneType' object has no attribute 'split' de tophat al relanzar un trabajo terminado abruptamente: tophat viene con la posibilidad de reiniciar trabajos de análisis que hayan terminado de forma abrupta, desde el punto en el que haya fallado. Pero ese mecanismo tiene fallos… Para los que programéis en otros lenguajes de programación, pero no en Python, ‘NoneType’ es la clase de los ‘None’, el equivalente a ‘undef’ de Perl, ‘nil’ de Ruby, ‘NULL’ de C y C++, ‘undefined’ de JavaScript, etc… También hubo suerte, porque en esta otra entrada del mismo foro de Google Groups, un usuario propone un arreglo que, aunque no sea muy ortodoxo ni correcto, hace que tophat continúe.
  3. Segmentation fault en tophat_reports: Aunque este fallo está más o menos documentado en el mismo foro de Google Groups, nadie propone un arreglo. Pero investigando un poco aquí, descubrí que el fallo se encuentra en el fichero src/tophat_reports.cpp, por una razón similar a la descrita en el fallo de segment_juncs.

 Actualización

Para que os sea más fácil arreglar estos problemas si os topáis con ellos, he puesto los parches derivados de los arreglos en un repositorio de GitHub: https://github.com/inab/tophat2-patches

Actualización 2

Hemos encontrado para nuestro caso la causa principal de los dos Segmentation fault. Había discrepancias entre el genoma de referencia y sus índices de bowtie, que se solucionaron ejecutando de vuelta bowtie-build.

Etiquetas:
Categorias: General

¿Por qué las publicaciones científicas están prisioneras detrás de un muro de pagos?

Normalmente, cuando veo una noticia o una entrada de un blog que es interesante para esta bitácora, intento plasmar un resumen personal del mismo, encontrar entradas independientes relacionadas en algún sentido y aportar mi granito de arena adicional, excavando un poco más en lo que he encontrado.

Pero siempre hay excepciones. En el blog Priceonomics, he encontrado la entrada Why is Science behind a paywall?, publicada por Alex Mayyasi el 10 de Mayo de 2013, que pienso que merece ser traducida íntegramente al castellano, al proporcionar una gran retrospectiva sobre por qué los descubrimientos científicos, y las publicaciones donde fueron hechos públicos, son como son (un poco más centrado en Estados Unidos que en el resto de países, todo sea dicho de paso). Espero no hacer un trabajo muy burdo…

(más…)
Etiquetas:

La tabla periódica de los elementos bioinformáticos

Una de las formas que tienen las compañías de hacer propaganda de ellas mismas es crear contenidos lúdicos o educativos relacionados con su área de negocio. A veces, esos contenidos son interesantes, como es el caso de la tabla periódica de los elementos bioinformáticos (a continuación, un pantallazo), que ha sido creada por una compañía de consultoría bioinformática:

La tabla parece haber sido compuesta por gente principalmente versada en el análisis de datos de ultrasecuenciación, porque no incluye servidores ni herramientas de rutas metabólicas, text-mining, filogenia, etc…

Entonces, ¿qué herramientas y sitios web bioinformáticos añadirías a la tabla?

Etiquetas:
Categorias: General

Ensayos clínicos, o cómo explicar algo científico a la gente

Ayer mi amiga Gloria me mandó desde Singapur un correo de unas colegas suyas para participar en un ensayo clínico. Lo primero que viene a la mente es “para eso hay que estar presente, ¿no?”. Pues depende de lo que se vaya a ensayar…

En este caso, lo que se ensayan son contenidos didácticos multimedia, relacionados con la ruta metabólica de señalización Wnt. Para medir cómo de efectivos son los contenidos, utilizan la siguiente metodología:

Luego, con los resultados de todos los participantes, podrán medir si usar el juego o el contenido divulgativo en PDF sirven para aumentar o disminuir lo que los participantes saben sobre Wnt. El único requisito para todo este proceso es usar un navegador lo suficientemente moderno (vamos, un navegador actualizado con soporte de HTML5), en una máquina lo suficientemente moderna, al menos, para la parte del juego.

Si estáis interesados, todos los detalles para participar los podéis encontrar más abajo, en el correo original:

Dear all,
we need a large number of volunteer human test subjects for a pre-clinical trial of a novel method to get certain facts from molecular  biology across the blood-brain barrier.

The test was approved by MOE (really)  and most subject are expected to come out of the trial with a minimum long-term damage.

If you can donate 20 minutes of your time to science,  we would ask you to do the following:

  1. Go here and fill in a quick on-line quiz:  http://goo.gl/utgla
  2. Play an online game here: http://epsf.bmad.bii.a-star.edu.sg/games/wntgame.html
  3. Fill a similar test again: http://goo.gl/Q0CyJ

That’s all.

Notes:

  • you don’t have to be a biologist to play the game – everybody is invited to try their hand
  • you don’t have to tell us who you are when you fill the quiz – the whole setup is actually testing us – the game designers -  and not the player
  • you do need a browser that supports html5 – the game gets cranky on older browsers and older computers
  • if you don’t like playing games, it would actually help us hugely if you would do the same quiz thing, but with flipping through a pdf document between the two quizzes, rather then playing (please ask us, Delia or Ivana)

Many thanks in advance to our brave volunteers,
Delia and Ivana

 

Etiquetas:
Categorias: General, Misceláneo

Movilizaciones por la Ciencia el próximo 19 de Diciembre

Aunque tengo bastante descuidado el blog de bioinformática, las movilizaciones por la ciencia del próximo 19 de Diciembre son una buena razón por la que escribir esta entrada.

Todo lo que voy a mencionar a continuación ya ha sido explicado extensamente, durante todos estos meses y de forma mucho más elocuente, en muchos otros blogs, ya sean o no de Ciencia. Desde el pasado mes de Marzo está circulando La carta abierta por la Ciencia en España (versión en inglés) (versión en español), que denuncia el gran recorte producido en las inversiones reales en Ciencia para 2012, y el retroceso progresivo que ha habido en el apoyo a la Ciencia en España en los pasados años. Esto contrasta de sobremanera con las inversiones de I+D de otros países para 2012, donde no sólo se ha ido mantenido año tras año la inversión en Ciencia, sino que se ha aumentado aún más.

Pues bien, como ya sabeis, los Presupuestos  Generales del Estado para 2013 fueron recientemente aprobados, y el recorte de inversiones reales en Ciencia y en I+D+i es del 25% con respecto al año que ahora se está acabando. Esto nos sitúa, tristemente, al nivel de inversión en I+D que se realizaba en España en 1985. Un retroceso de 27 años, digno del mismísimo Marty McFly en “Regreso al Futuro”. Parafraseando la convocatoria de las movilizaciones del próximo 19 de Diciembre, estamos ante el colapso de nuestro actual sistema de Ciencia y Tecnología.

Por eso, y muchas otras razones, se han convocado en toda España las movilizaciones por la Ciencia para el próximo 19 de Diciembre. Aunque todas las evidencias me digan lo contrario, me niego a creer que, de nuevo parece que como país, como sociedad, estemos condenados por la lapidaria frase de Miguel de Unamuno “¡Que inventen ellos!”. No sólo se van a producir los recortes de I+D+i, sino que estamos dándole como sociedad la patada a nuestra mejor “materia prima”, los investigadores, los innovadores, que son los que crean para cualquier país y empresa riqueza a largo plazo. Ya he visto a muchos amigos buscar lugares en el extranjero más propicios para la Ciencia, o simplemente, dejar la Ciencia. Y España no va a ser capaz de atraer a científicos en muchos años, ya sean de otros países o españoles, de vuelta a España.

Aún con esas, sigamos trabajando en Ciencia (y luchando por ella) mientras nos dejen (aunque suene triste).

P.D.: Todavía está abierta la posibilidad de firmar La Carta Abierta por la Ciencia en España, que en cierta medida se ve representada por la movilización del próximo 19 de Diciembre.

Enlaces Relacionados

Etiquetas:
Categorias: General