Concurso sobre el impacto de la biotecnología en la vida cotidiana

En este mundo virtual de blogs y podcasts, hace poco se pusieron en contacto conmigo desde RadioSíntesis, una radio dedicada a la ciencia y tecnología. Dicha radio emite por streaming en internet, y que provee los programas ya emitidos en su propio podcast. La razón es que han convocado un concurso llamado “La biotecnología en tu vida”, en el que piden que hasta el 10 de Agosto la gente que quiera participar rellene un formulario (en este instante aún no disponible) en el que habrá una serie de preguntas sobre el impacto de la biotecnología en la vida cotidiana, relacionadas con los programas que emiten.

¿Habrá alguna pregunta en el cuestionario del concurso relacionada con la bioinformática?

Enlaces

Etiquetas:

Y el formato PDB llega a su versión 4.0

Como todo en el mundo de la bioinformática, los formatos de fichero siguen evolucionando. En este caso se trata el formato PDB, que llega a su versión 4.0 . Y con esa nueva versión, toda la base de datos de PDB ha sufrido una revisión profunda para adaptarse al nuevo formato. Dicha revisión se hará pública el próximo 13 de Julio, justo antes del comienzo de las primeras reuniones de ISMB/ECCB 2011. La revisión profunda incluye, por ejemplo, la solución de problemas con la representación de complejos, inhibidores de péptidos o antibióticos. En total, poco menos de 17000 entradas se han visto afectadas por las correcciones de representación en el nuevo formato.

Ya hace casi cuatro años hubo bastante polémica cuando salió el formato PDB 3.1, también parte de las entradas fueron revisadas y actualizadas, pero la comunidad de usuarios (bioinformáticos, cristalógrafos, químicos, etc…) no estuvo de acuerdo con parte de esos cambios en los contenidos de las entradas. Ya veremos qué ocurre en esta ocasión.

Enlaces

Etiquetas:
Categorias: General, Noticias

Instalando RSPerl (e intentando no morir en el intento)

RSPerl es un paquete que intenta tender un puente bidireccional entre Perl y R, de forma que desde un programa escrito en Perl se pueda llamar funciones de R, y desde un programa en R se puedan usar código y módulos de Perl. Suena como un sueño, ¿no?

Mi compañera de trabajo Kristina estuvo hace unos días intentando instalar RSPerl en la última versión disponible de Ubuntu (11.04, Natty), pero el instalador no terminaba de funcionar (varios errores). Me piqué, e intenté hacer lo mismo en un ordenador con Gentoo, y me daba errores diferentes… Como esto empezaba a parecerse a un Expediente X, con lo aprendido he decidido escribir esta entrada de blog, para que si tenéis la necesidad imperiosa de instalar este paquete, no os tropecéis con los mismos muros.

Lo primero de todo es que la última release de RSPerl es antediluviana (0.92-1 del 2 de Agosto de 2007, casi 4 años), lo que indica que no está siendo mantenido. Para más INRI desde entonces ha llovido mucho en el lado de Perl. Es un milagro que el paquete todavía funcione, teniendo en cuenta que este paquete compila una extensión nativa al ser instalado. Personalmente recomiendo usar directamente llamadas a R o Rscript (aquí tenéis un tutorial para iniciaros en el scripting en R), o desde el lado de Perl usar el paquete Statistics::R, que sí que está siendo mantenido y no tiene tantas dependencias.

Para Ubuntu, sobre el papel las precondiciones son instalar los paquetes de Ubuntu libperl-dev, r-base y r-base-dev, ya sea mediante Synaptic o por línea de comandos con apt-get install. Una vez instalados los paquetes, siguiendo las instrucciones de la página de RSPerl todo debería funcionar… pero aquí nos tropezamos con la realidad. Siguiendo los mismos pasos en distintas instalaciones similares (pero no iguales) de Ubuntu 11.04, en unas funcionaba y en otras daba errores difíciles de descifrar (y de resolver).

Intentando instalar RSPerl en Gentoo descubrí además que el siguiente problema lo vais a tener si intentáis instalar RSPerl en una máquina UNIX o Linux con Perl 5.12 (o superior):

i686-pc-linux-gnu-gcc -std=gnu99 -I/usr/lib/R/include -I.  -fno-strict-aliasing -pipe -D_LARGEFILE_SOURCE -D_FILE_OFFSET_BITS=64  -I/usr/lib/perl5/5.12.3/i686-linux/CORE  -DPERL_POLLUTE   -D_R_=1 -DUSE_R=1 -DUSE_TOPLEVEL_EXEC=1 -DWITH_R_IN_PERL=1 -I/usr/local/include    -fpic  -march=core2 -O2 -fomit-frame-pointer -falign-functions=64 -pipe -c Converters.c -o Converters.o
Converters.c: In function ‘PerlAddHomogeneousElement’:
Converters.c:1056: error: duplicate case value
Converters.c:1041: error: previously used here
make: *** [Converters.o] Error 1

La compilación del módulo nativo de RSPerl falla en Perl 5.12.x (o superior) porque con la versión 5.12 cambió el manejo interno de los punteros en Perl (y por ello salta el error de duplicate case value al compilar el paquete). Eso no pasa en las versiones anteriores de Perl (5.10.x, 5.8.x, …). La solución de matar moscas a cañonazos, cuando es posible, es hacer un desactualización a una versión de Perl que sea 5.10.x . Los usuarios de Ubuntu están de suerte todavía, porque la versión 11.04 aún lleva un Perl 5.10.x, pero la próxima Ubuntu 11.10 llevará un Perl 5.12.x, así que…

La solución buena en caso de necesitar impepinablemente RSPerl sería parchearlo para que funcionara con Perl 5.12.x, pero por los intentos que he hecho os puedo contar que no son triviales los cambios que hay que introducir. También sería un detalle que sacaran una nueva versión de RSPerl, pero como no parece que vaya a ocurrir, la solución real para llamar a R desde Perl pienso que es la que recomendé: o usar un módulo alternativo, como por ejemplo Statistics::R, o usar llamadas directas a R o Rscript.

Etiquetas:
Categorias: General

Faculty of 1000 Posters

Algo que siempre he echado en falta en muchos congresos y reuniones es la posibilidad de consultar a posteriori los posters que he visto allí. Es cierto que los resúmenes de los posters aparecen en los libros de actas (o proceedings) de los congresos, pero no incluye ni de lejos todo el material que se presenta.

Así que al descubrir Faculty of 1000 Posters he sentido que se empieza a cubrir ese hueco. Este sitio web es un repositorio de acceso abierto para almacenar y consultar los posters de las áreas relacionadas con biología y medicina, emparentado con Faculty of 1000. Los posters son añadidos junto con su resumen, asignándoles los depositarios una licencia de reutilización (por ejemplo Creative Commons) para que sus derechos sean respetados. Los posters luego están disponibles en formato PDF, para que la gente los pueda ver en formato vectorial, pero con una marca de agua para que quede claro su origen y protegidos todo lo posible contra copia, para poder verlo pero no imprimirlo.

Para la gente que tenga dudas, la mayor parte de las revistas no van a ver la publicación de los posters en Faculty of 1000 Posters como una publicación previa, con lo que no afectará el que en el poster se presente un trabajo preliminar que posteriomente vaya a ser publicado en una revista. Además, en el caso de posters que aparecerán en una conferencia, los coordinadores del sitio garantizan que dichos posters no serán públicos hasta después de la celebración de dicha conferencia.

Enlaces

Etiquetas:

Servicio FTP de KEGG ¿de pago?

Hace un par de días nos han empezado a llegar a todos los que trabajamos en bioinformática correos conteniendo el siguiente párrafo:

Starting on July 1, 2011 the KEGG FTP site for academic users will be transferred from GenomeNet at Kyoto University to NPO Bioinformatics Japan, and it will be available only to paid subscribers. The publicly funded portion, the medicus directory, will continue to be freely accessible at GenomeNet. The KEGG FTP site for commercial customers managed by Pathway Solutions will remain unchanged. The new FTP site is available for free trial until the end of June.

Si además de este párrafo os leéis todos los párrafos de la fuente original (http://www.kegg.jp/kegg/docs/plea.html), veréis que es la transferencia organizativa del sitio FTP, sin los fondos necesarios en la organización de destino, la que ha llevado a esta situación.

Uno de los problemas de las bases de datos bioinformáticas es encontrar una financiación estable para poder seguir manteniéndola actualizada y curada. Muchas bases de datos noveles desaparecen por esta razón, y algunas con solera, como le pasa a KEGG o le pasó en su momento a BIND, tienen que pasar a ser de pago. Cuando una base de datos bioinformática útil (por ejemplo, que contiene datos experimentales únicos o una compilación de datos homogénea) deja de mantenerse, sus contenidos suelen desaparecer, lo cuál es grave teniendo en cuenta el dinero y el esfuerzo que fue necesario invertir para obtener los resultados experimentales.

Etiquetas:
Categorias: General

ADN, rompecabezas y evaluaciones

Aunque la noticia es ya antigua (me la pasó ya hace tiempo David Pisano), el mes pasado, los días 5 a 7 de Abril, se celebró en Barcelona la reunión derivada del SMAAP (Sequence Mapping And Assembly Assessment). Como ya he mencionado en el pasado en otras entradas de este blog, un assessment es una competición de una determinada área de interés científico (en este caso a nivel bioinformático), en la que una serie de grupos participantes compiten a la hora de desarrollar lo mejor posible una determinada tarea.

En el caso de SMAAP, el objetivo era realizar una evaluación bioinformática para comparar y determinar las mejores herramientas de secuenciación, mapeo y ensamblaje genómico. Las técnicas experimentales de secuenciación de alto rendimiento se basan en la premisa de que es muy fácil, fiable y automatizable a nivel experimental secuenciar trocitos de secuencia, en lugar de las secuencias genómicas completas. Para ello primero hay que generar a partir de la muestra que contiene las secuencias genómicas de interés muchas copias de las secuencias genómicas a secuenciar, romper las secuencias en trocitos del tamaño adecuado, secuenciar los trocitos, y luego recomponer el rompecabezas de trocitos de secuencia. Esta recomposición se hace con el tipo de herramientas antes mencionadas.

El resultado de este tipo de competiciones suele decidirse por una combinación de experiencia en el área de conocimiento a evaluar y desarrollos software. Los participantes suelen recibir de los organizadores primero un conjunto de datos de entrenamiento más los resultados esperables con los que poder entrenar y preparar sus herramientas para la competición. Después de eso, los participantes reciben de forma prolongada una serie de conjuntos de datos a evaluar, y dicho conjunto debería ser lo menos sesgado posible y lo suficientemente representativo en el dominio científico a evaluar, para que los resultados derivados de comparar las evaluaciones con los datos reales o esperables sea lo menos sesgado posible.

Enlaces

Etiquetas:
Categorias: General

Presentaciones y vídeos del curso de Supercomputación y NGS

Hace unas semanas anuncié en una entrada del blog que se iba a celebrar en Málaga un curso sobre Supercomputación y NGS. En su momento asistí al curso, y tuvo una calidad superior a la esperada por los propios organizadores. Por ello, los organizadores anunciaron al final del mismo que tanto las presentaciones como los vídeos iban a estar disponibles en la web, para la gente que no tuvo la oportunidad de asistir.

Pues bien, los organizadores han cumplido con su palabra, y han colocado en la siguiente página

http://www.scbi.uma.es/bio/portal/index.php?option=com_content&view=article&id=70:seminariongs&catid=9:news&Itemid=1

todo el material del curso que os he descrito. Los vídeos se encuentran en formato MPEG4, con lo que tal vez tendréis que descargarlos para verlos porque podéis no tener los plugins adecuados instalados en vuestros navegadores.

Es de agradecer esta acción por parte de los organizadores de los cursos, seminarios o congresos, porque sirve para que no caigan en el olvido estas contribuciones a la ciencia.

Etiquetas:
Categorias: General