Servicio FTP de KEGG ¿de pago?

Hace un par de días nos han empezado a llegar a todos los que trabajamos en bioinformática correos conteniendo el siguiente párrafo:

Starting on July 1, 2011 the KEGG FTP site for academic users will be transferred from GenomeNet at Kyoto University to NPO Bioinformatics Japan, and it will be available only to paid subscribers. The publicly funded portion, the medicus directory, will continue to be freely accessible at GenomeNet. The KEGG FTP site for commercial customers managed by Pathway Solutions will remain unchanged. The new FTP site is available for free trial until the end of June.

Si además de este párrafo os leéis todos los párrafos de la fuente original (http://www.kegg.jp/kegg/docs/plea.html), veréis que es la transferencia organizativa del sitio FTP, sin los fondos necesarios en la organización de destino, la que ha llevado a esta situación.

Uno de los problemas de las bases de datos bioinformáticas es encontrar una financiación estable para poder seguir manteniéndola actualizada y curada. Muchas bases de datos noveles desaparecen por esta razón, y algunas con solera, como le pasa a KEGG o le pasó en su momento a BIND, tienen que pasar a ser de pago. Cuando una base de datos bioinformática útil (por ejemplo, que contiene datos experimentales únicos o una compilación de datos homogénea) deja de mantenerse, sus contenidos suelen desaparecer, lo cuál es grave teniendo en cuenta el dinero y el esfuerzo que fue necesario invertir para obtener los resultados experimentales.

Etiquetas:
Categorias: General

ADN, rompecabezas y evaluaciones

Aunque la noticia es ya antigua (me la pasó ya hace tiempo David Pisano), el mes pasado, los días 5 a 7 de Abril, se celebró en Barcelona la reunión derivada del SMAAP (Sequence Mapping And Assembly Assessment). Como ya he mencionado en el pasado en otras entradas de este blog, un assessment es una competición de una determinada área de interés científico (en este caso a nivel bioinformático), en la que una serie de grupos participantes compiten a la hora de desarrollar lo mejor posible una determinada tarea.

En el caso de SMAAP, el objetivo era realizar una evaluación bioinformática para comparar y determinar las mejores herramientas de secuenciación, mapeo y ensamblaje genómico. Las técnicas experimentales de secuenciación de alto rendimiento se basan en la premisa de que es muy fácil, fiable y automatizable a nivel experimental secuenciar trocitos de secuencia, en lugar de las secuencias genómicas completas. Para ello primero hay que generar a partir de la muestra que contiene las secuencias genómicas de interés muchas copias de las secuencias genómicas a secuenciar, romper las secuencias en trocitos del tamaño adecuado, secuenciar los trocitos, y luego recomponer el rompecabezas de trocitos de secuencia. Esta recomposición se hace con el tipo de herramientas antes mencionadas.

El resultado de este tipo de competiciones suele decidirse por una combinación de experiencia en el área de conocimiento a evaluar y desarrollos software. Los participantes suelen recibir de los organizadores primero un conjunto de datos de entrenamiento más los resultados esperables con los que poder entrenar y preparar sus herramientas para la competición. Después de eso, los participantes reciben de forma prolongada una serie de conjuntos de datos a evaluar, y dicho conjunto debería ser lo menos sesgado posible y lo suficientemente representativo en el dominio científico a evaluar, para que los resultados derivados de comparar las evaluaciones con los datos reales o esperables sea lo menos sesgado posible.

Enlaces

Etiquetas:
Categorias: General

Presentaciones y vídeos del curso de Supercomputación y NGS

Hace unas semanas anuncié en una entrada del blog que se iba a celebrar en Málaga un curso sobre Supercomputación y NGS. En su momento asistí al curso, y tuvo una calidad superior a la esperada por los propios organizadores. Por ello, los organizadores anunciaron al final del mismo que tanto las presentaciones como los vídeos iban a estar disponibles en la web, para la gente que no tuvo la oportunidad de asistir.

Pues bien, los organizadores han cumplido con su palabra, y han colocado en la siguiente página

http://www.scbi.uma.es/bio/portal/index.php?option=com_content&view=article&id=70:seminariongs&catid=9:news&Itemid=1

todo el material del curso que os he descrito. Los vídeos se encuentran en formato MPEG4, con lo que tal vez tendréis que descargarlos para verlos porque podéis no tener los plugins adecuados instalados en vuestros navegadores.

Es de agradecer esta acción por parte de los organizadores de los cursos, seminarios o congresos, porque sirve para que no caigan en el olvido estas contribuciones a la ciencia.

Etiquetas:
Categorias: General

Qué es necesario para ser un “scientific database curator”

En la entrada anterior escribí una pequeña introducción a las bases de datos biológicas y bioinformáticas, pero no hablé de lo más importante: cómo están organizadas internamente. En una base de datos normal, como la del banco o la de la compañía telefónica, están muy claros los conceptos, los campos, qué almacenar, etc… Pero esto no sirve en un mundo conceptualmente cambiante como el de las ciencias de la vida. El conocimiento disponible sobre organismos, genes, proteínas, interacciones, estructuras, rutas metabólicas, etc.. va cambiando y evolucionando a medida que aparecen nuevas evidencias, y también el conocimiento subyacente, los conceptos en los que se sustenta la organización interna de cada una de ellas.

Y aquí entran en juego los scientific database curators, los conservadores de las bases de datos científicas. Ellos son los encargados de añadir nuevas entradas, de que el conocimiento de la base de datos que conservan no sea erróneo y de relacionarlo con el conocimiento disponible en otras bases de datos biológicas y bioinformáticas. Es un trabajo de mucha responsabilidad, y aquí os incluyo por ejemplo una oferta de empleo (recibida de Leticia, una de mis nuevas compañeras de trabajo) para un curator de la base de datos de interacciones entre proteínas IntAct:

Location:    EBI – Hinxton, UK
Staff Category:    Staff Member
Contract Duration:    3 years
Grading:    5 or 6, depending on experience and qualifications
Closing Date:    10 April 2011
Reference number:    EBI_00070

Job Description

We are seeking a Scientific Database Curator, to join the Proteomics Services team at the European Bioinformatics Institute (EBI) located on the Wellcome Trust Genome Campus near Cambridge in the UK.

The Database Curator will contribute to the maintenance and extension of the IntAct molecular interaction database. The main task is the analysis of published literature on protein interactions and their integration into the IntAct database. The successful candidate will also interact with external data producers and international partner databases to ensure highest quality standards for IntAct data.

The European Bioinformatics Institute (EBI) provides cutting-edge research, service and training in the field of bioinformatics and is home to world class bioinformatics resources such as Ensembl, UniProt, and InterPro.

For further information please visit http://www.ebi.ac.uk/intact/

Qualifications and Experience
The ideal candidate will hold a PhD or MSc in molecular biology, biochemistry, or a related subject. An interest in bioinformatics is required, prior experience in database curation, analysis of protein interactions, molecular pathways or cellular complexes is a plus.

The post holder should be able to work independently and interact well within a team environment. Good communication and interpersonal skills as well as a working knowledge of English language are essential.

Application Instructions
Please apply online through www.embl.org/jobs

Como podéis leer, los curators de bases de datos tienen que tener un profundo conocimiento del dominio del problema, mucha experiencia (tanto experimental como in-silico), y ser usuarios de herramientas bioinformáticas que les ayuden en las tareas de decisión a la hora de añadir nuevo conocimiento o alterar el ya existente. Sus esfuerzos (muchas veces ocultos tras la marea de datos que manejamos día a día) son los que permiten que las herramientas que utilizan técnicas predictivas basadas en la premisa de “culpable por asociación” (si se parece a un burro, lleva arreos de burro, rebuzna y da coces, y aparece en una obra de Juan Ramón Jiménez, entonces es un burro o un primo suyo) funcionen, y es la premisa clave de muchos desarrollos bioinformáticos.

http://www.ebi.ac.uk/intact/
Etiquetas:
Categorias: General

Bases de datos biológicas y bioinformáticas

Casi todos los desarrollos que se hacen a día de hoy en bioinformática de una u otra manera hacen uso de datos almacenados en bases de datos “biológicas” o “bioinformáticas”. Para aquellos de vosotros que tiene formación en ciencias de la computación, cuando escucháis base de datos empezáis a pensar en SQL, el modelo relacional, etc… Para la gente que las tiene que usar diariamente, les vendrá a la mente los gestores de bases de datos y los distintos productos que hay disponibles, tanto de pago como de código abierto, que permiten interrogar de diversas maneras (usando el lenguaje de consultas SQL) la información almacenada en una instancia del gestor. En bioinformática, el concepto de “base de datos biológica” no alude tanto a la tecnología usada como al contenido almacenado.

Una base de datos biológica es un almacén de datos para información derivada de los datos obtenidos experimentos biológicos, ni más ni menos. Y una base de datos bioinformática es un almacén de datos para información derivada de datos biológicos y de programas bioinformáticos. Si bajamos al nivel más técnico, las bases de datos biológicas y bioinformáticas están disponibles generalmente como un conjunto de ficheros planos, cuyo tamaño suele ser enorme. Para que os hagáis una idea, os incluyo un gráfico público de crecimiento de la base de datos GenBank desde 1982 hasta 2008:

GenBank Growth Chart

Y lo más importante de todo: casi todas estas bases de datos son de libre disposición (cualquiera puede descargarlas). Ello es posible porque la información almacenada en la mayor parte de estas bases de datos es de dominio público y casi siempre estática, al venir de investigación científica ya terminada financiada con fondos públicos. Estos ficheros están casi siempre en formato textual, y la razón viene de los orígenes de la bioinformática: poder entender, ver y manipular sus contenidos sin depender de herramientas especializadas. Los contenidos de estos ficheros, al ser textuales, son muy comprimibles, y por eso suelen estar comprimidos con gzip, bzip2, xz, etc…

Próxima entrada: qué es necesario para ser un scientific database curator

Etiquetas:
Categorias: General

Y otro seminario más de NGS

Ya es coincidencia que en tan poco tiempo haya dos seminarios de NGS. Por M. Gonzalo Claros me he enterado que el próximo 16 de Marzo va a celebrarse el seminario “Aplicación de las Técnicas de Secuenciación Masiva de Nueva Generación (NGS) a la Acuicultura y a otros Sistemas de Producción Biológica“. El seminario se celebra bajo el paraguas del proyecto AQUAGENET, dura todo el día 16, y la inscripción al mismo es gratuita. Por lo que he leído en el programa, los ponentes hablarán de las técnicas de aplicación de NGS en peces, moluscos y plantas, comenzando con una introducción a NGS, y una charla sobre el ensamblaje y anotación de genomas y transcriptomas.

Los datos concretos del lugar de celebración del curso, el programa y la inscripción al mismo los podéis encontrar dentro de la presentación online disponible (en el enlace de más abajo).

Enlaces

Etiquetas:
Categorias: Congresos

Canceromatics II: Multilevel Interpretation of Cancer Genome

Los próximos 28 a 30 de Marzo se va a celebrar en el CNIO (Madrid) el Frontiers Meeting Canceromatics II: Multilevel Interpretation of Cancer Genome. Este evento forma parte del ESF research networking programme Frontiers of Functional Genomics, cuyo objetivo es interconectar los desarrollos más prometedores en el área de las tecnologías de genómica funcional con las ideas de biología de sistemas, centrándose principalmente en sus aplicaciones a biomedicina y medioambiente, así como las implicaciones para la sociedad en general.

El evento está organizado por Núria Malats, Alfonso Valencia, Søren Brunak, Chris Sander y Stephen Chanock. Por lo que acabo de ver, todavía no están disponibles los títulos de las charlas de los ponentes confirmados. Si estáis interesados en asistir, tened en cuenta que la asistencia al evento cuesta 200€, y que tenéis de plazo para inscribiros hasta el 18 de Marzo. El formulario de inscripción está en https://www.cnio.es/eventos/form01.asp?ev=1&cev=92 , y a continuación os incluyo el escueto comunicado oficial del mismo:

As part of the ESF research networking programme Frontiers of Functional Genomics
Registration is still open for the conference
Multilevel Interpretation of Cancer Genome
to be held in
Madrid, Spain
28-30 March 2011
Registration available until 18 March 2011
For further details and registration please go to:
http://www.cnio.es/eventos/index.asp?ev=1
ESF research networking programme Frontiers of Functional Genomics
Etiquetas:
Categorias: Congresos