Archivo de julio, 2011

neXtProt: proteínas humanas anotadas al máximo

Durante estos días estoy asistiendo al ISMB/ECCB 2011, en Viena, Austria, y los dos primeros días no son de congreso como tal, sino dedicados a tutoriales y reuniones de SIGs (Special Interest Groups). En el SIG de CAFA (Critical Assessment on Function Prediction) escuché ayer una charla muy interesante de Amos Bairoch sobre la relación existente entre número de genes y el número de proteínas humanas, sobre UniProt y el proceso de anotación, lo que hay anotado sobre proteínas humanas y uno de los nuevos desarrollos que se están llevando a cabo en el SIB (Swiss Institute of Bioinformatics). Este desarrollo es neXProt.

¿De dónde nace este proyecto? En Septiembre de 2008 el grupo de UniProt/Swiss-Prot terminó la primera anotación manual completa de lo que se creía el conjunto completo de proteínas humanas, derivadas de alrededor de 20000 genes. Aunque fue un gran hito, por ya estar esta colección de datos bastante bien anotada con información relacionada con investigación médica biomolecular, queda todavía un gran hueco en el conocimiento disponible en términos de información funcional sobre las proteínas humanas. También queda un gran hueco que rellenar a nivel de caracterización de estas proteínas, como modificaciones postrasduccionales, interacciones con otras proteínas, localizaciones subcelulares de las mismas, etc…

Entonces, el proyecto neXtProt tiene como objetivo rellenar esos huecos, o lo que es lo mismo, utilizar todas las tecnologías, técnicas e información disponibles para caracterizar las proteínas de función desconocida. Si uno piensa en el número de genes de los que dispone el genoma humano, que son unos 20000 genes (y con cada revisión, menos), piensa que el número de proteínas tiene que estar en el mismo orden de magnitud. Pero eso es un error:

Como podéis ver, desde los genes (en el código genético) hasta las proteínas hay un largo camino, que hace que al final haya una estimación de que existen alrededor de 5 millones de proteínas en nuestro proteoma completo. Para conseguir anotar de forma adecuada todas estas proteínas neXtProt va a integrar (no enlazar, realmente integrar) en corto a medio plazo información proteómica experimental de alta calidad, datos experimentales de siRNA, datos estructurales experimentales, información de rutas metabólicas, información poblacional de CNV (cuánto se expresan las distintas variantes de proteínas en las distintas poblaciones humanas) e información disponible de interacción entre las distintas proteínas y las proteínas con fármacos y drogas.

Pero ya hay trabajo hecho. La última publicación de neXtProt ya integra información sobre casi 21000 proteínas, proveniente de las bases de datos UniProt, Ensembl, BGee, ENZYME, GO, GOA, HPA, InterPro, MeSH, PROSITE y PubMed. Me da la impresión de que este proyecto va ser una piedra angular de la bioinformática, igual que lo ha sido Ensembl en los pasados años.

Enlaces

Etiquetas: