‘Servicios interesantes’

B2DROP, compartiendo contenido científico con tus colaboradores

En el mundillo científico uno de los problemas más recurrentes es cómo pasarle tus ficheros de datos (ya sean primarios, de análisis, etc…) a tus colaboradores de otra institución. Si alguna de las instituciones dispone de esa facilidad, como un servidor FTP o HTTP de ficheros temporales, esta tarea se facilita. Pero la mayor parte del tiempo se recurre a servicios externos, tipo Dropbox, debido a la disponibilidad y ubicuidad de los mismos.

Sin embargo, la mayor parte del tiempo estas alternativas de intercambio puntual de contenidos adolecen problemas de privacidad, ya sea porque las transferencias se realizan sobre conexiones no seguras, ya sea porque los términos de uso del servicio no te garantizan la privacidad de esos datos. Por ello, uno de los objetivos de EUDAT es proveer ese tipo de servicio, y para ello han creado B2DROP. B2DROP usa por debajo la tecnología de ownCloud para gestionar el almacenamiento y la disponibilidad del mismo, usando una infraestructura propia de autenticación en el proyecto.

Cualquier investigador (básicamente, alguien con dirección de correo electrónico de un centro de investigación o universidad) que necesite una cuenta B2DROP puede crearla libremente. Para ello, visitando la web del proyecto se tiene la posibilidad tanto de acceder a tu cuenta recién creada como de crear una nueva. Una vez creada y confirmada la cuenta, el interfaz de gestión de tu almacenamiento en B2DROP es similar al de los sistemas de almacenamiento en la nube, con funcionalidades similares (como, por ejemplo, enviar un enlace de descarga, hacer pública una carpeta, etc..). Como todavía se encuentran en estado de prototipo, cada cuenta B2DROP tiene un límite de almacenamiento de 20GB.

Además del interfaz web, hay disponibles clientes nativos tanto para los principales sistemas operativos de ordenadores personales, como para dispositivos móviles. También es posible acceder a tus contenidos mediante el protocolo WebDAV, lo cuál abre la posibilidad de acceder a contenidos almacenados en B2DROP desde sistemas todavía no soportados mediante clientes nativos.

Enlaces

Etiquetas:

Identificando plagios y autoplagios: Deja Vu

Algunos de los problemas internos que más preocupa a las revistas científicas y, en general, a la comunidad científica, es el tema de la falsificación de descubrimientos, el plagio y el autoplagio. La detección de falsificación en los descubrimientos es complicada, y parte de la tarea de los revisores y editores de los artículos recibidos en las revistas científicas es precisamente detectar esos casos.

Para los temas de plagio y autoplagio, muchas revistas disponen de herramientas y departamentos especializados en la detección de estas prácticas, además del trabajo de los propios revisores de artículos. Pero, ¿cómo se puede detectar un plagio o un autoplagio, si hay más de 22 millones de artículos registrados en PubMed, sin contar toda la producción científica? Una posibilidad es usar técnicas de text-mining a la hora de detectar similitudes entre artículos, y de los resultados de esas búsquedas nace la base de datos Deja Vu.

Deja Vu usa por debajo el motor de búsquedas eTBLAST, que busca la similitud de un texto de entrada con los artículos de MEDLINE, CRISP, PMC, Arxiv o Wikipedia (entre otras), para obtener la ‘similitud’ entre los distintos artículos. Dentro de la base de datos guarda además, si hay algún autor en común entre los artículos, si ha sido revisada o no la coincidencia por un experto (o incluso reconocido como plagio), la distancia temporal entre los artículos publicados, teniendo incluso en cuenta en qué idiomas está escrito cada artículo, etc… Aunque en Deja Vu haya pocas entradas en las que difiera el idioma de los artículos similares (por la falta de calidad en las traducciones automáticas entre idiomas), es algo a tener en cuenta. Parte de los casos de plagio y autoplagio se dan al publicar los mismos contenidos en distintos idiomas (por ejemplo, chino e inglés), aprovechando la barrera idiomática para ocultar el plagio.

Mirando los registros de Deja Vu, hay de todo un poco, desde posibles falsos positivos, hasta plagios y autoplagios descarados en los que no ha cambiado ni una coma del título y el abstract del artículo.

Enlaces

Etiquetas:

neXtProt: proteínas humanas anotadas al máximo

Durante estos días estoy asistiendo al ISMB/ECCB 2011, en Viena, Austria, y los dos primeros días no son de congreso como tal, sino dedicados a tutoriales y reuniones de SIGs (Special Interest Groups). En el SIG de CAFA (Critical Assessment on Function Prediction) escuché ayer una charla muy interesante de Amos Bairoch sobre la relación existente entre número de genes y el número de proteínas humanas, sobre UniProt y el proceso de anotación, lo que hay anotado sobre proteínas humanas y uno de los nuevos desarrollos que se están llevando a cabo en el SIB (Swiss Institute of Bioinformatics). Este desarrollo es neXProt.

¿De dónde nace este proyecto? En Septiembre de 2008 el grupo de UniProt/Swiss-Prot terminó la primera anotación manual completa de lo que se creía el conjunto completo de proteínas humanas, derivadas de alrededor de 20000 genes. Aunque fue un gran hito, por ya estar esta colección de datos bastante bien anotada con información relacionada con investigación médica biomolecular, queda todavía un gran hueco en el conocimiento disponible en términos de información funcional sobre las proteínas humanas. También queda un gran hueco que rellenar a nivel de caracterización de estas proteínas, como modificaciones postrasduccionales, interacciones con otras proteínas, localizaciones subcelulares de las mismas, etc…

Entonces, el proyecto neXtProt tiene como objetivo rellenar esos huecos, o lo que es lo mismo, utilizar todas las tecnologías, técnicas e información disponibles para caracterizar las proteínas de función desconocida. Si uno piensa en el número de genes de los que dispone el genoma humano, que son unos 20000 genes (y con cada revisión, menos), piensa que el número de proteínas tiene que estar en el mismo orden de magnitud. Pero eso es un error:

Como podéis ver, desde los genes (en el código genético) hasta las proteínas hay un largo camino, que hace que al final haya una estimación de que existen alrededor de 5 millones de proteínas en nuestro proteoma completo. Para conseguir anotar de forma adecuada todas estas proteínas neXtProt va a integrar (no enlazar, realmente integrar) en corto a medio plazo información proteómica experimental de alta calidad, datos experimentales de siRNA, datos estructurales experimentales, información de rutas metabólicas, información poblacional de CNV (cuánto se expresan las distintas variantes de proteínas en las distintas poblaciones humanas) e información disponible de interacción entre las distintas proteínas y las proteínas con fármacos y drogas.

Pero ya hay trabajo hecho. La última publicación de neXtProt ya integra información sobre casi 21000 proteínas, proveniente de las bases de datos UniProt, Ensembl, BGee, ENZYME, GO, GOA, HPA, InterPro, MeSH, PROSITE y PubMed. Me da la impresión de que este proyecto va ser una piedra angular de la bioinformática, igual que lo ha sido Ensembl en los pasados años.

Enlaces

Etiquetas:

Faculty of 1000 Posters

Algo que siempre he echado en falta en muchos congresos y reuniones es la posibilidad de consultar a posteriori los posters que he visto allí. Es cierto que los resúmenes de los posters aparecen en los libros de actas (o proceedings) de los congresos, pero no incluye ni de lejos todo el material que se presenta.

Así que al descubrir Faculty of 1000 Posters he sentido que se empieza a cubrir ese hueco. Este sitio web es un repositorio de acceso abierto para almacenar y consultar los posters de las áreas relacionadas con biología y medicina, emparentado con Faculty of 1000. Los posters son añadidos junto con su resumen, asignándoles los depositarios una licencia de reutilización (por ejemplo Creative Commons) para que sus derechos sean respetados. Los posters luego están disponibles en formato PDF, para que la gente los pueda ver en formato vectorial, pero con una marca de agua para que quede claro su origen y protegidos todo lo posible contra copia, para poder verlo pero no imprimirlo.

Para la gente que tenga dudas, la mayor parte de las revistas no van a ver la publicación de los posters en Faculty of 1000 Posters como una publicación previa, con lo que no afectará el que en el poster se presente un trabajo preliminar que posteriomente vaya a ser publicado en una revista. Además, en el caso de posters que aparecerán en una conferencia, los coordinadores del sitio garantizan que dichos posters no serán públicos hasta después de la celebración de dicha conferencia.

Enlaces

Etiquetas:

Aprendiendo a usar Ensembl por la red

Haciendo un pequeño paréntesis en mi serie de entradas sobre los orígenes de la bioinformática ha llegado el momento de hablar del material online disponible para aprender a sacarle el máximo partido a Ensembl. Almorzando hoy con mis compañeros de trabajo, Osvaldo mencionó que en la web de Ensembl había una serie de vídeos descriptivos de sus distintas características, y que servían para empezar a entrar en la herramienta.

La web de los tutoriales en vídeo es http://www.ensembl.org/info/website/tutorials/index.html, donde podéis encontrar no sólo la parte audiovisual, sino también presentaciones y mini-cursillos. Todos estos contenidos están en inglés, y los vídeos, al estar almacenados en YouTube, son susceptibles de ser subtitulados para facilitar la tarea de aprendizaje a discapacitados o gente que lea de forma fluida inglés pero no lo entienda de forma fluida.

Poco a poco, es cada vez más común encontrar este tipo de material asociado a herramientas bioinformáticas y sitios web, debido a la proliferación de sitios web como SciVee o SlideShare, que permiten con muy pocos costes difundir tu presentación en audio, vídeo y transparencias.

Y ahora, uno de los vídeos disponibles, el de la introducción a BioMart:

Imagen de previsualización de YouTube
Etiquetas:

WEHI-TV y el famoso vídeo de “Apoptosis and signal transduction”

Varios de mis compañeros de trabajo (Gonzalo, David, …) ya han disfrutado del vídeo ‘Apoptosis and signal transduction’, y hoy al reincorporarme me lo recomendaron. Este vídeo fue usado ayer en el blog de medicina MedTempus, donde describen en la entrada “Apoptosis: el suicidio celular que nos mantiene con vida (I)” el mecanismo del suicidio celular programado (apoptosis).

Imagen de previsualización de YouTube

El vídeo está disponible en YouTube, pero investigando un poco fue originalmente creado en 2006 en el “Walter+Eliza Hall Institute of Medical Research”. En la página web de este centro de investigación se encuentra WEHI-TV, que es uno de los mejores repositorios de animaciones sobre de procesos biológicos. Por ejemplo, he encontrado ahí el siguiente vídeo sobre Diabetes Tipo I y la producción de insulina.

¡A disfrutar!

Etiquetas:

Ya hay datos piloto disponibles del proyecto de 1000 genomes

Desde hace tiempo se encuentra en marcha el ambicioso proyecto 1000 Genomes, cuyo objetivo es proporcionar un catálogo lo más extenso posible de la variabilidad genética humana. ¿En qué consiste el proyecto? Pues, ni más ni menos, en secuenciar usando técnicas de ultrasecuenciación los genomas de 1000 personas escogidas en todo el planeta que representen la mayor parte de las variaciones genéticas posibles de las poblaciones humanas, y tras comparar contra los genomas de referencia escogidos caracterizar los SNPs (variaciones simples de un nucleótido) y los CNVs (copy number variations) que se encuentren.

Los SNPs y CNVs típicos de determinados grupos poblacionales van a permitir identificar qué fármacos son más efectivos o menos perjudiciales en dichos grupos, y personalizar un poco más la medicina. Estas variaciones respecto al genoma de referencia influyen en la predisposición o resistencia a determinados tipos de enfermedades, sin olvidar la influencia del entorno.

La noticia es que ya disponen en el proyecto de datos piloto, y que son públicos. Aunque al equipo de 1000 Genomes todavía le queda bastante trabajo por hacer, estos datos piloto van a servir para que la comunidad científica empiece a estudiar cómo sacarle partido a toda la información que va a estar disponible cuando el proyecto vaya alcanzando sus objetivos principales, y en qué formatos se encuentra.

Enlaces

Etiquetas: