La bioinformática en el mundo empresarial

Siempre me he preguntado cómo es realizar un desarrollo relacionado con bioinformática en el ámbito empresarial, debido a que los objetivos son distintos. En el mundo científico casi siempre prima publicar antes que la competencia, mientras que en el empresarial los objetivos están más relacionados con la versatilidad y robustez de las herramientas o sistemas desarrollados.

Por ello, cuando me surgió la oportunidad de realizar una serie de preguntas al respecto a alguien «del otro lado» no dudé en aprovechar la ocasión. Mis preguntas las ha contestado Christian Blaschke, de la empresa BioAlma, sobre el desarrollo de un producto de text-mining, novoseek.

Christian Blaschke es licenciado en Fisiología de las Plantas de la universidad de Salzburgo y tiene un doctorado en Biología Molecular de la Universidad Autonóma de Madrid. Empezó su carrera desarrollando sistemas de data mining y extracción de información en el Protein Design Group. Hoy en día es el director de I+D e Investigador Principal de varios proyectos europeos en los que participa Bioalma. También ha sido coordinador de la primera edición de la competición BioCreAtivE de algoritmos de text mining. Lleva más de 10 años investigando en el campo de text mining.

  1. A grandes rasgos, para gente de la calle, ¿qué es novoseek?

    Es un buscador web 2.0 de literatura científica alternativo a Pubmed para buscar en Medline, en artículos de texto completo de PubMedCentral y proyectos de investigación financiados en EEUU (llamados Grants). Está basado en una tecnología de minería de textos única que analiza y procesa los casi 20 millones de publicaciones disponibles en Pubmed y los 3 millones de conceptos existentes en la literatura. Nuestra tecnología analiza y contempla los sinónimos y homónimos al término buscado, lo cual permite tener resultados relevantes y completos a la primera búsqueda. Además, el perfil creado para cada búsqueda (y que aparece en la barra izquierda del buscador) lleva conceptos relevantes relacionados con la consulta realizada con la idea de usarlos como filtros y hacer la búsqueda más específica. De esta manera, el usuario encuentra las publicaciones que necesita leer de una manera más sencilla, rápida y fiable.

  2. ¿Cuál fue el germen a partir del cual nació la herramienta?

    A finales de los años 90 tuve la suerte de poder trabajar con Alfonso Valencia (entonces en el Centro Nacional de Biotecnología) en temas de tratamiento de texto y extracción de información. Él fue unos de los primeros en trabajar en estos temas en el ámbito de la biología molecular y bioinformática y pude explorar muchas líneas de trabajo. En esta época estábamos interesados en la extracción de interacciones entre proteínas y en basar el análisis de los resultados de microarrays de ADN en el conocimiento publicado en la literatura científica. Más tarde nos dimos cuenta de que podíamos ofrecer los beneficios de las tecnologías que habíamos desarrollado a un público más amplio y sobre todo a encontrar una forma en la que los investigadores biomédicos pudieran beneficiarse de ella. Así que empezamos en Bioalma a trabajar en productos que se basaran en el análisis de texto para el ámbito biomédico. Se podría decir que novoseek es la tercera generación de esta línea de productos que ahora hemos llevado a internet.

  3. ¿Cuántas personas han sido necesarias para el desarrollo de novoseek? ¿Tienen / han tenido perfiles muy especializados (text mining, bases de datos, etc…)?

    Empezamos con unas pocas personas y actualmente somos una docena de personas las que participamos activamente en el desarrollo de novoseek. Somos un equipo multidisciplinar que integra personas con formación en muchas áreas. Desde ingenieros informáticos, expertos en el desarrollo de bases de datos, bioinformáticos, bioquímicos, farmacéuticos hasta expertos en la inteligencia artificial. Además llevamos mucho tiempo tratando con textos y analizando lenguaje natural y es un área en el que la mayor parte de nuestro equipo tiene cierta experiencia.

  4. En las herramientas y sistemas web de hoy en día algunos de los puntos críticos son mantener la información actualizada y coherente. ¿Os habéis encontrado (u os estáis encontrando) con muchos problemas?

    Al principio no fue fácil porque el conjunto de documentos comprendidos solamente en PubMed era mucho más grande que cualquier cosa que habíamos procesado anteriormente en nuestra experiencia profesional. Pero tengo que decir que pudimos contar con un grandísimo equipo y hoy en día integramos los documentos que publican PubMed (resúmenes de publicaciones) y PubMedCentral (contenido de texto completo) a diario y estamos prácticamente al día con respecto a estas bases de datos.

  5. ¿Qué tal funciona el feedback de la gente que usa la herramienta? Me refiero a si proponen funcionalidades interesantes, o si os ayuda a la hora de depurar problemas o fallos del sistema.

    Novoseek es un servicio basado en una tecnología de última generación, la gente que trabaja en la empresa es bastante joven, buen conocedora de internet con inquietudes por mejorar constantemente el servicio a usuarios. Por eso, el feedback es muy importante para nosotros. Hemos abierto plataformas de discusión que tienen un papel determinado. En uservoice (http://novoseek.uservoice.com) los usuarios suelen hacernos sugerencias en cuanto a nuevos desarrollos y usabilidad. Nosotros lo estudiamos y lo insertamos en nuestro «hoja de ruta» de desarrollos. Hay cosas fáciles de hacer que tardan poco tiempo (como integrar la exportación a CiteULike) y otras que tenemos que valorar y pueden tardar más (como la búsqueda en figuras e imágenes). Twitter (@novoseek) es una herramienta con la que podemos comunicarnos en tiempo real con nuestros usuarios e intercambiar información como: publicaciones interesantes, noticias, enlaces de interés para nuestra comunidad, sondeos o un feedback más directo. Por ejemplo, recuerdo aquella vez que alguien nos preguntó si novoseek estaba caído y en 5 minutos, 5 personas (nosotros incluídos) le contestaron que no lo estaba.

    Eso sí, hay un sutil equilibrio entre lo que quiere la gente en la herramienta y lo que nosotros creemos bueno para búsquedas eficaces y buena experiencia de usuario. De una manera general, el feedback de los usuarios nos aporta mucho.

  6. Si a día de hoy tuvieras que empezar de cero a diseñar una herramienta con el mismo target que novoseek, teniendo el background que ahora tienes, ¿qué es lo que no harías?

    Nuestra formación profesional es muy técnica y esto se veía en nuestros productos. Eran muy potentes pero demasiado complejos para nuestro público objetivo. Pensábamos que más (funcionalidad) era mejor que menos y no teníamos en cuenta lo suficiente el punto de vista de nuestros usuarios. Para nosotros esto ha sido todo un viaje en el que hemos aprendido mucho. En estos últimos meses hemos realizado muchas pruebas de usabilidad y nos hemos dado cuenta de que hay elementos que no quedan demasiado claros. Por eso estamos actualmente trabajando en un rediseño de novoseek para que sea más fácil de entender como se diferencia de PubMed y que aporta a nuestros usuarios.

  7. En el mundo científico actual de la web 2.0, los web services, las redes sociales bibliográficas (como CiteULike, Zotero 2.0,…), etc… que empieza a estar más allá de PubMed o Google Scholar ¿os estáis encontrando muchos retos para enlazar (o proporcionar enlaces) a estos recursos?

    Por nuestro trabajo y presencia online, conocemos bien las demás herramientas web 2.0 que hoy día forman parte de la vida de un usuario de novoseek. Son herramientas que utilizamos también nosotros y que nos parecen importantes porque complementan el servicio ofrecido por novoseek. Es un requisito que tenemos que cumplir para que la gente nos siga utilizando. Hasta ahora, lo hemos hecho para CiteULike y está pendiente para Zotero 2.0 y Mendeley. Al igual que se multiplican estos servicios web 2.0 y que su uso aumenta entre los científicos, novoseek tiene que ser más compatible con ellos.

  8. Casi todos los servicios bioinformáticos de hoy en día (ya sean académicos o comerciales) ofrecen APIs programáticas. ¿Qué me puedes contar sobre la de vuestro sistema?

    Para el API de novoseek hemos utilizado el estándar REST sobre XML porque es relativamente simple de usar y existen librerías para la mayoría de los lenguajes de programación que se utilizan hoy en día.
    En cuanto a la funcionalidad que ofrece, hemos intentado llevar la mayoría de las cosas que se puede hacer en novoseek al API. Se pude hacer búsquedas en base a palabras y conceptos biológicos (como p.e. genes, enfermedades, fármacos o químicos) para recuperar documentos. En los documentos se ofrecen todas las anotaciones que se incluyen en novoseek y estos se pueden usar como base para nuevos servicios de minería de textos que otras personas quieran realizar. También se ofrecen los conceptos claves que se calculan para una búsqueda en base a los documentos que esta devuelve que caracterizan ese conjunto de documentos.
    Nuestro principal objetivo es ofrecer la posibilidad de poder integrar la funcionalidad de novoseek en otras plataformas por ejemplo para enriquecer el contenido de páginas web o de blogs. Además, hoy en día es muy común hacer «mash-ups» (que se podría traducir como mezclas) entre distintos sistemas para crear algo totalmente nuevo. Queríamos que novoseek se pudiera usar de formas novedosas más allá de lo que a nosotros se nos pudiera ocurrir. Las personas interesadas pueden pedir su API Key en http://api.novoseek.com

  9. ¿Cuáles son los planes para el futuro para una herramienta como novoseek?

    En el futuro queremos extraer cada vez más información de los documentos que están indexados en novoseek para permitir búsquedas cada vez mas potentes. Un problema es p.e. que en PubMed no se puede buscar por una persona, si uno busca «John Smith» el sistema devuelvo documentos donde este nombre se refiere a personas distintas. O en los documentos donde aparece como autor «J Smith» no sabemos si pertenece a «John Smith» o «Jeff Smith». Otro problema que requiere mucho trabajo es encontrar información específica como p.ej. que fármacos tratan una enfermedad o cuales son las causas genéticas de una enfermedad. Queremos resolver este tipo de problemas a nuestros usuarios para así ahorrarles tiempo empleado en la búsqueda y que lo puedan dedicar a leer los documentos que realmente son relevantes para ellos.

  10. ¿Puedes comentarme más acerca de la infraestructura necesaria para dar este servicio?

    Al principio montamos a novoseek sobre un pequeño cluster de máquinas Linux que estaba alojado en nuestras oficinas en Madrid. Pero nos dimos cuenta de que mantener un servicio de 24 horas con un mínimo de interrupciones no era fácil. Dependíamos de una única línea de internet que falló varias veces en esos primeros meses, el sistema de aire acondicionado no era lo suficientemente seguro y no podíamos aguantar cortes de luz de más de 15 minutos. Después de valorar muchas opciones como alojar nuestras máquinas en un centro de datos o de alquilarlas en uno de estos centros, nos decidimos por los servicios de web que ofrece Amazon (lo que se conoce por AWS – Amazon Web Services que consisten en EC2 y S3). Amazon ofrece lo que hoy en día se llama «la nube«, un sistema de máquinas virtuales que se configuran de forma muy flexible. Es fácil crear más nodos para afrontar nuestras crecientes necesidades y además se paga solamente lo que realmente se utiliza. La decisión de migrar novoseek a la plataforma de Amazon nos resolvió los problemas que he mencionado antes porque es un entorno muy estable que no nos ha fallado en el tiempo que lo llevamos usando.

Compartir:

4 comentarios

  1. ¡Enhorabuena a José María por el post y a Blaschke por Novoseek!

    En la entrevista quedan reflejadas muchas de las opciones estratégicas y de los retos para este tipo de empresas, creo que es muy buen contenido para los expertos en minería de datos, para los usuarios directos de este tipo de webs, y para todas las empresas que tengan deficiencias en este campo. Creo que existe un nicho en la oferta de servicios fiables de data mining para empresas que emplean gran volumen de datos pero no pilotan todas las etapas del proceso.

    ¡Esperemos que la interacción con Mendeley y Zotero sea fructífera!

Deja un comentario