{"id":130920,"date":"2010-03-25T17:17:16","date_gmt":"2010-03-25T16:17:16","guid":{"rendered":"http:\/\/www.madrimasd.org\/blogs\/bioinformatica\/?p=130920"},"modified":"2010-03-25T17:26:50","modified_gmt":"2010-03-25T16:26:50","slug":"la-bioinformatica-en-el-mundo-empresarial","status":"publish","type":"post","link":"https:\/\/www.madrimasd.org\/blogs\/bioinformatica\/2010\/03\/25\/130920","title":{"rendered":"La bioinform\u00e1tica en el mundo empresarial"},"content":{"rendered":"<p>Siempre me he preguntado c\u00f3mo es realizar un desarrollo relacionado con bioinform\u00e1tica en el \u00e1mbito empresarial, debido a que los objetivos son distintos. En el mundo cient\u00edfico casi siempre prima publicar antes que la competencia, mientras que en el empresarial los objetivos est\u00e1n m\u00e1s relacionados con la versatilidad y robustez de las herramientas o sistemas desarrollados.<\/p>\n<p>Por ello, cuando me surgi\u00f3 la oportunidad de realizar una serie de preguntas al respecto a alguien \u00abdel otro lado\u00bb no dud\u00e9 en aprovechar la ocasi\u00f3n. Mis preguntas las ha contestado Christian Blaschke, de la empresa <a href=\"http:\/\/www.bioalma.com\/\" target=\"_blank\">BioAlma<\/a>, sobre el desarrollo de un producto de <em>text-mining<\/em>, <a href=\"http:\/\/www.novoseek.com\/\" target=\"_blank\">novoseek<\/a>.<!--more--><\/p>\n<p>Christian Blaschke es licenciado en Fisiolog\u00eda de las Plantas de la universidad de Salzburgo y tiene un doctorado en Biolog\u00eda Molecular de la <a href=\"http:\/\/www.uam.es\/\" target=\"_blank\">Universidad Auton\u00f3ma de Madrid<\/a>. Empez\u00f3 su carrera desarrollando sistemas de <em>data mining<\/em> y extracci\u00f3n de informaci\u00f3n en el Protein Design Group. Hoy en d\u00eda es el director de I+D e  Investigador Principal de varios proyectos europeos en los que participa <a href=\"http:\/\/www.bioalma.com\/\" target=\"_blank\">Bioalma<\/a>. Tambi\u00e9n ha sido coordinador de la primera edici\u00f3n de la competici\u00f3n <a href=\"http:\/\/biocreative.sourceforge.net\/\" target=\"_blank\">BioCreAtivE<\/a> de algoritmos de <em>text mining<\/em>. Lleva m\u00e1s de 10 a\u00f1os investigando en el campo de <em>text mining<\/em>.<\/p>\n<ol>\n<li><strong>A grandes rasgos, para gente de la calle, \u00bfqu\u00e9 es novoseek?<\/strong><br \/>\n<blockquote><p>Es un buscador web 2.0 de literatura cient\u00edfica alternativo a <a href=\"http:\/\/www.novoseek.com\/\" target=\"_blank\">Pubmed<\/a> para buscar en Medline, en art\u00edculos de texto completo de <a href=\"http:\/\/www.ncbi.nlm.nih.gov\/pmc\/\" target=\"_blank\">PubMedCentral<\/a> y proyectos de investigaci\u00f3n financiados en EEUU (llamados <em><a href=\"http:\/\/en.wikipedia.org\/wiki\/Grant_%28money%29\">Grants<\/a><\/em>). Est\u00e1 basado en una tecnolog\u00eda de miner\u00eda de textos \u00fanica que analiza y procesa los casi 20 millones de publicaciones disponibles en Pubmed y los 3 millones de conceptos existentes en la literatura. Nuestra tecnolog\u00eda analiza y contempla los sin\u00f3nimos y hom\u00f3nimos al t\u00e9rmino buscado, lo cual permite tener resultados relevantes y completos a la primera b\u00fasqueda. Adem\u00e1s, el perfil creado para cada b\u00fasqueda (y que aparece en la barra izquierda del buscador) lleva conceptos relevantes relacionados con la  consulta realizada con la idea de usarlos como filtros y hacer la b\u00fasqueda m\u00e1s espec\u00edfica. De esta manera, el usuario encuentra las publicaciones que necesita leer de una manera m\u00e1s sencilla, r\u00e1pida y fiable.<\/p><\/blockquote>\n<\/li>\n<li><strong> \u00bfCu\u00e1l fue el germen a partir del cual naci\u00f3 la herramienta?<\/strong><br \/>\n<blockquote><p>A finales de los a\u00f1os 90 tuve la suerte de poder trabajar con <a href=\"http:\/\/www.cnio.es\/es\/grupos\/plantillas\/programa-grupos.asp?pag=660\" target=\"_blank\">Alfonso Valencia<\/a> (entonces en el <a href=\"http:\/\/www.cnb.csic.es\/\">Centro Nacional de Biotecnolog\u00eda<\/a>) en temas de tratamiento de texto y extracci\u00f3n de informaci\u00f3n. \u00c9l fue unos de los primeros en trabajar en estos temas en el \u00e1mbito de la biolog\u00eda molecular y bioinform\u00e1tica y pude explorar muchas l\u00edneas de trabajo. En esta \u00e9poca est\u00e1bamos interesados en la extracci\u00f3n de interacciones entre prote\u00ednas y en basar el an\u00e1lisis de los resultados de <a href=\"http:\/\/es.wikipedia.org\/wiki\/Chip_de_ADN\" target=\"_blank\">microarrays de ADN<\/a> en el conocimiento publicado en la literatura cient\u00edfica. M\u00e1s tarde nos dimos cuenta de que pod\u00edamos ofrecer los beneficios de las tecnolog\u00edas que hab\u00edamos desarrollado a un p\u00fablico m\u00e1s amplio y sobre todo a encontrar una forma en la que los investigadores biom\u00e9dicos pudieran beneficiarse de ella. As\u00ed que empezamos en Bioalma a trabajar en productos que se basaran en el an\u00e1lisis de texto para el \u00e1mbito biom\u00e9dico. Se podr\u00eda decir que <a href=\"http:\/\/www.novoseek.com\/\">novoseek<\/a> es la tercera generaci\u00f3n de esta l\u00ednea de productos que ahora hemos llevado a internet.<\/p><\/blockquote>\n<\/li>\n<li><strong>\u00bfCu\u00e1ntas personas han sido necesarias para el desarrollo de novoseek? \u00bfTienen \/ han tenido perfiles muy especializados (<em>text mining<\/em>, bases de datos, etc&#8230;)?<\/strong><br \/>\n<blockquote><p>Empezamos con unas pocas personas y actualmente somos una docena de personas las que participamos activamente en el desarrollo de novoseek. Somos un equipo multidisciplinar que integra personas con formaci\u00f3n en muchas \u00e1reas. Desde ingenieros inform\u00e1ticos, expertos en el desarrollo de bases de datos, bioinform\u00e1ticos, bioqu\u00edmicos, farmac\u00e9uticos hasta expertos en la inteligencia artificial. Adem\u00e1s llevamos mucho tiempo tratando con textos y analizando lenguaje natural y es un \u00e1rea en el que la mayor parte de nuestro equipo tiene cierta experiencia.<\/p><\/blockquote>\n<\/li>\n<li><strong>En las herramientas y sistemas web de hoy en d\u00eda algunos de los puntos cr\u00edticos son mantener la informaci\u00f3n actualizada y coherente. \u00bfOs hab\u00e9is encontrado (u os est\u00e1is encontrando) con muchos problemas?<\/strong><br \/>\n<blockquote><p>Al principio no fue f\u00e1cil porque el conjunto de documentos comprendidos solamente en PubMed era mucho m\u00e1s grande que cualquier cosa que hab\u00edamos procesado anteriormente en nuestra experiencia profesional. Pero tengo que decir que pudimos contar con un grand\u00edsimo equipo y hoy en d\u00eda integramos los documentos que publican PubMed (res\u00famenes de publicaciones) y PubMedCentral (contenido de texto completo) a diario y estamos pr\u00e1cticamente al d\u00eda con respecto a estas bases de datos.<\/p><\/blockquote>\n<\/li>\n<li><strong>\u00bfQu\u00e9 tal funciona el <em>feedback<\/em> de la gente que usa la herramienta? Me refiero a si proponen funcionalidades interesantes, o si os ayuda a la hora de depurar problemas o fallos del sistema.<\/strong><br \/>\n<blockquote><p>Novoseek es un servicio basado en una tecnolog\u00eda de \u00faltima generaci\u00f3n, la gente que trabaja en la empresa es bastante joven, buen conocedora de internet con inquietudes por mejorar constantemente el servicio a usuarios. Por eso, el <em>feedback<\/em> es muy importante para nosotros. Hemos abierto plataformas de discusi\u00f3n que tienen un papel determinado. En <a href=\"http:\/\/novoseek.uservoice.com\/\">uservoice<\/a> (<a href=\"http:\/\/novoseek.uservoice.com\/\">http:\/\/novoseek.uservoice.com<\/a>) los usuarios suelen hacernos sugerencias en cuanto a nuevos desarrollos y usabilidad. Nosotros lo estudiamos y lo insertamos en nuestro \u00abhoja de ruta\u00bb de desarrollos. Hay cosas f\u00e1ciles de hacer que tardan poco tiempo (como integrar la exportaci\u00f3n a <a href=\"http:\/\/www.citeulike.org\/\">CiteULike<\/a>) y otras que tenemos que valorar y pueden tardar m\u00e1s (como la b\u00fasqueda en figuras e im\u00e1genes). <a href=\"http:\/\/twitter.com\/novoseek\" target=\"_blank\">Twitter (@novoseek)<\/a> es una herramienta con la que podemos comunicarnos en tiempo real con nuestros usuarios e intercambiar informaci\u00f3n como: publicaciones interesantes, noticias, enlaces de inter\u00e9s para nuestra comunidad, sondeos o un <em>feedback<\/em> m\u00e1s directo. Por ejemplo, recuerdo aquella vez que alguien nos pregunt\u00f3 si novoseek estaba ca\u00eddo y en 5 minutos, 5 personas (nosotros inclu\u00eddos) le contestaron que no lo estaba.<\/p>\n<p>Eso s\u00ed, hay un sutil equilibrio entre lo que quiere la gente en la herramienta y lo que nosotros creemos bueno para b\u00fasquedas eficaces y buena experiencia de usuario. De una manera general, el <em>feedback<\/em> de los usuarios nos aporta mucho.<\/p><\/blockquote>\n<\/li>\n<li><strong>Si a d\u00eda de hoy tuvieras que empezar de cero a dise\u00f1ar una herramienta con el mismo <em>target<\/em> que novoseek, teniendo el <em>background<\/em> que ahora tienes, \u00bfqu\u00e9 es lo que no har\u00edas?<\/strong><br \/>\n<blockquote><p>Nuestra formaci\u00f3n profesional es muy t\u00e9cnica y esto se ve\u00eda en nuestros productos. Eran muy potentes pero demasiado complejos para nuestro p\u00fablico objetivo. Pens\u00e1bamos que m\u00e1s (funcionalidad) era mejor que menos y no ten\u00edamos en cuenta lo suficiente el punto de vista de nuestros usuarios. Para nosotros esto ha sido todo un viaje en el que hemos aprendido mucho. En estos \u00faltimos meses hemos realizado muchas pruebas de usabilidad y nos hemos dado cuenta de que hay elementos que no quedan demasiado claros. Por eso estamos actualmente trabajando en un redise\u00f1o de novoseek para que sea m\u00e1s f\u00e1cil de entender como se diferencia de PubMed y que aporta a nuestros usuarios.<\/p><\/blockquote>\n<\/li>\n<li><strong>En el mundo cient\u00edfico actual de la web 2.0, los web services, las redes sociales bibliogr\u00e1ficas (como CiteULike, Zotero 2.0,&#8230;), etc&#8230; que empieza a estar m\u00e1s all\u00e1 de PubMed o Google Scholar \u00bfos est\u00e1is encontrando muchos retos para enlazar (o proporcionar enlaces) a estos recursos?<\/strong><br \/>\n<blockquote><p>Por nuestro trabajo y presencia <em>online<\/em>, conocemos bien las dem\u00e1s herramientas web 2.0 que hoy d\u00eda forman parte de la vida de un usuario de novoseek. Son herramientas que utilizamos tambi\u00e9n nosotros y que nos parecen importantes porque complementan el servicio ofrecido por novoseek. Es un requisito que tenemos que cumplir para que la gente nos siga utilizando. Hasta ahora, lo hemos hecho para CiteULike y est\u00e1 pendiente para <a href=\"http:\/\/www.zotero.org\/\" target=\"_blank\">Zotero 2.0<\/a> y <a href=\"http:\/\/www.mendeley.com\/\" target=\"_blank\">Mendeley<\/a>. Al igual que se multiplican estos servicios web 2.0 y que su uso aumenta entre los cient\u00edficos, novoseek tiene que ser m\u00e1s compatible con ellos.<\/p><\/blockquote>\n<\/li>\n<li><strong>Casi todos los servicios bioinform\u00e1ticos de hoy en d\u00eda (ya sean acad\u00e9micos o comerciales) ofrecen APIs program\u00e1ticas. \u00bfQu\u00e9 me puedes contar sobre la de vuestro sistema?<\/strong><br \/>\n<blockquote><p>Para el API de novoseek hemos utilizado el est\u00e1ndar REST sobre XML porque es relativamente simple de usar y existen librer\u00edas para la mayor\u00eda de los lenguajes de programaci\u00f3n que se utilizan hoy en d\u00eda.<br \/>\nEn cuanto a la funcionalidad que ofrece, hemos intentado llevar la mayor\u00eda de las cosas que se puede hacer en novoseek al API. Se pude hacer b\u00fasquedas en base a palabras y conceptos biol\u00f3gicos (como p.e. genes, enfermedades, f\u00e1rmacos o qu\u00edmicos) para recuperar documentos. En los documentos se ofrecen todas las anotaciones que se incluyen en novoseek y estos se pueden usar como base para nuevos servicios de miner\u00eda de textos que otras personas quieran realizar. Tambi\u00e9n se ofrecen los conceptos claves que se calculan para una b\u00fasqueda en base a los documentos que esta devuelve que caracterizan ese conjunto de documentos.<br \/>\nNuestro principal objetivo es ofrecer la posibilidad de poder integrar la funcionalidad de novoseek en otras plataformas por ejemplo para enriquecer el contenido de p\u00e1ginas web o de blogs. Adem\u00e1s, hoy en d\u00eda es muy com\u00fan hacer \u00ab<a href=\"http:\/\/es.wikipedia.org\/wiki\/Mashup_%28aplicaci%C3%B3n_web_h%C3%ADbrida%29\" target=\"_blank\">mash-ups<\/a>\u00bb (que se podr\u00eda traducir como mezclas) entre distintos sistemas para crear algo totalmente nuevo. Quer\u00edamos que novoseek se pudiera usar de formas novedosas m\u00e1s all\u00e1 de lo que a nosotros se nos pudiera ocurrir. Las personas interesadas pueden pedir su API Key en <a href=\"http:\/\/api.novoseek.com\" target=\"_blank\">http:\/\/api.novoseek.com<\/a><\/p><\/blockquote>\n<\/li>\n<li><strong>\u00bfCu\u00e1les son los planes para el futuro para una herramienta como novoseek?<\/strong><br \/>\n<blockquote><p>En el futuro queremos extraer cada vez m\u00e1s informaci\u00f3n de los documentos que est\u00e1n indexados en novoseek para permitir b\u00fasquedas cada vez mas potentes. Un problema es p.e. que en PubMed no se puede buscar por una persona, si uno busca \u00abJohn Smith\u00bb el sistema devuelvo documentos donde este nombre se refiere a personas distintas. O en los documentos donde aparece como autor \u00abJ Smith\u00bb no sabemos si pertenece a \u00abJohn Smith\u00bb o \u00abJeff Smith\u00bb. Otro problema que requiere mucho trabajo es encontrar informaci\u00f3n espec\u00edfica como p.ej. que f\u00e1rmacos tratan una enfermedad o cuales son las causas gen\u00e9ticas de una enfermedad. Queremos resolver este tipo de problemas a nuestros usuarios para as\u00ed ahorrarles tiempo empleado en la b\u00fasqueda y que lo puedan dedicar a leer los documentos que realmente son relevantes para ellos.<\/p><\/blockquote>\n<\/li>\n<li><strong>\u00bfPuedes comentarme m\u00e1s acerca de la infraestructura necesaria para dar este servicio?<\/strong><br \/>\n<blockquote><p>Al principio montamos a novoseek sobre un peque\u00f1o cluster de m\u00e1quinas Linux que estaba alojado en nuestras oficinas en Madrid. Pero nos dimos cuenta de que mantener un servicio de 24 horas con un m\u00ednimo de interrupciones no era f\u00e1cil. Depend\u00edamos de una \u00fanica l\u00ednea de internet que fall\u00f3 varias veces en esos primeros meses, el sistema de aire acondicionado no era lo suficientemente seguro y no pod\u00edamos aguantar cortes de luz de m\u00e1s de 15 minutos. Despu\u00e9s de valorar muchas opciones como alojar nuestras m\u00e1quinas en un centro de datos o de alquilarlas en uno de estos centros, nos decidimos por los servicios de web que ofrece <a href=\"http:\/\/www.amazon.com\/\">Amazon<\/a> (lo que se conoce por <a href=\"http:\/\/aws.amazon.com\/\" target=\"_blank\">AWS &#8211; Amazon Web Services<\/a> que consisten en <a href=\"http:\/\/aws.amazon.com\/ec2\/\" target=\"_blank\">EC2<\/a> y <a href=\"http:\/\/aws.amazon.com\/s3\/\" target=\"_blank\">S3<\/a>). Amazon ofrece lo que hoy en d\u00eda se llama \u00ab<a href=\"http:\/\/es.wikipedia.org\/wiki\/Cloud_Computing\" target=\"_blank\">la nube<\/a>\u00ab, un sistema de m\u00e1quinas virtuales que se configuran de forma muy flexible. Es f\u00e1cil crear m\u00e1s nodos para afrontar nuestras crecientes necesidades y adem\u00e1s se paga solamente lo que realmente se utiliza. La decisi\u00f3n de migrar novoseek a la plataforma de Amazon nos resolvi\u00f3 los problemas que he mencionado antes porque es un entorno muy estable que no nos ha fallado en el tiempo que lo llevamos usando.<\/p><\/blockquote>\n<\/li>\n<\/ol>\n","protected":false},"excerpt":{"rendered":"<p>Siempre me he preguntado c\u00f3mo es realizar un desarrollo relacionado con bioinform\u00e1tica en el \u00e1mbito empresarial, debido a que los objetivos son distintos. En el mundo cient\u00edfico casi siempre prima publicar antes que la competencia, mientras que en el empresarial los objetivos est\u00e1n m\u00e1s relacionados con la versatilidad y robustez de las herramientas o sistemas desarrollados. Por ello, cuando me surgi\u00f3 la oportunidad de realizar una serie de preguntas al respecto a alguien \u00abdel otro lado\u00bb no dud\u00e9 en aprovechar la ocasi\u00f3n. Mis preguntas las ha contestado Christian Blaschke, de la empresa BioAlma, sobre el desarrollo de un producto de\u2026<\/p>\n","protected":false},"author":25,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"ngg_post_thumbnail":0},"categories":[1,187],"tags":[],"blocksy_meta":{"styles_descriptor":{"styles":{"desktop":"","tablet":"","mobile":""},"google_fonts":[],"version":4}},"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/www.madrimasd.org\/blogs\/bioinformatica\/wp-json\/wp\/v2\/posts\/130920"}],"collection":[{"href":"https:\/\/www.madrimasd.org\/blogs\/bioinformatica\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.madrimasd.org\/blogs\/bioinformatica\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.madrimasd.org\/blogs\/bioinformatica\/wp-json\/wp\/v2\/users\/25"}],"replies":[{"embeddable":true,"href":"https:\/\/www.madrimasd.org\/blogs\/bioinformatica\/wp-json\/wp\/v2\/comments?post=130920"}],"version-history":[{"count":11,"href":"https:\/\/www.madrimasd.org\/blogs\/bioinformatica\/wp-json\/wp\/v2\/posts\/130920\/revisions"}],"predecessor-version":[{"id":130930,"href":"https:\/\/www.madrimasd.org\/blogs\/bioinformatica\/wp-json\/wp\/v2\/posts\/130920\/revisions\/130930"}],"wp:attachment":[{"href":"https:\/\/www.madrimasd.org\/blogs\/bioinformatica\/wp-json\/wp\/v2\/media?parent=130920"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.madrimasd.org\/blogs\/bioinformatica\/wp-json\/wp\/v2\/categories?post=130920"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.madrimasd.org\/blogs\/bioinformatica\/wp-json\/wp\/v2\/tags?post=130920"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}