Hace ya tiempo me pidió mi amigo Ramón de BioAlma que probara uno de los nuevos sistemas de text-mining que han desarrollado. El sistema se llama novo|seek, y aunque haya nacido en una compañía, lo puede usar cualquiera tras registrarse gratuitamente en la página de creación de una nueva cuenta.

Una vez que te creas la cuenta y te autenticas en el sistema, la página principal de novo|seek muestra una disposición similar a la de los buscadores de contenidos como Google o Wikipedia, con un campo de texto libre donde escribir los términos a buscar. Una vez que lanzas la búsqueda, los resultados que se obtienen son del estilo de iHOP o Google Scholar: fragmentos de los abstracts o los artículos relevantes para los términos de búsqueda, con información resaltada. Pero es ahí donde terminan las similitudes…

Una vez realizada la búsqueda inicial se puede empezar a refinar la misma, aprovechando el panel de filtros que aparece en la parte izquierda de la página de resultados. Los filtros pueden ser tanto bibliográficos (por ejemplo, autores o revistas) como conceptuales (por ejemplo, enfermedades, síntomas, genes, etc…). Son filtros dinámicos, basados en los contenidos de los resultados obtenidos, y de esa manera sólo se muestran filtros realmente útiles para la consulta, lo cuál es de agradecer a la hora de refinar búsquedas sobre términos muy comunes.

Para probar qué tal funciona el sistema, he probado a buscar con un término bastante común como «prostate cancer». La búsqueda inicial me devolvió alrededor de 43000 resultados en novo|seek y alrededor de 644000 en Google Scholar (iHOP estaba caido mientras estaba haciendo estas pruebas). Elegí al azar para filtrar uno de los síntomas propuestos por novo|seek, hematospermia (que tiene como sinónimo hemospermia), y la búsqueda se centró en 30 artículos. Buscando en Google Scholar por «prostate cancer hematospermia» obtuve 498 artículos, mientras que con «prostate cancer hemospermia» obtuve 299 artículos, lo cuál muestra que Google Scholar no tiene en cuenta los sinónimos de los términos de búsqueda. Como cada sistema tiene su propio método de puntuación, y Google Scholar no busca por iniciativa propia los sinónimos de los términos, no es fácil comparar cuál de ellos proporciona los mejores resultados, al menos no con la prueba tan sencilla que realicé.

Una vez estamos conformes con los resultados obtenidos, podemos inspeccionar cada uno de los artículos de forma detallada. En la vista detallada de un artículo se muestra el título y abstract, autores, revista, fecha de publicación, y la posibilidad de que novo|seek marque en el texto los tipos de términos en los que estemos interesados: enfermedades, drogas, genes o proteínas, síntomas, etc…

Aunque el sistema está todavía en fase beta, es bastante usable. Personalmente pienso que le falta algo de conectividad, por ejemplo con PubMed o PubMed Central para el tema de los artículos que estén disponibles de forma libre, o con Zotero para poder recopilar rápidamente la bibliografía relacionada con una búsqueda en concreto, pero seguro que mejorará con el paso del tiempo.

¡Felices Fiestas!

Compartir:

Deja un comentario