G3DATA: cuando perdeis las tablas que generaron unas gráficas

Seguramente en alguna ocasión os habreis encontrado leyendo un artículo científico o un libro interesantísimos con una gráfica espectacular que influye en vuestras investigaciones en curso, y habeis tenido el problema de cómo conseguir la tabla de números que ha generado dicha gráfica, ¿no es verdad? O bien, hace años creasteis u obtuvisteis una gráfica que habeis estado utilizando, pero habeis perdido el método o los datos que usasteis en su momento. Bueno, como muchas veces sucede en la vida, he encontrado «por casualidad» un programa que sirve para ayudar en la recuperación de esa información «perdida», y se llama G3DATA.
Este programa está disponible libremente para Linux y ha sido creado por Jonas Frantz. Recordad ante todo que G3DATA no es la panacea universal para la recuperación de información perdida de gráficas, por su dependencia de las dimensiones y la calidad de las gráficas. Por ello, para usarlo, primero tienes que tener la gráfica en un fichero en formato PNG o JPEG con la mayor resolución posible. Por ejemplo, si la gráfica ya está en alguno de esos formatos, y está disponible en varios tamaños (porque por ejemplo la hayais obtenido de una publicación online), quedaos con la de mayor resolución. En otros casos tendreis que seguir algunos pasos para obtener el mejor «pantallazo» posible de la gráfica.

Si la gráfica está en un documento PDF o PostScript (bastante común para los artículos) y está en formato vectorial (al ampliar la gráfica no pierde calidad o detalles), ampliad la imagen lo más posible antes de tomar un «pantallazo» de la gráfica. Si la gráfica no parece vectorial (una imagen rasterizada), entonces en internet hay disponibles varias herramientas para extracción de imágenes de fichero PDF y PostScript, como por ejemplo pdfimages que viene con Xpdf y Poppler, disponible para todas las plataformas Unix.

Por último, si la gráfica la teneis en papel, mediante un escáner o una cámara digital tendreis que usar la máxima resolución posible al obtener la imagen, para así minimizar la pérdida de detalles.

Aunque es un programa magnífico, no es un programa «automágico» que automáticamente detecte los ejes y puntos de la gráfica. Su uso requiere que primero marqueis los puntos que definen los ejes de la gráfica (que podría estar rotada, como se ve en el ejemplo), para después empezar a marcar uno a uno los valores dentro de la gráfica que quereis recuperar. ¿A que suena a trabajo manual tedioso? Pues sí, lo es, pero cuando habeis perdido toda posibilidad de recuperar los datos numéricos, menos da una piedra…

Hay que reconocer que cada vez es menos necesario el uso de este tipo de herramientas, debido principalmente a que las editoriales se están concienciando bastante con el tema de la pérdida de información relacionada con los artículos científicos que se publican en sus revistas. Precisamente, las nuevas editoriales de contenido abierto, que publican directamente en Internet, son las que más esfuerzos han realizado al respecto, publicando en internet además del artículo y las gráficas las tablas numéricas que generan dichas tablas. Aún así, la herramienta seguirá siendo útil para las gráficas disponibles en los artículos más antiguos, que no suelen estar disponibles en formato electrónico.

Espero que esta herramienta os sirva en algún momento. De momento no la he necesitado, pero me habría sido muy útil hace un par de años.

Enlaces:

Compartir:

5 comentarios

  1. La verdad es que esto es SUPER UTIL.

    Creeis que seria util desarrollar este tipo de aplicaciones para text mining de los supplementary data de los articulos de revistas no indexadas en pubmed?

  2. No dudo que sería de muchísima utilidad, pero el problema es que es difícil de automatizar la extracción de datos, y económicamente costoso (por la validación de que se ha hecho bien la tarea). Por ejemplo, los artículos de los primeros años de Bioinformatics, de antes de que tuvieran web con los artículos online, han sido trasladados a PDF por la editorial, pero como simples escaneos de los papers originales. Al menos no se han perdido…

    Hay programas comerciales muy buenos de OCR (reconociemiento de caracteres) capaces de identificar la estructura de los documentos, que permitirían devolver a un formato realmente electrónico esos viejos papers, pero eso implica a) mucho esfuerzo y b) mucho dinero para pagar ese esfuerzo. Lo que nunca había visto antes era precisamente programas como G3DATA, que no es automático pero ayuda.

  3. No sé si habéis probado este programa: Engauge Digitizer (http://digitizer.sourceforge.net/). Es lo que estáis buscando. Aunque, personalmente prefiero el g3data para cosas más livianas… Y por cierto, ¿sabéis de algún programa parecido para windows (Y que no sea el que he comentado)?

Deja un comentario