¿open access sin open data?

Conforme avanza el consenso sobre lapertinencia del open access, emerge con claridad la urgencia deavanzar en la dirección del open data

Los textos científicos se basanen datos. Las tablas, gráficos e imágenes que publicanno son más que una forma singular de empaquetar (codificar)datos. La diferencia entre los datos en bruto, tal como sonadquiridos en el laboratorio y, por ejemplo, su representacióngráfica es infinita, porque ni se podrá verificar laprecisión de las medidas, ni se podrán reutilizar paraotros fines distintos a los que imaginó quien realizóel gráfico. De ahí que una política favorableal Open Access desemboque necesariamente en la reclamación delOpen Data.

Hay muchos argumentosa favor del libre acceso a los datos científicosobtenidos mediante fondos públicos. Aquí no me voy adetener en consideraciones éticas que son obvias, pues si loslaboratorios son pagados con el dinero de todos, lo lógico esque cualquier ciudadano pueda tener abierto el acceso a los textos ydatos que se producen con su dinero.

Tampoco es desdeñable eldespilfarro que supone que un grupo de científicos retenga unainformación que si no es difundida tendrá que volver aproducirse. Pero es que además hay que darle valor a laposibilidad de que algún investigador a la vista de los datosimagine alguna conexión imprevista que suponga un avance parael conocimiento.

Esta es la preocupación quealimenta el blogpetermr de PeterMurray Rust quien hace unos días publicóun interesante post para cuantificar lo que cuestan las políticasde ocultación/cerramiento de datos científicos. Tambiénha dedicado algún tiempo en las últimas semanas alexcelente artículo sobre OpenData en Wikipedia. Su razonamiento parte de un datodemoledor descubierto por John Davies, quien afirmaque nuncasalen del laboratorio el 80% de los datos cristalográficos(en todos los departamentos de química). O sea que, tras serarchivados (en CDROM o en máquinas locales), ya sea por olvidoo exceso de celo, ya sea porque se cambia de tecnología o deobjetivos, lo cierto es que los datos se pierden.

El asunto es grave. Además se hacomprobado que estas cifras son parecidas a las que se consideranprobables en espectroscopía y psicología. Mucha gentese está preguntando por la profundidad de este problema y noes raro que proliferen los comités que intentan definir losprotocolos de archivado, custodia y recuperación de datoscientíficos.

La preocupación va en aumentoporque para que los datos sean reutilizables se necesita llegar amuchos acuerdos sobre el software que utilizar, los metadatos queintroducir, los estándares obligados y, por fin, la forma enla que los científicos podrían usarlos. Y es que sepierden también millones de datos en el proceso mismo depublicación al emplearse formatos que, como pdf,destruyen el contenido semántico de los documentos.

Hace unos días, lo supe víaUsefulChemistry, Murray-Rest dio una magníficaconferencia sobre estas cuestiones bajo el título TheSemantic Chemical Web (accesible en Google Video). Sinduda muy divulgativa, además de profunda y pertinente. Y es que lascuestiones relacionadas con los formatos son bastante máscomplejas de lo que aparentan, pues se entrecruzan de forma tan intrincada los aspectostécnicos, jurídicos, corporativos y éticos que hace inútil cualquier intento de separarlos.

Las decisiones pendientes, enconsecuencia, son menos tecnológicas que políticas, unavez que el software disponible permite abordar estas problemáticasdesde la perspectiva de lo que es mejor para el desarrollo delconocimiento y el ensanche del procomún.

Vengamos ya al asunto del despilfarroque implica esta forma tan absurda de no ser eficaz. El cálculode Murray-Rust se basa en la hipótesis de que cada laboratoriocompleta anualmente unas 500 estructuras cristalográficas que,computándolas a la mitad de lo que cuesta en el mercado cadauna -unos 1500-5000 US$ según su complejidad-, alcanza elmonto total de medio millón de dólares al año. Cuando el cálculo se extiende a todo el planeta, Murray-Restarriesga la estimación de que la información queprimero se infrautiliza y luego se pierde ronda los 5 millones dedólares.

El open access nos lleva al opendata y ambos exigen open standard. Pero quienes quieranaparentar que no entienden de estas cosas deben saber que haydemasiado dinero público fuera de control que se pierde por lamucha desidia y el poco rigor. Si hiciéramos las cuentas, omejor si las cuentas fueran claras y públicas (openaccountability,se diría en inglés) sería más fácilimpulsar compromisos en la dirección de la cultura abierta(openness).

Bookmark and Share
Etiquetas:

Si te gustó esta entrada anímate a escribir un comentario o suscribirte al feed y obtener los artículos futuros en tu lector de feeds.

Comentarios

Buen post como siempre Antonio. De la industria para que hablar. En lo referente a la revista, la idea que leí en el libo de Anatomía del Fraude Científico, es que con las revistas en open access no era suficiente y que los propios depositorios institucionales debían incluir los datos totales y en bruto de las publicaciones con vistas a que otros investigadores pudieran comprovar la validez de las conclusiones y los análisis escrtitos en las publicaciones. Y efectivamente es muy importante.

Más aun, porque los datos de interés regional no son publicables, se pierde mucha información sobre, por ejemplo, los inventarios de los recursos naturales de un país y los arqueológicos taqmbién. Esto aparecían antes en revistas nacionales científicas, cuyo número decrece ya que para nuestros gestores "no sirven pa na". Cortedad de miras en donde las hubiera. Un buen artículo de interés regional es mucho mejor que unop malo de índole general y de esos hay muchos en las revistas indexadas.

Un saludo

Juanjo Ibáñez

Excellent, en verdad buen articulo y te da que pensar, en muchos sentidos aparte del economico, que es tambien importante sobretodo en una era en la que los recursos son escasos y necesarios para nuevos estudios o continuar los ya existentes.

Es cierto que se protegen datos, pero a que precio, el INTELECTUAL, donde se priva el nuevo aporte, una mente es un mundo y sin interelacion no hay avance, y el ECONOMICO, tanto estudio, tanto avance para solo archivar, almacenar y olvidar, hay un dicho muy cierto que se puede aplicar"Ni come ni deja comer" y creo que le viene exacto a estos casos.

Escribe un comentario

(requerido)

(requerido)