El camino del Acceso Abierto a la Ciencia Abierta II: Los datos de investigación

La ciencia abierta permite que los avances científicos tengan efectos inmediatos en la forma de vivir de los ciudadanos. Para hacer frente a los nuevos retos sociales de forma rápida, necesitamos abrir los datos. En este sentido, la pandemia nos ha puesto en evidencia que los datos para la investigación en salud son cruciales.

 

Vivimos rodeados de datos e inmersos en su cultura. El crecimiento de la capacidad para generar, almacenar y procesar datos no se detiene. A día de hoy, los datos comienzan a ser considerados como la principal producción de la investigación científica, siendo su publicación y reutilización necesaria para garantizar su validez, su reproductibilidad y para conducir a nuevos descubrimientos.

Durante el mes de Junio hemos estado hablando de la Ciencia Abierta en el marco del nuevo programa Horizonte Europa. Comentamos las implicancias que tienen las prácticas de la Ciencia Abierta, las publicaciones y cómo funciona la nueva iniciativa Open Research Europe, puesta en marcha por la Comisión Europea en marzo de 2021.

Siguiendo con esta temática, queremos hablar hoy de la importancia de los datos de investigación y las claves para su apertura; los principios que persiguen y como se gestionan.

A raíz de la pandemia hemos podido constatar, de primera mano, la importancia de la ciencia a la hora de encontrar soluciones a grandes problemas de nuestra sociedad. La crisis del COVID ha hecho que la comunidad científica se ponga al servicio de la búsqueda de tratamientos y al desarrollo de vacunas. Sin duda, una de las herramientas que más han contribuido a ayudar a los investigadores en esta tarea, ha sido la necesidad de disponer del acceso a datos producidos por otros equipos, permitiendo encausar esfuerzos (no duplicarlos) y generar nuevas líneas de investigación.

“Tan abierto como sea posible, tan cerrado como sea necesario”

Muchas agencias que financian la investigación, llevan tiempo trabajando en la importancia de compartir en abierto los datos de las investigaciones que se financian en el marco de sus programas. Es el caso del programa Horizonte Europa (y ya lo era Horizonte 2020), que hace obligatorio el desarrollo y revisión de un Plan de Gestión de Datos (PGD) en los proyectos que financia, como un entregable (Deliverble) mismo del proyecto.

¿Qué son los datos de investigación?

Los datos de investigación son datos que adquieren significado en el contexto del ciclo de vida de una investigación. Estos pueden ser de diferente naturaleza: numéricos o datos cuantitativos, textuales o datos cualitativos, muestras biológicas, colecciones de objetos físicos, programas de software o código, algoritmos, modelos, datos geográficos, etc. Para su comprensión, los datos deben estar bien documentados e incluir metadatos.

Características de los datos de investigación

  • Agrupación: son datos tratados como una unidad, un conjunto o una colección.
  • Contenido: constituyen un conjunto de valores que representan actividades como mediciones u observaciones.
  • Parentesco: los datos tienen una misma estructura y están relacionados entre sí por factores de tiempo, lugar, instrumento, objeto u observación, tema, etc.
  • Propósito: la finalidad de estos datos será la de contribuir a cierta actividad científica para proveer evidencia, sugerir una hipótesis, refutar o confirmar una hipótesis, etc.

Algunas razones para compartir datos

  • Promueve la innovación y potenciales nuevos usos.
  • Conduce a la colaboración entre usuarios y creadores de datos.
  • Maximiza la transparencia y la fiabilidad.
  • Permite la verificación de los resultados de investigación.
  • Reduce  costes al evitar duplicación de datos.
  • Aumenta el impacto y la visibilidad de la investigación.
  • Promueve la investigación de donde salieron los datos y sus publicaciones.
  • Puede generar un reconocimiento directo a los investigadores como cualquier otro resultado de la investigación.
  • Genera nuevos datos a partir de los originales.

¿Qué son los Principios FAIR?

Los Principios FAIR son un conjunto de principios rectores que buscan hacer que los datos de investigación sean fáciles de encontrar, accesibles, interoperables y reutilizables (Wilkinson et al., 2016). Estos principios, proporcionan una guía para la gestión de los datos científicos y se dirigen tanto a los que producen los datos, como a los que los editan con el objetivo de promover el máximo uso de los mismos.

Los principios rectores FAIR

 

LOCALIZABLE (Findable)

  • A los datos y metadatos se les asigna un identificador único persistente.
  • Los datos se describen con metadatos enriquecidos.
  • Los metadatos incluyen el identificador de los datos que describen.
  • Los datos y metadatos están registrados o indexados en un recurso de búsqueda.

ACCESIBLE (Accessible)

  • Los datos y metadatos se pueden recuperar por su identificador utilizando un protocolo de comunicación estandarizado.
  • El protocolo es abierto, gratuito y universalmente aplicable.
  • El protocolo permite un procedimiento de autorización y autenticación cuando sea necesario.
  • Los metadatos son accesibles, incluso cuando los datos ya no están disponibles.

INTEROPERABLE (Interoperable)

  • Los datos y metadatos utilizan un lenguaje formal, accesible, compartido y ampliamente aplicable para la representación del conocimiento.
  • Los datos y metadatos usan vocabularios siguiendo los principios FAIR.
  • Los datos y metadatos incluyen referencias cualificadas a otros metadatos.

REUTILIZABLE (Reusable)

  • Los datos y metadatos están bien descritos con una pluralidad de atributos precisos y relevantes.
  • Los datos y metadatos se publican con una licencia clara y accesible sobre su uso y reutilización.
  • Los datos y metadatos están asociados con procedencia detallada.
  • Los datos y metadatos cumplen con los estándares de la comunidad relevantes para el dominio.

El Data Management Plan (DMP)

Un Plan de Gestión de Datos – PGD (Data Management PlanDMP) es un documento formal en el cual se describe la gestión que se aplicará a los datos a lo largo de un proyecto de investigación y suele ser un requisito de las organizaciones de investigación y los financiadores. En Horizonte Europa, el DMP debe presentarse al inicio de la investigación, actualizarse a los 6 meses y presentar una versión al final del proyecto (Art. 35).

El DMP es una reflexión sobre el proyecto y describe aspectos como: el origen de los datos,  el modo de obtención o creación, la organización, la tipología, el uso compartido, la preservación, etc. El Plan también ayuda a identificar y planificar los costes asociados a un proyecto de investigación, define las funciones y responsabilidades en la gestión de datos entre el equipo de un proyecto y ayuda a identificar los riesgos en el manejo de los datos, aplicando soluciones en una fase temprana.

Una buena gestión de los datos ayuda a garantizar que los investigadores compartan sus datos de forma FAIR.

¿Qué debe contemplar un plan de gestión de datos? (mínimos)

  • Contexto.
  • Descripción de los datos que se van a tomar o crear.
  • La metodología y estándares para la recolección  de datos.
  • Aspectos éticos y relacionados con la propiedad intelectual, si corresponde.
  • Vías para compartir y acceder a los datos.
  • Estrategia para la preservación de datos.

Componentes comunes de un DMP

  • Información general sobre el proyecto.
  • Descripción de los conjuntos de datos que se utilizarán y generarán.
  • Uso de metadatos, ontologías y la forma en que se proporcionará la documentación de los datos.
  • Soluciones de almacenamiento, seguridad de los datos y estrategia de conservación durante y después del proyecto.
  • Uso compartido de los datos.
  • Costes y recursos necesarios para la gestión de los datos.
  • Cuestiones éticas y jurídicas, como la privacidad, la propiedad intelectual y las licencias.

El DMP nos permite reflexionar y abarcar aspectos claves partiendo de preguntas como:

  • ¿Cómo se recogerán y/o generarán los datos; cómo se reutilizarán los datos existentes?
  • ¿Qué metadatos acompañarán los datos?
  • ¿Qué medidas de control de calidad se utilizarán?
  • ¿Cómo se almacenarán los datos y metadatos?
  • ¿Cómo se garantizará el cumplimiento de la legislación sobre datos personales y sobre la seguridad de los datos?
  • ¿Cómo y cuándo se compartirán los datos?
  • ¿Dónde se conservarán los datos a largo plazo?
  • ¿Quién será responsable de la gestión de los datos?
  • ¿Qué recursos se dedicarán a la gestión de datos y a garantizar que los datos sean FAIR?

Asistimos a una demanda pública de una ciencia mejor, más responsable y transparente, en dónde a su vez, necesitamos más espacios de diálogo y de conocimiento cruzado entre ciencia y ciudadanía. La actual crisis sanitaria es uno más de los grandes retos a los que se enfrenta la humanidad en este siglo, retos en los que la ciencia tiene mucho que decir y los datos, mucho que aportar.

Luciana Ayciriex

Gestora de Transferencia de Tecnología y Programas Europeos

Recursos útiles sobre planes de gestión de datos

Herramientas para crear planes de gestión de datos

Compartir:

Deja un comentario