“La Comunidad de Madrid se ha interesado por el proyecto y vamos a desarrollar y desplegar las técnicas de monitorización y predicción a nivel regional”

Entrevista a Antonio Fernández Anta y Rosa Elvira Lillo, promotores de Corona Surveys

Hace unos días nos hacíamos eco en Notiweb madri+d de un proyecto liderado por investigadores madrileños que mide la incidencia del coronavirus en tiempo real mediante encuestas on-line. Hoy hablamos con Antonio Fernández Anta, Research Professor en IMDEA Networks Institute y Rosa Elvira Lillo, Catedrática de Estadística e Investigación Operativa de la Universidad Carlos III y Directora del uc3m-Santander Big Data Institute (IBiDat), promotores de Corona Surveys.

¿Cómo surge y en qué consiste Corona Surveys?

El proyecto CoronaSurveys nació en marzo de 2020 como respuesta de un grupo de investigadores a la evidente escasez de datos fiables sobre la incidencia de la pandemia de COVID-19. En ese momento, la mayoría de los países no eran capaces de hacer un seguimiento del número real de casos, al no disponer de medios para realizar tests. Por ello, los números de casos confirmados que se hacían públicos estaban muy por debajo de la realidad. Además, no era posible una comparación de cifras entre países e incluso comunidades autónomas en España porque faltaba homogeneidad en la definición de caso.

El proyecto, por lo tanto, intenta obtener datos razonablemente fiables de la incidencia y evolución de la pandemia en todos los países del mundo. Para ello se apoya en encuestas online diseñadas específicamente para esta labor, complementadas con otros datos obtenidos de múltiples fuentes y un procesado de los datos obtenidos proporcionando estimaciones y visualizaciones de la evolución de la pandemia en tiempo real.

¿Dónde radica su novedad/importancia?

La novedad del proyecto es el uso intensivo de encuestas anónimas e indirectas aplicadas al contexto de una pandemia. En estas encuestas el participante aporta datos de las personas que conoce, lo que permite obtener información de una gran parte de la población con pocas respuestas, respetando su privacidad. Estos datos se analizan con un método estadístico llamado “network scale-up”. Aunque este método tiene ya 30 años, por lo que sabemos nunca se había usado a esta escala geográfica (todo el mundo) y temporal (durante casi un año).

La importancia del proyecto radica en su capacidad de obtener estimaciones diarias con un coste muy bajo, y con una gran facilidad de adaptación. Por ejemplo, hemos empezado a recoger datos de vacunación, simplemente añadiendo una pregunta a la encuesta.

Por otra parte, las preguntas implementadas en el cuestionario no incurren en temas relacionados con la privacidad del individuo y por tanto, no necesitar autorizaciones relacionadas con la GDPR. Esto ha permitido que desde la puesta en marcha del proyecto se puedan recoger datos sin demora y que todos los datos recogidos se puedan hacer públicos.

¿Qué fiabilidad tienen los resultados obtenidos? ¿Están por encima de las cifras oficiales? ¿Por debajo? Último dato para nuestro país.

La calidad de los datos obtenidos dependen fuertemente del nivel de participación en las encuestas. Por suerte, la participación en España ha sido relativamente alta, lo que está permitiendo obtener buenos resultados. Lo que se observa es que, como suponíamos, durante los primeros meses de la pandemia las cifras oficiales de casos están muy por debajo de las estimadas con nuestro método. Actualmente las cifras oficiales y nuestras estimaciones son muy cercanas. Hemos comparado las estimaciones obtenidas para las distintas comunidades a finales de abril de 2020 con las del estudio serológico ENE-COVID realizado por el Ministerio de Sanidad, y hemos observado una alta correlación. En la cuarta ronda de ENE-COVID, realizada a finales de noviembre, se ha observado una incidencia acumulada total del 12,5% en Madrid, mientras que nuestra estimación para esas fechas es similar. Es curioso como nuestras estimaciones recogen la estructura cíclica semanal que presentan las curvas de incidencia debido al efecto fin de semana o puentes.

¿Qué herramientas utilizan para para convertir las respuestas en estimaciones reales sobre incidencia de la COVID-19 tanto a nivel global como local?

La importancia del proyecto radica en su capacidad de obtener estimaciones diarias con un coste muy bajo, y con una gran facilidad de adaptación

La técnica que utilizamos es una versión del método estadístico “network scale-up”. En la encuesta se pregunta a cada participante por el número de contactos cercanos que tiene, y (si se quiere estimar la incidencia acumulada) cuántos de ellos han pasado la enfermedad. Agregando estos valores para todas las respuestas y calculando en ratio nos da una estimación de la fracción de la población que ha sido infectada. Estas estimaciones deben ser luego combinadas para obtenerlas a los distintos niveles (provincia, comunidad, país). Previamente los datos son filtrados y tratados estadísticamente para que las estimaciones no se vean afectadas por datos anómalos.

¿Cómo ha evolucionado Corona Surveys desde que se puso en marcha, hace prácticamente un año, hasta hoy?

El proyecto inicialmente era muy modesto. Usaba encuestas en Twitter en unos pocos países para estimar el número de casos. Luego pasamos a una encuesta más completa, disponible para todo el mundo y traducida a 60 idiomas. Actualmente estamos trabajando en combinar los datos obtenidos en la encuesta con otros datos disponibles, como son datos de síntomas, de movilidad, de medidas tomadas en cada país, etc. El objetivo es poder predecir con unos días de antelación la evolución de la pandemia, de forma que las autoridades puedan tomar medidas, y poder estudiar el efecto que va a tener en esta evolución la implantación de ciertas medidas. Todas las últimas novedades que incorpora CoronaSurveys implica también la utilización de modelización estadística avanzada y técnicas de machine learning e Inteligencia Artificial que ayudan a responder preguntas muy interesantes sobre la evolución de la pandemia.

Háblenos del esfuerzo que implica sacar adelante un proyecto de estas características. ¿Cuál es el principal obstáculo al que se han enfrentado?

El proyecto ha estado hasta el momento totalmente basado en un excelente equipo de voluntarios, que han aportado su tiempo libre al mismo. Por suerte, hemos logrado crear un grupo de voluntarios muy generosos con su tiempo y esfuerzo, que siempre han respondido a nuestras solicitudes de ayuda. Entre los voluntarios también hemos contado con la ayuda de más de 100 traductores, coordinados a través de la plataforma crowdfight.org. Sin embargo, no hemos contado hasta ahora con fondos para poder tener personal estable que se dedique a supervisar y desarrollar el proyecto, lo que ha hecho que los avances se hayan producido a un ritmo mucho más lento que el deseable.

La falta de fondos también ha afectado a nuestra capacidad de promocionar la encuesta y el proyecto. Gracias a una donación tenemos una campaña estable de promoción en redes sociales desde octubre de 2020 que nos está aportando datos de España y Brasil, pero el número de respuestas en otros países es muy bajo, sobre todo porque es muy difícil lograr una participación estable sin esta promoción.

La buena noticia es que la Comunidad de Madrid se ha interesado por el proyecto, y nos está suministrando medios para tener, al menos durante los próximos meses, personal dedicado al mismo a tiempo completo y campañas estables de promoción de la encuesta en Madrid. Con estos medios queremos desarrollar y desplegar las técnicas de monitorización y predicción a nivel regional.

A fecha de hoy prácticamente 26.000 personas de todo el mundo han respondido a la encuesta. ¿Cómo han conseguido que el proyecto saltase fronteras?

El proyecto desde el principio ha sido internacional. Las primeras encuestas en Twitter se desplegaron casi simultáneamente en Portugal, Italia, Reino Unido, Alemania, Estados Unidos y Chipre, y siempre hemos intentado reclutar miembros para el equipo que aporten, además de sus conocimientos técnicos y científicos, sus contactos para la promoción de la encuesta. Aunque esto ha dado sus frutos, sobre todo en momentos puntuales, como hemos mencionado es complicado mantener un nivel de participación estable en muchos países sin campañas de promoción.

Háblenos del equipo humano que forma parte del proyecto. ¿Qué perfiles tienen? ¿A qué instituciones pertenecen?

El equipo del proyecto CoronaSurveys es muy internacional y multidisciplinar. Como se puede ver en nuestra página web, tenemos miembros de decenas de países, casi todos investigadores en instituciones académicas. Mientras que hay una alta participación de informáticos y estadísticos, el equipo incluye también psicólogos, biólogos, físicos, ingenieros, matemáticos, etc.

El objetivo es poder predecir con unos días de antelación la evolución de la pandemia, de forma que las autoridades puedan tomar medidas

Una de las particularidades del equipo de trabajo que se ha formado es la calidad humana y el buen ambiente que reina en el seno del mismo, con una disposición constante a la innovación y al trabajo en equipo.

El proyecto ha participado en dos competiciones Data Challenge, COVID-19 Symptom Data Challenge y Pandemic Response Challenge, quedando finalista en ambas. ¿Qué ha supuesto la participación en dichas competiciones para Corona Surveys?

El equipo del proyecto decidió participar en el COVID-19 Symptom Data Challenge tras ser contactado por representantes de una de las multinacionales que lo organizaba e invitado a participar. Miembros de esta empresa habían asistido a una presentación del proyecto en un congreso científico, y encontraron que nuestro perfil encajaba en este challenge. Este primer desafío nos permitió trabajar con datos que están siendo recopilando por universidades de EEUU con encuestas directas, y que por ello tienen mayor granularidad que nuestros datos. Como resultado hemos desarrollado técnicas predictivas que esperamos adaptar y desplegar en nuestra web. El haber sido finalista en este challenge junto con otros 4 equipos (3 de EEUU y uno de Rusia) nos ha dado visibilidad a nivel nacional e internacional.

Decidimos participar en el XPRIZE Pandemic Response Challenge para mejorar nuestros métodos predictivos, aprender de los métodos de otros equipos, y desarrollar técnicas para evaluar y recomendar medidas a las autoridades. Aunque con gran esfuerzo por parte del equipo, hemos logrado pasar a la final también en este challenge (con otros 47 equipos, uno de ellos español), y estamos a la espera de la decisión de los ganadores.

La participación en ambos challenges ha supuesto un gran esfuerzo, ya que hemos tenido que trabajar en las tareas asignadas a la vez que cumplíamos con las obligaciones diarias. Sin embargo, ha sido muy satisfactorio aprender nuevas técnicas que pensamos aplicar ahora con nuevos datos. Además, hemos firmado acuerdos con Facebook, Carnegie-Mellon Univerity y University of Maryland para poder usar complementar nuestros datos con los que recopilan con encuestas directas. Además, como hemos mencionado, ser finalistas nos ha dado visibilidad a nivel mundial.

Desde el punto de vista menos profesional, la tensión vivida con estas dos competiciones ha cohesionado aún más al equipo que es una de las fortalezas de este proyecto.

Colabora con el proyecto rellenando la encuesta y difundiendo entre tus contactos.

Añadir nuevo comentario

Su nombre

El contenido de este campo se mantiene privado y no se mostrará públicamente.

Para el envío de comentarios, Ud. deberá rellenar todos los campos solicitados. Así mismo, le informamos que su nombre aparecerá publicado junto con su comentario, por lo que en caso que no quiera que se publique, le sugerimos introduzca un alias.

Normas de uso:

Las opiniones vertidas serán responsabilidad de su autor y en ningún caso de www.madrimasd.org,
No se admitirán comentarios contrarios a las leyes españolas o buen uso.
El administrador podrá eliminar comentarios no apropiados, intentando respetar siempre el derecho a la libertad de expresión.

CAPTCHA

!Generar un nuevo captcha!

What code is in the image?

Enter the characters shown in the image.

Esta pregunta es para probar si usted es un visitante humano o no y para evitar envíos automáticos de spam.