Fecha
Fuente
UPM-KI
Autor
VV.AA

Veneno digital: 100 muestras falsas bastan para sabotear diagnósticos médicos con IA

¿Cómo logra un puñado de datos engañar a un sistema tan complejo? El mecanismo de ataque replica la vieja máxima de la propaganda autoritaria: “una mentira repetida mil veces se convierte en una verdad”

No hace falta ser un genio informático para sabotear la inteligencia artificial de un sistema de apoyo a la salud. Bastaría con que alguien introdujera entre 100 y 500 imágenes manipuladas en una base de datos de millones.

Esa pequeña cantidad de "veneno digital" puede representar una cienmilésima parte de los datos de entrenamiento. Con esa pequeña parte, un sistema de IA diseñado para leer radiografías o asignar trasplantes puede aprender a fallar. Y no lo hará al azar. Puede hacerlo para un grupo específico de personas, mientras funciona con total precisión para el resto de la población.

Lo más alarmante no es la facilidad del ataque, sino nuestra ceguera actual. Estos sabotajes resultan estadísticamente invisibles para los controles de calidad estándar. Cuando estas anomalías se lleguen a detectar, el daño ya estará hecho.

El mito de la seguridad en los números

Existe la creencia popular de que la cantidad de datos necesarios para alimentar la IA son un escudo en sí mismo. Tendemos a pensar que, en un océano de millones de datos médicos, unas pocas gotas de información falsa se diluyen sin causar daño. La evidencia desmiente categóricamente esta asunción.

Dos equipos de investigación, de Karolinska Institutet (SMAILE), en Suecia, y de la Universidad Politécnica de Madrid (InnoTep), hemos evaluado 41 estudios clave sobre seguridad en IA médica publicados en los últimos años. Tras este proceso, podemos concluir que el éxito del ataque no depende del porcentaje de datos corruptos, sino del número absoluto de muestras.

Esto significa que lo que estamos observando es una vulnerabilidad estructural: los sistemas de IA, por sí solos, son sensibles a la manipulación concisa, disciplinada y dirigida.

La mecánica de la mentira repetida

¿Cómo logra un puñado de datos engañar a un sistema tan complejo? El mecanismo de ataque replica la vieja máxima de la propaganda autoritaria: "una mentira repetida mil veces se convierte en una verdad".

En el aprendizaje de las máquinas ocurre un fenómeno de adoctrinamiento. Es decir, el sistema no ve los datos una sola vez, sino que los repasa en ciclos repetitivos. Si se inserta un conjunto reducido de muestras falsas, el sistema las procesará una y otra vez en estos ciclos. De esta manera, dichas muestras maliciosas multiplican su influencia en el resultado final.

En este punto, tenemos un sistema que ha internalizado una falsa realidad. Lo más perverso es que la IA "envenenada" funciona con normalidad para el mayor número de pacientes: solo se "equivoca" en los casos y circunstancias diseñados para fallar.

El resultado del ataque no es un modelo fallido, sino un modelo corrupto. Mantiene su utilidad general intacta pero ejecuta una purga selectiva contra, por ejemplo, un grupo objetivo. No es un error aleatorio; es una discriminación codificada matemáticamente que se camufla bajo una apariencia general de eficiencia.

La paradoja de la privacidad

Quizá el hallazgo más irónico de nuestro trabajo es que hay leyes diseñadas para protegernos que acentúan este peligro. Normativas fundamentales como el Reglamento general de protección de datos son esenciales para velar por la privacidad de los pacientes, aunque también pueden actuar inadvertidamente como un escudo para los atacantes.

Para detectar un sabotaje tan sutil como el explicado, se necesitarían cruzar información de miles de pacientes entre distintos centros de salud. Sin embargo, la ley restringe precisamente este tipo de vigilancia masiva y correlación de datos.

Esto crea una "paradoja de seguridad". Blindamos la privacidad del paciente, al tiempo que vendamos los ojos al sistema que debería protegerle. El resultado es que estos ataques pueden permanecer ocultos largos periodos de tiempo.

Una defensa basada en la pluralidad

En este contexto, la ciberseguridad tradicional no basta. En nuestra investigación, proponemos una solución defensiva llamada MEDLEY (Medical Ensemble Diagnostic System with Leveraged DiversitY) para contextos de salud. Frente al pensamiento único del modelo optimizado, proponemos el valor del disenso.

Nuestra propuesta es crear "juntas médicas digitales" formadas por diferentes sistemas de IA, incluyendo sus propias versiones anteriores, además de diseños y proveedores distintos. Con esta diversidad, un atacante podría adoctrinar maliciosamente uno de ellos, pero sería muy complejo repetir ese proceso en el resto.

El proceso de consulta pasaría por estas "juntas médicas digitales". Por supuesto, dada la diversidad de sistemas de IA implicados, podrían existir discrepancias radicales en el resultado. Pero, si esto ocurre, no debe imponerse una falsa unanimidad. En su lugar, debemos asumir que no hay consenso y activar una alerta para su revisión humana.

La era de la inocencia tecnológica respecto a la IA ha concluido. No debemos aceptar "cajas negras" que asimilen una verdad impuesta. Si queremos que el aprendizaje automático sea un elemento positivo en nuestra sanidad, es imperativo entender sus limitaciones y subsanarlas con el rigor de nuestros procedimientos y conocimiento humano.


Autoría: Mario Vega Barbas, Associate professor, Universidad Politécnica de Madrid (UPM); Farhad Abtahi, Senior Research Infrastructure Specialist, Karolinska Institutet; Fernando Seoane Martinez, Professor and Research Leader, Karolinska Institutet y Iván Pau de la Cruz, Catedrático en Telemática, Universidad Politécnica de Madrid (UPM)

Este artículo fue publicado originalmente en The Conversation. Lea el original.

Fotografía de portada: La imagen de portada ha sido generada por IA

Añadir nuevo comentario

El contenido de este campo se mantiene privado y no se mostrará públicamente.
Para el envío de comentarios, Ud. deberá rellenar todos los campos solicitados. Así mismo, le informamos que su nombre aparecerá publicado junto con su comentario, por lo que en caso que no quiera que se publique, le sugerimos introduzca un alias.

Normas de uso:

  • Las opiniones vertidas serán responsabilidad de su autor y en ningún caso de www.madrimasd.org,
  • No se admitirán comentarios contrarios a las leyes españolas o buen uso.
  • El administrador podrá eliminar comentarios no apropiados, intentando respetar siempre el derecho a la libertad de expresión.
CAPTCHA
Enter the characters shown in the image.
Esta pregunta es para probar si usted es un visitante humano o no y para evitar envíos automáticos de spam.