¿Podemos fiarnos de la IA para las consultas médicas?

Los resultados revelan que el uso de la IA para ampliar información es útil, aunque su fiabilidad es variable y siempre debe contrastarse con un profesional sanitario.

En el día a día de las consultas médicas, los pacientes plantean muchas dudas y muestran que sus conocimientos proceden de las redes sociales o del uso de la IA. En este sentido, los profesionales observan que muchos pacientes manifiestan miedo a técnicas como la epidural e, incluso, las rechazan.

El estudio realizado por investigadores de la URJC y de las entidades colaboradoras se ha centrado en analizar la fiabilidad de la información que proporcionaban acerca de la epidural los modelos de lenguaje (LLMs, por sus siglas en inglés). Los resultados obtenidos, publicados en Artificial Intelligence in Medicine, revelan que para responder a este tipo de preguntas el modelo con mejor rendimiento global sería ChatGPT, seguido de Gemini. No obstante, la calidad de estos modelos depende de la métrica evaluada. "Pese a que ChatGPT es el que demuestra mejores datos, dos modelos medianos, OpenChat y Phi-3, consiguen resultados comparables, mejorando significativamente otros modelos de gran tamaño. Esto destaca la importancia de los datos con los que se entrenan frente al tamaño del modelo", señala Marina del Barrio, investigadora principal del trabajo.

Esta investigación también se ha centrado en distinguir entre las respuestas que pueden ser confiables de aquéllas que pueden confundir a los pacientes y, potencialmente, alterar su toma de decisiones. La dificultad de las preguntas también afecta a la calidad de las respuestas, siendo las más complejas o controvertidas las que obtienen peores resultados. Esto hace que los modelos sean menos fiables al responder preguntas sensibles.

Para recabar toda la información, el equipo científico estableció diez preguntas para planteárselas a los diferentes LLMs, cada una reformulada de distintas maneras. "Para ello nos basamos tanto en la literatura como en la práctica clínica y todas las preguntas fueron reformuladas tanto en español como en inglés. El objetivo de esto era comprobar la habilidad de estos modelos para entender y responder a diferentes formulaciones. Siempre con enunciados sencillos, como los que podría escribir una paciente en su casa sin conocimientos previos de IA", apunta la investigadora.

A continuación, seleccionaron los modelos a evaluar como ChatGPT, Gemini, OpenChat o las versiones Phi-2 y Phi-3, entre otros, y modelos médicos especializados como MedLlama y Meditron. Las métricas para realizar la evaluación se centraron en la tangibilidad, fiabilidad, sensibilidad, seguridad, empatía, comprensibilidad y concordancia con el experto. Por último, las más de 2.400 respuestas fueron consensuadas y revisadas de manera manual con dos expertos para establecer cuáles eran aceptables.

Los hallazgos de este estudio abren la puerta a desarrollar sistemas de inteligencia artificial más eficientes y útiles en medicina, que sirvan de apoyo a profesionales y pacientes, siempre bajo supervisión médica. Además, los resultados cuestionan la idea de que los modelos más grandes son siempre mejores y apuntan a que el entrenamiento y los datos influyen más que el tamaño.

En este trabajo han colaborado el Hospital del Henares, King's College London y Solent University London.

Cómo influye el idioma en las respuestas de la IA

Para entender cómo el lenguaje influye en el conocimiento del dominio, se evaluaron las capacidades de los LLMs en español e inglés. Los resultados mostraron que las respuestas están afectadas por el lenguaje, haciendo que muchos sean inadecuados para la tarea solicitada independientemente del tamaño de su modelo. "Es curioso el caso de ChatGPT que no solo no empeora, sino que mejora en su actuación en español", subrayan los investigadores.

En las conclusiones obtenidas, los mejores modelos en todas las preguntas son ChatGPT, Gemini, OpenChat y Phi-3 en inglés, y ChatGPT y Gemini en español.

Referencia bibliográfica:

Del Barrio, M., Laos, K., Vílchez-Lara, M. J., Goicoechea-Garcia, C. & Menendez, H. D. (2026). Size doesn't matter: Assessing the trustworthiness of large language models in medical contexts: A focus on epidural information retrieval. Artificial Intelligence in Medicine, 175(103379), 103379. https://doi.org/10.1016/j.artmed.2026.103379

Lo + visto

¿Podemos fiarnos de la IA para las consultas médicas?

Añadir nuevo comentario