Fecha
Fuente
CRG

Una hoja de ruta para una IA de diseño de proteínas más segura y explicable

Un equipo del Centro de Regulación Genómica ha realizado la revisión más completa hasta la fecha sobre inteligencia artificial aplicada al diseño de proteínas. El trabajo subraya la urgencia de entender cómo funcionan estos modelos, que aún presentan importantes limitaciones en transparencia e interpretabilidad

Los modelos de lenguaje de proteínas son herramientas de inteligencia artificial que ayudan a diseñar proteínas con propiedades útiles, incluidas estructuras completamente nuevas que jamás se han observado en la naturaleza.

Esta tecnología tiene un enorme potencial para abordar retos globales, como la síntesis de enzimas capaces de absorber dióxido de carbono de la atmósfera o el desarrollo de catalizadores que reduzcan drásticamente el consumo energético o los residuos tóxicos generados en los procesos industriales.

A medida que muchos de estos modelos empiezan a condicionar decisiones reales en biotecnología, persiste un problema de fondo. Los modelos de lenguaje de proteínas (pLM, por sus siglas en inglés) operan en gran medida como cajas negras, lo que dificulta comprender su proceso de decisión y valorar si sus predicciones son fiables, están sesgadas o resultan siquiera seguras para aplicarse en el mundo real.

En un nuevo artículo de perspectiva publicado hoy en Nature Machine Intelligence, investigadoras del Centro de Regulación Genómica (CRG) analizan cómo se aplica actualmente a los modelos de lenguaje de proteínas la "IA explicable", el conjunto de técnicas y métodos que permiten a las personas comprender, confiar e interpretar las decisiones de esta tecnología.

"Los modelos de lenguaje de proteínas avanzan a gran velocidad, pero nuestra comprensión de procesos biológicos fundamentales como el plegamiento o la catálisis no ha progresado al mismo ritmo que estos avances", afirma la doctora Noelia Ferruz, jefa de grupo en el CRG y autora principal del trabajo.

"En cierto modo, hemos perdido incluso parte de la transparencia que caracterizaba a los modelos basados en la física. Sin mejores formas de explicar qué aprenden estos modelos y cómo toman sus decisiones, corremos el riesgo de construir herramientas potentes en las que no podemos confiar plenamente", añade la doctora Ferruz.

Los autores también lanzan un llamamiento a la comunidad investigadora para que los sistemas de diseño de proteínas sean más transparentes, fiables y seguros. "Si queremos que los modelos de lenguaje de proteínas se conviertan en un socio fiable en el descubrimiento y el diseño, la explicabilidad no puede ser una idea de última hora", señala Andrea Hunklinger, primera autora del trabajo.

Cuatro lugares en los que mirar para tratar de explicar las decisiones de un pLM

Las autoras escriben que, si se quiere entender por qué un modelo de IA ha tomado una decisión predictiva sobre el tipo de estructura o las propiedades de una proteína, conviene preguntarse antes de dónde procede la explicación.

Identifican cuatro puntos clave en el recorrido del modelo que resultan críticos a la hora de explicar su toma de decisiones. El primero son los datos de entrenamiento con los que ha aprendido el modelo, lo que, por ejemplo, puede revelar si presenta sesgos que no contemplan la diversidad genética humana o si dispone, para empezar, de suficientes datos sobre proteínas humanas.

El segundo es la secuencia concreta de proteína que se le proporciona al modelo. Por ejemplo, en un modelo que predice el precio de la vivienda, las variables pueden incluir los metros cuadrados, el número de dormitorios o la ubicación. En el caso de los modelos de lenguaje de proteínas, se trata de qué aminoácidos o regiones de la proteína han influido más en la predicción.

El tercero es la arquitectura y los componentes internos del propio modelo de lenguaje de proteínas, algo comparable a abrir el capó de un coche y revisar el motor. En estos modelos, eso implica comprobar si las neuronas artificiales que utiliza la IA están procesando la información correctamente.

Por último, los investigadores pueden sondear un modelo de lenguaje de proteínas dándole pequeños empujones y observando qué sucede. Es lo que se conoce como comportamiento entrada-salida y consiste en estudiar cómo cambia la respuesta del modelo si se altera ligeramente la secuencia de la proteína o la pregunta planteada.

¿Qué busca la ciencia al abrir la "caja negra"?

Para entender cómo se está utilizando hoy en día la inteligencia artificial explicable en la investigación de proteínas, los autores revisaron la bibliografía científica existente y examinaron decenas de estudios en los que ya se han aplicado herramientas de explicabilidad a modelos de lenguaje de proteínas. Se trata de la revisión más exhaustiva de este tipo realizada hasta la fecha.

Las autoras han transformado un cuerpo de trabajo disperso en un conjunto claro de roles que la explicabilidad puede desempeñar en la investigación de proteínas, lo que contribuye a transformar un ámbito técnicamente denso en algo mucho más accesible.

En casi todos los casos, la explicabilidad se utiliza como "Evaluador", es decir, como una vía para comprobar si el modelo ha aprendido patrones que los biólogos ya conocen, como el reconocimiento de sitios de unión o motivos estructurales.

"Aunque los Evaluadores resultan útiles para medir la calidad del modelo, no permiten extrapolar a ejemplos desconocidos, mejorar la arquitectura de los modelos y, lo que es más importante, desvelar conocimientos biológicos que emergen de los datos de entrenamiento", sostiene Hunklinger.

Una proporción menor de estudios va un paso más allá y emplea estos hallazgos como "Multitarea", reaprovechando las señales aprendidas para anotar nuevas proteínas o predecir propiedades adicionales. Los autores señalan que estos dos roles dominan hoy el campo, lo que demuestra que la explicabilidad se utiliza sobre todo como herramienta de verificación y apoyo, y no como motor del descubrimiento.

Las investigadoras constataron que un número limitado de estudios aprovecha los conocimientos derivados de la IA explicable como "Ingeniero" o "Entrenador", lo que ayuda a recortar componentes superfluos y rediseñar arquitecturas para orientar la tecnología hacia la generación de secuencias de proteínas con las características deseadas.

Hacia un modelo de lenguaje de proteínas "Profesor"

El quinto rol de la IA explicable en el lenguaje de proteínas es el de "Profesor", que destaca como el más ambicioso y el menos desarrollado. Este tipo de IA explicable puede contribuir a desvelar principios biológicos completamente nuevos que los humanos no habían reconocido hasta ahora.

Los autores comparan este hito con otros alcanzados en distintos ámbitos de la inteligencia artificial, como cuando AlphaZero empezó a descubrir nuevas estrategias de ajedrez que sorprendieron a los grandes maestros, o cuando los sistemas de IA ayudaron a descifrar textos antiguos deteriorados al reconocer patrones lingüísticos invisibles al ojo humano. Es en ese momento cuando la tecnología pasa de ser una herramienta de eficiencia a otra que aporta conocimiento nuevo.

En las ciencias de las proteínas, alcanzar la fase de "Profesor" supondría que los sistemas de IA ayudaran a los investigadores a descubrir nuevas reglas de plegamiento, catálisis o interacción molecular capaces de transformar el modo en que se diseñan medicamentos, materiales y tecnologías sostenibles.

"Para nosotros, el verdadero santo grial es el diseño controlable de proteínas. Imagina poder decirle a un modelo: 'Diséñame una proteína con esta forma, activa a este pH', y recibir no solo una secuencia candidata, sino también una explicación clara de por qué ese diseño debería funcionar y, sobre todo, por qué fallarían las alternativas", explica la doctora Ferruz.

"Por ejemplo, el modelo podría explicar que una mutación concreta alteraría una red de enlaces de hidrógeno esencial para la estabilidad. Alcanzar ese nivel de control y de transparencia mecanística llevaría a los modelos de lenguaje de proteínas a pasar de ser generadores impresionantes a convertirse en socios de diseño verdaderamente fiables", añade.

Los autores subrayan que alcanzar la categoría de "Profesor" en los modelos de lenguaje de proteínas no ocurrirá de manera automática. Los modelos actuales son potentes reconocedores de patrones, pero a menudo se apoyan en correlaciones estadísticas más que en una comprensión real. Sostienen que deben cumplirse varias condiciones, y su principal preocupación gira en torno a la fiabilidad y la validación.

El artículo reclama a la comunidad la creación de pruebas de referencia y marcos de evaluación sólidos para comprobar si una explicación refleja realmente el razonamiento del modelo. También aboga por herramientas de código abierto que hagan la explicabilidad accesible y comparable entre laboratorios. Y, sobre todo, cualquier conocimiento derivado de la IA debe validarse en última instancia en el laboratorio, lo que convierte los patrones matemáticos en conocimiento biológico confirmado experimentalmente.

Add new comment

The content of this field is kept private and will not be shown publicly.
Para el envío de comentarios, Ud. deberá rellenar todos los campos solicitados. Así mismo, le informamos que su nombre aparecerá publicado junto con su comentario, por lo que en caso que no quiera que se publique, le sugerimos introduzca un alias.

Normas de uso:

  • Las opiniones vertidas serán responsabilidad de su autor y en ningún caso de www.madrimasd.org,
  • No se admitirán comentarios contrarios a las leyes españolas o buen uso.
  • El administrador podrá eliminar comentarios no apropiados, intentando respetar siempre el derecho a la libertad de expresión.
CAPTCHA
Enter the characters shown in the image.
Esta pregunta es para probar si usted es un visitante humano o no y para evitar envíos automáticos de spam.