¿Sabe la inteligencia artificial hacer ciencia?

Un reciente articulo publicado en Science y titulado: How will we know if AI is smart enough to do science? cuya autora es Celina Zhao, aborda como recientes pruebas evalúan si los grandes modelos lingüísticos (LLM) pueden usar sus profundas riquezas de conocimiento para descubrimientos reales.

 Según Zhao, durante años, los investigadores de IA han soñado con desarrollar herramientas que pudieran impulsar la ciencia al plantear preguntas novedosas, diseñar experimentos e incluso llevarlos a cabo. En los últimos meses, los grandes modelos de lenguaje (LLM) han hecho descubrimientos que, según algunos desarrolladores de IA, nos han acercado a ese futuro. Pero ¿Cómo se comprueba si un modelo de IA realmente puede hacer ciencia?

Para encontrar respuestas, los investigadores recurren a puntos de referencia: conjuntos estandarizados de preguntas o tareas que ayudan a evaluar las capacidades de una IA y a compararla con otros modelos. Sin embargo, la complejidad de la ciencia dificulta especialmente la evaluación de su aptitud. Como explica Hao Peng (citado por Zhao), informático de la Universidad de Illinois en Urbana-Champaign: «Los modelos poseen todo este conocimiento. ¿Saben cómo usarlo?».

En enero pasado, un editorial de Nature titulado: Expert-level test is a head-scratcher for AI (de Katherine M. Collins & Joshua B. Tenenbaum) que acompañó la publicación del HLE se hizo eco de esa preocupación: “Creemos que más científicos deberían preguntarse: ¿Qué se necesitaría para desarrollar un punto de referencia de IA que realmente mida el pensamiento a nivel de expertos?” 

En este contexto, según la nota editorial, los puntos de referencia convencionales son cada vez menos eficaces a la hora de evaluar el rendimiento de la IA, pero una prueba multidisciplinaria ha planteado a los sistemas de IA un nuevo desafío.

La búsqueda para construir sistemas de inteligencia artificial cada vez más potentes exige una definición clara de qué cuenta como inteligencia y cómo debe medirse. Los sistemas de IA generalmente se evalúan mediante pruebas llamadas puntos de referencia. Estos suelen ser conjuntos de pares de preguntas y respuestas en los que cada pregunta tiene una respuesta definitiva y verificable que permite que la herramienta de IA se califique automáticamente.

Durante el último año, han surgido docenas de nuevos puntos de referencia con enfoque científico para responder a esta pregunta, pero los científicos aún no han encontrado un enfoque óptimo. Uno de los más populares, publicado en Nature el mes pasado, es el último Humanity’s Last Exam (HLE). Utiliza 2500 preguntas extraídas de «la frontera del conocimiento humano» para evaluar a los LLM. Una, por ejemplo, pregunta cuántos tendones pares soporta el hueso sesamoideo de un colibrí.

Según Zhao, desde su lanzamiento como pre-print en enero de 2025, el HLE se ha convertido en un importante campo de pruebas para los LLM, y las puntuaciones del HLE son ahora un tema de conversación habitual para las empresas de IA que buscan destacar las capacidades de sus productos. En el lanzamiento del HLE, el modelo o1 del desarrollador OpenAI obtuvo la mejor puntuación con un 8,3 %. A principios de este mes, Google presumió de que su último modelo de razonamiento para la ciencia, llamado Gemini 3 Deep Think, había alcanzado un récord nuevo en la puntuación del HLE del 48,4 %.

Pero, algunos científicos argumentan que muchas de las preguntas del HLE evalúan conocimientos arcanos, e incluso triviales, en lugar de la capacidad de realizar investigaciones significativas. «¿Cómo ayudará a alguien a realizar descubrimientos científicos saber cuántos colores de alótropos de fósforo existen en el mundo?», pregunta Chenru Duan, fundador de Deep Principle, empresa de inteligencia artificial para la ciencia.

No cabe duda que los expertos tienen opiniones encontradas sobre la posibilidad o no de que la IA realmente aporte conocimiento científico, o realmente haga ciencia. El debate está servido.  

Fuentes:

Journal Science

Celina Zhao

Nature (Katherine M. Collins y Josué B. Tenenbaum)

El contenido de este sitio está bajo una licencia Creative Commons Attribution 4.0 International. Difunde, cita y enlaza.

COMO CITAR (APA 7)

Flores-Vivar, J.M. (27 de enero de 2026) La Comunicación Medioambiental, Alfabetización y Activismo Climático, elementos claves en el futuro de la sociedad. Cultura de Red (Blogs Fundación para el Conocimiento Madrid+d), [ ]

 

Compartir:

Deja un comentario