El examen imposible para la inteligencia artificial

A medida que los sistemas de inteligencia artificial se vuelven más avanzados, evaluar realmente sus capacidades se ha convertido en un desafío inesperado. Muchos de los exámenes que durante años se utilizaron para medir el rendimiento de los modelos de lenguaje ya no sirven para diferenciar entre algoritmos modernos, ya que las máquinas los resuelven con facilidad. Para abordar este problema, un grupo internacional de investigadores ha desarrollado un nuevo tipo de prueba conocida como Humanity’s Last Exam, un examen diseñado específicamente para medir los límites actuales de la inteligencia artificial.

Esta iniciativa reúne miles de preguntas extremadamente complejas creadas por expertos en distintas disciplinas, desde matemáticas avanzadas hasta lenguas antiguas. El objetivo no es solo comprobar qué tan buenas son las máquinas respondiendo preguntas, sino también identificar qué tipo de razonamiento y conocimiento siguen siendo difíciles para ellas. El resultado es una herramienta que podría convertirse en un referente para evaluar la evolución de los modelos de IA en los próximos años.

Un nuevo estándar para medir la inteligencia artificial

Durante la última década, los modelos de lenguaje basados en redes neuronales han experimentado mejoras notables. Sistemas como GPT, Claude o Gemini han alcanzado niveles de precisión muy altos en pruebas académicas diseñadas originalmente para evaluar su comprensión en múltiples disciplinas. Sin embargo, ese éxito ha generado un problema metodológico: si un examen se vuelve demasiado fácil, deja de ser útil para medir avances reales.

Un ejemplo claro es el benchmark conocido como MMLU (Massive Multitask Language Understanding), que durante años sirvió como referencia para medir el rendimiento de los modelos de IA en 57 áreas de conocimiento. Cuando se lanzó, los modelos obtenían puntuaciones cercanas al 40 %, pero a partir de 2024 los sistemas más avanzados comenzaron a superar el 90 % de precisión. En ese contexto, los investigadores concluyeron que era necesario diseñar un test mucho más exigente que pudiera seguir diferenciando entre niveles de capacidad.

De esa necesidad surgió Humanity’s Last Exam, un nuevo benchmark desarrollado por el Center for AI Safety y la empresa tecnológica Scale AI. Según la documentación publicada por los investigadores, el examen incluye alrededor de 2.500 preguntas que cubren más de un centenar de disciplinas académicas, incluyendo matemáticas, física, biología, lingüística histórica y humanidades especializadas.

La metodología empleada para construir el benchmark puede consultarse en el estudio académico disponible en arXiv, en el trabajo titulado Humanity’s Last Exam: A Benchmark to Evaluate AI at the Frontier of Human Knowledge. En ese documento, los investigadores describen el examen como una prueba diseñada para evaluar a los modelos de lenguaje cuando se enfrentan a problemas situados literalmente en el límite del conocimiento humano.

Humanity’s Last Exam: el núcleo del proyecto

El corazón del proyecto es precisamente el examen Humanity’s Last Exam (HLE), concebido como un banco de preguntas extremadamente complejo. Para elaborarlo, los investigadores solicitaron contribuciones de especialistas de todo el mundo. En total participaron cerca de mil expertos procedentes de más de 500 instituciones académicas y centros de investigación repartidos por más de 50 países.

El proceso de selección de preguntas fue bastante exigente. En una primera fase se recopilaron decenas de miles de propuestas de problemas. Posteriormente, los investigadores filtraron aquellas que podían resolverse con facilidad por modelos de inteligencia artificial existentes. Solo se incluyeron en el examen final aquellas preguntas que los sistemas actuales no podían responder correctamente o en las que obtenían resultados cercanos al azar.

Desde un punto de vista técnico, el examen combina preguntas de opción múltiple con respuestas abiertas cortas, lo que permite realizar evaluaciones automatizadas sin perder precisión en la corrección. Cada cuestión está formulada de manera que tenga una única solución válida, algo esencial para evitar ambigüedades en el análisis estadístico de resultados.

Los temas tratados son muy variados. Algunos problemas implican traducir textos en lenguas antiguas como el palmireno, una lengua semítica utilizada en Siria durante la antigüedad. Otros requieren identificar estructuras anatómicas microscópicas en aves o analizar patrones fonológicos del hebreo bíblico. Este tipo de preguntas exige un conocimiento extremadamente especializado, lo que dificulta que los modelos de IA puedan resolverlas basándose únicamente en correlaciones estadísticas.

Una explicación detallada del proyecto y de su planteamiento puede encontrarse en Researchers Create Humanity’s Last Exam to Test the Limits of Artificial Intelligence, donde se describe cómo este examen intenta poner a prueba las capacidades reales de los sistemas actuales de IA.

Resultados iniciales: las máquinas aún tienen dificultades

Una vez construido el examen, los investigadores comenzaron a probarlo con algunos de los modelos de inteligencia artificial más avanzados disponibles. Los resultados iniciales fueron bastante reveladores.

En las primeras pruebas, varios modelos ampliamente conocidos obtuvieron puntuaciones sorprendentemente bajas. GPT-4o logró aproximadamente un 2,7 % de respuestas correctas, mientras que Claude 3.5 Sonnet alcanzó alrededor del 4 %. El modelo o1 de OpenAI consiguió cerca de un 8 % de precisión. Estos resultados indican que incluso los sistemas más avanzados tienen dificultades significativas para responder preguntas que requieren conocimiento experto y razonamiento complejo.

Posteriormente, algunos modelos experimentales más recientes han mostrado mejoras considerables, alcanzando en ciertos casos tasas de acierto cercanas al 40 % o incluso al 50 %. Aun así, estas cifras siguen estando lejos del rendimiento de los especialistas humanos, que suelen obtener puntuaciones cercanas al 90 % en sus áreas de especialización.

Un análisis sobre cómo esta prueba podría convertirse en una referencia para medir avances hacia una inteligencia artificial general puede leerse en el artículo de The Toughest AI Exam Ever Created Could Reveal the First Signs of AGI, donde se analiza el impacto potencial del benchmark.

Por qué los benchmarks tradicionales ya no bastan

La aparición de este examen refleja un problema más amplio dentro del campo de la inteligencia artificial: la saturación de los benchmarks. Durante años, las evaluaciones estándar permitieron comparar diferentes modelos con relativa facilidad. Sin embargo, a medida que los sistemas mejoraron, muchas de estas pruebas dejaron de ofrecer información útil.

En términos estadísticos, cuando un modelo alcanza puntuaciones cercanas al máximo en un benchmark, la capacidad de ese test para diferenciar entre sistemas se reduce drásticamente. Este fenómeno se conoce como saturación del benchmark. Cuando ocurre, incluso mejoras significativas en el modelo pueden no reflejarse en la puntuación final.

Humanity’s Last Exam intenta evitar este problema mediante varias estrategias técnicas. En primer lugar, las preguntas se mantienen en gran parte privadas para evitar que los modelos las incorporen a sus datos de entrenamiento. En segundo lugar, el conjunto de problemas se actualiza periódicamente con nuevas contribuciones de expertos.

Además, el examen está diseñado para requerir razonamientos de múltiples pasos. Esto significa que la solución no depende de una única operación lógica, sino de una secuencia de inferencias que deben combinarse correctamente. Este tipo de problemas resulta especialmente difícil para los modelos actuales, que a menudo funcionan mejor cuando las respuestas pueden derivarse de patrones estadísticos presentes en grandes conjuntos de datos.

Lo que este examen revela sobre la inteligencia artificial

Más allá de su función como herramienta de evaluación, Humanity’s Last Exam ofrece una perspectiva interesante sobre las limitaciones actuales de la inteligencia artificial. Aunque los modelos modernos son capaces de generar texto coherente, traducir idiomas o escribir código, todavía muestran debilidades claras cuando se enfrentan a conocimiento extremadamente especializado.

En particular, los investigadores han identificado tres áreas donde los sistemas actuales suelen fallar con mayor frecuencia. La primera es la integración de conocimientos de múltiples disciplinas. Muchos problemas del examen requieren combinar información de diferentes campos, algo que resulta complicado para modelos entrenados principalmente en grandes corpus de texto.

La segunda limitación es el razonamiento de alta precisión. Algunas preguntas implican cálculos matemáticos complejos o análisis detallados de estructuras lingüísticas, lo que exige una cadena lógica consistente. Los modelos de lenguaje pueden cometer errores en cualquiera de los pasos intermedios, lo que conduce a una respuesta final incorrecta.

La tercera limitación tiene que ver con el conocimiento extremadamente específico. Aunque los modelos han sido entrenados con enormes cantidades de datos, todavía existen áreas académicas muy especializadas que apenas aparecen en los conjuntos de entrenamiento. Cuando el examen aborda esos nichos, la probabilidad de error aumenta considerablemente.

Reflexiones finales

Humanity’s Last Exam representa un intento serio de redefinir cómo se mide el progreso en inteligencia artificial. En lugar de centrarse en tareas simples o en problemas que los modelos ya dominan, este benchmark busca explorar el límite del conocimiento humano especializado.

La iniciativa también muestra la importancia de la colaboración interdisciplinar. Para crear el examen participaron expertos de campos muy distintos, desde historiadores hasta físicos o lingüistas. Esa diversidad es precisamente lo que permite detectar las debilidades de los sistemas actuales.

En los próximos años, este tipo de herramientas podría desempeñar un papel clave en el desarrollo de nuevas generaciones de inteligencia artificial. Si los modelos logran mejorar su rendimiento en este examen, significará que están empezando a manejar niveles de conocimiento y razonamiento mucho más cercanos a los de los especialistas humanos.

Sin embargo, incluso si algún sistema llega a superar este benchmark, eso no significará necesariamente que haya alcanzado una inteligencia general comparable a la humana. Más bien indicará que las máquinas están avanzando hacia una comprensión más profunda del conocimiento especializado, un proceso que probablemente continuará evolucionando durante décadas.

272