En los últimos años, la inteligencia artificial (IA) ha avanzado a pasos agigantados, especialmente en el ámbito de los modelos de lenguaje de gran tamaño (LLM). Sin embargo, a pesar de su capacidad para generar texto coherente y relevante, estos modelos suelen producir respuestas incorrectas o engañosas, fenómeno conocido como «alucinaciones» de la IA. Para abordar este desafío, se han desarrollado nuevas métricas y benchmarks que evalúan la precisión y fiabilidad de estos modelos, permitiendo una comparación objetiva y promoviendo mejoras continuas en su desarrollo.
Introducción a las alucinaciones de la IA
Las alucinaciones en la IA se refieren a respuestas generadas por modelos que, aunque parecen plausibles, carecen de fundamento en los datos de entrenamiento o en la realidad. Por ejemplo, un chatbot podría afirmar con seguridad que los ingresos de una empresa fueron de una cifra específica sin que esto sea cierto. Este problema ha cobrado relevancia con la popularización de modelos como ChatGPT, donde los usuarios han observado que, aunque las respuestas son coherentes, a menudo contienen falsedades presentadas de manera convincente.
Causas de las alucinaciones en modelos de lenguaje
Las alucinaciones pueden originarse por diversas razones:
- Datos de entrenamiento insuficientes o sesgados: Si el modelo se entrena con datos incompletos o con sesgos, es probable que genere respuestas incorrectas.
- Errores en la codificación y decodificación: Fallos en la interpretación de las representaciones internas del lenguaje pueden conducir a respuestas sin sentido.
- Dependencia excesiva del conocimiento paramétrico: Los modelos pueden confiar demasiado en la información almacenada en sus parámetros, lo que lleva a respuestas incorrectas cuando se enfrentan a consultas fuera de su ámbito de conocimiento. Ocurre algo similar a la estadística clásica: siempre es más seguro … interpolar que extrapolar aunque con tanta cantidad de parámetros en los modelos no es sencillo saber si se está dentro o fuera de la zona «segura» / de entrenamiento.
AILuminate: un nuevo benchmark para evaluar riesgos en IA
Para enfrentar el desafío de las alucinaciones y otros riesgos asociados con los LLM, la organización sin fines de lucro MLCommons ha introducido un nuevo benchmark llamado AILuminate. Este estándar evalúa a los modelos de IA en función de su capacidad para evitar respuestas perjudiciales o incorrectas, abarcando categorías como incitación a la violencia, discurso de odio, autolesiones e infracción de propiedad intelectual.
AILuminate utiliza 12,000 indicaciones de prueba para evaluar a los modelos, asignándoles calificaciones que van desde «pobre» hasta «excelente». En evaluaciones recientes, modelos destacados como Claude de Anthropic, Gemma de Google y Phi de Microsoft obtuvieron una calificación de «muy bueno», mientras que GPT-4o de OpenAI y Llama de Meta fueron calificados como «buenos». Este esfuerzo busca establecer estándares de seguridad en IA rigurosos e independientes, proporcionando una comparación global y promoviendo la transparencia en el desarrollo de modelos de IA.
MASK: un nuevo enfoque para medir la veracidad de la IA
Recientemente, investigadores han desarrollado MASK (Measuring AI’s Systematic Knowledge), un benchmark que mide la tendencia de los modelos de inteligencia artificial a proporcionar información falsa de forma sistemática. A diferencia de otras métricas que simplemente evalúan la coherencia de una respuesta, MASK analiza si un modelo tiende a generar respuestas incorrectas en categorías específicas. Esto permite detectar patrones de engaño en la generación de texto y evaluar la fiabilidad de un modelo con mayor precisión.
MASK examina el comportamiento de un modelo frente a afirmaciones verificables y compara sus respuestas con fuentes fiables. Además, proporciona métricas detalladas sobre qué tipos de errores cometen los modelos y en qué áreas son más propensos a generar información engañosa. Este enfoque es clave para mejorar la transparencia en la inteligencia artificial y evitar el uso de modelos con sesgos dañinos en entornos críticos como la salud o el derecho.
Importancia de benchmarks independientes
La introducción de benchmarks como AILuminate y MASK es crucial para el avance de la IA, ya que:
- Fomenta la transparencia: Proporciona una evaluación objetiva y pública del rendimiento de los modelos, permitiendo a los desarrolladores y usuarios comprender mejor sus limitaciones.
- Impulsa la mejora continua: Al identificar áreas de mejora, los desarrolladores pueden centrarse en abordar las debilidades de sus modelos.
- Establece estándares globales: Facilita la comparación entre diferentes modelos y promueve la adopción de prácticas óptimas en la industria.
Diferencia entre alucinaciones y mentiras en la IA
La diferencia entre alucinaciones y mentiras en los modelos de inteligencia artificial radica en la intención y el origen del error.
- Alucinaciones de la IA: Son respuestas incorrectas generadas sin intención de engañar. Se producen cuando un modelo de lenguaje crea información falsa pero coherente debido a la falta de datos adecuados o a fallos en la forma en que procesa la información. Estas alucinaciones pueden incluir datos inventados, citas erróneas o afirmaciones sin base real. Ocurren porque la IA rellena los vacíos con patrones estadísticos en lugar de hechos verificables.
- Mentiras de la IA: Implican una generación de información incorrecta con una intención aparente de manipular o engañar, aunque la IA en sí no tiene conciencia ni intenciones propias. Un modelo podría ser diseñado o ajustado para producir respuestas sesgadas, ocultar información o persuadir a los usuarios de manera específica. Un caso típico es cuando un modelo es entrenado para evitar ciertas verdades o generar respuestas políticamente convenientes.
En términos simples: una alucinación es un error involuntario debido a la estructura del modelo, mientras que una mentira es un error generado de forma controlada o con sesgo intencional en su entrenamiento.
Reflexiones adicionales
La evaluación y mitigación de las alucinaciones en los modelos de IA es esencial para garantizar su fiabilidad y seguridad. La implementación de benchmarks independientes como AILuminate y MASK representa un paso significativo hacia la transparencia y mejora continua en el desarrollo de la IA. A medida que la tecnología avanza, es fundamental que la comunidad investigadora y la industria colaboren para abordar estos desafíos, asegurando que la IA beneficie a la sociedad de manera segura y efectiva.

En este artículo se muestra un interesante ejemplo de las limitaciones de los modelos de lenguaje actuales, como su dificultad para interpretar relojes analógicos.
Esto ilustra un problema general: estos modelos no «comprenden» el mundo como los humanos, sino que procesan patrones basados en datos. Este tipo de ineficiencias resalta la necesidad de combinar avances en IA con enfoques que fomenten un entendimiento más profundo del contexto y la representación visual. Sin embargo, estas limitaciones también ofrecen oportunidades para mejorar y refinar estas tecnologías en el futuro.