Cuando ChatGPT “ve fantasmas”: el problema real de las citas inventadas

En los últimos meses, varios estudios académicos han puesto cifras a un fenómeno que muchos investigadores ya habían detectado de forma intuitiva: ChatGPT, incluso en versiones modernas como GPT-4o, inventa una proporción significativa de las referencias bibliográficas que genera. Esta tendencia, conocida como “alucinación”, afecta especialmente a áreas con literatura limitada y puede provocar errores serios en entornos académicos. Un análisis de la Universidad australiana de Deakin ha mostrado que, en revisiones de salud mental elaboradas por la IA, más de la mitad de las citas contenían fallos graves o directamente eran ficticias. El problema no solo implica artículos inexistentes, sino también DOI incorrectos, años alterados o autores que nunca participaron en el estudio citado. El reto ahora es comprender por qué ocurre, qué riesgos comporta y cómo pueden mitigarse sus efectos, especialmente para quienes utilizan la IA como apoyo en tareas de investigación.

¿Qué significa que ChatGPT “alucine” con las referencias?

Cuando se habla de “alucinaciones” en inteligencia artificial se hace referencia a información generada que suena creíble pero es falsa. En el caso de las referencias académicas, esto implica artículos inexistentes o datos bibliográficos incorrectos presentados como si provinieran de una fuente legítima. El fenómeno está bien documentado en investigaciones recientes. Un análisis publicado en StudyFinds describe cómo ChatGPT fabricó más del 50 % de las referencias al redactar revisiones sobre salud mental:

Aquí conviene aclarar un concepto esencial: el DOI. El DOI (Digital Object Identifier) es un identificador único y permanente asignado a artículos científicos, informes o capítulos de libro. Funciona como un “DNI académico”: aunque la URL del documento cambie, el DOI permite encontrar siempre el archivo original. Tiene una estructura alfanumérica (por ejemplo 10.1038/s41586-022-05012-5) y se puede resolver en el navegador simplemente añadiéndolo detrás de https://doi.org/. Por eso, cuando ChatGPT inventa un DOI o lo asigna a un artículo distinto, el error puede pasar desapercibido, pero sigue siendo grave porque rompe el vínculo directo entre la afirmación y la evidencia real.

En el estudio de la Universidad de Deakin se analizaron 176 citas generadas por GPT-4o y aproximadamente el 19,9 % eran completamente inventadas. Un 36 % adicional contenía errores importantes, principalmente en los identificadores DOI. Técnicamente, eso significa que solo un 43,8 % de las referencias eran fiables. Además, el 64 % de los DOI fabricados redirigían a artículos reales pero sobre temáticas distintas, lo que añade complejidad a la detección del fallo.

La tasa de invención aumenta cuando la IA trabaja sobre áreas poco estudiadas. Para trastornos como el dismórfico corporal superó el 29 %, mientras que en depresión bajó al 6 %, reflejando que el modelo rellena lagunas cuando la base documental es escasa.

¿Por qué ocurre desde un punto de vista técnico?

Los modelos como GPT-4o funcionan mediante predicción estadística: generan la siguiente palabra en función de patrones lingüísticos aprendidos, pero no verifican datos en bases documentales reales. Por eso, cuando se les pide un artículo científico, ensamblan elementos que parecen coherentes: nombres de autores frecuentes, años comunes en ciertas revistas y un DOI con formato válido… aunque no exista.

Estudios externos accesibles en PubMed confirman el mismo patrón. Uno de ellos, disponible aquí detectó que ChatGPT-3.5 inventó el 47 % de las referencias generadas para textos médicos. Otro, centrado en biología de células madre, mostró que el 15,12 % de las citas eran ficticias y un 9,3 % contenían errores.

Estas cifras revelan un fallo estructural: el modelo carece de un mecanismo de verificación semántica que contraste si el artículo citado existe o si la temática coincide con el contexto. Es capaz de producir frases técnicamente complejas y verosímiles, pero no de garantizar la autenticidad bibliográfica.

El estudio de Deakin University y por qué es tan relevante

El trabajo liderado por Jake Linardon se ha convertido en una de las referencias más citadas sobre este problema. El equipo pidió a GPT-4o que redactara revisiones de seis trastornos psiquiátricos. En los campos con más literatura disponible (como la depresión mayor), la IA mostró más aciertos. En áreas con menos publicaciones, la tasa de invención se disparó.

El análisis difundido por StudyFinds subraya un problema especialmente insidioso: algunos DOI inventados por ChatGPT apuntaban a artículos reales, pero no relacionados con la afirmación citada. Ese fallo es más difícil de detectar porque el enlace funciona, pero el contenido no coincide. Esto obliga a comprobar no solo si el DOI existe, sino si respalda lo que el texto afirma.

El estudio también muestra cómo el modelo combina autores reales con títulos falsos o mezcla fragmentos de referencias auténticas para crear un híbrido. Esa combinación modular indica que la IA trabaja por aproximación estadística, no por recuperación documental.

Riesgos directos para la investigación y la práctica académica

Las consecuencias son claras. En ciencia, una referencia falsa no es una simple anécdota: compromete toda la estructura argumentativa de un artículo. Un trabajo académico que se apoya en estudios inexistentes puede llevar a conclusiones erróneas o dar credibilidad a afirmaciones sin evidencia.

En ámbitos clínicos, un error en una revisión bibliográfica puede tener repercusiones, ya que los análisis de literatura influyen en decisiones médicas, protocolos de intervención y guías de práctica profesional.

El problema también afecta al entorno universitario. Muchos estudiantes utilizan ChatGPT para generar bibliografías rápidas y, si no revisan cada artículo, terminan entregando trabajos con citas imposibles de localizar. Las instituciones educativas ya están haciendo hincapié en la necesidad de verificar cada fuente manualmente.

¿Cómo se puede mitigar este problema?

El primer paso es la verificación humana. Ningún modelo actual está preparado para generar bibliografía completamente fiable sin supervisión. La recomendación principal de investigadores como Linardon es clara: comprobar cada DOI, cada autor y cada título.

Otra medida es pedir al modelo que reconozca su nivel de certeza. Aunque no elimina las alucinaciones, reduce la tendencia a inventar cuando “cree” no disponer de información suficiente.

Muchos grupos de investigación ya prefieren aportar sus propias referencias y pedir a la IA que las ordene o resuma, en lugar de generarlas desde cero.

También se proponen mejoras técnicas. Un análisis disponible aquí explica que ciertos métodos de prompting, como las etiquetas de contexto, disminuyen la probabilidad de fabricación cuando el modelo detecta un área donde la evidencia interna es insuficiente.

Reflexiones finales

El fenómeno de las referencias inventadas no desaparecerá a corto plazo, porque forma parte de la propia arquitectura de los modelos generativos. Son herramientas competentes para estructurar textos o explorar ideas, pero no pueden sustituir la revisión humana en tareas que exigen precisión bibliográfica.

El estudio de Deakin University demuestra que incluso los modelos avanzados como GPT-4o siguen fabricando artículos, autores y DOI. La respuesta adecuada no es dejar de utilizar la IA, sino hacerlo con criterio: supervisión, verificación y conciencia de sus límites.

389