La inteligencia artificial generativa se ha integrado con rapidez en herramientas de trabajo, buscadores y asistentes digitales, proyectando una imagen de solvencia técnica que no siempre se corresponde con su fiabilidad real. A finales de 2025, investigadores de Google publicaron los resultados de un nuevo conjunto de pruebas diseñado para medir la precisión factual de los modelos de IA más avanzados. Los datos, recogidos y analizados por Business Insider, muestran que incluso el mejor modelo evaluado apenas alcanza un 69 % de aciertos cuando se le pide responder a preguntas basadas en hechos verificables. Esta cifra, lejos de ser anecdótica, pone sobre la mesa un debate clave: hasta qué punto se puede confiar en estos sistemas para tareas donde el error no es una opción. Más allá de la fluidez del lenguaje o de la capacidad para generar textos extensos, el estudio revela límites estructurales que conviene entender antes de delegar decisiones importantes en la IA.
Qué mide realmente el nuevo benchmark de Google
El conjunto de pruebas desarrollado por investigadores de Google DeepMind se conoce como FACTS Benchmark Suite y está diseñado para evaluar algo muy concreto: la capacidad de los modelos de IA para producir respuestas correctas desde el punto de vista factual. A diferencia de otros tests centrados en coherencia lingüística o creatividad, este benchmark pone el foco en la veracidad. Según recoge Business Insider en su análisis publicado en https://www.businessinsider.com/google-researchers-find-the-best-ai-model-is-69-right-2025-12, el modelo mejor clasificado solo logra acertar en torno al 69 % de las preguntas.
Desde un punto de vista técnico, este benchmark evalúa varios escenarios. Uno de ellos es la recuperación de hechos a partir de documentos largos, lo que obliga al modelo a mantener contexto durante miles de tokens. Otro mide la capacidad de anclar respuestas en fuentes externas, combinando técnicas de búsqueda, ranking semántico y generación de texto. También se evalúa la interpretación de contenido visual, donde la IA debe extraer información factual a partir de imágenes y gráficos. Cada uno de estos apartados introduce puntos de fallo distintos y explica por qué el rendimiento global se queda lejos de la perfección.
Un 69 % de precisión implica, en términos prácticos, que aproximadamente tres de cada diez respuestas contienen errores, omisiones o afirmaciones no verificables. En aplicaciones de bajo riesgo, como borradores creativos o resúmenes preliminares, este margen puede ser aceptable. Sin embargo, en ámbitos como el legal, el científico o el periodístico, supone una limitación clara.
La precisión factual como problema estructural
Uno de los aspectos más interesantes del estudio es que confirma algo que muchos investigadores ya sospechaban: aumentar el tamaño del modelo no garantiza una mejora proporcional en la precisión factual. Gemini 3 Pro, el modelo que encabeza la clasificación interna de Google, cuenta con miles de millones de parámetros y una arquitectura multimodal avanzada, pero aun así no supera ese umbral del 69 %. Esto sugiere que el problema no es solo de escala, sino de diseño y de entrenamiento.
En términos técnicos, los grandes modelos de lenguaje optimizan su entrenamiento para predecir la siguiente palabra más probable en un contexto dado. Esta estrategia es muy eficaz para generar texto fluido, pero no asegura que cada afirmación esté respaldada por datos reales. De ahí surgen las llamadas alucinaciones, respuestas plausibles desde el punto de vista lingüístico pero incorrectas desde el punto de vista factual. Estudios académicos recientes, como los analizados aquí, muestran que este fenómeno persiste incluso cuando se combinan los modelos con sistemas de recuperación de información externos.
Además, cuando se trabaja con documentos extensos, la degradación del contexto es un factor crítico. Aunque los modelos actuales pueden manejar ventanas de contexto de decenas de miles de tokens, la atención efectiva no es uniforme, y ciertos detalles clave pueden perderse o reinterpretarse de forma incorrecta. Esto explica por qué la precisión cae de forma notable en tareas de análisis profundo frente a preguntas simples de conocimiento general.
Gemini 3 Pro bajo la lupa
Dentro de este estudio, el protagonismo recae en Gemini 3 Pro, el modelo más avanzado de Google en el momento de la evaluación. Se trata de un sistema multimodal capaz de procesar texto, imágenes y otros tipos de datos, diseñado para aplicaciones profesionales y empresariales. En términos de rendimiento bruto, destaca por su capacidad para generar respuestas coherentes, resumir información compleja y mantener conversaciones largas sin perder el hilo.
Sin embargo, los resultados del benchmark muestran que, cuando se mide estrictamente la veracidad, Gemini 3 Pro no escapa a las limitaciones generales de la IA generativa. El 69 % de precisión factual lo sitúa por encima de otros modelos evaluados, pero también deja claro que no es una herramienta autónoma fiable para tareas críticas. En un informe de 10 000 palabras generado por IA, este porcentaje podría traducirse en cientos de afirmaciones incorrectas si no existe revisión humana.
Este dato no invalida el producto, pero sí define con claridad su rol actual. Gemini 3 Pro funciona mejor como asistente avanzado que como sustituto de expertos humanos. Su valor está en acelerar procesos, estructurar información y ofrecer puntos de partida, no en proporcionar verdades definitivas sin contraste.
Comparación con otros enfoques de evaluación
El FACTS Benchmark Suite no es el único intento de medir la fiabilidad de la IA, pero sí uno de los más explícitos en separar fluidez de precisión. Otros índices, como los centrados en productividad o razonamiento lógico, tienden a ofrecer resultados algo más optimistas, aunque tampoco alcanzan niveles cercanos al 100 %. Análisis recogidos en portales especializados como hyper.ai subrayan que el rendimiento de la IA varía enormemente según el tipo de tarea y el contexto.
Una diferencia clave de este benchmark es que simula condiciones de uso real, con información incompleta, ambigua o distribuida en múltiples fuentes. En esos escenarios, la IA debe decidir qué datos priorizar y cómo integrarlos, un proceso que todavía está lejos de ser infalible. Desde el punto de vista de la ingeniería, esto plantea la necesidad de integrar mecanismos de verificación interna y señales de incertidumbre que permitan al sistema reconocer cuándo no está seguro de una respuesta.
Implicaciones prácticas para empresas y usuarios
Para las empresas que ya utilizan IA en sus flujos de trabajo, estos resultados refuerzan la necesidad de mantener una supervisión humana activa. La IA puede reducir tiempos de análisis, generar borradores o detectar patrones, pero no debe ser la última instancia en decisiones críticas. Un margen de error del 31 % es incompatible con procesos donde la precisión es obligatoria.
En el ámbito educativo y divulgativo, el dato también invita a la cautela. Utilizar IA como apoyo al aprendizaje puede ser útil, siempre que se fomente la verificación de fuentes y el pensamiento crítico. Confiar ciegamente en respuestas generadas por modelos que fallan en casi una de cada tres ocasiones supone un riesgo evidente de desinformación.
Reflexiones finales
Los resultados publicados por Google y analizados por Business Insider no desmerecen los avances logrados en inteligencia artificial, pero sí ayudan a ponerlos en perspectiva. La capacidad de generar texto convincente no equivale a fiabilidad factual, y confundir ambos conceptos puede llevar a expectativas poco realistas. La IA actual es potente, rápida y versátil, pero todavía necesita apoyo humano cuando la exactitud importa.
A corto y medio plazo, la clave estará en combinar modelos generativos con sistemas de verificación más robustos y en comunicar de forma transparente sus límites. Benchmarks como FACTS no solo exponen debilidades, sino que ofrecen una hoja de ruta para mejorar. Mientras tanto, la mejor estrategia sigue siendo usar la IA como herramienta de apoyo, no como árbitro final de la verdad.
518
El artículo de TechCrunch sobre ChatGPT refleja cómo esta herramienta se ha convertido en un fenómeno global, con cientos de millones de usuarios y un impacto creciente en educación, empresa y entretenimiento. Sin embargo, su popularidad no debe ocultar una realidad: los modelos de lenguaje cometen errores porque no “entienden” el mundo, sino que predicen palabras basadas en patrones estadísticos. De ahí surgen alucinaciones, sesgos y respuestas inconsistentes.
Por eso es necesario aprender más sobre ChatGPT, comprender sus límites y exigir transparencia. Solo así podremos usarlo de forma crítica, evitando depender ciegamente de un sistema imperfecto.
La inteligencia artificial aplicada a la salud promete avances extraordinarios, pero sus errores pueden tener consecuencias críticas para pacientes y sistemas médicos.
El artículo de The Lancet Digital Health subraya que la confianza en la IA debe estar acompañada de una rigurosa validación clínica y de una supervisión ética constante.
Un fallo algorítmico no es un simple error técnico: puede significar diagnósticos equivocados, tratamientos inadecuados o retrasos en la atención. Por ello, resulta esencial combinar innovación con responsabilidad, transparencia y auditorías independientes. Solo así la IA podrá convertirse en una herramienta segura y fiable, capaz de mejorar la medicina sin comprometer la vida de las personas.