Duplicar el Prompt: una forma sencilla de mejorar hasta un 76 % la precisión de los LLM

En el ámbito de los grandes modelos de lenguaje (LLMs, por sus siglas en inglés), las maneras de obtener respuestas de mayor calidad han ido evolucionando desde enfoques elaborados a propuestas sorprendentemente simples. Un artículo reciente de VentureBeat destaca una técnica de prompting que consiste únicamente en repetir el texto de entrada para decirle “dos veces” al modelo lo que queremos resolver. Aunque la idea parece trivial, los datos experimentales muestran mejoras de precisión muy significativas (hasta un +76 %) en tareas que no implican razonamiento complejo, como extracción de información o clasificación. Este artículo explica cómo funciona esta técnica, por qué importa, en qué escenarios es más útil y qué implicaciones tiene para desarrolladores y empresas que despliegan IA hoy.

La técnica, denominada por los autores del estudio como repetición de prompt, se ha probado en una variedad de arquitecturas populares —desde Gemini 2.0 Flash Lite hasta GPT-4o-mini y Claude 3.7 Sonnet— con resultados consistentes: en 47 de 70 pruebas comparativas contra el método tradicional de un único prompt, la repetición mejoró la precisión sin penalizar el tiempo de respuesta. Además de explicar cómo y por qué ocurre esta mejora, abordaremos las limitaciones de la técnica, su relación con otras estrategias de prompt engineering y cómo podría integrarse en flujos de trabajo de producción sin necesidad de modelos más grandes ni mayores costes de inferencia.

Por qué funciona decir “lo mismo” dos veces

La clave de esta técnica está en cómo interpretan los modelos transformer las secuencias de texto. La mayoría de los LLMs modernos están entrenados como modelos causales de lenguaje, lo que significa que procesan la entrada token por token de izquierda a derecha y cada token solo puede “atender” a los anteriores, no a los futuros. En otras palabras, cuando el modelo está leyendo el token $n$ , solo puede considerar los tokens 1… $n - 1$ . Esto crea una limitación que algunos investigadores han llamado “punto ciego causal”.

Al repetir el mismo texto de entrada —pasar de un prompt $《 Q U ER Y 》$ a $《 Q U ER Y 》《 Q U ER Y 》$ — el modelo efectivamente ve el segundo bloque de tokens con acceso a toda la información del primero. Esa segunda pasada puede atender a cada token anterior del mismo prompt, lo que actúa como una forma de atención bidireccional local para ese segmento de texto. En pruebas específicas como la recuperación de un elemento en una lista de 50 nombres, este simple truco permitió pasar de una precisión de 21,33 % a 97,33 %, demostrando que la repetición ayuda a fijar detalles que de otra manera se podrían perder en una sola pasada.

Este efecto es especialmente útil en tareas de extracción de información o preguntas directas donde la respuesta depende de identificar patrones o recuperar datos concretos del contexto dado. En cambio, cuando se combina esta repetición con técnicas de pensamiento paso a paso (Chain of Thought), los beneficios desaparecen o se vuelven neutrales, pues el modelo ya genera su propia “repetición” interna del contexto al razonar.

¿Qué significa esto para el Prompt Engineering?

El mundo del prompt engineering —el arte de diseñar indicaciones para que los LLM respondan bien— ha dado lugar a muchas estrategias, desde prompts con ejemplos (few-shot) hasta indicaciones explícitas de formato o contexto. Las guías clásicas de IBM sobre prompt engineering analizan cómo diferentes enfoques pueden orientar los modelos para producir resultados más consistentes, destacando que la claridad y la especificidad del contexto son cruciales para la calidad de la salida.

La repetición de prompt no sustituye a todas las técnicas tradicionales, pero complementa ese conjunto de herramientas ofreciendo una alternativa extremadamente simple y computacionalmente barata para tareas no razonadas. En lugar de recurrir a modelos más grandes o a arquitecturas de razonamiento más costosas, se puede probar primero esta técnica con el modelo existente: si el objetivo es obtener respuestas directas y precisas (por ejemplo, clasificación de texto, extracción de entidad, o preguntas de respuesta corta), la duplicación del prompt puede mejorar la precisión de un modelo “ligero” al nivel que normalmente se esperaría de uno de mayor tamaño.

Asimismo, esto puede influenciar cómo se diseñan los sistemas de orquestación de IA en empresas. Integrar la repetición de prompt en la capa de orquestación —antes de que el texto llegue al modelo— puede permitir una mejora automática sin que el usuario final tenga que modificar sus consultas manualmente. Por ejemplo, los gateways de API podrían detectar si la solicitud es de tipo “no razonamiento” (clasificación, extracción, correspondencia de patrones) y automáticamente duplicar el texto antes de enviarlo al modelo.

Beneficios cuantificados y escenarios de uso

Cuantificar los beneficios de esta técnica ayuda a entender mejor su impacto real:

Una de las pruebas más ilustrativas utiliza el conjunto de datos “NameIndex”, donde el modelo debe identificar el 25º elemento de una lista de 50. En un caso de uso real esto se traduce en la capacidad del sistema de recuperar información precisa de una base de datos textual: sin repetición, algunos modelos obtienen tan solo ~21 % de precisión, pero con repetición esa cifra puede incrementarse hasta ~97 %.

Este tipo de mejora de ~+76 % en precisión (cuando se mide relativa al baseline) está orientado a tareas que no requieren razonamiento profundo, sino reconocimiento de patrones o extracción puntual. Por ejemplo, en clasificación de textos largos, esta técnica puede ayudar a que el modelo reconozca mejor términos clave sin aumentar la longitud de la respuesta ni los costes de tokens generados.

Además, desde el punto de vista de procesamiento, esta mejora ocurre con prácticamente cero impacto en la latencia percibida por el usuario. El incremento en el texto de entrada solo afecta la fase de prefill (procesamiento inicial), que es paralelizable en hardware moderno, y no al decoding (generación de respuesta token por token), que es serial y más costoso.

Limitaciones y advertencias

Aunque los beneficios son notables, esta técnica tiene límites claros. Dado que no agrega capacidad de razonamiento ni mejora las inferencias lógicas profundas, no sustituye a enfoques específicos de modelado cuando el objetivo es resolver problemas complejos de inferencia o lógica. Para esos casos, técnicas como Chain of Thought o estructuras de prompts más elaboradas siguen siendo necesarias.

También hay que considerar que, si bien la repetición de prompt puede mejorar la precisión en muchos casos, no todos los modelos ni todas las implementaciones de IA la soportan de forma óptima. La variabilidad en el tamaño de contexto, la gestión del límite de tokens del modelo y la forma en que ciertas plataformas de IA manejan la entrada duplicada pueden influir en los efectos reales observados en producción.

Finalmente, también se deben explorar implicaciones de seguridad. La lógica que permite al modelo “entender mejor” un prompt al repetirlo podría, en teoría, aplicar también a entradas maliciosas, lo que exigirá que los equipos de red-teaming y seguridad actualicen sus estrategias de prueba para considerar si la repetición fortalece o debilita ciertas amenazas en sistemas reales.

Reflexiones finales

La repetición de prompt demuestra que incluso en un campo tan sofisticado como los grandes modelos de lenguaje, a veces las soluciones más simples pueden ofrecer mejoras significativas. Aunque depende del tipo de tarea y no reemplaza por completo las técnicas de razonamiento profundo, es un recurso táctico de bajo coste que puede integrarse en sistemas actuales para mejorar notablemente la precisión sin necesidad de invertir en modelos mayores ni en infraestructura más compleja.

Incorporar esta técnica en la lógica de orquestación y en las prácticas de prompt engineering amplía las herramientas disponibles para optimizar cómo interactuamos con los LLM sin introducir complejidad técnica adicional.

363