Cuando una consola de 1977 humilla a ChatGPT en ajedrez: lecciones y matices

En este artículo analizamos cómo una consola Atari 2600, con apenas un procesador a 1,19 MHz y 128 bytes de RAM, cayó derrotada por ChatGPT‑4o en la partida de ajedrez en modo “beginner”, una interacción que tardó cerca de hora y media y culminó con tensos errores de reconocimiento de piezas y jugadas. Analizamos desde la perspectiva técnica esta curiosa derrota: el contraste entre un motor basado en fuerza bruta con capacidad de calcular entre 1 y 2 jugadas por anticipado y un modelo de lenguaje que carece de memoria estructurada del tablero. Además, evaluamos posibles formas de abordar este tipo de pruebas y reflexionamos sobre los límites actuales de los LLM.

Contexto histórico: ajedrez, lógica y cómputo

El enfrentamiento entre máquinas y humanos en ajedrez ha marcado hitos: desde el superordenador Deep Blue derrotando a Garry Kasparov en 1997, usando una velocidad de procesamiento estimada en 11,4 GFLOPS y evaluando hasta 200 millones de posiciones por segundo, hasta los tiempos actuales, donde los sistemas LLM se usan para razonar en lenguaje natural, pero no para razonar en lógica estructurada de tablero.

La Atari 2600, lanzada en 1977 y famosa por su escasa potencia, contaba con:

CPU MOS 6507 a 1,19 MHz
128 bytes de RAM
Cartuchos de 4 KB

El juego Atari Chess implementaba un motor simple, capaz de calcular entre 1 y 2 jugadas por avance (unos pocos cientos o miles de nodos en el árbol de decisiones), pero optimizado al extremo para su escaso hardware.

El experimento: ChatGPT vs Atari Chess

Preparación del duelo

Robert Jr. Caruso, especialista en Citrix, ideó una partida donde ChatGPT‑4o jugaba contra Atari Chess corriendo en emulador. Usó dos estrategias para facilitar al modelo:

Sustitución de iconos del tablero por notación algebraica estándar.
Suministro de la posición inicial en tabla, con coordenadas y piezas.

A pesar de ello, durante cerca de 90 minutos ChatGPT mostró múltiples errores “me hicieron reír como si fuera un club de ajedrez de tercer grado” (varios “blunders”), olvidaba posiciones, confundía torres por alfiles y acabó abandonando tomshardware.com.

La potencia bruta prevalece

El motor Atari evalúa posiciones por fuerza bruta: examina el tablero, genera los movimientos legales y evalúa ganancia material o posición. Aunque analiza solo 1–2 jugadas por delantera, lo hace de forma consistente desde el move 1, sin errores de memoria o seguimiento del contexto.
Por su parte, ChatGPT procesa en función de contexto textual, sin estructura de tablero ni memoria explícita de estado. Esto provoca que:

Al cabo de unas 12–15 jugadas, olvide piezas capturadas.
Tapice con errores de reconocimiento: “ícono abstracto”.
Carezca de lógica de evaluación material y posicional cuantitativa.

Un comentarista resumió: “Un LLM no está entrenado para pensar varias jugadas por adelantado, sino para predecir texto plausible en base a entrenamiento lingüístico”

Análisis técnico en detalle

Memoria vs estado persistente
- Atari: estado del tablero con 64 casillas en RAM, seguimiento preciso.
- ChatGPT: ventana de contexto de texto (~32 K tokens), sin memoria tabular.
Procesamiento lógico vs probabilístico
- Atari: lógica determinista, evaluación táctica concreta de +1.23 material, por ejemplo.
- ChatGPT: previsión estadística de texto; no calcula valoración de posición (±0.5, ±1.0).
Profundidad del cálculo
- Atari: escaneo de ~1.000–10.000 nodos por movimiento, aunque limitado a 1–2 ply.
- ChatGPT: ninguna evaluación de nodos, depende de patrones lingüísticos.
Consistencia en jugadas
- Atari: legalidad garantizada, coherente.
- ChatGPT: produce movimientos ilegales o contradictorios tras pocas jugadas.

¿Qué nos enseña este resultado?

Este duelo revela que un modelo de lenguaje no es una IA general, y no es adecuado para tareas que requieren memoria estructurada, representación de estado, lógica formal o razonamiento secuencial. Las LLM:

No están entrenadas para seguir reglas estáticas de dominio como el ajedrez.
Pierden coherencia posicional y material tras pocas jugadas.
No implementan búsqueda en árboles de decisión.

Por el contrario, los motores de ajedrez (como Stockfish o motores de Atari) están diseñados con heurísticas especializadas y estructuras de datos para gestionar el estado (hash tables, tablas de transposición), cálculo de material, tablas de finales (tablebases), etc.

Enfoque híbrido: LLM + motor de ajedrez

Algunos críticos ya hablan de un enfoque complementario:

Usar ChatGPT como interfaz conversacional para entablar jugadas.
Delegar la decisión de movimiento a un motor como Stockfish o Leela, que procesa posiciones codificadas (FEN) y devuelve la jugada óptima.
Recapacitación: el motor responde con puntuación +0.45 (indicando ligera ventaja).

Un sistema así combina:

Fluidez del lenguaje.
Rigor del motor lógico.

Sería una arquitectura multicontroller, donde cada componente actúa en su dominio óptimo.

Reflexiones adicionales

Este experimento no desacredita la utilidad de los LLM: son útiles en generación de código, redacción, síntesis, etc. Por el contrario demuestra que hay tareas donde un algoritmo clásico y bien ajustado sigue siendo superior en eficiencia, coherencia y rapidez.

Por último pone en evidencia que el marketing que sugiere que los LLM “piensan como humanos” resulta exagerado.

670