En los laboratorios del MIT se ha dado un paso significativo en la investigación sobre inteligencia artificial: un marco llamado SEAL (Self-Adapting Large Language Models) que permite a los modelos de lenguaje generar sus propios materiales de estudio y aprender de ellos. En lugar de depender únicamente de datos de entrenamiento predefinidos, estos modelos producen sus ”autoediciones”, que son notas sintéticas generadas por ellos mismos, y luego ajustan sus parámetros internos en función de si estas autoediciones mejoran su rendimiento en tareas específicas. Esta técnica combina aprendizaje por refuerzo con actualización de pesos y muestra mejoras medibles —por ejemplo, incrementos del 33 % al 47 % en precisión de respuestas al aprender nuevos hechos sin ver de nuevo el texto original—. El enfoque refleja algunos aspectos del aprendizaje humano y plantea nuevas preguntas sobre cómo hacer que los sistemas de IA se adapten continuamente en entornos cambiantes.

Aprender de lo que escriben: el núcleo de SEAL

Los grandes modelos de lenguaje (LLMs por sus siglas en inglés) tradicionalmente se entrenan con enormes corpus de texto, ajustando miles de millones de parámetros (los llamados weights) mediante algoritmos de optimización. Una vez desplegados, estos pesos suelen permanecer fijos, lo que limita la habilidad de la IA para incorporar nuevos conocimientos de forma permanente sin reentrenamientos costosos. El enfoque conocido como in-context learning permite que el modelo tome ejemplos recientes y genere mejores respuestas en el momento, pero no altera de manera durable sus pesos internos. Los investigadores del MIT han propuesto una respuesta a este reto con el framework SEAL (Self-Adapting Large Language Models), que capacita a los modelos para que generen y seleccionen sus propios datos sintéticos de entrenamiento, conocidos como self-edits.

Mediante un proceso iterativo con dos bucles —uno interno en el que se generan y prueban las autoediciones, y otro externo que selecciona aquellas que realmente mejoran el rendimiento de la IA— SEAL permite que el modelo “aprenda a aprender”. Por ejemplo, a partir de un pasaje de texto sobre una ciudad histórica, el modelo puede producir autoediciones con enunciados implicativos como “La ciudad se encuentra en…” o “Fue fundada en…”, y ajustar sus parámetros con estas notas sintéticas. En pruebas con el conjunto de datos SQuAD para preguntas y respuestas, un modelo sin adaptación respondía correctamente aproximadamente el 33 % de las preguntas; entrenar directamente sobre el pasaje original apenas mejoraba ese porcentaje, mientras que con autoediciones generadas por el propio modelo se llegó a cerca del 40 %, y con notas de GPT-4.1 subió hasta el 46 %. Tras aprender a identificar mejores autoediciones mediante reforzamiento, el rendimiento se situó en torno al 47 %, superando en esta tarea específica al modelo más grande que proporcionó las notas iniciales.

Cómo funciona técnicamente este autoaprendizaje

Técnicamente, SEAL se articula alrededor de recompensas basadas en rendimiento. Durante cada iteración del bucle externo, el modelo genera múltiples autoediciones naturales: instrucciones breves que describen qué datos sintéticos utilizar o incluso cómo ajustar hiperparámetros como la tasa de aprendizaje o el número de pasos de entrenamiento. Esas autoediciones se aplican mediante fine-tuning —frecuentemente con adaptadores de baja dimensionalidad (low-rank adapters, LoRA)— para crear varias versiones temporales del modelo. Estas versiones se evalúan contra tareas concretas (por ejemplo, acertar preguntas sin reexponer el texto original), y si la versión mejorada supera a la anterior, la autoedición que la originó obtiene una recompensa y se incorpora más tarde en la política de generación del modelo. Este método recuerda a la manera en que los estudiantes humanos escriben diferentes resúmenes y esquemas hasta encontrar aquellos que mejoran su comprensión.

En benchmark de razonamiento abstracto como ARC-AGI, SEAL también mostró un rendimiento notable. Con un modelo compacto sin entrenamiento especializado, el éxito en ciertas tareas de razonamiento visual pasó de un 20 % con aprendizaje de prueba estándar a más del 70 % tras aplicar autoediciones aprendidas —aunque un sistema ideal diseñado por humanos alcanzó el 100 %. Este tipo de resultados sugiere que permitir que el modelo decida qué aprender y cómo aprenderlo puede mejorar drásticamente su capacidad de adaptación incluso con pocos ejemplos.

Implicaciones y retos prácticos

El avance de SEAL tiene implicaciones claras para la inteligencia artificial adaptativa: si un modelo puede actualizarse a sí mismo de manera continuada sin requerir reentrenamientos completos, podría desempeñar mejor en entornos dinámicos donde la información nueva llega constantemente. Esto podría beneficiar desde asistentes de investigación científica que absorben nuevos papers automáticamente hasta agentes conversacionales que mantienen contexto actualizado con el uso continuado. Sin embargo, existen limitaciones significativas. El fenómeno del olvido catastrófico, por el cual nuevos ajustes sobrescriben conocimientos previos, sigue siendo una barrera fundamental para la consolidación de aprendizaje permanente. Además, el coste computacional es elevado: cada prueba de autoedición puede tardar entre 30 y 45 s en modelos medianos, lo que plantea desafíos de escalabilidad para sistemas más grandes o aplicaciones en tiempo real. También, el método depende actualmente de tareas etiquetadas con respuestas conocidas para generar señales de recompensa, lo cual restringe su uso en escenarios donde esos datos no existen.

Un área de investigación futura explorará si los propios modelos pueden generar sus propias evaluaciones o pruebas en vez de depender de conjuntos de datos externos con respuestas conocidas, lo que permitiría una verdadera capacidad de autoevaluación y aprendizaje continuo sin intervención humana. En este contexto, la idea de que un sistema de IA no se quede “congelado” una vez desplegado, sino que siga absorbiendo y consolidando conocimiento, es un cambio de paradigma en cómo concebimos los modelos inteligentes (Teaching large language models to absorb new knowledge, MIT News).

Reflexiones finales

Este enfoque tiene ecos de investigaciones anteriores en aprendizaje continuo y mitigación de olvido catastrófico, como las técnicas de generative replay o los métodos de consolidación de sinapsis dirigidos a preservar conocimiento crucial (Generative replay with feedback connections as a general strategy for continual learning, arXiv). Aunque SEAL no resuelve todos los problemas de aprendizaje permanente, ofrece un camino práctico para que los modelos de lenguaje evolucionen más allá de un entrenamiento estático y se acerquen a dinámicas de aprendizaje más flexibles y eficaces.

333
Suscribirse
Notificación
0 Comments
Inline Feedbacks
Ver todos los comentarios
0
¡Aquí puedes dejar tus comentarios!x