La IA que aprende física viendo vídeos

Un nuevo modelo de inteligencia artificial desarrollado por Meta, denominado V-JEPA (Video Joint Embedding Predictive Architecture), promete un enfoque distinto para comprender cómo funcionan los objetos y las interacciones físicas en el mundo real. A diferencia de otros sistemas entrenados únicamente en datos etiquetados, V-JEPA extrae nociones de causalidad y permanencia observando vídeos cotidianos. Esto le permite generar una especie de intuición física parecida a la de los niños pequeños cuando descubren que los objetos no desaparecen al ocultarse. Su arquitectura, basada en representaciones latentes en lugar de trabajar con píxeles, marca una diferencia técnica notable frente a modelos previos. En este artículo exploraremos cómo funciona, qué lo distingue y cuáles son sus posibles aplicaciones en campos como la robótica, los vehículos autónomos y la simulación científica.

V-JEPA: un modelo que “entiende” el mundo

El modelo V-JEPA fue presentado en 2024 por el equipo de investigación de Meta. A grandes rasgos, utiliza vídeos ordinarios para entrenarse, pero en lugar de procesar cada píxel, transforma los datos visuales en representaciones latentes. Estas representaciones condensan atributos esenciales de los objetos —como forma, tamaño, orientación o trayectoria— en vectores numéricos de pocas dimensiones. De este modo, el sistema reduce la complejidad del mundo visual, centrándose en lo que realmente importa para anticipar el comportamiento de los objetos.

Durante su entrenamiento, V-JEPA enmascara partes de los fotogramas y trata de predecir el contenido no visible. No lo hace reconstruyendo píxeles concretos, sino reproduciendo las representaciones latentes correspondientes. Con ello, logra identificar regularidades que reflejan leyes físicas implícitas: un vaso no puede atravesar una mesa o un coche no desaparece al pasar tras un camión. Según los investigadores, esta estrategia reduce el ruido informativo y mejora la eficiencia del modelo en un 30% respecto a los sistemas basados únicamente en espacio de píxeles (Quanta Magazine).

Más allá de los píxeles: ventajas técnicas

La clave está en que V-JEPA no se obsesiona con detalles irrelevantes como el movimiento de las hojas en un árbol o el parpadeo de una farola. En términos técnicos, esta capacidad para filtrar información redundante permite que el modelo reduzca el coste computacional en tareas de predicción. Si un sistema tradicional necesita decenas de miles de etiquetas manuales para alcanzar un 90% de precisión en la clasificación de acciones en vídeo, V-JEPA requiere menos de la mitad de esos datos gracias a su preentrenamiento con representaciones abstractas.

Su arquitectura consta de dos codificadores y un predictor. El primero convierte los fotogramas enmascarados en representaciones latentes, el segundo hace lo mismo con las imágenes completas y el predictor compara y aprende a aproximar ambos conjuntos. Esta combinación genera un modelo flexible, adaptable a distintos contextos sin necesidad de un reentrenamiento masivo.

La intuición física en acción

En pruebas realizadas a principios de 2025, los investigadores comprobaron que V-JEPA mostraba comportamientos análogos a la sorpresa cuando se le presentaban escenarios físicamente imposibles, como un objeto que atraviesa otro sólido. Este tipo de experimentos recuerda a los test aplicados a bebés de seis meses para medir la adquisición de nociones de permanencia de objeto. Según el estudio publicado en arXiv, el modelo alcanzó un 78% de éxito en identificar inconsistencias físicas en vídeos simulados, un resultado comparable al de sistemas mucho más pesados en recursos.

Aplicaciones prácticas y desafíos

Las posibles aplicaciones son amplias. En el ámbito de la robótica, un modelo con intuición física podría mejorar la manipulación de objetos en entornos cambiantes. En vehículos autónomos, la capacidad de anticipar la trayectoria de peatones o bicicletas no dependería únicamente de datos etiquetados sino de inferencias obtenidas de su entrenamiento previo. En simulación científica, este tipo de arquitectura puede servir para modelar interacciones de partículas o fluidos sin necesidad de programar explícitamente las ecuaciones físicas.

Sin embargo, no todo son ventajas. Aunque el modelo muestra una comprensión emergente, no se trata de un razonamiento físico en sentido estricto. La representación latente sigue siendo una simplificación matemática y su validez depende de la diversidad y calidad de los vídeos empleados. Además, la falta de interpretabilidad —un problema común en redes neuronales profundas— complica auditar qué “entiende” realmente el sistema.

Reflexiones finales

V-JEPA encarna un cambio de perspectiva en la investigación de la inteligencia artificial: en lugar de programar reglas o depender de grandes cantidades de etiquetas humanas, el modelo aprende observando de manera más natural. Este enfoque abre nuevas preguntas sobre los límites de la intuición artificial y su relación con el aprendizaje humano. Si bien aún estamos lejos de máquinas que razonen como las personas, el camino hacia sistemas con una comprensión práctica del mundo físico parece más cercano.

372