También NVIDIA apuesta por el aprendizaje reforzado... aplicado a la robótica

Como sin duda sabréis, en PcDeMaNo somos un tanto “data-lovers” y nos gusta la estadística, el Machine Learning y la Inteligencia Artificial, en general.

Por ello hemos hablado muchas veces del aprendizaje reforzado (RL) y hasta estuvimos pensando utilizarlo para completar nuestro Digital Twin ICARUS aunque la complejidad de la Planta Termosolar nos aonsejó posponer (que no abandonar) dicho intento.

Los sistemas basados en RL han logrado un gran rendimiento en tareas muy complejas, que van desde juegos de estrategia clásicos como Go y ajedrez, hasta juegos PC en tiempo real como StarCraft y DOTA.

Los enfoques basados en RL también son prometedores para aplicaciones robóticas, como resolver un cubo de Rubik o aprender el movimiento imitando animales.

Desde hace varios años, los equipos de investigación de NVIDIA han estado trabajando para aprovechar la tecnología GPU para acelerar el RL. Como resultado de esta investigación, NVIDIA se ha anunciado una versión preliminar de Isaac Gym, el entorno de simulación de física de NVIDIA para la investigación del RL. El entrenamiento basado en RL ahora es más accesible, ya que las tareas que antes requerían miles de núcleos de CPU ahora se pueden entrenar con una sola GPU.

Hasta ahora, la mayoría de los investigadores de robótica y RL necesitaban utilizar clústers de núcleos de CPU para las simulaciones físicas necesarias para entrenar algoritmos de RL. En uno de los proyectos más conocidos, el equipo de OpenAI usó casi 30.000 núcleos de CPU (920 computadoras con 32 núcleos cada una) para entrenar el robot de resolución del Cubo de Rubik.

En una tarea similar se usó un grupo de 384 computadores con 6144 núcleos de CPU, más 8 GPU Volta V100 y requirió cerca de 30 horas de aprendizaje para lograr mejores resultados. Esta tarea de orientación de objetos de cubo en la mano es una tarea desafiante de manipulación diestra, con física y dinámica complejas, muchos contactos y un espacio de control continuo de alta dimensión.

635

También NVIDIA apuesta por el aprendizaje reforzado… aplicado a la robótica