El algoritmo de Facebook para el autoaprendizaje en Visión Artificial

Cada día que pasa nos despertamos con nuevas aplicaciones de la Inteligencia Artificial o del Machine Learning aunque en la mayoría de los casos, para su puesta a punto, requieren de una gran cantidad de ejemplos con los que entrenar dichos algoritmos.

Sin embargo, la aparición de métodos de aprendizaje auto supervisado (SSL), que ya han revolucionado el procesamiento del lenguaje natural (PNL), podría ser la clave para dotar a la IA de un sentido común muy necesario.

Ahora investigadores de inteligencia artificial de Facebook (FAIR) han aplicado SSL al entrenamiento en visión por ordenador

En el caso de SEER, («SElf-SupERvised») Facebook mostró más de mil millones de imágenes públicas de Instagram aleatorias, sin selección previa o etiquetado.

Para reconocer el habla se necesita hbaitualmente etiquetar las palabras que fueron pronunciadas; si desea traducir, debe tener texto paralelo. Para reconocer imágenes, debe tener etiquetas para cada imagen o eso era hasta ahora.

El aprendizaje no supervisado, por otro lado, «es la idea de un problema de tratar de entrenar un sistema para representar imágenes de manera apropiada, sin requerir imágenes etiquetadas.

Uno de esos métodos es la incrustación conjunta en la que se presenta una red neuronal con un par de imágenes casi idénticas: una copia original y una copia ligeramente modificada y distorsionada.

La forma más natural de hacer esto es elegir al azar millones de pares de imágenes que sabes que son diferentes, ejecutarlas en la red y esperar lo mejor.

Sin embargo, métodos contrastantes como este tienden a requerir muchos recursos y tiempo dada la escala de los datos de entrenamiento necesarios.

La aplicación de las mismas técnicas SSL utilizadas en la PNL a la visión por computadora plantea desafíos adicionales.

Después de su sesión de preentrenamiento de mil millones de parámetros, SEER logró superar a los sistemas auto-supervisados de última generación en ImageNet, logrando una precisión del 84.2 por ciento entre los primeros.

Incluso cuando se entrenó utilizando solo el 10 por ciento del conjunto de datos original, SEER logró una precisión del 77,9 por ciento.

Y al usar solo el 1 por ciento del conjunto de datos OG, SEER aún logró una respetable precisión del 60,5 por ciento entre los primeros.

Esencialmente, esta investigación muestra que, al igual que con la capacitación en PNL, los métodos de aprendizaje no supervisados se pueden aplicar de manera efectiva a las aplicaciones de visión artifcial.

Los interesados en este prometedor tema disponen en la web de VISSL de toda la documentación, código, etc.

1004