Si alguien pensaba que Apple no estaba trabajando en la nueva inteligencia artificial estaba muy equivocado ya que hace meses lanzó a escondidas su Ferret 7b, un modelo de lenguaje grande (LLM) que lleva la inteligencia artificial a otros niveles. El Ferret 7b es capaz de generar respuestas multimodales que requieren referir y localizar objetos, semántica, conocimiento y razonamiento.

En efecto, en octubre del 2023, investigadores de Apple y Cornell University presentaron discretamente Ferret, un LLM multimodal de código abierto. A diferencia de los lanzamientos tradicionales de Apple, este no vino acompañado de anuncios o fanfarrias. La sorpresa llegó más tarde cuando la comunidad de investigadores de IA destacó la importancia de este paso, considerándolo un testimonio del compromiso de Apple con la investigación en IA.

Detalles técnicos y potencial de Ferret

El código de Ferret, liberado junto con el de Ferret-Bench, ofrece un vistazo a su funcionamiento. Diseñado para trabajar con regiones de imágenes para consultas, Ferret puede “referenciar y vincular cualquier cosa en cualquier lugar con cualquier granularidad” en una imagen. Esta capacidad de análisis granular permite identificar elementos específicos en una imagen y utilizarlos como parte de una consulta.

¿En qué se diferencia Ferret 7b de GPT?

La diferencia principal entre Ferret 7b y GPT es que el primero es un modelo de aprendizaje automático que puede usar regiones de imágenes para consultas, mientras que el segundo es un sistema de chat basado en el modelo de lenguaje por inteligencia artificial GPT1. Además, Ferret 7b utiliza el modelo GPT-4, que es más avanzado que el GPT-3.5 que usa Chat GPT2. Otra diferencia es que Ferret 7b es de código abierto y gratuito, mientras que Chat GPT tiene una versión de pago llamada Chat GPT Plus que ofrece algunas ventajas exclusivas.

Aplicaciones de Ferret 7b

Ferret 7b es un modelo de aprendizaje automático que puede usar regiones de imágenes para consultas, pero también tiene otras aplicaciones interesantes. Algunas de ellas son:

  • Generación de texto a partir de imágenes: Ferret 7b puede generar descripciones, narraciones, títulos o subtítulos para cualquier imagen que se le proporcione, usando el contexto visual y el lenguaje natural.
  • Generación de imágenes a partir de texto: Ferret 7b puede crear imágenes realistas o artísticas a partir de cualquier texto que se le dé, usando el contenido semántico y el estilo deseado.
  • Generación de diálogos multimodales: Ferret 7b puede mantener conversaciones fluidas y coherentes con los usuarios, usando tanto el texto como las imágenes como entradas y salidas, y adaptando su tono y personalidad al contexto.
  • Generación de música a partir de imágenes: Ferret 7b puede componer canciones originales a partir de cualquier imagen que se le muestre, usando la emoción, el género y el ritmo que se le indique.

Implicaciones y Reflexiones

La liberación de Ferret bajo una licencia no comercial plantea preguntas intrigantes sobre su futuro. Aunque actualmente no puede comercializarse, la posibilidad de integrarlo en futuros productos o servicios de Apple no se descarta. Además, este lanzamiento marca un cambio notable en la postura de Apple hacia la transparencia en su trabajo en IA, un área en la que tradicionalmente ha sido muy reservado.

 

358
Suscribirse
Notificación
0 Comments
Inline Feedbacks
Ver todos los comentarios
0
¡Aquí puedes dejar tus comentarios!x