AudioCraft de Meta: El futuro de la música y el sonido a través de la IA

AudioCraft es más que un simple modelo de IA desarrollado por Fundamental AI Research (FAIR) de Meta. Es una fusión de tres de los modelos de IA generativa de Meta: MusicGen, AudioGen y EnCodec.

MusicGen y AudioGen transforman texto en sonido; MusicGen se encarga de generar música, mientras que AudioGen se encarga de los efectos de sonido específicos. EnCodec, por su parte, es un códec de audio compuesto por redes neuronales que comprimen el audio y reconstruyen la señal de entrada. Este trio trabajando en armonía es lo que permite a AudioCraft ofrecer sus impresionantes capacidades.

Música y sonido a la carta

Para entender la magia detrás de AudioCraft, solo necesitas visitar MusicGen en HuggingFace y jugar con la demo. Puedes describir cualquier tipo de música que te gustaría escuchar de cualquier época. Como ejemplo, Meta proporciona: «Una canción pop de conducción de los 80 con fuertes tambores y pads de sintetizador en el fondo». Y gracias a AudioGen, también puedes generar sonidos ambientales y efectos de sonido, como un perro ladrando o el crujido de un suelo.

El potencial de AudioCraft

Meta ve en AudioCraft el potencial para convertirse en un nuevo tipo de instrumento estándar, al igual que lo fueron los sintetizadores en su momento. «Con aún más controles, creemos que MusicGen puede convertirse en un nuevo tipo de instrumento, al igual que los sintetizadores cuando aparecieron por primera vez», afirma Meta. Además, Meta ha compartido los pesos y el código de los tres modelos de código abierto, permitiendo a los investigadores y profesionales utilizarlos para entrenar otros modelos.

Reflexiones finales

AudioCraft no es el primer modelo generativo de IA de esta naturaleza. Google ya lanzó MusicLM, su propio modelo que puede transformar texto en música, e incluso ha explorado la reconstrucción de música a partir de la actividad cerebral humana a través de la IA. Sin embargo, la propuesta de Meta con AudioCraft presenta un enfoque integral y potente para la creación de música y sonido, y abre un mundo de posibilidades en el espacio sonoro.

748