LLM360: Desentrañando los misterios de los Modelos de Lenguaje Gigantes

En un principio, las redes neuronales eran como cajas negras, un enigma en el proceso de toma de decisiones. Imagina intentar entender a alguien que habla un idioma desconocido sin acceso al diccionario. Esa opacidad limitaba nuestra comprensión y confianza en estos modelos por lo que algunos decidimos abandonarlos hace más de treinta años cuando los intentamos aplicar en aplicaciones industriales.

Por eso, años después la llegada de proyectos como Pythia están cambiando el juego. Pythia se propone alcanzar la completa reproducibilidad de los modelos de lenguaje gigantes (LLMs). ¿Cómo? Compartiendo no solo los resultados finales sino también el código de entrenamiento, los conjuntos de datos y checkpoints intermedios. ¡Una ventana abierta a cómo estos modelos toman decisiones, desmitificando el proceso y llevando la transparencia a nuevas alturas!

La llegada de modelos de lenguaje gigantes (LLMs) como LLaMA, Falcon y Mistral ha revolucionado el panorama de la inteligencia artificial. Sin embargo, la falta de transparencia en los procesos de entrenamiento ha sido un obstáculo persistente para los profesionales y académicos. La mayoría de los LLMs de código abierto han compartido solo componentes selectos, dejando a la comunidad con preguntas sobre los detalles cruciales del proceso de entrenamiento.

LLM360: Un paso hacia la transparencia total

En respuesta a esta necesidad de transparencia, un equipo de investigadores de Petuum, MBZUAI, USC, CMU, UIUC y UCSD ha presentado LLM360. Este proyecto tiene como objetivo principal abrir por completo el código fuente de LLMs, proporcionando no solo los pesos finales del modelo o los scripts de inferencia, sino todo el proceso de entrenamiento, checkpoints del modelo y resultados intermedios.

Dos gigantes desvelados: AMBER y CRYSTALCODER

LLM360 ha lanzado dos LLMs masivos con 7 mil millones de parámetros cada uno: AMBER y CRYSTALCODER. Ambos modelos, junto con su código de entrenamiento, datos, checkpoints intermedios y análisis, están disponibles para la comunidad. La investigación detalla la estructura del dataset de pre-entrenamiento, los métodos de procesamiento de datos, las proporciones de mezcla de datos y los detalles arquitectónicos de los modelos LLM.

🚀 1/7 We are thrilled to launch LLM360 — pushing the frontier of open-source & transparent LLMs!
Starting with Amber (7B) & CrystalCoder (7B), we are releasing brand new pre-trained LLMs with all training code, data, and up to 360 model checkpoints.
🔗 https://t.co/ZcLPtYQhdQ pic.twitter.com/qpHU2DhwWF
— LLM360 (@llm360) December 11, 2023

384

1 Comment

Inline Feedbacks

Ver todos los comentarios

Admin

Pharizna

7 meses antes

Cuando hace unos días recordaba con orgullo algunos de los proyectos que tuve la suerte de llevar a cabo en mi época petrolera (en la REPSOL, para los amigos) dejé para otro momento los correspondientes a mi última etapa en GMV.

Ahora al ver en la noticia anterior Pythia como uno de los últimos modelos de IA me he acordado de que ese fue el nombre propuesto para el producto que los comerciales no quisieron utilizar en nuestro producto que acabó llamándose GMV-PitIA que, para mí, no significa ni me dice nada.

Mi propuesta de Pythia tenía su sentido ya que era una aplicación escrita en Python para IA (Pyth+IA= Pythia) que además era el nombre de la famosa sacerdotisa del Oráculo de Delfos donde se “adivinaba el porvenir” igual que nuestra app servía para “Predecir” posibles fallos en Operación y/o Mantenimiento en aplicaciones industriales. Sin embargo, se consideró que Pythia podrá confunfirse con PIFIA lo que haría difícil la venta de la solución. Qué pena