La empresa japonesa Rakuten ha presentado Rakuten AI 3.0, un modelo de lenguaje de gran escala con pesos abiertos que, según la compañía, supera a GPT‑4o en pruebas específicas centradas en el idioma japonés y en tareas conversacionales. Este nuevo modelo cuenta con aproximadamente 700 000 millones de parámetros organizados bajo una arquitectura Mixture of Experts (MoE), que activa solo una fracción de esos parámetros por cada entrada para mantener la eficiencia computacional. En pruebas del estándar Japanese MT‑Bench, Rakuten AI 3.0 obtuvo una puntuación de 8,88 frente a 8,67 de GPT‑4o, lo que ha generado mucho interés en la comunidad técnica. El modelo será publicado con pesos abiertos en primavera de 2026, permitiendo a investigadores y desarrolladores ajustar, estudiar y desplegar la tecnología bajo sus propios términos. Este artículo profundiza en los detalles técnicos del proyecto, su comparación con modelos existentes y qué significa para el desarrollo de IA abierta.
¿Qué es Rakuten AI 3.0 y cómo funciona?
Rakuten AI 3.0 es un modelo de lenguaje a gran escala (LLM) diseñado y desarrollado por el grupo tecnológico japonés Rakuten. A diferencia de los modelos densos tradicionales, este modelo utiliza la arquitectura Mixture of Experts (MoE), un diseño que divide la red en varios “expertos” especializados y que activa solo un subconjunto de ellos por cada entrada de datos. En este caso, aunque el modelo tiene 700 000 millones de parámetros en total, solo unos 40 000 millones de parámetros activos se utilizan en cada inferencia concreta, lo que reduce el coste y la complejidad computacional sin renunciar a la capacidad de respuesta contextual profunda.
En términos prácticos, una arquitectura MoE implica que cada token de entrada —ya sea una palabra, un símbolo o parte de una frase— sea dirigido por un mecanismo de “enrutamiento” a un grupo específico de expertos. Esto permite que el modelo mantenga una alta diversidad de funciones internas mientras que, para cada tarea dada, solo se usa una pequeña fracción de su capacidad máxima. Técnicamente, esto puede traducirse en reducciones del coste de inferencia de hasta el 90 % en comparación con modelos densos equivalentes, según pruebas internas de Rakuten.
Evaluaciones y resultados frente a GPT‑4o
Para evaluar la calidad de Rakuten AI 3.0 se empleó el benchmark japonés MT‑Bench, un conjunto de métricas que combina habilidades de conversación, comprensión contextual, razonamiento matemático básico y producción de texto técnico. El resultado del modelo fue 8,88, frente a los 8,67 registrados por GPT‑4o en la misma prueba, lo que, en términos de puntuación, indica una ligera ventaja en la habilidad del modelo japonés para manejar las particularidades de interacciones más largas o culturalmente dependientes.
Es importante matizar que estos puntajes no siempre se traducen directamente en “mejor” de forma absoluta. Las pruebas como MT‑Bench cuantifican diversas capacidades del modelo de forma estandarizada, pero muchas aplicaciones prácticas dependen también de factores externos como la latencia de respuesta, el contexto de dominio y la calidad de los datos de entrenamiento. Además, GPT‑4o sigue siendo uno de los modelos más robustos en benchmarks generales de lenguaje múltiple. No obstante, el hecho de que un modelo específico entrene con datos fuertemente orientados al japonés y a contextos locales demuestra que la aproximación de Rakuten puede tener ventajas claras en nichos lingüísticos y culturales.
Arquitectura Mixture of Experts y eficiencia
La arquitectura MoE no es un concepto nuevo en sí, pero su aplicación a modelos de esta escala y su publicación como un modelo de pesos abiertos son significativos. En un MoE bien implementado, el “enrutador” decide cuáles expertos activar para cada entrada, y solo esos módulos “especializados” participan en el procesamiento. Esto difiere de un modelo denso tradicional, donde todos los parámetros se utilizan en cada inferencia. En un MoE, si solo el 10 % de los expertos se activa por solicitud, eso puede significar una reducción proporcional en costos de cálculo, energía y memoria durante la ejecución en producción.
Técnicamente, Rakuten AI 3.0 activa tres capas densas estándar y ocho expertos por token para garantizar una base sólida de comprensión y respuesta. Es decir: aunque el modelo tenga un total de cientos de miles de millones de parámetros, el número de parámetros involucrados en la generación de cada respuesta es mucho menor, facilitando su uso en entornos empresariales con restricciones de coste o de infraestructura.
Mercados objetivo y aplicaciones prácticas
Rakuten no ha limitado su modelo a usos internos. La intención, según su hoja de ruta, es liberar los pesos del modelo para uso abierto en primavera de 2026, lo que permitirá que universidades, startups de IA, investigadores y corporaciones lo usen, modifiquen y adapten según sus necesidades. Esto es importante dentro del contexto de la IA abierta, donde la disponibilidad de pesos abiertos es un factor clave para la innovación descentralizada, la auditoría pública y el desarrollo comunitario de modelos.
Entre las aplicaciones previstas de Rakuten AI 3.0 están sistemas de asistencia en lenguaje japonés para atención al cliente, herramientas de traducción automática de alta calidad, generación de contenido específico para ecommerce y análisis de sentimiento y tendencias. Además, al estar integrado en la infraestructura interna de Rakuten —que comprende miles de servicios de ecommerce, fintech y comunicaciones—, se espera que el modelo mejore la eficiencia operativa y la comprensión de patrones de uso comportamental a gran escala.
Comparación con otros modelos de IA abiertos
La comparación con GPT‑4o es quizás la más destacada, pero no es la única. En el ecosistema de modelos de pesos abiertos, hay ejemplos como LLaMA‑3.1, que con 405 000 millones de parámetros también compite en rendimiento en sub‑tasks, o modelos especializados como Qwen2.5 que equilibra coste y rendimiento. Sin embargo, muchos de estos modelos abiertos centran su desarrollo en inglés o en tareas de dominio general, mientras que Rakuten AI 3.0 está optimizado para japonés, lo que le da una diferenciación competitiva.
En el caso de la competencia global, modelos cerrados como GPT‑4o mantienen ventajas en benchmarks generales y soporte comercial, mientras que modelos abiertos tienden a ofrecer accesibilidad, transparencia y personalización de forma más amplia, permitiendo a desarrolladores integar ajustes hasta a nivel de parámetros. La publicación de un modelo como Rakuten AI 3.0 con pesos abiertos abre la puerta a que comunidades de investigación exploren nuevas formas de adaptación y optimización que no dependen de licencias propietarias restrictivas.
Impacto en la comunidad técnica y próximos pasos
El anuncio de Rakuten AI 3.0 no solo presenta un modelo competitivo, sino que también apunta a un movimiento más amplio en la industria: el avance de modelos de alto rendimiento con acceso abierto a pesos. Estos modelos permiten que investigadores y desarrolladores tengan control total sobre la arquitectura, el entrenamiento y la personalización, lo que en última instancia puede acelerar la innovación en áreas como sistemas de diálogo, traducción especializada o herramientas de generación de texto técnico.
Cuando el modelo se libere oficialmente como modelo open‑weight en primavera de 2026, se espera que genere un incremento notable en experimentación y despliegues locales en Japón y potencialmente en otros mercados que valoran explicabilidad y personalización lingüística en sus herramientas de IA. Además, la combinación con APIs de desarrollo y frameworks de machine learning abiertos podría facilitar integraciones con sistemas existentes en empresas de todos los tamaños.
Reflexiones finales
Rakuten AI 3.0 representa un paso relevante en la evolución de los grandes modelos de lenguaje abiertos, enfocándose en una optimización lingüística y cultural específica que ofrece ventajas tangibles para aplicaciones concretas, especialmente en japonés. Aunque la comparación con modelos como GPT‑4o se basa en pruebas concretas y no en métricas universales, los resultados obtenidos sugieren que un modelo bien afinado puede rivalizar e incluso superar en ciertos aspectos a alternativas propietarias. La publicación de los pesos abrirá nuevas posibilidades para investigación, personalización y uso en producción, mostrando que el camino hacia la IA accesible y adaptable pasa por la apertura y la colaboración comunitaria.
387