Más allá del inglés: IA con identidad árabe y latinoamericana

Este artículo analiza dos iniciativas recientes en inteligencia artificial: Humain Chat, un chatbot desarrollado en Arabia Saudí con base cultural islámica y entrenado en uno de los conjuntos de datos más extensos en árabe, y Latam-GPT, un modelo de lenguaje abierto y colaborativo impulsado por América Latina. Ambas propuestas buscan ofrecer soluciones de IA más contextuales y sensibles a sus respectivos entornos, desafiando el predominio de las grandes firmas tecnológicas. Mientras que Humain Chat destaca por su capacidad bilingüe (árabe–inglés) y su enfoque en valores culturales específicos, Latam-GPT se basa en un corpus de más de 8 TB de texto (2 645 500 documentos) y cuenta con infraestructura potente, como clústeres de GPUs NVIDIA H200, para entrenar un modelo de 50 000 millones de parámetros, comparable a GPT-3.5. El artículo explora en profundidad ambos desarrollos, sus fundamentos técnicos, su importancia estratégica regional y cómo pueden transformar el futuro de la IA en sus respectivas regiones.

Humain Chat: un chatbot con identidad cultural

Humain Chat es la apuesta de una empresa saudí especializada en inteligencia artificial, concebido como un asistente conversacional que prioriza el idioma árabe y la cultura islámica. Funciona sobre el modelo Allam, apoyado en lo que la compañía afirma es uno de los datasets en árabe más voluminosos jamás recopilados y en lo que describen como “el modelo de IA pionero con enfoque árabe”. La aplicación, inicialmente disponible solo en Arabia Saudí, ofrece conversaciones bilingües (árabe e inglés), incluyendo dialectos regionales como el egipcio o el libanés . En cuanto a cifras técnicas, aunque no se indica un tamaño concreto del dataset, el énfasis en uno de los mayores recopilatorios en árabe sugiere un volumen en órdenes de decenas o cientos de gigabytes, posiblemente más.

Es relevante destacar el aspecto regulatorio: dado su origen en una agencia pública saudí, se ha apuntado a la posibilidad de que el chatbot cumpla con solicitudes de censura estatal, lo que condiciona el tipo de información que puede brindar. Por tanto, el sistema no es solo técnico, sino también político, y sus usos deben evaluarse en ese contexto.

Latam-GPT: colaboración, volumen y potencia de cálculo

Latam-GPT nace como un modelo de inteligencia artificial hecho por y para América Latina, con un enfoque comunitario y de código abierto. Tras dos años de trabajo “desde abajo”, se han consolidado 33 alianzas estratégicas en 2024 con instituciones académicas, públicas y privadas de toda la región WIRED. La base de datos supera los 8 TB de texto, con 2 645 500 documentos provenientes de 21 países latinoamericanos; el promedio de completitud es del 59,5 %. Por países, Brasil aporta 685 000 documentos, México 385 000, España 325 000, Colombia 220 000 y Argentina 210 000.

El modelo resultante cuenta con unos 50 000 millones de parámetros, situándolo en una escala cercana a GPT-3.5, lo que le permite manejar razonamiento, traducción y asociación de ideas con rendimiento medio-alto.Para el entrenamiento se dispone de una infraestructura potente: un clúster de 12 nodos con 8 GPUs NVIDIA H200 cada uno, instalado en la Universidad de Tarapacá, con una inversión estimada de 10 millones de dólares. Esta infraestructura aporta descentralización, mayor soberanía tecnológica y eficiencia energética.

En términos técnicos, el modelo ha sido diseñado para comprender la diversidad lingüística —incluyendo variantes del español, portugués e incluso lenguas originarias como el mapudungun, rapanui o guaraní— con especial énfasis en representaciones culturales y contextuales latinas.

Latam-GPT destaca no solo por su escala técnica, sino por su filosofía inclusiva y regional. Con una arquitectura de aproximadamente 50 000 millones de parámetros, permite realizar tareas complejas como traducción automática, razonamiento contextualizado y generación de respuestas en múltiples plataformas. El corpus de más de 8 TB y los 2,6 millones de documentos aseguran una cobertura temática amplia y representativa. La infraestructura GPU (96 GPUs H200 en total) garantiza capacidad de entrenamiento masivo en la región. Este modelo propicia que otros actores locales puedan derivar soluciones específicas —para educación, salud, agricultura o cultura— adaptadas a su realidad, promoviendo innovación e independencia tecnológica.

Reflexiones adicionales

Estas dos iniciativas representan una tendencia global: modelos de IA formados con sensibilidad local, que vencen las limitaciones lingüísticas y culturales impuestas por los gigantes tecnológicos. Humain Chat ejemplifica cómo la identidad cultural y religiosa puede orientarse como valor añadido técnico; Latam-GPT, por su lado, confirma que cooperación regional puede combinar datos de alto volumen (8 TB) y cómputo distribuido para construir modelos comparables a los comerciales.

Técnicamente, el avance es notable: un modelo de ~50 000 millones de parámetros entrenado con infraestructura GPU local y un corpus multilingüe y multicultural. Esto convierte a Latam-GPT en una pieza clave para impulsar aplicaciones reales, desde generación de contenido educativo en dialectos diversos hasta soporte en lenguas originarias.

En definitiva, estos desarrollos muestran que la tecnología no debe ser uniformadora: puede ser un espejo que refleje y potencie nuestras propias culturas, valores y necesidades regionales.

695