Tras el chino y el inglés nuestro español es el idioma más utilizado en el mundo mientras que somos los segundos (después del chino) como lenguaje materno.

Sin embargo a nivel de lenguaje utilizado por las máquinas somos insignificantes por lo que es de agradecer, por ejemplo, el proyecto MarIA desarrollado conjuntamente por BSC e IBM en el supercomputador Marenostrum, gracias al cual la IA podría hablar en nuestro idioma.

Ahora también, el Instituto de Ingeniería del Conocimiento (IIC) ha desarrollado un modelo de lenguaje adaptado al dominio legal que mejora significativamente la precisión de nuestras soluciones de Procesamiento del Lenguaje Natural (PLN) para el sector legal.

El desarrollo de este modelo de lenguaje en español adaptado al sector legal surge como parte de un proyecto de investigación del IIC donde se ha estudiado la explotación y creación de modelos de lenguaje en español: RigoBERTa.

Un punto importante a tener en cuenta en el desarrollo de sistemas de Procesamiento del Lenguaje Natural es el dominio del lenguaje en el que se aplican. Y es que los modelos de lenguaje generalistas, que suelen crearse a partir de corpus de textos de páginas web, noticias, obras literarias o webs enciclopédicas como Wikipedia, pueden no ajustarse del todo a los términos y la jerga de sectores especializados como el médico, el financiero o el legal.

Por ello, se ha desarrollado una metodología para reajustar los modelos de lenguaje existentes y adaptarlos a los diferentes dominios con nuevos textos del sector en cuestión. Por ejemplo, para la creación de ese primer modelo de lenguaje en español para el sector legal, han partido de BETO, el modelo general del español desarrollado por la Universidad de Chile.

Este se ha reentrenado con un gran corpus legal-administrativo de más de 500 millones de palabras, que ha sido recopilado de fuentes abiertas y curado por su equipo de lingüistas computacionales, garantizando la calidad de los textos.

879
Suscribirse
Notificación
0 Comments
Inline Feedbacks
Ver todos los comentarios
0
¡Aquí puedes dejar tus comentarios!x