Transcripción de audio a texto, también conocida como reconocimiento de voz automático (ASR, por sus siglas en inglés), es el proceso de convertir el habla o el audio en texto escrito. Es una tecnología cada vez más importante debido a su amplio rango de aplicaciones en diferentes campos.

Por ejemplo es importante para la accesibilidad de personas con discapacidades auditivas. También facilita la búsqueda y recuperación de información en grabaciones o archivos de audio. Permite el análisis automatizado de grandes cantidades de datos de audio y ayuda en la automatización de tareas como la transcripción de entrevistas. Además, posibilita la interacción por voz con dispositivos y servicios basados en texto mediante asistentes virtuales y chatbots.

Existen varias herramientas y servicios disponibles siendo las más populares Google Cloud Speech-to-Text, Amazon Transcribe, Microsoft Azure Speech to Text, IBM Watson Speech to Text, y servicios basados en modelos de lenguaje como DeepSpeech.

Las limitaciones de la transcripción de audio a texto incluyen la variabilidad en la precisión debido a la calidad del audio, acentos o ruidos de fondo. Además, puede haber dificultades en términos de vocabulario y contexto específico, especialmente con términos técnicos o jergas. También resulta un desafío la detección y etiquetado de altavoces en audios con múltiples hablantes.

Gladia es una startup francesa de IA que busca cambiar la forma en que las empresas interactúan con los datos de audio. Desarrollan una API de transcripción de audio que se integra con otros productos y promete un rendimiento superior a las opciones disponibles en el mercado.

Las limitaciones actuales de las API existentes incluyen altos costos, falta de confiabilidad en algunos idiomas y lentitud en el procesamiento. Gladia se basa en el modelo de transcripción Whisper de OpenAI, optimizado para ser rápido y preciso. Su API puede detectar múltiples hablantes, agregar marcas de tiempo, detectar idiomas y cambiar entre ellos, y proporcionar resultados con puntuación y formato adecuados.

Gladia ha recaudado 4 millones de dólares en financiamiento y tiene una visión a largo plazo de mejorar la inteligencia de audio y ofrecer características adicionales más allá de la transcripción.

348
Suscribirse
Notificación
0 Comments
Inline Feedbacks
Ver todos los comentarios
0
¡Aquí puedes dejar tus comentarios!x