Escuchar a alguien hablar implica captar un torrente ininterrumpido de señales acústicas, que de otro modo suena como ruido. Pero nuestro cerebro es capaz de “segmentar” ese torrente en palabras distintas. Dos estudios recientes muestran que una región concreta del cerebro —el giro temporal superior (STG, por sus siglas en inglés) — actúa como un motor de detección de fronteras entre palabras, gracias a un mecanismo neuronal que marca el final de cada palabra mediante una especie de señal de “reset”. Esta capacidad depende de la experiencia con la lengua: si escuchas un idioma que no conoces, ese mecanismo no se activa.
La magia neuronal tras el habla
Cuando alguien habla, el sonido que llega al oído no está separado por silencios ordenados; más bien es un flujo continuo de fonemas, sílabas y acentos. Según los estudios recientes publicados en las revistas Neuron y Nature, el STG no se limita a analizar aspectos simples como la intensidad o frecuencia del sonido, sino que lleva a cabo una tarea sofisticada: determinar automáticamente dónde termina una palabra y empieza la siguiente.
Usando electrocorticografía —una técnica que consiste en colocar una matriz de electrodos directamente sobre la corteza cerebral para registrar con gran resolución espacial y temporal la actividad neuronal— los investigadores observaron que, tras cada palabra audible, la actividad neuronal sufre una caída abrupta: ese “reset” neural funciona como un marcador biológico de frontera entre palabras.
Entre estos resets, las neuronas integran sonidos correspondientes a fonemas, cambios de tono, acentos y prosodia —es decir, los elementos acústicos que definen una palabra hablada. El proceso ajusta su duración: tanto si la palabra es corta como “pez” como si es larga como “hipopótamo”, el cerebro realiza el mismo ciclo completo de procesamiento, normalizando la duración relativa.
El papel de la experiencia lingüística
El mecanismo de segmentación no es universal: parece depender de la experiencia con la lengua que se está escuchando. En el segundo estudio, los participantes escucharon fragmentos en su idioma nativo y en idiomas desconocidos, como inglés, español o mandarín, según su perfil. Aunque su cerebro procesó los componentes acústicos básicos (vocales, consonantes, ritmo), la señal de “reset” neuronal desapareció cuando el idioma era extraño. En esos casos, lo que el oyente percibía no eran palabras individuales, sino un flujo sonoro continuo, sin divisiones claras.
Además, en personas bilingües o con dominio avanzado de una segunda lengua, la señal neural de segmentación reaparecía para ambas lenguas; mientras que en quienes tenían un dominio limitado, esa señal era débil o inexistente. Esto sugiere que el STG es una estructura plástica: con la exposición al idioma, aprende las regularidades estadísticas de ese lenguaje —dónde suelen terminar las palabras— y adapta su actividad en consecuencia. 00
Un vistazo comparativo: procesamiento acústico vs procesamiento del habla
Durante décadas, los modelos clásicos asumían que el cerebro procesaba primero los sonidos en bruto —frecuencias, intensidad, ritmo— en la corteza auditiva primaria, y luego esos datos se enviaban a áreas como el STG donde se transformaban en palabras con significado. Recientemente, esta visión ha sido revisada: parece que el procesamiento acústico y el del habla ocurren en paralelo, no en serie. El cerebro no espera a tener un mapa acústico completo para empezar a buscar palabras; desde muy pronto, algunas zonas ya intentan extraer significado.
Por ejemplo, en estudios previos se comprobó que el cerebro codifica simultáneamente tanto las características acústicas del habla (tono, volumen, ritmo) como los elementos lingüísticos (fonemas, sílabas, acentos) desde fases tempranas del procesamiento auditivo.
Este enfoque simultáneo permite una percepción del habla fluida y casi instantánea: no necesitamos esperar a que termine una frase para entender sus palabras. En milisegundos, nuestra mente ya ha trazado límites entre palabras, interpretado fonemas y reconstruido significado.
Implicaciones para la inteligencia artificial y las tecnologías del habla
Uno de los elementos más sorprendentes de la investigación es que un modelo de inteligencia artificial entrenado con aprendizaje auto-supervisado, el HuBERT, desarrolló internamente una estrategia de segmentación muy similar a la del cerebro humano: detecta fronteras entre palabras y ajusta sus representaciones temporales de forma relativa, no absoluta. Esto sugiere que la forma en que nuestro cerebro procesa el habla —una combinación de análisis acústico, predicción estadística y reset neuronal— es una solución computacional eficiente, no un artefacto biológico arbitrario.
Este hallazgo tiene potenciales aplicaciones reales: avanzar en interfaces cerebro-máquina que puedan interpretar internamente el habla, ayudar a personas con dificultades lingüísticas (tras un accidente, por ejemplo), y mejorar sistemas automáticos de reconocimiento de voz haciendo que imiten de cerca la estrategia humana de segmentación.
Limitaciones y cuestiones abiertas
Es importante reconocer que los datos provienen de pacientes con epilepsia que aceptaron implantar electrodos en la corteza cerebral. Por tanto, las evidencias se refieren a la superficie cortical —no a estructuras más profundas que también podrían intervenir en el procesamiento del habla—.
Además, los estudios analizan la percepción del habla, no su producción. Aún está por investigar si los mismos mecanismos temporales de segmentación intervienen cuando nosotros hablamos. Tampoco sabemos cómo evoluciona este mecanismo durante la infancia: ¿a partir de qué edad los bebés desarrollan ese “reset” neuronal?, ¿es igual en todos los idiomas? Estas preguntas abren la puerta a futuras investigaciones sobre adquisición del lenguaje y desarrollo cognitivo.
Reflexiones finales
Estos trabajos recientes suponen un avance significativo en nuestra comprensión de cómo el cerebro humano logra que algo tan aparentemente sencillo como “escuchar hablar” funcione con tan alta eficiencia. El hecho de que una región cortical como el STG —hasta ahora considerada casi como un analizador acústico básico— desempeñe una función tan refinada, cambia nuestro paradigma sobre el procesamiento del lenguaje.
La idea de que el cerebro divide una corriente continua de sonido en palabras distinguibles mediante “resets” neuronales, y que esa capacidad depende de la experiencia lingüística, nos lleva a valorar los procesos cotidianos del habla con otra mirada más técnica: escuchar no es simplemente oír, sino reconstruir significado en tiempo real.
Además, la convergencia entre métodos neurocientíficos y enfoques de inteligencia artificial —como demuestra la similitud entre el comportamiento del STG y el modelo HuBERT— sugiere que, detrás de la percepción del lenguaje, hay principios computacionales universales: aproximaciones adaptativas, eficientes en tiempo y recursos, que permiten decodificar el habla con rapidez y robustez.
Este conocimiento no solo abre nuevas vías para tecnologías de voz o rehabilitación, sino que también nos ayuda a entender la plasticidad cerebral: cómo, a través del aprendizaje y la experiencia, nuestro cerebro se ajusta para interpretar mejor lo que oímos.
130