Por Juan García
1 de abril de 2025Casi 20 años después de sufrir un derrame cerebral, Ann ha podido volver escuchar sus pensamientos convertidos en voz. Gracias a un implante cerebral desarrollado por un equipo de investigadores de la Universidad de California en San Francisco y de la Universidad de California en Berkeley (EEUU), esta paciente de ictus ha sido pionera en el mundo en recuperar el “habla” gracias a una voz generada por un dispositivo informático en base a su actividad cerebral.
Fue en 2005 cuando Ann perdió la capacidad del habla tras sufrir un derrame cerebral en el tronco del encéfalo. 18 años después, esta paciente se sometió a una intervención quirúrgica para colocarle un rectángulo delgado, como un papel, con 253 electrodos en la superficie de la corteza cerebral que registra la actividad combinada de miles de neuronas al mismo tiempo. Los científicos diseñaron un dispositivo de interfaz cerebro-ordenador que decodifica las frases a medida que la mujer piensa para luego ser reproducidas por una voz sintética que los investigadores han recreado para emular la voz de la propia paciente antes de sufrir el derrame. Esto lo consiguieron entrenando a un algoritmo de IA con grabaciones del vídeo de su boda.
A diferencia de iniciativas anteriores, que sólo producían sonidos cuando el usuario terminaba de pronunciar una frase, el método actual puede detectar palabras simultáneamente y convertirlas en voz en menos de tres segundos. "Adoptamos técnicas de transductor (dispositivo que convierte un tipo de energía o señal en otro, como señales eléctricas a partir de magnitudes físicas) de flujo continuo, similares a las utilizadas por métodos populares como Siri o Alexa, y las reutilizamos para la síntesis personalizada cerebro-voz", ha señalado Kaylo Littlejohn, coautor principal del estudio. El investigador destaca que este enfoque dio lugar a mejoras significativas en la velocidad de descodificación de la neuroprótesis cerebro-voz en comparación con enfoques anteriores con retardos más largos", ha destacado Littlejohn.
En el estudio, los científicos explican que la comunicación oral natural es instantánea y que los retrasos en el habla superiores a unos segundos pueden interrumpir el flujo natural de la conversación. "Esto dificulta que las personas con parálisis participen en un diálogo significativo, lo que puede provocar sentimientos de aislamiento y frustración", señalan.
Por ello, diseñaron y utilizaron modelos transductores de redes neuronales, recurrentes en los métodos de aprendizaje profundo en los que se basa la IA, para lograr una síntesis del hable fluida e inteligible.
Para entrenar el sistema, registraron los datos neuronales mientras Ann intentaba pronunciar frases sueltas. Se le presentó un texto en un monitor y se le pidió que intentara hablar en silencio una vez que apareciera un 'GO' visual.
Además, el habla sintetizada se transmitía a través de un altavoz analógico cercano, y el texto descodificado se mostraba en el monitor. Los descodificadores neuronales del sistema eran bimodales, ya que se entrenaron conjuntamente no sólo para sintetizar el habla, sino también para descodificar el texto simultáneamente.
Una vez conseguido, pusieron a prueba el sistema utilizando un conjunto de frases de vocabulario reducido con 50 frases y un conjunto de frases de vocabulario extenso con 1.024 palabras generales. El conjunto de 50 frases se diseñó como un conjunto de frases predefinidas para expresar las necesidades primarias de los cuidadores.
Por el contrario, el conjunto de 1.024 palabras generales se diseñó como un conjunto de frases de gran vocabulario que contenía 12.379 frases únicas compuestas por 1.024 palabras únicas extraídas de la red social X y de transcripciones de películas.