Unos auriculares con inteligencia artificial permiten escuchar a una sola persona entre la multitud con sólo mirarla una vez
Los auriculares con cancelación activa de ruido han demostrado su eficacia a la hora de crear un espacio auditivo en blanco. Pero permitir que ciertos sonidos del entorno del usuario atraviesen la cancelación del ruido sigue siendo un reto para los investigadores. La última edición de los AirPods Pro de Apple, por ejemplo, ajusta automáticamente los niveles de sonido para los usuarios -detectando cuando están en una conversación, por ejemplo-, pero el usuario tiene poco control sobre a quién escuchar o cuándo sucede esto.
Un equipo de la Universidad de Washington ha desarrollado un sistema de inteligencia artificial que permite al usuario mirar a una persona que habla durante tres a cinco segundos para «inscribirla». El sistema, denominado «Target Speech Hearing», cancela entonces todos los demás sonidos del entorno y reproduce en tiempo real sólo la voz del interlocutor inscrito, incluso cuando el oyente se desplaza por lugares ruidosos y deja de estar frente a él.
El equipo presentó sus resultados el 14 de mayo en Honolulu, en la Conferencia ACM CHI sobre Factores Humanos en Sistemas Informáticos. El código del dispositivo de prueba de concepto está disponible para que otros lo amplíen. El sistema no se comercializa aún.
«Tendemos a pensar en la IA como un chatbot basado en la web que responde a preguntas», explica Shyam Gollakota, autor principal y profesor de la Facultad de Informática e Ingeniería Paul G. Allen de la UW. «Pero en este proyecto desarrollamos IA para modificar la percepción auditiva de cualquier persona que lleve auriculares, dadas sus preferencias. Con nuestros dispositivos, ahora se puede oír claramente a un solo orador aunque se esté en un entorno ruidoso con muchas otras personas hablando.»
Para utilizar el sistema, una persona que lleve unos auriculares normales equipados con micrófono toca un botón mientras dirige la cabeza hacia alguien que habla. Las ondas sonoras de la voz de ese interlocutor deben llegar simultáneamente a los micrófonos de ambos lados de los auriculares; hay un margen de error de 16 grados. Los auriculares envían esa señal a un ordenador integrado, donde el software de aprendizaje automático del equipo aprende los patrones vocales del orador deseado. El sistema se fija en la voz de ese orador y sigue reproduciéndola al oyente, incluso cuando la pareja se mueve. La capacidad del sistema para centrarse en la voz seleccionada mejora a medida que el interlocutor sigue hablando, lo que proporciona al sistema más datos de entrenamiento.
El equipo probó el sistema con 21 sujetos, que, de media, valoraron la claridad de la voz del hablante registrado casi el doble que la del audio sin filtrar.
Este trabajo se basa en la investigación anterior del equipo sobre «audición semántica», que permitía a los usuarios seleccionar clases específicas de sonidos -como pájaros o voces- que querían oír y cancelaba otros sonidos del entorno.
En la actualidad, el sistema TSH sólo puede registrar un altavoz a la vez, y sólo es capaz de registrar un altavoz cuando no hay otra voz alta procedente de la misma dirección que la voz del altavoz objetivo. Si el usuario no está satisfecho con la calidad del sonido, puede volver a inscribir el altavoz para mejorar la claridad. El equipo está trabajando para ampliar el sistema a auriculares y audífonos en el futuro.
REFERENCIA
Look Once to Hear: Target Speech Hearing with Noisy Examples