En el último Congreso de desarrolladores I/O 2018 de Google se presentó una nueva tecnología basada en voz real, llamada Duplex, que permitirá a los usuarios no tener que decir ni «mu» cuando quieran reservar un restaurante o una cita con tu peluquero. Esta semana pasada, ya eran muchos los usuarios de los móviles Pixel 3 quienes podían comenzar a probarlo en EEUU antes de que dé el salto definitivo a todo el mundo. Esta calidad de la voz era tan sorprendente que dejo anodadados a todos los asistentes. Pero, ¿y si este sistema de Inteligencia Artificial se trasladase a trabajos en los que se trabaja con la voz, como un servicio de megafonía o una radio?

No parece que quede muy lejos esta opción, al menos esta última. En este caso, ha sido Amazon quien comienza a dar pasos para que su asistente tecnológico del hogar, Alexa, se encargue de locutar las noticias del día en voz alta. Eso sí, sin recurrir al monótono soniquete al que venimos estando acostumbrados y que es conocido en la industria como «síntesis concatenativa del habla», la cual está basada en la unión de segmentos de voz grabada y con la que hemos crecido en estos últimos años. Debemos reconocer que este tipo de locución suena muy robotizada, por ello, Amazon está mejorando estos patrones para que suenen con un tono y ritmo más parecido al que podría usar un periodista en un boletín informativo.

GRANT HINDSLEYGetty Images

Aquí podéis encontrar los diferentes tonos: según seas chico o chica. Podréis notar que suenan mucho mejor que si los dejamos en el modo al que estamos acostumbrados en sus respectivas voces masculina y femenina. Pero, el resultado marca una base para conseguir dar una apariencia mucho menos robótica y más de persona. No será este el único proyecto en el que trabaje la compañía, ya que está desarrollando otros tipos para adaptarlos a la situación y el tipo de mensaje que se quiere transmitir.

Para lograr que la voz sonase mucho más profesional, Amazon se sirvió de audios grabados de la locución de noticias de la vida real de diferentes emisoras de radio. De esta forma, el sistema de aprendizaje de la IA reconocía los puntos inflexivos que hacían en su relato para adaptarlos luego a los textos que reproducían. Apenas tardaron unas pocas horas en conseguir que Alexa hablase como toda una profesional (aunque para nuestro gusto está en fase de prácticas, aún tiene mucho que mejorar para conseguir mejores resultados).

Por el momento, ya tiene agregado el modo «susurro», para que no moleste a nadie…

Alberto Pascual García