Las herramientas online para traducir entre idiomas ya son habituales y de uso cotidiano. Sin embargo, la creación de traductores de estilo (herramientas que mantienen el texto en el mismo idioma pero que transforman el estilo) es algo que requiere mucho más tiempo y una tecnología más avanzada. Esto en parte de debe a la dificultad de procesar la enorme cantidad de datos requeridos.
En busca de inspiración para mejorar los traductores online actuales, un equipo de científicos del Dartmouth College, liderados por Keith Carlson, recurrieron a la Biblia para obtener orientación. El resultado es un algoritmo entrenado en varias versiones de estos textos y que es capaz de convertir obras escritas en diferentes estilos en lecturas para audiencias distintas.
Además de ser una fuente de guía espiritual para muchas personas en todo el mundo, el equipo liderado por Carlson vio en la Biblia “un gran conjunto de datos de texto paralelo alineado sin explotar previamente». Más allá de proporcionar inspiración infinita, cada versión de la Biblia contiene más de 31.000 versos que los investigadores usaron para producir más de 1,5 millones de combinaciones únicas en un programa de machine learning.
Según la investigación, publicada en la revista Royal Society Open Science, este no es el primer conjunto de datos paralelos creado para la traducción de estilos. Pero sí es el primero que utiliza la Biblia. En el pasado se ha recurrido a obras de Shakespeare y hasta a entradas de Wikipedia, pero se trata de conjuntos de datos mucho más pequeños o no tan adecuados para la tarea de aprender la traducción de estilos.
«La Biblia en idioma inglés – explica Carlson – tiene muchos estilos diferentes, por lo que es el texto de origen perfecto para trabajar en la traducción de estilos”.
Como un beneficio adicional para el equipo de investigación, la Biblia ya está completamente indexada por el uso consistente de libros, capítulos y versículos. Así, la organización predecible del texto a través de las versiones, elimina el riesgo de errores de alineación que podrían ser causados por métodos automáticos para hacer coincidir diferentes versiones del mismo texto.
El equipo de Carlson utilizó 34 versiones bíblicas estilísticamente distintas que iban desde la complejidad lingüística, de la Versión King James hasta la Biblia en inglés básico. Los textos se incorporaron a dos algoritmos: un sistema estadístico de traducción automática denominado Moses y un marco de red neuronal comúnmente utilizado en la traducción automática, Seq2Seq.
Si bien se utilizaron diferentes versiones de la Biblia para entrenar al código de IA, ahora se podrían desarrollar sistemas que traduzcan el estilo de cualquier texto escrito para diferentes audiencias. Como ejemplo, un traductor de estilos podría tomar una selección en inglés de Moby Dick y traducirla a diferentes versiones adecuadas para lectores jóvenes, estudiantes de inglés como segunda lengua o cualquiera de una variedad de audiencias.
Juan Scaliter