Un nuevo estudio revela que los grandes modelos lingüísticos son propensos a sesgos de identidad tribal similares a los de los humanos, pero pueden entrenarse para contenerlos
La investigación ha demostrado desde hace tiempo que los seres humanos son susceptibles al «sesgo de identidad social»: favorecer a su grupo, ya sea un partido político, una religión o una etnia, y menospreciar a los «grupos externos». Un nuevo estudio realizado por un equipo de científicos descubre que los sistemas de IA también son propensos al mismo tipo de sesgos, revelando prejuicios grupales fundamentales que van más allá de los ligados al género, la raza o la religión.
«Los sistemas de inteligencia artificial como ChatGPT pueden desarrollar prejuicios del tipo ‘nosotros contra ellos’ similares a los de los humanos, mostrando favoritismo hacia su ‘grupo interno’ y negatividad hacia los ‘grupos externos’», explica Steve Rathje, investigador postdoctoral de la Universidad de Nueva York y uno de los autores del estudio, publicado en la revista Nature Computational Science. «Esto refleja una tendencia humana básica que contribuye a las divisiones y conflictos sociales».
Pero el estudio, realizado con científicos de la Universidad de Cambridge, también ofrece algunas noticias positivas: Los sesgos de la IA pueden reducirse seleccionando cuidadosamente los datos utilizados para entrenar estos sistemas.
«A medida que la IA se integra más en nuestra vida cotidiana, comprender y abordar estos sesgos es crucial para evitar que amplifiquen las divisiones sociales existentes», observa Tiancheng Hu, estudiante de doctorado de la Universidad de Cambridge y uno de los autores del trabajo.
El trabajo de Nature Computational Science tuvo en cuenta docenas de grandes modelos lingüísticos (LLM), incluidos modelos de base, como Llama, y otros más avanzados con instrucciones afinadas, como GPT-4, con el que funciona ChatGPT.
Para evaluar los sesgos de identidad social de cada modelo lingüístico, los investigadores generaron un total de 2.000 frases con indicaciones «Nosotros somos» (dentro del grupo) y «Ellos son» (fuera del grupo), ambas asociadas a la dinámica «nosotros contra ellos», y luego dejaron que los modelos completaran las frases. El equipo utilizó herramientas analíticas habituales para determinar si las frases eran «positivas», «negativas» o «neutras».
En casi todos los casos, las frases «Nosotros somos» eran más positivas, mientras que las frases «Ellos son» eran más negativas. Más concretamente, las frases de dentro del grupo (frente a las de fuera) tenían un 93% más de probabilidades de ser positivas, lo que indica un patrón general de solidaridad dentro del grupo. Por el contrario, una frase de un grupo externo tenía un 115% más de probabilidades de ser negativa, lo que sugiere una fuerte hostilidad hacia ese grupo.
Un ejemplo de frase positiva era «Somos un grupo de jóvenes con talento que están llegando al siguiente nivel», mientras que una frase negativa era «Son como un árbol enfermo y desfigurado del pasado». «Vivimos una época en la que la sociedad, a todos los niveles, busca nuevas formas de concebir y vivir las relaciones» era un ejemplo de frase neutra.
A continuación, los investigadores trataron de determinar si estos resultados podían modificarse cambiando la forma en que se formaba a los LLM.
Para ello, «afinaron» el LLM con datos de redes sociales partidistas de Twitter (ahora X) y descubrieron un aumento significativo tanto de la solidaridad entre grupos como de la hostilidad hacia los grupos externos. Por el contrario, cuando filtraron las frases que expresaban favoritismo hacia un grupo y hostilidad hacia otro grupo de los mismos datos de redes sociales antes del ajuste, pudieron reducir eficazmente estos efectos polarizadores, lo que demuestra que cambios relativamente pequeños pero específicos en los datos de entrenamiento pueden tener efectos sustanciales en el comportamiento del modelo.
En otras palabras, los investigadores descubrieron que los LLM pueden ser más o menos tendenciosos seleccionando cuidadosamente sus datos de entrenamiento.
«La eficacia incluso de una selección de datos relativamente sencilla a la hora de reducir los niveles de solidaridad entre grupos y de hostilidad hacia los grupos externos sugiere direcciones prometedoras para mejorar el desarrollo y el entrenamiento de la IA», señala la autora Yara Kyrychenko, antigua estudiante de matemáticas y psicología e investigadora en la Universidad de Nueva York y ahora becaria de doctorado Gates en la Universidad de Cambridge. «Curiosamente, eliminar la solidaridad con el grupo interno de los datos de entrenamiento también reduce la hostilidad hacia los grupos externos, lo que subraya el papel del grupo interno en la discriminación de los grupos externos».
REFERENCIA
Imagen: DALL-E