Las recompensas no solo refuerzan una acción específica, sino que cambian en un momento todo el patrón de nuestro comportamiento

Imagina que estás enseñando a un perro a jugar a buscar. Lanzas una pelota y tu perro corre tras ella, la recoge y vuelve corriendo. Luego premias a tu cansado cachorro con un regalo. Pero ahora viene el verdadero truco para tu perro: descubrir qué parte de esa secuencia le valió el regalo. Los científicos llaman a esto el «problema de asignación de crédito» en el cerebro. Es una pregunta fundamental sobre la comprensión de qué acciones son responsables de los resultados positivos que experimentamos. La dopamina, un importante mensajero químico en el cerebro, juega un papel crucial en este proceso. Pero exactamente cómo el cerebro vincula acciones específicas con la liberación de dopamina ha permanecido poco claro.

Un estudio publicado hoy en Nature por científicos del Allen Institute, el Zuckerman Mind Brain Behavior Institute de la Universidad de Columbia, el Champalimaud Centre for the Unknown y el Seattle Children’s Research Institute arroja nueva luz sobre este misterio. Revela cómo la dopamina no solo señala una recompensa, sino que también guía a los animales a centrarse en los comportamientos específicos que conducen a estas recompensas a través de ensayo y error.

De manera intrigante, la investigación también muestra que el sistema de recompensa del cerebro puede alterar rápida y dinámicamente toda la gama de movimientos y comportamientos de un animal. Esto destaca una estrategia de aprendizaje sofisticada en la que los comportamientos no solo se refuerzan, sino que se moldean y afinan activamente a través de la experiencia, dijo Rui Costa, D.V.M, Ph.D., autor principal del estudio y presidente y CEO del Allen Institute. «Cuando refuerzas un comportamiento, a menudo pensamos que es solo esa acción», dijo Costa. “Pero no: estás cambiando toda la estructura del comportamiento. Y lo que fue realmente sorprendente fue cuán rápido fue».

Decodificando cómo la dopamina da forma al aprendizaje

Para descubrir esos conocimientos, el equipo colaboró con ingenieros y neurocientíficos del Champalimaud Centre for the Unknown para desarrollar un novedoso sistema «de circuito cerrado» que podría vincular acciones específicas de ratones con la liberación de dopamina en tiempo real. Los investigadores equiparon a los ratones con sensores inalámbricos para rastrear sus movimientos dentro de un espacio controlado simple. Luego, alimentaron estos datos en un algoritmo de aprendizaje automático, que categorizó estas acciones en grupos distintos. Los investigadores luego usaron optogenética, un método para controlar neuronas con luz, para estimular las neuronas de dopamina una vez que los ratones realizaron «acciones objetivo» predefinidas.

Descubrieron que los ratones cambiaron rápidamente su comportamiento en respuesta a la liberación de dopamina. Inicialmente, no solo aumentaron la frecuencia de la acción objetivo, sino también de acciones similares y aquellas que ocurrieron unos segundos antes de la liberación de dopamina. Mientras tanto, las acciones disímiles al objetivo disminuyeron rápidamente. Con el tiempo, este refinamiento se volvió más preciso, y los ratones se centraron cada vez más en la acción exacta que condujo a la liberación de dopamina.

El estudio también examinó cómo los ratones aprenden una serie de acciones, revelando un proceso clave similar a retroceder en el tiempo para comprender qué conduce a una recompensa. Cuando las acciones que desencadenaban la dopamina ocurrían más separadas, los ratones aprendían más lentamente. Esto muestra que las esperas más largas entre acciones hacen que sea más difícil para los ratones conectar la secuencia con la recompensa. En esencia, las acciones justo antes de la recompensa se comprenden y mejoran rápidamente, mientras que las acciones anteriores se refinan más gradualmente. Este proceso de ‘rebobinado’ fortalece el comportamiento y ayuda a los ratones a identificar progresivamente qué acciones y secuencias precisas generan la recompensa.

Los hallazgos podrían impactar en campos diversos como la educación y la inteligencia artificial.

REFERENCIA

Dynamic behaviour restructuring mediates dopamine-dependent credit assignment