Psicología

Un nuevo estudio revela cómo el cerebro aprende a buscar recompensas

Las recompensas no solo refuerzan una acción específica, sino que cambian en un momento todo el patrón de nuestro comportamiento

Imagina que estás enseñando a un perro a jugar a buscar. Lanzas una pelota y tu perro corre tras ella, la recoge y vuelve corriendo. Luego premias a tu cansado cachorro con un regalo. Pero ahora viene el verdadero truco para tu perro: descubrir qué parte de esa secuencia le valió el regalo. Los científicos llaman a esto el «problema de asignación de crédito» en el cerebro. Es una pregunta fundamental sobre la comprensión de qué acciones son responsables de los resultados positivos que experimentamos. La dopamina, un importante mensajero químico en el cerebro, juega un papel crucial en este proceso. Pero exactamente cómo el cerebro vincula acciones específicas con la liberación de dopamina ha permanecido poco claro.

Un estudio publicado hoy en Nature por científicos del Allen Institute, el Zuckerman Mind Brain Behavior Institute de la Universidad de Columbia, el Champalimaud Centre for the Unknown y el Seattle Children’s Research Institute arroja nueva luz sobre este misterio. Revela cómo la dopamina no solo señala una recompensa, sino que también guía a los animales a centrarse en los comportamientos específicos que conducen a estas recompensas a través de ensayo y error.

De manera intrigante, la investigación también muestra que el sistema de recompensa del cerebro puede alterar rápida y dinámicamente toda la gama de movimientos y comportamientos de un animal. Esto destaca una estrategia de aprendizaje sofisticada en la que los comportamientos no solo se refuerzan, sino que se moldean y afinan activamente a través de la experiencia, dijo Rui Costa, D.V.M, Ph.D., autor principal del estudio y presidente y CEO del Allen Institute. «Cuando refuerzas un comportamiento, a menudo pensamos que es solo esa acción», dijo Costa. “Pero no: estás cambiando toda la estructura del comportamiento. Y lo que fue realmente sorprendente fue cuán rápido fue».

Decodificando cómo la dopamina da forma al aprendizaje

Para descubrir esos conocimientos, el equipo colaboró con ingenieros y neurocientíficos del Champalimaud Centre for the Unknown para desarrollar un novedoso sistema «de circuito cerrado» que podría vincular acciones específicas de ratones con la liberación de dopamina en tiempo real. Los investigadores equiparon a los ratones con sensores inalámbricos para rastrear sus movimientos dentro de un espacio controlado simple. Luego, alimentaron estos datos en un algoritmo de aprendizaje automático, que categorizó estas acciones en grupos distintos. Los investigadores luego usaron optogenética, un método para controlar neuronas con luz, para estimular las neuronas de dopamina una vez que los ratones realizaron «acciones objetivo» predefinidas.

Descubrieron que los ratones cambiaron rápidamente su comportamiento en respuesta a la liberación de dopamina. Inicialmente, no solo aumentaron la frecuencia de la acción objetivo, sino también de acciones similares y aquellas que ocurrieron unos segundos antes de la liberación de dopamina. Mientras tanto, las acciones disímiles al objetivo disminuyeron rápidamente. Con el tiempo, este refinamiento se volvió más preciso, y los ratones se centraron cada vez más en la acción exacta que condujo a la liberación de dopamina.

El estudio también examinó cómo los ratones aprenden una serie de acciones, revelando un proceso clave similar a retroceder en el tiempo para comprender qué conduce a una recompensa. Cuando las acciones que desencadenaban la dopamina ocurrían más separadas, los ratones aprendían más lentamente. Esto muestra que las esperas más largas entre acciones hacen que sea más difícil para los ratones conectar la secuencia con la recompensa. En esencia, las acciones justo antes de la recompensa se comprenden y mejoran rápidamente, mientras que las acciones anteriores se refinan más gradualmente. Este proceso de ‘rebobinado’ fortalece el comportamiento y ayuda a los ratones a identificar progresivamente qué acciones y secuencias precisas generan la recompensa.

Los hallazgos podrían impactar en campos diversos como la educación y la inteligencia artificial.

REFERENCIA

Dynamic behaviour restructuring mediates dopamine-dependent credit assignment

Amina Jover

Noticias recientes

Este robot oruga se puede partir, separar y puede reptar por lugares estrechos

El origami o plegado de papel tradicional japonés y los nuevos materiales se combinan para…

5 mins hace

Venus casi no tiene agua. Un nuevo estudio podría revelar por qué

Científicos planetarios de la Universidad de Colorado en Boulder han descubierto cómo Venus, el vecino…

15 mins hace

CRISPR puede devolver la vista a las personas con problemas genéticos de visión

Los participantes en el ensayo pionero de edición genética CRISPR muestran que puede tratar enfermedades…

1 día hace

Suplementos de vitamina D, no todo el mundo necesita lo mismo

Un nuevo estudio cuestiona las directrices sobre suplementos de vitamina D, porque no todo el…

1 día hace

Aún hay tiempo: empezar con el ejercicio a los 50 puede remediar los daños de la inactividad

Un estudio confirma que empezar a hacer ejercicio en la mediana edad podría "revertir" los…

3 días hace

La ciencia ayuda a detectar el alcohol de garrafón

La falsificación de bebidas alcohólicas alcanza una de cada cuatro botellas que se venden en…

4 días hace