Según los psicólogos de la UCLA, el GPT-3 puede razonar tan bien como un estudiante universitario, pero ¿imita la tecnología el razonamiento humano o utiliza un proceso cognitivo fundamentalmente nuevo?

Las personas resuelven fácilmente problemas nuevos sin ningún entrenamiento o práctica especial comparándolos con problemas conocidos y ampliando la solución al nuevo problema. Este proceso, conocido como razonamiento analógico, se considera desde hace tiempo una capacidad exclusivamente humana. Pero eso puede haber cambiado ya.

Una investigación realizada por psicólogos de la Universidad de California en Los Ángeles (UCLA) muestra que, sorprendentemente, el modelo de lenguaje de inteligencia artificial GPT-3 rinde casi tan bien como los estudiantes universitarios cuando se les pide que resuelvan el tipo de problemas de razonamiento que suelen aparecer en los tests de inteligencia y en pruebas estandarizadas como el SAT, las pruebas de acceso a la universidad en Estados Unidos. El estudio se publica en Nature Human Behaviour.

Pero los autores del artículo escriben que el estudio plantea una pregunta: ¿Imita GPT-3 el razonamiento humano como subproducto de su enorme conjunto de datos de entrenamiento lingüístico o utiliza un tipo de proceso cognitivo fundamentalmente nuevo?

Sin acceso al funcionamiento interno de GPT-3, que está protegido por OpenAI, la empresa que lo creó, los científicos de la UCLA no pueden decir con seguridad cómo funciona su capacidad de razonamiento. También señalan que, aunque GPT-3 funciona mucho mejor de lo que esperaban en algunas tareas de razonamiento, la popular herramienta de IA sigue fallando estrepitosamente en otras.

«Por muy impresionantes que sean nuestros resultados, es importante destacar que este sistema tiene grandes limitaciones», afirma Taylor Webb, investigador postdoctoral en psicología de la UCLA y primer autor del estudio. «Puede hacer razonamientos analógicos, pero no puede hacer cosas que son muy fáciles para las personas, como utilizar herramientas para resolver una tarea física. Cuando le dimos ese tipo de problemas (algunos de los cuales los niños pueden resolver rápidamente), las cosas que sugería carecían de sentido».

Pruebas de inteligencia

Webb y sus colegas probaron la capacidad de GPT-3 para resolver una serie de problemas inspirados en una prueba conocida como Matrices Progresivas de Raven, que pide al sujeto que prediga la siguiente imagen en una complicada disposición de formas. Para que GPT-3 pudiera «ver» las formas, Webb convirtió las imágenes a un formato de texto que GPT-3 pudiera procesar; este método también garantizaba que la IA nunca se hubiera encontrado antes con las preguntas.

Los investigadores pidieron a 40 estudiantes universitarios de la UCLA que resolvieran los mismos problemas.

«Sorprendentemente, GPT-3 no sólo lo hizo tan bien como los humanos, sino que también cometió errores similares», afirma Hongjing Lu, profesor de psicología de la UCLA y autor principal del estudio.

GPT-3 resolvió correctamente el 80% de los problemas, muy por encima de la puntuación media de los sujetos humanos, ligeramente inferior al 60%, pero dentro del rango de las puntuaciones humanas más altas.

Los investigadores también pidieron a GPT-3 que resolviera un conjunto de preguntas de analogía del examen SAT que, según ellos, nunca se habían publicado en Internet, lo que significa que es poco probable que formaran parte de los datos de entrenamiento de GPT-3. Las preguntas piden a los usuarios que seleccionen pares de palabras que compartan el mismo tipo de relaciones. (Por ejemplo, en el problema «‘Amor’ es a ‘odio’ lo que ‘rico’ es a ¿qué palabra?», la solución sería «pobre»).

Compararon las puntuaciones de GPT-3 con los resultados publicados de las puntuaciones SAT de los solicitantes universitarios y descubrieron que la IA obtenía mejores resultados que la puntuación media de los humanos.

A continuación, los investigadores pidieron a GPT-3 y a estudiantes voluntarios que resolvieran analogías basadas en historias cortas, pidiéndoles que leyeran un pasaje y luego identificaran una historia diferente que transmitiera el mismo significado. La tecnología obtuvo peores resultados que los estudiantes en esos problemas, aunque GPT-4, la última iteración de la tecnología de OpenAI, obtuvo mejores resultados que GPT-3.

Los investigadores de la UCLA han desarrollado su propio modelo informático, inspirado en la cognición humana, y han estado comparando sus capacidades con las de la IA comercial.

«La IA estaba mejorando, pero nuestro modelo de IA psicológica seguía siendo el mejor haciendo problemas de analogía hasta el pasado diciembre, cuando Taylor recibió la última actualización de GPT-3, y era tan bueno o mejor», afirmó el profesor de psicología de la UCLA Keith Holyoak, coautor del estudio.

Los investigadores señalaron que GPT-3 ha sido incapaz hasta ahora de resolver problemas que requieren comprender el espacio físico. Por ejemplo, si se le proporcionaban descripciones de un conjunto de herramientas -por ejemplo, un tubo de cartón, tijeras y cinta adhesiva- que podía utilizar para transferir bolas de chicle de un bol a otro, GPT-3 proponía soluciones extrañas.

«Los modelos de aprendizaje del lenguaje sólo intentan predecir palabras, así que nos sorprende que puedan razonar», explica Lu. «En los últimos dos años, la tecnología ha dado un gran salto respecto a sus encarnaciones anteriores».

Los científicos de la UCLA esperan explorar si los modelos de aprendizaje del lenguaje están empezando realmente a «pensar» como los humanos o están haciendo algo totalmente distinto que simplemente imita el pensamiento humano.

«La GPT-3 podría estar pensando como un humano», afirma Holyoak. «Pero, por otro lado, las personas no aprendían ingiriendo todo Internet, así que el método de entrenamiento es completamente distinto. Nos gustaría saber si realmente lo hace como las personas o si se trata de algo totalmente nuevo -una auténtica inteligencia artificial-, lo cual sería asombroso por derecho propio».

Para averiguarlo, tendrían que determinar los procesos cognitivos subyacentes que utilizan los modelos de IA, lo que requeriría acceder al software y a los datos utilizados para entrenarlo, y luego administrar pruebas que estén seguros de que el software no ha recibido ya. Este sería el siguiente paso para decidir en qué debe convertirse la IA.

«Sería muy útil para los investigadores cognitivos y de IA disponer del backend de los modelos GPT», afirma Webb. «Sólo estamos haciendo inputs y obteniendo outputs y no es tan decisivo como nos gustaría».

REFERENCIA

Emergent analogical reasoning in large language models