Un estudio de la Universidad de Pensilvania documenta que los usuarios aceptan el razonamiento incorrecto de una IA el 73,2% de las veces

El premio Nobel Daniel Kahneman describió el pensamiento humano como la pugna entre dos sistemas: el Sistema 1, rápido, intuitivo y emocional, y el Sistema 2, lento, deliberado y analítico. Durante décadas, esa dualidad fue el marco de referencia para entender cómo decidimos. Un nuevo estudio de la Universidad de Pensilvania propone que la irrupción de la inteligencia artificial ha creado un tercero: el Sistema 3, en el que la decisión no la toma ni el instinto ni la razón, sino un algoritmo externo al que el usuario delega sin apenas escrutinio. Y los datos sobre con qué frecuencia ocurre son inquietantes.

El experimento: puzzles de lógica con un asistente que a veces miente

Steven D. Shaw y Gideon Nave, investigadores de Wharton (Universidad de Pensilvania), diseñaron una serie de experimentos en los que 1.372 participantes resolvían tareas de razonamiento lógico con acceso a respuestas generadas por un modelo de lenguaje. La clave del diseño era que el modelo cometía errores deliberados en una proporción conocida de los casos, y los participantes lo sabían. No se les engañó sobre la falibilidad de la IA: se les informó explícitamente de que el sistema podía equivocarse.

A lo largo de más de 9.500 pruebas individuales, los participantes aceptaron el razonamiento incorrecto del modelo el 73,2% de las veces. Solo lo rechazaron el 19,7%. El dato más relevante no es la magnitud del error, sino su condición: ocurrió incluso cuando los participantes sospechaban que la respuesta podía ser incorrecta. No fue ignorancia, sino renuncia. Los investigadores le dieron nombre: rendición cognitiva (cognitive surrender).

Cuándo se rinde más la gente, y cuándo menos

El estudio exploró los factores que modulan esa rendición. La presión de tiempo la amplifica: cuando los participantes tenían menos tiempo para responder, delegaban más en la IA. Los incentivos económicos por acertar la reducían parcialmente, pero no la eliminaban. El nivel de confianza previo en la IA era el predictor más fuerte: quienes atribuían al sistema una fiabilidad elevada cedían más, independientemente de su propia capacidad para resolver el problema.

La rendición cognitiva no es decir que la IA es mala, el problema es saber cuándo la IA te ayuda a pensar y cuándo está pensando en tu lugar

Un segundo estudio paralelo, liderado por investigadores de Microsoft Research entre 319 usuarios habituales de herramientas como ChatGPT, Copilot o Gemini, encontró que casi dos tercios mostraban altos niveles de delegación cognitiva y una proporción significativa admitía aceptar respuestas de la IA incluso cuando sospechaba que podían ser erróneas. La delegación no era un fenómeno de usuarios inexpertos o poco formados: aparecía de forma transversal.

El Sistema 3 y la lógica de la rendición racional

Shaw y Nave argumentan que la rendición cognitiva no es simplemente un error o un sesgo que corregir. En muchos contextos, es una estrategia racional: si el modelo es habitualmente más preciso que el propio usuario, ceder el control mejora los resultados en promedio. El problema, subrayan, es la calibración. Las personas tienden a generalizar la confianza que un modelo merece en un dominio (por ejemplo, la redacción o la síntesis de información) a dominios donde su rendimiento es mucho más variable (el razonamiento lógico formal, la aritmética, los hechos recientes). Y una vez instalada esa confianza generalizada, el coste cognitivo de cuestionarla en cada interacción se percibe como demasiado alto.

«La rendición cognitiva no equivale a decir que la IA es mala o que usarla es irracional», aclaró Shaw. «El problema es la calibración: saber cuándo la IA te está ayudando a pensar y cuándo está pensando silenciosamente en tu lugar.» La distinción entre ambas situaciones, añade, es algo para lo que los usuarios actuales no tienen herramientas sistemáticas.

Las consecuencias fuera del laboratorio

Los experimentos de Shaw y Nave usaron puzzles de lógica en condiciones controladas, lo que los propios autores reconocen como una limitación: son una demostración limpia del fenómeno, no un mapa completo de cómo la IA se usa en entornos reales. Pero el traslado a esos entornos es la parte que preocupa a los investigadores. En medicina, donde las herramientas de apoyo diagnóstico basadas en modelos de lenguaje se están implantando en entornos clínicos, la aceptación acrítica de una sugerencia incorrecta tiene consecuencias directas sobre pacientes.

En análisis financiero, donde los resúmenes generados por IA de informes de resultados se incorporan de forma rutinaria a decisiones de inversión, un error aceptado sin verificación se traduce en dinero. En educación, donde los estudiantes usan modelos para resolver problemas de los que luego son evaluados, la rendición cognitiva erosiona la formación que esa evaluación pretende medir.

La recomendación práctica que los investigadores extraen de sus datos es sencilla de enunciar y difícil de sostener: formar primero la propia respuesta, basada en intuición y deliberación, y solo entonces usar el modelo para cuestionar, refinar o ampliar ese punto de partida, no para sustituirlo. El problema es que esa secuencia exige exactamente el esfuerzo que la rendición cognitiva, por definición, trata de evitar.

Referencia