Un nuevo test pone contra las cuerdas a 24 modelos, de GPT-4o a DeepSeek, y descubre que el mayor problema de la IA es que fallan al reconocer creencias falsas
Saber no es lo mismo que creer. La lingüística clasifica “saber” como verbo factivo, exige verdad, mientras que “creer” admite error. En los últimos años, los grandes modelos de lenguaje de inteligencia artificial como ChatGPT han presumido de tener lo que se llama “teoría de la mente”, la capacidad de atribuir estados mentales a otros, pero con resultados dispares. Ahora, una evaluación publicada en Nature Machine Intelligence revela un punto ciego que afecta incluso a los modelos más avanzados.
El trabajo usa KaBLE, Knowledge and Belief Language Evaluation, un banco de pruebas con 13.000 preguntas repartidas en 13 tareas sobre conocimiento y creencia. El equipo construyó 1.000 frases base en diez áreas, de historia a medicina, verificó la mitad con fuentes como Britannica o la NASA y convirtió la otra mitad en versiones falsas alterando detalles clave. Con este material examinaron 24 modelos, desde familias generalistas como GPT y Llama hasta motores de razonamiento como o1 y DeepSeek R1, bajo un protocolo de consulta estandarizado.
El mayor problema de la IA es inevitable
La conclusión es incómoda: los modelos distinguen mal entre lo que alguien cree y lo que es verdad, sobre todo cuando el hablante es “yo”. Al pedirles que confirmen una creencia falsa en primera persona, muchos prefieren corregir el hecho antes que reconocer la creencia. GPT-4o cae de 98,2% de acierto con creencias verdaderas a 64,4% con creencias falsas. DeepSeek R1 se desploma hasta 14,4%. En tercera persona, en cambio, atribuyen creencias falsas con mucha más solvencia. (DOI)
“Los LLM se usan cada vez más para tutoría, consejo médico o legal y hasta compañía”, explica James Zou, de Stanford. “En estos contextos importa que entiendan no solo los hechos, también lo que el usuario cree”. Su advertencia suena a manual de seguridad para IA aplicada a personas reales.
Los autores detectan además un sesgo de atribución. De media, los modelos modernos aciertan un 95% al adjudicar creencias falsas a “James” o “Mary”, pero bajan a 62,6% si el hablante es “yo”. Esa asimetría sugiere estrategias de procesamiento diferentes según el pronombre, una pista de que el patrón aprendido prima la corrección del dato por encima de la comprensión del estado mental del interlocutor.
Pregunta dos veces y se rompe
Tampoco hay estabilidad cuando cambian pequeñas palabras. Añadir un “de verdad” a la pregunta, “¿realmente creo…?”, hunde el rendimiento en varios modelos. En Llama 3.3 70B, esa mínima variación reduce la precisión del 94,2% al 63,6% en creencias falsas. Es el sello de un aprendizaje por patrones superficiales, no de una noción robusta de creencia, conocimiento y verdad.
Los resultados de verificación también bailan con la generación. Modelos más antiguos identifican mejor las verdades que las falsedades, mientras que algunos de los más recientes, pensados para razonar, muestran el patrón opuesto. El modelo o1 llega al 98,2% en enunciados falsos frente al 94,4% en verdaderos, un indicio de que los cambios de entrenamiento para reducir alucinaciones han movido los límites de decisión de forma poco estable.
En tareas de conocimiento recursivo, del tipo “Juan sabe que María sabe X”, algunos sistemas brillan, pero muchos responden de forma inconsistente. Falta una comprensión sólida del carácter factivo de “saber”. Cuando alguien “dice saber” algo falso, el modelo rara vez detecta la contradicción lógica. Prefiere verificar el contenido o rechazarlo sin anotar el error lingüístico.
¿Por qué ocurre? Los autores apuntan a un sesgo corrector inculcado por los datos y por las alineaciones de seguridad: ayudar, corregir y evitar la desinformación cueste lo que cueste. Ese reflejo, útil en otras tareas, se convierte aquí en barrera para reconocer que un usuario puede sostener una creencia equivocada sin que por ello deje de creerla. En derecho, medicina o salud mental, confundir creencia y conocimiento puede traducirse en malentendidos graves.
Para avanzar, proponen separar mejor verdad y creencia en el entrenamiento y en la evaluación. KaBLE ya está disponible como conjunto de datos y cuenta con un “leaderboard” público, además de código reproducible en Zenodo y GitHub. La pelota está en el tejado de los laboratorios de IA. Toca enseñar a las máquinas a escuchar.
REFERENCIA
Language models cannot reliably distinguish belief from knowledge and fact