Un estudio de OpenAI y Georgia Tech sostiene que las alucinaciones de los modelos de lenguaje como ChatGPT son inevitables por límites matemáticos, incluso con datos perfectos

Las llamadas alucinaciones en IA, respuestas plausibles pero falsas, aparecen en los grandes modelos de lenguaje, LLM por sus siglas en inglés, cuando el sistema no puede estar seguro del dato o del razonamiento. OpenAI, empresa creadora de ChatGPT, reconoce en su propia investigación que los grandes modelos de lenguaje siempre producirán alucinaciones por restricciones matemáticas fundamentales, no por meros fallos de ingeniería.

El estudio se publicó el 4 de septiembre y lo firman los investigadores de OpenAI Adam Tauman Kalai, Edwin Zhang y Ofir Nachum junto con Santosh S. Vempala, de Georgia Tech. El trabajo presenta un marco matemático que explica por qué los sistemas generativos deben, en ocasiones, producir información plausible pero falsa incluso si aprenden con datos perfectos.

“Como estudiantes ante preguntas difíciles de examen, los grandes modelos de lenguaje a veces adivinan cuando están inseguros, produciendo afirmaciones plausibles pero incorrectas en lugar de admitir incertidumbre”, escriben los autores. “Tales ‘alucinaciones’ persisten incluso en sistemas de última generación y minan la confianza”.

ChatGPT es el inicio el actual boom de la IA generativa y convenció a millones de usuarios y empresas de adoptarla. Admitir que cierto nivel de errores es estructural obliga a ajustar expectativas, métricas y gobernanza.

Los autores muestran que las alucinaciones nacen de propiedades estadísticas del entrenamiento, no de errores de implementación. El estudio establece que “la tasa de error generativo es al menos el doble de la tasa de clasificación errónea IIV”, donde IIV significa “Is-It-Valid” (es esto válido). Las matemáticas prueban que siempre habrá un porcentaje de fallos, por muy buenos que sean los datos o el ajuste fino posterior.

Fallos tontos que siempre estarán allí

Para ilustrarlo, probaron modelos punteros, incluidos competidores de OpenAI. Ante una pregunta tan tonta como “¿Cuántas D hay en DEEPSEEK?”, el modelo DeepSeek-V3, creado por China y entrenado con 600.000 millones de parámetros “devolvió ‘2’ o ‘3’ en diez ensayos independientes”, mientras que sistemas de Meta AI y Claude 3.7 Sonnet se comportaron de forma similar, “incluyendo respuestas tan grandes como ‘6’ y ‘7’”. La tarea parece trivial, pero destapa cómo el patrón estadístico prevalece sobre el conteo exacto si el sistema no representa bien la ambigüedad de la cadena.

OpenAI también reconoce la persistencia del problema en sus propios sistemas. En el artículo se afirma que “ChatGPT también alucina. GPT-5 tiene significativamente menos alucinaciones, especialmente al razonar, pero siguen ocurriendo. Las alucinaciones siguen siendo un desafío fundamental para todos los grandes modelos de lenguaje”.

Más aún, los modelos avanzados de razonamiento alucinaron con mayor frecuencia que sistemas más simples en una tarea concreta. El modelo o1 “alucinó el 16% de las veces” al resumir información pública, mientras que los modelos o3 y o4-mini “alucinaron el 33% y el 48%, respectivamente”. Las cifras sugieren que añadir cadenas de razonamiento no basta si la evaluación sigue premiando la seguridad fingida.

“A diferencia de la inteligencia humana, carece de la humildad necesaria para reconocer la incertidumbre”, dijo Neil Shah, vicepresidente de investigación y socio en Counterpoint Technologies. “Cuando no está seguro, no recurre a una investigación más profunda ni a la supervisión humana. En cambio, a menudo presenta estimaciones como hechos”.

El trabajo identifica tres factores matemáticos que hacen inevitables las alucinaciones:

  • La incertidumbre epistémica aparece cuando el dato es raro o inexistente en el entrenamiento, por lo que el modelo rellena huecos.
  • Las limitaciones del modelo surgen cuando la arquitectura o la capacidad no alcanzan para representar la tarea con precisión.
  • La intratabilidad computacional entra en juego en problemas que, incluso para sistemas superinteligentes, son tan difíciles como los retos criptográficos, donde no hay atajos prácticos.

Los autores señalan que los métodos de evaluación de la industria agravan el problema, es decir, es culpa de lo que se espera del modelo. El análisis de benchmarks populares, como GPQA, MMLU-Pro y SWE-bench, detecta que nueve de cada diez evaluaciones usan calificaciones binarias que penalizan respuestas tipo “no lo sé” y, en cambio, premian contestaciones incorrectas pero seguras. “Sostenemos que los modelos lingüísticos alucinan porque los procedimientos de entrenamiento y evaluación premian las conjeturas por encima del reconocimiento de la incertidumbre”, escriben.

Introducir humanos para reducir los errores

Como mitigación, los autores proponen “objetivos explícitos de confianza”, aunque admiten que los límites matemáticos impiden la eliminación completa de alucinaciones. La propuesta sugiere calibrar la probabilidad de acierto y exigir que el modelo comunique su incertidumbre, algo que hoy rara vez se ve fuera de entornos experimentales.

Los expertos coinciden en que la inevitabilidad exige nuevas estrategias. “La gobernanza debe pasar de la prevención al contención del riesgo”, dijo Dai. “Esto implica procesos con humano en el bucle, barandillas de dominio y monitorización continua”. También ve insuficientes los marcos de riesgo actuales, porque “infravaloran la incertidumbre epistémica” y necesitan actualizaciones para lidiar con la imprevisibilidad sistémica.

Shah defiende reformas de evaluación inspiradas en la seguridad del automóvil. “Al igual que los componentes automovilísticos se clasifican según las normas ASIL para garantizar la seguridad, los modelos de IA deberían recibir calificaciones dinámicas, tanto a nivel nacional como internacional, en función de su fiabilidad y perfil de riesgo.”, propuso.

Los analistas creen que los criterios de selección de proveedores deben cambiar. “Las empresas deberían priorizar la confianza calibrada y la transparencia sobre las puntuaciones en benchmarks”, dijo Dai. Recomienda buscar estimaciones de incertidumbre, evaluaciones robustas más allá de los estándares y validación en casos reales. Shah sugiere un “índice de confianza en tiempo real”, un sistema dinámico que valore salidas según ambigüedad del prompt, entendimiento contextual y calidad de fuentes.

La reforma de estándares, sin embargo, no será sencilla. “Reformar los índices de referencia convencionales es un reto. Solo es factible si está impulsado por la presión regulatoria, la demanda empresarial y la diferenciación competitiva”, advirtió Dai. Cambiar incentivos requiere que reguladores, clientes y competencia empujen en la misma dirección.

El mensaje para las empresas es directo, las alucinaciones no son un bache temporal de ingeniería, son una realidad matemática que obliga a un nuevo enfoque de gobierno y riesgo.

REFERENCIA

Why Language Models Hallucinate