¿Te puedes fiar de ChatGPT? Dos tercios de las citas son falsas o erróneas

Por Kheline Soltani | 22 noviembre 2025 | TECNOLOGÍA | 0

Un nuevo estudio comprueba que no te puedes fiar de ChatGPT usando su modelo actual de inteligencia artificial, que se equivoca con mucha frecuencia al generar citas bibliográficas

Tanto investigadores como otros profesionales utilizan cada vez más la inteligencia artificial para gestionar grandes cantidades de trabajo, especialmente la búsqueda de bribliografía. La IA está entrenada para trabajar con una gran variedad de textos y bases de datos con licencia, lo que le permite generar textos que parecen escritos por humanos. Por ejemplo, la IA puede perfectamente redactar un email o resumir un texto como lo haría una persona.

Sabemos también que estos modelos tienen limitaciones. A veces las respuestas que generan son erróneas o incluso se inventan las respuestas. El informe presentado por el Secretario de Salud de EE.UU. Robert F. Kennedy Jr. en el pasado junio, por ejemplo, estaba lleno de citas falsas y parecía creado (a toda prisa) por uno de estos modelos de inteligencia artificial. Por eso, un grupo de investigadores de la Facultad de Psicología de la Universidad de Deakin, en Australia, ha querido analizar esta cuestión en el ámbito de la salud mental.

No te puedes fiar de ChatGPT para generar citas

Para analizar estos datos, realizaron un experimento para verificar si las equivocaciones de la IA tenían que ver con el tema o la profundidad de la lectura científica. De este modo, conseguirían analizar la tasa de falsificación de los resultados que facilitaba la IA y ver si variaba en función del tema.

Este experimento consistía en utilizar ChatGPT con GPT-40, un modelo de OpenAI, para revisar seis bibliografías diferentes. Se escogieron tres temas de salud mental por su gran nivel de conocimiento y cobertura de investigación: el trastorno depresivo mayor, la bulimia y el trastorno por dismorfia corporal. Estos temas son de más a menos conocidos y, por lo tanto, también varía el nivel de investigaciones en cada uno de ellos. Esta selección de datos permitía a los investigadores realizar una comparación del rendimiento de la inteligencia artificial en temas que tienen una diferencia de cantidad de información disponible en su base de datos.

Se solicitaron dos tipos de revisiones para cada uno de los temas. Una descripción general de los síntomas, el impacto social y los tratamientos y, por otro lado, la evidencia sobre las intervenciones de salud digital. Los investigadores le pidieron a la IA que revisara un total de 2.000 palabras y que incluyera 20 citas de fuentes académicas.

Citas de estudios con errores o inventadas

Cuando la IA entregó los resultados, los investigadores verificaron cada una de las referencias. Se verificaron en bases de datos fiables como Google Scholar, Scopus o PubMed. Los resultados que se obtuvieron fueron tres: las citas falsificadas, las reales con errores y las que eran precisas.

Los resultados indicaron que dos terceras partes de las referencias generadas por GPT-4o eran inventadas o contenían errores bibliográficos. Estos resultados tenían una estrecha relación con el tema escogido. El tema de trastorno depresivo mayor, el tema más estudiado, dio como resultado un 6% de citas falsas. Para la bulimia el porcentaje aumentó un 28%, y un 29% para el trastorno de dismorfia corporal. Cuando el tema es menos conocido, la IA es menos fiable, ya que contiene menos datos sobre este tema y, por lo tanto, tu entrenamiento carece de esta información.

Además, también se encontró que al solicitar que se escribiera sobre el tema de la bulimia, había un 46% de información errónea en comparación a la revisión general (17%). Se encontró un patrón similar en los otros trastornos, la revisión general era bastante más precisa que la especializada.

Cuando el tema es menos conocido, la IA es menos fiable

Los resultados son específicos de GPT-4o de OpenAI, además de haberse centrado en los tres trastornos que hemos mencionado anteriormente. Para futuras investigaciones se podría examinar en diferentes tipos de IA y también utilizar diferentes temas para comprobar si se mantiene el mismo patrón.

Aun así, se recomienda a todo el mundo que se utilice con cuidado la información dada por las inteligencias artificiales, debe ser revisada por un humano para poder verificar si todo es correcto.

REFERENCIA

Influence of Topic Familiarity and Prompt Specificity on Citation Fabrication in Mental Health Research Using Large Language Models: Experimental Study

Más en Quo

Por qué hacer abdominales puede prevenir el Alzheimer

Por Redacción QUO 3 mayo, 2026 SALUD

La contracción de los músculos abdominales transmite presión al cerebro, impulsando el fluido cefalorraquídeo y ayudando a eliminar las toxinas que causan enfermedades neurodegenerativas.

Evolución humana: ¿por qué hay más pelirrojos y menos calvos?

Por Darío Pescador 2 mayo, 2026 Historia

Un estudio publicado en Nature comparando ADN antiguo y moderno identifica variantes de genes en los que la selección natural sigue influyendo en los seres humanos La selección natural se basa en un principio muy simple: los más aptos sobreviven y se reproducen, los menos aptos no. Pero existe la idea, muy extendida, de que […]

Cómo mejorar el rendimiento académico de los alumnos: escape rooms

Por Antonio Urbano Cano 2 mayo, 2026 SER HUMANO

Los escape rooms pueden convertir las clases en aventuras interactivas para mejorar el rendimiento académico de los estudiantes, especialmente de los menos preparados

40 años de Chernóbil: qué hemos aprendido y qué seguimos sin saber sobre los desastres nucleares

Por Darío Pescador 1 mayo, 2026 CIENCIA

Con motivo del 40 aniversario del accidente de Chernóbil, la revista Nature publica un análisis de las lecciones científicas extraídas: desde los efectos sobre la salud hasta los errores de comunicación

El mapa de la NASA para localizar agua helada (y quizá vida) en toda la Vía Láctea

Por Redacción QUO 1 mayo, 2026 Astro

El telescopio espacial SPHEREx de la NASA completa el primer mapa de hielo de agua en regiones interestelares de la galaxia, confirmando que este compuesto esencial para la vida no es una rareza del sistema solar sino una constante del cosmos

Desmentido: beber mucha agua no es mejor para evitar las piedras en el riñón

Por Redacción QUO 1 mayo, 2026 SALUD

Un ensayo clínico con miles de participantes concluye que aumentar la ingesta de agua no reduce la recurrencia de cálculos renales, contradiciendo décadas de recomendaciones de los médicos

La serpiente más grande de la historia: 15 metros de largo y 47 millones de años

Por Redacción QUO 1 mayo, 2026 Historia

Paleontólogos del Geological Survey of India describen los fósiles de Vasuki indicus, una serpiente prehistórica encontrada en Gujarat que pudo medir entre 11 y 15 metros y podría ser el ofidio más grande jamás documentado

Metano y el cambio climático: el enemigo invisible que vive en la alcantarilla

Por Antonio Urbano Cano 1 mayo, 2026 Cambio climático

Las alcantarillas, esa parte invisible de la ciudad, son un factor de riesgo para el cambio climático mucho más importante de lo que se pensaba hasta ahora Cuando caminamos por las calles de cualquier ciudad no solemos detenernos a pensar qué es lo que ocurre bajo las pesadas tapas de metal de las alcantarillas. Un […]