Un nuevo estudio comprueba que no te puedes fiar de ChatGPT usando su modelo actual de inteligencia artificial, que se equivoca con mucha frecuencia al generar citas bibliográficas
Tanto investigadores como otros profesionales utilizan cada vez más la inteligencia artificial para gestionar grandes cantidades de trabajo, especialmente la búsqueda de bribliografía. La IA está entrenada para trabajar con una gran variedad de textos y bases de datos con licencia, lo que le permite generar textos que parecen escritos por humanos. Por ejemplo, la IA puede perfectamente redactar un email o resumir un texto como lo haría una persona.
Sabemos también que estos modelos tienen limitaciones. A veces las respuestas que generan son erróneas o incluso se inventan las respuestas. El informe presentado por el Secretario de Salud de EE.UU. Robert F. Kennedy Jr. en el pasado junio, por ejemplo, estaba lleno de citas falsas y parecía creado (a toda prisa) por uno de estos modelos de inteligencia artificial. Por eso, un grupo de investigadores de la Facultad de Psicología de la Universidad de Deakin, en Australia, ha querido analizar esta cuestión en el ámbito de la salud mental.
No te puedes fiar de ChatGPT para generar citas
Para analizar estos datos, realizaron un experimento para verificar si las equivocaciones de la IA tenían que ver con el tema o la profundidad de la lectura científica. De este modo, conseguirían analizar la tasa de falsificación de los resultados que facilitaba la IA y ver si variaba en función del tema.
Este experimento consistía en utilizar ChatGPT con GPT-40, un modelo de OpenAI, para revisar seis bibliografías diferentes. Se escogieron tres temas de salud mental por su gran nivel de conocimiento y cobertura de investigación: el trastorno depresivo mayor, la bulimia y el trastorno por dismorfia corporal. Estos temas son de más a menos conocidos y, por lo tanto, también varía el nivel de investigaciones en cada uno de ellos. Esta selección de datos permitía a los investigadores realizar una comparación del rendimiento de la inteligencia artificial en temas que tienen una diferencia de cantidad de información disponible en su base de datos.
Se solicitaron dos tipos de revisiones para cada uno de los temas. Una descripción general de los síntomas, el impacto social y los tratamientos y, por otro lado, la evidencia sobre las intervenciones de salud digital. Los investigadores le pidieron a la IA que revisara un total de 2.000 palabras y que incluyera 20 citas de fuentes académicas.
Citas de estudios con errores o inventadas
Cuando la IA entregó los resultados, los investigadores verificaron cada una de las referencias. Se verificaron en bases de datos fiables como Google Scholar, Scopus o PubMed. Los resultados que se obtuvieron fueron tres: las citas falsificadas, las reales con errores y las que eran precisas.
Los resultados indicaron que dos terceras partes de las referencias generadas por GPT-4o eran inventadas o contenían errores bibliográficos. Estos resultados tenían una estrecha relación con el tema escogido. El tema de trastorno depresivo mayor, el tema más estudiado, dio como resultado un 6% de citas falsas. Para la bulimia el porcentaje aumentó un 28%, y un 29% para el trastorno de dismorfia corporal. Cuando el tema es menos conocido, la IA es menos fiable, ya que contiene menos datos sobre este tema y, por lo tanto, tu entrenamiento carece de esta información.
Además, también se encontró que al solicitar que se escribiera sobre el tema de la bulimia, había un 46% de información errónea en comparación a la revisión general (17%). Se encontró un patrón similar en los otros trastornos, la revisión general era bastante más precisa que la especializada.
Cuando el tema es menos conocido, la IA es menos fiable
Los resultados son específicos de GPT-4o de OpenAI, además de haberse centrado en los tres trastornos que hemos mencionado anteriormente. Para futuras investigaciones se podría examinar en diferentes tipos de IA y también utilizar diferentes temas para comprobar si se mantiene el mismo patrón.
Aun así, se recomienda a todo el mundo que se utilice con cuidado la información dada por las inteligencias artificiales, debe ser revisada por un humano para poder verificar si todo es correcto.
REFERENCIA