Usar Chatbots de IA como ChatGPT en lugar del médico tiene sus riesgos: la mitad de sus respuestas puede estar equivocada

Primero fue el «doctor Google», pero ahora, los chatbots generativos como ChatGPT se han colado en la vida diaria como un atajo para resolver dudas. También las de salud. El problema es que, cuando se les aprieta un poco con preguntas comunes y temas donde ya circula desinformación, su seguridad científica se resiente.

Un trabajo publicado en BMJ Open analizó en febrero de 2025 cómo respondían cinco chatbots públicos y populares: Gemini (Google), DeepSeek (High-Flyer), Meta AI (Meta), ChatGPT (OpenAI) y Grok (xAI). Los investigadores les lanzaron 250 preguntas en total, repartidas en cinco áreas: cáncer, vacunas, células madre, nutrición y rendimiento deportivo. Había preguntas cerradas, con una respuesta correcta alineada con el consenso científico, y preguntas abiertas que exigían listas o explicaciones más amplias.

Gemini, Grok o ChatGPT en lugar del médico: quién falla más

Las respuestas se clasificaron como no problemáticas, algo problemáticas o muy problemáticas, con la idea de que, si una persona sin formación siguiera ese consejo sin consultar a un profesional, podría acabar en tratamientos ineficaces o directamente dañinos.

Grok produjo más respuestas muy problemáticas de las esperables, con un 58%

La mitad de las respuestas, un 50%, se consideraron problemáticas. Un 30% entró en la categoría de “algo problemáticas” y un 20% en la de “muy problemáticas”. El tipo de pregunta importó mucho. Las preguntas abiertas generaron más respuestas muy problemáticas de lo esperado y menos respuestas seguras. En las preguntas cerradas ocurrió lo contrario.

Entre chatbots, las diferencias globales no fueron enormes, pero sí hubo un dato que destaca. Grok produjo más respuestas muy problemáticas de las esperables, con 29 de 50, un 58%. Gemini fue el que generó menos respuestas muy problemáticas y más respuestas no problemáticas.

Por temas, el desempeño también cambió. Los chatbots salieron mejor parados en vacunas y cáncer. En cambio, flojearon más en células madre, nutrición y rendimiento deportivo, tres áreas donde la mezcla de promesas exageradas, atajos y consejos de “optimización” suele ser un caldo de cultivo para el error.

Hay otro rasgo que preocupa a los autores: el tono. Las respuestas se expresaban de forma consistente con confianza y certeza, con pocas advertencias o matices. De las 250 preguntas, solo hubo dos negativas a contestar, ambas de Meta AI, ante cuestiones sobre esteroides anabolizantes y tratamientos alternativos contra el cáncer.

La auditoría también miró algo que muchos usuarios dan por supuesto: las fuentes. La calidad de las referencias fue pobre, con una puntuación media de completitud del 40%. Además, aparecieron “alucinaciones” y citas fabricadas, de forma que ningún chatbot ofreció una lista de referencias totalmente fiable.

Y luego está la legibilidad. En vez de lenguaje llano, los textos tendieron a una complejidad alta. Según la escala Flesch, la lectura se clasificó como “difícil”, equivalente a un nivel de graduado universitario. Esto importa porque, si la información ya llega con errores o huecos, y encima llega en un registro denso, aumenta el riesgo de malinterpretación.

Los autores reconocen los límites del estudio. Solo se evaluaron cinco chatbots y el sector cambia rápido. Además, parte de las preguntas estaban diseñadas para “tensar” al sistema hacia respuestas dudosas, una estrategia de estrés que puede exagerar el problema frente a consultas más neutrales. Aun así, sostienen que sus hallazgos obligan a replantear cómo se despliegan estos sistemas en comunicación sanitaria dirigida al público. Su aviso final es sencillo: sin educación y supervisión, la IA puede amplificar la desinformación con un estilo convincente.

REFDERENCIA

Generative artificial intelligence-driven chatbots and medical misinformation: an accuracy, referencing and readability audit