
Por Medicina Responsable
15 de abril de 2026Cada vez más personas usan chatbots de IA como si fueran profesional para resolver dudas de salud, desde síntomas cotidianos hasta tratamientos y prevención. Pero cuando la herramienta responde con seguridad, sin matices y con información incompleta, puede dar una falsa sensación de control y empujar a decisiones equivocadas sin supervisión profesional.
Un estudio del Centro Médico Harbor-UCLA (California), publicado en BMJ Open, puso a prueba cinco chatbots comerciales de uso público y concluyó que una cantidad importante de sus respuestas médicas era inexacta o incompleta. El equipo evaluó Gemini (Google), DeepSeek (High-Flyer), Meta AI (Meta), ChatGPT (OpenAI) y Grok (xAI) con preguntas diseñadas para imitar consultas comunes en internet y en entornos académicos, además de temas especialmente vulnerables a la desinformación.
En total, plantearon 250 preguntas repartidas en cinco áreas: cáncer, vacunas, células madre, nutrición y rendimiento deportivo. Hubo preguntas cerradas (con una respuesta correcta alineada con el consenso científico) y preguntas abiertas (que exigían explicaciones o listas). Después, las respuestas se clasificaron como no problemáticas, algo problemáticas o muy problemáticas, considerando si podían llevar a un usuario no experto a decisiones dañinas o a tratamientos ineficaces.
El resultado fue contundente, la mitad de las respuestas (50%) se consideraron problemáticas, con un 30% “algo” problemáticas y un 20% “muy” problemáticas. El tipo de pregunta influyó: las preguntas abiertas generaron muchas más respuestas muy problemáticas que las cerradas, un patrón relevante porque es precisamente el formato que más se parece a cómo la gente pregunta en la vida real (“qué hago si…”, “qué suplemento tomo…”, “qué tratamiento recomiendas…”).
Los chatbots rindieron mejor en vacunas y cáncer, y peor en células madre, nutrición y rendimiento deportivo, donde abundaron afirmaciones incompletas, recomendaciones discutibles y ausencia de contexto clínico.
Los investigadores también señalan un problema que multiplica el riesgo: muchas respuestas se expresan con confianza, con pocas advertencias y pocas invitaciones a consultar con un profesional. Además, la calidad de las referencias fue deficiente: la exhaustividad media rondó el 40% y se detectaron interpretaciones erróneas y citas inventadas, hasta el punto de que ningún chatbot ofreció un listado completamente fiable.
Ese aviso conecta con otra investigación en JAMA Network Open que analizó el rendimiento clínico de 21 grandes modelos de lenguaje cuando se les pidió que “actuaran como médicos” en escenarios de diagnóstico. El estudio mostró que, aunque los modelos suelen acertar el diagnóstico final cuando se les proporciona toda la información relevante, fallan con frecuencia en las fases iniciales, las que exigen razonamiento clínico y construir un buen diagnóstico diferencial (la lista de posibles causas que se deben considerar antes de decidir pruebas y tratamientos).