La mitad de las respuestas sobre salud dadas por la IA son inexactas

Los investigadores advierten que el uso cotidiano de chatbots para temas de salud puede traducirse en malos consejos, retrasos en la atención y tratamientos ineficaces o potencialmente dañinos

Por Medicina Responsable

15 de abril de 2026

Cada vez más personas usan chatbots de IA como si fueran profesional para resolver dudas de salud, desde síntomas cotidianos hasta tratamientos y prevención. Pero cuando la herramienta responde con seguridad, sin matices y con información incompleta, puede dar una falsa sensación de control y empujar a decisiones equivocadas sin supervisión profesional.

Un estudio del Centro Médico Harbor-UCLA (California), publicado en BMJ Open, puso a prueba cinco chatbots comerciales de uso público y concluyó que una cantidad importante de sus respuestas médicas era inexacta o incompleta. El equipo evaluó Gemini (Google), DeepSeek (High-Flyer), Meta AI (Meta), ChatGPT (OpenAI) y Grok (xAI) con preguntas diseñadas para imitar consultas comunes en internet y en entornos académicos, además de temas especialmente vulnerables a la desinformación.

En total, plantearon 250 preguntas repartidas en cinco áreas: cáncer, vacunas, células madre, nutrición y rendimiento deportivo. Hubo preguntas cerradas (con una respuesta correcta alineada con el consenso científico) y preguntas abiertas (que exigían explicaciones o listas). Después, las respuestas se clasificaron como no problemáticas, algo problemáticas o muy problemáticas, considerando si podían llevar a un usuario no experto a decisiones dañinas o a tratamientos ineficaces.

El resultado fue contundente, la mitad de las respuestas (50%) se consideraron problemáticas, con un 30% “algo” problemáticas y un 20% “muy” problemáticas. El tipo de pregunta influyó: las preguntas abiertas generaron muchas más respuestas muy problemáticas que las cerradas, un patrón relevante porque es precisamente el formato que más se parece a cómo la gente pregunta en la vida real (“qué hago si…”, “qué suplemento tomo…”, “qué tratamiento recomiendas…”).

Los chatbots rindieron mejor en vacunas y cáncer, y peor en células madre, nutrición y rendimiento deportivo, donde abundaron afirmaciones incompletas, recomendaciones discutibles y ausencia de contexto clínico.

Los investigadores también señalan un problema que multiplica el riesgo: muchas respuestas se expresan con confianza, con pocas advertencias y pocas invitaciones a consultar con un profesional. Además, la calidad de las referencias fue deficiente: la exhaustividad media rondó el 40% y se detectaron interpretaciones erróneas y citas inventadas, hasta el punto de que ningún chatbot ofreció un listado completamente fiable.

Ese aviso conecta con otra investigación en JAMA Network Open que analizó el rendimiento clínico de 21 grandes modelos de lenguaje cuando se les pidió que “actuaran como médicos” en escenarios de diagnóstico. El estudio mostró que, aunque los modelos suelen acertar el diagnóstico final cuando se les proporciona toda la información relevante, fallan con frecuencia en las fases iniciales, las que exigen razonamiento clínico y construir un buen diagnóstico diferencial (la lista de posibles causas que se deben considerar antes de decidir pruebas y tratamientos).

Noticias relacionadas

sanidad-financia-xenpozyme-primer-tratamiento-especifico-enfermedad-ultra-rara

Industria farmacéutica

Sanidad financia Xenpozyme, tratamiento específico para una enfermedad ultra-rara

El fármaco está destinado a tratar los síntomas del déficit de esfingomielinasa ácida (ASMD); una patología de origen genético, crónica, progresiva y potencialmente fatal

fenin-constata-falta-formacion-ia-sector-sanitario-insuficiente

Tecnología sanitaria

Fenin constata una falta de formación sobre IA en el sector sanitario: un 87% de profesionales la considera insuficiente

La Federación Española de Empresas de Tecnología Sanitaria ha promovido una encuesta entre cardiólogos, radiólogos y directivos de la salud en la que se identifica el marcado CE como el principal motor de confianza para usarla

nota-ponen-espanoles-sanidad-estanca-debajo-niveles-prepandemia

Actualidad Sanitaria

La nota que ponen los españoles a la sanidad se estanca por debajo de los niveles prepandemia

La última edición del Barómetro Sanitario refleja que la media de valoración es un 6,26 sobre 10, más de medio punto menos que en 2019

Te puede interesar

Congreso-Gobierno-Plan-Nacional-contra-las-agresiones-sanitarios-aumento-casos-2024

El Congreso insta al Gobierno a materializar un Plan Nacional contra las agresiones a los sanitarios ante el aumento de casos en 2024

hospital-12-octubre-marca-hito-realizar-cuatro-trasplantes-corazon-menos-tres-dias

El Hospital 12 de Octubre marca un hito en España al realizar cuatro trasplantes de corazón en menos de 3 días

arranca-jornada-health-goals-marques-valdecilla-santander

Arranca la jornada Health Goals en el Hospital Marqués de Valdecilla de Santander

Quienes somos

Política de cookies

Política de privacidad

Contacto

Descarga la APP