La mitad de las respuestas médicas de la IA son un riesgo para los pacientes según un nuevo estudio

Un nuevo estudio internacional que puso a prueba a los cinco chatbots más populares del mercado —incluidos ChatGPT y Gemini— arrojó resultados alarmantes: la mitad de su información de salud es problemática, inventan fuentes bibliográficas y utilizan un lenguaje técnico para aparentar una «falsa credibilidad». Por qué la tecnología predictiva nunca debe reemplazar al profesional médico.

La rápida adopción de la inteligencia artificial (IA) generativa ha transformado nuestros hábitos digitales a un ritmo vertiginoso. Hoy en día, miles de usuarios utilizan estos chats como sustitutos de los buscadores tradicionales para realizar consultas médicas cotidianas. Sin embargo, un estudio internacional publicado este martes en la revista BMJ Open lanzó una advertencia letal: confiar en un algoritmo para obtener consejos de salud es una apuesta sumamente arriesgada.

La investigación, liderada por el Instituto Lundquist para la Innovación Biomédica (Estados Unidos), evaluó el desempeño de los cinco modelos más utilizados del mercado: Gemini (Google), DeepSeek, Meta AI, ChatGPT (OpenAI) y Grok (xAI). Los resultados encienden todas las alarmas de la salud pública: la mitad de las respuestas a preguntas basadas en evidencia científica fueron clasificadas como «algo» o «altamente» problemáticas.

Para testear la fiabilidad de los sistemas, los científicos les inyectaron 250 consultas críticas sobre cáncer, vacunas, células madre, nutrición y rendimiento deportivo. En muchos casos, las preguntas buscaban ‘estresar’ a la IA hacia mitos comunes. El veredicto determinó que el 20 % de las respuestas eran directamente peligrosas, con el potencial de guiar a los pacientes hacia tratamientos ineficaces o causar daños directos a la salud.

El espejismo de la neutralidad

El aspecto más engañoso de la IA es la seguridad absoluta con la que presenta la información. Las respuestas carecen de matices o advertencias claras sobre sus propias limitaciones, equiparando afirmaciones científicas comprobadas con pseudociencias de internet.

Nicholas Tiller, investigador principal del estudio, es tajante al respecto: «Mucha gente tiende a pensar que los chatbots son IA omniscientes con un pozo profundo de conocimiento. Pero no poseen conocimiento en el sentido humano; no ‘saben’ cosas». Los modelos están diseñados puramente para predecir secuencias de palabras basándose en bases de datos masivas (que incluyen foros sin filtro como Reddit). «No pueden ponderar qué fuentes son precisas y cuáles no. Por eso ese falso equilibrio es tan común», agrega.

La IA en el Consultorio

Resultados del estudio del Instituto Lundquist (Revista BMJ Open)

⚠️ El Peligro de la Predicción

Los modelos de IA no «saben» medicina; predicen palabras basadas en internet. El 50 % de sus respuestas médicas carecen de rigor científico y el 20 % son altamente peligrosas.

📉

Rendimiento Dispar

Grok (xAI) fue el peor evaluado, con un 58 % de fallos críticos. Gemini (Google) fue el que presentó la menor cantidad de respuestas problemáticas.

📚

Fuentes Inventadas

Ninguno de los cinco modelos logró dar una bibliografía 100% real. Las IA sufren «alucinaciones», inventando títulos de estudios y autores inexistentes.

🎭

Falsa Credibilidad

Los chatbots usan un lenguaje técnico equivalente a nivel universitario. Esta complejidad excesiva manipula al usuario haciéndole creer que la respuesta es exacta.

⚖️

Falsa Neutralidad

Los modelos responden con un tono de «certeza absoluta», poniendo al mismo nivel la evidencia científica comprobada y las pseudociencias de foros web.

Modelos evaluados: Gemini, DeepSeek, Meta AI, ChatGPT y Grok | Diseño: CientificaMente

Falsa credibilidad y fuentes inventadas

El rendimiento varió según la marca. Grok (la IA de la compañía de Elon Musk, xAI) obtuvo los peores resultados, con un 58 % de respuestas altamente problemáticas. Por el contrario, Gemini de Google presentó el menor número de fallos críticos. No obstante, todos fracasaron en la accesibilidad.

El nivel del lenguaje utilizado por las máquinas equivale al de un graduado universitario. Lejos de ser una virtud, esto representa un peligro. «Las respuestas excesivamente técnicas pueden socavar la comprensión en el público general», advierte Tiller. Psicológicamente, las respuestas largas y rimbombantes aumentan ciegamente la confianza del usuario, generando un aura de «falsa credibilidad académica».

El golpe de gracia del estudio fue la comprobación de las «alucinaciones». Ningún chatbot logró proporcionar una lista de referencias bibliográficas completamente real. En muchos casos, las máquinas inventaron títulos de estudios y nombres de autores que no existen, presentándolos con total naturalidad.

Sin una educación pública urgente y una supervisión regulatoria estricta, el despliegue de la IA en la salud corre el riesgo de amplificar la desinformación médica a una escala nunca antes vista.

Referencia:

Nicholas Tiller et al, “Generative artificial intelligence-driven chatbots and medical misinformation: an accuracy, referencing and readability audit”, BMJ Open 2026.