Ciencia y Tecnología

Estudio: información médica de los chatbots falla más de lo que parece

Published

4 días ago

15 de abril de 2026

user

Una cantidad considerable de la <a class="internal-link" href="https&colon;//www&period;dw&period;com/es/trampas-de-salud-en-tiktok-malos-consejos-en-la-red/a-71817571">información médica</a> proporcionada por cinco <a class="internal-link" href="https&colon;//www&period;dw&period;com/es/la-ia-es-complaciente-pero-los-chatbots-no-son-tus-amigos/a-76570115">chatbots</a> populares es inexacta e incompleta, y la mitad de las respuestas a preguntas claras basadas en la evidencia son 'algo' o 'muy' problemáticas, señala <a rel="noopener follow" target="&lowbar;blank" class="external-link" href="https&colon;//bmjopen&period;bmj&period;com/content/16/4/e112695" title="Enlace externo — un estudio que publica BMJ Open&period;">un estudio que publica BMJ Open&period;</a>&NewLine;Los investigadores del Instituto Lundquist para la Innovación Biomédica (EE&period; UU&period;) advierten de que el despliegue continuado de estos chatbots sin una labor de educación pública ni supervisión corre el riesgo de amplificar la desinformación&period; &NewLine;Esta preocupación coincide con <a rel="noopener follow" target="&lowbar;blank" class="external-link" href="https&colon;//jamanetwork&period;com/journals/jamanetworkopen/fullarticle/2847679" title="Enlace externo — otro estudio reciente publicado en JAMA Network Open,">otro estudio reciente publicado en JAMA Network Open,</a> que tras evaluar 21 modelos avanzados en casos clínicos concluye que <a class="internal-link" href="https&colon;//www&period;dw&period;com/es/inteligencia-artificial-ia/t-63771882">la inteligencia artificial (IA)</a> aún no está preparada para tomar decisiones médicas de forma autónoma, sin supervisión profesional constante&period;&NewLine;<h2>Cinco chatbots de IA bajo la lupa </h2>&NewLine;El equipo del Instituto Lundquist analizó en febrero de 2025 el nivel de precisión que ofrecían en ámbitos de la salud y la medicina cinco <a class="internal-link" href="https&colon;//www&period;dw&period;com/es/los-chatbots-de-ia-son-muy-poco-confiables-y-producen-desinformaci&percnt;C3&percnt;B3n-revela-amplio-estudio/a-74459215">chatbots de IA generativa</a> populares y de acceso público&colon; Gemini (Google)&semi; DeepSeek (High-Flyer)&semi; Meta AI (Meta)&semi; ChatGPT (OpenAI)&semi; y Grok (xAI)&period;&NewLine;A cada uno se le plantearon diez preguntas abiertas y cerradas en cada una de cinco categorías&colon; <a class="internal-link" href="https&colon;//www&period;dw&period;com/es/c&percnt;C3&percnt;A1ncer/t-65353002">cáncer,</a> vacunas, células madre, nutrición y rendimiento deportivo&period;&NewLine;Las preguntas se diseñaron para asemejarse a consultas médicas y de salud habituales en busca de información y se desarrollaron para 'poner a prueba' los modelos en cuanto a desinformación o consejos contraindicados&period;&NewLine;<figure class="placeholder-image master&lowbar;landscape big"><img data-format="MASTER&lowbar;LANDSCAPE" data-id="76792118" data-url="https&colon;//static&period;dw&period;com/image/76792118&lowbar;&dollar;formatId&period;jpg" data-aspect-ratio="16/9" alt="Grok generó el mayor número de respuestas muy problemáticas en el estudio del Instituto Lundquist&period;" src="image/gif&semi;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==" /><figcaption class="img-caption">Grok generó el mayor número de respuestas muy problemáticas en el estudio del Instituto Lundquist&period;Imagen&colon; Jonathan Raa/NurPhoto/picture alliance</figcaption></figure>&NewLine;<h2>La mitad de las respuestas, problemáticas </h2>&NewLine;La mitad (50 &percnt;) de las respuestas resultaron problemáticas&colon; el 30 &percnt; eran algo problemáticas y el 20 &percnt;, muy problemáticas, según la revista&period;&NewLine;Aunque la calidad de las respuestas no varió significativamente entre los chatbots, Grok generó "un número significativamente mayor" de respuestas muy problemáticas de lo que cabría esperar (29/50&semi; 58 &percnt;), mientras que Gemini tuvo el menor número de muy problemáticas y el mayor de no problemáticas&period;&NewLine;Las respuestas se clasificaron como 'no problemáticas', 'algo problemáticas' o 'muy problemáticas', utilizando criterios objetivos predefinidos&period;&NewLine;Se consideró que era problemática cuando podía llevar a los usuarios sin conocimientos especializados a seguir un tratamiento potencialmente ineficaz o a sufrir daños si se aplicaba sin orientación profesional&period;&NewLine;Los chatbots obtuvieron mejores resultados en los ámbitos de <a class="internal-link" href="https&colon;//www&period;dw&period;com/es/cient&percnt;C3&percnt;ADficos-prueban-vacuna-universal-que-promete-enfrenta-la-gripe-covid-y-alergias-al-mismo-tiempo/a-76096462">las vacunas</a> y el cáncer, y peores en los de las <a class="internal-link" href="https&colon;//www&period;dw&period;com/es/vuelos-espaciales-aceleran-envejecimiento-de-c&percnt;C3&percnt;A9lulas-madre/a-73897013">células madre,</a> el rendimiento deportivo y <a class="internal-link" href="https&colon;//www&period;dw&period;com/es/fibra-prote&percnt;C3&percnt;ADna-y-una-trampa-oculta-lo-que-los-expertos-advierten-sobre-la-moda-maxxing/a-76693448">la nutrición&period;</a>La información se evaluó en función de su precisión y exhaustividad y se prestó especial atención a si un chatbot presentaba un falso equilibrio entre afirmaciones con base científica y sin ella, independientemente de la solidez de las pruebas&period;&NewLine;Cada respuesta se calificó también en función de su legibilidad, desde si estaba redactada en un inglés sencillo y claro hasta si utilizaba un lenguaje académico y difícil&period;&NewLine;<h2>Preguntas abiertas y referencias deficientes </h2>&NewLine;El tipo de pregunta influyó en los resultados&period; Así, las abiertas generaron 40 respuestas muy problemáticas (significativamente más de lo esperado) y 51 no problemáticas (significativamente menos de lo esperado)&period; En el caso de las preguntas cerradas ocurrió lo contrario, indica BMJ Open&period;&NewLine;Las preguntas cerradas exigían a los chatbots que proporcionaran respuestas predefinidas, a menudo con una única respuesta correcta, que se ajustaran al consenso científico&period; Las abiertas solían exigir que generaran múltiples respuestas en forma de lista&period;&NewLine;Según el estudio de JAMA Network Open, esta dificultad ante preguntas abiertas conecta con un hallazgo clave&colon; los modelos de lenguaje suelen fallar en las primeras fases del razonamiento clínico, especialmente cuando disponen de poca información o deben proponer diagnósticos diferenciales&period; En concreto, la investigación encontró que estos sistemas fallan en más del 80 &percnt; de los casos al elaborar diagnósticos diferenciales, una etapa clave del proceso médico&period;&NewLine;<figure class="placeholder-image master&lowbar;landscape big"><img data-format="MASTER&lowbar;LANDSCAPE" data-id="72575818" data-url="https&colon;//static&period;dw&period;com/image/72575818&lowbar;&dollar;formatId&period;jpg" data-aspect-ratio="16/9" alt="Los expertos advirtieron que los chatbots de IA no pueden sustituir el criterio médico profesional&period;" src="image/gif&semi;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==" /><figcaption class="img-caption">Los expertos advirtieron que los chatbots de IA no pueden sustituir el criterio médico profesional&period;Imagen&colon; Jonathan Raa/Sipa USA/picture alliance</figcaption></figure>&NewLine;En cuanto el estudio del Instituto Lundquist, en el proceso solo hubo dos casos en los que se negaron a responder, ambos por parte de Meta AI, en respuesta a consultas sobre esteroides anabólicos y <a class="internal-link" href="https&colon;//www&period;dw&period;com/es/ensayan-tecnolog&percnt;C3&percnt;ADa-de-ultrasonidos-para-tratar-el-c&percnt;C3&percnt;A1ncer-de-p&percnt;C3&percnt;A1ncreas/a-71012176">tratamientos alternativos contra el cáncer&period;</a>&NewLine;En general, la calidad de las referencias fue deficiente, con una puntuación media de exhaustividad del 40 &percnt; y todas las puntuaciones de legibilidad se calificaron como 'difíciles', con una complejidad equivalente a la adecuada para un titulado universitario&period;&NewLine;Los investigadores reconocen que solo evaluaron cinco chatbots y que la IA comercial está evolucionando rápidamente, por lo que sus conclusiones podrían no ser universalmente aplicables&period;&NewLine;Además, no todas las consultas del mundo real son deliberadamente de confrontación, un enfoque que adoptaron y que podría haber exagerado la prevalencia de contenidos problemáticos&period;&NewLine;En el estudio de de JAMA Network Open se mostró, por ejemplo, que cuando los sistemas reciben toda la información clínica relevante pueden alcanzar diagnósticos correctos en más del 90 &percnt; de los casos, aunque su desempeño sigue siendo inconsistente en etapas intermedias del proceso&period;&NewLine;<h2>IA médica&colon; herramienta de apoyo, no sustituto </h2>&NewLine;A pesar de los aciertos, los hallazgos sobre la precisión científica, la calidad de las referencias y la legibilidad de las respuestas "ponen de relieve importantes limitaciones de comportamiento y la necesidad de reevaluar cómo se utilizan los chatbots con IA en la comunicación sanitaria y médica dirigida al público", apuntan los autores&period;&NewLine;Los chatbots, por defecto, no acceden a datos en tiempo real, sino que generan respuestas deduciendo patrones estadísticos a partir de sus datos de entrenamiento y prediciendo secuencias de palabras probables&period; "No razonan ni sopesan las pruebas, ni son capaces de emitir juicios éticos o basados en valores", explican&period; En este sentido, los expertos insisten en que su papel actual es el de herramienta de apoyo que puede complementar –pero no sustituir– el criterio médico humano&period;&NewLine;FEW (EFE, BMJ Open, JAMA Network Open)&NewLine; &NewLine;

ermdigital

Ciencia y Tecnología

Estudio: información médica de los chatbots falla más de lo que parece

Leave a Reply

Leave a Reply

Trending

Leave a Reply Cancelar la respuesta

Leave a Reply

Trending

Leave a Reply