Ciencia y Tecnología

Estudio: información médica de los chatbots falla más de lo que parece

Published

on

<p>Una cantidad considerable de la <a class&equals;"internal-link" href&equals;"https&colon;&sol;&sol;www&period;dw&period;com&sol;es&sol;trampas-de-salud-en-tiktok-malos-consejos-en-la-red&sol;a-71817571">información médica<&sol;a> proporcionada por cinco <a class&equals;"internal-link" href&equals;"https&colon;&sol;&sol;www&period;dw&period;com&sol;es&sol;la-ia-es-complaciente-pero-los-chatbots-no-son-tus-amigos&sol;a-76570115">chatbots<&sol;a> populares es inexacta e incompleta&comma; y la mitad de las respuestas a preguntas claras basadas en la evidencia son 'algo' o 'muy' problemáticas&comma; señala <a rel&equals;"noopener follow" target&equals;"&lowbar;blank" class&equals;"external-link" href&equals;"https&colon;&sol;&sol;bmjopen&period;bmj&period;com&sol;content&sol;16&sol;4&sol;e112695" title&equals;"Enlace externo — un estudio que publica BMJ Open&period;">un estudio que publica<em> BMJ Open&period;<&sol;em><&sol;a><&sol;p>&NewLine;<p>Los investigadores del Instituto Lundquist para la Innovación Biomédica &lpar;EE&period; UU&period;&rpar; advierten de que el despliegue continuado de estos chatbots sin una labor de educación pública ni supervisión corre el riesgo de amplificar la desinformación&period; <&sol;p>&NewLine;<p>Esta preocupación coincide con <a rel&equals;"noopener follow" target&equals;"&lowbar;blank" class&equals;"external-link" href&equals;"https&colon;&sol;&sol;jamanetwork&period;com&sol;journals&sol;jamanetworkopen&sol;fullarticle&sol;2847679" title&equals;"Enlace externo — otro estudio reciente publicado en JAMA Network Open&comma;">otro estudio reciente publicado en<em> JAMA Network Open&comma;<&sol;em><&sol;a> que tras evaluar 21 modelos avanzados en casos clínicos concluye que <a class&equals;"internal-link" href&equals;"https&colon;&sol;&sol;www&period;dw&period;com&sol;es&sol;inteligencia-artificial-ia&sol;t-63771882">la inteligencia artificial &lpar;IA&rpar;<&sol;a> aún no está preparada para tomar decisiones médicas de forma autónoma&comma; sin supervisión profesional constante&period;<&sol;p>&NewLine;<h2><strong>Cinco chatbots de IA bajo la lupa <&sol;strong><&sol;h2>&NewLine;<p>El equipo del Instituto Lundquist analizó en febrero de 2025 el nivel de precisión que ofrecían en ámbitos de la salud y la medicina cinco <a class&equals;"internal-link" href&equals;"https&colon;&sol;&sol;www&period;dw&period;com&sol;es&sol;los-chatbots-de-ia-son-muy-poco-confiables-y-producen-desinformaci&percnt;C3&percnt;B3n-revela-amplio-estudio&sol;a-74459215">chatbots de IA generativa<&sol;a> populares y de acceso público&colon; Gemini &lpar;Google&rpar;&semi; DeepSeek &lpar;High-Flyer&rpar;&semi; Meta AI &lpar;Meta&rpar;&semi; ChatGPT &lpar;OpenAI&rpar;&semi; y Grok &lpar;xAI&rpar;&period;<&sol;p>&NewLine;<p>A cada uno se le plantearon diez preguntas abiertas y cerradas en cada una de cinco categorías&colon; <a class&equals;"internal-link" href&equals;"https&colon;&sol;&sol;www&period;dw&period;com&sol;es&sol;c&percnt;C3&percnt;A1ncer&sol;t-65353002">cáncer&comma;<&sol;a> vacunas&comma; células madre&comma; nutrición y rendimiento deportivo&period;<&sol;p>&NewLine;<p>Las preguntas se diseñaron para asemejarse a consultas médicas y de salud habituales en busca de información y se desarrollaron para 'poner a prueba' los modelos en cuanto a desinformación o consejos contraindicados&period;<&sol;p>&NewLine;<figure class&equals;"placeholder-image master&lowbar;landscape big"><img data-format&equals;"MASTER&lowbar;LANDSCAPE" data-id&equals;"76792118" data-url&equals;"https&colon;&sol;&sol;static&period;dw&period;com&sol;image&sol;76792118&lowbar;&dollar;formatId&period;jpg" data-aspect-ratio&equals;"16&sol;9" alt&equals;"Grok generó el mayor número de respuestas muy problemáticas en el estudio del Instituto Lundquist&period;" src&equals;"image&sol;gif&semi;base64&comma;R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw&equals;&equals;" &sol;><figcaption class&equals;"img-caption">Grok generó el mayor número de respuestas muy problemáticas en el estudio del Instituto Lundquist&period;<small class&equals;"copyright">Imagen&colon; Jonathan Raa&sol;NurPhoto&sol;picture alliance<&sol;small><&sol;figcaption><&sol;figure>&NewLine;<h2><strong>La mitad de las respuestas&comma; problemáticas <&sol;strong><&sol;h2>&NewLine;<p>La mitad &lpar;50 &percnt;&rpar; de las respuestas resultaron problemáticas&colon; el 30 &percnt; eran algo problemáticas y el 20 &percnt;&comma; muy problemáticas&comma; según la revista&period;<&sol;p>&NewLine;<p>Aunque la calidad de las respuestas no varió significativamente entre los chatbots&comma; Grok generó "un número significativamente mayor" de respuestas muy problemáticas de lo que cabría esperar &lpar;29&sol;50&semi; 58 &percnt;&rpar;&comma; mientras que Gemini tuvo el menor número de muy problemáticas y el mayor de no problemáticas&period;<&sol;p>&NewLine;<p>Las respuestas se clasificaron como 'no problemáticas'&comma; 'algo problemáticas' o 'muy problemáticas'&comma; utilizando criterios objetivos predefinidos&period;<&sol;p>&NewLine;<p>Se consideró que era problemática cuando podía llevar a los usuarios sin conocimientos especializados a seguir un tratamiento potencialmente ineficaz o a sufrir daños si se aplicaba sin orientación profesional&period;<&sol;p>&NewLine;<p>Los chatbots obtuvieron mejores resultados en los ámbitos de <a class&equals;"internal-link" href&equals;"https&colon;&sol;&sol;www&period;dw&period;com&sol;es&sol;cient&percnt;C3&percnt;ADficos-prueban-vacuna-universal-que-promete-enfrenta-la-gripe-covid-y-alergias-al-mismo-tiempo&sol;a-76096462">las vacunas<&sol;a> y el cáncer&comma; y peores en los de las <a class&equals;"internal-link" href&equals;"https&colon;&sol;&sol;www&period;dw&period;com&sol;es&sol;vuelos-espaciales-aceleran-envejecimiento-de-c&percnt;C3&percnt;A9lulas-madre&sol;a-73897013">células madre&comma;<&sol;a> el rendimiento deportivo y <a class&equals;"internal-link" href&equals;"https&colon;&sol;&sol;www&period;dw&period;com&sol;es&sol;fibra-prote&percnt;C3&percnt;ADna-y-una-trampa-oculta-lo-que-los-expertos-advierten-sobre-la-moda-maxxing&sol;a-76693448">la nutrición&period;<&sol;a>La información se evaluó en función de su precisión y exhaustividad y se prestó especial atención a si un chatbot presentaba un falso equilibrio entre afirmaciones con base científica y sin ella&comma; independientemente de la solidez de las pruebas&period;<&sol;p>&NewLine;<p>Cada respuesta se calificó también en función de su legibilidad&comma; desde si estaba redactada en un inglés sencillo y claro hasta si utilizaba un lenguaje académico y difícil&period;<&sol;p>&NewLine;<h2><strong>Preguntas abiertas y referencias deficientes <&sol;strong><&sol;h2>&NewLine;<p>El tipo de pregunta influyó en los resultados&period; Así&comma; las abiertas generaron 40 respuestas muy problemáticas &lpar;significativamente más de lo esperado&rpar; y 51 no problemáticas &lpar;significativamente menos de lo esperado&rpar;&period; En el caso de las preguntas cerradas ocurrió lo contrario&comma; indica BMJ Open&period;<&sol;p>&NewLine;<p>Las preguntas cerradas exigían a los chatbots que proporcionaran respuestas predefinidas&comma; a menudo con una única respuesta correcta&comma; que se ajustaran al consenso científico&period; Las abiertas solían exigir que generaran múltiples respuestas en forma de lista&period;<&sol;p>&NewLine;<p>Según el estudio de JAMA Network Open&comma; esta dificultad ante preguntas abiertas conecta con un hallazgo clave&colon; los modelos de lenguaje suelen fallar en las primeras fases del razonamiento clínico&comma; especialmente cuando disponen de poca información o deben proponer diagnósticos diferenciales&period; En concreto&comma; la investigación encontró que estos sistemas fallan en más del 80 &percnt; de los casos al elaborar diagnósticos diferenciales&comma; una etapa clave del proceso médico&period;<&sol;p>&NewLine;<figure class&equals;"placeholder-image master&lowbar;landscape big"><img data-format&equals;"MASTER&lowbar;LANDSCAPE" data-id&equals;"72575818" data-url&equals;"https&colon;&sol;&sol;static&period;dw&period;com&sol;image&sol;72575818&lowbar;&dollar;formatId&period;jpg" data-aspect-ratio&equals;"16&sol;9" alt&equals;"Los expertos advirtieron que los chatbots de IA no pueden sustituir el criterio médico profesional&period;" src&equals;"image&sol;gif&semi;base64&comma;R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw&equals;&equals;" &sol;><figcaption class&equals;"img-caption">Los expertos advirtieron que los chatbots de IA no pueden sustituir el criterio médico profesional&period;<small class&equals;"copyright">Imagen&colon; Jonathan Raa&sol;Sipa USA&sol;picture alliance<&sol;small><&sol;figcaption><&sol;figure>&NewLine;<p>En cuanto el estudio del Instituto Lundquist&comma; en el proceso solo hubo dos casos en los que se negaron a responder&comma; ambos por parte de Meta AI&comma; en respuesta a consultas sobre esteroides anabólicos y <a class&equals;"internal-link" href&equals;"https&colon;&sol;&sol;www&period;dw&period;com&sol;es&sol;ensayan-tecnolog&percnt;C3&percnt;ADa-de-ultrasonidos-para-tratar-el-c&percnt;C3&percnt;A1ncer-de-p&percnt;C3&percnt;A1ncreas&sol;a-71012176">tratamientos alternativos contra el cáncer&period;<&sol;a><&sol;p>&NewLine;<p>En general&comma; la calidad de las referencias fue deficiente&comma; con una puntuación media de exhaustividad del 40 &percnt; y todas las puntuaciones de legibilidad se calificaron como 'difíciles'&comma; con una complejidad equivalente a la adecuada para un titulado universitario&period;<&sol;p>&NewLine;<p>Los investigadores reconocen que solo evaluaron cinco chatbots y que la IA comercial está evolucionando rápidamente&comma; por lo que sus conclusiones podrían no ser universalmente aplicables&period;<&sol;p>&NewLine;<p>Además&comma; no todas las consultas del mundo real son deliberadamente de confrontación&comma; un enfoque que adoptaron y que podría haber exagerado la prevalencia de contenidos problemáticos&period;<&sol;p>&NewLine;<p>En el estudio de de JAMA Network Open se mostró&comma; por ejemplo&comma; que cuando los sistemas reciben toda la información clínica relevante pueden alcanzar diagnósticos correctos en más del 90 &percnt; de los casos&comma; aunque su desempeño sigue siendo inconsistente en etapas intermedias del proceso&period;<&sol;p>&NewLine;<h2><strong>IA médica&colon; herramienta de apoyo&comma; no sustituto <&sol;strong><&sol;h2>&NewLine;<p>A pesar de los aciertos&comma; los hallazgos sobre la precisión científica&comma; la calidad de las referencias y la legibilidad de las respuestas "ponen de relieve importantes limitaciones de comportamiento y la necesidad de reevaluar cómo se utilizan los chatbots con IA en la comunicación sanitaria y médica dirigida al público"&comma; apuntan los autores&period;<&sol;p>&NewLine;<p>Los chatbots&comma; por defecto&comma; no acceden a datos en tiempo real&comma; sino que generan respuestas deduciendo patrones estadísticos a partir de sus datos de entrenamiento y prediciendo secuencias de palabras probables&period; "No razonan ni sopesan las pruebas&comma; ni son capaces de emitir juicios éticos o basados en valores"&comma; explican&period; En este sentido&comma; los expertos insisten en que su papel actual es el de herramienta de apoyo que puede complementar –pero no sustituir– el criterio médico humano&period;<&sol;p>&NewLine;<p>FEW &lpar;EFE&comma; <em>BMJ Open&comma; JAMA Network Open<&sol;em>&rpar;<&sol;p>&NewLine;<p> <&sol;p>&NewLine;

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Copyright 2025 ERM Digital. Todos los derechos reservados.