Ciencia y Tecnología

Todo empieza pidiéndole una cosa a una IA. Cuando la IA se lo pide a otras IA comienza el caos

Published

on

<p>&NewLine; <img src&equals;"https&colon;&sol;&sol;i&period;blogs&period;es&sol;3d87c3&sol;thinking&sol;1024&lowbar;2000&period;jpeg" alt&equals;"Todo empieza pidiéndole una cosa a una IA&period; Cuando la IA se lo pide a otras IA comienza el caos">&NewLine; <&sol;p>&NewLine;<p>En el juego del &&num;8220&semi;teléfono escacharrado&&num;8221&semi; &lpar;o roto&comma; o descompuesto&rpar; un grupo de personas transmite un mensaje de uno en uno en secreto&period; Lo que suele suceder es que el mensaje original no tiene mucho que ver con lo que recibe el último destinatario&period; Y el problema que estamos viendo es que algo similar puede ocurrir con los prometedores agentes de IA&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 1 --><&sol;p>&NewLine;<p><strong>Errores acumulados<&sol;strong>&period; Toby Ord&comma; investigador en la Universidad de Oxford&comma; publicó recientemente <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;www&period;tobyord&period;com&sol;writing&sol;half-life">un estudio<&sol;a> sobre agentes de IA&period; En él hablaba de cómo este tipo de sistemas tienen el problema del <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;www&period;computerweekly&period;com&sol;news&sol;366620886&sol;Deepmind-founder-warns-of-compounding-AI-agent-errors">error acumulado o compuesto<&sol;a>&period; Un agente de IA encadena varias etapas de forma autónoma para tratar de resolver un problema que le proponemos —por ejemplo&comma; crear código para cierta tarea—&comma; pero si comete un error en una etapa&comma; ese error se acumula y se hace más preocupante en la siguiente etapa&comma; y más en la siguiente&comma; y más aún en la siguiente&period; La precisión de la solución se ve así comprometida y puede no tener mucho &lpar;o nada&rpar; que ver con la que realmente solucionaría el problema que queríamos resolver&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 2 --><&sol;p>&NewLine;<div class&equals;"article-asset-image article-asset-normal article-asset-center">&NewLine;<div class&equals;"asset-content">&NewLine; <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;x&period;com&sol;ylecun&sol;status&sol;1935108028891861393"><&sol;p>&NewLine;<p> <img alt&equals;"Captura De Pantalla 2025 06 19 A Las 10 03 42" class&equals;"centro&lowbar;sinmarco" src&equals;"https&colon;&sol;&sol;i&period;blogs&period;es&sol;349b09&sol;captura-de-pantalla-2025-06-19-a-las-10&period;03&period;42&sol;450&lowbar;1000&period;jpeg"><br &sol;>&NewLine; <&sol;a><&sol;p><&sol;div>&NewLine;<&sol;div>&NewLine;<p><strong>La IA puede programar&comma; pero no durante mucho tiempo seguido<&sol;strong>&period; Lo que planteaba este experto era la introducción de la llamada &&num;8220&semi;vida media&&num;8221&semi; del agente de IA&comma; que ayudaría a estimar la tasa de éxito según la longitud de la tarea que quiere resolver un agente de IA&period; Por ejemplo&comma; un agente con una vida media de 2 horas tendría un 50&percnt; de éxito en tareas de dos horas&period; El mensaje es contundente&colon; cuanto más tiempo trabaja un agente de IA&comma; más probabilidades hay de que la tasa de éxito decaiga&period; Benjamin Todd&comma; otro experto en IA&comma; <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;x&period;com&sol;ben&lowbar;j&lowbar;todd&sol;status&sol;1934284189928501482">lo expresaba de otra forma<&sol;a>&colon; una IA puede programar durante una hora sin &lpar;apenas&rpar; errores&comma; pero no durante 10 horas&period; No son cifras reales ni definitivas&comma; pero expresan el mismo problema&colon; los agentes de IA no pueden —al menos de momento— funcionar de forma indefinida&comma; porque los errores acumulados condenan la tasa de éxito&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 3 --><&sol;p>&NewLine;<p><strong>Los humanos tampoco nos salvamos<&sol;strong>&period; Pero cuidado&comma; porque <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;x&period;com&sol;&lowbar;rockt&sol;status&sol;1935259200801624404">algo muy parecido pasa<&sol;a> con el rendimiento humano en tareas prolongadas&period; En el estudio de Orb se señalaba cómo la tasa de éxito empírica va bajando de forma notable&colon; tras 15 minutos ya es de aproximadamente el 75&percnt;&comma; tras hora y media es del 50&percnt; y tras 16 horas de apenas el 20&percnt;&period; Todos podemos cometer errores al realizar ciertas tareas encadenadas&comma; y si en una de ellas cometemos un error&comma; en la siguiente tarea de la cadena ese error condena todo el desarrollo posterior aún más&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 4 --><&sol;p>&NewLine;<p><strong>LeCun ya avisó<&sol;strong>&period; Yann LeCun&comma; que dirige los esfuerzos de investigación de IA en Meta&comma; lleva mucho tiempo avisando de los problemas con los LLM&period; En junio de 2023 <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;x&period;com&sol;ben&lowbar;j&lowbar;todd&sol;status&sol;1934527998155186676">indicó<&sol;a> cómo los LLM autoregresivos no pueden ser factuales y evitar respuestas tóxicas&period; Explicó que hay una alta probabilidad de que el token que genera un modelo nos lleve fuera del grupo de respuestas correctas&comma; y cuanto más larga es la respuesta&comma; más difícil es que sea correcta&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 5 --><&sol;p>&NewLine;<div class&equals;"article-asset-video article-asset-normal">&NewLine;<div class&equals;"asset-content">&NewLine;<div class&equals;"base-asset-video">&NewLine;<div class&equals;"js-dailymotion"><&sol;div>&NewLine;<&sol;p><&sol;div>&NewLine;<&sol;p><&sol;div>&NewLine;<&sol;div>&NewLine;<p><strong>Para eso está la corrección de errores<&sol;strong>&period; Para evitar el problema&comma; necesitamos reducir la tasa de errores de los modelos de IA&period; Es algo <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;www&period;sciencedirect&period;com&sol;science&sol;article&sol;abs&sol;pii&sol;S0164121201001303">muy conocido<&sol;a> en ingenería software&comma; donde siempre se recomienda realizar una revisión temprana de código siguiendo una estrategia &&num;8220&semi;shift left&&num;8221&semi; para el ciclo de desarrollo de software&colon; cuanto antes se detecta un error&comma; <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;es&period;wikipedia&period;org&sol;wiki&sol;Pruebas&lowbar;de&lowbar;rendimiento&lowbar;del&lowbar;software&num;Introducci&percnt;C3&percnt;B3n">más fácil y barato es corregirlo<&sol;a>&period; Y ocurre justo lo contrario si no lo hacemos&colon; el coste de corregir un error crece exponencialmente cuanto más tarde se detecta en el ciclo de vida&period; Otros expertos <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;x&period;com&sol;BlackHC&sol;status&sol;1935112860759150616">apuntan<&sol;a> a que el <a class&equals;"text-outboundlink" href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;inteligencia-artificial&sol;conceptos-inteligencia-artificial-que-aprendizaje-refuerzo" data-vars-post-title&equals;"Conceptos de inteligencia artificial&colon; qué es el aprendizaje por refuerzo " data-vars-post-url&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;inteligencia-artificial&sol;conceptos-inteligencia-artificial-que-aprendizaje-refuerzo">aprendizaje por refuerzo<&sol;a> &lpar;Reinforcement Learning&comma; RL&rpar; podría solucionar el problema&comma; y aquí LeCun <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;x&period;com&sol;BlackHC&sol;status&sol;1935112860759150616">respondía<&sol;a> que lo haría si tuviésemos datos infinitos para pulir el comportamiento del modelo&comma; cosa que no tenemos&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 6 --><&sol;p>&NewLine;<p><strong>Más que agentes&comma; multiagentes<&sol;strong>&period; En Anthropic <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;www&period;anthropic&period;com&sol;engineering&sol;built-multi-agent-research-system">demostraron recientemente<&sol;a> cómo hay una forma de mitigar aún más esos errores &lpar;y los posteriores errores acumulados&rpar;&colon; usar sistemas multiagénticos&period; Esto es&colon; que múltiples agentes de IA trabajen en paralelo para luego confrontar sus resultados y determinar el camino o solución óptima&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 7 --><&sol;p>&NewLine;<div class&equals;"article-asset-image article-asset-normal article-asset-center">&NewLine;<div class&equals;"asset-content">&NewLine;<div class&equals;"caption-img ">&NewLine;<p> <img alt&equals;"Tasa Error" class&equals;"centro&lowbar;sinmarco" src&equals;"https&colon;&sol;&sol;i&period;blogs&period;es&sol;139b1a&sol;tasa-error&sol;450&lowbar;1000&period;jpeg"><&sol;p>&NewLine;<p> <span>La gráfica muestra la longitud de las tareas que los agentes de IA pueden completar de forma autónoma a lo largo de los últimos años&period; El estudio revela que cada siete meses se dobla el tiempo que puede funcionar un agente de IA para completar tareas con una tasa de éxito del 50&percnt;&period; O lo que es lo mismo&colon; los agentes están mejorando de forma sostenida &lpar;y notable&rpar; con el tiempo&period;<&sol;span>&NewLine; <&sol;div>&NewLine;<&sol;p><&sol;div>&NewLine;<&sol;div>&NewLine;<p><strong>Pero los modelos y los agentes no paran de mejorar &lpar;¿o no&quest;&rpar;<&sol;strong>&period; El propio Todd <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;x&period;com&sol;BlackHC&sol;status&sol;1935112860759150616">apuntaba algo importante<&sol;a> y que permite ser optimistas respecto a ese problema&period; &&num;8220&semi;La tasa de error de los modelos de IA se está reduciendo a la mitad aproximadamente cada cinco meses&&num;8221&semi;&comma; explicaba&period; Y a ese ritmo es posible que los agentes de IA puedan completar con éxito decenas de tareas encadenadas en año y medio y centenares en otro año y medio después&period; <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;www&period;nytimes&period;com&sol;2025&sol;05&sol;05&sol;technology&sol;ai-hallucinations-chatgpt-google&period;html">En The New York Times<&sol;a> no estaban de acuerdo&comma; y apuntaban recientemente a que aunque los modelos cada vez son más potentes&comma; también &&num;8220&semi;alucinan&&num;8221&semi; más que anteriores generaciones&period; La &&num;8220&semi;<a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;cdn&period;openai&period;com&sol;pdf&sol;2221c875-02dc-4789-800b-e7758f3722c1&sol;o3-and-o4-mini-system-card&period;pdf">tarjeta de sistema<&sol;a>&&num;8221&semi; de o3 y o4-mini precisamente apunta a que hay un problema real con la tasa de errores y &&num;8220&semi;alucinaciones&&num;8221&semi; en ambos modelos&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 8 --><&sol;p>&NewLine;<p>En Xataka &vert; <a class&equals;"text-outboundlink" href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;alucinaciones-siguen-siendo-talon-aquiles-ia-ultimos-modelos-openai-inventan-cuenta" data-vars-post-title&equals;"Las alucinaciones siguen siendo el talón de Aquiles de la IA&colon; los últimos modelos de OpenAI inventan más de la cuenta" data-vars-post-url&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;alucinaciones-siguen-siendo-talon-aquiles-ia-ultimos-modelos-openai-inventan-cuenta">Las alucinaciones siguen siendo el talón de Aquiles de la IA&colon; los últimos modelos de OpenAI inventan más de la cuenta<&sol;a><&sol;p>&NewLine;<p> &&num;8211&semi; <br &sol;> La noticia<br &sol;>&NewLine; <a href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;hay-riesgo-agentes-ia-errores-acumulados-que-sean-telefono-escacharrado&quest;utm&lowbar;source&equals;feedburner&amp&semi;utm&lowbar;medium&equals;feed&amp&semi;utm&lowbar;campaign&equals;19&lowbar;Jun&lowbar;2025"><br &sol;>&NewLine; <em> Todo empieza pidiéndole una cosa a una IA&period; Cuando la IA se lo pide a otras IA comienza el caos <&sol;em><br &sol;>&NewLine; <&sol;a><br &sol;>&NewLine; fue publicada originalmente en<br &sol;>&NewLine; <a href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;&quest;utm&lowbar;source&equals;feedburner&amp&semi;utm&lowbar;medium&equals;feed&amp&semi;utm&lowbar;campaign&equals;19&lowbar;Jun&lowbar;2025"><br &sol;>&NewLine; <strong> Xataka <&sol;strong><br &sol;>&NewLine; <&sol;a><br &sol;>&NewLine; por <a href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;autor&sol;javier-pastor&quest;utm&lowbar;source&equals;feedburner&amp&semi;utm&lowbar;medium&equals;feed&amp&semi;utm&lowbar;campaign&equals;19&lowbar;Jun&lowbar;2025"><br &sol;>&NewLine; Javier Pastor<br &sol;>&NewLine; <&sol;a><br &sol;>&NewLine; &period; <&sol;p>&NewLine;<p>&ZeroWidthSpace;En el juego del &&num;8220&semi;teléfono escacharrado&&num;8221&semi; &lpar;o roto&comma; o descompuesto&rpar; un grupo de personas transmite un mensaje de uno en uno en secreto&period; Lo que suele suceder es que el mensaje original no tiene mucho que ver con lo que recibe el último destinatario&period; Y el problema que estamos viendo es que algo similar puede ocurrir con los prometedores agentes de IA&period;<&sol;p>&NewLine;<p>Errores acumulados&period; Toby Ord&comma; investigador en la Universidad de Oxford&comma; publicó recientemente un estudio sobre agentes de IA&period; En él hablaba de cómo este tipo de sistemas tienen el problema del error acumulado o compuesto&period; Un agente de IA encadena varias etapas de forma autónoma para tratar de resolver un problema que le proponemos —por ejemplo&comma; crear código para cierta tarea—&comma; pero si comete un error en una etapa&comma; ese error se acumula y se hace más preocupante en la siguiente etapa&comma; y más en la siguiente&comma; y más aún en la siguiente&period; La precisión de la solución se ve así comprometida y puede no tener mucho &lpar;o nada&rpar; que ver con la que realmente solucionaría el problema que queríamos resolver&period;<&sol;p>&NewLine;<p>La IA puede programar&comma; pero no durante mucho tiempo seguido&period; Lo que planteaba este experto era la introducción de la llamada &&num;8220&semi;vida media&&num;8221&semi; del agente de IA&comma; que ayudaría a estimar la tasa de éxito según la longitud de la tarea que quiere resolver un agente de IA&period; Por ejemplo&comma; un agente con una vida media de 2 horas tendría un 50&percnt; de éxito en tareas de dos horas&period; El mensaje es contundente&colon; cuanto más tiempo trabaja un agente de IA&comma; más probabilidades hay de que la tasa de éxito decaiga&period; Benjamin Todd&comma; otro experto en IA&comma; lo expresaba de otra forma&colon; una IA puede programar durante una hora sin &lpar;apenas&rpar; errores&comma; pero no durante 10 horas&period; No son cifras reales ni definitivas&comma; pero expresan el mismo problema&colon; los agentes de IA no pueden —al menos de momento— funcionar de forma indefinida&comma; porque los errores acumulados condenan la tasa de éxito&period;<&sol;p>&NewLine;<p>Los humanos tampoco nos salvamos&period; Pero cuidado&comma; porque algo muy parecido pasa con el rendimiento humano en tareas prolongadas&period; En el estudio de Orb se señalaba cómo la tasa de éxito empírica va bajando de forma notable&colon; tras 15 minutos ya es de aproximadamente el 75&percnt;&comma; tras hora y media es del 50&percnt; y tras 16 horas de apenas el 20&percnt;&period; Todos podemos cometer errores al realizar ciertas tareas encadenadas&comma; y si en una de ellas cometemos un error&comma; en la siguiente tarea de la cadena ese error condena todo el desarrollo posterior aún más&period;<&sol;p>&NewLine;<p>LeCun ya avisó&period; Yann LeCun&comma; que dirige los esfuerzos de investigación de IA en Meta&comma; lleva mucho tiempo avisando de los problemas con los LLM&period; En junio de 2023 indicó cómo los LLM autoregresivos no pueden ser factuales y evitar respuestas tóxicas&period; Explicó que hay una alta probabilidad de que el token que genera un modelo nos lleve fuera del grupo de respuestas correctas&comma; y cuanto más larga es la respuesta&comma; más difícil es que sea correcta&period;<&sol;p>&NewLine;<p>Para eso está la corrección de errores&period; Para evitar el problema&comma; necesitamos reducir la tasa de errores de los modelos de IA&period; Es algo muy conocido en ingenería software&comma; donde siempre se recomienda realizar una revisión temprana de código siguiendo una estrategia &&num;8220&semi;shift left&&num;8221&semi; para el ciclo de desarrollo de software&colon; cuanto antes se detecta un error&comma; más fácil y barato es corregirlo&period; Y ocurre justo lo contrario si no lo hacemos&colon; el coste de corregir un error crece exponencialmente cuanto más tarde se detecta en el ciclo de vida&period; Otros expertos apuntan a que el aprendizaje por refuerzo &lpar;Reinforcement Learning&comma; RL&rpar; podría solucionar el problema&comma; y aquí LeCun respondía que lo haría si tuviésemos datos infinitos para pulir el comportamiento del modelo&comma; cosa que no tenemos&period;<&sol;p>&NewLine;<p>Más que agentes&comma; multiagentes&period; En Anthropic demostraron recientemente cómo hay una forma de mitigar aún más esos errores &lpar;y los posteriores errores acumulados&rpar;&colon; usar sistemas multiagénticos&period; Esto es&colon; que múltiples agentes de IA trabajen en paralelo para luego confrontar sus resultados y determinar el camino o solución óptima&period;<&sol;p>&NewLine;<p> La gráfica muestra la longitud de las tareas que los agentes de IA pueden completar de forma autónoma a lo largo de los últimos años&period; El estudio revela que cada siete meses se dobla el tiempo que puede funcionar un agente de IA para completar tareas con una tasa de éxito del 50&percnt;&period; O lo que es lo mismo&colon; los agentes están mejorando de forma sostenida &lpar;y notable&rpar; con el tiempo&period;<&sol;p>&NewLine;<p>Pero los modelos y los agentes no paran de mejorar &lpar;¿o no&quest;&rpar;&period; El propio Todd apuntaba algo importante y que permite ser optimistas respecto a ese problema&period; &&num;8220&semi;La tasa de error de los modelos de IA se está reduciendo a la mitad aproximadamente cada cinco meses&&num;8221&semi;&comma; explicaba&period; Y a ese ritmo es posible que los agentes de IA puedan completar con éxito decenas de tareas encadenadas en año y medio y centenares en otro año y medio después&period; En The New York Times no estaban de acuerdo&comma; y apuntaban recientemente a que aunque los modelos cada vez son más potentes&comma; también &&num;8220&semi;alucinan&&num;8221&semi; más que anteriores generaciones&period; La &&num;8220&semi;tarjeta de sistema&&num;8221&semi; de o3 y o4-mini precisamente apunta a que hay un problema real con la tasa de errores y &&num;8220&semi;alucinaciones&&num;8221&semi; en ambos modelos&period;<&sol;p>&NewLine;<p>En Xataka &vert; Las alucinaciones siguen siendo el talón de Aquiles de la IA&colon; los últimos modelos de OpenAI inventan más de la cuenta<&sol;p>&NewLine;<p> &&num;8211&semi; La noticia<&sol;p>&NewLine;<p> Todo empieza pidiéndole una cosa a una IA&period; Cuando la IA se lo pide a otras IA comienza el caos <&sol;p>&NewLine;<p> fue publicada originalmente en<&sol;p>&NewLine;<p> Xataka <&sol;p>&NewLine;<p> por<br &sol;>&NewLine; Javier Pastor<&sol;p>&NewLine;<p> &period;   <&sol;p>&NewLine;<p>&ZeroWidthSpace;   <&sol;p>&NewLine;<p>&ZeroWidthSpace; <&sol;p>&NewLine;

Leave a Reply

Your email address will not be published. Required fields are marked *

Noticias Importantes

Copyright © 2017 ERM DIGITAL. powered by ERM.