Ciencia y Tecnología

Tenemos un gran problema con los agentes de IA: se equivocan el 70% de las veces

Published

on

<p>&NewLine; <img src&equals;"https&colon;&sol;&sol;i&period;blogs&period;es&sol;c2971c&sol;ofi-copia-2&sol;1024&lowbar;2000&period;jpeg" alt&equals;"Tenemos un gran problema con los agentes de IA&colon; se equivocan el 70&percnt; de las veces ">&NewLine; <&sol;p>&NewLine;<p>Los <a class&equals;"text-outboundlink" href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;basics&sol;ai-agents-agentes-ia-que-componentes-que-tipos-existen-inteligencia-artificial" data-vars-post-title&equals;"AI Agents o Agentes de IA&colon; qué son&comma; componentes y qué tipos existen en la inteligencia artificial " data-vars-post-url&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;basics&sol;ai-agents-agentes-ia-que-componentes-que-tipos-existen-inteligencia-artificial">agentes de IA<&sol;a> fallan más que una escopeta de feria&period; Eso es al menos lo que revela <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;arxiv&period;org&sol;pdf&sol;2412&period;14161">un reciente estudio<&sol;a> de investigadores de la Universidad Carnegie Mellon &lpar;CMU&rpar; y la Universidad de Duke&period; Estos expertos han analizado el comportamiento de varios de ellos y los han puesto a prueba para comprobar si esto es un &&num;8220&semi;mucho ruido y pocas nueces&&num;8221&semi;&period; Y <a class&equals;"text-outboundlink" href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;pronto-no-importara-quien-tiene-modelo-ia-avanzado-autentica-batalla-libraran-agentes-ia" data-vars-post-title&equals;"Pronto no importará quién tiene el modelo de IA más avanzado&colon; la auténtica batalla la librarán los agentes de IA" data-vars-post-url&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;pronto-no-importara-quien-tiene-modelo-ia-avanzado-autentica-batalla-libraran-agentes-ia">de momento lo es<&sol;a>&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 1 --><&sol;p>&NewLine;<p><strong>La inspiración<&sol;strong>&period; Graham Neubig&comma; profesor de CMU&comma; <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;www&period;theregister&period;com&sol;2025&sol;06&sol;29&sol;ai&lowbar;agents&lowbar;fail&lowbar;a&lowbar;lot&sol;">explicaba<&sol;a> en The Register cómo la inspiración había sido <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;openai&period;com&sol;index&sol;gpts-are-gpts&sol;">un artículo de 2023<&sol;a> de OpenAI&period; En él se hablaba de qué tipos de trabajos podrían ser reemplazados por sistemas de IA&comma; pero como él decía &&num;8220&semi;su metodología fue básicamente preguntarle a ChatGPT si esos trabajos podrían ser automatizados&&num;8221&semi;&period; En ese estudio precisamente quisieron comprobarlo pidiéndole a diversos agentes de IA que intentaran completar tareas que teóricamente deberían realizar profesionales de esos trabajos&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 2 --><&sol;p>&NewLine;<div class&equals;"article-asset article-asset-normal article-asset-center">&NewLine;<div class&equals;"desvio-container">&NewLine;<div class&equals;"desvio">&NewLine;<div class&equals;"desvio-figure js-desvio-figure">&NewLine; <a href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;hay-riesgo-agentes-ia-errores-acumulados-que-sean-telefono-escacharrado" class&equals;"pivot-outboundlink" data-vars-post-title&equals;"Todo empieza pidiéndole una cosa a una IA&period; Cuando la IA se lo pide a otras IA comienza el caos"><br &sol;>&NewLine; <img alt&equals;"Todo empieza pidiéndole una cosa a una IA&period; Cuando la IA se lo pide a otras IA comienza el caos" width&equals;"375" height&equals;"142" src&equals;"https&colon;&sol;&sol;i&period;blogs&period;es&sol;3d87c3&sol;thinking&sol;375&lowbar;142&period;jpeg"><br &sol;>&NewLine; <&sol;a>&NewLine; <&sol;div>&NewLine;<div class&equals;"desvio-summary">&NewLine;<div class&equals;"desvio-taxonomy js-desvio-taxonomy">&NewLine; <a href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;hay-riesgo-agentes-ia-errores-acumulados-que-sean-telefono-escacharrado" class&equals;"desvio-taxonomy-anchor pivot-outboundlink" data-vars-post-title&equals;"Todo empieza pidiéndole una cosa a una IA&period; Cuando la IA se lo pide a otras IA comienza el caos">En Xataka<&sol;a>&NewLine; <&sol;div>&NewLine;<p> <a href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;hay-riesgo-agentes-ia-errores-acumulados-que-sean-telefono-escacharrado" class&equals;"desvio-title js-desvio-title pivot-outboundlink" data-vars-post-title&equals;"Todo empieza pidiéndole una cosa a una IA&period; Cuando la IA se lo pide a otras IA comienza el caos">Todo empieza pidiéndole una cosa a una IA&period; Cuando la IA se lo pide a otras IA comienza el caos<&sol;a>&NewLine; <&sol;div>&NewLine;<&sol;p><&sol;div>&NewLine;<&sol;p><&sol;div>&NewLine;<&sol;div>&NewLine;<p><strong>TheAgentCompany<&sol;strong>&period; Para realizar su estudio los investigadores crearon una compañía ficticia a la que llamaron <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;the-agent-company&period;com&sol;" data-id&equals;"noopener noreferrer">The Agent Company<&sol;a> y la usaron para que distintos modelos agénticos de IA trataran de completar diversas tareas&period; Esos sistemas debían ser capaces de utilizar el acceso a varios servicios como GitLab&comma; Owncloud o RocketChat para ir realizando dichos trabajos&comma; pero su rendimiento fue decepcionante&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 3 --><&sol;p>&NewLine;<p><strong>Un 70&percnt; de errores<&sol;strong>&period; Los investigadores usaron dos entornos de prueba llamados <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;www&period;all-hands&period;dev&sol;blog&sol;openhands-codeact-21-an-open-state-of-the-art-software-development-agent" data-id&equals;"noopener noreferrer">OpenHands CodeAct<&sol;a> y <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;github&period;com&sol;camel-ai&sol;owl&sol;tree&sol;gaia58&period;18" data-id&equals;"noopener noreferrer">OWL-Roleplay<&sol;a> y en ellos fueron probando los modelos de IA más importantes hoy en día&period; El mejor de todos ellos a día de hoy es Claude Sonnet 4&comma; que logró resolver un 33&comma;1&percnt; de las tareas propuestas&period; Por detrás están Claude 3&period;7 Sonnet &lpar;30&comma;9&percnt;&rpar;&comma; Gemini 2&period;5 Pro &lpar;30&comma;3&percnt;&rpar; y&comma; mucho más lejos&comma; unos desastrosos GPT-4o &lpar;8&comma;6&percnt;&rpar;&comma; Llama-3&period;1-405b &lpar;7&comma;4&percnt;&rpar; &comma; Qwen-2&period;5-72b &lpar;5&comma;7&percnt;&rpar; o Amazon Nova Pro v1&period;0 &lpar;1&comma;7&percnt;&rpar;&period; En el mejor de los casos los modelos pueden completar el 30&percnt; de las tareas pedidas&comma; pero fallan en el 70&percnt;&period; O lo que es lo mismo&colon; mucho ruido y pocas nueces según estos benchmarks&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 4 --><&sol;p>&NewLine;<p><strong>Agentes incapaces<&sol;strong>&period; Durante esas pruebas los investigadores observaron diversos tipos de fallo en esos procesos de las tareas&period; Así&comma; hubo agentes negándose a enviar un mensaje a colegas que formaban parte de la tarea&comma; hubo también agentes incapaces de gestionar ventanas de popup durante las sesiones de navegación&comma; e incluso agentes que engañaron o hicieron trampas&period; En uno de los casos&comma; destacaron&comma; un agente que debía consultar a una persona en RocketChat &lpar;una alternativa Open Source a Slack&rpar; no la encontró&comma; así que &&num;8220&semi;le cambió el nombre a otro usuario para darle el del usuario con el que debía contactar&&num;8221&semi;&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 5 --><&sol;p>&NewLine;<p><strong>Pero van mejorando<&sol;strong>&period; Aun con esos problemas&comma; la evolución va siendo positiva en el rendimiento de estos agentes de IA&period; Neubig y su equipo probaron un agente software que era capaz de resolver cerca del 24&percnt; de las tareas que involucraban la navegación web&comma; la programación y algunas tareas relacionadas&period; Seis meses después probaron una nueva versión y lograron un 34&percnt; de tareas completadas&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 6 --><&sol;p>&NewLine;<div class&equals;"article-asset-video article-asset-normal">&NewLine;<div class&equals;"asset-content">&NewLine;<div class&equals;"base-asset-video">&NewLine;<div class&equals;"js-dailymotion"><&sol;div>&NewLine;<&sol;p><&sol;div>&NewLine;<&sol;p><&sol;div>&NewLine;<&sol;div>&NewLine;<p><strong>Imperfectos pero útiles<&sol;strong>&period; No solo eso&colon; estos investigadores apuntaron a que aun fallando tanto&comma; los agentes de IA pueden seguir siendo útiles&period; En ciertos contextos&comma; como el de la programación&comma; una sugerencia parcial de código con el que resolver cierto fragmetno de un programa puede acabar siendo la base de una solución en la que luego el desarrollador pueda trabajar&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 7 --><&sol;p>&NewLine;<p><strong>Cuidado donde los usas<&sol;strong>&period; Pero claro&comma; que los agentes cometan tantos errores puede ser un problema en escenarios más sensibles a estos problemas&period; Así&comma; si encargamos a un agente que escriba correos y los envía a las personas incorrectas&comma; el resultado podría ser un desastre&period; Hay soluciones a la vista&comma; como la creciente adopción del <a class&equals;"text-outboundlink" href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;basics&sol;mcp-model-context-protocol-que-como-funciona-este-estandar-que-permite-funcionamiento-agentes-inteligencia-artificial" data-vars-post-title&equals;"MCP o Model Context Protocol&colon; qué es y cómo funciona este estándar que permite el funcionamiento de agentes de inteligencia artificial" data-vars-post-url&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;basics&sol;mcp-model-context-protocol-que-como-funciona-este-estandar-que-permite-funcionamiento-agentes-inteligencia-artificial">Model Context Protocol<&sol;a> &lpar;MCP&rpar; que facilita la interacción entre servicios y modelos de IA para que la comunicación sea mucho más precisa y se puedan mitigar esos errores durante la ejecución autónoma de tareas&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 8 --><&sol;p>&NewLine;<p><strong>Un benchmark que hace quedar mal a los modelos de IA<&sol;strong>&period; Para este experto una de las grandes decepciones es que las empresas que desarrollan modelos de IA no parecen interesadas en utilizarlo como métrica para mejorar sus desarrollos&period; Neubig sospechaba que &&num;8220&semi;quizás es que es demasiado difícil y les hace quedar mal&&num;8221&semi;&period; Es algo similar a lo que pasa <a class&equals;"text-outboundlink" href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;arc-agi-test-facil-para-humanos-durisimo-para-ias-pregunta-sirve-realmente-para-medir-hemos-llegado-a-agi" data-vars-post-title&equals;"Si la pregunta es si la IA es ya tan buena como la inteligencia humana&comma; la respuesta es&colon; resuelve este puzzle" data-vars-post-url&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;arc-agi-test-facil-para-humanos-durisimo-para-ias-pregunta-sirve-realmente-para-medir-hemos-llegado-a-agi" data-id&equals;"noopener noreferrer">con el benchmark ARC-AGI2<&sol;a>&colon; es un test tan difícil para las IAs que hoy en día <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;arcprize&period;org&sol;leaderboard" data-id&equals;"noopener noreferrer">el mejor de todos los modelos<&sol;a> de IA que tratan de superarlo es o3&comma; que logra —atención— un 3&percnt; de tareas completadas&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 9 --><&sol;p>&NewLine;<p><strong>En Salesforce coinciden<&sol;strong>&period; Ese estudio anterior se complementa <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;arxiv&period;org&sol;abs&sol;2505&period;18878" data-id&equals;"noopener noreferrer">con otro realizado<&sol;a> por un grupo de investigadores de Salesforce&period; Crearon un benchmark propio específicamente destinado a comprobar cómo se comprobarían diversos modelos de IA a la hora de controlar tareas típicas en un CRM como los que desarrolla la firma&period; Su proyecto&comma; llamado CRMArena-Pro&comma; pone a prueba a esos agentes de IA en áreas como el departamento de ventas o de soporte&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 10 --><&sol;p>&NewLine;<div class&equals;"article-asset article-asset-normal article-asset-center">&NewLine;<div class&equals;"desvio-container">&NewLine;<div class&equals;"desvio">&NewLine;<div class&equals;"desvio-figure js-desvio-figure">&NewLine; <a href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;arc-agi-test-facil-para-humanos-durisimo-para-ias-pregunta-sirve-realmente-para-medir-hemos-llegado-a-agi" class&equals;"pivot-outboundlink" data-vars-post-title&equals;"Si la pregunta es si la IA es ya tan buena como la inteligencia humana&comma; la respuesta es&colon; resuelve este puzzle"><br &sol;>&NewLine; <img alt&equals;"Si la pregunta es si la IA es ya tan buena como la inteligencia humana&comma; la respuesta es&colon; resuelve este puzzle" width&equals;"375" height&equals;"142" src&equals;"https&colon;&sol;&sol;i&period;blogs&period;es&sol;45bc96&sol;arc-agi-2&sol;375&lowbar;142&period;jpeg"><br &sol;>&NewLine; <&sol;a>&NewLine; <&sol;div>&NewLine;<div class&equals;"desvio-summary">&NewLine;<div class&equals;"desvio-taxonomy js-desvio-taxonomy">&NewLine; <a href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;arc-agi-test-facil-para-humanos-durisimo-para-ias-pregunta-sirve-realmente-para-medir-hemos-llegado-a-agi" class&equals;"desvio-taxonomy-anchor pivot-outboundlink" data-vars-post-title&equals;"Si la pregunta es si la IA es ya tan buena como la inteligencia humana&comma; la respuesta es&colon; resuelve este puzzle">En Xataka<&sol;a>&NewLine; <&sol;div>&NewLine;<p> <a href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;arc-agi-test-facil-para-humanos-durisimo-para-ias-pregunta-sirve-realmente-para-medir-hemos-llegado-a-agi" class&equals;"desvio-title js-desvio-title pivot-outboundlink" data-vars-post-title&equals;"Si la pregunta es si la IA es ya tan buena como la inteligencia humana&comma; la respuesta es&colon; resuelve este puzzle">Si la pregunta es si la IA es ya tan buena como la inteligencia humana&comma; la respuesta es&colon; resuelve este puzzle<&sol;a>&NewLine; <&sol;div>&NewLine;<&sol;p><&sol;div>&NewLine;<&sol;p><&sol;div>&NewLine;<&sol;div>&NewLine;<p><strong>De sustituir a trabajadores&comma; nada<&sol;strong>&period; En sus conclusiones esos investigadores revelan cómo los modelos de IA &&num;8220&semi;consiguen tasas de éxito globalmente modestas&comma; típicamente alrededor del 58&percnt; en escenarios con un solo turno &lbrack;de ejecución&rsqb;&comma; pero con el rendimiento degradándose significativamente a aproximadamente el 35&percnt; en escenarios multiturno&&num;8221&semi;&period; De hecho&comma; explicaban&comma; &&num;8220&semi;los agentes no están en general bien preparados ni tienen las cualificaciones esenciales para tareas complejas&&num;8221&semi;&period; El riesgo del que hablan algunos expertos&comma; con <a class&equals;"text-outboundlink" href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;sustituir-trabajadores-ia-sonaba-espectacular-hay-empresas-dando-marcha-atras" data-vars-post-title&equals;"Algunas empresas apostaron muy fuerte por sustituir a sus trabajadores por una IA&period; Ya se están arrepintiendo" data-vars-post-url&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;sustituir-trabajadores-ia-sonaba-espectacular-hay-empresas-dando-marcha-atras">un gran impacto de la IA en diversos puestos de trabajo<&sol;a>&comma; parece precipitado&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 11 --><&sol;p>&NewLine;<p><strong>Un futuro complicado<&sol;strong>&period; A estos discretos resultados se une la predicción de la consultora Gartner&period; <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;www&period;gartner&period;com&sol;en&sol;newsroom&sol;press-releases&sol;2025-06-25-gartner-predicts-over-40-percent-of-agentic-ai-projects-will-be-canceled-by-end-of-2027">Según sus estudios<&sol;a>&comma; más del 40&percnt; de los proyectos de agentes de IA en desarrollo acabarán siendo cancelados a finales de 2027&period; La principal responsable del informe&comma; Anushree Verma&comma; indicaba que &&num;8220&semi;En la actualidad&comma; la mayoría de los proyectos de IA agéntica son experimentos o pruebas de concepto en fase inicial&comma; impulsados principalmente por la publicidad y a menudo mal aplicados&&num;8221&semi;&period; El mensaje es claro&colon; hay demasiadas expectativas en relación a los agentes de IA&comma; pero el estado actual de la tecnología demuestra que hoy por hoy su aplicación es problemática y limitada&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 12 --><&sol;p>&NewLine;<p>Imagen &vert; <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;unsplash&period;com&sol;es&sol;fotos&sol;personas-sentadas-en-una-silla-frente-al-monitor-de-la-computadora-Fa9b57hffnM">Sigmund<&sol;a><&sol;p>&NewLine;<p>En Xataka &vert; <a class&equals;"text-outboundlink" href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;empresas-y-economia&sol;startup-ia-seis-meses-vida-seis-empleados-ha-sido-vendida-80-millones-dolares-vibe-coding-supuesto" data-vars-post-title&equals;"Una startup de IA con seis meses de vida y seis empleados se ha vendido por 80 millones de dólares&period; Vibe-coding&comma; por supuesto" data-vars-post-url&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;empresas-y-economia&sol;startup-ia-seis-meses-vida-seis-empleados-ha-sido-vendida-80-millones-dolares-vibe-coding-supuesto">Una startup de IA con seis meses de vida y seis empleados se ha vendido por 80 millones de dólares&period; Vibe-coding&comma; por supuesto<&sol;a><&sol;p>&NewLine;<p> &&num;8211&semi; <br &sol;> La noticia<br &sol;>&NewLine; <a href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;tenemos-gran-problema-agentes-ia-se-equivocan-70-veces&quest;utm&lowbar;source&equals;feedburner&amp&semi;utm&lowbar;medium&equals;feed&amp&semi;utm&lowbar;campaign&equals;30&lowbar;Jun&lowbar;2025"><br &sol;>&NewLine; <em> Tenemos un gran problema con los agentes de IA&colon; se equivocan el 70&percnt; de las veces <&sol;em><br &sol;>&NewLine; <&sol;a><br &sol;>&NewLine; fue publicada originalmente en<br &sol;>&NewLine; <a href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;&quest;utm&lowbar;source&equals;feedburner&amp&semi;utm&lowbar;medium&equals;feed&amp&semi;utm&lowbar;campaign&equals;30&lowbar;Jun&lowbar;2025"><br &sol;>&NewLine; <strong> Xataka <&sol;strong><br &sol;>&NewLine; <&sol;a><br &sol;>&NewLine; por <a href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;autor&sol;javier-pastor&quest;utm&lowbar;source&equals;feedburner&amp&semi;utm&lowbar;medium&equals;feed&amp&semi;utm&lowbar;campaign&equals;30&lowbar;Jun&lowbar;2025"><br &sol;>&NewLine; Javier Pastor<br &sol;>&NewLine; <&sol;a><br &sol;>&NewLine; &period; <&sol;p>&NewLine;<p>&ZeroWidthSpace;Los agentes de IA fallan más que una escopeta de feria&period; Eso es al menos lo que revela un reciente estudio de investigadores de la Universidad Carnegie Mellon &lpar;CMU&rpar; y la Universidad de Duke&period; Estos expertos han analizado el comportamiento de varios de ellos y los han puesto a prueba para comprobar si esto es un &&num;8220&semi;mucho ruido y pocas nueces&&num;8221&semi;&period; Y de momento lo es&period;<&sol;p>&NewLine;<p>La inspiración&period; Graham Neubig&comma; profesor de CMU&comma; explicaba en The Register cómo la inspiración había sido un artículo de 2023 de OpenAI&period; En él se hablaba de qué tipos de trabajos podrían ser reemplazados por sistemas de IA&comma; pero como él decía &&num;8220&semi;su metodología fue básicamente preguntarle a ChatGPT si esos trabajos podrían ser automatizados&&num;8221&semi;&period; En ese estudio precisamente quisieron comprobarlo pidiéndole a diversos agentes de IA que intentaran completar tareas que teóricamente deberían realizar profesionales de esos trabajos&period;<&sol;p>&NewLine;<p> En Xataka<&sol;p>&NewLine;<p> Todo empieza pidiéndole una cosa a una IA&period; Cuando la IA se lo pide a otras IA comienza el caos<&sol;p>&NewLine;<p>TheAgentCompany&period; Para realizar su estudio los investigadores crearon una compañía ficticia a la que llamaron The Agent Company y la usaron para que distintos modelos agénticos de IA trataran de completar diversas tareas&period; Esos sistemas debían ser capaces de utilizar el acceso a varios servicios como GitLab&comma; Owncloud o RocketChat para ir realizando dichos trabajos&comma; pero su rendimiento fue decepcionante&period;<&sol;p>&NewLine;<p>Un 70&percnt; de errores&period; Los investigadores usaron dos entornos de prueba llamados OpenHands CodeAct y OWL-Roleplay y en ellos fueron probando los modelos de IA más importantes hoy en día&period; El mejor de todos ellos a día de hoy es Claude Sonnet 4&comma; que logró resolver un 33&comma;1&percnt; de las tareas propuestas&period; Por detrás están Claude 3&period;7 Sonnet &lpar;30&comma;9&percnt;&rpar;&comma; Gemini 2&period;5 Pro &lpar;30&comma;3&percnt;&rpar; y&comma; mucho más lejos&comma; unos desastrosos GPT-4o &lpar;8&comma;6&percnt;&rpar;&comma; Llama-3&period;1-405b &lpar;7&comma;4&percnt;&rpar; &comma; Qwen-2&period;5-72b &lpar;5&comma;7&percnt;&rpar; o Amazon Nova Pro v1&period;0 &lpar;1&comma;7&percnt;&rpar;&period; En el mejor de los casos los modelos pueden completar el 30&percnt; de las tareas pedidas&comma; pero fallan en el 70&percnt;&period; O lo que es lo mismo&colon; mucho ruido y pocas nueces según estos benchmarks&period;<&sol;p>&NewLine;<p>Agentes incapaces&period; Durante esas pruebas los investigadores observaron diversos tipos de fallo en esos procesos de las tareas&period; Así&comma; hubo agentes negándose a enviar un mensaje a colegas que formaban parte de la tarea&comma; hubo también agentes incapaces de gestionar ventanas de popup durante las sesiones de navegación&comma; e incluso agentes que engañaron o hicieron trampas&period; En uno de los casos&comma; destacaron&comma; un agente que debía consultar a una persona en RocketChat &lpar;una alternativa Open Source a Slack&rpar; no la encontró&comma; así que &&num;8220&semi;le cambió el nombre a otro usuario para darle el del usuario con el que debía contactar&&num;8221&semi;&period;<&sol;p>&NewLine;<p>Pero van mejorando&period; Aun con esos problemas&comma; la evolución va siendo positiva en el rendimiento de estos agentes de IA&period; Neubig y su equipo probaron un agente software que era capaz de resolver cerca del 24&percnt; de las tareas que involucraban la navegación web&comma; la programación y algunas tareas relacionadas&period; Seis meses después probaron una nueva versión y lograron un 34&percnt; de tareas completadas&period;<&sol;p>&NewLine;<p>Imperfectos pero útiles&period; No solo eso&colon; estos investigadores apuntaron a que aun fallando tanto&comma; los agentes de IA pueden seguir siendo útiles&period; En ciertos contextos&comma; como el de la programación&comma; una sugerencia parcial de código con el que resolver cierto fragmetno de un programa puede acabar siendo la base de una solución en la que luego el desarrollador pueda trabajar&period;<&sol;p>&NewLine;<p>Cuidado donde los usas&period; Pero claro&comma; que los agentes cometan tantos errores puede ser un problema en escenarios más sensibles a estos problemas&period; Así&comma; si encargamos a un agente que escriba correos y los envía a las personas incorrectas&comma; el resultado podría ser un desastre&period; Hay soluciones a la vista&comma; como la creciente adopción del Model Context Protocol &lpar;MCP&rpar; que facilita la interacción entre servicios y modelos de IA para que la comunicación sea mucho más precisa y se puedan mitigar esos errores durante la ejecución autónoma de tareas&period;<&sol;p>&NewLine;<p>Un benchmark que hace quedar mal a los modelos de IA&period; Para este experto una de las grandes decepciones es que las empresas que desarrollan modelos de IA no parecen interesadas en utilizarlo como métrica para mejorar sus desarrollos&period; Neubig sospechaba que &&num;8220&semi;quizás es que es demasiado difícil y les hace quedar mal&&num;8221&semi;&period; Es algo similar a lo que pasa con el benchmark ARC-AGI2&colon; es un test tan difícil para las IAs que hoy en día el mejor de todos los modelos de IA que tratan de superarlo es o3&comma; que logra —atención— un 3&percnt; de tareas completadas&period;<&sol;p>&NewLine;<p>En Salesforce coinciden&period; Ese estudio anterior se complementa con otro realizado por un grupo de investigadores de Salesforce&period; Crearon un benchmark propio específicamente destinado a comprobar cómo se comprobarían diversos modelos de IA a la hora de controlar tareas típicas en un CRM como los que desarrolla la firma&period; Su proyecto&comma; llamado CRMArena-Pro&comma; pone a prueba a esos agentes de IA en áreas como el departamento de ventas o de soporte&period;<&sol;p>&NewLine;<p> En Xataka<&sol;p>&NewLine;<p> Si la pregunta es si la IA es ya tan buena como la inteligencia humana&comma; la respuesta es&colon; resuelve este puzzle<&sol;p>&NewLine;<p>De sustituir a trabajadores&comma; nada&period; En sus conclusiones esos investigadores revelan cómo los modelos de IA &&num;8220&semi;consiguen tasas de éxito globalmente modestas&comma; típicamente alrededor del 58&percnt; en escenarios con un solo turno &lbrack;de ejecución&rsqb;&comma; pero con el rendimiento degradándose significativamente a aproximadamente el 35&percnt; en escenarios multiturno&&num;8221&semi;&period; De hecho&comma; explicaban&comma; &&num;8220&semi;los agentes no están en general bien preparados ni tienen las cualificaciones esenciales para tareas complejas&&num;8221&semi;&period; El riesgo del que hablan algunos expertos&comma; con un gran impacto de la IA en diversos puestos de trabajo&comma; parece precipitado&period;<&sol;p>&NewLine;<p>Un futuro complicado&period; A estos discretos resultados se une la predicción de la consultora Gartner&period; Según sus estudios&comma; más del 40&percnt; de los proyectos de agentes de IA en desarrollo acabarán siendo cancelados a finales de 2027&period; La principal responsable del informe&comma; Anushree Verma&comma; indicaba que &&num;8220&semi;En la actualidad&comma; la mayoría de los proyectos de IA agéntica son experimentos o pruebas de concepto en fase inicial&comma; impulsados principalmente por la publicidad y a menudo mal aplicados&&num;8221&semi;&period; El mensaje es claro&colon; hay demasiadas expectativas en relación a los agentes de IA&comma; pero el estado actual de la tecnología demuestra que hoy por hoy su aplicación es problemática y limitada&period;<&sol;p>&NewLine;<p>Imagen &vert; Sigmund<&sol;p>&NewLine;<p>En Xataka &vert; Una startup de IA con seis meses de vida y seis empleados se ha vendido por 80 millones de dólares&period; Vibe-coding&comma; por supuesto<&sol;p>&NewLine;<p> &&num;8211&semi; La noticia<&sol;p>&NewLine;<p> Tenemos un gran problema con los agentes de IA&colon; se equivocan el 70&percnt; de las veces <&sol;p>&NewLine;<p> fue publicada originalmente en<&sol;p>&NewLine;<p> Xataka <&sol;p>&NewLine;<p> por<br &sol;>&NewLine; Javier Pastor<&sol;p>&NewLine;<p> &period;   <&sol;p>&NewLine;<p>&ZeroWidthSpace;   <&sol;p>&NewLine;<p>&ZeroWidthSpace; <&sol;p>&NewLine;

Leave a Reply

Your email address will not be published. Required fields are marked *

Noticias Importantes

Copyright © 2017 ERM DIGITAL. powered by ERM.